Skończyłeś składać swojego pierwszego prawdziwego agenta w zeszły weekend. Umawia spotkania przez Google Calendar, zakłada tickety w Linearze, grzebie w twojej replice Postgresa i nawet sam pisze follow-upy mailowe. W poniedziałek zrobiłeś demo. Twój PM się uśmiechnął, pokiwał głową, a potem zadał jedno pytanie, na które nie umiałeś odpowiedzieć: skąd wiesz, że to w ogóle działa?

Nie wiesz. Nikt nie wie. Każdy większy agent SDK, który wyszedł w kwietniu 2026, po cichu założył, że masz już gotową strategię testów — a w praktyce większość zespołów ma kanał slackowy #agent-weirdness i modlitwę.

Paragony z ostatnich dwóch tygodni

8 kwietnia 2026 Anthropic wypuścił Managed Agents w publicznej becie — 0,08 USD za godzinę sesji ponad koszt tokenów, ze świeżutką zakładką Sessions w Claude Console na trace'y, wywołania toolów i koszty. Siedem dni później, 15 kwietnia, OpenAI zaktualizowało swoje Agents SDK, dokładając natywny sandbox (odpala kod agenta w izolowanej VM, żeby nie zrobił ci rm -rf na lapku), wsparcie dla MCP (MCP = Model Context Protocol, uniwersalna wtyczka dla narzędzi AI), konfigurację pamięci i przenośny plik instrukcji AGENTS.md.

Razem: runtime, sandbox, trace'y, licznik opłat. Razem: zero natywnego offline eval harness. Eval harness to test runner dla LLM-ów — agentowy odpowiednik pytest, coś, co odtwarza ustalone scenariusze i mówi pass albo fail, zanim zrobi to za ciebie klient 😹.

Czego agent test tak naprawdę potrzebuje

To nie jest unit test. Agent test potrzebuje deterministycznego replay (ten sam input, ten sam trace), mockowania wywołań toolów (twój test nie powinien naprawdę wysyłać maili do ludzi), rubryk LLM-as-judge (drugi model sprawdzający zadanie pierwszego), trajectory scoring (czy zrobił dziesięć kroków, gdy wystarczyły trzy?) i fikstur regresyjnych, które odpalisz po każdym poprawieniu prompta.

Nikt tego nie dostarcza out-of-the-box. Sklejasz to z pięciu vendorów:

# Typowy agent test stack w 2026 — wybierz trzy, co miesiąc wymieniaj
import promptfoo          # regresje w YAML (teraz własność OpenAI)
import braintrust         # LLM-as-judge + CI gates ($)
from langsmith import Client  # trajectory scoring dla LangGraph
import phoenix as px      # OpenTelemetry self-host
from deepeval import assert_test  # metryki w kształcie pytest

Pięć narzędzi, pięć powierzchni auth, pięć faktur, dwie kopie każdej trajektorii. Żadnego wspólnego formatu wymiany. Nie ma do kogo zadzwonić, gdy vendor zmieni API.

Autorzy frameworków wiedzą

LangChain powiedział cichą część na głos. We wpisie z 2 kwietnia ich zespół Deep Agents rozpisał siedem ręcznie sklejonych kategorii ewaluacji — operacje na plikach, użycie toolów, retrieval, konwersacje, pamięć, streszczanie, unit testy — wszystkie odpalane zewnętrznie przez pytest + GitHub Actions, nie wbudowane w SDK. Sześć dni później nazwali ewaluacje "głównym sygnałem napędzającym iteracyjne ulepszenia" — uprzejme przyznanie, że harness wyszedł pierwszy, a testy wyjdą "wkrótce". 😾

Rachunek za testy doklejone taśmą

Pętle LLM-as-judge mnożą koszt tokenów — płacisz teraz za agenta i za jego egzaminatora. Self-hosted Phoenix oszczędza hajs, ale infra na twoim karku. Managed vendorzy jak Braintrust dokładają kolejną miesięczną fakturę. A 9 marca 2026 OpenAI kupiło Promptfoo — jeden z dwóch niezależnych open-source'owych CLI jest teraz własnością vendora modeli. Twoja neutralna warstwa testów już nie jest neutralna.

Co zrobić przed Google Cloud Next 22 kwietnia

Wybierz jedno narzędzie w tym tygodniu. Solo? Promptfoo, póki co nadal Apache 2.0. Zespół? Braintrust albo LangSmith. Paranoik / self-hosted? Arize Phoenix. Napisz dziesięć fikstur trajektorii z prawdziwych tasków użytkownika. Odpalaj je przy każdej zmianie prompta lub modelu.

Bo twój agent nie ma unit testów. Agent konkurencji też nie. Kto wypuści zdecydowany eval primitive wewnątrz SDK — ten zabiera następną fosę. To będzie narzędzie, które zespoły będą odpalać jeszcze w 2028 🐈‍⬛.