पिछले weekend तुमने अपना पहला असली agent wire करके finish किया। ये Google Calendar के through meetings book करता है, Linear पे tickets file करता है, तुम्हारे Postgres read replica को poke करता है, और अपने खुद के follow-up emails भी लिखता है। Monday को तुमने demo दिया। तुम्हारे PM ने smile किया, head hilaaya, और फिर वो एक सवाल पूछा जिसका जवाब तुम्हारे पास नहीं था: तुम्हें कैसे पता कि ये काम करता है?
तुम्हें नहीं पता। किसी को नहीं पता। April 2026 में ship हुआ हर major agent SDK चुपचाप ये assume कर रहा था कि तुम्हारे पास पहले से ही test strategy है — जबकि हकीकत में ज़्यादातर teams के पास बस एक Slack channel है जिसका नाम है #agent-weirdness और एक prayer।
दो हफ़्तों के receipts
8 April 2026 को, Anthropic ने Managed Agents public beta में launch किया — token cost के ऊपर $0.08 per session-hour, और Claude Console में एक fresh Sessions tab traces, tool calls, और cost के लिए। सात दिन बाद, 15 April को, OpenAI ने अपना Agents SDK update किया एक native sandbox के साथ (तुम्हारे agent का code एक isolated VM में चलाता है ताकि वो तुम्हारे laptop पर rm -rf ना कर दे), MCP tool use (MCP = Model Context Protocol, AI tools के लिए एक universal plug standard), memory config, और एक portable AGENTS.md instruction file।
दोनों के बीच में: एक runtime, एक sandbox, traces, एक billing meter। दोनों के बीच में: zero native offline eval harness। Eval harness LLMs के लिए एक test runner है — agent का pytest equivalent, वो चीज़ जो fixed scenarios replay करती है और तुम्हें pass या fail बताती है इससे पहले कि customer तुम्हारे लिए ये करे 😹।
एक agent test को असल में क्या चाहिए
Unit test नहीं। Agent test को चाहिए deterministic replay (same input, same trace), tool-call mocking (तुम्हारा test actually किसी को email नहीं करना चाहिए), LLM-as-judge rubrics (एक दूसरा model पहले वाले की homework check करता है), trajectory scoring (क्या उसने दस steps लिए जब तीन में काम हो जाता?), और regression fixtures जिन्हें हर prompt tweak के बाद rerun कर सको।
कोई ये ship नहीं करता। तुम इसे पाँच vendors से glue करके बनाते हो:
# Typical 2026 agent test stack — तीन pick करो, हर महीने swap करो
import promptfoo # YAML regressions (अब OpenAI का है)
import braintrust # LLM-as-judge + CI gates ($)
from langsmith import Client # LangGraph के लिए trajectory scoring
import phoenix as px # OpenTelemetry self-host
from deepeval import assert_test # pytest-shaped metrics
पाँच tools, पाँच auth surfaces, पाँच bills, हर trajectory की दो copies। कोई shared interchange format नहीं। जब vendor API change करे तो call करने को कोई नहीं।
Framework authors को पता है
LangChain ने चुप वाली बात ज़ोर से बोल दी। 2 April की एक post में, उनकी Deep Agents team ने सात hand-rolled eval categories detail की — file ops, tool use, retrieval, conversation, memory, summarization, unit tests — सब externally pytest + GitHub Actions के through run होते हैं, SDK में baked नहीं। छह दिन बाद उन्होंने evals को "iterative improvement drive करने का primary signal" बताया — एक polite admission कि harness पहले ship हुआ, tests "soon" ship होंगे। 😾
Bolted-on testing का bill
LLM-as-judge loops token cost को compound करते हैं — अब तुम agent और उसके grader दोनों के लिए pay कर रहे हो। Self-hosted Phoenix पैसे बचाता है लेकिन infra तुम्हें run करना है। Braintrust जैसे managed vendors एक और monthly invoice add करते हैं। और 9 March 2026 को OpenAI ने Promptfoo acquire कर लिया — दो independent open-source CLIs में से एक अब एक model vendor की property है। तुम्हारा neutral test layer अब neutral नहीं रहा।
22 April को Google Cloud Next से पहले क्या करना है
इस हफ़्ते एक tool pick करो। Solo हो? Promptfoo, अभी के लिए Apache 2.0 है। Team हो? Braintrust या LangSmith। Paranoid / self-hosted? Arize Phoenix। असली user tasks से दस trajectory fixtures लिखो। हर prompt या model swap पर run करो।
क्योंकि तुम्हारे agent के पास unit tests नहीं हैं। तुम्हारे competitor के पास भी नहीं हैं। जो भी opinionated eval primitive SDK के अंदर ship करेगा, वो अगला moat own करेगा — वही tool teams 2028 में भी चला रही होंगी 🐈⬛।



