Twoj agent wybiera zle narzedzie, bo napisales kiepski opis -- i zadna platforma sie tym nie przejmuje

Podłączyłeś swojego agenta AI do kilkunastu narzędzi — Slack, GitHub, Jira, baza danych — i patrzyłeś, jak pewny siebie wrzuca komentarz do Jiry zamiast wysłać wiadomość na Slacku. A potem jeszcze wystawił ci za to rachunek. Klasyczny wtorek.

Twój instynkt podpowiada: 'weź lepszy model." Ale model nie rozumuje źle. On czyta jedyne informacje, jakie ma o każdym narzędziu: pole description — kilka linijek czystego tekstu — które jakiś developer napisał o drugiej w nocy na hackatonie. Ten opis to prompt. Tylko nie wiedziałeś, że go piszesz.

Kwiecień 2026 przyniósł ofensywę platform agentowych. 8 kwietnia Anthropic uruchomił Claude Managed Agents — usługę chmurową obsługującą infrastrukturę, zarządzanie stanem i orkiestrację narzędzi za $0,08 za godzinę sesji. 15 kwietnia OpenAI zaktualizowało swoje Agents SDK o piaskownice i zabezpieczenia. Potem na Cloud Next (22–24 kwietnia) Google odsłoniło Gemini Enterprise Agent Platform z flagową funkcją: Agent Optimizer — algorytm, który automatycznie dostraja instrukcje agenta, klastrując rzeczywiste błędy.

Trzy platformy w trzy tygodnie, każda obiecuje mądrzejszych agentów. I haczyk, o którym żadna nie wspomniała: wszystkie trzy optymalizują system prompt. Żadna nie dotyka opisów narzędzi.

Zgodnie z dokumentacją samego Google, algorytm Agent Optimizer operuje wyłącznie na instrukcjach systemowych. Pole description w schemacie każdego narzędzia — tekst, który model faktycznie czyta, żeby zdecydować, które narzędzie wywołać — leży w martwym punkcie. Managed Agents Anthropica dziedziczą opisy MCP, które im podrzucisz. SDK OpenAI przepuszcza twoje schematy funkcji bez zmian. Optymalizacja kończy się na progu.

Mechanizm jest prosty. Kiedy agent wywołuje narzędzia, LLM otrzymuje schemat JSON dla każdego zarejestrowanego narzędzia. Każdy schemat zawiera pole description w czystym tekście. Model czyta je wszystkie przy każdym wywołaniu i wybiera najlepsze dopasowanie. MCP, OpenAI function calling, Google ADK — ten sam wzorzec. To prompt engineering w przebraniu, a żadna platforma nie waliduje tych promptów za ciebie.

Jakość tych promptów jest fatalna. Benchmark z marca 2026 wykazał, że ponad 97% opisów serwerów MCP zawiera co najmniej jeden problem jakościowy — niejasne opisy celu, brakujące przypadki brzegowe, dwuznaczna semantyka parametrów. Pisaliśmy już o efektach końcowych: rozrastanie się narzędzi zabija celność, a zespoły, które audytują agresywnie, widzą natychmiastowe poprawy. Ale przyczyna źródłowa się nie zmienia. Nikt nie przegląda tekstu w polu description z taką samą rygorem, z jakim przegląda kod.

Tymczasem te opisy żrą tokeny, niezależnie od tego, czy narzędzie zostanie wywołane, czy nie. Sam serwer MCP GitHuba (93 narzędzia) wstrzykuje ~55 000 tokenów samymi schematami. Połącz GitHub, Slack i Sentry: 143 000 tokenów. To 72% okna kontekstowego 200K zjedzone, zanim agent zrobi cokolwiek pożytecznego. Przy 100 zapytaniach dziennie to 510 dolarów miesięcznie czystego narzutu na schematy. Nie płacisz za inteligencję. Płacisz za to, żeby model czytał kiepską dokumentację przy każdym wywołaniu.

I żaden rejestr tego nie naprawia. Według analizy TrueFoundry z kwietnia 2026 oficjalny MCP Registry nie ma 'wbudowanego kuratorstwa, ocen ani funkcji governance." Smithery nie oferuje oceny niezawodności. MCP Market nie daje 'żadnych gwarancji jakości ani bezpieczeństwa." Ponad 10 000 serwerów MCP na wolności, 97 milionów pobrań SDK miesięcznie — i ani jeden marketplace nie sprawdza, czy opis narzędzia faktycznie odpowiada temu, co narzędzie robi.

Google, Anthropic i OpenAI — każdy wypuścił platformę agentową zakładającą, że warstwa narzędzi to problem kogoś innego. Google nawet zoptymalizuje ci system prompt — ale to nie system prompt decyduje o wyborze narzędzia. Robi to pole description. A teraz w tym polu siedzi nocna proza dewelopera z hackatonu, skopiowana przez tysiąc forków MCP, czytana przez każdy model przy każdym wywołaniu i przeglądana przez absolutnie nikogo.

Więc zanim zaktualizujesz model, zmienisz dostawcę albo podłączysz 51. integrację — zrób audyt opisów, które już masz. To prompty, o których nie wiedziałeś, że je piszesz, a kontrolują każdą decyzję o wyborze narzędzia, jaką podejmuje twój agent.

Następny wyróżnik w ekosystemie narzędzi agentowych nie będzie polegał na tym, kto ma najwięcej integracji. Będzie na tym, kto je dobrze opisze. Pierwszy rejestr, który wymusi jakość opisów, stanie się npm-em z TypeScriptem świata agentów — a na razie taki rejestr nie istnieje.

Twoj agent wybiera zle narzedzie, bo napisales kiepski opis -- i zadna platforma sie tym nie przejmuje

Keep reading

Twoj pierwszy serwer MCP w Pythonie: 40 linijek od ludzkiego kopiuj-wklej do AI, ktore widzi twoje dane

Roadmapa MCP na 2026 ma cztery priorytety. Obsluga bledow nie jest jednym z nich

Przeladowanie narzedzi MCP: kazdy kolejny serwer robi twojego agenta glupszym

Trzy SDK agentowe wchodzi na produkcje. Nikt nie wychodzi.