Zabezpieczyłeś wywołania narzędzi swojego agenta. Nikt nie zabezpieczył odpowiedzi.

Zrobiłeś wszystko jak trzeba. Prześwietliłeś swoje serwery MCP (Model Context Protocol — uniwersalny standard wtyczek dla narzędzi AI, taki USB, ale dla danych), zablokowałeś uprawnienia, przypiąłeś wersje schematów, żeby twój agent AI — program, który sam korzysta z narzędzi — wywoływał tylko to, co zatwierdzisz. Twoja infrastruktura agentowa wygląda jak produkcyjny pancernik. Śpisz spokojnie.

Nie powinieneś.

Bo każde narzędzie, które twój agent wywołuje, odsyła odpowiedź. I na dzień 25 kwietnia 2026, praktycznie nikt w branży nie waliduje tego, co siedzi w tej odpowiedzi, zanim wyląduje ona w oknie kontekstu agenta — pamięci roboczej, gdzie model AI nie odróżnia zaufanych instrukcji od śmieci, które właśnie zwróciło jakieś narzędzie.

Trzy platformy, ten sam martwy punkt

Od początku kwietnia trzy największe firmy AI wypuściły funkcje bezpieczeństwa agentów — wszystkie pilnują niewłaściwych drzwi.

8 kwietnia Anthropic uruchomił Managed Agents z zakresowymi uprawnieniami i przechowywaniem danych uwierzytelniających. Kontroluje które narzędzia agent może wywoływać. Co te narzędzia odpowiadają? Nie ich problem.

16 kwietnia OpenAI zaktualizowało swoje Agents SDK o automatyczny tracing — system logowania, który rejestruje każde wywołanie narzędzia, przekazanie i zdarzenie guardrail. Obserwuje odpowiedzi. Nie sanityzuje ich. To jak zainstalowanie kamery monitoringu, która patrzy, jak ktoś wchodzi z nożem i to sobie zapisuje.

22 kwietnia Google dostarczył Agent Gateway na Cloud Next z Model Armor, który faktycznie sanityzuje zarówno wywołania narzędzi, jak i odpowiedzi — skanując pod kątem prompt injection, złośliwych URL-i i wycieku danych. Google, trzeba mu oddać, jest jedyną dużą platformą, która jawnie pilnuje strony odpowiedzi. Jest w preview.

Dlaczego to ważne: drzwi stoją na oścież

Specyfikacja MCP definiuje inputSchema — ścisły format tego, co wysyłasz do narzędzia. Nie ma żadnego outputSchema. Odpowiedzi narzędzi to dowolny tekst lub JSON, który niefiltrowany wpływa do rozumowania modelu. Spec dosłownie nie ma pola na 'zwaliduj to, co wraca".

To tworzy trzy wektory ataku, od których powinieneś mieć bezsenność:

Indirect prompt injection — narzędzie zwraca treść z ukrytymi instrukcjami. Raport PipeLab State of MCP Security 2026 (opublikowany w kwietniu 2026) dokumentuje realny przypadek: atakujący spreparował złośliwy issue na GitHubie tak, żeby gdy serwer MCP go pobrał, odpowiedź nakazała agentowi wyciągnięcie zawartości prywatnych repozytoriów. 'Opisy narzędzi były czyste. Zatrucie siedziało w danych, które narzędzie zwróciło."

Context flooding — narzędzie zwraca tyle danych, że topi pamięć roboczą agenta, wypychając krytyczne instrukcje poza okno kontekstu.

Łańcuchy eksfiltracji danych — zatruty response nakazuje agentowi przesłanie wrażliwego kontekstu do innego narzędzia. Artykuł badawczy Log-To-Leak (opublikowany w marcu 2026) zademonstrował to na GPT-5, Claude Sonnet 4 i innych — osiągając 100% skuteczność ataku na GPT-5 podłączonym do serwera MCP PayPala, z 94,6% dokładnością wycieku danych.

Tymczasem 16 kwietnia OX Security ujawniło 11 CVE dotyczących około 200 000 instancji serwerów MCP. Oficjalna odpowiedź Anthropic: sanityzacja to 'odpowiedzialność dewelopera". Nawet OWASP MCP Top 10 (wydany w kwietniu 2026) — pierwsza próba stworzenia frameworku bezpieczeństwa MCP w branży — nie ma dedykowanej kategorii dla niewalidowanych odpowiedzi narzędzi. Luka jest tak znormalizowana, że ludzie piszący standardy bezpieczeństwa nawet jej nie nazwali.

Cena naprawy

Dodanie walidacji odpowiedzi rozbija prostotę, która zrobiła z MCP sukces. Narzędzia potrzebowałyby schematów wyjściowych. Agenty potrzebowałyby warstwy sanityzacji — czegoś jak Microsoft Agent Governance Toolkit (open-source od 2 kwietnia), który zawiera bramkę bezpieczeństwa MCP z inspekcją odpowiedzi. Każde wywołanie zyskuje narzut parsowania. Doświadczenie 'po prostu podepnij narzędzia" umiera.

Ale alternatywa jest gorsza.

Co to znaczy dla ciebie

Dopóki walidacja po stronie odpowiedzi nie pojawi się wszędzie, każdy podłączony serwer MCP to niefiltrowany rurociąg prosto do mózgu twojego agenta. Cały budżet bezpieczeństwa wydany na bramki wejściowe chroni niewłaściwy koniec wywołania. Jeśli dziś odpalasz agenty na produkcji, potrzebujesz albo Google Model Armor (preview), albo Microsoft AGT, albo własnego middleware'u do sanityzacji odpowiedzi. 'Ufaj narzędziu" to nie polityka bezpieczeństwa.

Zamknąłeś drzwi frontowe. Tylne drzwi nie mają zamka. Nie mają nawet drzwi.

Najbliższy poważny incydent bezpieczeństwa agentów nie przyjdzie od złego wywołania narzędzia. Przyjdzie od odpowiedzi narzędzia.

Zabezpieczyłeś wywołania narzędzi swojego agenta. Nikt nie zabezpieczył odpowiedzi.

Trzy platformy, ten sam martwy punkt

Dlaczego to ważne: drzwi stoją na oścież

Cena naprawy

Co to znaczy dla ciebie

Keep reading

Google ADK 1.0: twoje narzedzia AI moga byc tajnymi agentami

Kazdy tekst, ktory czyta twoj agent AI, to niepodpisane polecenie

Twoj pierwszy serwer MCP w Pythonie: 40 linijek od ludzkiego kopiuj-wklej do AI, ktore widzi twoje dane

Twoj agent wybiera zle narzedzie, bo napisales kiepski opis -- i zadna platforma sie tym nie przejmuje