Instalujesz apki z App Store. Pobierasz paczki z npm. Wrzucasz obrazy chmurowe z AWS Marketplace. Każdy kawałek softu, który odpalasz, przeszedł czyjąś bramkę jakości — podpisy kodu, audyty uprawnień, skany CVE. Nie myślisz o tym, bo system działa. Przeważnie.

Teraz twój zespół musi wdrożyć gotowego agenta AI — program, który nie siedzi grzecznie czekając na kliknięcia, tylko działa autonomicznie na twojej infrastrukturze, wysyła maile, odpytuje bazy danych, podejmuje decyzje. Otwierasz listing w marketplace i widzisz: logo vendora, akapit marketingowej papki i przycisk "Zainstaluj". To tyle.

Agentowa Chmura nadchodzi

Google Cloud Next 2026 ruszył dziś w Las Vegas, a CEO Thomas Kurian miał jedno hasło na keynote: "The Agentic Cloud". Tłumaczenie: Google chce agentów wszędzie i chce, żebyś wdrażał ich z ich sklepu. Agent Garden — kuratorska kolekcja przykładowych agentów z wdrożeniem jednym kliknięciem. Rozbudowana sekcja AI Agents w Cloud Marketplace z filtrami kompatybilności A2A. ADK dobiło do v1.0 dla Pythona. Przychody z chmury: 17,7 miliarda dolarów w ostatnim kwartale, wzrost o 48%. Zaległe zamówienia podwoiły się do 240 miliardów. Google nie sprzedaje wizji — buduje centrum handlowe i drukuje umowy najmu.

Ale jest coś, o czym nikt na scenie nie wspomniał: proces weryfikacji Google Cloud Marketplace sprawdza kompletność integracji i model cenowy. Nie to, co agent faktycznie robi, kiedy trzyma twoje credentiale i dostaje niejednoznaczną instrukcję.

Statyczne vs. behawioralne: luka weryfikacyjna

Sklepy z aplikacjami weryfikują właściwości statyczne — uprawnienia, podpisy kodu, znane podatności (CVE — publicznie katalogowane bugi bezpieczeństwa). To działa, gdy oprogramowanie czeka na twój input. Agenci nie czekają. Rozumują, planują i wykonują. Weryfikacja tego, czym oprogramowanie jest (bezpieczne, podpisane, zgodne) to rozwiązany problem. Weryfikacja tego, co oprogramowanie robi w nieprzewidywalnych warunkach runtime — to fundamentalnie inny kaliber wyzwania.

Jak zauważył ReversingLabs 15 kwietnia: "Choć działania LLM-a mogą być audytowalne, rozumowanie stojące za tymi działaniami może być niepoznawalne." To nie filozoficzna dywagacja. To znaczy, że skanery marketplace'ów mogą zweryfikować, że kod agenta jest czysty, a jednocześnie są strukturalnie niezdolne do przewidzenia jego zachowania w runtime.

Szkody już udokumentowano

To nie jest teoria. Pod koniec stycznia atak ClawHavoc pokazał dokładnie, jak tę lukę się wykorzystuje. Między 27 stycznia a 5 lutego atakujący wrzucili 1184 złośliwe skille na ClawHub — mniej więcej co piąty pakiet w ekosystemie. Jedno konto autora uploadowało 677 z nich. Dziewięć CVE. Skille dziedziczą pełne uprawnienia agenta, który je uruchamia — dostęp do prywatnych danych, klucze API, cała reszta. Marketplace nie miał żadnej weryfikacji behawioralnej, żeby cokolwiek z tego wyłapać.

Manifold Security uruchomił platformę Manifest 14 kwietnia dokładnie po to — indeksuje ponad 238 000 skilli w rejestrach agentów z analizą grafów wykonania, mapując co agent faktycznie robi w runtime, zamiast tego, co deklaruje w metadanych. Microsoft wypuścił Agent Governance Toolkit 2 kwietnia z podpisywaniem pluginów Ed25519 i dynamicznym scoringiem zaufania. To znaczące kroki. Ale to toolkity governance'owe i niezależne platformy — nie ogólnorynkowe standardy certyfikacji wbudowane w przycisk "Zainstaluj".

Ty jesteś działem QA

Dopóki nie istnieje skalowalna certyfikacja behawioralna — sposób weryfikacji tego, co agent robi, a nie tylko tego, co deklaruje — każdy agent zainstalowany z dowolnego marketplace'u to nieaudytowany autonomiczny aktor działający pod twoją tożsamością, z twoimi credentialami, na twojej infrastrukturze. Agenci first-party od Google czy Microsoftu mają za sobą zaufanie do marki. Ale ekonomia marketplace wymaga listingów third-party, agentów społecznościowych, niszowych integracji. Tam sklepy z aplikacjami żyją albo umierają. I tam nikt nie sprawdza.

Pamiętasz, jak nie myślałeś o weryfikacji w app store, bo system po prostu działał? Dla agentów ten system jeszcze nie istnieje. Vendor, który go zbuduje, nie wygra tylko kolejnej funkcji produktowej — będzie właścicielem warstwy zaufania siedzącej nad każdym konkurencyjnym runtime'em agentowym. Google, Anthropic, OpenAI — wszyscy będą potrzebować kogoś, kto odpowie na pytanie, które ich marketplace'y aktualnie omijają: co ten agent właściwie robi?