Conectaste tu agente de IA a una docena de herramientas — Slack, GitHub, Jira, una base de datos — y lo viste enviar con total confianza un comentario en Jira donde debía ir un mensaje de Slack. Y después te cobró por el favor. Un martes cualquiera.

Tu instinto dice "consigue un modelo mejor". Pero el modelo no está razonando mal. Está leyendo la única información que tiene sobre cada herramienta: un campo description — unas pocas líneas de texto plano — que algún desarrollador escribió a las 2 AM durante un hackathon. Esa descripción es un prompt. Solo que no sabías que estabas escribiendo uno.

Abril de 2026 trajo una avalancha de plataformas para agentes. El 8 de abril, Anthropic lanzó Claude Managed Agents — un servicio en la nube que maneja infraestructura, gestión de estado y orquestación de herramientas a $0.08 por hora de sesión. El 15 de abril, OpenAI actualizó su Agents SDK con entornos sandbox y guardrails. Luego, en Cloud Next (22-24 de abril), Google presentó la Gemini Enterprise Agent Platform con una función estrella: Agent Optimizer — un algoritmo que ajusta automáticamente las instrucciones del agente agrupando fallos del mundo real.

Tres plataformas en tres semanas, cada una prometiendo hacer tus agentes más inteligentes. Aquí viene lo que ninguna mencionó: las tres optimizan el system prompt. Ninguna toca las descripciones de herramientas.

Según la propia documentación de Google, el algoritmo Agent Optimizer opera exclusivamente sobre las instrucciones del sistema. El campo description en cada esquema de herramienta — el texto que el modelo realmente lee para decidir cuál herramienta usar — queda en un punto ciego. Los Managed Agents de Anthropic heredan las descripciones MCP que les alimentes. El SDK de OpenAI pasa tus function schemas tal cual. La optimización se detiene en la puerta de entrada.

Así funciona el mecanismo. Cuando un agente invoca herramientas, el LLM recibe un esquema JSON de cada herramienta registrada. Cada esquema incluye un campo description en texto plano. El modelo los lee todos en cada llamada y elige el que mejor coincida. MCP, OpenAI function calling, el ADK de Google — mismo patrón. Esto es prompt engineering disfrazado, y ninguna plataforma valida estos prompts por ti.

La calidad de esos prompts es deprimente. Un benchmark de marzo de 2026 encontró que más del 97% de las descripciones de servidores MCP contienen al menos un problema de calidad — declaraciones de propósito poco claras, casos límite omitidos, semántica de parámetros ambigua. Ya cubrimos los efectos en cadena antes: la proliferación de herramientas destruye la precisión, y los equipos que auditan agresivamente ven mejoras inmediatas. Pero la causa raíz persiste. Nadie revisa el texto de las descripciones con el mismo rigor con que revisa el código.

Mientras tanto, esas descripciones consumen tokens aunque la herramienta no se ejecute. Solo el servidor MCP de GitHub (93 herramientas) inyecta ~55,000 tokens solo en esquemas. Apila GitHub, Slack y Sentry juntos: 143,000 tokens. Eso es el 72% de una ventana de contexto de 200K consumida antes de que el agente haga algo útil. A 100 solicitudes diarias, eso son $510 al mes en puro overhead de esquemas. No estás pagando por inteligencia. Estás pagando para que el modelo lea documentación mala en cada llamada.

Y ningún registry soluciona esto. Según el análisis de TrueFoundry de abril de 2026, el MCP Registry oficial "no tiene curación, calificaciones ni funciones de gobernanza integradas". Smithery no ofrece evaluación de confiabilidad. MCP Market "no ofrece garantía de calidad ni seguridad". Más de 10,000 servidores MCP en circulación, 97 millones de descargas mensuales del SDK, y ni un solo marketplace califica si la descripción de una herramienta realmente coincide con lo que la herramienta hace.

Google, Anthropic y OpenAI lanzaron plataformas de agentes que asumen que la capa de herramientas es problema de alguien más. Google incluso optimiza tu system prompt por ti — pero el system prompt no es donde ocurre la selección de herramientas. Es en el campo description. Y ahora mismo, ese campo es la prosa de las 2 AM de un desarrollador en un hackathon, copiada y pegada en miles de forks MCP, leída por cada modelo en cada llamada, y revisada por absolutamente nadie.

Así que antes de actualizar tu modelo, cambiar de proveedor o conectar tu integración número 51 — audita las descripciones que ya envías. Son prompts que no sabías que estabas escribiendo, y controlan cada decisión de herramienta que tu agente toma.

El próximo diferenciador en el ecosistema de herramientas para agentes no será quién tiene más integraciones. Será quién las etiqueta correctamente. El primer registry que exija calidad en las descripciones se convertirá en el npm-con-TypeScript del mundo de agentes — y ahora mismo, ese registry no existe.