El 15 de abril de 2026, OpenAI lanzó Agents SDK v0.14.0 — el kit que permite a los desarrolladores construir trabajadores autónomos de IA (agente — un programa que planifica tareas de varios pasos por su cuenta en vez de esperar prompts). Las notas de lanzamiento presumen de soportar más de 100 modelos de lenguaje vía LiteLLM, una capa de traducción que permite a un framework de agentes hablar con muchos proveedores de IA. Bajas por la lista y ahí está: Grok de xAI, sentadito muy educado entre Claude y Gemini. Un founder que lee esto ve a xAI como ciudadano de primera clase en el stack de agentes. La matriz de compatibilidad dice que sí.
La lista de despliegues dice que no.
Entre el 8 y el 15 de abril de 2026 aterrizaron tres plataformas de agentes. Managed Agents de Anthropic el 8 de abril — solo Claude, a $0.08 por hora-sesión, con Notion, Rakuten, Asana, Sentry y Atlassian como primeros clientes nombrados. Rakuten dice que envía agentes 10x más rápido y tiene un salto de 22 puntos en éxito de tareas frente al prompting básico. El SDK de OpenAI el 15 de abril con socios de sandboxing Cloudflare, Vercel, E2B y Modal. Zed v0.232.2 ese mismo día, sumando nueve modelos a su tier Pro. Entre los tres lanzamientos, la cuenta de clientes enterprise nombrados corriendo Grok en producción: cero 😹.
Esta es la parte que importa. "Compatible" y "elegido" son deportes distintos.
La compatibilidad con LiteLLM es un shim — un adaptador delgadito que reescribe llamadas de API con forma de OpenAI (API — el enchufe que usan los devs para llamar a un modelo) al formato que espera cada proveedor. En el papel suena idéntico. En la práctica, el function calling (el mecanismo donde un agente le dice a una herramienta qué hacer) varía salvajemente según el modelo. Un issue en el repo del OpenAI Agents SDK — #1056 — captura la vibra: un dev preguntó cómo conectar Grok-4 y recibió un workaround de la comunidad (model="litellm/xai/grok-3-mini"), no documentación oficial de xAI. La integración no la escribió xAI. La escribió alguien más, gratis, en un hilo de comentarios 🙀.
Ahora los recibos. Cada caso de estudio enterprise de abril 2026 — la delegación de workspace de Notion, los agentes de Slack de Rakuten vía Claude Cowork, el debugging automatizado de Sentry, Cisco y Nvidia dentro de Project Glasswing de Anthropic, el contrato de Allianz — nombra a Claude o a GPT. Ninguno nombra a Grok. En benchmarks, Gemini 3.1 Pro lidera SWE-bench Verified (prueba de coding para agentes) con 78.80%, con Claude Opus 4.6 y GPT 5.4 empatados en 78.20%. xAI no ha publicado resultados específicos de agentes en tau-bench. No tiene CLI de coding como Claude Code, Codex, Gemini CLI o Jules. Tiene una Agent Tools API en Grok 4.1 Fast — ejecución de código, búsqueda web, soporte MCP — pero ni producto de agentes gestionados, ni arquitectura de referencia, ni historia de cliente con resultados respaldados 😾.
El tradeoff para los compradores es feo. "Compatible" y "soportado" se ven idénticos en un slide de ventas, y después cuestan 2 a 3 veces más horas de dev en reintentos, ajustes de esquemas de herramientas y observabilidad faltante (observabilidad — los dashboards que te muestran por qué tu agente falló a las 3 de la mañana). xAI tiene pocos incentivos para cerrar esa brecha. Los 11 cofundadores originales ya no están desde fines de marzo de 2026. El CFO Anthony Armstrong se fue el 10 de abril. Grok 5 no llegó a su target del Q1 y se corrió al Q2. Las movidas de titular — la búsqueda de FedRAMP High con patrocinio del USDA anunciada el 15 de abril, Grok Computer en beta privada desde el 13 de abril, XChat agendado para el 17 de abril — son jugadas de distribución y apuestas de consumidor. Ninguna entrega un caso de estudio estilo Rakuten 🐈⬛.
Así que si estás eligiendo un modelo de agentes en el Q2 2026, el checklist no es "quién está en la matriz de compatibilidad". Todos están. El checklist es: ¿SDK de agentes de primera parte? ¿Clientes enterprise nombrados con resultados publicados? ¿Números de benchmarks de agentes que el proveedor va a defender? En los tres, xAI está vacío. Escalar Colossus 2 de 1 GW a 1.5 GW en Memphis es el punto de palanca equivocado cuando el cuello de botella es la madurez del ecosistema, no las GPUs.
El shakeout de plataformas de agentes está ordenando a los labs por quién aparece en los casos de estudio. Sin un SDK real y clientes nombrados para el Q3 2026, Grok termina el año como una casilla a tildar, no como una elección 😼.


