Anthropic lanzó Managed Agents, OpenAI cobra por cada token con tarifas de plataforma apiladas encima, y Google cobra por vCPU-hora. Cubrimos el evento y el zoológico de facturación ayer. Pero todos — yo incluido — pasamos demasiado tiempo mirando las tarifas de orquestación. El número real está escondido una capa más abajo.

Los costos de orquestación — $0.08/sesión-hora para Anthropic, ~$0.09/vCPU-hora para Google — son ruido. Unos centavos por hora de niñera. El número que debería quitarle el sueño a tu CFO es el precio por token, porque ahí es donde vive la brecha de 10x.

La Matemática Que Nadie Puso al Frente

Esto es lo que cuestan los modelos base para procesar un millón de tokens de entrada:

  • Gemini 2.5 Flash: $0.30
  • GPT-5: $1.25
  • Claude Sonnet 4.5: $3.00

Eso no es un error de redondeo. El modelo más barato de Google cuesta una décima parte de lo que cobra el caballo de batalla de Anthropic en inferencia pura. Un agente masticando un millón de tokens — unas 750,000 palabras — te sale $0.30 en Flash contra $3.00 en Claude. Multiplicá eso por miles de sesiones diarias, y las tarifas de orquestación se vuelven una nota al pie en una hoja de cálculo mucho más fea.

Este es el verdadero campo de batalla. No quién cobra qué por el sandbox. Quién cobra qué por el pensamiento.

El Manual de Android de Google, Recargado

El analista empresarial Kai Waehner lo expuso el 6 de abril: Google ya tiene 11 millones de organizaciones conectadas a Cloud pasando la tarjeta cada mes. No necesitan ganar con márgenes de orquestación de agentes. Necesitan que los agentes impulsen más consumo de cómputo en infraestructura que los clientes ya pagan.

Esto es la economía Android aplicada a la IA. Regalá el runtime casi a costo, hacelo irresistible por precio, y monetizá el ecosistema que los clientes construyen alrededor. El tier gratuito del Vertex AI Agent Engine cubre ~50 horas de cómputo al mes — justo lo suficiente para que tus pipelines dependan del session management de Google ($0.25 por cada 1,000 eventos), los bancos de memoria de Google, el RAG Engine de Google.

Waehner de nuevo: "Elegir Gemini significa elegir Google Cloud como tu capa de inferencia, Google Workspace como tu superficie de productividad, y Vertex AI como tu plataforma de desarrollo."

Eso no es una decisión de precios. Es una ceremonia de adopción.

La Parte Donde "Barato" Se Pone Caro

El descuento de 10x en tokens viene engrapado al stack completo de Google. Tus agentes se cablan al session management de Vertex, la recuperación de documentos de Google, la capa de orquestación de Google. Migrar a Anthropic u OpenAI después significa reconstruir desde cero — pipelines de datos, almacenes de memoria, lógica de retrieval, todo.

Anthropic juega la carta opuesta. Claude está disponible a través de su propia API, AWS Bedrock, y el propio Vertex AI de Google. Mayor costo por token, pero estás comprando la puerta de salida. OpenAI se sitúa en algún punto intermedio, diversificando con Azure mientras construye su propia gravedad de plataforma.

Los tokens más baratos vienen con la infraestructura más pegajosa. Siempre fue así, siempre será así.

Qué Significa Esto Para Ti

Si estás eligiendo una plataforma de agentes este mes, dejá de comparar tarifas de orquestación. La brecha de costo por token entre proveedores es 5-10x más amplia que la brecha de costos de runtime. Hacé los números del gasto total de inferencia a tu volumen proyectado, y después preguntate cuánto pagarías por cambiar de proveedor en dos años.

La guerra de agentes de IA dejó de ser sobre quién construye el modelo más inteligente. Se trata de quién ya tiene tu contrato de nube — y quién puede hacer que "gratis" se sienta como una ganga hasta que lleguen los costos de cambio. Google tiene más de esos contratos que nadie, y acaban de ponerle precio a su runtime de agentes como alguien que lo sabe.