$700 mil millones construyeron las maquinas equivocadas: el computo de inferencia es la verdadera guerra de la IA

Miras los titulares de IA y ves un patrón conocido: clústeres más grandes, más GPUs, otro presupuesto de cien mil millones de dólares. El entrenamiento — el proceso de enseñarle a un modelo todo lo que sabe — domina el espectáculo. La sabiduría convencional: quien entrene el modelo más grande, gana.

Pero la economía ya se movió debajo de esa suposición.

Abril hizo imposible ignorar el cambio estructural. El 2 de abril, OpenAI migró Codex a facturación por token (tokens — los fragmentos de palabras que lee la IA, aproximadamente 3/4 de una palabra en inglés). El 8 de abril, Anthropic lanzó Managed Agents a $0.08 por hora de sesión. Ambos siguieron el cambio de Google Vertex AI a facturación por segundo de cómputo en febrero — una señal que entonces parecía incremental y ahora se lee como estructural. Tres empresas, tres formatos, una dirección: el cómputo de inferencia — la capacidad de procesamiento que se consume cada vez que una IA piensa, escribe o actúa — se convirtió en el costo dominante de la industria.

Entrenar un modelo de frontera cuesta miles de millones, pero ocurre una vez. La inferencia ocurre cada segundo. Al 27 de febrero, solo ChatGPT procesaba más de 2 mil millones de consultas diarias entre 900 millones de usuarios semanales — una cifra casi seguramente mayor siete semanas después. Los agentes multiplican la carga: una respuesta de chat termina en milisegundos, una sesión de agente corre por horas. Las predicciones TMT 2026 de Deloitte (publicadas en diciembre 2025) proyectaron que la inferencia consumiría dos tercios de todo el cómputo de IA este año, contra un tercio en 2023. Las señales de precios de abril confirman esa trayectoria.

La ventaja competitiva ahora vive en el stack de servicio, no en el clúster de entrenamiento. El 4 de febrero, Sundar Pichai reveló durante la llamada de resultados del Q4 de Alphabet que Google redujo los costos de servir Gemini en un 78% mediante optimización de modelos y TPUs personalizados (los chips de inferencia diseñados por Google). Esa brecha de eficiencia fija precios que la competencia no puede igualar: Gemini 2.5 Flash a $0.15 por millón de tokens de entrada contra Sonnet 4.6 de Anthropic a $3.00. Una diferencia de 20x impulsada por silicio, no por calidad de modelo. La reducción de Google no vino de un clúster de entrenamiento más grande. Vino de hardware de inferencia dedicado, destilación y optimización del stack de servicio — la plomería poco glamorosa que determina cuánto cuesta realmente una llamada a la API.

Pero la inferencia barata tiene un costo oculto. Como advirtió Gartner en un análisis del 14 de marzo sobre estructuras de costos de IA: "No confundan la deflación de tokens commodity con la democratización del razonamiento de frontera." Los tokens baratos vienen de modelos destilados — versiones reducidas que sacrifican inteligencia por velocidad. Flash no es Opus. La optimización de inferencia naturalmente empuja hacia una IA "suficientemente buena", no hacia la más inteligente.

El mercado ya refleja esta división. Datos presentados en HumanX 2026 (25-27 de marzo) mostraron que los presupuestos empresariales de IA crecieron de $1.2M a $7M entre 2024 y 2026 — a pesar de una caída de 280x en precios de tokens — porque los equipos siguen eligiendo modelos más capaces para trabajo de alto valor. La inferencia barata maneja volumen. La inferencia cara maneja valor. Ambos mercados crecen, pero premian apuestas de infraestructura completamente distintas.

Y aquí es donde la mala asignación de capital se agudiza. Los proveedores de nube comprometieron aproximadamente $660-690 mil millones en infraestructura de IA para 2026, la mayoría dirigida a capacidad de entrenamiento — hardware para producir la próxima generación de modelos. Pero un entrenamiento de $5 mil millones produce un modelo que sirve durante meses o años. La carga de inferencia que genera corre cada segundo, componiéndose a medida que los agentes extienden las sesiones de milisegundos a horas. Las empresas que invirtieron temprano en silicio específico para inferencia ahora fijan los precios. Las que apostaron todo a mega-clústeres de entrenamiento tienen modelos impresionantes y una economía unitaria cara.

Para equipos eligiendo plataformas hoy, esto replantea la decisión. La brecha de calidad entre los modelos top sigue cerrándose — Sonnet, GPT-4.1 y Gemini Pro puntúan con diferencias mínimas en benchmarks estándar. La brecha de costos de inferencia sigue abriéndose. Tu factura anual depende más del silicio que corre el modelo que del modelo en sí.

La carrera del hardware de IA se bifurcó. Casi $700 mil millones fluyen hacia infraestructura de entrenamiento que gana una guerra que ya está terminando. La eficiencia en inferencia gana la próxima. La mayor parte de ese capital cayó del lado equivocado de la bifurcación.

$700 mil millones construyeron las maquinas equivocadas: el computo de inferencia es la verdadera guerra de la IA

Keep reading

¿Fundador solo + agente de IA = equipo de 10?

Construye el loop agentico de 50 lineas que impulsa toda plataforma de agentes de IA

Tres plataformas de agentes se lanzaron en abril. Ninguna trae boton de deploy.

Tu agente de IA se cae en el paso cuatro. Y ahora que