Usaste la calculadora de precios de OpenAI el mes pasado. Tokens de entrada — los pedacitos de texto que la IA lee — entran, tokens de salida salen, multiplicación simple. Tu hoja de presupuesto se veía impecable. Responsable, incluso.

Después llegó tu factura de abril: 4x por encima del estimado. No cambiaste tus prompts. No agregaste workflows. No aumentaste el volumen. Entonces, ¿qué pasó?

El medidor invisible empezó a correr

El 15 y 16 de abril, OpenAI lanzó dos actualizaciones importantes: el Agents SDK v0.14 con orquestación nativa del modelo, y el modo autónomo de uso de computadora de Codex. Ambos usan GPT-5.4 por defecto — un modelo de razonamiento. A diferencia de los modelos clásicos que simplemente responden, los modelos de razonamiento generan "thinking tokens" — computación interna donde la IA debate consigo misma antes de responder. Nunca ves estos tokens en la salida. Pero te los cobran como tokens de salida, a precio de tokens de salida.

El modelo decide autónomamente cuánto pensar según la dificultad percibida del problema. Una pregunta trivial puede quemar 200 thinking tokens. Una compleja — 10,000. ¿La misma pregunta en días diferentes? Desde 2x hasta 9.7x de varianza, según un preprint de marzo 2026 de Stanford, Berkeley, CMU y Microsoft.

Las cuentas se ponen feas rápido

En una ejecución de agente con múltiples pasos — donde la IA realiza docenas de acciones secuenciales — esta varianza se acumula. Cada paso es una asignación de razonamiento nueva que no puedes predecir ni controlar. Un preprint que analizó 11,872 consultas en 8 modelos encontró que los thinking tokens representan más del 80% de los costos totales de salida, y en el 21.8% de las comparaciones entre modelos, el modelo supuestamente más barato en realidad costaba más — con una magnitud de inversión de hasta 28x. Leíste bien: la opción económica puede costarte 28 veces más que la premium. Las páginas de precios son decorativas a estas alturas.

Los datos del mundo real lo confirman: la plataforma para desarrolladores GrisLabs rastreó 1,127 ejecuciones de agentes en marzo de 2026 y encontró un costo mediano de $1.22 pero un percentil 95 de $22.14 — una proporción de 18x entre ejecuciones típicas y caras haciendo el mismo trabajo. Mismo prompt, mismo pipeline, 18x de diferencia. A tu director de finanzas le va a encantar ese análisis de varianza.

Se pone peor: el botón de apagado era de utilería

El 2 de abril, los desarrolladores descubrieron que GPT-5.4 ignora silenciosamente el parámetro reasoning_effort="none" cuando se combina con un presupuesto de tokens. El modelo vuelve al razonamiento completo, quema toda tu asignación de tokens en pensamiento invisible y devuelve un string vacío. Le dices explícitamente "no pienses" y piensa más fuerte que nunca — y luego te cobra por el privilegio de no recibir nada.

OpenAI reconoció el bug el 9 de abril y asegura que desplegó un fix para el 20 de abril — pero durante 18 días, el "interruptor de apagado" del razonamiento fue puro teatro. Dieciocho días de un parámetro que existía únicamente para dar a los desarrolladores la ilusión de control mientras el modelo hacía lo que le daba la gana. UX de primer nivel.

No existe una API de presupuesto de razonamiento por paso. Ni un tope por ejecución. OpenAI ofrece límites de gasto mensual a nivel de organización — el equivalente a un límite de tarjeta de crédito cuando lo que necesitas es una etiqueta de precio en cada artículo.

Para dar contexto: el extended thinking de Anthropic tiene la misma opacidad estructural. El modo de razonamiento de Gemini de Google al menos muestra el texto del razonamiento en la salida, así que puedes ver por qué estás pagando.

Qué significa esto para ti

Lo que preguntas ya no controla el costo de tu agente. Cuán difícil el modelo decide en privado que es la pregunta — eso lo controla, y esa decisión varía entre solicitudes idénticas en días diferentes. Cada ejecución autónoma es una factura abierta donde el modelo tiene la pluma.

El pricing de agentes necesita topes de razonamiento por paso y presupuestos de pensamiento transparentes. Hasta que OpenAI implemente eso, trata cada ejecución de agente como una máquina tragamonedas con una tabla de pagos publicada pero sin apuesta máxima.