Desplegaste un agente autónomo — un pedazo de IA que ejecuta tareas solo, sin que toques un botón — para procesar tickets de soporte durante la noche. Te fuiste a dormir. El agente siguió trabajando. El medidor siguió corriendo. Nadie estaba vigilando.

Ese es el escenario. Ahora el problema: "autónomo" más "cobro por consumo" equivale a una línea de crédito abierta sin tope, y nadie le avisó a tu equipo de finanzas.

Todos los proveedores traen el mismo hueco

En el lapso de una semana — del 8 al 15 de abril de 2026 — Anthropic y OpenAI lanzaron runtimes de agentes para producción, entornos donde agentes de IA corren de forma independiente, con facturación basada en consumo y cero límites de gasto por sesión. Google ya tenía el mismo hueco metido en su plataforma desde hacía meses. Tres proveedores, un mismo punto ciego:

  • Anthropic lanzó Managed Agents el 8 de abril a $0.08 por hora de sesión más costos de tokens (tokens — los pedazos de texto que la IA procesa, aproximadamente ¾ de una palabra en inglés). El 14 de abril, llegaron las Claude Code Routines con límites diarios de ejecución (5 para Pro, 15 para Max, 25 para Teams) — pero sin tope de dólares por ejecución.
  • OpenAI actualizó su Agents SDK el 15 de abril con nuevas funciones de seguridad. El SDK expone contadores de tokens pero no tiene un parámetro max_cost_usd. ¿El único límite de gasto? Un tope mensual a nivel de organización — un solo número compartido entre todos los usuarios y productos.
  • Google cobra su Vertex AI Agent Engine — que llegó a GA en diciembre de 2025 y empezó a facturar en febrero de 2026 — a $0.0864 por hora de vCPU (vCPU — una rebanada de procesador virtual en la nube) sin ningún corte por sesión documentado. Lleva más tiempo funcionando sin guardarraíl de gasto que lo que los otros dos llevan funcionando en total.

Cada plataforma limita la tasa de solicitudes para proteger su propia infraestructura. Ninguna limita el gasto para proteger tu billetera.

El incentivo estructural del que nadie habla

Con facturación por uso, un agente atascado que reintenta la misma llamada API fallida durante tres horas genera los mismos ingresos que uno productivo. Construir un kill switch nativo — un circuit breaker (un mecanismo que detiene automáticamente la ejecución cuando se alcanza un umbral) — significa ponerle tope voluntariamente a tus propios ingresos. La matemática de incentivos es brutal.

Esto no es teórico. Un reporte en DEV Community del 23 de marzo documentó cuatro agentes de LangChain (LangChain — un framework popular para construir cadenas de agentes de IA) atrapados en un loop recursivo de retroalimentación durante 11 días. La cuenta: $47,000 dólares. Método de detección: un humano revisando una factura. No una alerta. Una factura.

Un análisis separado de RunCycles del 18 de marzo describió un agente de investigación con GPT-4o que entró en un loop de reintentos — más de 200 llamadas en menos de una hora, $1,400 dólares por una sola ejecución.

El impuesto del "hazlo tú mismo"

Existen workarounds. Así se ve un guardarraíl de costos mínimo en Python:

import time

class AgentBudget:
    def __init__(self, max_usd: float = 5.0, cost_per_1k_tokens: float = 0.005):
        self.max_usd = max_usd
        self.cost_per_1k = cost_per_1k_tokens
        self.total_tokens = 0

    def track(self, tokens_used: int):
        self.total_tokens += tokens_used
        spent = (self.total_tokens / 1000) * self.cost_per_1k
        if spent >= self.max_usd:
            raise RuntimeError(f"Budget exceeded: ${spent:.2f} >= ${self.max_usd}")
        return spent

budget = AgentBudget(max_usd=10.0)
# Envuelve cada llamada al LLM:
spent = budget.track(tokens_used=3200)

Proxies de terceros como Helicone y Portkey ofrecen dashboards y llaves virtuales con límites de presupuesto. Pero cada workaround agrega exactamente la capa de supervisión que los agentes autónomos supuestamente iban a eliminar.

Como reportó PYMNTS el 15 de abril, Anthropic cambió simultáneamente la facturación enterprise de tarifa plana a basada en uso. Fredrik Filipsson, cofundador de Redress Compliance, estimó que esto va a "duplicar o incluso triplicar el costo para usuarios intensivos". Más facturación por uso, y sigue sin existir el botón de presupuesto por sesión.

Qué significa esto para ti

Cada agente autónomo que despliegas hoy es un proceso con acceso root a tu cuenta de facturación y sin equivalente a sudo. La decisión de arquitectura es clara: nunca despliegues un agente sin un wrapper de costos en tu propio código. No esperes a que el SDK agregue max_cost_usd — ese parámetro va a llegar el día después de que la factura de cinco cifras de alguien se vuelva viral en X, no antes.

El horror story de facturación en la nube que va a forzar esta funcionalidad no es hipotético. Es un cuándo. La única variable es de quién es la tarjeta de crédito que financie la lección.