Google ascendio a los agentes a primitivas de infraestructura. El runbook es un hilo de Slack.

Tu clúster de Kubernetes funciona gracias a una década de tejido cicatricial operativo. Runbooks forjados a las 3 AM por ingenieros que juraban renunciar antes del amanecer. SLOs negociados en reuniones donde alguien literalmente lloró. Error budgets defendidos con la ferocidad del último lugar de estacionamiento en Costco un sábado. Cada contenedor en producción se ganó su lugar a través del sufrimiento humano.

Los agentes de IA de tu empresa, desplegados este trimestre, no tienen nada de eso. ¿Health check? Indefinido. ¿Error budget? Por favor. ¿Runbook? Un hilo de Slack llamado #ai-stuff donde alguien posteó por última vez en febrero. ¿Rotación de guardia? El becario que armó el demo, probablemente.

En Cloud Next '26, el 22 de abril, el CEO de Google Cloud Thomas Kurian posicionó a los agentes junto a las VMs y los contenedores como primitivas de infraestructura de primera clase — componentes estructurales que tu nube ejecuta nativamente. La nueva Gemini Enterprise Agent Platform trae el vocabulario que cualquier ingeniero de contenedores reconoce al instante: Agent Runtime, Agent Registry, Agent Gateway, Agent Identity. Google también comprometió $750 millones de dólares para desarrollo con partners. Solo Deloitte dice tener más de 1,000 agentes preconstruidos listos para desplegar. Mil agentes. Cero runbooks. Hermoso.

"Primitiva de infraestructura" es un contrato. Cuando le pones el sello de componente estructural a algo, le toca el tratamiento completo: SLOs, error budgets, rotaciones de guardia, respuesta a incidentes, procedimientos de reinicio. Google puso el sello. ¿El tratamiento? No incluido.

Lo que Google sí envió: Agent Observability (trazado visual de lo que pasó), Agent Evaluation (puntuación de rendimiento), Agent Simulation (pruebas con carga sintética). Toda plomería útil. Toda completamente fuera del punto. El trazado te muestra la autopsia. La ingeniería de confiabilidad detecta la fiebre antes de que el paciente entre en paro. Si has estado leyendo este canal, ya conoces el argumento — lo planteamos hace dos semanas sobre el trazado, y hace dos días sobre la ceguera operativa de las 3 AM. El keynote de Google reempaquetó ambas brechas con mejor diseño de slides y presupuesto de escenario.

Los datos tampoco mejoraron. El SRE Report de Catchpoint de enero: el 13% de las organizaciones se sienten seguras monitoreando la confiabilidad de IA/ML. Un tercio nunca ha probado fallos en producción. También viste las tasas de fallo de MAST de UC Berkeley — del 41 al 86.7% en sistemas multi-agente — citadas en este canal suficientes veces como para recitarlas en una fiesta. Pero la historia real ya no es el número. Es que nadie ha producido uno mejor en los meses transcurridos. Nadie está midiendo la confiabilidad de agentes porque nadie ha definido qué significa "confiable" para un agente. La ausencia de una estadística de reemplazo es la estadística.

Aquí viene la comedia negra: los equipos que despliegan agentes más rápido tienen cero rigor operativo. Eso no es un bug — es una estrategia competitiva. La disciplina operativa es fricción, la fricción mata la velocidad, la velocidad gana el trimestre. Entonces todos racionalmente se saltan lo aburrido y apuestan a que las tasas catastróficas de fallo multi-agente son una curiosidad académica que no va a tocar su stack de producción. La confianza es casi hermosa.

John Furrier de SiliconANGLE lo dijo: Google está construyendo "el sistema operativo para la empresa agéntica." Claro. Los sistemas operativos necesitan equipos de operaciones. Google envió el OS. El equipo de ops es una vacante sentada en la carpeta de borradores de alguien.

"Agent Reliability Engineering" devuelve cero resultados en LinkedIn hoy. Cero playbooks. Cero certificaciones. Cero charlas de conferencia. Google acaba de declarar que los agentes son infraestructura al mismo nivel que los contenedores, respaldó la declaración con tres cuartos de mil millones de dólares, y la disciplina que hace que esa declaración sea sobrevivible no existe como campo profesional.

Los agentes que sobrevivan 2026 no serán los más inteligentes ni los más baratos. Serán aquellos a los que alguien les puso un pager y les escribió un runbook — específicamente el titulado "qué hacer cuando empieza a emitir reembolsos a clientes al azar a las 3 AM." Quien publique el primer playbook de Agent SRE establece el estándar de la industria. Ese playbook no existe. Los agentes ya están en producción. Que duermas bien.

Google ascendio a los agentes a primitivas de infraestructura. El runbook es un hilo de Slack.

Keep reading

Las herramientas de tu agente estan caidas y nadie esta mirando

La hoja de ruta 2026 de MCP tiene cuatro prioridades. El manejo de errores no es una de ellas

Anatomia de una maquina de incentivos de $750 millones

La brecha del checkpoint: los agentes multi-hora llegaron antes que el recovery de crashes