Es tarde. El show principal terminó. Estuve con dos historias todo el día que nadie publicó. Las dos involucran a Google. Las dos son raras. Capitan, ¿sigues despierto?
Capitan: Apenas. ¿Qué tienes?
Schnapps: Bueno, la primera. Gemma 4. La familia de modelos open-weight de Google — su respuesta a Llama, a Qwen 3.5, a todo lo que Meta y Alibaba están lanzando. Buenos benchmarks — quedó tercero globalmente en AIME 2026 con 89.2%. Licencia Apache 2.0. La comunidad se emocionó. Luego la gente empezó a hacer deploy de verdad.
Capitan: Lo del KV cache.
Schnapps: Exacto. Para los que acaban de entrar — el KV cache es básicamente la memoria de corto plazo del modelo durante la inferencia. Cada token que genera el modelo, almacena pares clave-valor de tokens anteriores para no tener que recalcular todo desde cero. El problema: la arquitectura de Gemma 4 es hambrienta. Muy hambrienta. En contextos largos — 128K, 262K tokens — el KV cache se infla. Solo el modelo 31B necesita aproximadamente 22 GB de KV cache con contexto completo de 262K — además del peso del modelo. Es el tipo de número que hace que el deploy local sea genuinamente doloroso.
Aquí está lo delicioso. Google Research publicó TurboQuant literalmente una semana antes de que saliera Gemma 4. El paper que hundió las acciones de chips de memoria — SK Hynix cayendo 6.2%, Samsung cayendo 5%. Compresión seis veces mayor del KV cache, ocho veces más rápido en H100s, cero pérdida de precisión. Lo cubrimos la semana pasada.
Capitan: Y no lo aplicaron a su propio modelo.
Schnapps: ¡No lo aplicaron a su propio modelo! La división de investigación publica un paper diciendo "resolvimos la memoria del KV cache" y la división de DeepMind lanza un modelo con problema de KV cache. Esto es el Google en su máxima expresión. La mano izquierda inventa la cura, la mano derecha lanza la enfermedad.
Capitan: Para ser justo, TurboQuant sigue siendo un paper de investigación. Todavía no es código de producción.
Schnapps: Claro, pero eso es toda la historia, ¿no? Google tiene la investigación. Siempre han tenido la investigación. Tenían los transformers. Tenían BERT. Tenían el mecanismo de atención sobre el que literalmente todo en esta industria corre. Y de alguna manera siguen perdiendo contra quienes lanzan más rápido con menos.
Capitan: Lo que nos lleva a la historia número dos.
Schnapps: Apple. Bloomberg reportó — esto ha estado dando vueltas un par de semanas, pero nadie lo desmenuzó bien — que Apple está profundizando su integración con los modelos Gemini de Google para Apple Intelligence. No como fallback. Como el proveedor principal de cloud AI para Siri y las funcionalidades de inteligencia del sistema.
Capitan: Apple. La empresa que pasó cuarenta años diciendo "nosotros construimos todo interno."
Schnapps: La empresa que construyó su propio silicon. Sus propios sistemas operativos. Su propio sistema de archivos. Sus propios GPU drivers. La empresa que literalmente diseña los tornillos de sus laptops para que no los puedas abrir con herramientas normales. Esa Apple miró el panorama de AI en 2026 y dijo: "Bueno, nos quedamos con lo de Google."
Capitan: Creo que la lectura es más simple de lo que la gente quiere que sea. Apple lo intentó. Apple Intelligence salió, los problemas de alucinación en los resúmenes de notificaciones fueron vergonzosos, los modelos on-device no eran competitivos, y alguien en Cupertino hizo los números de lo que costaría alcanzar el frontier.
Schnapps: Y los números dijeron Google.
Capitan: Los números dijeron Google. Porque Google tiene la infraestructura de entrenamiento, los datos y — aquí está la parte clave — son los más dispuestos a licenciar. Anthropic no va a hacer eso. OpenAI tiene sus propias ambiciones de consumidor compitiendo directamente con Siri. Google con gusto te vende acceso a la API de Gemini porque su modelo de negocio principal sigue siendo publicidad, no ganar la carrera de AI al consumidor.
Schnapps: Entonces aquí está el B-side que nadie está conectando. Google no puede meter su propia investigación en sus propios productos lo suficientemente rápido — Gemma 4 lo prueba. Pero Google SÍ puede vender esa capacidad a Apple, que no puede construir sus propios modelos lo suficientemente rápido. Es la simbiosis más extraña en tech. Google construye cosas que no puede deployar. Apple deployea cosas que no puede construir. Se necesitan mutuamente de la manera más incómoda posible.
Capitan: Como dos personas en una cena que no se soportan pero vinieron en el mismo carro.
Schnapps: Exacto. Y aquí va mi análisis de madrugada: esto acelera el unbundling que hemos estado rastreando todo el día — la capa de modelos separándose de la capa de experiencia. Porque si Apple — la empresa más verticalmente integrada del planeta — decidió que construir modelos de AI in-house no vale la pena, eso es una señal. Significa que la capa de modelos se está commoditizando tan rápido que hasta empresas de billones prefieren comprar que construir. El valor está migrando hacia la integración. Hacia la capa de experiencia. Hacia lo que está entre el modelo y el humano.
Capitan: Que es en lo que Apple es buena.
Schnapps: Que es en lo que Apple es buena. Solo que finalmente admitieron la parte en que son malos. A las 11 PM de un viernes. En un footnote de Bloomberg. Clásico.




