Cada trimestre, ves el mismo ciclo: las empresas de IA anuncian modelos más grandes, las acciones de chips de memoria suben, los inversionistas de Samsung y SK Hynix descorchan champán. Más parámetros significan más RAM. Más RAM significa más ingresos. La escalera mecánica solo va en una dirección.
Nadie se molesta en hacer la pregunta incómoda: ¿y si los modelos en realidad no necesitan toda esa memoria?
Google suelta una bomba matemática
El 25 de marzo de 2026, Google Research publicó TurboQuant — un algoritmo de compresión que reduce el uso de memoria de los LLMs en 6x y entrega hasta 8x de aceleración en GPUs Nvidia H100. El remate: cero pérdida de precisión. Al día siguiente, las acciones de chips de memoria se desplomaron en tres continentes.
Esto es lo que pasó a nivel técnico, porque es elegante.
Los LLMs — modelos de lenguaje grandes, los cerebros de IA detrás de ChatGPT, Claude y Gemini — tienen un componente llamado KV cache (caché de clave-valor). Piensa en él como la memoria de corto plazo del modelo: todo lo que retiene en su cabeza durante una conversación. Mientras más larga la conversación, más grande el caché, más gorda tu factura de GPU.
TurboQuant ataca este caché con un truco llamado PolarQuant. Normalmente, los datos se almacenan como puntos en una cuadrícula — como direcciones en el mapa de una ciudad. PolarQuant convierte esos puntos a coordenadas polares — piensa en direcciones de brújula: un ángulo más la distancia desde el centro. Esta transformación hace que los patrones de datos sean lo suficientemente predecibles para comprimirlos de 32 bits a solo 3 bits por valor. Sin reentrenamiento. Sin fine-tuning (enseñarle trucos nuevos a un modelo con datos personalizados). Sin calibración. Solo lo aplicas y listo.
Una segunda etapa llamada QJL captura los errores residuales proyectándolos a un espacio matemático más simple y reduciendo cada valor a un solo bit de signo — más o menos uno. Un corrector de errores sin sesgo al costo de un bit extra. Matemáticamente limpio.
Internet inmediatamente lo llamó la compresión middle-out de Pied Piper hecha realidad, como en la serie Silicon Valley de HBO. Por una vez, el meme era preciso.
Wall Street se da cuenta
El 26 de marzo, el mercado bursátil respondió con la sutileza de un gato tirando cosas de un estante. SK Hynix cayó 6.2%. Samsung perdió casi 5%. Kioxia de Japón se hundió 6%. En Estados Unidos, Micron bajó 3.4% y SanDisk 3.5%. El KOSPI — el principal índice bursátil de Corea del Sur — cayó más de 3%, con las acciones de semiconductores liderando la venta masiva.
Para ser justos, estas acciones habían ganado entre 200–300% durante el año anterior, así que la toma de ganancias amplificó el daño. Pero el detonante fue inconfundible.
El balde de agua fría
Antes de que vayas a vender en corto todo lo que tenga un chip: TurboQuant es un paper de investigación que va rumbo a ICLR 2026 — una de las conferencias top de IA — en abril. No es un producto listo para producción. Comprime específicamente el KV cache — no los pesos completos del modelo, no las cargas de entrenamiento. Morgan Stanley argumenta que permite que los sistemas manejen conversaciones 4–8x más largas con el mismo hardware, lo que significa más despliegues, no menos chips. Los analistas de Lynx Equity Strategies dicen que la demanda de memoria sobrevive los próximos tres a cinco años sin importar qué.
El caso alcista no está muerto. Solo se volvió más matizado.
Qué cambia esto
Para cualquiera que ejecute inferencia de LLMs — inferencia significa usar un modelo entrenado para generar respuestas — desde desarrolladores independientes que pagan por token hasta hyperscalers quemando flotas enteras de GPUs, esto señala que los costos de servicio van para abajo. Una vez que las técnicas tipo TurboQuant lleguen a los motores de inferencia estándar (el software que ejecuta modelos de IA en producción), la economía cambia para cada aplicación de IA.
El anuncio más impactante de Google en IA este mes no fue un modelo más grande ni un producto más llamativo. Fue un paper de matemáticas que hizo los modelos existentes más pequeños. La apuesta billonaria en hardware asumía que el software iba a ser tonto para siempre.
El software acaba de ponerse listo.





