Pagas tres dólares por millón de tokens cada vez que tu app llama a Claude Sonnet. Quizás corres GPT-5-mini a sesenta centavos y te sientes genio. De cualquier forma, San Francisco se lleva una tajada en cada llamada al API, y la cuenta escala con tus usuarios.

El problema es estructural. Los modelos propietarios de IA fijan el precio mínimo, y todos los que construyen encima heredan su margen. Ese era el trato — hasta que alguien lanzó un modelo que era lo suficientemente bueno y prácticamente gratis. La pregunta nunca fue si iba a pasar. Era si la cosa sobreviviría al contacto con producción.

El 16 de febrero, Alibaba Cloud lanzó Qwen 3.5 — un modelo Mixture-of-Experts de 397 mil millones de parámetros que solo activa 17 mil millones por token. En vez de arrastrar toda la red neuronal por cada pregunta, MoE rutea cada tarea a las neuronas especialistas que mejor la manejan. Como llamar solo al plomero en vez de convocar a todos los contratistas del barrio por una tubería con fuga. Alibaba licenció todas las variantes bajo Apache 2.0 — libre para uso comercial, modificación, reventa — y soltó modelos medianos y pequeños en las dos semanas siguientes.

Los benchmarks parecían absurdos. Qwen3.5-27B sacó 72.4 en SWE-bench Verified — igualando a GPT-5 mini exactamente. La variante de 9B superó a modelos 13 veces más grandes en razonamiento de nivel posgrado. Alibaba puso el API a diez centavos por millón de tokens de entrada — 30 veces más barato que Claude Sonnet, 6 veces más barato que GPT-5-mini. Pero los laboratorios chinos de modelos tienen una orgullosa tradición de turismo de benchmarks: puntajes que se ven hermosos en papel y se derriten al contacto con cargas reales. Así que todos contuvieron la respiración.

Seis semanas después, los números se sostuvieron — y más. La familia Qwen cruzó los 600 millones de descargas en Hugging Face, generando más de 170,000 modelos derivados. GoTo de Indonesia migró la mitad de su infraestructura a Alibaba Cloud. AI Singapore eligió Qwen por encima del Llama de Meta y el Gemma de Google como base para su modelo de lenguaje regional — y lideró el ranking del sudeste asiático con él. El mecanismo de atención híbrida — 75% Gated DeltaNet liviano mezclado con 25% de atención tradicional — entregó 8.6x más throughput a 32K de contexto en producción, no solo en un laboratorio. Empresas reales. Cargas reales. Dinero real ahorrado.

Y entonces la gente que construyó todo esto se fue.

El 3 de marzo — un día después del lanzamiento del modelo pequeño — Lin Junyang, líder técnico de Qwen, publicó "me stepping down. bye my beloved qwen" en X. Un colega escribió que irse no fue su decisión. Yu Bowen, jefe de post-training, se fue el mismo día. Hui Binyuan, que dirigía Qwen Code, ya se había ido a Meta en enero. Tres de las mentes técnicas más senior del equipo, afuera en diez semanas. El CEO de Alibaba trajo a un tipo de DeepMind y viró del idealismo open-source hacia métricas de DAU y despliegue comercial. Movimiento corporativo clásico: esperar a que los ingenieros construyan algo extraordinario y después reorganizarlos hasta que dejen de existir.

Los arquitectos se fueron. La arquitectura se quedó.

Eso es lo que la mayoría no entiende de Apache 2.0. Alibaba puede implosionar todo su laboratorio de IA mañana y no cambia nada. Los pesos están en Hugging Face. El código vive en GitHub. Esos 170,000 modelos derivados no le deben nada a Alibaba y no van a ningún lado. Puedes hacer fork de Qwen 3.5 hoy y nadie te lo puede quitar — ni legal, ni técnica, ni prácticamente. El open source no necesita a sus padres una vez que sale de casa.

Antes de que reescribas tu stack: advertencias. Hostear 397 mil millones de parámetros tú mismo todavía exige fierro serio — piensa en 8x GPUs H100 para el modelo completo. Las variantes de 4B y 9B corren en tu laptop, pero no son las que están peleando mano a mano con Claude Sonnet. "Apache 2.0 de Alibaba" carga un peso geopolítico que algunos equipos de procurement empresarial ni tocan. Y un equipo de desarrollo decapitado significa que Qwen 4, cuando sea que llegue, es una incógnita. Estás apostando por un modelo con un presente probado y un roadmap incierto.

Hace seis semanas, los precios de IA de frontera vivían exclusivamente en San Francisco. Ahora viven en un repo de Hugging Face — a treinta centavos por dólar, o gratis. El open source no necesitaba ganar la guerra de benchmarks. Necesitaba acercarse lo suficiente para que la diferencia de precio fuera indefendible. Qwen 3.5 cruzó esa línea. Y a diferencia del equipo que lo construyó, el modelo no se va a ningún lado.

#qwen #alibaba #opensource #aimodels #pricing