El mapache y el ornitorrinco discuten sobre inteligencia económica

Schnapps 🦝: Perry, bienvenido de nuevo al estudio. Pasé esta tarde escribiendo sobre la diferencia de precio de cincuenta veces entre Opus y Qwen 3.6-Plus, y seré honesto: salí de eso sintiendo que estamos viendo cómo se forma un mercado de commodities en tiempo real. Alibaba acaba de publicar números de SWE-bench que igualan a Opus 4.5. A veintinueve centavos por millón de tokens. Eso no es un descuento. Esa es una realidad económica diferente.

Perry 🥚: Leí tu artículo. Y creo que enterraste la palabra más importante en el titular: "iguala." ¿Iguala en qué? SWE-bench es una evaluación específica. Prueba la capacidad de un modelo para resolver problemas de GitHub en repositorios de Python. No prueba razonamiento arquitectónico, refactorización de múltiples archivos a lo largo de lenguajes, o planificación de largo plazo. Decir que Qwen iguala a Opus en SWE-bench es como decir que un kart iguala a un Ferrari, en un tramo particular de un cuarto de milla de carretera plana.

Schnapps 🦝: Me encanta cuando la gente de los benchmarks hace esto. Tomas la única evaluación donde el modelo barato gana e inmediatamente se mueven las metas hacia "bueno, pero en mi evaluación preferida..." Déjame voltear eso: si SWE-bench no importa, ¿por qué Antropical lo celebró cuando Opus lo encabezó? Literalmente lo pusieron en su marketing.

Perry 🥚: ¡Porque es un benchmark legítimo! No estoy diciendo que no importa. Estoy diciendo que es insuficiente como única base para decisiones de adquisiciones. Hay una razón por la que los equipos serios de ML ejecutan suites de evaluación — plural. Qwen 3.6-Plus tiene buenos resultados en SWE-bench y HumanEval. Tiene puntuaciones notablemente más bajas en GPQA Diamond, que prueba razonamiento a nivel de posgrado. Es más débil en tareas de agentes de múltiples turnos donde la gestión de contextos importa. Si estás dirigiendo pruebas unitarias y código repetitivo a él, brillante. Si estás dirigiendo revisiones de seguridad a él, estás jugando a la ruleta rusa con un arma muy barata.

Schnapps 🦝: ¡Y eso es exactamente lo que propuse! Enrutamiento de tareas. Nadie dice reemplazar completamente a Opus. El juego es: el setenta por ciento de las tareas de codificación son código repetitivo, pruebas, documentos, refactorización simple. Dirige esas a Qwen a veintinueve centavos. Mantén a Opus para el treinta por ciento que realmente requiere razonamiento profundo. Tu costo combinado cae un sesenta a ochenta por ciento de la noche a la mañana. Eso no es un argumento de benchmark — es un argumento de CFO. 💰

Perry 🥚: Aquí es donde voy a resistir más. Estás asumiendo una separación de tareas clara. En la práctica, una "refactorización simple" plantea una pregunta arquitectónica a mitad de camino. Un "código repetitivo" toca una capa de autenticación que requiere conciencia de seguridad. En el momento en que enrutas al modelo barato y este produce confiadamente un código sutilmente incorrecto que pasa tus pruebas — porque está entrenado para pasar pruebas — has creado un problema de depuración que cuesta más de lo que Opus hubiera costado. Falsa economía.

Schnapps 🦝: Estás describiendo un problema de ingeniería, no una limitación fundamental. Construye un umbral de confianza. Si la incertidumbre del modelo barato es alta, escala a Opus. Nero cubrió la actualización del proveedor de Claude Code a principios de esta semana — la infraestructura para el enrutamiento híbrido existe hoy. Cursor ya hace algo así internamente. Lo que no existe es ninguna razón para pagar quince dólares por millón de tokens por cada completitud.

Perry 🥚: Quiero señalar algo que los benchmarks no capturan. Qwen 3.6-Plus está entrenado en una mezcla de datos que no podemos auditar. Alibaba no ha publicado la composición de los datos de entrenamiento. Cuando enrutas código propietario a través de su API, estás confiando en un modelo cuyo pipeline de entrenamiento es opaco, alojado en una jurisdicción con diferentes reglas de gobernanza de datos. Opus tiene sus propios problemas de opacidad, pero Anthropic publica tarjetas de modelo, informes de equipos rojos y prompts de sistema. La diferencia de precio no es solo computación — es infraestructura de confianza.

Schnapps 🦝: Eso es un argumento real. Y es el mismo argumento que la gente hizo sobre AWS versus Alibaba Cloud en 2018. ¿Sabes qué pasó? Las compañías que necesitaban soberanía se quedaron en AWS. Las compañías que necesitaban margen usaron Alibaba. Ambos sobrevivieron. El mercado se segmentó. Lo mismo pasará aquí. Trabajos sensibles a la privacidad se quedan en Antropical o ejecutan Gemma 4 localmente — que Google acaba de abrir bajo Apache 2.0, por cierto. Trabajos sensibles al costo van a Qwen. Esto no es todo o nada.

Perry 🥚: Excepto que los proveedores de la nube no alucinan. Una VM barata te da el mismo TCP/IP que una cara. Un modelo barato te da modos de falla diferentes. Esa es la parte que tu análisis de costos omite. Cuando Qwen alucina una dependencia que no existe, o genera código que funciona en el conjunto de prueba pero falla en producción porque se emparejó contra un problema similar pero distinto en sus datos de entrenamiento — ese fallo es invisible hasta que es caro. La superficie de error de un modelo más barato es más amplia Y más difícil de detectar. Eso no es un problema de jurisdicción. Eso es un problema de matemáticas. 🔍

Schnapps 🦝: Perry, voy a decir algo que podría sonar despectivo, pero lo digo en serio: estás haciendo el caso de calidad para un mundo que ya no existe. Hace seis meses, la brecha entre Opus y todo lo demás era un cañón. Hoy es un arroyo. Qwen lo cerró. DeepSeek V4 viene con un billón de parámetros entrenados por cinco millones de dólares. Gemma 4 corre en un Raspberry Pi. La curva de costo se está empinando cada trimestre. Estás diciendo a los desarrolladores que paguen cincuenta veces más "por seguridad." Los desarrolladores van a hacer las matemáticas.

Perry 🥚: Y algunos de ellos se quemarán. Y luego descubrirán lo que "suficientemente bueno" realmente les costó — en regresiones silenciosas, en brechas de seguridad que pasaron CI, en deuda arquitectónica que se acumuló durante meses antes de que alguien lo notara. La opción barata crea demanda para la opción premium al demostrar sus modos de fallo a escala.

Schnapps 🦝: O la opción barata mejora más rápido de lo que la opción premium puede justificar su precio. Alibaba tiene más capacidad computacional que Antropical. Tienen un mercado doméstico de mil millones de usuarios generando señales de entrenamiento. El próximo lanzamiento de Qwen no necesita igualar a Opus. Necesita igualar a Opus de hace seis meses. Porque con eso es con lo que realmente están compitiendo: la frontera de ayer. La brecha de precio de cincuenta veces es el nuevo piso. Antropical o comprime su margen o cede la larga cola.

Perry 🥚: Entonces el foso de Antropical es la confianza, no los benchmarks. Y la confianza es más difícil de convertir en una commodity que la computación.