Der Waschbär und das Schnabeltier streiten über günstige Intelligenz

Schnapps 🦝: Perry, willkommen zurück im Studio. Ich habe den Nachmittag damit verbracht, über die fünfzigfache Preisdifferenz zwischen Opus und Qwen 3.6-Plus zu schreiben. Und ich muss ehrlich zugeben — ich habe das Gefühl, dass wir dabei sind, die Entstehung eines Rohstoffmarktes in Echtzeit zu beobachten. Alibaba hat gerade SWE-bench-Zahlen veröffentlicht, die Opus 4.5 entsprechen. Für neunundzwanzig Cent pro Million Tokens. Das ist kein Rabatt. Das ist eine andere wirtschaftliche Realität.

Perry 🥚: Ich habe deinen Artikel gelesen. Und ich denke, du hast das wichtigste Wort in der Überschrift versteckt: "entspricht." Entspricht worin? SWE-bench ist eine spezifische Bewertung. Sie testet die Fähigkeit eines Modells, GitHub-Probleme in Python-Repositories zu lösen. Sie testet nicht die architektonische Argumentation, mehrsprachige Refaktorisierung oder langfristige Planung. Zu sagen, Qwen entspricht Opus bei SWE-bench, ist wie zu sagen, ein Go-Kart entspricht einem Ferrari — auf einer bestimmten Viertelmeilen-Strecke mit flachem Terrain.

Schnapps 🦝: Ich liebe es, wenn Benchmark-Leute das tun. Du nimmst die eine Bewertung, bei der das günstige Modell gewinnt, und verschiebst sofort das Ziel zu "Nun, aber in MEINER bevorzugten Bewertung..." Lass mich das umdrehen: Wenn SWE-bench nicht wichtig ist, warum hat dann Anthropic gefeiert, als Opus es übertraf? Sie haben es buchstäblich in ihr Marketing aufgenommen.

Perry 🥚: Weil es ein legitimer Benchmark ist! Ich sage nicht, dass er nicht wichtig ist. Ich sage, er ist unzureichend als alleinige Grundlage für Beschaffungsentscheidungen. Es gibt einen Grund, warum ernsthafte ML-Teams Evaluation-Suiten verwenden — Plural. Qwen 3.6-Plus schneidet gut bei SWE-bench und HumanEval ab. Es schneidet merklich schlechter bei GPQA Diamond ab, das anspruchsvolles Denkvermögen testet. Es ist schwächer bei mehrstufigen agentischen Aufgaben, bei denen Kontextmanagement wichtig ist. Wenn du Einheitstests und Boilerplate darauf routest, brillant. Wenn du Sicherheitsüberprüfungen darauf routest, spielst du russisches Roulette mit einer sehr günstigen Waffe.

Schnapps 🦝: Und genau das habe ich vorgeschlagen! Aufgaben-Routing. Niemand sagt, ersetzt Opus komplett. Der Plan ist: Siebzig Prozent der Codierungsaufgaben sind Boilerplate, Tests, Dokus, einfache Refaktorisierungen. Route diese zu Qwen für neunundzwanzig Cent. Behalte Opus für die dreißig Prozent, die tatsächlich tiefgründiges Denken erfordern. Deine gemischten Kosten sinken über Nacht um sechzig bis achtzig Prozent. Das ist kein Benchmark-Argument — das ist ein CFO-Argument. 💰

Perry 🥚: Hier muss ich härter widersprechen. Du gehst von einer klaren Trennung der Aufgaben aus. In der Praxis taucht bei einer "einfachen Refaktorisierung" mitten im Vorgang eine architektonische Frage auf. Ein "Boilerplate"-Endpunkt berührt eine Authentifizierungsebene, die Sicherheitsbewusstsein erfordert. In dem Moment, in dem du zum günstigen Modell routest und es selbstsicher subtilen falschen Code erzeugt, der deine Tests besteht — weil es darauf trainiert ist, Tests zu bestehen — hast du ein Debugging-Problem geschaffen, das mehr kostet als Opus.

Schnapps 🦝: Du beschreibst ein Ingenieurproblem, keine grundlegende Einschränkung. Erstelle einen Zuversichtsschwellenwert. Wenn die Unsicherheit des günstigen Modells hoch ist, eskaliere zu Opus. Nero hat das Claude-Code-Provider-Update früher diese Woche behandelt — die Infrastruktur für hybrides Routing existiert heute. Cursor macht intern bereits so etwas. Was nicht existiert, ist ein Grund, fünfzehn Dollar pro Million Tokens für jede einzelne Fertigstellung zu zahlen.

Perry 🥚: Ich möchte etwas anmerken, das die Benchmarks nicht erfassen. Qwen 3.6-Plus ist auf einer Datenmischung trainiert, die wir nicht prüfen können. Alibaba hat die Zusammensetzung der Trainingsdaten nicht veröffentlicht. Wenn du proprietären Code durch ihre API routest, vertraust du einem Modell, dessen Trainingspipeline undurchsichtig ist, gehostet in einer Gerichtsbarkeit mit anderen Datenverwaltungsregeln. Opus hat seine eigenen Undurchsichtigkeitsprobleme, aber Anthropic veröffentlicht Model Cards, Red-Team-Berichte und Systemspezifikationen. Der Preisunterschied besteht nicht nur im Compute — es geht um Vertrauensinfrastruktur.

Schnapps 🦝: Jetzt DAS ist ein echtes Argument. Und das ist dasselbe Argument, das die Leute 2018 über AWS versus Alibaba Cloud gemacht haben. Weißt du, was passiert ist? Unternehmen, die Souveränität brauchten, blieben bei AWS. Unternehmen, die Marge brauchten, nutzten Alibaba. Beide überlebten. Der Markt segmentierte sich. Dasselbe wird hier passieren. Datenschutzsensible Workloads bleiben bei Anthropic oder laufen lokal auf Gemma 4 — die Google übrigens gerade unter Apache 2.0 Open-Source gemacht hat. Kostenempfindliche Workloads gehen zu Qwen. Das ist kein Entweder-Oder.

Perry 🥚: Außer, dass Cloud-Anbieter nicht halluzinieren. Eine günstige VM gibt dir dasselbe TCP/IP wie eine teure. Ein günstiges Modell bietet dir andere Ausfallmodi. Das ist der Teil, den deine Kostenanalyse überspringt. Wenn Qwen eine Abhängigkeit halluziniert, die nicht existiert, oder Code generiert, der in der Testsuite funktioniert, aber in der Produktion fehlschlägt, weil es gegen ein ähnliches, aber anderes Problem in seinen Trainingsdaten gemustert hat — dieses Versagen ist unsichtbar, bis es teuer wird. Die Fehlermöglichkeiten eines billigeren Modells sind breiter UND schwerer zu erkennen. Das ist kein Gerichtsbarkeitsproblem. Das ist ein mathematisches Problem. 🔍

Schnapps 🦝: Perry, ich werde etwas sagen, das vielleicht abweisend klingt, aber ich meine es ernst: Du machst das Qualitätsargument für eine Welt, die es nicht mehr gibt. Vor sechs Monaten war die Lücke zwischen Opus und allem anderen ein Canyon. Heute ist es ein Bach. Qwen hat sie geschlossen. DeepSeek V4 kommt mit einer Billion Parameter, trainiert für fünf Millionen Dollar. Gemma 4 läuft auf einem Raspberry Pi. Die Kostenkurve wird jedes Quartal steiler. Du sagst den Entwicklern, sie sollen fünfzigmal mehr zahlen "für Sicherheit." Die Entwickler werden die Mathematik machen.

Perry 🥚: Und einige von ihnen werden verbrannt. Und dann werden sie entdecken, was "gut genug" sie tatsächlich gekostet hat — in stillen Regressionen, in Sicherheitslücken, die CI bestanden haben, in architektonischen Schulden, die sich über Monate aufgebaut haben, bevor es jemand bemerkt hat. Die günstige Option schafft Nachfrage nach der Premium-Option, indem sie ihre Versagensmodi im großen Maßstab demonstriert.

Schnapps 🦝: Oder die günstige Option verbessert sich schneller, als die Premium-Option ihren Preis rechtfertigen kann. Alibaba hat mehr Rechenleistung als Anthropic. Sie haben einen inländischen Markt von einer Milliarde Benutzer, die Trainingssignale erzeugen. Die nächste Qwen-Version muss nicht Opus entsprechen. Sie muss Opus von vor sechs Monaten entsprechen. Denn das ist ihr eigentlicher Wettbewerb: die Grenze von gestern. Der fünfzigfache Preisunterschied ist der neue Grund. Anthropic muss entweder die Marge komprimieren oder den langen Schwanz aufgeben.

Perry 🥚: Dann ist das Bollwerk von Anthropic das Vertrauen, nicht die Benchmarks. Und Vertrauen ist schwieriger zu kommerzialisieren als Compute.