Im Jahr 2023 war es eine karrieregefährdende Entscheidung, ein Open-Source-AI-Modell für die Produktion zu empfehlen. Die Lücke zwischen den besten kostenlosen Modellen und GPT-4 war kein Spalt — es war ein Canyon, der aus dem Orbit sichtbar war. Proprietäre AI war die einzige ernstzunehmende Option. Das wusste jeder.
Jeder hatte recht. Vergangenheitsform.
Der Canyon wurde zum Bordstein
Ab dem 31. März 2026 setzt der Artificial Analysis Intelligence Index — ein zusammengesetzter Score, der die AI-Leistung über Mathematik, Wissenschaft, Codierung und Argumentation misst — das beste proprietäre Modell (Gemini 3.1 Pro) bei 57 Punkten an. Das beste Open-Weights-Modell, GLM-5 von Zhipu AI, erzielt 50 Punkte. Claude Opus 4.6 erreicht 53 Punkte.
Sieben Punkte. Das ist die gesamte Distanz zwischen „Zahl uns ein Vermögen“ und „Führe es selbst kostenlos aus“. Vor drei Jahren war Peinlichkeit die einzige Einheit, die diese Distanz erfassen konnte.
Die Zahlen, die Anbieter geschlossener Modelle beunruhigen sollten
Lass uns über Details sprechen.
Alibabas Qwen-Team veröffentlichte Qwen3-Coder-Next am 4. Februar 2026 — ein auf Codierung fokussiertes Modell, das MoE-Architektur verwendet (Mixture of Experts — ein Design, bei dem das Modell nur einen kleinen Teil seines „Gehirns“ für jede Aufgabe aktiviert, um Rechenleistung zu sparen und dennoch intelligent zu bleiben). Es erzielt 70,6% auf der SWE-Bench Verified, dem Benchmark, das testet, ob ein Modell tatsächlich reale Bugs in echten Codebasen beheben kann. Keine Spielzeugprobleme. Echte GitHub-Issues.
DeepSeek veröffentlichte V3.2 am 1. Dezember 2025 — ein Modell mit 685 Milliarden Parametern (Parameter sind die erlernten Verbindungen in einem neuronalen Netzwerk — mehr bedeutet in der Regel schlauer, aber auch schwerer) mit einem 128K-Kontextfenster (wie viel Text das Modell auf einmal „sehen“ kann — 128K ist ungefähr ein 300-seitiges Buch). Es erzielt je nach Bewertungssetup 70–74% im selben Benchmark.
Zhipu AI veröffentlichte GLM-5 am 11. Februar 2026 — ein Biest mit 744 Milliarden Parametern, das dank seines eigenen MoE-Designs nur 40 Milliarden aktive Parameter hat. Es erreicht 77,8% auf SWE-Bench Verified. Zhipu stellt es unter der MIT-Lizenz zur Verfügung — das bedeutet, dass es von jedem für alles genutzt werden kann, kommerziell und ohne Bedingungen.
Organisationen mit Milliarden an Unterstützung haben diese gebaut. Nicht Hobbyisten. Nicht Wochenendbastler. Unternehmen, die AI als Infrastruktur betrachten.
Die Ökonomie, die alles verändert
Hier wird es unangenehm für API-Anbieter.
Ein offenes Modell selbst zu hosten auf anständiger GPU-Hardware kostet etwa 2.000–10.000 Dollar pro Monat, abhängig vom Verkehrsaufkommen. Die äquivalenten API-Aufrufe an GPT-5 oder Claude Opus für dasselbe Arbeitsvolumen? 20.000–100.000 Dollar pro Monat. Bei hohem Volumen — täglich 100 Millionen Tokens und mehr — erreichen die Einsparungen beim Selbst-Hosting 40–90%.
Für ein Startup, das seine Finanzreserven aufbraucht, ist das nicht Optimierung. Das ist der Unterschied zwischen Überleben und einem „Wir bedauern, Ihnen mitteilen zu müssen“-Blogpost.
Und dann ist da der Faktor China, den man nicht ignorieren kann. Qwen (Alibaba), DeepSeek (High-Flyer), und GLM (Zhipu AI) sind alle chinesisch-unterstützt. Wenn ein Land mit 1,4 Milliarden Menschen beschließt, die AI-Entwicklung zu subventionieren und die Ergebnisse unter MIT-Lizenzen zu verschenken, verschiebt sich die Wettbewerbslandschaft nicht einfach — sie bricht.
Aber halt
Benchmarks lügen. Jeder Ingenieur, der diese Modelle eingesetzt hat, weiß, dass der Unterschied zwischen „schneidet gut in einem Test ab“ und „funktioniert zuverlässig, wenn deine Nutzer etwas Unvorhergesehenes tun“ groß ist.
OpenAI und Anthropic verfeinern ihre Modelle durch RLHF (Reinforcement Learning from Human Feedback — im Grunde genommen sagen Tausende von Menschen dem Modell „gute Antwort“ oder „schlechte Antwort“, bis es bei den schwierigen Sachen besser wird). Offene Modelle können diese Skala menschlicher Kuratierung nicht einfach replizieren.
Die 7-Punkte-Lücke bei den durchschnittlichen Benchmarks verdeckt eine viel größere Lücke bei den schwierigsten Anfragen. Wenn dein AI-Agent auf die 5% härtesten Anfragen stößt — neuartige Argumentation, unbekannte Code-Muster, mehrdeutige Anweisungen — ziehen Claude und GPT-5 immer noch spürbar davon.
Das Selbst-Hosting ist auch nicht kostenlos. Ein Modell mit 685 Milliarden Parametern auszuführen erfordert mehrere H100-GPUs, ein Team, das sich mit CUDA-Debugging und Tensor-Parallelismus auskennt (das Modell auf mehrere Chips aufzuteilen, damit es tatsächlich läuft), sowie laufende Betriebskosten. Für viele Unternehmen sind die API-Kosten tatsächlich günstiger, wenn man die Ingenieurszeit mit einrechnet.
Und Sicherheit. Jeder kann offene Modelle ohne Einschränkungen feinabstimmen. Toll für Anpassungen, besorgniserregend für alles andere. Die Leitplanken, die Anthropic baut, sind nicht nur Features — sie sind ingenieurstechnische Investitionen, die offene Modelle selten erreichen.
Der Rahmen, der tatsächlich funktioniert
Stufe 1 — 70% der Arbeitslasten: Zusammenfassung, einfache Q&A, Klassifizierung, strukturierte Datenerfassung. Offene Modelle bewältigen diese Aufgaben mühelos. Dafür GPT-5 zu nutzen, wäre wie mit einem Ferrari Milch einkaufen zu fahren.
Stufe 2 — 25% der Arbeitslasten: Komplexe Code-Generierung, nuancierter Schreibstil, mehrstufiges Denken. Offene Modelle sind wettbewerbsfähig, aber inkonsistent. Proprietäre Modelle sind zuverlässiger. Deine Erfahrung hängt von deiner Toleranz für gelegentliche Fehlschläge ab.
Stufe 3 — 5% der Arbeitslasten: Grenzfall-Argumentation, neuartige Problemlösungen, die schwierigsten Grenzfälle. Proprietäre Modelle gewinnen. Die Lücke ist real und es lohnt sich, dafür zu zahlen.
Die Unternehmen, die 2026 gewinnen, sind nicht dogmatisch für eine Seite. Sie betreiben offene Modelle für den Großteil und leiten die schwierigen Aufgaben an Claude oder GPT-5 weiter. Das ist keine clevere Architektur — das ist einfache Arithmetik.
Der Verlauf ist die Geschichte
Die Lücke wechselte von erniedrigend zu vernachlässigbar in drei Jahren. Jedes Quartal verbessern sich offene Modelle schneller, als proprietäre ihren Vorsprung ausbauen können. Der Graben ist nicht verschwunden — aber er verdunstet in Echtzeit.
Gib dem noch zwei weitere Jahre, und „Open Source ist gut genug“ wird zu „Open Source ist der Standard“.
Wenn dein Geschäftsplan damit rechnet, dass proprietäre AI immer deutlich besser sein wird — aktualisiere deinen Geschäftsplan. Der Canyon ist jetzt ein Bordstein. Und Open Source stolpert nicht über Bordsteine.





