Du zahlst drei Dollar pro Million Tokens, jedes Mal wenn deine App Claude Sonnet aufruft. Vielleicht fährst du GPT-5-mini für sechzig Cent und fühlst dich schlau. So oder so — San Francisco kassiert bei jedem API-Call mit, und die Rechnung skaliert mit deinen Nutzern.
Das Problem ist strukturell. Proprietäre KI-Modelle setzen den Mindestpreis, und jeder, der darauf aufbaut, erbt deren Marge. So war der Deal — bis jemand ein Modell ausgeliefert hat, das gleichzeitig gut genug und praktisch kostenlos war. Die Frage war nie ob. Sondern ob das Ding den Kontakt mit der Produktion überlebt.
Am 16. Februar hat Alibaba Cloud Qwen 3.5 veröffentlicht — ein Mixture-of-Experts-Modell mit 397 Milliarden Parametern, das pro Token nur 17 Milliarden davon aktiviert. Statt das gesamte neuronale Netz durch jede Frage zu schleifen, routet MoE jede Aufgabe an die Spezialisten-Neuronen, die am besten dafür geeignet sind. Wie wenn du bei einem Rohrbruch nur den Klempner rufst, statt gleich alle Handwerker der Stadt anzurücken. Alibaba lizenzierte alle Varianten unter Apache 2.0 — frei für kommerzielle Nutzung, Modifikation, Weiterverkauf — und schob in den folgenden zwei Wochen mittlere und kleine Modelle nach.
Die Benchmarks sahen absurd aus. Qwen3.5-27B erreichte 72,4 auf SWE-bench Verified — exakt der Wert von GPT-5 mini. Die 9B-Variante übertraf Modelle, die 13-mal so groß waren, beim Reasoning auf Graduierten-Niveau. Alibaba setzte den API-Preis auf zehn Cent pro Million Input-Tokens — 30x günstiger als Claude Sonnet, 6x günstiger als GPT-5-mini. Aber chinesische Modelllabore haben eine stolze Tradition im Benchmark-Tourismus: Werte, die auf dem Papier fantastisch aussehen und beim Kontakt mit echten Workloads schmelzen. Also hielt jeder die Luft an.
Sechs Wochen später hielten die Zahlen — und übertrafen die Erwartungen. Die Qwen-Familie knackte 600 Millionen Downloads auf Hugging Face und brachte über 170.000 Derivat-Modelle hervor. Indonesiens GoTo migrierte die Hälfte seiner Infrastruktur zu Alibaba Cloud. AI Singapore wählte Qwen statt Metas Llama und Googles Gemma als Basis für sein regionales Sprachmodell — und landete damit an der Spitze des südostasiatischen Leaderboards. Der hybride Attention-Mechanismus — 75% leichtgewichtiges Gated DeltaNet gemischt mit 25% traditioneller Attention — lieferte 8,6x höheren Durchsatz bei 32K Kontext in der Produktion, nicht nur im Labor. Echte Unternehmen. Echte Workloads. Echtes Geld gespart.
Und dann gingen die Leute, die das alles gebaut hatten.
Am 3. März — einen Tag nach dem Release des kleinen Modells — postete Lin Junyang, Qwens technischer Leiter, 'me stepping down. bye my beloved qwen" auf X. Ein Kollege schrieb, dass der Abgang nicht seine Entscheidung war. Yu Bowen, Leiter des Post-Trainings, ging am selben Tag. Hui Binyuan, verantwortlich für Qwen Code, war bereits im Januar zu Meta übergelaufen. Drei der erfahrensten technischen Köpfe des Teams, weg in zehn Wochen. Alibabas CEO holte einen DeepMind-Veteranen und schwenkte von Open-Source-Idealismus auf DAU-Metriken und kommerzielle Verwertung um. Klassischer Konzern-Move: Warte, bis die Ingenieure etwas Außergewöhnliches gebaut haben, dann reorganisiere sie ins Nichts.
Die Architekten gingen. Die Architektur blieb.
Das ist die Sache mit Apache 2.0, die die meisten Leute übersehen. Alibaba kann morgen sein komplettes KI-Labor sprengen, und es ändert nichts. Die Weights liegen auf Hugging Face. Der Code lebt auf GitHub. Diese 170.000 Derivat-Modelle schulden Alibaba nichts und gehen nirgendwohin. Du kannst Qwen 3.5 heute forken und niemand kann es dir wegnehmen — weder juristisch, noch technisch, noch praktisch. Open Source braucht seine Eltern nicht mehr, sobald es aus dem Haus ist.
Bevor du deinen Stack umschreibst: Vorbehalte. Self-Hosting von 397 Milliarden Parametern erfordert immer noch ernsthafte Hardware — denke an 8x H100 GPUs für das volle Modell. Die 4B- und 9B-Varianten laufen auf deinem Laptop, aber das sind nicht die, die sich mit Claude Sonnet messen. 'Apache 2.0 von Alibaba" trägt geopolitisches Gewicht, das manche Enterprise-Einkaufsabteilungen nicht anfassen wollen. Und ein geköpftes Entwicklerteam bedeutet: Qwen 4, wann auch immer es kommt, ist eine offene Wette. Du setzt auf ein Modell mit bewährter Gegenwart und ungewisser Roadmap.
Vor sechs Wochen lebte Frontier-KI-Pricing exklusiv in San Francisco. Jetzt lebt es in einem Hugging-Face-Repo — für dreißig Cent auf den Dollar, oder gratis. Open Source musste den Benchmark-Krieg nicht gewinnen. Es musste nur nah genug rankommen, damit der Preisunterschied unhaltbar wurde. Qwen 3.5 hat diese Linie überschritten. Und anders als das Team, das es gebaut hat, geht das Modell nirgendwohin.
#qwen #alibaba #opensource #kimodelle #preise





