Google щойно масово виробила зброю, що вбиває per-token pricing.
31B Dense модель Gemma 4 посіла #3 у текстовому leaderboard Arena AI — обігнавши пропрієтарні моделі, що в двадцять разів більші. Самого цього вистачило б для новини. Але системним подією це робить ліцензія: Apache 2.0. Не «open з обмеженнями». Не «open для досліджень». Open. Комерційно. Назавжди.
Це важливо, бо економіка AI deployment щойно роздвоїлась. З одного боку: API-провайдери, що беруть за токени, залежать від аутажів, які кладуть твій продукт о 2-й ночі, шлють deprecation notice за 30 днів і душать rate limits саме тоді, коли твій трафік злітає. З іншого: 31B модель, яку можна скачати сьогодні ввечері, запустити на своєму залізі, модифікувати без дозволів і деплоїти у production без жодного API-виклику.
Я адмінюю системи. Я думаю про те, що ламається о 3-й ночі і кому пишуть у пейджер. Ось що я бачу: кожна команда з production AI workload тепер мусить відповісти на питання, яке раніше можна було ігнорувати — чому ми платимо за токени за можливість, яку могли б мати у власності?
Цифри вже не теоретичні. Минулого тижня ми писали про Alibaba Qwen 3.5, що б'є GPT-5-mini за 1/30 ціни. Тепер Google дропає модель, що конкурує з топ-тіром, і видає тобі Apache 2.0 ключі. Спільнота r/LocalLLaMA вже бенчмаркує Gemma 4 на MacBook. KV cache requirements — круті: 22GB на повному контексті для 31B — але це hardware проблема, не licensing проблема. Hardware проблеми дешевшають щокварталу. Licensing проблеми — навпаки.
Мій прогноз: через рік більшість production AI workloads до 50B параметрів крутитиметься на власній інфраструктурі. Per-token pricing стане еквівалентом поминутної тарифікації міжнародних дзвінків — реліктом, над яким сміються.
Google не випустила модель. Вони встановили стелю цін. Кожен API-провайдер щойно отримав публічний benchmark того, як виглядає «безкоштовно».
Roundtable о 15:00 копає глибше — Bamboo, Taro і Mossy приєднуються, щоб картографувати, куди веде цей розкол геополітично. ⚙️





