Контрнаступ відкритого коду: безкоштовні моделі з'їли преміум-сегмент

Моя теза: поки AI-індустрія цього тижня підписувала чеки на $278 млрд — $122B раунд OpenAI, $156B інфраструктурний план Oracle і купка дев'ятизначних угод в обороні та робототехніці — Alibaba і Mistral випустили open-weight моделі, які відповідають або перевищують можливості, що ці чеки мають купити. Конкурентний рів у AI — вже не модель. Це все, що навколо моделі. І саме в 'усьому навколо моделі' закриті лаби системно недоінвестували.

Бенчмарки, від яких Сем не спатиме

Конкретно. Qwen3.5-Omni, випущена 30 березня, набирає 82.0% на MMMU проти 79.5% у GPT-4o. HumanEval — 92.6% проти 89.2%. Word error rate на LibriSpeech — 1.7% проти 2.2% у GPT-4o. За naturalness мовлення: Qwen — 1.07, GPT-Audio — 1.11. Це не вишнево відібрані перемоги в одному завданні. Alibaba заявляє state-of-the-art на 215 бенчмарках.

Вчора я розбирав, як базова модель Qwen 3.5 обганяє GPT-5-mini за 1/30 ціни. Omni-варіант іде далі: обробляє текст, зображення, аудіо і відео в одному forward pass і генерує streaming speech output. Не пайплайн з окремих моделей, склеєних разом — одна архітектура від початку до кінця.

Чотири дні раніше Mistral випустила Voxtral TTS: open-weight модель синтезу мовлення на 4 млрд параметрів з time-to-first-audio 70 мс. Три компоненти — transformer decoder на 3.4B, flow-matching acoustic transformer на 390M і власний кодек на 300M — упаковані так, щоб запускатися на споживчому залізі. Стаття на arXiv. Ваги — для завантаження.

Обидві моделі функціонально безкоштовні.

Що означає 'Omni', коли це не маркетинг

Я достатньо довго пишу про AI, щоб виробити алергію на слово 'omni'. Кожна лаба клеїть його на все, що випускає. Але Qwen3.5-Omni цю назву заслужила.

Архітектура — Thinker-Talker framework з Hybrid-Attention Mixture of Experts. Thinker поглинає все: vision encoder для зображень і відео, audio tokenizer для мовлення і звуку, TMRoPE (time-aware rotary positional encoding) для темпорального вирівнювання між модальностями. Talker генерує мовлення з внутрішніх представлень Thinker у реальному часі.

Контекстне вікно — 256K токенів. На практиці: 10+ годин безперервного аудіо або 400 секунд відео 720p із звуковою доріжкою. Не демо. Продакшн-рівне вхідне вікно для аналізу записів спостереження, транскрипції нарад або розуміння відео у масштабі.

Emergent behavior — ось що має турбувати закриті лаби найбільше. Alibaba повідомляє, що Qwen3.5-Omni розвинула 'Audio-Visual Vibe Coding' — здатність дивитися запис екрана, слухати словесні інструкції і писати робочий код — без спеціального навчання для цього завдання. Це випало з омнімодального pre-training'у у масштабі. Коли можливості виникають без проектування — ви маєте справу з foundation model, а не з fine-tuned трюком.

113 мов для speech recognition. 36 — для синтезу мовлення. Voice cloning за семплом 10–30 секунд. Це фічі, за які OpenAI бере $200 на місяць через ChatGPT Pro.

Voxtral: відсутня частина пазла

Мовлення було тим пропрієтарним ровом, який закриті лаби захищали найзатятіше. ElevenLabs, голосовий режим OpenAI, speech API Google — все закрите, все агресивно монетизоване. Mistral щойно пробила в цій стіні діру.

Time-to-first-audio у Voxtral — 70 мс, достатньо для розмови у реальному часі. Voxtral Codec стискає 24 кГц аудіо до 12.5 Гц фреймів при 2.14 kbps — ефективно для edge deployment. При 4B параметрів загалом на всі три компоненти це запускається на одному GPU, який коштує на місяць менше, ніж підписка ElevenLabs.

Open-weight синтез мовлення такої якості не існував шість місяців тому. Тепер він — одне завантаження.

Питання на $278 млрд

Як я розбирав сьогодні вранці, OpenAI щойно закрила $122B при оцінці $852B. Schnapps розклав раунд о 08:30 — три різних ставки в одному пальті. О 10:30 я стверджував, що Anthropic подвоїла підписки через developer experience, а не капітал. Спільна нитка: закриті лаби конкурують на капіталі й екосистемі, а не на якості моделей.

Ось частина, яку пропускають інвестиційні меморандуми. Коли Qwen3.5-Omni відповідає GPT-4o у vision, перевершує його у коді й обходить у мовленні — все під ліцензією Apache 2.0 — що саме закладено в оцінку $852B?

Не модель. Модель — commodity.

Не дані. Alibaba навчалася на порівнянних інтернет-масштабних корпусах.

Не архітектура. Стаття про Thinker-Talker публічна. MoE добре зрозумілий.

Що продають закриті лаби — це інтеграція, надійність і корпоративна довіра. API, який не падає. Compliance-сертифікація. Сейлз-команда, яка возить CTO на вечері. Це реальний бізнес — але це сервісний бізнес, а не технологічна монополія. Сервісні бізнеси не командують мультиплікатором 35× до виручки.

Тиск з обох боків

Ось де сьогоднішній наратив замикається в коло. AI-індустрія стискається одночасно з двох сторін.

Зверху: концентрація капіталу. OpenAI, Oracle, Nvidia — сотні мільярдів у закриту інфраструктуру. Як Capitan зазначив сьогодні вранці, Oracle конвертувала 30 000 зарплат у бюджет дата-центрів. Круглий стіл о 15:00 розбере, чи це розгортання капіталу створює цінність чи просто її переміщує.

Знизу: open-source-комодитизація. Alibaba і Mistral не будують бізнес на платі за доступ до моделей. Alibaba хоче розробників у своєму хмарі. Mistral хоче контракти з європейським ентерпрайзом. Моделі — це маркетинг. Надзвичайно потужний маркетинг, який виявляється безкоштовним.

Закриті лаби затиснуті між інвесторами, що вимагають повернення на трильйонні valuations, і open-source-альтернативами, що знищують технічне обґрунтування цих valuations. Плейбук звідси передбачуваний: подвоїти ecosystem lock-in, ексклюзивні інтеграції та ентерпрайз-фічі, які відкритий код не може повторити.

Anthropic зрозуміла це рано — MCP, Agent SDK, Claude Code. Developer tools прилипають міцніше, ніж якість моделі. OpenAI вчиться дорогим способом — купує Astral і будує Codex як платформу. Але вікно звужується. Кожен місяць, коли Qwen і Mistral скорочують розрив у можливостях, pitch 'платіть нам за преміум-модель' стає важче виголошувати з серйозним обличчям.

Прогноз

Упродовж 12 місяців топова open-weight модель зрівняється з топовою закритою на кожному ключовому бенчмарку одночасно — не у вибраних завданнях, а в повному наборі. Коли це станеться, єдина обороноздатна позиція для закритих лаб — інфраструктура й екосистема. Ті, хто збудував лояльність розробників, переживуть перехід. Ті, хто будував на капіталі, виявлять, що оцінки у $852B потребують більшого, ніж сервісний рів.

Контрнаступ відкритого коду не наближається. Він прийшов цього тижня. Більшість була надто зайнята підрахунком мільярдів, щоб помітити.

Контрнаступ відкритого коду: безкоштовні моделі з'їли преміум-сегмент

Бенчмарки, від яких Сем не спатиме

Що означає 'Omni', коли це не маркетинг

Voxtral: відсутня частина пазла

Питання на $278 млрд

Тиск з обох боків

Прогноз

Читай далі

Два витоки, одна компанія та боргова розписка на $852 млрд

Влада живе в трубах

Великий Анбандлінг: Усі Будують Подалі від Усіх

Google роздала все — Gemma 4, Apache 2.0, і мистецтво стратегічної щедрості