'Просто запусти локально' — це технічний еквівалент 'просто вирости собі пшеницю'. Іноді це справді економить купу грошей. Але частіше — коштує дорожче, вимагає більше зусиль і дає гірший результат. Але ти продовжуєш це чути — у Twitter, на Reddit, від того друга, який зібрав домашній сервер. Тож давай без гарячих тейків — дивимось на реальні цифри. 🔍

Справжнє питання не 'чи варто селф-хостити'. А при якому обсязі селф-хостинг стає дешевшим — і чи мають ці компроміси значення для того, що ти будуєш?

Що порівнюємо

Хмарний AI — платиш за використання. Щоразу, коли твій додаток надсилає текст до Claude, GPT чи Gemini, ти платиш за токени — шматочки слів, які AI обробляє, приблизно ¾ англійського слова кожен. Уяви таксі з лічильником: короткі поїздки — дешево, довгі — набігає.

Селф-хостинг AI — ти запускаєш open-source LLM (large language model — мозок за інструментами типу ChatGPT) на своєму залізі. Платиш за машину й електрику, але кожен запит після цього — безкоштовний. Як купити авто: дорого на старті, але без плати за кожну поїздку.

Ось актуальні хмарні ціни станом на березень 2026, за мільйон токенів:

Провайдер Модель Вартість input / output
Anthropic Haiku 4.5 $1 / $5
Anthropic Sonnet 4.6 $3 / $15
Anthropic Opus 4.6 $5 / $25
OpenAI GPT-4o mini $0.15 / $0.60
OpenAI GPT-4o $2.50 / $10
Google Gemini Flash Безкоштовний рівень (15 req/min)
Google Gemini Pro $1.25 / $5

І претенденти з боку селф-хостингу: Ollama, що запускає open-source моделі на кшталт Llama 3.1, Mistral або DeepSeek на твоїй машині чи орендованому GPU-сервері.

Фундаментальний компроміс: хмара бере плату за використання, селф-хостинг — за час. При малих обсягах перемагає хмара, бо платиш лише за спожите. При великих — селф-хостинг, бо залізо коштує фіксовано. Треба знайти точку перетину. 💰

Математика витрат, яку ніхто не показує

Хмарні витрати на масштабі

Беремо Claude Haiku 4.5 як базу (найдешевша якісна хмарна модель), з типовим розподілом 30% input / 70% output токенів:

Токенів на день Вартість/місяць Вартість/рік
10K $0.90 $10.80
100K $9 $108
500K $45 $540
1M $90 $1,080
5M $450 $5,400
10M $900 $10,800

Витрати на селф-хостинг

Варіант А — залізо, яке вже є:

Якщо маєш машину з GPU (відеокарта, що прискорює AI-обчислення), єдина додаткова стаття витрат — електрика:

Залізо Які моделі тягне Електрика/місяць
16 GB RAM, без GPU 7B моделі (повільно) ~$10
RTX 3090 24GB 13B моделі (швидко) ~$20
RTX 4090 24GB 13B-30B моделі (швидко) ~$25
M2/M3 Mac 32GB+ 7B-13B (нормальна швидкість) ~$5

'7B' і '13B' — це мільярди параметрів, тобто розмір моделі. Більші моделі розумніші, але їм потрібно більше пам'яті.

Варіант Б — оренда GPU-сервера:

Провайдер GPU Вартість/місяць
Hetzner (тільки CPU) Немає ~$50
Vast.ai RTX 3090 ~$150
Vast.ai RTX 4090 ~$250
Lambda A10G ~$350
RunPod A100 40GB ~$800

Варіант В — збірка домашнього сервера:

Збірка Початкова вартість На місяць (за 3 роки)
Б/в RTX 3090 + базовий ПК ~$1,200 ~$33 + електрика
RTX 4090 + нормальний ПК ~$2,500 ~$70 + електрика
2× RTX 4090 ~$4,500 ~$125 + електрика
Mac Studio M3 Ultra 192GB ~$6,000 ~$167 + електрика

Де лінії перетинаються

Хмарний Haiku vs. локальна 7B на наявному залізі:

Селф-хостинг коштує ~$15/місяць за електрику. Хмарний Haiku перевищує цю суму приблизно на 5 мільйонах токенів на місяць. Нижче — а більшість соло-фаундерів сидять значно нижче — хмара дешевша.

Хмарний Haiku vs. орендований GPU (RTX 3090 за $150/місяць):

Треба прокачати 50 мільйонів токенів на місяць, щоб оренда окупилась. Це 1.7 мільйона токенів щодня — серйозне продакшен-навантаження.

Для більшості інді-білдерів і малих команд хмарний API коштує менше, ніж селф-хостинг на виділеному залізі. Крапка.

Розрив у якості

Вартість — лише половина історії. Ось як моделі реально працюють:

Можливість Хмара (Claude/GPT) Селф-хостинг (7B-13B)
Якість міркувань Відмінна Середня
Генерація коду Відмінна Норм для простих задач
Контекстне вікно 200K-1M токенів Зазвичай 4K-32K
Швидкість 50-100+ tok/sec 20-40 (GPU), 5-10 (CPU)
Tool use Нативний, надійний Можливий, менш надійний

Контекстне вікно — скільки тексту AI може 'бачити' одночасно, як його робоча пам'ять — це найбільший розрив. Хмарні моделі обробляють цілі кодові бази. Локальні бачать кілька сторінок.

Llama 3.1 70B реально вражає і конкурує на загальних задачах. Але потребує серйозного GPU, і локального еквівалента Opus чи топового GPT для складних міркувань досі немає. Розрив скоротився. Але не зник.

Коли селф-хостинг справді має сенс

1. Приватність і суверенність даних

Якщо твої дані не можуть залишити мережу — медичні записи, юридичні документи, фінансові дані, державні системи — селф-хостинг не опціональний. Жодні terms of service API не замінять 'дані не покинули нашу будівлю'.

# Ollama — налаштування за 2 хвилини
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Узагальни цей медичний запис..."
}'

Жодного мережевого запиту. Жодного стороннього логування. Повний комплаєнс.

2. Офлайн-середовища

Edge-пристрої, ізольовані мережі, віддалені локації без інтернету. Немає з'єднання — немає API — локальне єдиний варіант.

3. Великі обсяги простих задач

Embeddings — числові 'відбитки' тексту для пошуку — класифікація й короткі саммарі. Задачі, де маленька модель достатньо хороша, а обсяг величезний: ⚡

import ollama

def classify_document(text: str) -> str:
    response = ollama.chat(model='llama3.1:8b', messages=[
        {'role': 'user', 'content': f'Класифікуй: рахунок, договір, квитанція, лист, інше.\n\n{text[:500]}'}
    ])
    return response['message']['content']

# 100K документів/день:
# Хмара: ~$30/день
# Селф-хостинг: ~$0.50/день за електрику
# Економія на місяць: ~$900

4. Додатки, чутливі до затримок

API-виклики додають 100-500ms мережевої затримки. Локальний inference — процес генерації відповіді моделлю — стартує миттєво:

Хмара:    150-500ms мережа + 500-2000ms inference = 650-2500ms
Локально: 0ms мережа + 200-1000ms inference = 200-1000ms

Для автокомпліту, живого перекладу чи інтерактивних інструментів — ця різниця відчувається.

5. Розробка та експерименти

Тестування 50 варіантів промптів локально коштує $0. Той самий експеримент через Claude API — $5-20. Не космос, але під час інтенсивного R&D накопичується.

Практичне налаштування (10 хвилин)

Якщо вирішив, що селф-хостинг підходить під твій кейс:

Встановлюємо Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ollama pull llama3.1:8b          # 4.7 GB, загального призначення
ollama pull codellama:13b         # 7.4 GB, для коду
ollama pull nomic-embed-text      # 274 MB, для embeddings

Використовуємо як drop-in заміну

Ollama розмовляє тією ж мовою, що й OpenAI API. Більшість коду працює без змін — просто міняєш URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Поясни MCP у 3 реченнях"}]
)
print(response.choices[0].message.content)

Розробляй на локальних моделях, деплой у хмару — або навпаки. Той самий код, інший URL.

Бенчмарки продуктивності

Залізо Токенів/сек Відповідь на 500 токенів
M2 MacBook Pro 16GB ~35 ~14 секунд
RTX 3060 12GB ~40 ~12 секунд
RTX 4090 24GB ~80 ~6 секунд
Тільки CPU (16 ядер) ~8 ~60 секунд

Inference на чистому CPU — це біль для будь-чого інтерактивного. Немає GPU чи Apple Silicon? Залишайся на хмарі.

Гібридна стратегія (ось це правильний хід) 🚀

Найрозумніший варіант — не чиста хмара й не чистий селф-хостинг. Це маршрутизація кожної задачі туди, де вона працює найкраще:

def get_ai_client(task_type: str):
    if task_type in ["embedding", "classification", "simple_summary"]:
        # Локально — швидко, безкоштовно, якість ок
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
    elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
        # Хмара — краща якість, варта грошей
        return anthropic.Anthropic()
    else:
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")

Локально: embeddings, класифікація, чорнові генерації, розробка/тестування. У хмарі: складні міркування, генерація коду, tool use, все, що бачить клієнт.

Реальний приклад витрат для гібридного сетапу:

Задача Обсяг Де Вартість/місяць
Embeddings 50K/день Локально $0
Класифікація 10K/день Локально $0
Code review 30/день Хмара (Haiku) $2
Генерація контенту 50/день Хмара (Sonnet) $15
Складний аналіз 10/день Хмара (Sonnet) $5
Разом $22/міс

Чиста хмара для того ж навантаження: ~$180/місяць. Гібрид економить 88%.

Шпаргалка для прийняття рішень

Обробляєш понад 5M токенів щодня? → Селф-хостинг для масових задач, хмара для якісних.

Жорсткі вимоги до приватності даних? → Селф-хостинг, без варіантів.

Вже маєш GPU? → Гібрид: локально для простого, хмара для складного.

Нічого з вищезгаданого? → Тільки хмара. Це найдешевше й дає найкращі моделі.

Для більшості соло-фаундерів станом на березень 2026: починай із хмари. Claude Haiku за $1/$5 на мільйон токенів — настільки дешевий, що селф-хостинг заради економії — це як вирощувати власну пшеницю, щоб зекономити на хлібі. Залізо коштує більше, ніж роки API-використання при типових фаундерських обсягах. 💰

Виняток: є вимоги до приватності або вже маєш GPU. Тоді ставиш Ollama, запускаєш Llama 3.1 для масових задач і викликаєш Claude для складних проблем. Такий гібрид зрізає витрати на 80%+, зберігаючи якість там, де вона важлива. Все інше — оверінжиніринг. 🦝