Селф-хостинг vs хмарний AI: коли локальне має сенс?

'Просто запусти локально' — це технічний еквівалент 'просто вирости собі пшеницю'. Іноді це справді економить купу грошей. Але частіше — коштує дорожче, вимагає більше зусиль і дає гірший результат. Але ти продовжуєш це чути — у Twitter, на Reddit, від того друга, який зібрав домашній сервер. Тож давай без гарячих тейків — дивимось на реальні цифри. 🔍

Справжнє питання не 'чи варто селф-хостити'. А при якому обсязі селф-хостинг стає дешевшим — і чи мають ці компроміси значення для того, що ти будуєш?

Що порівнюємо

Хмарний AI — платиш за використання. Щоразу, коли твій додаток надсилає текст до Claude, GPT чи Gemini, ти платиш за токени — шматочки слів, які AI обробляє, приблизно ¾ англійського слова кожен. Уяви таксі з лічильником: короткі поїздки — дешево, довгі — набігає.

Селф-хостинг AI — ти запускаєш open-source LLM (large language model — мозок за інструментами типу ChatGPT) на своєму залізі. Платиш за машину й електрику, але кожен запит після цього — безкоштовний. Як купити авто: дорого на старті, але без плати за кожну поїздку.

Ось актуальні хмарні ціни станом на березень 2026, за мільйон токенів:

Провайдер	Модель	Вартість input / output
Anthropic	Haiku 4.5	$1 / $5
Anthropic	Sonnet 4.6	$3 / $15
Anthropic	Opus 4.6	$5 / $25
OpenAI	GPT-4o mini	$0.15 / $0.60
OpenAI	GPT-4o	$2.50 / $10
Google	Gemini Flash	Безкоштовний рівень (15 req/min)
Google	Gemini Pro	$1.25 / $5

І претенденти з боку селф-хостингу: Ollama, що запускає open-source моделі на кшталт Llama 3.1, Mistral або DeepSeek на твоїй машині чи орендованому GPU-сервері.

Фундаментальний компроміс: хмара бере плату за використання, селф-хостинг — за час. При малих обсягах перемагає хмара, бо платиш лише за спожите. При великих — селф-хостинг, бо залізо коштує фіксовано. Треба знайти точку перетину. 💰

Математика витрат, яку ніхто не показує

Хмарні витрати на масштабі

Беремо Claude Haiku 4.5 як базу (найдешевша якісна хмарна модель), з типовим розподілом 30% input / 70% output токенів:

Токенів на день	Вартість/місяць	Вартість/рік
10K	$0.90	$10.80
100K	$9	$108
500K	$45	$540
1M	$90	$1,080
5M	$450	$5,400
10M	$900	$10,800

Витрати на селф-хостинг

Варіант А — залізо, яке вже є:

Якщо маєш машину з GPU (відеокарта, що прискорює AI-обчислення), єдина додаткова стаття витрат — електрика:

Залізо	Які моделі тягне	Електрика/місяць
16 GB RAM, без GPU	7B моделі (повільно)	~$10
RTX 3090 24GB	13B моделі (швидко)	~$20
RTX 4090 24GB	13B-30B моделі (швидко)	~$25
M2/M3 Mac 32GB+	7B-13B (нормальна швидкість)	~$5

'7B' і '13B' — це мільярди параметрів, тобто розмір моделі. Більші моделі розумніші, але їм потрібно більше пам'яті.

Варіант Б — оренда GPU-сервера:

Провайдер	GPU	Вартість/місяць
Hetzner (тільки CPU)	Немає	~$50
Vast.ai	RTX 3090	~$150
Vast.ai	RTX 4090	~$250
Lambda	A10G	~$350
RunPod	A100 40GB	~$800

Варіант В — збірка домашнього сервера:

Збірка	Початкова вартість	На місяць (за 3 роки)
Б/в RTX 3090 + базовий ПК	~$1,200	~$33 + електрика
RTX 4090 + нормальний ПК	~$2,500	~$70 + електрика
2× RTX 4090	~$4,500	~$125 + електрика
Mac Studio M3 Ultra 192GB	~$6,000	~$167 + електрика

Де лінії перетинаються

Хмарний Haiku vs. локальна 7B на наявному залізі:

Селф-хостинг коштує ~$15/місяць за електрику. Хмарний Haiku перевищує цю суму приблизно на 5 мільйонах токенів на місяць. Нижче — а більшість соло-фаундерів сидять значно нижче — хмара дешевша.

Хмарний Haiku vs. орендований GPU (RTX 3090 за $150/місяць):

Треба прокачати 50 мільйонів токенів на місяць, щоб оренда окупилась. Це 1.7 мільйона токенів щодня — серйозне продакшен-навантаження.

Для більшості інді-білдерів і малих команд хмарний API коштує менше, ніж селф-хостинг на виділеному залізі. Крапка.

Розрив у якості

Вартість — лише половина історії. Ось як моделі реально працюють:

Можливість	Хмара (Claude/GPT)	Селф-хостинг (7B-13B)
Якість міркувань	Відмінна	Середня
Генерація коду	Відмінна	Норм для простих задач
Контекстне вікно	200K-1M токенів	Зазвичай 4K-32K
Швидкість	50-100+ tok/sec	20-40 (GPU), 5-10 (CPU)
Tool use	Нативний, надійний	Можливий, менш надійний

Контекстне вікно — скільки тексту AI може 'бачити' одночасно, як його робоча пам'ять — це найбільший розрив. Хмарні моделі обробляють цілі кодові бази. Локальні бачать кілька сторінок.

Llama 3.1 70B реально вражає і конкурує на загальних задачах. Але потребує серйозного GPU, і локального еквівалента Opus чи топового GPT для складних міркувань досі немає. Розрив скоротився. Але не зник.

Коли селф-хостинг справді має сенс

1. Приватність і суверенність даних

Якщо твої дані не можуть залишити мережу — медичні записи, юридичні документи, фінансові дані, державні системи — селф-хостинг не опціональний. Жодні terms of service API не замінять 'дані не покинули нашу будівлю'.

# Ollama — налаштування за 2 хвилини
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Узагальни цей медичний запис..."
}'

Жодного мережевого запиту. Жодного стороннього логування. Повний комплаєнс.

2. Офлайн-середовища

Edge-пристрої, ізольовані мережі, віддалені локації без інтернету. Немає з'єднання — немає API — локальне єдиний варіант.

3. Великі обсяги простих задач

Embeddings — числові 'відбитки' тексту для пошуку — класифікація й короткі саммарі. Задачі, де маленька модель достатньо хороша, а обсяг величезний: ⚡

import ollama

def classify_document(text: str) -> str:
    response = ollama.chat(model='llama3.1:8b', messages=[
        {'role': 'user', 'content': f'Класифікуй: рахунок, договір, квитанція, лист, інше.\n\n{text[:500]}'}
    ])
    return response['message']['content']

# 100K документів/день:
# Хмара: ~$30/день
# Селф-хостинг: ~$0.50/день за електрику
# Економія на місяць: ~$900

4. Додатки, чутливі до затримок

API-виклики додають 100-500ms мережевої затримки. Локальний inference — процес генерації відповіді моделлю — стартує миттєво:

Хмара:    150-500ms мережа + 500-2000ms inference = 650-2500ms
Локально: 0ms мережа + 200-1000ms inference = 200-1000ms

Для автокомпліту, живого перекладу чи інтерактивних інструментів — ця різниця відчувається.

5. Розробка та експерименти

Тестування 50 варіантів промптів локально коштує $0. Той самий експеримент через Claude API — $5-20. Не космос, але під час інтенсивного R&D накопичується.

Практичне налаштування (10 хвилин)

Якщо вирішив, що селф-хостинг підходить під твій кейс:

Встановлюємо Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ollama pull llama3.1:8b          # 4.7 GB, загального призначення
ollama pull codellama:13b         # 7.4 GB, для коду
ollama pull nomic-embed-text      # 274 MB, для embeddings

Використовуємо як drop-in заміну

Ollama розмовляє тією ж мовою, що й OpenAI API. Більшість коду працює без змін — просто міняєш URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Поясни MCP у 3 реченнях"}]
)
print(response.choices[0].message.content)

Розробляй на локальних моделях, деплой у хмару — або навпаки. Той самий код, інший URL.

Бенчмарки продуктивності

Залізо	Токенів/сек	Відповідь на 500 токенів
M2 MacBook Pro 16GB	~35	~14 секунд
RTX 3060 12GB	~40	~12 секунд
RTX 4090 24GB	~80	~6 секунд
Тільки CPU (16 ядер)	~8	~60 секунд

Inference на чистому CPU — це біль для будь-чого інтерактивного. Немає GPU чи Apple Silicon? Залишайся на хмарі.

Гібридна стратегія (ось це правильний хід) 🚀

Найрозумніший варіант — не чиста хмара й не чистий селф-хостинг. Це маршрутизація кожної задачі туди, де вона працює найкраще:

def get_ai_client(task_type: str):
    if task_type in ["embedding", "classification", "simple_summary"]:
        # Локально — швидко, безкоштовно, якість ок
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
    elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
        # Хмара — краща якість, варта грошей
        return anthropic.Anthropic()
    else:
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")

Локально: embeddings, класифікація, чорнові генерації, розробка/тестування. У хмарі: складні міркування, генерація коду, tool use, все, що бачить клієнт.

Реальний приклад витрат для гібридного сетапу:

Задача	Обсяг	Де	Вартість/місяць
Embeddings	50K/день	Локально	$0
Класифікація	10K/день	Локально	$0
Code review	30/день	Хмара (Haiku)	$2
Генерація контенту	50/день	Хмара (Sonnet)	$15
Складний аналіз	10/день	Хмара (Sonnet)	$5
Разом			$22/міс

Чиста хмара для того ж навантаження: ~$180/місяць. Гібрид економить 88%.

Шпаргалка для прийняття рішень

Обробляєш понад 5M токенів щодня? → Селф-хостинг для масових задач, хмара для якісних.

Жорсткі вимоги до приватності даних? → Селф-хостинг, без варіантів.

Вже маєш GPU? → Гібрид: локально для простого, хмара для складного.

Нічого з вищезгаданого? → Тільки хмара. Це найдешевше й дає найкращі моделі.

Для більшості соло-фаундерів станом на березень 2026: починай із хмари. Claude Haiku за $1/$5 на мільйон токенів — настільки дешевий, що селф-хостинг заради економії — це як вирощувати власну пшеницю, щоб зекономити на хлібі. Залізо коштує більше, ніж роки API-використання при типових фаундерських обсягах. 💰

Виняток: є вимоги до приватності або вже маєш GPU. Тоді ставиш Ollama, запускаєш Llama 3.1 для масових задач і викликаєш Claude для складних проблем. Такий гібрид зрізає витрати на 80%+, зберігаючи якість там, де вона важлива. Все інше — оверінжиніринг. 🦝