'Просто запусти локально' — це технічний еквівалент 'просто вирости собі пшеницю'. Іноді це справді економить купу грошей. Але частіше — коштує дорожче, вимагає більше зусиль і дає гірший результат. Але ти продовжуєш це чути — у Twitter, на Reddit, від того друга, який зібрав домашній сервер. Тож давай без гарячих тейків — дивимось на реальні цифри. 🔍
Справжнє питання не 'чи варто селф-хостити'. А при якому обсязі селф-хостинг стає дешевшим — і чи мають ці компроміси значення для того, що ти будуєш?
Що порівнюємо
Хмарний AI — платиш за використання. Щоразу, коли твій додаток надсилає текст до Claude, GPT чи Gemini, ти платиш за токени — шматочки слів, які AI обробляє, приблизно ¾ англійського слова кожен. Уяви таксі з лічильником: короткі поїздки — дешево, довгі — набігає.
Селф-хостинг AI — ти запускаєш open-source LLM (large language model — мозок за інструментами типу ChatGPT) на своєму залізі. Платиш за машину й електрику, але кожен запит після цього — безкоштовний. Як купити авто: дорого на старті, але без плати за кожну поїздку.
Ось актуальні хмарні ціни станом на березень 2026, за мільйон токенів:
| Провайдер | Модель | Вартість input / output |
|---|---|---|
| Anthropic | Haiku 4.5 | $1 / $5 |
| Anthropic | Sonnet 4.6 | $3 / $15 |
| Anthropic | Opus 4.6 | $5 / $25 |
| OpenAI | GPT-4o mini | $0.15 / $0.60 |
| OpenAI | GPT-4o | $2.50 / $10 |
| Gemini Flash | Безкоштовний рівень (15 req/min) | |
| Gemini Pro | $1.25 / $5 |
І претенденти з боку селф-хостингу: Ollama, що запускає open-source моделі на кшталт Llama 3.1, Mistral або DeepSeek на твоїй машині чи орендованому GPU-сервері.
Фундаментальний компроміс: хмара бере плату за використання, селф-хостинг — за час. При малих обсягах перемагає хмара, бо платиш лише за спожите. При великих — селф-хостинг, бо залізо коштує фіксовано. Треба знайти точку перетину. 💰
Математика витрат, яку ніхто не показує
Хмарні витрати на масштабі
Беремо Claude Haiku 4.5 як базу (найдешевша якісна хмарна модель), з типовим розподілом 30% input / 70% output токенів:
| Токенів на день | Вартість/місяць | Вартість/рік |
|---|---|---|
| 10K | $0.90 | $10.80 |
| 100K | $9 | $108 |
| 500K | $45 | $540 |
| 1M | $90 | $1,080 |
| 5M | $450 | $5,400 |
| 10M | $900 | $10,800 |
Витрати на селф-хостинг
Варіант А — залізо, яке вже є:
Якщо маєш машину з GPU (відеокарта, що прискорює AI-обчислення), єдина додаткова стаття витрат — електрика:
| Залізо | Які моделі тягне | Електрика/місяць |
|---|---|---|
| 16 GB RAM, без GPU | 7B моделі (повільно) | ~$10 |
| RTX 3090 24GB | 13B моделі (швидко) | ~$20 |
| RTX 4090 24GB | 13B-30B моделі (швидко) | ~$25 |
| M2/M3 Mac 32GB+ | 7B-13B (нормальна швидкість) | ~$5 |
'7B' і '13B' — це мільярди параметрів, тобто розмір моделі. Більші моделі розумніші, але їм потрібно більше пам'яті.
Варіант Б — оренда GPU-сервера:
| Провайдер | GPU | Вартість/місяць |
|---|---|---|
| Hetzner (тільки CPU) | Немає | ~$50 |
| Vast.ai | RTX 3090 | ~$150 |
| Vast.ai | RTX 4090 | ~$250 |
| Lambda | A10G | ~$350 |
| RunPod | A100 40GB | ~$800 |
Варіант В — збірка домашнього сервера:
| Збірка | Початкова вартість | На місяць (за 3 роки) |
|---|---|---|
| Б/в RTX 3090 + базовий ПК | ~$1,200 | ~$33 + електрика |
| RTX 4090 + нормальний ПК | ~$2,500 | ~$70 + електрика |
| 2× RTX 4090 | ~$4,500 | ~$125 + електрика |
| Mac Studio M3 Ultra 192GB | ~$6,000 | ~$167 + електрика |
Де лінії перетинаються
Хмарний Haiku vs. локальна 7B на наявному залізі:
Селф-хостинг коштує ~$15/місяць за електрику. Хмарний Haiku перевищує цю суму приблизно на 5 мільйонах токенів на місяць. Нижче — а більшість соло-фаундерів сидять значно нижче — хмара дешевша.
Хмарний Haiku vs. орендований GPU (RTX 3090 за $150/місяць):
Треба прокачати 50 мільйонів токенів на місяць, щоб оренда окупилась. Це 1.7 мільйона токенів щодня — серйозне продакшен-навантаження.
Для більшості інді-білдерів і малих команд хмарний API коштує менше, ніж селф-хостинг на виділеному залізі. Крапка.
Розрив у якості
Вартість — лише половина історії. Ось як моделі реально працюють:
| Можливість | Хмара (Claude/GPT) | Селф-хостинг (7B-13B) |
|---|---|---|
| Якість міркувань | Відмінна | Середня |
| Генерація коду | Відмінна | Норм для простих задач |
| Контекстне вікно | 200K-1M токенів | Зазвичай 4K-32K |
| Швидкість | 50-100+ tok/sec | 20-40 (GPU), 5-10 (CPU) |
| Tool use | Нативний, надійний | Можливий, менш надійний |
Контекстне вікно — скільки тексту AI може 'бачити' одночасно, як його робоча пам'ять — це найбільший розрив. Хмарні моделі обробляють цілі кодові бази. Локальні бачать кілька сторінок.
Llama 3.1 70B реально вражає і конкурує на загальних задачах. Але потребує серйозного GPU, і локального еквівалента Opus чи топового GPT для складних міркувань досі немає. Розрив скоротився. Але не зник.
Коли селф-хостинг справді має сенс
1. Приватність і суверенність даних
Якщо твої дані не можуть залишити мережу — медичні записи, юридичні документи, фінансові дані, державні системи — селф-хостинг не опціональний. Жодні terms of service API не замінять 'дані не покинули нашу будівлю'.
# Ollama — налаштування за 2 хвилини
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Узагальни цей медичний запис..."
}'
Жодного мережевого запиту. Жодного стороннього логування. Повний комплаєнс.
2. Офлайн-середовища
Edge-пристрої, ізольовані мережі, віддалені локації без інтернету. Немає з'єднання — немає API — локальне єдиний варіант.
3. Великі обсяги простих задач
Embeddings — числові 'відбитки' тексту для пошуку — класифікація й короткі саммарі. Задачі, де маленька модель достатньо хороша, а обсяг величезний: ⚡
import ollama
def classify_document(text: str) -> str:
response = ollama.chat(model='llama3.1:8b', messages=[
{'role': 'user', 'content': f'Класифікуй: рахунок, договір, квитанція, лист, інше.\n\n{text[:500]}'}
])
return response['message']['content']
# 100K документів/день:
# Хмара: ~$30/день
# Селф-хостинг: ~$0.50/день за електрику
# Економія на місяць: ~$900
4. Додатки, чутливі до затримок
API-виклики додають 100-500ms мережевої затримки. Локальний inference — процес генерації відповіді моделлю — стартує миттєво:
Хмара: 150-500ms мережа + 500-2000ms inference = 650-2500ms
Локально: 0ms мережа + 200-1000ms inference = 200-1000ms
Для автокомпліту, живого перекладу чи інтерактивних інструментів — ця різниця відчувається.
5. Розробка та експерименти
Тестування 50 варіантів промптів локально коштує $0. Той самий експеримент через Claude API — $5-20. Не космос, але під час інтенсивного R&D накопичується.
Практичне налаштування (10 хвилин)
Якщо вирішив, що селф-хостинг підходить під твій кейс:
Встановлюємо Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull llama3.1:8b # 4.7 GB, загального призначення
ollama pull codellama:13b # 7.4 GB, для коду
ollama pull nomic-embed-text # 274 MB, для embeddings
Використовуємо як drop-in заміну
Ollama розмовляє тією ж мовою, що й OpenAI API. Більшість коду працює без змін — просто міняєш URL:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="llama3.1:8b",
messages=[{"role": "user", "content": "Поясни MCP у 3 реченнях"}]
)
print(response.choices[0].message.content)
Розробляй на локальних моделях, деплой у хмару — або навпаки. Той самий код, інший URL.
Бенчмарки продуктивності
| Залізо | Токенів/сек | Відповідь на 500 токенів |
|---|---|---|
| M2 MacBook Pro 16GB | ~35 | ~14 секунд |
| RTX 3060 12GB | ~40 | ~12 секунд |
| RTX 4090 24GB | ~80 | ~6 секунд |
| Тільки CPU (16 ядер) | ~8 | ~60 секунд |
Inference на чистому CPU — це біль для будь-чого інтерактивного. Немає GPU чи Apple Silicon? Залишайся на хмарі.
Гібридна стратегія (ось це правильний хід) 🚀
Найрозумніший варіант — не чиста хмара й не чистий селф-хостинг. Це маршрутизація кожної задачі туди, де вона працює найкраще:
def get_ai_client(task_type: str):
if task_type in ["embedding", "classification", "simple_summary"]:
# Локально — швидко, безкоштовно, якість ок
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
# Хмара — краща якість, варта грошей
return anthropic.Anthropic()
else:
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
Локально: embeddings, класифікація, чорнові генерації, розробка/тестування. У хмарі: складні міркування, генерація коду, tool use, все, що бачить клієнт.
Реальний приклад витрат для гібридного сетапу:
| Задача | Обсяг | Де | Вартість/місяць |
|---|---|---|---|
| Embeddings | 50K/день | Локально | $0 |
| Класифікація | 10K/день | Локально | $0 |
| Code review | 30/день | Хмара (Haiku) | $2 |
| Генерація контенту | 50/день | Хмара (Sonnet) | $15 |
| Складний аналіз | 10/день | Хмара (Sonnet) | $5 |
| Разом | $22/міс |
Чиста хмара для того ж навантаження: ~$180/місяць. Гібрид економить 88%.
Шпаргалка для прийняття рішень
Обробляєш понад 5M токенів щодня? → Селф-хостинг для масових задач, хмара для якісних.
Жорсткі вимоги до приватності даних? → Селф-хостинг, без варіантів.
Вже маєш GPU? → Гібрид: локально для простого, хмара для складного.
Нічого з вищезгаданого? → Тільки хмара. Це найдешевше й дає найкращі моделі.
Для більшості соло-фаундерів станом на березень 2026: починай із хмари. Claude Haiku за $1/$5 на мільйон токенів — настільки дешевий, що селф-хостинг заради економії — це як вирощувати власну пшеницю, щоб зекономити на хлібі. Залізо коштує більше, ніж роки API-використання при типових фаундерських обсягах. 💰
Виняток: є вимоги до приватності або вже маєш GPU. Тоді ставиш Ollama, запускаєш Llama 3.1 для масових задач і викликаєш Claude для складних проблем. Такий гібрид зрізає витрати на 80%+, зберігаючи якість там, де вона важлива. Все інше — оверінжиніринг. 🦝





