"Roda local" é o equivalente tech de "planta sua própria comida." Às vezes economiza uma fortuna. Na maioria das vezes, custa mais, dá mais trabalho e entrega resultados piores. Mas você continua ouvindo isso — no Twitter, no Reddit, daquele amigo que montou um home server. Então vamos pular os takes quentes e olhar os números de verdade. 🔍
A pergunta real não é devo hospedar localmente. É a partir de qual volume o self-hosting fica mais barato — e as desvantagens realmente importam pro que você está construindo?
O que estamos comparando
IA na Cloud significa que você paga por uso. Toda vez que seu app envia texto pro Claude, GPT ou Gemini, você paga pelos tokens — pedaços de palavras que a IA processa, mais ou menos ¾ de uma palavra em inglês. Pense como um taxímetro: corridas curtas são baratas, longas pesam no bolso.
IA Self-hosted significa rodar um LLM open-source (large language model — o cérebro por trás de ferramentas como o ChatGPT) no seu próprio hardware. Você paga pela máquina e pela eletricidade, mas cada request depois disso é grátis. Pense como comprar um carro: caro no início, mas sem tarifa por corrida.
Aqui estão os preços atuais de cloud em março de 2026, por milhão de tokens:
| Provedor | Modelo | Custo Input / Output |
|---|---|---|
| Anthropic | Haiku 4.5 | $1 / $5 |
| Anthropic | Sonnet 4.6 | $3 / $15 |
| Anthropic | Opus 4.6 | $5 / $25 |
| OpenAI | GPT-4o mini | $0.15 / $0.60 |
| OpenAI | GPT-4o | $2.50 / $10 |
| Gemini Flash | Tier gratuito (15 req/min) | |
| Gemini Pro | $1.25 / $5 |
E os concorrentes self-hosted: Ollama rodando modelos open-source como Llama 3.1, Mistral ou DeepSeek na sua própria máquina ou num servidor GPU alugado.
O tradeoff fundamental: cloud cobra por uso, self-hosted cobra por tempo. Com uso baixo, cloud ganha porque você só paga pelo que consome. Com uso alto, self-hosted ganha porque o custo do hardware é fixo. Precisamos encontrar o ponto de cruzamento. 💰
A matemática de custos que ninguém mostra
Custos de cloud em escala
Usando Claude Haiku 4.5 como baseline (modelo cloud de qualidade mais barato), assumindo uma divisão típica de 30% input / 70% output tokens:
| Tokens diários | Custo mensal | Custo anual |
|---|---|---|
| 10K | $0.90 | $10.80 |
| 100K | $9 | $108 |
| 500K | $45 | $540 |
| 1M | $90 | $1,080 |
| 5M | $450 | $5,400 |
| 10M | $900 | $10,800 |
Custos self-hosted
Opção A — hardware que você já tem:
Se você tem uma máquina com GPU (placa de vídeo que acelera a matemática da IA), o único custo extra é eletricidade:
| Hardware | Modelos que roda | Eletricidade mensal |
|---|---|---|
| 16 GB RAM, sem GPU | Modelos 7B (lento) | ~$10 |
| RTX 3090 24GB | Modelos 13B (rápido) | ~$20 |
| RTX 4090 24GB | Modelos 13B-30B (rápido) | ~$25 |
| M2/M3 Mac 32GB+ | 7B-13B (boa velocidade) | ~$5 |
"7B" e "13B" se referem a bilhões de parâmetros — o tamanho do modelo. Modelos maiores são mais inteligentes, mas precisam de mais memória.
Opção B — alugando um servidor GPU:
| Provedor | GPU | Custo mensal |
|---|---|---|
| Hetzner (só CPU) | Nenhuma | ~$50 |
| Vast.ai | RTX 3090 | ~$150 |
| Vast.ai | RTX 4090 | ~$250 |
| Lambda | A10G | ~$350 |
| RunPod | A100 40GB | ~$800 |
Opção C — montando um home server:
| Setup | Custo inicial | Mensal (em 3 anos) |
|---|---|---|
| RTX 3090 usada + PC básico | ~$1,200 | ~$33 + eletricidade |
| RTX 4090 + PC decente | ~$2,500 | ~$70 + eletricidade |
| 2× RTX 4090 | ~$4,500 | ~$125 + eletricidade |
| Mac Studio M3 Ultra 192GB | ~$6,000 | ~$167 + eletricidade |
Onde as linhas se cruzam
Cloud Haiku vs. 7B local em hardware existente:
O custo self-hosted fica em ~$15/mês de eletricidade. Cloud Haiku cruza esse valor com aproximadamente 5 milhões de tokens por mês. Abaixo disso — e a maioria dos founders solo fica bem abaixo — cloud é mais barato.
Cloud Haiku vs. GPU alugada (RTX 3090 a $150/mês):
Você precisa empurrar 50 milhões de tokens por mês antes do servidor alugado empatar. Isso dá 1,7 milhão de tokens por dia — uma carga de produção séria.
Pra maioria dos indie builders e times pequenos, API cloud custa menos que self-hosting em hardware dedicado. Ponto final.
A diferença de qualidade
Custo é só metade da história. Veja como os modelos realmente performam:
| Capacidade | Cloud (Claude/GPT) | Self-hosted (7B-13B) |
|---|---|---|
| Qualidade de raciocínio | Excelente | Moderada |
| Geração de código | Excelente | Boa para tarefas simples |
| Janela de contexto | 200K-1M tokens | 4K-32K tipicamente |
| Velocidade | 50-100+ tok/seg | 20-40 (GPU), 5-10 (CPU) |
| Tool use | Nativo, confiável | Possível, menos confiável |
Janela de contexto — quanta informação a IA consegue "ver" de uma vez, como sua memória de trabalho — é a maior diferença. Modelos cloud lidam com codebases inteiras. Modelos locais veem algumas páginas por vez.
Llama 3.1 70B é genuinamente impressionante e competitivo em tarefas gerais. Mas precisa de hardware GPU sério, e ainda não existe equivalente local ao Opus ou GPT top-tier pra raciocínio complexo. A diferença diminuiu. Não fechou.
Quando self-hosting realmente faz sentido
1. Privacidade e soberania de dados
Se seus dados não podem sair da sua rede — prontuários médicos, documentos jurídicos, dados financeiros, sistemas governamentais — self-hosting não é opcional. Nenhum termo de serviço de API substitui "os dados nunca saíram do nosso prédio."
# Ollama faz isso em 2 minutos
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Resuma este prontuário..."
}'
Sem request de rede. Sem logging de terceiros. Compliance total.
2. Ambientes offline
Dispositivos de borda, redes air-gapped, locais remotos sem internet. Sem conexão significa sem API — local é a única opção.
3. Tarefas simples em alto volume
Embeddings — impressões digitais numéricas de texto usadas para busca — classificação e resumos de textos curtos. Tarefas onde um modelo pequeno é bom o suficiente e o volume é massivo: ⚡
import ollama
def classify_document(text: str) -> str:
response = ollama.chat(model='llama3.1:8b', messages=[
{'role': 'user', 'content': f'Classifique: fatura, contrato, recibo, carta, outro.\n\n{text[:500]}'}
])
return response['message']['content']
# 100K documentos/dia:
# Custo cloud: ~$30/dia
# Self-hosted: ~$0.50/dia de eletricidade
# Economia mensal: ~$900
4. Apps sensíveis a latência
Chamadas de API adicionam 100-500ms de delay de rede. Inferência local — o processo do modelo gerando uma resposta — começa instantaneamente:
Cloud: 150-500ms rede + 500-2000ms inferência = 650-2500ms
Local: 0ms rede + 200-1000ms inferência = 200-1000ms
Pra autocomplete, tradução em tempo real ou ferramentas interativas, essa diferença é perceptível.
5. Desenvolvimento e experimentação
Testar 50 variações de prompt localmente custa $0. O mesmo experimento na API do Claude sai $5-20. Não é absurdo, mas acumula durante P&D intenso.
O setup prático (10 minutos)
Se você decidiu que self-hosting se encaixa no seu caso de uso:
Instalar o Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull llama3.1:8b # 4.7 GB, propósito geral
ollama pull codellama:13b # 7.4 GB, tarefas de código
ollama pull nomic-embed-text # 274 MB, para embeddings
Usar como drop-in replacement
Ollama fala a mesma língua que a API da OpenAI. A maioria do código funciona sem mudanças — só troque a URL:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="llama3.1:8b",
messages=[{"role": "user", "content": "Explique MCP em 3 frases"}]
)
print(response.choices[0].message.content)
Desenvolva contra modelos locais, faça deploy com cloud — ou o inverso. Mesmo código, URL diferente.
Benchmarks de performance
| Hardware | Tokens/seg | Resposta de 500 tokens |
|---|---|---|
| M2 MacBook Pro 16GB | ~35 | ~14 segundos |
| RTX 3060 12GB | ~40 | ~12 segundos |
| RTX 4090 24GB | ~80 | ~6 segundos |
| Só CPU (16 cores) | ~8 | ~60 segundos |
Inferência só com CPU é sofrimento pra qualquer coisa interativa. Sem GPU ou Apple Silicon? Fica na cloud.
A jogada híbrida (essa é a sacada) 🚀
O setup mais inteligente não é 100% cloud nem 100% self-hosted. É rotear cada tarefa pro lugar certo:
def get_ai_client(task_type: str):
if task_type in ["embedding", "classification", "simple_summary"]:
# Local — rápido, grátis, qualidade suficiente
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
# Cloud — qualidade melhor, vale o custo
return anthropic.Anthropic()
else:
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
Roda local: embeddings, classificação, rascunhos, dev/testes. Roda na cloud: raciocínio complexo, geração de código, tool use, qualquer coisa voltada pro cliente.
Exemplo real de custo pra um setup híbrido:
| Tarefa | Volume | Onde | Custo mensal |
|---|---|---|---|
| Embeddings | 50K/dia | Local | $0 |
| Classificação | 10K/dia | Local | $0 |
| Code review | 30/dia | Cloud (Haiku) | $2 |
| Geração de conteúdo | 50/dia | Cloud (Sonnet) | $15 |
| Análise complexa | 10/dia | Cloud (Sonnet) | $5 |
| Total | $22/mês |
Cloud puro pra a mesma carga: ~$180/mês. O híbrido economiza 88%.
Cheat sheet de decisão
Processando mais de 5M tokens por dia? → Self-host tarefas de volume, cloud pra tarefas de qualidade.
Requisitos rígidos de privacidade de dados? → Self-host, não tem negociação.
Já tem hardware com GPU? → Híbrido: local pro simples, cloud pro complexo.
Nenhuma das opções acima? → Só cloud. É mais barato e te dá os melhores modelos.
Pra maioria dos founders solo em março de 2026: comece com cloud. Claude Haiku a $1/$5 por milhão de tokens é tão barato que fazer self-hosting pra economizar é como plantar trigo pra economizar no pão. O hardware custa mais do que anos de uso de API nos volumes típicos de um founder. 💰
A exceção: você tem requisitos de privacidade ou já tem uma GPU. Aí instale o Ollama, rode Llama 3.1 pras tarefas em massa, e chame o Claude pros problemas difíceis. Esse híbrido corta custos em 80%+ mantendo qualidade onde importa. Todo o resto é over-engineering. 🦝





