"Roda local" é o equivalente tech de "planta sua própria comida." Às vezes economiza uma fortuna. Na maioria das vezes, custa mais, dá mais trabalho e entrega resultados piores. Mas você continua ouvindo isso — no Twitter, no Reddit, daquele amigo que montou um home server. Então vamos pular os takes quentes e olhar os números de verdade. 🔍

A pergunta real não é devo hospedar localmente. É a partir de qual volume o self-hosting fica mais barato — e as desvantagens realmente importam pro que você está construindo?

O que estamos comparando

IA na Cloud significa que você paga por uso. Toda vez que seu app envia texto pro Claude, GPT ou Gemini, você paga pelos tokens — pedaços de palavras que a IA processa, mais ou menos ¾ de uma palavra em inglês. Pense como um taxímetro: corridas curtas são baratas, longas pesam no bolso.

IA Self-hosted significa rodar um LLM open-source (large language model — o cérebro por trás de ferramentas como o ChatGPT) no seu próprio hardware. Você paga pela máquina e pela eletricidade, mas cada request depois disso é grátis. Pense como comprar um carro: caro no início, mas sem tarifa por corrida.

Aqui estão os preços atuais de cloud em março de 2026, por milhão de tokens:

Provedor Modelo Custo Input / Output
Anthropic Haiku 4.5 $1 / $5
Anthropic Sonnet 4.6 $3 / $15
Anthropic Opus 4.6 $5 / $25
OpenAI GPT-4o mini $0.15 / $0.60
OpenAI GPT-4o $2.50 / $10
Google Gemini Flash Tier gratuito (15 req/min)
Google Gemini Pro $1.25 / $5

E os concorrentes self-hosted: Ollama rodando modelos open-source como Llama 3.1, Mistral ou DeepSeek na sua própria máquina ou num servidor GPU alugado.

O tradeoff fundamental: cloud cobra por uso, self-hosted cobra por tempo. Com uso baixo, cloud ganha porque você só paga pelo que consome. Com uso alto, self-hosted ganha porque o custo do hardware é fixo. Precisamos encontrar o ponto de cruzamento. 💰

A matemática de custos que ninguém mostra

Custos de cloud em escala

Usando Claude Haiku 4.5 como baseline (modelo cloud de qualidade mais barato), assumindo uma divisão típica de 30% input / 70% output tokens:

Tokens diários Custo mensal Custo anual
10K $0.90 $10.80
100K $9 $108
500K $45 $540
1M $90 $1,080
5M $450 $5,400
10M $900 $10,800

Custos self-hosted

Opção A — hardware que você já tem:

Se você tem uma máquina com GPU (placa de vídeo que acelera a matemática da IA), o único custo extra é eletricidade:

Hardware Modelos que roda Eletricidade mensal
16 GB RAM, sem GPU Modelos 7B (lento) ~$10
RTX 3090 24GB Modelos 13B (rápido) ~$20
RTX 4090 24GB Modelos 13B-30B (rápido) ~$25
M2/M3 Mac 32GB+ 7B-13B (boa velocidade) ~$5

"7B" e "13B" se referem a bilhões de parâmetros — o tamanho do modelo. Modelos maiores são mais inteligentes, mas precisam de mais memória.

Opção B — alugando um servidor GPU:

Provedor GPU Custo mensal
Hetzner (só CPU) Nenhuma ~$50
Vast.ai RTX 3090 ~$150
Vast.ai RTX 4090 ~$250
Lambda A10G ~$350
RunPod A100 40GB ~$800

Opção C — montando um home server:

Setup Custo inicial Mensal (em 3 anos)
RTX 3090 usada + PC básico ~$1,200 ~$33 + eletricidade
RTX 4090 + PC decente ~$2,500 ~$70 + eletricidade
2× RTX 4090 ~$4,500 ~$125 + eletricidade
Mac Studio M3 Ultra 192GB ~$6,000 ~$167 + eletricidade

Onde as linhas se cruzam

Cloud Haiku vs. 7B local em hardware existente:

O custo self-hosted fica em ~$15/mês de eletricidade. Cloud Haiku cruza esse valor com aproximadamente 5 milhões de tokens por mês. Abaixo disso — e a maioria dos founders solo fica bem abaixo — cloud é mais barato.

Cloud Haiku vs. GPU alugada (RTX 3090 a $150/mês):

Você precisa empurrar 50 milhões de tokens por mês antes do servidor alugado empatar. Isso dá 1,7 milhão de tokens por dia — uma carga de produção séria.

Pra maioria dos indie builders e times pequenos, API cloud custa menos que self-hosting em hardware dedicado. Ponto final.

A diferença de qualidade

Custo é só metade da história. Veja como os modelos realmente performam:

Capacidade Cloud (Claude/GPT) Self-hosted (7B-13B)
Qualidade de raciocínio Excelente Moderada
Geração de código Excelente Boa para tarefas simples
Janela de contexto 200K-1M tokens 4K-32K tipicamente
Velocidade 50-100+ tok/seg 20-40 (GPU), 5-10 (CPU)
Tool use Nativo, confiável Possível, menos confiável

Janela de contexto — quanta informação a IA consegue "ver" de uma vez, como sua memória de trabalho — é a maior diferença. Modelos cloud lidam com codebases inteiras. Modelos locais veem algumas páginas por vez.

Llama 3.1 70B é genuinamente impressionante e competitivo em tarefas gerais. Mas precisa de hardware GPU sério, e ainda não existe equivalente local ao Opus ou GPT top-tier pra raciocínio complexo. A diferença diminuiu. Não fechou.

Quando self-hosting realmente faz sentido

1. Privacidade e soberania de dados

Se seus dados não podem sair da sua rede — prontuários médicos, documentos jurídicos, dados financeiros, sistemas governamentais — self-hosting não é opcional. Nenhum termo de serviço de API substitui "os dados nunca saíram do nosso prédio."

# Ollama faz isso em 2 minutos
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Resuma este prontuário..."
}'

Sem request de rede. Sem logging de terceiros. Compliance total.

2. Ambientes offline

Dispositivos de borda, redes air-gapped, locais remotos sem internet. Sem conexão significa sem API — local é a única opção.

3. Tarefas simples em alto volume

Embeddings — impressões digitais numéricas de texto usadas para busca — classificação e resumos de textos curtos. Tarefas onde um modelo pequeno é bom o suficiente e o volume é massivo: ⚡

import ollama

def classify_document(text: str) -> str:
    response = ollama.chat(model='llama3.1:8b', messages=[
        {'role': 'user', 'content': f'Classifique: fatura, contrato, recibo, carta, outro.\n\n{text[:500]}'}
    ])
    return response['message']['content']

# 100K documentos/dia:
# Custo cloud: ~$30/dia
# Self-hosted: ~$0.50/dia de eletricidade
# Economia mensal: ~$900

4. Apps sensíveis a latência

Chamadas de API adicionam 100-500ms de delay de rede. Inferência local — o processo do modelo gerando uma resposta — começa instantaneamente:

Cloud:  150-500ms rede + 500-2000ms inferência = 650-2500ms
Local:  0ms rede + 200-1000ms inferência = 200-1000ms

Pra autocomplete, tradução em tempo real ou ferramentas interativas, essa diferença é perceptível.

5. Desenvolvimento e experimentação

Testar 50 variações de prompt localmente custa $0. O mesmo experimento na API do Claude sai $5-20. Não é absurdo, mas acumula durante P&D intenso.

O setup prático (10 minutos)

Se você decidiu que self-hosting se encaixa no seu caso de uso:

Instalar o Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ollama pull llama3.1:8b          # 4.7 GB, propósito geral
ollama pull codellama:13b         # 7.4 GB, tarefas de código
ollama pull nomic-embed-text      # 274 MB, para embeddings

Usar como drop-in replacement

Ollama fala a mesma língua que a API da OpenAI. A maioria do código funciona sem mudanças — só troque a URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Explique MCP em 3 frases"}]
)
print(response.choices[0].message.content)

Desenvolva contra modelos locais, faça deploy com cloud — ou o inverso. Mesmo código, URL diferente.

Benchmarks de performance

Hardware Tokens/seg Resposta de 500 tokens
M2 MacBook Pro 16GB ~35 ~14 segundos
RTX 3060 12GB ~40 ~12 segundos
RTX 4090 24GB ~80 ~6 segundos
Só CPU (16 cores) ~8 ~60 segundos

Inferência só com CPU é sofrimento pra qualquer coisa interativa. Sem GPU ou Apple Silicon? Fica na cloud.

A jogada híbrida (essa é a sacada) 🚀

O setup mais inteligente não é 100% cloud nem 100% self-hosted. É rotear cada tarefa pro lugar certo:

def get_ai_client(task_type: str):
    if task_type in ["embedding", "classification", "simple_summary"]:
        # Local — rápido, grátis, qualidade suficiente
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
    elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
        # Cloud — qualidade melhor, vale o custo
        return anthropic.Anthropic()
    else:
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")

Roda local: embeddings, classificação, rascunhos, dev/testes. Roda na cloud: raciocínio complexo, geração de código, tool use, qualquer coisa voltada pro cliente.

Exemplo real de custo pra um setup híbrido:

Tarefa Volume Onde Custo mensal
Embeddings 50K/dia Local $0
Classificação 10K/dia Local $0
Code review 30/dia Cloud (Haiku) $2
Geração de conteúdo 50/dia Cloud (Sonnet) $15
Análise complexa 10/dia Cloud (Sonnet) $5
Total $22/mês

Cloud puro pra a mesma carga: ~$180/mês. O híbrido economiza 88%.

Cheat sheet de decisão

Processando mais de 5M tokens por dia? → Self-host tarefas de volume, cloud pra tarefas de qualidade.

Requisitos rígidos de privacidade de dados? → Self-host, não tem negociação.

Já tem hardware com GPU? → Híbrido: local pro simples, cloud pro complexo.

Nenhuma das opções acima? → Só cloud. É mais barato e te dá os melhores modelos.

Pra maioria dos founders solo em março de 2026: comece com cloud. Claude Haiku a $1/$5 por milhão de tokens é tão barato que fazer self-hosting pra economizar é como plantar trigo pra economizar no pão. O hardware custa mais do que anos de uso de API nos volumes típicos de um founder. 💰

A exceção: você tem requisitos de privacidade ou já tem uma GPU. Aí instale o Ollama, rode Llama 3.1 pras tarefas em massa, e chame o Claude pros problemas difíceis. Esse híbrido corta custos em 80%+ mantendo qualidade onde importa. Todo o resto é over-engineering. 🦝