IA Local vs Cloud: Quando Rodar na Sua Máquina Faz Sentido?

"Roda local" é o equivalente tech de "planta sua própria comida." Às vezes economiza uma fortuna. Na maioria das vezes, custa mais, dá mais trabalho e entrega resultados piores. Mas você continua ouvindo isso — no Twitter, no Reddit, daquele amigo que montou um home server. Então vamos pular os takes quentes e olhar os números de verdade. 🔍

A pergunta real não é devo hospedar localmente. É a partir de qual volume o self-hosting fica mais barato — e as desvantagens realmente importam pro que você está construindo?

O que estamos comparando

IA na Cloud significa que você paga por uso. Toda vez que seu app envia texto pro Claude, GPT ou Gemini, você paga pelos tokens — pedaços de palavras que a IA processa, mais ou menos ¾ de uma palavra em inglês. Pense como um taxímetro: corridas curtas são baratas, longas pesam no bolso.

IA Self-hosted significa rodar um LLM open-source (large language model — o cérebro por trás de ferramentas como o ChatGPT) no seu próprio hardware. Você paga pela máquina e pela eletricidade, mas cada request depois disso é grátis. Pense como comprar um carro: caro no início, mas sem tarifa por corrida.

Aqui estão os preços atuais de cloud em março de 2026, por milhão de tokens:

Provedor	Modelo	Custo Input / Output
Anthropic	Haiku 4.5	$1 / $5
Anthropic	Sonnet 4.6	$3 / $15
Anthropic	Opus 4.6	$5 / $25
OpenAI	GPT-4o mini	$0.15 / $0.60
OpenAI	GPT-4o	$2.50 / $10
Google	Gemini Flash	Tier gratuito (15 req/min)
Google	Gemini Pro	$1.25 / $5

E os concorrentes self-hosted: Ollama rodando modelos open-source como Llama 3.1, Mistral ou DeepSeek na sua própria máquina ou num servidor GPU alugado.

O tradeoff fundamental: cloud cobra por uso, self-hosted cobra por tempo. Com uso baixo, cloud ganha porque você só paga pelo que consome. Com uso alto, self-hosted ganha porque o custo do hardware é fixo. Precisamos encontrar o ponto de cruzamento. 💰

A matemática de custos que ninguém mostra

Custos de cloud em escala

Usando Claude Haiku 4.5 como baseline (modelo cloud de qualidade mais barato), assumindo uma divisão típica de 30% input / 70% output tokens:

Tokens diários	Custo mensal	Custo anual
10K	$0.90	$10.80
100K	$9	$108
500K	$45	$540
1M	$90	$1,080
5M	$450	$5,400
10M	$900	$10,800

Custos self-hosted

Opção A — hardware que você já tem:

Se você tem uma máquina com GPU (placa de vídeo que acelera a matemática da IA), o único custo extra é eletricidade:

Hardware	Modelos que roda	Eletricidade mensal
16 GB RAM, sem GPU	Modelos 7B (lento)	~$10
RTX 3090 24GB	Modelos 13B (rápido)	~$20
RTX 4090 24GB	Modelos 13B-30B (rápido)	~$25
M2/M3 Mac 32GB+	7B-13B (boa velocidade)	~$5

"7B" e "13B" se referem a bilhões de parâmetros — o tamanho do modelo. Modelos maiores são mais inteligentes, mas precisam de mais memória.

Opção B — alugando um servidor GPU:

Provedor	GPU	Custo mensal
Hetzner (só CPU)	Nenhuma	~$50
Vast.ai	RTX 3090	~$150
Vast.ai	RTX 4090	~$250
Lambda	A10G	~$350
RunPod	A100 40GB	~$800

Opção C — montando um home server:

Setup	Custo inicial	Mensal (em 3 anos)
RTX 3090 usada + PC básico	~$1,200	~$33 + eletricidade
RTX 4090 + PC decente	~$2,500	~$70 + eletricidade
2× RTX 4090	~$4,500	~$125 + eletricidade
Mac Studio M3 Ultra 192GB	~$6,000	~$167 + eletricidade

Onde as linhas se cruzam

Cloud Haiku vs. 7B local em hardware existente:

O custo self-hosted fica em ~$15/mês de eletricidade. Cloud Haiku cruza esse valor com aproximadamente 5 milhões de tokens por mês. Abaixo disso — e a maioria dos founders solo fica bem abaixo — cloud é mais barato.

Cloud Haiku vs. GPU alugada (RTX 3090 a $150/mês):

Você precisa empurrar 50 milhões de tokens por mês antes do servidor alugado empatar. Isso dá 1,7 milhão de tokens por dia — uma carga de produção séria.

Pra maioria dos indie builders e times pequenos, API cloud custa menos que self-hosting em hardware dedicado. Ponto final.

A diferença de qualidade

Custo é só metade da história. Veja como os modelos realmente performam:

Capacidade	Cloud (Claude/GPT)	Self-hosted (7B-13B)
Qualidade de raciocínio	Excelente	Moderada
Geração de código	Excelente	Boa para tarefas simples
Janela de contexto	200K-1M tokens	4K-32K tipicamente
Velocidade	50-100+ tok/seg	20-40 (GPU), 5-10 (CPU)
Tool use	Nativo, confiável	Possível, menos confiável

Janela de contexto — quanta informação a IA consegue "ver" de uma vez, como sua memória de trabalho — é a maior diferença. Modelos cloud lidam com codebases inteiras. Modelos locais veem algumas páginas por vez.

Llama 3.1 70B é genuinamente impressionante e competitivo em tarefas gerais. Mas precisa de hardware GPU sério, e ainda não existe equivalente local ao Opus ou GPT top-tier pra raciocínio complexo. A diferença diminuiu. Não fechou.

Quando self-hosting realmente faz sentido

1. Privacidade e soberania de dados

Se seus dados não podem sair da sua rede — prontuários médicos, documentos jurídicos, dados financeiros, sistemas governamentais — self-hosting não é opcional. Nenhum termo de serviço de API substitui "os dados nunca saíram do nosso prédio."

# Ollama faz isso em 2 minutos
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Resuma este prontuário..."
}'

Sem request de rede. Sem logging de terceiros. Compliance total.

2. Ambientes offline

Dispositivos de borda, redes air-gapped, locais remotos sem internet. Sem conexão significa sem API — local é a única opção.

3. Tarefas simples em alto volume

Embeddings — impressões digitais numéricas de texto usadas para busca — classificação e resumos de textos curtos. Tarefas onde um modelo pequeno é bom o suficiente e o volume é massivo: ⚡

import ollama

def classify_document(text: str) -> str:
    response = ollama.chat(model='llama3.1:8b', messages=[
        {'role': 'user', 'content': f'Classifique: fatura, contrato, recibo, carta, outro.\n\n{text[:500]}'}
    ])
    return response['message']['content']

# 100K documentos/dia:
# Custo cloud: ~$30/dia
# Self-hosted: ~$0.50/dia de eletricidade
# Economia mensal: ~$900

4. Apps sensíveis a latência

Chamadas de API adicionam 100-500ms de delay de rede. Inferência local — o processo do modelo gerando uma resposta — começa instantaneamente:

Cloud:  150-500ms rede + 500-2000ms inferência = 650-2500ms
Local:  0ms rede + 200-1000ms inferência = 200-1000ms

Pra autocomplete, tradução em tempo real ou ferramentas interativas, essa diferença é perceptível.

5. Desenvolvimento e experimentação

Testar 50 variações de prompt localmente custa $0. O mesmo experimento na API do Claude sai $5-20. Não é absurdo, mas acumula durante P&D intenso.

O setup prático (10 minutos)

Se você decidiu que self-hosting se encaixa no seu caso de uso:

Instalar o Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ollama pull llama3.1:8b          # 4.7 GB, propósito geral
ollama pull codellama:13b         # 7.4 GB, tarefas de código
ollama pull nomic-embed-text      # 274 MB, para embeddings

Usar como drop-in replacement

Ollama fala a mesma língua que a API da OpenAI. A maioria do código funciona sem mudanças — só troque a URL:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Explique MCP em 3 frases"}]
)
print(response.choices[0].message.content)

Desenvolva contra modelos locais, faça deploy com cloud — ou o inverso. Mesmo código, URL diferente.

Benchmarks de performance

Hardware	Tokens/seg	Resposta de 500 tokens
M2 MacBook Pro 16GB	~35	~14 segundos
RTX 3060 12GB	~40	~12 segundos
RTX 4090 24GB	~80	~6 segundos
Só CPU (16 cores)	~8	~60 segundos

Inferência só com CPU é sofrimento pra qualquer coisa interativa. Sem GPU ou Apple Silicon? Fica na cloud.

A jogada híbrida (essa é a sacada) 🚀

O setup mais inteligente não é 100% cloud nem 100% self-hosted. É rotear cada tarefa pro lugar certo:

def get_ai_client(task_type: str):
    if task_type in ["embedding", "classification", "simple_summary"]:
        # Local — rápido, grátis, qualidade suficiente
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
    elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
        # Cloud — qualidade melhor, vale o custo
        return anthropic.Anthropic()
    else:
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")

Roda local: embeddings, classificação, rascunhos, dev/testes. Roda na cloud: raciocínio complexo, geração de código, tool use, qualquer coisa voltada pro cliente.

Exemplo real de custo pra um setup híbrido:

Tarefa	Volume	Onde	Custo mensal
Embeddings	50K/dia	Local	$0
Classificação	10K/dia	Local	$0
Code review	30/dia	Cloud (Haiku)	$2
Geração de conteúdo	50/dia	Cloud (Sonnet)	$15
Análise complexa	10/dia	Cloud (Sonnet)	$5
Total			$22/mês

Cloud puro pra a mesma carga: ~$180/mês. O híbrido economiza 88%.

Cheat sheet de decisão

Processando mais de 5M tokens por dia? → Self-host tarefas de volume, cloud pra tarefas de qualidade.

Requisitos rígidos de privacidade de dados? → Self-host, não tem negociação.

Já tem hardware com GPU? → Híbrido: local pro simples, cloud pro complexo.

Nenhuma das opções acima? → Só cloud. É mais barato e te dá os melhores modelos.

Pra maioria dos founders solo em março de 2026: comece com cloud. Claude Haiku a $1/$5 por milhão de tokens é tão barato que fazer self-hosting pra economizar é como plantar trigo pra economizar no pão. O hardware custa mais do que anos de uso de API nos volumes típicos de um founder. 💰

A exceção: você tem requisitos de privacidade ou já tem uma GPU. Aí instale o Ollama, rode Llama 3.1 pras tarefas em massa, e chame o Claude pros problemas difíceis. Esse híbrido corta custos em 80%+ mantendo qualidade onde importa. Todo o resto é over-engineering. 🦝