' Fais-le tourner en local ' — c'est l'équivalent tech de ' fais pousser ton propre blé '. Parfois ça te fait économiser une fortune. Le plus souvent, ça coûte plus cher, demande plus de boulot, et donne de moins bons résultats. Mais tu n'arrêtes pas d'entendre ça — sur Twitter, sur Reddit, de ce pote qui s'est monté un serveur maison. Alors on va laisser tomber les débats enflammés et regarder les vrais chiffres. 🔍
La vraie question n'est pas est-ce que je devrais self-hoster. C'est à partir de quel volume le self-hosting devient moins cher — et est-ce que les compromis comptent vraiment pour ce que tu construis ?
Ce qu'on compare
L'IA cloud signifie que tu paies à l'usage. Chaque fois que ton app envoie du texte à Claude, GPT ou Gemini, tu paies les tokens — des morceaux de mots traités par l'IA, environ ¾ d'un mot français chacun. Pense à un compteur de taxi : les petites courses sont pas chères, les longues ça grimpe.
L'IA self-hostée signifie que tu fais tourner un LLM open-source (large language model — le cerveau derrière des outils comme ChatGPT) sur ton propre matériel. Tu paies la machine et l'électricité, mais chaque requête après ça est gratuite. Pense à l'achat d'une voiture : cher au départ, mais pas de prix par trajet.
Voici les prix cloud actuels en mars 2026, par million de tokens :
| Fournisseur | Modèle | Coût input / output |
|---|---|---|
| Anthropic | Haiku 4.5 | 1$ / 5$ |
| Anthropic | Sonnet 4.6 | 3$ / 15$ |
| Anthropic | Opus 4.6 | 5$ / 25$ |
| OpenAI | GPT-4o mini | 0,15$ / 0,60$ |
| OpenAI | GPT-4o | 2,50$ / 10$ |
| Gemini Flash | Tier gratuit (15 req/min) | |
| Gemini Pro | 1,25$ / 5$ |
Et les challengers self-hostés : Ollama faisant tourner des modèles open-source comme Llama 3.1, Mistral ou DeepSeek sur ta propre machine ou un serveur GPU loué.
Le compromis fondamental : le cloud facture à l'usage, le self-hosted facture au temps. À faible utilisation, le cloud gagne parce que tu ne paies que ce que tu consommes. À forte utilisation, le self-hosted gagne parce que le coût hardware est fixe. Il faut trouver le point de croisement. 💰
Les maths de coût que personne ne te montre
Coûts cloud à l'échelle
En prenant Claude Haiku 4.5 comme référence (le modèle cloud qualité le moins cher), avec une répartition typique 30% input / 70% output :
| Tokens quotidiens | Coût mensuel | Coût annuel |
|---|---|---|
| 10K | 0,90$ | 10,80$ |
| 100K | 9$ | 108$ |
| 500K | 45$ | 540$ |
| 1M | 90$ | 1 080$ |
| 5M | 450$ | 5 400$ |
| 10M | 900$ | 10 800$ |
Coûts en self-hosting
Option A — du matériel que tu possèdes déjà :
Si tu as une machine avec un GPU (carte graphique qui accélère les calculs IA), le seul surcoût c'est l'électricité :
| Matériel | Modèles supportés | Électricité mensuelle |
|---|---|---|
| 16 Go RAM, pas de GPU | Modèles 7B (lent) | ~10$ |
| RTX 3090 24 Go | Modèles 13B (rapide) | ~20$ |
| RTX 4090 24 Go | Modèles 13B-30B (rapide) | ~25$ |
| M2/M3 Mac 32 Go+ | 7B-13B (bonne vitesse) | ~5$ |
' 7B ' et ' 13B ' désignent des milliards de paramètres — la taille du modèle. Plus gros = plus intelligent, mais plus gourmand en mémoire.
Option B — louer un serveur GPU :
| Fournisseur | GPU | Coût mensuel |
|---|---|---|
| Hetzner (CPU seul) | Aucun | ~50$ |
| Vast.ai | RTX 3090 | ~150$ |
| Vast.ai | RTX 4090 | ~250$ |
| Lambda | A10G | ~350$ |
| RunPod | A100 40 Go | ~800$ |
Option C — monter un serveur maison :
| Config | Coût initial | Mensuel (sur 3 ans) |
|---|---|---|
| RTX 3090 d'occasion + PC basique | ~1 200$ | ~33$ + électricité |
| RTX 4090 + PC correct | ~2 500$ | ~70$ + électricité |
| 2× RTX 4090 | ~4 500$ | ~125$ + électricité |
| Mac Studio M3 Ultra 192 Go | ~6 000$ | ~167$ + électricité |
Où les courbes se croisent
Cloud Haiku vs. 7B local sur hardware existant :
Le coût self-hosted tourne autour de ~15$/mois en électricité. Cloud Haiku dépasse ce montant aux alentours de 5 millions de tokens par mois. En dessous — et la plupart des fondateurs solo sont bien en dessous — le cloud est moins cher.
Cloud Haiku vs. GPU loué (RTX 3090 à 150$/mois) :
Il faut pousser 50 millions de tokens par mois pour que le serveur loué soit rentable. Ça fait 1,7 million de tokens par jour — une charge de production sérieuse.
Pour la plupart des indie builders et petites équipes, l'API cloud coûte moins cher que le self-hosting sur du hardware dédié. Point final.
L'écart de qualité
Le coût n'est que la moitié de l'histoire. Voici comment les modèles se comportent en pratique :
| Capacité | Cloud (Claude/GPT) | Self-hosted (7B-13B) |
|---|---|---|
| Qualité de raisonnement | Excellente | Moyenne |
| Génération de code | Excellente | Correcte pour les tâches simples |
| Fenêtre de contexte | 200K-1M tokens | 4K-32K en général |
| Vitesse | 50-100+ tok/sec | 20-40 (GPU), 5-10 (CPU) |
| Utilisation d'outils | Native, fiable | Possible, moins fiable |
La fenêtre de contexte — la quantité de texte que l'IA peut ' voir ' en même temps, comme sa mémoire de travail — est le plus gros écart. Les modèles cloud gèrent des codebases entières. Les modèles locaux voient quelques pages à la fois.
Llama 3.1 70B est vraiment impressionnant et compétitif sur les tâches générales. Mais il a besoin de hardware GPU sérieux, et il n'existe toujours pas d'équivalent local à Opus ou au GPT haut de gamme pour le raisonnement complexe. L'écart s'est réduit. Il ne s'est pas comblé.
Quand le self-hosting a vraiment du sens
1. Vie privée et souveraineté des données
Si tes données ne peuvent pas quitter ton réseau — dossiers médicaux, documents juridiques, données financières, systèmes gouvernementaux — le self-hosting n'est pas optionnel. Aucune condition d'utilisation d'API ne remplace ' les données n'ont jamais quitté nos murs '.
# Ollama rend ça possible en 2 minutes
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "Résume ce dossier patient..."
}'
Pas de requête réseau. Pas de logs tiers. Conformité totale.
2. Environnements hors ligne
Appareils edge, réseaux air-gapped, sites distants sans internet. Pas de connexion = pas d'API — le local est la seule option.
3. Tâches simples à haut volume
Les embeddings — des empreintes numériques du texte utilisées pour la recherche —, la classification et les résumés de textes courts. Des tâches où un petit modèle suffit et le volume est massif : ⚡
import ollama
def classify_document(text: str) -> str:
response = ollama.chat(model='llama3.1:8b', messages=[
{'role': 'user', 'content': f'Classifie : facture, contrat, reçu, lettre, autre.\n\n{text[:500]}'}
])
return response['message']['content']
# 100K documents/jour :
# Coût cloud : ~30$/jour
# Self-hosted : ~0,50$/jour d'électricité
# Économie mensuelle : ~900$
4. Applications sensibles à la latence
Les appels API ajoutent 100-500ms de délai réseau. L'inférence locale — le processus par lequel le modèle génère une réponse — démarre instantanément :
Cloud : 150-500ms réseau + 500-2000ms inférence = 650-2500ms
Local : 0ms réseau + 200-1000ms inférence = 200-1000ms
Pour l'autocomplétion, la traduction en temps réel ou les outils interactifs, cette différence se sent.
5. Développement et expérimentation
Tester 50 variations de prompt en local coûte 0$. La même expérience sur l'API Claude revient à 5-20$. Pas énorme, mais ça s'accumule pendant les phases de R&D intensive.
La mise en place concrète (10 minutes)
Si tu as décidé que le self-hosting correspond à ton cas d'usage :
Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
ollama pull llama3.1:8b # 4,7 Go, usage général
ollama pull codellama:13b # 7,4 Go, tâches de code
ollama pull nomic-embed-text # 274 Mo, pour les embeddings
L'utiliser en remplacement direct
Ollama parle le même langage que l'API d'OpenAI. La plupart du code fonctionne sans modification — il suffit de changer l'URL :
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="llama3.1:8b",
messages=[{"role": "user", "content": "Explique MCP en 3 phrases"}]
)
print(response.choices[0].message.content)
Développe avec des modèles locaux, déploie en cloud — ou l'inverse. Même code, URL différente.
Benchmarks de performance
| Matériel | Tokens/sec | Réponse de 500 tokens |
|---|---|---|
| M2 MacBook Pro 16 Go | ~35 | ~14 secondes |
| RTX 3060 12 Go | ~40 | ~12 secondes |
| RTX 4090 24 Go | ~80 | ~6 secondes |
| CPU seul (16 cœurs) | ~8 | ~60 secondes |
L'inférence CPU seul est pénible pour tout ce qui est interactif. Pas de GPU ni Apple Silicon ? Reste sur le cloud.
Le setup hybride (c'est ça le move) 🚀
Le setup le plus malin, ce n'est ni full cloud ni full self-hosted. C'est router chaque tâche au bon endroit :
def get_ai_client(task_type: str):
if task_type in ["embedding", "classification", "simple_summary"]:
# Local — rapide, gratuit, qualité suffisante
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
# Cloud — meilleure qualité, ça vaut le coup
return anthropic.Anthropic()
else:
return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
Tourne en local : embeddings, classification, génération de brouillons, dev/tests. Tourne dans le cloud : raisonnement complexe, génération de code, utilisation d'outils, tout ce qui est face client.
Exemple réel de coûts pour un setup hybride :
| Tâche | Volume | Où | Coût mensuel |
|---|---|---|---|
| Embeddings | 50K/jour | Local | 0$ |
| Classification | 10K/jour | Local | 0$ |
| Revue de code | 30/jour | Cloud (Haiku) | 2$ |
| Génération de contenu | 50/jour | Cloud (Sonnet) | 15$ |
| Analyse complexe | 10/jour | Cloud (Sonnet) | 5$ |
| Total | 22$/mois |
Le même workload full cloud : ~180$/mois. L'hybride économise 88%.
Antisèche de décision
Tu traites plus de 5M de tokens par jour ? → Self-hoste les tâches volumineuses, cloud pour la qualité.
Des exigences strictes de confidentialité ? → Self-hosting, non négociable.
Tu possèdes déjà du hardware GPU ? → Hybride : local pour le simple, cloud pour le complexe.
Rien de tout ça ? → Cloud uniquement. C'est le moins cher et ça te donne les meilleurs modèles.
Pour la plupart des fondateurs solo en mars 2026 : commence par le cloud. Claude Haiku à 1$/5$ par million de tokens est tellement abordable que self-hoster pour économiser, c'est comme faire pousser ton propre blé pour économiser sur le pain. Le hardware coûte plus cher que des années d'API aux volumes typiques d'un fondateur. 💰
L'exception : tu as des contraintes de confidentialité ou tu possèdes déjà un GPU. Dans ce cas, installe Ollama, fais tourner Llama 3.1 pour les tâches en masse, et appelle Claude pour les problèmes complexes. Ce setup hybride réduit les coûts de 80%+ tout en gardant la qualité là où ça compte. Tout le reste, c'est de la sur-ingénierie. 🦝





