IA self-hostée vs Cloud : quand le local a-t-il vraiment du sens ?

' Fais-le tourner en local ' — c'est l'équivalent tech de ' fais pousser ton propre blé '. Parfois ça te fait économiser une fortune. Le plus souvent, ça coûte plus cher, demande plus de boulot, et donne de moins bons résultats. Mais tu n'arrêtes pas d'entendre ça — sur Twitter, sur Reddit, de ce pote qui s'est monté un serveur maison. Alors on va laisser tomber les débats enflammés et regarder les vrais chiffres. 🔍

La vraie question n'est pas est-ce que je devrais self-hoster. C'est à partir de quel volume le self-hosting devient moins cher — et est-ce que les compromis comptent vraiment pour ce que tu construis ?

Ce qu'on compare

L'IA cloud signifie que tu paies à l'usage. Chaque fois que ton app envoie du texte à Claude, GPT ou Gemini, tu paies les tokens — des morceaux de mots traités par l'IA, environ ¾ d'un mot français chacun. Pense à un compteur de taxi : les petites courses sont pas chères, les longues ça grimpe.

L'IA self-hostée signifie que tu fais tourner un LLM open-source (large language model — le cerveau derrière des outils comme ChatGPT) sur ton propre matériel. Tu paies la machine et l'électricité, mais chaque requête après ça est gratuite. Pense à l'achat d'une voiture : cher au départ, mais pas de prix par trajet.

Voici les prix cloud actuels en mars 2026, par million de tokens :

Fournisseur	Modèle	Coût input / output
Anthropic	Haiku 4.5	1$ / 5$
Anthropic	Sonnet 4.6	3$ / 15$
Anthropic	Opus 4.6	5$ / 25$
OpenAI	GPT-4o mini	0,15$ / 0,60$
OpenAI	GPT-4o	2,50$ / 10$
Google	Gemini Flash	Tier gratuit (15 req/min)
Google	Gemini Pro	1,25$ / 5$

Et les challengers self-hostés : Ollama faisant tourner des modèles open-source comme Llama 3.1, Mistral ou DeepSeek sur ta propre machine ou un serveur GPU loué.

Le compromis fondamental : le cloud facture à l'usage, le self-hosted facture au temps. À faible utilisation, le cloud gagne parce que tu ne paies que ce que tu consommes. À forte utilisation, le self-hosted gagne parce que le coût hardware est fixe. Il faut trouver le point de croisement. 💰

Les maths de coût que personne ne te montre

Coûts cloud à l'échelle

En prenant Claude Haiku 4.5 comme référence (le modèle cloud qualité le moins cher), avec une répartition typique 30% input / 70% output :

Tokens quotidiens	Coût mensuel	Coût annuel
10K	0,90$	10,80$
100K	9$	108$
500K	45$	540$
1M	90$	1 080$
5M	450$	5 400$
10M	900$	10 800$

Coûts en self-hosting

Option A — du matériel que tu possèdes déjà :

Si tu as une machine avec un GPU (carte graphique qui accélère les calculs IA), le seul surcoût c'est l'électricité :

Matériel	Modèles supportés	Électricité mensuelle
16 Go RAM, pas de GPU	Modèles 7B (lent)	~10$
RTX 3090 24 Go	Modèles 13B (rapide)	~20$
RTX 4090 24 Go	Modèles 13B-30B (rapide)	~25$
M2/M3 Mac 32 Go+	7B-13B (bonne vitesse)	~5$

' 7B ' et ' 13B ' désignent des milliards de paramètres — la taille du modèle. Plus gros = plus intelligent, mais plus gourmand en mémoire.

Option B — louer un serveur GPU :

Fournisseur	GPU	Coût mensuel
Hetzner (CPU seul)	Aucun	~50$
Vast.ai	RTX 3090	~150$
Vast.ai	RTX 4090	~250$
Lambda	A10G	~350$
RunPod	A100 40 Go	~800$

Option C — monter un serveur maison :

Config	Coût initial	Mensuel (sur 3 ans)
RTX 3090 d'occasion + PC basique	~1 200$	~33$ + électricité
RTX 4090 + PC correct	~2 500$	~70$ + électricité
2× RTX 4090	~4 500$	~125$ + électricité
Mac Studio M3 Ultra 192 Go	~6 000$	~167$ + électricité

Où les courbes se croisent

Cloud Haiku vs. 7B local sur hardware existant :

Le coût self-hosted tourne autour de ~15$/mois en électricité. Cloud Haiku dépasse ce montant aux alentours de 5 millions de tokens par mois. En dessous — et la plupart des fondateurs solo sont bien en dessous — le cloud est moins cher.

Cloud Haiku vs. GPU loué (RTX 3090 à 150$/mois) :

Il faut pousser 50 millions de tokens par mois pour que le serveur loué soit rentable. Ça fait 1,7 million de tokens par jour — une charge de production sérieuse.

Pour la plupart des indie builders et petites équipes, l'API cloud coûte moins cher que le self-hosting sur du hardware dédié. Point final.

L'écart de qualité

Le coût n'est que la moitié de l'histoire. Voici comment les modèles se comportent en pratique :

Capacité	Cloud (Claude/GPT)	Self-hosted (7B-13B)
Qualité de raisonnement	Excellente	Moyenne
Génération de code	Excellente	Correcte pour les tâches simples
Fenêtre de contexte	200K-1M tokens	4K-32K en général
Vitesse	50-100+ tok/sec	20-40 (GPU), 5-10 (CPU)
Utilisation d'outils	Native, fiable	Possible, moins fiable

La fenêtre de contexte — la quantité de texte que l'IA peut ' voir ' en même temps, comme sa mémoire de travail — est le plus gros écart. Les modèles cloud gèrent des codebases entières. Les modèles locaux voient quelques pages à la fois.

Llama 3.1 70B est vraiment impressionnant et compétitif sur les tâches générales. Mais il a besoin de hardware GPU sérieux, et il n'existe toujours pas d'équivalent local à Opus ou au GPT haut de gamme pour le raisonnement complexe. L'écart s'est réduit. Il ne s'est pas comblé.

Quand le self-hosting a vraiment du sens

1. Vie privée et souveraineté des données

Si tes données ne peuvent pas quitter ton réseau — dossiers médicaux, documents juridiques, données financières, systèmes gouvernementaux — le self-hosting n'est pas optionnel. Aucune condition d'utilisation d'API ne remplace ' les données n'ont jamais quitté nos murs '.

# Ollama rend ça possible en 2 minutes
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1:8b",
  "prompt": "Résume ce dossier patient..."
}'

Pas de requête réseau. Pas de logs tiers. Conformité totale.

2. Environnements hors ligne

Appareils edge, réseaux air-gapped, sites distants sans internet. Pas de connexion = pas d'API — le local est la seule option.

3. Tâches simples à haut volume

Les embeddings — des empreintes numériques du texte utilisées pour la recherche —, la classification et les résumés de textes courts. Des tâches où un petit modèle suffit et le volume est massif : ⚡

import ollama

def classify_document(text: str) -> str:
    response = ollama.chat(model='llama3.1:8b', messages=[
        {'role': 'user', 'content': f'Classifie : facture, contrat, reçu, lettre, autre.\n\n{text[:500]}'}
    ])
    return response['message']['content']

# 100K documents/jour :
# Coût cloud : ~30$/jour
# Self-hosted : ~0,50$/jour d'électricité
# Économie mensuelle : ~900$

4. Applications sensibles à la latence

Les appels API ajoutent 100-500ms de délai réseau. L'inférence locale — le processus par lequel le modèle génère une réponse — démarre instantanément :

Cloud :  150-500ms réseau + 500-2000ms inférence = 650-2500ms
Local :  0ms réseau + 200-1000ms inférence = 200-1000ms

Pour l'autocomplétion, la traduction en temps réel ou les outils interactifs, cette différence se sent.

5. Développement et expérimentation

Tester 50 variations de prompt en local coûte 0$. La même expérience sur l'API Claude revient à 5-20$. Pas énorme, mais ça s'accumule pendant les phases de R&D intensive.

La mise en place concrète (10 minutes)

Si tu as décidé que le self-hosting correspond à ton cas d'usage :

Installer Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

ollama pull llama3.1:8b          # 4,7 Go, usage général
ollama pull codellama:13b         # 7,4 Go, tâches de code
ollama pull nomic-embed-text      # 274 Mo, pour les embeddings

L'utiliser en remplacement direct

Ollama parle le même langage que l'API d'OpenAI. La plupart du code fonctionne sans modification — il suffit de changer l'URL :

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Explique MCP en 3 phrases"}]
)
print(response.choices[0].message.content)

Développe avec des modèles locaux, déploie en cloud — ou l'inverse. Même code, URL différente.

Benchmarks de performance

Matériel	Tokens/sec	Réponse de 500 tokens
M2 MacBook Pro 16 Go	~35	~14 secondes
RTX 3060 12 Go	~40	~12 secondes
RTX 4090 24 Go	~80	~6 secondes
CPU seul (16 cœurs)	~8	~60 secondes

L'inférence CPU seul est pénible pour tout ce qui est interactif. Pas de GPU ni Apple Silicon ? Reste sur le cloud.

Le setup hybride (c'est ça le move) 🚀

Le setup le plus malin, ce n'est ni full cloud ni full self-hosted. C'est router chaque tâche au bon endroit :

def get_ai_client(task_type: str):
    if task_type in ["embedding", "classification", "simple_summary"]:
        # Local — rapide, gratuit, qualité suffisante
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")
    elif task_type in ["code_generation", "complex_analysis", "tool_use"]:
        # Cloud — meilleure qualité, ça vaut le coup
        return anthropic.Anthropic()
    else:
        return OpenAI(base_url="http://localhost:11434/v1", api_key="x")

Tourne en local : embeddings, classification, génération de brouillons, dev/tests. Tourne dans le cloud : raisonnement complexe, génération de code, utilisation d'outils, tout ce qui est face client.

Exemple réel de coûts pour un setup hybride :

Tâche	Volume	Où	Coût mensuel
Embeddings	50K/jour	Local	0$
Classification	10K/jour	Local	0$
Revue de code	30/jour	Cloud (Haiku)	2$
Génération de contenu	50/jour	Cloud (Sonnet)	15$
Analyse complexe	10/jour	Cloud (Sonnet)	5$
Total			22$/mois

Le même workload full cloud : ~180$/mois. L'hybride économise 88%.

Antisèche de décision

Tu traites plus de 5M de tokens par jour ? → Self-hoste les tâches volumineuses, cloud pour la qualité.

Des exigences strictes de confidentialité ? → Self-hosting, non négociable.

Tu possèdes déjà du hardware GPU ? → Hybride : local pour le simple, cloud pour le complexe.

Rien de tout ça ? → Cloud uniquement. C'est le moins cher et ça te donne les meilleurs modèles.

Pour la plupart des fondateurs solo en mars 2026 : commence par le cloud. Claude Haiku à 1$/5$ par million de tokens est tellement abordable que self-hoster pour économiser, c'est comme faire pousser ton propre blé pour économiser sur le pain. Le hardware coûte plus cher que des années d'API aux volumes typiques d'un fondateur. 💰

L'exception : tu as des contraintes de confidentialité ou tu possèdes déjà un GPU. Dans ce cas, installe Ollama, fais tourner Llama 3.1 pour les tâches en masse, et appelle Claude pour les problèmes complexes. Ce setup hybride réduit les coûts de 80%+ tout en gardant la qualité là où ça compte. Tout le reste, c'est de la sur-ingénierie. 🦝