Étape 21 · L'IA locale Intermédiaire · 14 min

⚡L'hybride : cloud + local

Le meilleur des deux mondes. Claude Code garde la tête, il planifie, raisonne, relit, et délègue le gros œuvre répétitif à un modèle local. Privé, économe, et redoutablement efficace.

Vous avez maintenant deux mondes sous la main : un agent de cloud d’une intelligence redoutable (Claude Code), et des modèles qui tournent gratuitement chez vous (Ollama). La fausse question, c’est « lequel choisir ? ». La vraie réponse, c’est : les deux, en même temps, chacun à sa place.

C’est le montage hybride. Et le rôle central revient à Claude Code, en chef d’orchestre. Il ne fait pas tout lui-même, il décide qui fait quoi, et délègue le travail en volume au modèle local.

fig.L'hybride : Claude Code garde le raisonnement difficile côté cloud, et envoie le gros œuvre répétitif au modèle local via Ollama. Tout converge vers votre projet.

Pourquoi mélanger plutôt que choisir

Les deux mondes ont des forces opposées, et c’est précisément ce qui les rend complémentaires :

Le cloud (Claude) est imbattable sur le raisonnement difficile, les tâches longues, le tool use fiable, l’architecture. Mais chaque appel coûte, et vos données partent chez un tiers.
Le local (Ollama) est gratuit à l’usage, privé, dispo hors-ligne, et largement assez bon pour les tâches bornées et répétitives. Mais il fatigue sur l’agentique longue et le raisonnement de pointe (on en a parlé sans détour dans Choisir son modèle).

Le montage hybride prend le meilleur de chacun : vous gardez l’intelligence de pointe là où elle compte vraiment, et vous faites tomber le coût et les fuites de données sur tout le reste, c’est-à-dire 80 % du volume.

Claude Code en orchestrateur : comment ça marche

Le truc qui rend ça possible : Claude Code peut lancer des commandes. Et Ollama expose une API locale toute simple sur http://localhost:11434. Donc Claude Code peut appeler votre modèle local, via un curl, un script, ou un petit outil, exactement comme il appellerait n’importe quelle commande.

Concrètement, vous dites à Claude : « pour cette tâche en volume, ne la fais pas toi-même, délègue-la au modèle local via l’API Ollama ». Il écrit le script qui boucle sur vos fichiers, tape le modèle local pour chacun, et vous ramène le résultat consolidé. Lui garde la vision d’ensemble ; le local abat le travail.

# Le geste de base que Claude Code orchestre : appeler le modèle local
curl -s http://localhost:11434/api/generate -d '{
  "model": "qwen3-coder:30b",
  "prompt": "Résume ce fichier en 3 puces : '"$(cat rapport.md)"'",
  "stream": false
}' | jq -r .response

Quatre façons concrètes de router le travail

Router par coût : le volume au local, la pointe au cloud

Vous devez reformuler 300 descriptions produit, classer 2 000 commentaires, ou générer du boilerplate à la chaîne ? C’est répétitif et borné : modèle local. Vous devez concevoir l’architecture du module ou débugger une race condition vicieuse ? C’est rare et difficile : Claude. Claude écrit le pipeline, le local fait tourner les 300 appels gratuitement.

Router par confidentialité : le sensible reste à la maison

Du code propriétaire, des données clients, des trucs qui ne doivent pas sortir ? Vous les faites traiter par le modèle local : rien ne quitte la machine. Claude garde un rôle de coordination sur la partie non sensible. C’est un argument fort en contexte pro (cf. Sécuriser les accès).

Le RAG maison : embeddings locaux, raisonnement cloud

Vous voulez que l’agent connaisse votre corpus (votre doc, vos articles, votre code) ? Générez les embeddings en local avec Ollama (nomic-embed-text ou équivalent), stockez-les, et laissez Claude raisonner sur les passages les plus pertinents que vous lui servez. Le maillage et l’indexation, gratuits et privés en local ; l’intelligence finale, côté Claude.

Le filet hors-ligne : OpenCode + local prend le relais

Plus de connexion ? Train, avion, panne ? Vous basculez sur OpenCode branché sur votre modèle local et vous continuez à coder. Le cloud n’est plus un point de défaillance unique : votre machine reste un atelier autonome.

Brancher les deux, en pratique

Claude Code est l’orchestrateur par défaut. Vous n’avez rien de spécial à installer : il sait déjà lancer des commandes, donc il sait déjà appeler Ollama. Donnez-lui simplement la consigne dans votre CLAUDE.md :

# Stratégie hybride
- Pour les tâches répétitives et en volume (reformulation, classification,
  résumés, génération de boilerplate), délègue au modèle local via l'API
  Ollama (http://localhost:11434), ne les fais pas toi-même.
- Garde pour toi le raisonnement complexe, l'architecture et la revue.
- Le code et les données marqués « sensibles » : modèle local uniquement.

Désormais, quand vous lui confiez un gros lot, il écrit le script qui tape le local et vous ramène le résultat. Vous pilotez, il répartit.