⚡L'hybride : cloud + local
Le meilleur des deux mondes. Claude Code garde la tête, il planifie, raisonne, relit, et délègue le gros œuvre répétitif à un modèle local. Privé, économe, et redoutablement efficace.
Vous avez maintenant deux mondes sous la main : un agent de cloud d’une intelligence redoutable (Claude Code), et des modèles qui tournent gratuitement chez vous (Ollama). La fausse question, c’est « lequel choisir ? ». La vraie réponse, c’est : les deux, en même temps, chacun à sa place.
C’est le montage hybride. Et le rôle central revient à Claude Code, en chef d’orchestre. Il ne fait pas tout lui-même, il décide qui fait quoi, et délègue le travail en volume au modèle local.
Pourquoi mélanger plutôt que choisir
Les deux mondes ont des forces opposées, et c’est précisément ce qui les rend complémentaires :
- Le cloud (Claude) est imbattable sur le raisonnement difficile, les tâches longues, le tool use fiable, l’architecture. Mais chaque appel coûte, et vos données partent chez un tiers.
- Le local (Ollama) est gratuit à l’usage, privé, dispo hors-ligne, et largement assez bon pour les tâches bornées et répétitives. Mais il fatigue sur l’agentique longue et le raisonnement de pointe (on en a parlé sans détour dans Choisir son modèle).
Le montage hybride prend le meilleur de chacun : vous gardez l’intelligence de pointe là où elle compte vraiment, et vous faites tomber le coût et les fuites de données sur tout le reste, c’est-à-dire 80 % du volume.
Claude Code en orchestrateur : comment ça marche
Le truc qui rend ça possible : Claude Code peut lancer des commandes. Et Ollama expose une API locale toute simple sur http://localhost:11434. Donc Claude Code peut appeler votre modèle local, via un curl, un script, ou un petit outil, exactement comme il appellerait n’importe quelle commande.
Concrètement, vous dites à Claude : « pour cette tâche en volume, ne la fais pas toi-même, délègue-la au modèle local via l’API Ollama ». Il écrit le script qui boucle sur vos fichiers, tape le modèle local pour chacun, et vous ramène le résultat consolidé. Lui garde la vision d’ensemble ; le local abat le travail.
# Le geste de base que Claude Code orchestre : appeler le modèle local
curl -s http://localhost:11434/api/generate -d '{
"model": "qwen3-coder:30b",
"prompt": "Résume ce fichier en 3 puces : '"$(cat rapport.md)"'",
"stream": false
}' | jq -r .response
Quatre façons concrètes de router le travail
Router par coût : le volume au local, la pointe au cloud
Vous devez reformuler 300 descriptions produit, classer 2 000 commentaires, ou générer du boilerplate à la chaîne ? C’est répétitif et borné : modèle local. Vous devez concevoir l’architecture du module ou débugger une race condition vicieuse ? C’est rare et difficile : Claude. Claude écrit le pipeline, le local fait tourner les 300 appels gratuitement.
Router par confidentialité : le sensible reste à la maison
Du code propriétaire, des données clients, des trucs qui ne doivent pas sortir ? Vous les faites traiter par le modèle local : rien ne quitte la machine. Claude garde un rôle de coordination sur la partie non sensible. C’est un argument fort en contexte pro (cf. Sécuriser les accès).
Le RAG maison : embeddings locaux, raisonnement cloud
Vous voulez que l’agent connaisse votre corpus (votre doc, vos articles, votre code) ? Générez les embeddings en local avec Ollama (nomic-embed-text ou équivalent), stockez-les, et laissez Claude raisonner sur les passages les plus pertinents que vous lui servez. Le maillage et l’indexation, gratuits et privés en local ; l’intelligence finale, côté Claude.
Le filet hors-ligne : OpenCode + local prend le relais
Plus de connexion ? Train, avion, panne ? Vous basculez sur OpenCode branché sur votre modèle local et vous continuez à coder. Le cloud n’est plus un point de défaillance unique : votre machine reste un atelier autonome.
Brancher les deux, en pratique
Claude Code est l’orchestrateur par défaut. Vous n’avez rien de spécial à installer : il sait déjà lancer des commandes, donc il sait déjà appeler Ollama. Donnez-lui simplement la consigne dans votre CLAUDE.md :
# Stratégie hybride
- Pour les tâches répétitives et en volume (reformulation, classification,
résumés, génération de boilerplate), délègue au modèle local via l'API
Ollama (http://localhost:11434), ne les fais pas toi-même.
- Garde pour toi le raisonnement complexe, l'architecture et la revue.
- Le code et les données marqués « sensibles » : modèle local uniquement.
Désormais, quand vous lui confiez un gros lot, il écrit le script qui tape le local et vous ramène le résultat. Vous pilotez, il répartit.