Étape 19 · L'IA locale Facile · 12 min

🦙Ollama & les modèles locaux

Faire tourner de vrais modèles d'IA chez vous, gratuitement et en privé. Installation, premier modèle, et comment brancher ça à votre agent de code.

Jusqu’ici, votre agent de code parlait à des modèles dans le cloud. Maintenant on fait tourner de vrais modèles d’IA directement sur votre mini-PC. Et le truc qui rend ça possible sans douleur, c’est Ollama.

Ollama, c’est la façon la plus simple d’exécuter des LLM open-weight en local. Une commande pour l’installer, une pour télécharger un modèle, et vous vous retrouvez avec une API locale sur le port 11434 qui parle le format OpenAI, donc compatible avec à peu près tous les outils du marché. Trois avantages qui se passent de commentaire : c’est privé (rien ne quitte la machine), c’est gratuit, et ça marche hors-ligne.

Installer Ollama

Une ligne. Le script installe le binaire et le lance comme service système, il tourne en fond, prêt à répondre.

curl -fsSL https://ollama.com/install.sh | sh

C’est tout. Ollama écoute désormais sur http://localhost:11434.

Votre premier modèle

On commence petit et utile : qwen2.5-coder:7b, un modèle de code de 7 milliards de paramètres, bon point de départ qui tient sur une machine modeste.

ollama run qwen2.5-coder:7b

Le premier lancement télécharge le modèle (quelques Go, soyez patient). Ensuite vous vous retrouvez dans un chat directement en terminal : posez-lui une question, demandez-lui un bout de code, vérifiez que ça répond. Tapez /bye pour sortir.

Voir ce que vous avez

ollama list   # tous les modèles téléchargés, avec leur taille

Voir ce qui tourne

ollama ps     # les modèles chargés en mémoire là, maintenant

Faire le ménage

ollama rm qwen2.5-coder:7b   # supprime un modèle pour récupérer de la place

Brancher ça à votre agent de code

C’est ici que les deux agents divergent vraiment. Choisissez votre onglet, parce que la réalité n’est pas la même des deux côtés, et autant être honnête tout de suite.

Claude Code est conçu pour tourner sur les modèles Claude d’Anthropic. Il ne se branche pas nativement sur un modèle Ollama local, il n’y a pas de flag magique pour ça, et je ne vais pas vous en inventer un.

Donc pour de l’agent de code entièrement local, c’est OpenCode qu’on utilise (onglet d’à côté). Claude Code, lui, reste votre réacteur cloud : les gros chantiers, le raisonnement long, la fiabilité au top.

Ça ne veut pas dire qu’Ollama est inutile à côté de Claude Code. Vous pouvez très bien garder l’API locale d’Ollama pour les tâches annexes : embeddings, classification rapide, résumés, petits scripts qui tapent sur http://localhost:11434 sans coûter un centime ni envoyer vos données ailleurs. Le cloud pour le cerveau, le local pour la plomberie.

C’est le chemin royal vers un agent de code 100 % local. OpenCode parle nativement à Ollama. Vous déclarez Ollama comme fournisseur en le pointant sur l’API locale :

http://localhost:11434/v1

Concrètement, vous configurez le provider Ollama dans OpenCode (via /login ou votre fichier de config), puis vous choisissez le modèle local avec /models, par exemple qwen2.5-coder. À partir de là, votre agent réfléchit, lit votre code et écrit des fichiers sans qu’un octet ne sorte de la machine. Gratuit, privé, hors-ligne. C’est exactement le scénario pour lequel OpenCode existe.

Les trois réglages qui comptent

Ollama marche tout de suite, mais trois variables d’environnement font toute la différence quand vous le poussez. Vous les posez dans l’environnement du service (systemctl edit ollama puis Environment="...").

Les boutons à connaître

OLLAMA_CONTEXT_LENGTH : la taille de la fenêtre de contexte. Par défaut 2048 tokens seulement, ce qui est ridicule pour du code. Montez-la (8192, 16384…) pour que le modèle voie vos fichiers en entier. Mais ça coûte de la RAM, alors n’exagérez pas.
OLLAMA_KEEP_ALIVE : combien de temps le modèle reste chargé après une requête. Par défaut 5 minutes. Mettez -1 pour le garder résident en permanence : indispensable pour un agent qui enchaîne beaucoup d’appels, sinon il recharge le modèle à chaque fois.
OLLAMA_HOST : l’adresse d’écoute. Laissez-la sur localhost (ou derrière Tailscale si vous voulez y accéder depuis un autre appareil). Surtout, n’exposez jamais le port 11434 en public : ce serait offrir votre GPU au premier venu. Détails dans Sécuriser les accès.

Le piège à graver dans votre tête

Neuf fois sur dix, quand quelqu’un dit « Ollama est lent chez moi », le coupable est le contexte réglé trop haut.

Voilà pourquoi. Plus la fenêtre de contexte est grande, plus le cache KV mange de RAM, et ça grossit vite. Si vous demandez un contexte énorme sur une machine juste, vous débordez sur le swap (le disque qui sert de RAM de secours), et là tout s’effondre : le modèle rame, chaque token prend une éternité, vous croyez que votre matériel est nul alors qu’il étouffe.

La règle : réglez le contexte sur ce dont la tâche a besoin, pas sur le maximum. Un petit script ? 4096 suffit. Un gros refactor multi-fichiers ? Montez, mais surveillez votre RAM (ollama ps vous montre la taille réellement chargée). Le bon réglage, c’est le plus petit qui fait le boulot.