Un « grand modèle de langage » (Large Language Model). Un réseau de neurones entraîné sur d'énormes quantités de texte, qui prédit le mot suivant et sait ainsi écrire, résumer, coder, répondre. C'est le moteur derrière un agent comme Claude.

Qu'est-ce que Token ?

Le morceau de texte que manipule un modèle : ni tout à fait une lettre, ni tout à fait un mot, plutôt un fragment (souvent une syllabe ou un bout de mot). On compte en tokens la taille du contexte et, dans le cloud, la facturation. Repère : ~1 token = ~4 caractères.

Qu'est-ce que Fenêtre de contexte ?

La quantité de texte qu'un modèle peut « avoir sous les yeux » d'un coup : votre demande, les fichiers, l'historique. Mesurée en tokens. Au-delà, le modèle oublie le début. Plus elle est grande, plus elle consomme de mémoire.

Qu'est-ce que Paramètres ?

Les « boutons » internes d'un modèle, ajustés à l'entraînement. On les compte en milliards (un modèle « 30 B » en a 30 milliards). Plus il y en a, plus le modèle est capable… et plus il demande de mémoire pour tourner.

Qu'est-ce que Quantisation ?

Compresser un modèle pour qu'il tienne dans moins de mémoire, en stockant ses paramètres avec moins de précision. La perte de qualité est souvent imperceptible, et c'est ce qui rend l'IA locale possible sur un mini-PC (un modèle 30 B passe de ~60 à ~20 Go).

Qu'est-ce que MoE (Mixture of Experts) ?

Un modèle « malin » découpé en sous-réseaux spécialisés (les « experts »), dont il n'active qu'une petite partie à chaque token. Résultat : un gros modèle sur le papier, mais rapide et économe à l'exécution. Idéal pour l'IA locale.

Qu'est-ce que Embeddings ?

Transformer un texte en une liste de nombres (un « vecteur ») qui capture son sens. Deux textes proches par le sens donnent des vecteurs proches : c'est la base de la recherche sémantique et du RAG.

« Génération augmentée par la recherche ». On va d'abord chercher les bons passages dans vos documents (via les embeddings), puis on les donne au modèle pour qu'il réponde en s'appuyant dessus. La parade classique contre les hallucinations.

Qu'est-ce que Inférence ?

Le fait de faire « tourner » un modèle déjà entraîné pour produire une réponse. À distinguer de l'entraînement : ici, on ne fait qu'utiliser le modèle. C'est ce que fait votre mini-PC quand il génère du texte.

Qu'est-ce que Prompt ?

L'instruction que vous donnez au modèle : la question, la consigne, le contexte. Bien rédiger son prompt (être précis, donner des exemples, cadrer) change radicalement la qualité de la réponse.

Qu'est-ce que Fine-tuning ?

Ré-entraîner légèrement un modèle existant sur vos propres données pour le spécialiser. Puissant mais lourd : pour la plupart des usages, un bon prompt ou du RAG suffisent et coûtent bien moins cher.

Qu'est-ce que Hallucination ?

Quand un modèle affirme avec aplomb quelque chose de faux : une fonction qui n'existe pas, une source inventée. Il ne « ment » pas, il prédit du texte plausible. D'où la règle d'or : on vérifie, surtout le code.

Lexique

Tout le vocabulaire technique de ce guide, expliqué simplement. Pas de jargon pour le jargon : juste ce qu'il faut comprendre pour suivre, en français clair. Les mots soulignés en pointillés dans les fiches renvoient ici.

IA & modèles

↑ Catégories

Embeddings: Transformer un texte en une liste de nombres (un « vecteur ») qui capture son sens. Deux textes proches par le sens donnent des vecteurs proches : c'est la base de la recherche sémantique et du RAG.
Fenêtre de contexte: La quantité de texte qu'un modèle peut « avoir sous les yeux » d'un coup : votre demande, les fichiers, l'historique. Mesurée en tokens. Au-delà, le modèle oublie le début. Plus elle est grande, plus elle consomme de mémoire.
Fine-tuning: Ré-entraîner légèrement un modèle existant sur vos propres données pour le spécialiser. Puissant mais lourd : pour la plupart des usages, un bon prompt ou du RAG suffisent et coûtent bien moins cher.
Hallucination: Quand un modèle affirme avec aplomb quelque chose de faux : une fonction qui n'existe pas, une source inventée. Il ne « ment » pas, il prédit du texte plausible. D'où la règle d'or : on vérifie, surtout le code.
Inférence: Le fait de faire « tourner » un modèle déjà entraîné pour produire une réponse. À distinguer de l'entraînement : ici, on ne fait qu'utiliser le modèle. C'est ce que fait votre mini-PC quand il génère du texte.
LLM: Un « grand modèle de langage » (Large Language Model). Un réseau de neurones entraîné sur d'énormes quantités de texte, qui prédit le mot suivant et sait ainsi écrire, résumer, coder, répondre. C'est le moteur derrière un agent comme Claude.
Modèle frontière (frontier model): Les modèles les plus avancés du moment, à la pointe de ce que sait faire l'IA (Claude, GPT, Gemini…). Énormes, ils tournent dans le cloud, pas sur votre mini-PC. Dans une approche hybride, c'est souvent l'un d'eux qui sert d'orchestrateur, pendant que des modèles locaux plus modestes font le reste.
Modèle open-weight (poids ouverts): Un modèle dont les « poids » (les paramètres entraînés) sont publiés et téléchargeables librement. Vous pouvez le faire tourner chez vous, sans demander la permission : c'est ce qui rend l'IA locale possible. Attention, « poids ouverts » ne veut pas dire « open source » (voir ci-dessous).
MoE (Mixture of Experts): Un modèle « malin » découpé en sous-réseaux spécialisés (les « experts »), dont il n'active qu'une petite partie à chaque token. Résultat : un gros modèle sur le papier, mais rapide et économe à l'exécution. Idéal pour l'IA locale.
Open source (vs open-weight): Pour un modèle, vraiment « open source » voudrait dire tout ouvrir : non seulement les poids, mais aussi le code d'entraînement, les données et une licence libre. En pratique, la plupart des modèles dits « ouverts » (Qwen, Llama…) sont open-weight, pas open source : on a les poids, rarement la recette complète. Un raccourci de langage courant, mais la nuance compte.
Paramètres: Les « boutons » internes d'un modèle, ajustés à l'entraînement. On les compte en milliards (un modèle « 30 B » en a 30 milliards). Plus il y en a, plus le modèle est capable… et plus il demande de mémoire pour tourner.
Prompt: L'instruction que vous donnez au modèle : la question, la consigne, le contexte. Bien rédiger son prompt (être précis, donner des exemples, cadrer) change radicalement la qualité de la réponse.
Quantisation: Compresser un modèle pour qu'il tienne dans moins de mémoire, en stockant ses paramètres avec moins de précision. La perte de qualité est souvent imperceptible, et c'est ce qui rend l'IA locale possible sur un mini-PC (un modèle 30 B passe de ~60 à ~20 Go).
RAG: « Génération augmentée par la recherche ». On va d'abord chercher les bons passages dans vos documents (via les embeddings), puis on les donne au modèle pour qu'il réponde en s'appuyant dessus. La parade classique contre les hallucinations.
Token: Le morceau de texte que manipule un modèle : ni tout à fait une lettre, ni tout à fait un mot, plutôt un fragment (souvent une syllabe ou un bout de mot). On compte en tokens la taille du contexte et, dans le cloud, la facturation. Repère : ~1 token = ~4 caractères.

Agents

↑ Catégories

Agent: Un LLM à qui on a donné des outils (lire des fichiers, lancer des commandes, chercher sur le web) et qui boucle tout seul jusqu'à atteindre un objectif. C'est la différence entre un chatbot qui répond et un assistant qui agit.
Boucle de l'agent: Le cycle que répète un agent : réfléchir → agir (appeler un outil) → observer le résultat → recommencer, jusqu'à la fin de la tâche. C'est cette boucle qui le rend autonome.
Fichier mémoire: Un fichier que l'agent relit à chaque session pour se souvenir du projet : conventions, décisions, contexte. Comme il repart de zéro à chaque fois, c'est sa mémoire à long terme, écrite noir sur blanc.
Hook: Une action automatique déclenchée par un événement : par exemple lancer le linter à chaque fois que l'agent modifie un fichier. Le hook, c'est le « quand X, fais Y » qui ne dépend pas du bon vouloir du modèle.
MCP: « Model Context Protocol » : un standard ouvert pour brancher des outils et des sources de données sur un agent, sans réinventer la connexion à chaque fois. Une prise universelle entre l'agent et le reste du monde.
Orchestrateur: L'agent « chef » qui réfléchit, découpe le travail et délègue à d'autres agents ou outils. Dans une approche hybride, c'est souvent lui qu'on garde dans le cloud (un gros modèle), pendant que la machine locale exécute.
Outils (tool use): Les capacités qu'un agent peut déclencher au-delà de générer du texte : lire/écrire un fichier, exécuter une commande, appeler une API. Ce sont les outils qui transforment un modèle bavard en assistant qui fait vraiment des choses.
Skill: Un savoir-faire réutilisable qu'on apprend à l'agent une bonne fois : une procédure, une commande, un mini-mode d'emploi rangé dans un fichier. On l'invoque ensuite d'un mot au lieu de tout réexpliquer.
Sous-agent: Un agent secondaire lancé par l'agent principal pour une tâche précise (explorer le code, faire une recherche). Il travaille dans son coin et ne renvoie que sa conclusion : de quoi ne pas encombrer le contexte du chef.

Matériel

↑ Catégories

Bande passante mémoire: La vitesse à laquelle le processeur lit la mémoire. Comme un modèle relit toute sa mémoire pour produire chaque mot, c'est elle qui décide à quelle vitesse le texte sort (les tokens/seconde). La « vitesse cachée » qu'on oublie de regarder.
CPU (processeur): Le processeur central, le « cerveau » généraliste de la machine. Pour l'IA locale, il compte moins qu'on ne croit : n'importe quel CPU récent suffit, mieux vaut mettre l'argent dans la RAM.
CUDA: La plateforme de calcul de NVIDIA. C'est le standard de fait : presque tout l'écosystème IA est pensé pour CUDA d'abord, donc « ça marche tout de suite ». Le chemin le plus tranquille côté GPU dédié.
GPU (carte graphique): Le processeur graphique. Très bon pour les calculs massivement parallèles de l'IA, il accélère beaucoup l'inférence. Une carte dédiée donne de la vitesse, mais est plafonnée par sa VRAM et ajoute bruit et consommation.
iGPU (GPU intégré): Le GPU intégré au processeur, qui partage la RAM du système au lieu d'avoir sa propre VRAM. Moins rapide qu'une carte dédiée, mais sobre, silencieux, et sur les plateformes à mémoire unifiée, capable de charger de gros modèles.
Mémoire unifiée: Une seule mémoire, rapide, partagée entre le processeur et le GPU (puces Apple M, AMD Strix Halo…). On peut en allouer une grosse part au GPU : une machine 64 Go peut ainsi charger des modèles qu'aucune carte graphique grand public ne tient.
RAM (mémoire vive): La mémoire de travail de la machine. Pour l'IA locale, c'est LE facteur n°1 : un modèle doit tenir en entier dedans pour tourner. Pas assez de RAM, et le modèle ne se charge pas, ou rame.
ROCm: L'équivalent ouvert de CUDA chez AMD. Imbattable sur le prix par Go de VRAM, en gros progrès, mais le support reste un cran plus rugueux : selon la carte et l'outil, il faut parfois mettre les mains dedans.
SSD NVMe: Le disque de stockage le plus rapide du moment. Indispensable ici : charger en mémoire un modèle de ~20 Go doit être quasi instantané. Visez 1 To minimum, car les modèles s'accumulent vite.
VRAM: La mémoire embarquée sur une carte graphique. Très rapide, mais figée et limitée (souvent 8 à 32 Go) : un modèle ne peut pas dépasser la VRAM de la carte. C'est le « mur » que la mémoire unifiée fait sauter.

Réseau & accès

↑ Catégories

Adresse IP: Le numéro qui identifie une machine sur un réseau (par ex. 192.168.1.20). Locale (sur votre box) ou publique (sur Internet) : c'est l'adresse à laquelle on joint votre mini-PC.
API: Une « prise » par laquelle deux logiciels se parlent. Votre agent appelle l'API d'un modèle dans le cloud ; votre projet expose une API que d'autres programmes interrogent. C'est l'interface, pas l'humain, qui dialogue.
Clé API: Le mot de passe qui autorise votre programme à utiliser une API (et qui sert souvent à facturer l'usage). À traiter comme un secret : jamais en clair dans le code, jamais publié sur GitHub.
Clé SSH: Une paire de clés cryptographiques (une publique, une privée) qui remplace le mot de passe pour SSH. On dépose la publique sur le serveur, on garde la privée jalousement : connexion sans mot de passe, et bien plus sûre.
Cloudflare Tunnel: Un service qui expose proprement un projet local sur Internet, avec un vrai nom de domaine et du HTTPS, sans ouvrir le moindre port sur votre box. La machine se connecte vers Cloudflare, jamais l'inverse : plus simple et plus sûr.
DNS: L'annuaire d'Internet : il traduit un nom lisible (mondomaine.com) en adresse IP que les machines comprennent. Quand vous configurez un domaine, c'est le DNS que vous réglez.
Pare-feu: Le filtre qui décide quelles connexions réseau sont autorisées à entrer ou sortir. Bien réglé (on ferme tout, on n'ouvre que le strict nécessaire), c'est une brique de base pour ne pas exposer la machine.
SSH: « Secure Shell » : le protocole pour piloter une machine à distance par le terminal, de façon chiffrée. C'est ainsi que vous commanderez votre mini-PC depuis votre portable, sans clavier ni écran branchés dessus.
Tailscale: Un VPN privé « maillé » qui relie tous vos appareils dans un réseau chiffré, comme s'ils étaient côte à côte, où qu'ils soient. C'est la façon la plus simple et sûre de joindre votre mini-PC depuis l'extérieur.
VPN: « Réseau privé virtuel » : un tunnel chiffré entre vos appareils par-dessus Internet. Tout y passe à l'abri des regards, comme si les machines étaient sur le même réseau local.

Système & outils

↑ Catégories

CLI: « Command-Line Interface » : un programme qu'on pilote en tapant des commandes dans le terminal, plutôt qu'en cliquant. La plupart des agents de code (Claude Code, OpenCode) sont des CLI : léger, scriptable, et parfait à distance.
Commit: Un instantané daté de votre code à un moment donné, avec un petit message qui décrit le changement. C'est l'unité de l'historique Git : on peut toujours y revenir.
Conteneur: Une « boîte » légère et isolée qui contient une application et ses dépendances, prête à tourner à l'identique partout. Plus léger qu'une machine virtuelle, c'est l'unité de base de Docker.
Dépôt (repo): Le « classeur » d'un projet suivi par Git : tout son code et tout son historique. Il vit en local sur votre machine et, en général, une copie « distante » est hébergée sur GitHub pour la sauvegarde et le partage.
Docker: L'outil qui emballe une application avec tout ce qu'il lui faut dans un conteneur isolé. Chaque projet vit dans sa bulle, sans polluer le système ni les autres : on installe, on jette, on recommence sans casser rien.
Git: Le système qui garde l'historique de votre code : chaque modification (« commit ») est enregistrée, on peut revenir en arrière, comparer, travailler à plusieurs. Le filet de sécurité indispensable, surtout quand un agent modifie vos fichiers.
Image Docker: Le modèle figé à partir duquel on lance des conteneurs : une photo de l'application prête à l'emploi. On télécharge une image, on en démarre autant de conteneurs identiques qu'on veut.
Linux: Le système d'exploitation libre et gratuit qui fait tourner l'immense majorité des serveurs. Léger, stable, pilotable entièrement au clavier : le socle idéal pour une machine allumée en permanence.
Markdown: Une façon simple d'écrire du texte mis en forme avec quelques signes : un dièse pour un titre, deux étoiles autour d'un mot pour le gras, des tirets pour les listes. Lisible tel quel, converti en page web ensuite. C'est le format des fichiers mémoire, des README et de presque toute la doc technique.
Ollama: L'outil le plus simple pour faire tourner des modèles d'IA en local : une commande pour télécharger un modèle, une autre pour lui parler. Il gère la mémoire, la quantisation et expose une API locale pour vos projets.
Shell: Le programme qui interprète vos commandes dans le terminal (bash, zsh…). C'est lui qui comprend ce que vous tapez, enchaîne les commandes et exécute vos scripts.
sudo: La commande qui exécute une action avec les droits d'administrateur (« superutilisateur »). On la met devant une commande quand elle touche au système. À utiliser à bon escient : avec ces droits, on peut tout casser.
systemd: Le chef d'orchestre des services sous Linux. C'est lui qui lance vos programmes au démarrage, les relance s'ils plantent et les garde en vie 24 h/24. On lui confie l'agent, le tunnel, vos projets.
Terminal (ligne de commande): La fenêtre où l'on tape des commandes texte pour piloter la machine, sans souris ni boutons. Intimidant au début, mais c'est le moyen le plus direct et le plus puissant, et le terrain naturel des agents.
tmux: Un « multiplexeur de terminal » : il garde vos sessions en vie même quand vous vous déconnectez. Indispensable à distance : vous lancez un agent en SSH, vous fermez le portable, et il continue de tourner. Vous le retrouvez intact à la reconnexion.
Ubuntu: La distribution Linux la plus répandue côté grand public et serveur. On retient ses versions « LTS » (support longue durée, comme 24.04), stables et maintenues des années : le choix sûr pour ce projet.
VPS: « Serveur privé virtuel » : une machine louée dans le cloud, facturée au mois, déjà sous Linux et joignable de partout. Une alternative au mini-PC maison quand on ne veut rien acheter, mais sans gros GPU et avec un abonnement à payer.