🧱Choisir le matériel
Quel mini-PC, combien de RAM, quel SSD ? Le guide d'achat sans jargon pour une machine qui fait tourner un agent de code et des modèles d'IA en local.
Avant d’acheter quoi que ce soit, une bonne nouvelle : vous n’avez pas besoin d’une machine de guerre. Un agent de code et des modèles d’IA compacts, ça tourne très bien sur un petit PC à quelques centaines d’euros. Mais il y a un critère qui compte plus que tous les autres, et ce n’est pas celui qu’on regarde d’habitude. On démêle ça ensemble, sans jargon.
Les trois choses qui comptent vraiment (dans l’ordre)
Oubliez le marketing. Pour faire tourner de l’IA en local, voici ce qui pèse, classé du plus important au moins important.
1. La RAM, de loin le facteur n°1
C’est la décision. Un modèle d’IA, pour répondre, doit tenir en entier dans la mémoire. Pas assez de RAM, et le modèle ne se charge tout simplement pas, ou rame atrocement. Voici les paliers concrets :
- 16 Go : le minimum vital. Suffisant pour faire tourner l’agent de code (qui, lui, peut taper sur un modèle dans le cloud), mais trop juste pour un vrai modèle d’IA en local. À éviter si vous pouvez.
- 32 Go : confortable. Vous faites tourner un modèle de 30 milliards de paramètres en version quantisée (compressée), ce qui couvre déjà énormément de besoins. Bon point d’entrée.
- 64 Go : le sweet spot. C’est ici que l’IA locale devient vraiment sérieuse : vous chargez de gros modèles, vous gardez de la marge pour le système et l’agent en même temps. Si vous hésitez entre 32 et 64, prenez 64.
- 96 Go et plus : le luxe. Pour les modèles les plus lourds ou faire tourner plusieurs choses en parallèle. Sympa, mais pas nécessaire pour démarrer.
2. La bande passante mémoire, la vitesse cachée
Moins connue, mais décisive pour le confort. La bande passante mémoire, c’est la vitesse à laquelle le processeur lit la RAM. Or un modèle d’IA doit relire toute sa mémoire pour produire chaque mot. Plus la bande passante est élevée, plus les mots sortent vite (on parle de tokens par seconde). Une machine avec de la mémoire rapide « tape » son texte sous vos yeux ; une machine lente le distille mot par mot. Gardez l’œil sur ce point, surtout sur les Mac (voir plus bas), où la mémoire unifiée est particulièrement rapide.
3. Le SSD NVMe, rapide et spacieux
Les modèles sont gros : comptez ~20 Go par modèle, et vous allez vite en collectionner plusieurs. Visez un SSD NVMe de 1 To minimum. Le NVMe (et pas le vieux SSD SATA) parce que charger 20 Go en mémoire au lancement, ça doit être quasi instantané, pas une pause café.
Et le processeur, alors ?
Il compte moins que vous ne croyez pour cet usage. N’importe quel AMD Ryzen ou Intel Core des deux ou trois dernières générations fait largement l’affaire. Ne payez pas une rallonge pour le CPU le plus rapide, mettez cet argent dans la RAM. C’est elle qui décide ce que vous pourrez faire.
Quelle forme de machine ?
Plusieurs familles, toutes valables. On reste neutre, choisissez selon votre budget et vos envies.
- Mini-PC barebones ou prêts à l’emploi : Minisforum, Beelink, GMKtec, ASUS NUC. Le choix le plus souple : compacts, sobres, et sur les versions barebones vous ajoutez vous-même la RAM et le SSD, donc vous pouvez pousser la mémoire au maximum pour pas cher.
- Apple Mac mini (puces M) : une excellente alternative, et même un secret bien gardé pour l’IA locale. Sa mémoire unifiée est rapide et partagée entre CPU et GPU : un Mac mini 64 Go fait tourner des modèles qu’une carte graphique dédiée ne peut pas charger. Petit bémol : il tourne sous macOS, pas Linux.
iGPU ou carte graphique dédiée ?
La grande question, et la réponse va peut-être vous surprendre. Pour cet usage :
- Une carte graphique NVIDIA dédiée accélère beaucoup la vitesse des modèles. Mais elle est plafonnée par sa VRAM (24 à 32 Go en pratique), elle ajoute du bruit, de la conso et du coût, et elle rentre rarement dans un boîtier mini.
- La plupart des gens s’en sortent très bien avec un mini-PC à processeur/iGPU + beaucoup de RAM, en faisant tourner des modèles MoE compacts (des modèles malins qui n’activent qu’une partie d’eux-mêmes à chaque réponse, voir Choisir son modèle local).
Le compromis, en clair : le GPU dédié vous donne de la vitesse, mais vous limite en taille de modèle et vous ajoute du bruit. La RAM abondante vous donne des gros modèles, plus lents mais silencieux. Pour démarrer, l’approche « beaucoup de RAM, pas de GPU » est la plus simple et la plus sereine.
Sobre et silencieux : parfait pour le 24 h/24
On le répète parce que ça compte : ces machines consomment 10 à 30 W au repos et sont quasi silencieuses. C’est exactement ce qu’il vous faut pour une boîte allumée en permanence dans un coin du bureau. Un GPU dédié casse un peu cette tranquillité, à vous de voir si la vitesse en vaut la peine.
Pas envie d’acheter ? L’option VPS
Soyons honnêtes : vous pouvez aussi ne rien acheter et louer un serveur dans le cloud, un VPS (serveur privé virtuel). C’est une machine virtuelle chez un hébergeur (Hetzner, OVH, Scaleway, DigitalOcean…), facturée au mois, déjà sous Linux et joignable de partout. Tout le reste du parcours (agent, Docker, réseau, déploiement) s’applique pareil.
C’est une voie que j’ai moins testée que le mini-PC maison, alors je la donne pour ce qu’elle est, avec ses contreparties :
- Pour : zéro matériel à acheter, rien à brancher, une IP publique et de la bande passante d’emblée, et on monte ou descend la puissance en quelques clics.
- Contre : c’est un abonnement (de quelques euros à quelques dizaines par mois, qui tournent même quand vous dormez), vos données vivent chez quelqu’un d’autre, et surtout le gros LLM local n’est pas au rendez-vous : les VPS abordables n’ont pas de GPU, donc on retombe sur l’approche hybride (orchestrateur dans le cloud, le VPS sert vos projets et, au mieux, de petits modèles). Les offres avec GPU existent, mais le prix grimpe vite.
Mon avis : pour apprendre et héberger des projets sans rien acheter, un petit VPS est un terrain de jeu très correct. Pour faire tourner de vrais modèles en local, le cœur de ce site, rien ne remplace une machine à vous, avec sa RAM et, si vous le voulez, son GPU. À vous de voir où vous placez le curseur.
Le tableau de recommandation
Trois profils, selon votre budget et votre ambition.
| Profil | RAM | Pour quoi faire | Repère |
|---|---|---|---|
| Budget découverte | 32 Go | Agent de code + un petit modèle local quantisé | Mini-PC barebones d’entrée de gamme |
| Confort (recommandé) | 64 Go | Le sweet spot : gros modèles locaux + agent, de la marge partout | Minisforum / Beelink 64 Go, ou Mac mini 32 Go |
| Costaud | 96 Go+ | Modèles les plus lourds, plusieurs charges en parallèle | Mac mini 64 Go, ou mini-PC + GPU dédié si vous voulez la vitesse |
Si vous ne deviez retenir qu’une ligne : visez « Confort », 64 Go. C’est le meilleur rapport plaisir/prix, et vous ne vous sentirez pas à l’étroit dans six mois.
Les machines que je conseille (et que j’ai testées)
Assez de généralités, voici des modèles concrets, dont plusieurs passés au banc d’essai. Quatre familles, selon ce que vous voulez faire.
Le mini-PC polyvalent, Minisforum M2
Mon point de départ recommandé : compact, sobre, silencieux, et taillé pour tourner 24 h/24 dans un coin. Vous y faites tourner l’agent et un modèle local quantisé sans broncher. C’est l’équilibre encombrement / perf / prix le plus sain pour démarrer. → Mon test du Minisforum M2 sur Frandroid
La mémoire unifiée, Mac mini M4, Mac Studio & Framework Desktop
Si l’IA locale est votre vrai sujet, la mémoire unifiée est une arme. CPU et GPU partagent une seule mémoire, très rapide, ce qui permet de charger de gros modèles qu’aucune carte graphique grand public ne tient.
- Mac mini (M4, M5) / Mac Studio : le meilleur du genre côté Apple : mémoire unifiée ultra-rapide, machine minuscule et silencieuse. Les dernières puces M5 gagnent encore en vitesse, et le Mac Studio monte très haut en mémoire pour les modèles les plus lourds. (Rappel : macOS, pas Linux, voir l’encadré plus haut.)
- Framework Desktop : mon coup de cœur côté mémoire unifiée sous x86 : il embarque une puce AMD à mémoire unifiée généreuse et très rapide, réparable et ouvert comme tout ce que fait Framework. Excellent hôte pour des modèles locaux costauds, et il tourne sous Linux. → Mon test du Framework Desktop sur Frandroid
Pourquoi la mémoire unifiée change la donne (et comment la repérer)
C’est le point technique le plus important de toute cette fiche, alors prenons le temps. Sur un PC classique, il y a deux mémoires séparées : la RAM du processeur, et la VRAM de la carte graphique. Le GPU ne peut utiliser que sa VRAM, souvent 8, 12 ou 16 Go, et pas un octet de plus. C’est un mur.
La mémoire unifiée, elle, casse ce mur : CPU et GPU partagent un seul et même pool de mémoire, très rapide. Vous pouvez donc allouer une grosse part de cette mémoire au GPU quand un modèle d’IA en a besoin. Concrètement : une machine à mémoire unifiée de 64 Go peut présenter, disons, 48 Go « comme de la VRAM » à un modèle. Aucune carte graphique grand public ne sait faire ça. C’est ce qui permet à un petit Mac mini ou à un Framework Desktop de charger des modèles qu’une RTX à 1 500 € ne peut tout simplement pas tenir.
La grosse bande passante, un PC avec carte graphique dédiée
Vous visez la vitesse maximale, ou vous faites aussi du créatif (génération d’images, vidéo, entraînement) ? Là, une vraie carte graphique avec sa mémoire dédiée prend tout son sens : sa bande passante écrase celle d’un iGPU, et les tokens fusent. Mon conseil rapport prix / mémoire : la GeForce RTX 5060 Ti 16 Go : 16 Go de VRAM à un tarif raisonnable, c’est le sweet spot pour faire tourner de bons modèles vite sans exploser le budget.
Les ports à vérifier avant d’acheter
Avant de cliquer « commander », passez cette petite check-list :
Ethernet 2.5 GbE
Pas obligatoire, mais agréable : du réseau filaire rapide, c’est confortable pour transférer des modèles ou servir un projet. Le Wi-Fi dépanne, le câble rassure.
Assez d'USB
De quoi brancher un clavier, une clé d’install, un disque externe pour les sauvegardes. Vérifiez qu’il y a au moins deux ou trois ports.
RAM en SODIMM, évolutive
Le détail qui change tout : sur les modèles barebones, la RAM est en barrettes SODIMM que vous installez vous-même. Vous choisissez votre capacité et vous pouvez upgrader plus tard. Fuyez (pour ce projet) les machines où la RAM est soudée et figée, sauf les Mac, dont la mémoire unifiée se choisit à l’achat et ne se change plus.