Étape 03 · Le projet Facile · 12 min

🧱Choisir le matériel

Quel mini-PC, combien de RAM, quel SSD ? Le guide d'achat sans jargon pour une machine qui fait tourner un agent de code et des modèles d'IA en local.

Avant d’acheter quoi que ce soit, une bonne nouvelle : vous n’avez pas besoin d’une machine de guerre. Un agent de code et des modèles d’IA compacts, ça tourne très bien sur un petit PC à quelques centaines d’euros. Mais il y a un critère qui compte plus que tous les autres, et ce n’est pas celui qu’on regarde d’habitude. On démêle ça ensemble, sans jargon.

Les trois choses qui comptent vraiment (dans l’ordre)

Oubliez le marketing. Pour faire tourner de l’IA en local, voici ce qui pèse, classé du plus important au moins important.

1. La RAM, de loin le facteur n°1

C’est la décision. Un modèle d’IA, pour répondre, doit tenir en entier dans la mémoire. Pas assez de RAM, et le modèle ne se charge tout simplement pas, ou rame atrocement. Voici les paliers concrets :

16 Go : le minimum vital. Suffisant pour faire tourner l’agent de code (qui, lui, peut taper sur un modèle dans le cloud), mais trop juste pour un vrai modèle d’IA en local. À éviter si vous pouvez.
32 Go : confortable. Vous faites tourner un modèle de 30 milliards de paramètres en version quantisée (compressée), ce qui couvre déjà énormément de besoins. Bon point d’entrée.
64 Go : le sweet spot. C’est ici que l’IA locale devient vraiment sérieuse : vous chargez de gros modèles, vous gardez de la marge pour le système et l’agent en même temps. Si vous hésitez entre 32 et 64, prenez 64.
96 Go et plus : le luxe. Pour les modèles les plus lourds ou faire tourner plusieurs choses en parallèle. Sympa, mais pas nécessaire pour démarrer.

2. La bande passante mémoire, la vitesse cachée

Moins connue, mais décisive pour le confort. La bande passante mémoire, c’est la vitesse à laquelle le processeur lit la RAM. Or un modèle d’IA doit relire toute sa mémoire pour produire chaque mot. Plus la bande passante est élevée, plus les mots sortent vite (on parle de tokens par seconde). Une machine avec de la mémoire rapide « tape » son texte sous vos yeux ; une machine lente le distille mot par mot. Gardez l’œil sur ce point, surtout sur les Mac (voir plus bas), où la mémoire unifiée est particulièrement rapide.

3. Le SSD NVMe, rapide et spacieux

Les modèles sont gros : comptez ~20 Go par modèle, et vous allez vite en collectionner plusieurs. Visez un SSD NVMe de 1 To minimum. Le NVMe (et pas le vieux SSD SATA) parce que charger 20 Go en mémoire au lancement, ça doit être quasi instantané, pas une pause café.

Et le processeur, alors ?

Il compte moins que vous ne croyez pour cet usage. N’importe quel AMD Ryzen ou Intel Core des deux ou trois dernières générations fait largement l’affaire. Ne payez pas une rallonge pour le CPU le plus rapide, mettez cet argent dans la RAM. C’est elle qui décide ce que vous pourrez faire.

Quelle forme de machine ?

Plusieurs familles, toutes valables. On reste neutre, choisissez selon votre budget et vos envies.

Mini-PC barebones ou prêts à l’emploi : Minisforum, Beelink, GMKtec, ASUS NUC. Le choix le plus souple : compacts, sobres, et sur les versions barebones vous ajoutez vous-même la RAM et le SSD, donc vous pouvez pousser la mémoire au maximum pour pas cher.
Apple Mac mini (puces M) : une excellente alternative, et même un secret bien gardé pour l’IA locale. Sa mémoire unifiée est rapide et partagée entre CPU et GPU : un Mac mini 64 Go fait tourner des modèles qu’une carte graphique dédiée ne peut pas charger. Petit bémol : il tourne sous macOS, pas Linux.

iGPU ou carte graphique dédiée ?

La grande question, et la réponse va peut-être vous surprendre. Pour cet usage :

Une carte graphique NVIDIA dédiée accélère beaucoup la vitesse des modèles. Mais elle est plafonnée par sa VRAM (24 à 32 Go en pratique), elle ajoute du bruit, de la conso et du coût, et elle rentre rarement dans un boîtier mini.
La plupart des gens s’en sortent très bien avec un mini-PC à processeur/iGPU + beaucoup de RAM, en faisant tourner des modèles MoE compacts (des modèles malins qui n’activent qu’une partie d’eux-mêmes à chaque réponse, voir Choisir son modèle local).

Le compromis, en clair : le GPU dédié vous donne de la vitesse, mais vous limite en taille de modèle et vous ajoute du bruit. La RAM abondante vous donne des gros modèles, plus lents mais silencieux. Pour démarrer, l’approche « beaucoup de RAM, pas de GPU » est la plus simple et la plus sereine.

Sobre et silencieux : parfait pour le 24 h/24

On le répète parce que ça compte : ces machines consomment 10 à 30 W au repos et sont quasi silencieuses. C’est exactement ce qu’il vous faut pour une boîte allumée en permanence dans un coin du bureau. Un GPU dédié casse un peu cette tranquillité, à vous de voir si la vitesse en vaut la peine.

Pas envie d’acheter ? L’option VPS

Soyons honnêtes : vous pouvez aussi ne rien acheter et louer un serveur dans le cloud, un VPS (serveur privé virtuel). C’est une machine virtuelle chez un hébergeur (Hetzner, OVH, Scaleway, DigitalOcean…), facturée au mois, déjà sous Linux et joignable de partout. Tout le reste du parcours (agent, Docker, réseau, déploiement) s’applique pareil.

C’est une voie que j’ai moins testée que le mini-PC maison, alors je la donne pour ce qu’elle est, avec ses contreparties :

Pour : zéro matériel à acheter, rien à brancher, une IP publique et de la bande passante d’emblée, et on monte ou descend la puissance en quelques clics.
Contre : c’est un abonnement (de quelques euros à quelques dizaines par mois, qui tournent même quand vous dormez), vos données vivent chez quelqu’un d’autre, et surtout le gros LLM local n’est pas au rendez-vous : les VPS abordables n’ont pas de GPU, donc on retombe sur l’approche hybride (orchestrateur dans le cloud, le VPS sert vos projets et, au mieux, de petits modèles). Les offres avec GPU existent, mais le prix grimpe vite.

Mon avis : pour apprendre et héberger des projets sans rien acheter, un petit VPS est un terrain de jeu très correct. Pour faire tourner de vrais modèles en local, le cœur de ce site, rien ne remplace une machine à vous, avec sa RAM et, si vous le voulez, son GPU. À vous de voir où vous placez le curseur.

Le tableau de recommandation

Trois profils, selon votre budget et votre ambition.

Profil	RAM	Pour quoi faire	Repère
Budget découverte	32 Go	Agent de code + un petit modèle local quantisé	Mini-PC barebones d’entrée de gamme
Confort (recommandé)	64 Go	Le sweet spot : gros modèles locaux + agent, de la marge partout	Minisforum / Beelink 64 Go, ou Mac mini 32 Go
Costaud	96 Go+	Modèles les plus lourds, plusieurs charges en parallèle	Mac mini 64 Go, ou mini-PC + GPU dédié si vous voulez la vitesse

Si vous ne deviez retenir qu’une ligne : visez « Confort », 64 Go. C’est le meilleur rapport plaisir/prix, et vous ne vous sentirez pas à l’étroit dans six mois.

Les machines que je conseille (et que j’ai testées)

Assez de généralités, voici des modèles concrets, dont plusieurs passés au banc d’essai. Quatre familles, selon ce que vous voulez faire.

Le mini-PC polyvalent, Minisforum M2

Mon point de départ recommandé : compact, sobre, silencieux, et taillé pour tourner 24 h/24 dans un coin. Vous y faites tourner l’agent et un modèle local quantisé sans broncher. C’est l’équilibre encombrement / perf / prix le plus sain pour démarrer. → Mon test du Minisforum M2 sur Frandroid

La mémoire unifiée, Mac mini M4, Mac Studio & Framework Desktop

Si l’IA locale est votre vrai sujet, la mémoire unifiée est une arme. CPU et GPU partagent une seule mémoire, très rapide, ce qui permet de charger de gros modèles qu’aucune carte graphique grand public ne tient.

Mac mini (M4, M5) / Mac Studio : le meilleur du genre côté Apple : mémoire unifiée ultra-rapide, machine minuscule et silencieuse. Les dernières puces M5 gagnent encore en vitesse, et le Mac Studio monte très haut en mémoire pour les modèles les plus lourds. (Rappel : macOS, pas Linux, voir l’encadré plus haut.)
Framework Desktop : mon coup de cœur côté mémoire unifiée sous x86 : il embarque une puce AMD à mémoire unifiée généreuse et très rapide, réparable et ouvert comme tout ce que fait Framework. Excellent hôte pour des modèles locaux costauds, et il tourne sous Linux. → Mon test du Framework Desktop sur Frandroid

Pourquoi la mémoire unifiée change la donne (et comment la repérer)

C’est le point technique le plus important de toute cette fiche, alors prenons le temps. Sur un PC classique, il y a deux mémoires séparées : la RAM du processeur, et la VRAM de la carte graphique. Le GPU ne peut utiliser que sa VRAM, souvent 8, 12 ou 16 Go, et pas un octet de plus. C’est un mur.

La mémoire unifiée, elle, casse ce mur : CPU et GPU partagent un seul et même pool de mémoire, très rapide. Vous pouvez donc allouer une grosse part de cette mémoire au GPU quand un modèle d’IA en a besoin. Concrètement : une machine à mémoire unifiée de 64 Go peut présenter, disons, 48 Go « comme de la VRAM » à un modèle. Aucune carte graphique grand public ne sait faire ça. C’est ce qui permet à un petit Mac mini ou à un Framework Desktop de charger des modèles qu’une RTX à 1 500 € ne peut tout simplement pas tenir.

Reconnaître les plateformes à mémoire unifiée

Toutes les puces ne se valent pas sur ce terrain. Comment les différencier :

Apple Silicon (puces M : M4, et les tout récents M5) : la référence. Mémoire unifiée très rapide, allocation au GPU dynamique et automatique : vous n’avez rien à régler, macOS donne au modèle ce qu’il lui faut. Les M4/M5 Pro et Max poussent la bande passante encore plus haut, et un Mac Studio bien doté avale les modèles les plus lourds. La voie la plus simple, et souvent la plus rapide.
AMD Ryzen AI Max (nom de code « Strix Halo », dans le Framework Desktop) : l’équivalent côté x86/Linux, et c’est costaud : très large bus mémoire, et vous choisissez dans le BIOS la part allouée au GPU (la « Variable Graphics Memory », souvent jusqu’à 96 Go sur les modèles bien dotés). Le meilleur des deux mondes : la souplesse de Linux et la mémoire unifiée. Mon préféré pour un atelier IA local sérieux sous Linux.
Intel Core Ultra (Lunar Lake, et la nouvelle génération « Panther Lake ») : mémoire partagée également, avec un GPU intégré qui progresse vite côté IA. Panther Lake relève nettement le niveau par rapport à Lunar Lake. L’allocation au GPU reste en général un cran moins généreuse et moins flexible que chez Apple ou AMD Strix Halo, mais l’écart se resserre.
Le critère qui tranche. Peu importe la marque, regardez deux chiffres : la quantité de mémoire totale, et la part que la plateforme sait présenter au GPU. Apple le fait dynamiquement, Strix Halo via le BIOS, Intel plus modestement. Plus ces deux nombres sont élevés, plus vous chargez de gros modèles.
PC classique + carte graphique dédiée : pas de mémoire unifiée : le GPU est limité à sa VRAM fixe. Très rapide, mais plafonné (voir juste en dessous).

La question à poser avant d’acheter : « quelle quantité de mémoire cette machine peut-elle présenter au GPU pour l’IA ? » Sur une plateforme unifiée, la réponse se compte en dizaines de Go. Sur un PC + GPU classique, elle est figée par la VRAM de la carte.

La grosse bande passante, un PC avec carte graphique dédiée

Vous visez la vitesse maximale, ou vous faites aussi du créatif (génération d’images, vidéo, entraînement) ? Là, une vraie carte graphique avec sa mémoire dédiée prend tout son sens : sa bande passante écrase celle d’un iGPU, et les tokens fusent. Mon conseil rapport prix / mémoire : la GeForce RTX 5060 Ti 16 Go : 16 Go de VRAM à un tarif raisonnable, c’est le sweet spot pour faire tourner de bons modèles vite sans exploser le budget.

CUDA ou ROCm ? Le logiciel derrière le GPU

Une carte graphique ne sert à l’IA que si la couche logicielle suit. Deux mondes :

CUDA (NVIDIA) : la plateforme de calcul de NVIDIA. C’est le standard de fait : quasiment tout l’écosystème IA est pensé pour CUDA d’abord, donc ça marche, tout de suite, sans bidouille. Le chemin le plus tranquille. C’est pour ça que je conseille une RTX 5060 Ti 16 Go côté GPU dédié : large support, et le meilleur ratio prix / VRAM du moment.
ROCm (AMD) : l’équivalent ouvert d’AMD. Plus libre, en gros progrès, et imbattable sur le prix par Go de VRAM côté Radeon. Mais le support reste un cran plus rugueux : selon la carte et l’outil, il faut parfois mettre les mains dedans.

En clair : vous voulez que ça marche sans y penser → NVIDIA / CUDA. Vous êtes à l’aise pour bricoler et vous chassez les Go de VRAM au meilleur prix → AMD / ROCm.

Les ports à vérifier avant d’acheter

Avant de cliquer « commander », passez cette petite check-list :

Ethernet 2.5 GbE

Pas obligatoire, mais agréable : du réseau filaire rapide, c’est confortable pour transférer des modèles ou servir un projet. Le Wi-Fi dépanne, le câble rassure.

Assez d'USB

De quoi brancher un clavier, une clé d’install, un disque externe pour les sauvegardes. Vérifiez qu’il y a au moins deux ou trois ports.

RAM en SODIMM, évolutive

Le détail qui change tout : sur les modèles barebones, la RAM est en barrettes SODIMM que vous installez vous-même. Vous choisissez votre capacité et vous pouvez upgrader plus tard. Fuyez (pour ce projet) les machines où la RAM est soudée et figée, sauf les Mac, dont la mémoire unifiée se choisit à l’achat et ne se change plus.