Quel matériel minimal utilisable ?

16 Go RAM : 7B–8B Q4. 24 Go : 14B–32B Q4 confortablement. Classe 70B : plancher pratique 48 Go+ VRAM ou 128 Go RAM.

Ollama ou llama.cpp en premier ?

Ollama pour la voie rapide (pull + run). llama.cpp pour offload fin, quants IQ ou pipelines C++/Python.

La quantification casse-t-elle le raisonnement ?

Parfois. R1 émet des blocs chain-of-thought — Q2 ou mauvais merges les corrompent. Comparez Q4_K_M vs Q8 sur vos prompts d'éval.

Infrastructure IA 2026-05-29

DeepSeek-R1 en local : guide quantification (2026)

Q: DeepSeek-R1 est-il gratuit en local ?

Les poids sont open source (MIT, vérifier le dépôt). Vous payez électricité, matériel et temps — pas de tokens DeepSeek sans leur API.

Q: Même guide pour Llama 3.3 70B ?

Oui — règles VRAM et pièges GGUF identiques. Changez le nom du modèle, gardez la même discipline de quant et de contexte.

Q: Éviter le mauvais fork ?

Dépôts officiels Hugging Face (deepseek-ai, meta-llama) ou pages Ollama. Vérifiez téléchargements et dates ; évitez les repacks douteux.

Équipe ZecCloud· 29 mai 2026· ~12 min

Guide quantification DeepSeek-R1 local : 70B open weights sur matériel grand public 2026

Les API de modèles de raisonnement frontier coûtent vite cher quand vous itérez sur prompts, agents ou boucles d'évaluation. Faire tourner DeepSeek-R1 et d'autres grands poids ouverts en local déplace le coût vers le matériel que vous possédez déjà — à condition de maîtriser la quantification, les budgets VRAM/RAM et les pièges qui font « casser » un setup « 70B local ».

DeepSeek-R1 (MIT, checkpoints distillés et complets sur Hugging Face) a popularisé des modèles ouverts de style raisonnement. « 满血版 » / poids complets désigne souvent le checkpoint FP16/BF16 d'origine — 140 Go+ disque et 80 Go+ VRAM pour l'inférence sans compression agressive. Pour la plupart des passionnés, le GGUF quantifié via Ollama ou llama.cpp est la voie réaliste sur GPU 24–48 Go ou Mac 64–128 Go mémoire unifiée.

Ce guide s'adresse aux chercheurs IA, hobbyistes open weights et data scientists qui veulent l'inférence locale sans OOM surprise. Il complète Understand Anything et OpenClaw — sans exiger d'hébergeur cloud.

Introduction

Avant de lancer, alignez vocabulaire et réalité matérielle.

Ce que signifie « poids complets en local »

Terme	Sens typique	Disque	Pour qui
FP16/BF16 complet	Poids non quantifiés	~140 Go (classe 70B)	2× A100 80 Go, clusters H100
AWQ / GPTQ 4-bit	Quants GPU	~35–45 Go	Linux + CUDA, vLLM
GGUF Q8_0	Hybride CPU/GPU HQ	~70 Go	stations 64 Go+ RAM
GGUF Q4_K_M	Équilibre qualité/taille	~40–43 Go	24 Go VRAM sweet spot 70B
R1 distillé (7B–32B)	Modèles étudiants	4–20 Go	portables, Mac mini 24 Go+

Définition :La quantification échange précision numérique contre mémoire — vous ne téléchargez pas un « modèle plus petit », vous stockez la même architecture avec moins de bits par poids ; la perte dépend de la méthode (Q4_K_M vs Q2_K) et de la tâche.

Poids officiels : DeepSeek-R1 sur Hugging Face. Vérifiez licence et règles d'export avant miroir.

Matrice matériel : 70B en local ?

Filtre initial avant de choisir un quant. Chiffres approximatifs classe 70B.

Setup	RAM unifiée / VRAM	Cible 70B réaliste	Notes
Mac mini M4 16 Go	16 Go	7B–8B Q4 seulement	swap sur 32B+
Mac mini M4 24 Go	24 Go	14B–32B Q4 ; 70B non	MLX bien pour ≤32B
Mac Studio M2 Ultra 192 Go	192 Go	70B Q4_K_M CPU/GPU	tok/s lents mais tourne
RTX 4090 24 Go	24 Go	70B Q4_K_M (offload partiel)	split couches llama.cpp
RTX 3090 24 Go ×2	48 Go	70B Q4 plus de marge	TP sur certaines stacks
128 Go DDR5 + GPU 24 Go	152 Go effectifs	70B Q8 ou Q4 rapide	combo « prosumer »

Règle : taille GGUF ≈ mémoire poids à l'exécution + cache KV. Contexte 32k sur 70B Q4 ajoute plusieurs Go — OOM caché n°1.

Sur Apple Silicon, MLX est une alternative ; vérifiez le support par variante R1. Charge prolongée : le Mac mini peut throttler — prévoir refroidissement ou batch nocturne.

Formats de quantification

Format	Qualité	Taille	Runtime	Piège
Q4_K_M	Bon défaut	~40 Go @ 70B	Ollama, llama.cpp	Math long contexte
Q5_K_M	Plus de nuance	~45 Go	Idem	Peut dépasser 24 Go VRAM
Q8_0	Proche FP16	~70 Go	64 Go+ RAM	Lent sur GPU 24 Go
Q2_K	Agressif	~25 Go	tweets « ça tourne »	Raisonnement effondré
AWQ 4-bit	Fort sur NVIDIA	~35 Go	vLLM, TGI	Pas natif Ollama
IQ (IQ4_XS)	Expérimental	Plus petit	llama.cpp récent	Instable selon versions

24 Go GPU ou Mac 24 Go : commencer DeepSeek-R1-Distill-Qwen-32B ou Llama 3.3 70B Q4_K_M, contexte 8k.
48 Go+ VRAM : 70B Q4/Q5, tests 16k–32k.
128 Go+ unifié : Q8_0 ou couches FP16 partielles avant « full blood ».

Runbook Ollama (7 étapes)

Étape 1 — Disque et RAM

df -h ~, macOS sysctl hw.memsize. Réserver 1,2× la taille du modèle.

Étape 2 — Installer Ollama

Téléchargement, puis ollama --version.

Étape 3 — Pull tag R1 réaliste

ollama pull deepseek-r1:32b ou deepseek-r1:70b. Voir bibliothèque Ollama.

Étape 4 — Smoke test faible contexte

ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."

Étape 5 — Limites contexte

OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b. Sur Mac, surveiller la mémoire au premier chargement.

Étape 6 — Benchmark tok/s

ollama run deepseek-r1:32b --verbose. Si <5 tok/s en CPU seul sur 70B, distillé pour l'interactif.

Étape 7 (opt.) — llama.cpp offload

./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192. Reculer de 5 couches après OOM.

Hugging Face + GGUF manuel

Carte DeepSeek-R1.
Quant communautaire de confiance ou convert_hf_to_gguf.py.
Vérifier SHA / taille.
llama-cli avec -c et -b.

Ne jamais mélanger le vocabulaire tokenizer d'un autre fork ; le template de chat doit correspondre.

Six pièges performance et qualité

Piège 1 — « 满血 » sur 16 Go RAM

Symptôme : gel, swap 100 %. Fix : distill 7b/8b ou Q4 14B.

Piège 2 — Contexte max jour 1

Symptôme : OOM après long collage. Fix : OLLAMA_NUM_CTX=8192 (4096 sur 24 Go).

Piège 3 — Q2_K pour benchmarks raisonnement

Symptôme : boucles CoT, arithmétique fausse. Fix : minimum Q4_K_M, comparer Q8 sur prompts or.

Piège 4 — Ignorer MoE vs dense

Symptôme : tag « 70B » = params actifs — VRAM reste énorme. Fix : lire total vs actifs sur la fiche modèle.

Piège 5 — Throttle thermique Mac mini

Symptôme : tok/s −50 % après 10 min. Fix : refroidissement, OLLAMA_MAX_LOADED_MODELS=1, 32B de jour, 70B la nuit.

Piège 6 — Ollama / llama.cpp obsolètes

Symptôme : unknown tensor type. Fix : ollama pull --latest ou rebuild main.

Coût : local vs API

Approche	Initial	Récurrent	Idéal pour
API	0 € matériel	€/1M tokens	faible volume
Local 32B Q4	GPU/Mac possédé	électricité	privacy, itérations
Local 70B Q4	2–8 k€ rig	énergie + temps	eval offline
GPU cloud horaire	0	€/heure	pics sans CAPEX

Le local n'est pas gratuit — ordre de grandeur : au-delà de ~50M tokens/mois en API frontier, un 4090 d'occasion + 128 Go RAM peut se rentabiliser en 6–12 mois (pas un conseil financier).

Option : Mac distant pour builds

Quants custom ou harness d'eval sur Mac always-on, chat sur portable — choix ops. Bases SSH : guide accès SSH Mac mini M4 (sans pitch location).

FAQ

DeepSeek-R1 est-il gratuit en local ?+

Poids open (MIT, vérifier le dépôt). Électricité, matériel, temps — pas de tokens DeepSeek sans API.

Matériel minimal utilisable ?+

16 Go : 7B–8B Q4. 24 Go : 14B–32B Q4. Classe 70B : 48 Go+ VRAM ou 128 Go RAM.

Ollama ou llama.cpp d'abord ?+

Ollama (pull+run). llama.cpp pour offload fin, IQ ou pipelines.

La quantification casse le raisonnement ?+

Parfois. Q2 ou mauvais merges corrompent le CoT. Comparez Q4_K_M vs Q8.

Même guide pour Llama 3.3 70B ?+

Oui — mêmes règles VRAM et pièges GGUF.

Éviter le mauvais fork ?+

Orgs officielles HF ou pages Ollama ; téléchargements et dates.

Conclusion

En 2026, DeepSeek-R1 poids complets en local signifie surtout bonne quantification, pas du FP16 sur portable. Matrice matériel honnête sur les limites 24 Go, Q4_K_M ou distill 32B, plafonner le contexte, éviter les six pièges.

Officiel : GitHub · Ollama · llama.cpp

Exploitation de l'inférence locale

SSH Mac headless et bonnes pratiques always-on sont résumés dans l'aide.

Aide