DeepSeek-R1 en local : guide quantification (2026)
Les API de modèles de raisonnement frontier coûtent vite cher quand vous itérez sur prompts, agents ou boucles d'évaluation. Faire tourner DeepSeek-R1 et d'autres grands poids ouverts en local déplace le coût vers le matériel que vous possédez déjà — à condition de maîtriser la quantification, les budgets VRAM/RAM et les pièges qui font « casser » un setup « 70B local ».
DeepSeek-R1 (MIT, checkpoints distillés et complets sur Hugging Face) a popularisé des modèles ouverts de style raisonnement. « 满血版 » / poids complets désigne souvent le checkpoint FP16/BF16 d'origine — 140 Go+ disque et 80 Go+ VRAM pour l'inférence sans compression agressive. Pour la plupart des passionnés, le GGUF quantifié via Ollama ou llama.cpp est la voie réaliste sur GPU 24–48 Go ou Mac 64–128 Go mémoire unifiée.
Ce guide s'adresse aux chercheurs IA, hobbyistes open weights et data scientists qui veulent l'inférence locale sans OOM surprise. Il complète Understand Anything et OpenClaw — sans exiger d'hébergeur cloud.
Introduction
Avant de lancer, alignez vocabulaire et réalité matérielle.
Ce que signifie « poids complets en local »
| Terme | Sens typique | Disque | Pour qui |
|---|---|---|---|
| FP16/BF16 complet | Poids non quantifiés | ~140 Go (classe 70B) | 2× A100 80 Go, clusters H100 |
| AWQ / GPTQ 4-bit | Quants GPU | ~35–45 Go | Linux + CUDA, vLLM |
| GGUF Q8_0 | Hybride CPU/GPU HQ | ~70 Go | stations 64 Go+ RAM |
| GGUF Q4_K_M | Équilibre qualité/taille | ~40–43 Go | 24 Go VRAM sweet spot 70B |
| R1 distillé (7B–32B) | Modèles étudiants | 4–20 Go | portables, Mac mini 24 Go+ |
Poids officiels : DeepSeek-R1 sur Hugging Face. Vérifiez licence et règles d'export avant miroir.
Matrice matériel : 70B en local ?
Filtre initial avant de choisir un quant. Chiffres approximatifs classe 70B.
| Setup | RAM unifiée / VRAM | Cible 70B réaliste | Notes |
|---|---|---|---|
| Mac mini M4 16 Go | 16 Go | 7B–8B Q4 seulement | swap sur 32B+ |
| Mac mini M4 24 Go | 24 Go | 14B–32B Q4 ; 70B non | MLX bien pour ≤32B |
| Mac Studio M2 Ultra 192 Go | 192 Go | 70B Q4_K_M CPU/GPU | tok/s lents mais tourne |
| RTX 4090 24 Go | 24 Go | 70B Q4_K_M (offload partiel) | split couches llama.cpp |
| RTX 3090 24 Go ×2 | 48 Go | 70B Q4 plus de marge | TP sur certaines stacks |
| 128 Go DDR5 + GPU 24 Go | 152 Go effectifs | 70B Q8 ou Q4 rapide | combo « prosumer » |
Règle : taille GGUF ≈ mémoire poids à l'exécution + cache KV. Contexte 32k sur 70B Q4 ajoute plusieurs Go — OOM caché n°1.
Sur Apple Silicon, MLX est une alternative ; vérifiez le support par variante R1. Charge prolongée : le Mac mini peut throttler — prévoir refroidissement ou batch nocturne.
Formats de quantification
| Format | Qualité | Taille | Runtime | Piège |
|---|---|---|---|---|
| Q4_K_M | Bon défaut | ~40 Go @ 70B | Ollama, llama.cpp | Math long contexte |
| Q5_K_M | Plus de nuance | ~45 Go | Idem | Peut dépasser 24 Go VRAM |
| Q8_0 | Proche FP16 | ~70 Go | 64 Go+ RAM | Lent sur GPU 24 Go |
| Q2_K | Agressif | ~25 Go | tweets « ça tourne » | Raisonnement effondré |
| AWQ 4-bit | Fort sur NVIDIA | ~35 Go | vLLM, TGI | Pas natif Ollama |
| IQ (IQ4_XS) | Expérimental | Plus petit | llama.cpp récent | Instable selon versions |
- 24 Go GPU ou Mac 24 Go : commencer DeepSeek-R1-Distill-Qwen-32B ou Llama 3.3 70B Q4_K_M, contexte 8k.
- 48 Go+ VRAM : 70B Q4/Q5, tests 16k–32k.
- 128 Go+ unifié : Q8_0 ou couches FP16 partielles avant « full blood ».
Runbook Ollama (7 étapes)
Étape 1 — Disque et RAM
df -h ~, macOS sysctl hw.memsize. Réserver 1,2× la taille du modèle.
Étape 2 — Installer Ollama
Téléchargement, puis ollama --version.
Étape 3 — Pull tag R1 réaliste
ollama pull deepseek-r1:32b ou deepseek-r1:70b. Voir bibliothèque Ollama.
Étape 4 — Smoke test faible contexte
ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."
Étape 5 — Limites contexte
OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b. Sur Mac, surveiller la mémoire au premier chargement.
Étape 6 — Benchmark tok/s
ollama run deepseek-r1:32b --verbose. Si <5 tok/s en CPU seul sur 70B, distillé pour l'interactif.
Étape 7 (opt.) — llama.cpp offload
./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192. Reculer de 5 couches après OOM.
Hugging Face + GGUF manuel
- Carte DeepSeek-R1.
- Quant communautaire de confiance ou
convert_hf_to_gguf.py. - Vérifier SHA / taille.
llama-cliavec-cet-b.
Ne jamais mélanger le vocabulaire tokenizer d'un autre fork ; le template de chat doit correspondre.
Six pièges performance et qualité
Piège 1 — « 满血 » sur 16 Go RAM
Symptôme : gel, swap 100 %. Fix : distill 7b/8b ou Q4 14B.
Piège 2 — Contexte max jour 1
Symptôme : OOM après long collage. Fix : OLLAMA_NUM_CTX=8192 (4096 sur 24 Go).
Piège 3 — Q2_K pour benchmarks raisonnement
Symptôme : boucles CoT, arithmétique fausse. Fix : minimum Q4_K_M, comparer Q8 sur prompts or.
Piège 4 — Ignorer MoE vs dense
Symptôme : tag « 70B » = params actifs — VRAM reste énorme. Fix : lire total vs actifs sur la fiche modèle.
Piège 5 — Throttle thermique Mac mini
Symptôme : tok/s −50 % après 10 min. Fix : refroidissement, OLLAMA_MAX_LOADED_MODELS=1, 32B de jour, 70B la nuit.
Piège 6 — Ollama / llama.cpp obsolètes
Symptôme : unknown tensor type. Fix : ollama pull --latest ou rebuild main.
Coût : local vs API
| Approche | Initial | Récurrent | Idéal pour |
|---|---|---|---|
| API | 0 € matériel | €/1M tokens | faible volume |
| Local 32B Q4 | GPU/Mac possédé | électricité | privacy, itérations |
| Local 70B Q4 | 2–8 k€ rig | énergie + temps | eval offline |
| GPU cloud horaire | 0 | €/heure | pics sans CAPEX |
Le local n'est pas gratuit — ordre de grandeur : au-delà de ~50M tokens/mois en API frontier, un 4090 d'occasion + 128 Go RAM peut se rentabiliser en 6–12 mois (pas un conseil financier).
Option : Mac distant pour builds
Quants custom ou harness d'eval sur Mac always-on, chat sur portable — choix ops. Bases SSH : guide accès SSH Mac mini M4 (sans pitch location).
FAQ
Conclusion
En 2026, DeepSeek-R1 poids complets en local signifie surtout bonne quantification, pas du FP16 sur portable. Matrice matériel honnête sur les limites 24 Go, Q4_K_M ou distill 32B, plafonner le contexte, éviter les six pièges.
Exploitation de l'inférence locale
SSH Mac headless et bonnes pratiques always-on sont résumés dans l'aide.