Infrastructure IA

DeepSeek-R1 en local : guide quantification (2026)

Guide quantification DeepSeek-R1 local : 70B open weights sur matériel grand public 2026

Les API de modèles de raisonnement frontier coûtent vite cher quand vous itérez sur prompts, agents ou boucles d'évaluation. Faire tourner DeepSeek-R1 et d'autres grands poids ouverts en local déplace le coût vers le matériel que vous possédez déjà — à condition de maîtriser la quantification, les budgets VRAM/RAM et les pièges qui font « casser » un setup « 70B local ».

DeepSeek-R1 (MIT, checkpoints distillés et complets sur Hugging Face) a popularisé des modèles ouverts de style raisonnement. « 满血版 » / poids complets désigne souvent le checkpoint FP16/BF16 d'origine — 140 Go+ disque et 80 Go+ VRAM pour l'inférence sans compression agressive. Pour la plupart des passionnés, le GGUF quantifié via Ollama ou llama.cpp est la voie réaliste sur GPU 24–48 Go ou Mac 64–128 Go mémoire unifiée.

Ce guide s'adresse aux chercheurs IA, hobbyistes open weights et data scientists qui veulent l'inférence locale sans OOM surprise. Il complète Understand Anything et OpenClaw — sans exiger d'hébergeur cloud.

Introduction

Avant de lancer, alignez vocabulaire et réalité matérielle.

Ce que signifie « poids complets en local »

TermeSens typiqueDisquePour qui
FP16/BF16 completPoids non quantifiés~140 Go (classe 70B)2× A100 80 Go, clusters H100
AWQ / GPTQ 4-bitQuants GPU~35–45 GoLinux + CUDA, vLLM
GGUF Q8_0Hybride CPU/GPU HQ~70 Gostations 64 Go+ RAM
GGUF Q4_K_MÉquilibre qualité/taille~40–43 Go24 Go VRAM sweet spot 70B
R1 distillé (7B–32B)Modèles étudiants4–20 Goportables, Mac mini 24 Go+
Définition :La quantification échange précision numérique contre mémoire — vous ne téléchargez pas un « modèle plus petit », vous stockez la même architecture avec moins de bits par poids ; la perte dépend de la méthode (Q4_K_M vs Q2_K) et de la tâche.

Poids officiels : DeepSeek-R1 sur Hugging Face. Vérifiez licence et règles d'export avant miroir.

Matrice matériel : 70B en local ?

Filtre initial avant de choisir un quant. Chiffres approximatifs classe 70B.

SetupRAM unifiée / VRAMCible 70B réalisteNotes
Mac mini M4 16 Go16 Go7B–8B Q4 seulementswap sur 32B+
Mac mini M4 24 Go24 Go14B–32B Q4 ; 70B nonMLX bien pour ≤32B
Mac Studio M2 Ultra 192 Go192 Go70B Q4_K_M CPU/GPUtok/s lents mais tourne
RTX 4090 24 Go24 Go70B Q4_K_M (offload partiel)split couches llama.cpp
RTX 3090 24 Go ×248 Go70B Q4 plus de margeTP sur certaines stacks
128 Go DDR5 + GPU 24 Go152 Go effectifs70B Q8 ou Q4 rapidecombo « prosumer »

Règle : taille GGUF ≈ mémoire poids à l'exécution + cache KV. Contexte 32k sur 70B Q4 ajoute plusieurs Go — OOM caché n°1.

Sur Apple Silicon, MLX est une alternative ; vérifiez le support par variante R1. Charge prolongée : le Mac mini peut throttler — prévoir refroidissement ou batch nocturne.

Formats de quantification

FormatQualitéTailleRuntimePiège
Q4_K_MBon défaut~40 Go @ 70BOllama, llama.cppMath long contexte
Q5_K_MPlus de nuance~45 GoIdemPeut dépasser 24 Go VRAM
Q8_0Proche FP16~70 Go64 Go+ RAMLent sur GPU 24 Go
Q2_KAgressif~25 Gotweets « ça tourne »Raisonnement effondré
AWQ 4-bitFort sur NVIDIA~35 GovLLM, TGIPas natif Ollama
IQ (IQ4_XS)ExpérimentalPlus petitllama.cpp récentInstable selon versions
  • 24 Go GPU ou Mac 24 Go : commencer DeepSeek-R1-Distill-Qwen-32B ou Llama 3.3 70B Q4_K_M, contexte 8k.
  • 48 Go+ VRAM : 70B Q4/Q5, tests 16k–32k.
  • 128 Go+ unifié : Q8_0 ou couches FP16 partielles avant « full blood ».

Runbook Ollama (7 étapes)

Étape 1 — Disque et RAM

df -h ~, macOS sysctl hw.memsize. Réserver 1,2× la taille du modèle.

Étape 2 — Installer Ollama

Téléchargement, puis ollama --version.

Étape 3 — Pull tag R1 réaliste

ollama pull deepseek-r1:32b ou deepseek-r1:70b. Voir bibliothèque Ollama.

Étape 4 — Smoke test faible contexte

ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."

Étape 5 — Limites contexte

OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b. Sur Mac, surveiller la mémoire au premier chargement.

Étape 6 — Benchmark tok/s

ollama run deepseek-r1:32b --verbose. Si <5 tok/s en CPU seul sur 70B, distillé pour l'interactif.

Étape 7 (opt.) — llama.cpp offload

./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192. Reculer de 5 couches après OOM.

Hugging Face + GGUF manuel

  1. Carte DeepSeek-R1.
  2. Quant communautaire de confiance ou convert_hf_to_gguf.py.
  3. Vérifier SHA / taille.
  4. llama-cli avec -c et -b.

Ne jamais mélanger le vocabulaire tokenizer d'un autre fork ; le template de chat doit correspondre.

Six pièges performance et qualité

Piège 1 — « 满血 » sur 16 Go RAM

Symptôme : gel, swap 100 %. Fix : distill 7b/8b ou Q4 14B.

Piège 2 — Contexte max jour 1

Symptôme : OOM après long collage. Fix : OLLAMA_NUM_CTX=8192 (4096 sur 24 Go).

Piège 3 — Q2_K pour benchmarks raisonnement

Symptôme : boucles CoT, arithmétique fausse. Fix : minimum Q4_K_M, comparer Q8 sur prompts or.

Piège 4 — Ignorer MoE vs dense

Symptôme : tag « 70B » = params actifs — VRAM reste énorme. Fix : lire total vs actifs sur la fiche modèle.

Piège 5 — Throttle thermique Mac mini

Symptôme : tok/s −50 % après 10 min. Fix : refroidissement, OLLAMA_MAX_LOADED_MODELS=1, 32B de jour, 70B la nuit.

Piège 6 — Ollama / llama.cpp obsolètes

Symptôme : unknown tensor type. Fix : ollama pull --latest ou rebuild main.

Coût : local vs API

ApprocheInitialRécurrentIdéal pour
API0 € matériel€/1M tokensfaible volume
Local 32B Q4GPU/Mac possédéélectricitéprivacy, itérations
Local 70B Q42–8 k€ rigénergie + tempseval offline
GPU cloud horaire0€/heurepics sans CAPEX

Le local n'est pas gratuit — ordre de grandeur : au-delà de ~50M tokens/mois en API frontier, un 4090 d'occasion + 128 Go RAM peut se rentabiliser en 6–12 mois (pas un conseil financier).

Option : Mac distant pour builds

Quants custom ou harness d'eval sur Mac always-on, chat sur portable — choix ops. Bases SSH : guide accès SSH Mac mini M4 (sans pitch location).

FAQ

DeepSeek-R1 est-il gratuit en local ?+
Poids open (MIT, vérifier le dépôt). Électricité, matériel, temps — pas de tokens DeepSeek sans API.
Matériel minimal utilisable ?+
16 Go : 7B–8B Q4. 24 Go : 14B–32B Q4. Classe 70B : 48 Go+ VRAM ou 128 Go RAM.
Ollama ou llama.cpp d'abord ?+
Ollama (pull+run). llama.cpp pour offload fin, IQ ou pipelines.
La quantification casse le raisonnement ?+
Parfois. Q2 ou mauvais merges corrompent le CoT. Comparez Q4_K_M vs Q8.
Même guide pour Llama 3.3 70B ?+
Oui — mêmes règles VRAM et pièges GGUF.
Éviter le mauvais fork ?+
Orgs officielles HF ou pages Ollama ; téléchargements et dates.

Conclusion

En 2026, DeepSeek-R1 poids complets en local signifie surtout bonne quantification, pas du FP16 sur portable. Matrice matériel honnête sur les limites 24 Go, Q4_K_M ou distill 32B, plafonner le contexte, éviter les six pièges.

Officiel : GitHub · Ollama · llama.cpp

Exploitation de l'inférence locale

SSH Mac headless et bonnes pratiques always-on sont résumés dans l'aide.