DeepSeek-R1 ローカル運用:量子化ガイド(2026)
フロンティア級の推論モデルを API で回すと、プロンプト・エージェント・評価ループの反復でコストがすぐに積み上がります。DeepSeek-R1 などの大規模オープンウェイトをローカルで動かすことで、すでに持っている(または一度買う)ハードにコストを寄せられますが、その前提は量子化・VRAM/RAM の予算・「70B ローカル」が破綻して見える落とし穴の理解です。
DeepSeek-R1(MIT、Hugging Face で蒸留版・フルチェックポイント)はオープンな推論スタイルモデルを広めました。「满血版」/フルウェイトは多くの場合 FP16/BF16 原本(ディスク 140GB 超、推論だけで VRAM 80GB 超)を指します。一般ユーザーには 24〜48GB GPU や 64〜128GB 統合メモリ Mac では、Ollama や llama.cpp 経由の GGUF 量子化が現実的です。
本ガイドは、OOM や品質低下に驚きたくないAI 研究者・オープンモデル愛好家・データサイエンティスト向けです。ブログの Understand Anything(リポジトリ可視化)や OpenClaw(マルチエージェント)と併読できますが、クラウドホストは不要です。
はじめに
ローカル推論を始める前に、用語とハードの現実を揃えます。
「ローカル・フルウェイト」の意味
| 用語 | 典型的な意味 | ディスク目安 | 向いている人 |
|---|---|---|---|
| FP16/BF16 フル | 非量子化ウェイト | 〜140GB(70B 級) | 2× A100 80GB、H100 クラスタ |
| AWQ / GPTQ 4-bit | GPU 向け量子化 | 〜35–45GB | Linux + CUDA、vLLM 等 |
| GGUF Q8_0 | 高品質 CPU/GPU ハイブリッド | 〜70GB | 64GB+ RAM ワークステーション |
| GGUF Q4_K_M | 品質とサイズのバランス | 〜40–43GB | 24GB VRAM で 70B 級の定番 |
| 蒸留 R1(7B–32B) | 小さい学生モデル | 4–20GB | ノート PC、Mac mini 24GB+ |
公式:DeepSeek-R1 on Hugging Face。ミラー前にライセンスと地域の輸出規制を確認してください。
ハードウェアマトリクス:70B はローカルで動くか
量子化を選ぶ前の一次フィルタです。数値は 70B 級の目安で、ビルドにより変わります。
| 構成 | 統合 RAM / VRAM | 現実的な 70B 目標 | メモ |
|---|---|---|---|
| Mac mini M4 16GB | 16GB | 7B–8B Q4 のみ | 32B+ でスワップ地獄 |
| Mac mini M4 24GB | 24GB | 14B–32B Q4;70B は不可 | ≤32B は MLX が得意 |
| Mac Studio M2 Ultra 192GB | 192GB | 70B Q4_K_M CPU/GPU | tok/s は遅いが動く |
| RTX 4090 24GB | 24GB | 70B Q4_K_M(部分 GPU オフロード) | llama.cpp のレイヤー分割・短いコンテキスト |
| RTX 3090 24GB ×2 | 48GB | 70B Q4 に余裕 | 一部スタックでテンソル並列 |
| 128GB DDR5 + 24GB GPU | 152GB 実効 | 70B Q8 または高速 Q4 | プロシューマー向け好構成 |
経験則: GGUF ファイルサイズ ≈ 実行時のウェイトメモリ+ KV キャッシュ。32k コンテキストの 70B Q4 だけで数 GB 増え、隠れ OOM の第一位です。
Apple Silicon では MLX も選択肢です。R1 派生の対応はモデルごとに要確認です。長時間の負荷では Mac mini のサーマルで tok/s が落ちることがあるため、外気冷や夜間バッチも検討してください。
量子化形式:意思決定マトリクス
| 形式 | 品質(一般) | サイズ | 向くランタイム | 落とし穴 |
|---|---|---|---|---|
| Q4_K_M | 既定の良バランス | 〜40GB @ 70B | Ollama、llama.cpp | 長コンテキストの重い数学に弱い |
| Q5_K_M | より繊細 | 〜45GB | 同上 | コンテキスト込みで 24GB VRAM に収まらないことも |
| Q8_0 | FP16 に近い感触 | 〜70GB | 64GB+ RAM | 24GB GPU では遅い |
| Q2_K | 攻撃的 | 〜25GB | 「動いた!」投稿向け | 推論崩壊・反復 |
| AWQ 4-bit | NVIDIA で強い | 〜35GB | vLLM、TGI | Ollama 非ネイティブ・CUDA 中心 |
| IQ(IQ4_XS 等) | 実験的 | より小さい | 新しめの llama.cpp | バージョン間で不安定 |
- 24GB GPU または Mac 24GB: まず DeepSeek-R1-Distill-Qwen-32B または Llama 3.3 70B Q4_K_M、コンテキストは 8k から(初日 128k は避ける)。
- 48GB+ VRAM: 70B Q4_K_M または Q5_K_M で 16k–32k を試す。
- 128GB+ 統合メモリ: Q8_0 や部分 FP16 を試してから「满血」を名乗る。
手順:Ollama ローカル・ランブック
ステップ 1 — ディスクと RAM を確認
df -h ~、macOS は sysctl hw.memsize。pull と一時ファイル用にモデルサイズの 1.2 倍を空けます。
ステップ 2 — Ollama をインストール
公式ダウンロード後、ollama --version を確認します。
ステップ 3 — 現実的な R1 系タグを pull
ollama pull deepseek-r1:32b または ollama pull deepseek-r1:70b。Ollama ライブラリでタグ名は都度確認。70b は上記マトリクスのハードが前提です。
ステップ 4 — 低コンテキストでスモークテスト
ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."
ステップ 5 — コンテキストとスレッド上限
OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b。Mac では初回ロード時にアクティビティモニタのメモリを見ます。
ステップ 6 — tok/s を計測
ollama run deepseek-r1:32b --verbose。CPU のみ 70B で <5 tok/s なら対話は蒸留、70B はバッチ向けです。
ステップ 7(任意)— llama.cpp でオフロード調整
./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192。-ngl は GPU レイヤー数。OOM したら 5 層戻して安定値を記録します。
手順:Hugging Face + 手動 GGUF(上級)
- deepseek-ai/DeepSeek-R1 からカードを取得。
- 信頼できるコミュニティ量子化か
convert_hf_to_gguf.pyで変換。 - SHA・ファイルサイズを検証(破損 pull は「意味不明な出力」の原因)。
llama-cliで-cと-bを明示。
禁止: 別フォークのトークナイザ語彙の混在。推論テンプレート(思考ブロック)は Modelfile のチャットテンプレートと一致させます。
6 つの性能・品質の落とし穴
落とし穴 1 — 16GB で「满血」を追う
症状: フリーズ、スワップ 100%、Ollama が kill される。
対処: deepseek-r1:7b / 8b 蒸留、または 14B 級 Q4。
落とし穴 2 — 初日から最大コンテキスト
症状: 長文貼り付け後 OOM、「指示を忘れた」。
対処: OLLAMA_NUM_CTX=8192(24GB なら 4096)。安定後にだけ増やす。
落とし穴 3 — 推論ベンチで Q2_K
症状: CoT ループ、算術ミス、自信あるハルシネーション。
対処: R1 推論は最低 Q4_K_M。ゴールドプロンプトで Q8 と並べて比較。
落とし穴 4 — MoE と dense ラベルの無視
症状: 「70B」がアクティブパラメータのみ — VRAM は依然巨大。
対処: モデルカードの total / active を読む。
落とし穴 5 — Mac mini のサーマル・電力制限
症状: 10 分後に tok/s が半減。
対処: 冷却強化、OLLAMA_MAX_LOADED_MODELS=1、昼は 32B 蒸留、夜に 70B バッチ。
落とし穴 6 — 古い Ollama / llama.cpp
症状: unknown tensor type やゴミ出力。
対処: ollama pull --latest または llama.cpp を main から再ビルド。安定版はチーム文書にピン留め。
コストの整理:ローカル vs API(誇張なし)
| 方式 | 初期 | 継続 | 向く用途 |
|---|---|---|---|
| API(Claude/GPT/DeepSeek API) | ハード $0 | $/1M トークン | 低ボリューム・最新モデル |
| ローカル 32B Q4 | 手持ち GPU/Mac | 電気代 | プライバシー・高反復 |
| ローカル 70B Q4 | $2k–$8k 級 | 電力・時間 | オフライン評価・ラベリング |
| クラウド GPU 時間課金 | $0 | $/時間 | 資本支出なしのスパイク |
ローカルは無料ではありません。月数千万トークン級の API 利用なら中古 4090 + 128GB RAM が 6–12 ヶ月で回収しうる、というオーダーの話です(投資助言ではありません)。
任意:ビルド専用のリモート Mac
カスタム量子化や評価ハーネスだけ常時オン Mac で回し、日常チャットはノート PC、という運用もあります。Ollama 必須ではありません。ヘッドレス接続の基礎は Mac mini M4 SSH ガイド を参照してください(レンタル宣伝はしません)。
FAQ
まとめ
2026 年に DeepSeek-R1 フルウェイトをローカルで動かすとは、多くの場合賢い量子化であり、ノート上の FP16 ではありません。24GB の限界を正直に見たハードマトリクスから始め、Q4_K_M または 32B 蒸留を先に、コンテキストを抑え、上記 6 落とし穴を避けてください。
公式:DeepSeek-R1 GitHub · Ollama · llama.cpp