AIインフラ

DeepSeek-R1 ローカル運用:量子化ガイド(2026)

DeepSeek-R1 ローカル量子化ガイド:70B オープンウェイトをコンシューマー向けハードで動かす 2026

フロンティア級の推論モデルを API で回すと、プロンプト・エージェント・評価ループの反復でコストがすぐに積み上がります。DeepSeek-R1 などの大規模オープンウェイトをローカルで動かすことで、すでに持っている(または一度買う)ハードにコストを寄せられますが、その前提は量子化VRAM/RAM の予算・「70B ローカル」が破綻して見える落とし穴の理解です。

DeepSeek-R1(MIT、Hugging Face で蒸留版・フルチェックポイント)はオープンな推論スタイルモデルを広めました。「满血版」/フルウェイトは多くの場合 FP16/BF16 原本(ディスク 140GB 超、推論だけで VRAM 80GB 超)を指します。一般ユーザーには 24〜48GB GPU64〜128GB 統合メモリ Mac では、Ollamallama.cpp 経由の GGUF 量子化が現実的です。

本ガイドは、OOM や品質低下に驚きたくないAI 研究者・オープンモデル愛好家・データサイエンティスト向けです。ブログの Understand Anything(リポジトリ可視化)や OpenClaw(マルチエージェント)と併読できますが、クラウドホストは不要です。

はじめに

ローカル推論を始める前に、用語とハードの現実を揃えます。

「ローカル・フルウェイト」の意味

用語典型的な意味ディスク目安向いている人
FP16/BF16 フル非量子化ウェイト〜140GB(70B 級)2× A100 80GB、H100 クラスタ
AWQ / GPTQ 4-bitGPU 向け量子化〜35–45GBLinux + CUDA、vLLM 等
GGUF Q8_0高品質 CPU/GPU ハイブリッド〜70GB64GB+ RAM ワークステーション
GGUF Q4_K_M品質とサイズのバランス〜40–43GB24GB VRAM で 70B 級の定番
蒸留 R1(7B–32B)小さい学生モデル4–20GBノート PC、Mac mini 24GB+
定義:量子化は数値精度をメモリと交換します。別の小さいモデルを落としているのではなく、同じアーキテクチャをビット数の少ないウェイトで保持しています。品質低下は方式(Q4_K_M vs Q2_K)とタスク次第です。

公式:DeepSeek-R1 on Hugging Face。ミラー前にライセンスと地域の輸出規制を確認してください。

ハードウェアマトリクス:70B はローカルで動くか

量子化を選ぶ前の一次フィルタです。数値は 70B 級の目安で、ビルドにより変わります。

構成統合 RAM / VRAM現実的な 70B 目標メモ
Mac mini M4 16GB16GB7B–8B Q4 のみ32B+ でスワップ地獄
Mac mini M4 24GB24GB14B–32B Q4;70B は不可≤32B は MLX が得意
Mac Studio M2 Ultra 192GB192GB70B Q4_K_M CPU/GPUtok/s は遅いが動く
RTX 4090 24GB24GB70B Q4_K_M(部分 GPU オフロード)llama.cpp のレイヤー分割・短いコンテキスト
RTX 3090 24GB ×248GB70B Q4 に余裕一部スタックでテンソル並列
128GB DDR5 + 24GB GPU152GB 実効70B Q8 または高速 Q4プロシューマー向け好構成

経験則: GGUF ファイルサイズ ≈ 実行時のウェイトメモリ+ KV キャッシュ32k コンテキストの 70B Q4 だけで数 GB 増え、隠れ OOM の第一位です。

Apple Silicon では MLX も選択肢です。R1 派生の対応はモデルごとに要確認です。長時間の負荷では Mac mini のサーマルで tok/s が落ちることがあるため、外気冷や夜間バッチも検討してください。

量子化形式:意思決定マトリクス

形式品質(一般)サイズ向くランタイム落とし穴
Q4_K_M既定の良バランス〜40GB @ 70BOllama、llama.cpp長コンテキストの重い数学に弱い
Q5_K_Mより繊細〜45GB同上コンテキスト込みで 24GB VRAM に収まらないことも
Q8_0FP16 に近い感触〜70GB64GB+ RAM24GB GPU では遅い
Q2_K攻撃的〜25GB「動いた!」投稿向け推論崩壊・反復
AWQ 4-bitNVIDIA で強い〜35GBvLLM、TGIOllama 非ネイティブ・CUDA 中心
IQ(IQ4_XS 等)実験的より小さい新しめの llama.cppバージョン間で不安定
  • 24GB GPU または Mac 24GB: まず DeepSeek-R1-Distill-Qwen-32B または Llama 3.3 70B Q4_K_M、コンテキストは 8k から(初日 128k は避ける)。
  • 48GB+ VRAM: 70B Q4_K_M または Q5_K_M で 16k–32k を試す。
  • 128GB+ 統合メモリ: Q8_0 や部分 FP16 を試してから「满血」を名乗る。

手順:Ollama ローカル・ランブック

ステップ 1 — ディスクと RAM を確認

df -h ~、macOS は sysctl hw.memsize。pull と一時ファイル用にモデルサイズの 1.2 倍を空けます。

ステップ 2 — Ollama をインストール

公式ダウンロード後、ollama --version を確認します。

ステップ 3 — 現実的な R1 系タグを pull

ollama pull deepseek-r1:32b または ollama pull deepseek-r1:70bOllama ライブラリでタグ名は都度確認。70b は上記マトリクスのハードが前提です。

ステップ 4 — 低コンテキストでスモークテスト

ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."

ステップ 5 — コンテキストとスレッド上限

OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b。Mac では初回ロード時にアクティビティモニタのメモリを見ます。

ステップ 6 — tok/s を計測

ollama run deepseek-r1:32b --verbose。CPU のみ 70B で <5 tok/s なら対話は蒸留、70B はバッチ向けです。

ステップ 7(任意)— llama.cpp でオフロード調整

./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192-ngl は GPU レイヤー数。OOM したら 5 層戻して安定値を記録します。

手順:Hugging Face + 手動 GGUF(上級)

  1. deepseek-ai/DeepSeek-R1 からカードを取得。
  2. 信頼できるコミュニティ量子化か convert_hf_to_gguf.py で変換。
  3. SHA・ファイルサイズを検証(破損 pull は「意味不明な出力」の原因)。
  4. llama-cli-c-b を明示。

禁止: 別フォークのトークナイザ語彙の混在。推論テンプレート(思考ブロック)は Modelfile のチャットテンプレートと一致させます。

6 つの性能・品質の落とし穴

落とし穴 1 — 16GB で「满血」を追う

症状: フリーズ、スワップ 100%、Ollama が kill される。
対処: deepseek-r1:7b / 8b 蒸留、または 14B 級 Q4。

落とし穴 2 — 初日から最大コンテキスト

症状: 長文貼り付け後 OOM、「指示を忘れた」。
対処: OLLAMA_NUM_CTX=8192(24GB なら 4096)。安定後にだけ増やす。

落とし穴 3 — 推論ベンチで Q2_K

症状: CoT ループ、算術ミス、自信あるハルシネーション。
対処: R1 推論は最低 Q4_K_M。ゴールドプロンプトで Q8 と並べて比較。

落とし穴 4 — MoE と dense ラベルの無視

症状: 「70B」がアクティブパラメータのみ — VRAM は依然巨大。
対処: モデルカードの total / active を読む。

落とし穴 5 — Mac mini のサーマル・電力制限

症状: 10 分後に tok/s が半減。
対処: 冷却強化、OLLAMA_MAX_LOADED_MODELS=1、昼は 32B 蒸留、夜に 70B バッチ。

落とし穴 6 — 古い Ollama / llama.cpp

症状: unknown tensor type やゴミ出力。
対処: ollama pull --latest または llama.cpp を main から再ビルド。安定版はチーム文書にピン留め。

コストの整理:ローカル vs API(誇張なし)

方式初期継続向く用途
API(Claude/GPT/DeepSeek API)ハード $0$/1M トークン低ボリューム・最新モデル
ローカル 32B Q4手持ち GPU/Mac電気代プライバシー・高反復
ローカル 70B Q4$2k–$8k 級電力・時間オフライン評価・ラベリング
クラウド GPU 時間課金$0$/時間資本支出なしのスパイク

ローカルは無料ではありません。月数千万トークン級の API 利用なら中古 4090 + 128GB RAM が 6–12 ヶ月で回収しうる、というオーダーの話です(投資助言ではありません)。

任意:ビルド専用のリモート Mac

カスタム量子化や評価ハーネスだけ常時オン Mac で回し、日常チャットはノート PC、という運用もあります。Ollama 必須ではありません。ヘッドレス接続の基礎は Mac mini M4 SSH ガイド を参照してください(レンタル宣伝はしません)。

FAQ

DeepSeek-R1 はローカルで無料で動かせますか?+
ウェイトは MIT などオープンライセンスです(リポジトリで要確認)。電気代・ハード・時間がコストで、DeepSeek API を使わなければトークン課金はありません。
使える最小ハードは?+
16GB RAM:7B–8B Q4。24GB:14B–32B Q4 が現実的。70B 級は 48GB+ VRAM または 128GB RAM が実用下限です。
Ollama と llama.cpp はどちらから?+
まず Ollama(pull + run)。レイヤーオフロードや IQ 量子化、C++/Python 組み込みなら llama.cpp です。
量子化は推論タグを壊しますか?+
場合があります。R1 は chain-of-thought ブロックを出します。Q2 や壊れたマージは garble の原因です。Q4_K_M と Q8 を自分の評価プロンプトで比較してください。
Llama 3.3 70B にも同じガイドは使えますか?+
はい。VRAM ルールと GGUF の落とし穴は共通です。モデル名だけ差し替え、量子化とコンテキストの規律は同じにしてください。
間違ったフォークを避けるには?+
Hugging Face の公式 org(deepseek-ai、meta-llama)か Ollama ライブラリを使い、ダウンロード数と更新日を確認してください。

まとめ

2026 年に DeepSeek-R1 フルウェイトをローカルで動かすとは、多くの場合賢い量子化であり、ノート上の FP16 ではありません。24GB の限界を正直に見たハードマトリクスから始め、Q4_K_M または 32B 蒸留を先に、コンテキストを抑え、上記 6 落とし穴を避けてください。

公式:DeepSeek-R1 GitHub · Ollama · llama.cpp

ローカル推論の運用について

ヘッドレス Mac の SSH や常時稼働の要点はヘルプにまとめています。