AIインフラ 2026-05-29

DeepSeek-R1 ローカル運用：量子化ガイド（2026）

Q: DeepSeek-R1 はローカルで無料で動かせますか？

ウェイトは MIT などオープンライセンスです（リポジトリで要確認）。電気代・ハード・時間がコストで、DeepSeek API を使わなければトークン課金はありません。

Q: 使える最小ハードは？

16GB RAM：7B–8B Q4。24GB：14B–32B Q4 が現実的。70B 級は 48GB+ VRAM または 128GB RAM が実用下限です。

Q: Ollama と llama.cpp はどちらから？

まず Ollama（pull + run）。レイヤーオフロードや IQ 量子化、C++/Python 組み込みなら llama.cpp です。

Q: 量子化は「推論」タグを壊しますか？

場合があります。R1 は chain-of-thought ブロックを出します。Q2 や壊れたマージは garble の原因です。Q4_K_M と Q8 を自分の評価プロンプトで比較してください。

Q: Llama 3.3 70B にも同じガイドは使えますか？

はい。VRAM ルールと GGUF の落とし穴は共通です。モデル名だけ差し替え、量子化とコンテキストの規律は同じにしてください。

Q: 間違ったフォークを避けるには？

Hugging Face の公式 org（deepseek-ai、meta-llama）か Ollama ライブラリを使い、ダウンロード数と更新日を確認してください。

ZecCloud チーム· 2026年5月29日· 約12分

DeepSeek-R1 ローカル量子化ガイド：70B オープンウェイトをコンシューマー向けハードで動かす 2026

フロンティア級の推論モデルを API で回すと、プロンプト・エージェント・評価ループの反復でコストがすぐに積み上がります。DeepSeek-R1 などの大規模オープンウェイトをローカルで動かすことで、すでに持っている（または一度買う）ハードにコストを寄せられますが、その前提は量子化・VRAM/RAM の予算・「70B ローカル」が破綻して見える落とし穴の理解です。

DeepSeek-R1（MIT、Hugging Face で蒸留版・フルチェックポイント）はオープンな推論スタイルモデルを広めました。「满血版」／フルウェイトは多くの場合 FP16/BF16 原本（ディスク 140GB 超、推論だけで VRAM 80GB 超）を指します。一般ユーザーには 24〜48GB GPU や 64〜128GB 統合メモリ Mac では、Ollama や llama.cpp 経由の GGUF 量子化が現実的です。

本ガイドは、OOM や品質低下に驚きたくないAI 研究者・オープンモデル愛好家・データサイエンティスト向けです。ブログの Understand Anything（リポジトリ可視化）や OpenClaw（マルチエージェント）と併読できますが、クラウドホストは不要です。

はじめに

ローカル推論を始める前に、用語とハードの現実を揃えます。

「ローカル・フルウェイト」の意味

用語	典型的な意味	ディスク目安	向いている人
FP16/BF16 フル	非量子化ウェイト	〜140GB（70B 級）	2× A100 80GB、H100 クラスタ
AWQ / GPTQ 4-bit	GPU 向け量子化	〜35–45GB	Linux + CUDA、vLLM 等
GGUF Q8_0	高品質 CPU/GPU ハイブリッド	〜70GB	64GB+ RAM ワークステーション
GGUF Q4_K_M	品質とサイズのバランス	〜40–43GB	24GB VRAM で 70B 級の定番
蒸留 R1（7B–32B）	小さい学生モデル	4–20GB	ノート PC、Mac mini 24GB+

定義：量子化は数値精度をメモリと交換します。別の小さいモデルを落としているのではなく、同じアーキテクチャをビット数の少ないウェイトで保持しています。品質低下は方式（Q4_K_M vs Q2_K）とタスク次第です。

公式：DeepSeek-R1 on Hugging Face。ミラー前にライセンスと地域の輸出規制を確認してください。

ハードウェアマトリクス：70B はローカルで動くか

量子化を選ぶ前の一次フィルタです。数値は 70B 級の目安で、ビルドにより変わります。

構成	統合 RAM / VRAM	現実的な 70B 目標	メモ
Mac mini M4 16GB	16GB	7B–8B Q4 のみ	32B+ でスワップ地獄
Mac mini M4 24GB	24GB	14B–32B Q4；70B は不可	≤32B は MLX が得意
Mac Studio M2 Ultra 192GB	192GB	70B Q4_K_M CPU/GPU	tok/s は遅いが動く
RTX 4090 24GB	24GB	70B Q4_K_M（部分 GPU オフロード）	llama.cpp のレイヤー分割・短いコンテキスト
RTX 3090 24GB ×2	48GB	70B Q4 に余裕	一部スタックでテンソル並列
128GB DDR5 + 24GB GPU	152GB 実効	70B Q8 または高速 Q4	プロシューマー向け好構成

経験則： GGUF ファイルサイズ ≈ 実行時のウェイトメモリ＋ KV キャッシュ。32k コンテキストの 70B Q4 だけで数 GB 増え、隠れ OOM の第一位です。

Apple Silicon では MLX も選択肢です。R1 派生の対応はモデルごとに要確認です。長時間の負荷では Mac mini のサーマルで tok/s が落ちることがあるため、外気冷や夜間バッチも検討してください。

量子化形式：意思決定マトリクス

形式	品質（一般）	サイズ	向くランタイム	落とし穴
Q4_K_M	既定の良バランス	〜40GB @ 70B	Ollama、llama.cpp	長コンテキストの重い数学に弱い
Q5_K_M	より繊細	〜45GB	同上	コンテキスト込みで 24GB VRAM に収まらないことも
Q8_0	FP16 に近い感触	〜70GB	64GB+ RAM	24GB GPU では遅い
Q2_K	攻撃的	〜25GB	「動いた！」投稿向け	推論崩壊・反復
AWQ 4-bit	NVIDIA で強い	〜35GB	vLLM、TGI	Ollama 非ネイティブ・CUDA 中心
IQ（IQ4_XS 等）	実験的	より小さい	新しめの llama.cpp	バージョン間で不安定

24GB GPU または Mac 24GB： まず DeepSeek-R1-Distill-Qwen-32B または Llama 3.3 70B Q4_K_M、コンテキストは 8k から（初日 128k は避ける）。
48GB+ VRAM： 70B Q4_K_M または Q5_K_M で 16k–32k を試す。
128GB+ 統合メモリ： Q8_0 や部分 FP16 を試してから「满血」を名乗る。

手順：Ollama ローカル・ランブック

ステップ 1 — ディスクと RAM を確認

df -h ~、macOS は sysctl hw.memsize。pull と一時ファイル用にモデルサイズの 1.2 倍を空けます。

ステップ 2 — Ollama をインストール

公式ダウンロード後、ollama --version を確認します。

ステップ 3 — 現実的な R1 系タグを pull

ollama pull deepseek-r1:32b または ollama pull deepseek-r1:70b。Ollama ライブラリでタグ名は都度確認。70b は上記マトリクスのハードが前提です。

ステップ 4 — 低コンテキストでスモークテスト

ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."

ステップ 5 — コンテキストとスレッド上限

OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b。Mac では初回ロード時にアクティビティモニタのメモリを見ます。

ステップ 6 — tok/s を計測

ollama run deepseek-r1:32b --verbose。CPU のみ 70B で <5 tok/s なら対話は蒸留、70B はバッチ向けです。

ステップ 7（任意）— llama.cpp でオフロード調整

./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192。-ngl は GPU レイヤー数。OOM したら 5 層戻して安定値を記録します。

手順：Hugging Face + 手動 GGUF（上級）

deepseek-ai/DeepSeek-R1 からカードを取得。
信頼できるコミュニティ量子化か convert_hf_to_gguf.py で変換。
SHA・ファイルサイズを検証（破損 pull は「意味不明な出力」の原因）。
llama-cli で -c と -b を明示。

禁止： 別フォークのトークナイザ語彙の混在。推論テンプレート（思考ブロック）は Modelfile のチャットテンプレートと一致させます。

6 つの性能・品質の落とし穴

落とし穴 1 — 16GB で「满血」を追う

症状： フリーズ、スワップ 100%、Ollama が kill される。
対処： deepseek-r1:7b / 8b 蒸留、または 14B 級 Q4。

落とし穴 2 — 初日から最大コンテキスト

症状： 長文貼り付け後 OOM、「指示を忘れた」。
対処： OLLAMA_NUM_CTX=8192（24GB なら 4096）。安定後にだけ増やす。

落とし穴 3 — 推論ベンチで Q2_K

症状： CoT ループ、算術ミス、自信あるハルシネーション。
対処： R1 推論は最低 Q4_K_M。ゴールドプロンプトで Q8 と並べて比較。

落とし穴 4 — MoE と dense ラベルの無視

症状： 「70B」がアクティブパラメータのみ — VRAM は依然巨大。
対処： モデルカードの total / active を読む。

落とし穴 5 — Mac mini のサーマル・電力制限

症状： 10 分後に tok/s が半減。
対処： 冷却強化、OLLAMA_MAX_LOADED_MODELS=1、昼は 32B 蒸留、夜に 70B バッチ。

落とし穴 6 — 古い Ollama / llama.cpp

症状： unknown tensor type やゴミ出力。
対処： ollama pull --latest または llama.cpp を main から再ビルド。安定版はチーム文書にピン留め。

コストの整理：ローカル vs API（誇張なし）

方式	初期	継続	向く用途
API（Claude/GPT/DeepSeek API）	ハード $0	$/1M トークン	低ボリューム・最新モデル
ローカル 32B Q4	手持ち GPU/Mac	電気代	プライバシー・高反復
ローカル 70B Q4	$2k–$8k 級	電力・時間	オフライン評価・ラベリング
クラウド GPU 時間課金	$0	$/時間	資本支出なしのスパイク

ローカルは無料ではありません。月数千万トークン級の API 利用なら中古 4090 + 128GB RAM が 6–12 ヶ月で回収しうる、というオーダーの話です（投資助言ではありません）。

任意：ビルド専用のリモート Mac

カスタム量子化や評価ハーネスだけ常時オン Mac で回し、日常チャットはノート PC、という運用もあります。Ollama 必須ではありません。ヘッドレス接続の基礎は Mac mini M4 SSH ガイドを参照してください（レンタル宣伝はしません）。

FAQ

DeepSeek-R1 はローカルで無料で動かせますか？+

ウェイトは MIT などオープンライセンスです（リポジトリで要確認）。電気代・ハード・時間がコストで、DeepSeek API を使わなければトークン課金はありません。

使える最小ハードは？+

16GB RAM：7B–8B Q4。24GB：14B–32B Q4 が現実的。70B 級は 48GB+ VRAM または 128GB RAM が実用下限です。

Ollama と llama.cpp はどちらから？+

まず Ollama（pull + run）。レイヤーオフロードや IQ 量子化、C++/Python 組み込みなら llama.cpp です。

量子化は推論タグを壊しますか？+

場合があります。R1 は chain-of-thought ブロックを出します。Q2 や壊れたマージは garble の原因です。Q4_K_M と Q8 を自分の評価プロンプトで比較してください。

Llama 3.3 70B にも同じガイドは使えますか？+

はい。VRAM ルールと GGUF の落とし穴は共通です。モデル名だけ差し替え、量子化とコンテキストの規律は同じにしてください。

間違ったフォークを避けるには？+

Hugging Face の公式 org（deepseek-ai、meta-llama）か Ollama ライブラリを使い、ダウンロード数と更新日を確認してください。

まとめ

2026 年に DeepSeek-R1 フルウェイトをローカルで動かすとは、多くの場合賢い量子化であり、ノート上の FP16 ではありません。24GB の限界を正直に見たハードマトリクスから始め、Q4_K_M または 32B 蒸留を先に、コンテキストを抑え、上記 6 落とし穴を避けてください。

公式：DeepSeek-R1 GitHub · Ollama · llama.cpp

ローカル推論の運用について

ヘッドレス Mac の SSH や常時稼働の要点はヘルプにまとめています。

ヘルプを見る