DeepSeek-R1 로컬 실행: 양자화 가이드 (2026)
프론티어 추론 모델 API 비용은 프롬프트·에이전트·평가 루프를 반복할수록 빠르게 쌓입니다. DeepSeek-R1 같은 대형 오픈 웨이트를 로컬에서 돌리면 이미 가진(또는 한 번 산) 하드웨어로 비용을 옮길 수 있지만, 양자화·VRAM/RAM 예산·「70B 로컬」이 망가져 보이는 함정을 이해해야 합니다.
DeepSeek-R1(MIT, Hugging Face 증류·풀 체크포인트)은 오픈 추론 스타일 모델을 널리 알렸습니다. 「满血版」/ 풀 웨이트는 보통 FP16/BF16 원본(디스크 140GB+, 추론만 VRAM 80GB+)을 뜻합니다. 일반 사용자에게는 24–48GB GPU나 64–128GB 통합 메모리 Mac에서 Ollama·llama.cpp의 GGUF 양자화가 현실적입니다.
이 가이드는 OOM·품질 저하에 당황하지 않을 AI 연구자·오픈 모델 애호가·데이터 과학자를 위한 것입니다. Understand Anything(레포 시각화), OpenClaw(멀티 에이전트)와 함께 읽어도 되며 클라우드 호스트는 필요 없습니다.
소개
로컬 추론 전에 용어와 하드웨어 현실을 맞춥니다.
「로컬 풀 웨이트」의 의미
| 용어 | 일반적 의미 | 디스크 | 대상 |
|---|---|---|---|
| FP16/BF16 풀 | 비양자화 가중치 | ~140GB(70B급) | 2× A100 80GB, H100 |
| AWQ / GPTQ 4-bit | GPU 최적화 양자화 | ~35–45GB | Linux+CUDA, vLLM 등 |
| GGUF Q8_0 | 고품질 CPU/GPU | ~70GB | 64GB+ RAM 워크스테이션 |
| GGUF Q4_K_M | 품질·크기 균형 | ~40–43GB | 24GB VRAM 70B급 스위트스팟 |
| 증류 R1(7B–32B) | 작은 학생 모델 | 4–20GB | 노트북, Mac mini 24GB+ |
공식: Hugging Face DeepSeek-R1. 미러 전 라이선스·수출 규정을 확인하세요.
하드웨어 매트릭스: 70B 로컬 가능?
양자화 선택 전 1차 필터입니다. 수치는 70B급 대략치입니다.
| 구성 | 통합 RAM/VRAM | 현실적 70B | 비고 |
|---|---|---|---|
| Mac mini M4 16GB | 16GB | 7B–8B Q4만 | 32B+ 스왑 지옥 |
| Mac mini M4 24GB | 24GB | 14B–32B Q4; 70B 불가 | ≤32B MLX 유리 |
| Mac Studio M2 Ultra 192GB | 192GB | 70B Q4_K_M | tok/s 느리나 동작 |
| RTX 4090 24GB | 24GB | 70B Q4_K_M(부분 GPU) | 레이어 분할·짧은 컨텍스트 |
| RTX 3090 24GB×2 | 48GB | 70B Q4 여유 | 일부 TP 지원 |
| 128GB DDR5+24GB GPU | 152GB 실효 | 70B Q8 또는 빠른 Q4 | 프로슈머 조합 |
경험칙: GGUF 크기 ≈ 실행 시 가중치 메모리+ KV 캐시. 32k 컨텍스트 70B Q4만으로도 수 GB — 숨은 OOM 1위.
Apple Silicon은 MLX 대안. R1 변형 지원은 모델별 확인. 서울처럼 여름 실내 온도가 높으면 Mac mini 장시간 부하에서 tok/s가 떨어질 수 있어, 환기·야간 배치를 같이 보는 게 낫습니다.
양자화 형식 매트릭스
| 형식 | 품질 | 크기 | 런타임 | 함정 |
|---|---|---|---|---|
| Q4_K_M | 기본 균형 | ~40GB | Ollama, llama.cpp | 긴 컨텍스트 수학 약함 |
| Q5_K_M | 더 섬세 | ~45GB | 동일 | 컨텍스트 포함 24GB 초과 가능 |
| Q8_0 | FP16 근접 | ~70GB | 64GB+ RAM | 24GB GPU 느림 |
| Q2_K | 공격적 | ~25GB | 「돌아간다」 트윗 | 추론 붕괴·반복 |
| AWQ 4-bit | NVIDIA 강함 | ~35GB | vLLM, TGI | Ollama 비네이티브 |
| IQ(IQ4_XS) | 실험적 | 더 작음 | 최신 llama.cpp | 버전별 불안정 |
- 24GB GPU/Mac 24GB: DeepSeek-R1-Distill-Qwen-32B 또는 Llama 3.3 70B Q4_K_M, 컨텍스트 8k부터.
- 48GB+ VRAM: 70B Q4/Q5, 16k–32k 테스트.
- 128GB+ 통합: Q8_0·부분 FP16 후 「满血」 주장.
Ollama 로컬 런북
1단계 — 디스크·RAM
df -h ~, macOS sysctl hw.memsize. pull·임시 파일용 모델 크기 1.2배 여유.
2단계 — Ollama 설치
다운로드 후 ollama --version.
3단계 — R1 계열 pull
ollama pull deepseek-r1:32b / deepseek-r1:70b. 라이브러리에서 태그 확인.
4단계 — 낮은 컨텍스트 스모크
ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."
5단계 — 컨텍스트·스레드 상한
OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b. Mac은 첫 로드 시 메모리 모니터.
6단계 — tok/s 벤치
ollama run deepseek-r1:32b --verbose. CPU만 70B에서 <5 tok/s면 대화는 증류, 70B는 배치.
7단계(선택) — llama.cpp 오프로드
./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192. OOM 시 레이어 5씩 줄이기.
Hugging Face + 수동 GGUF(고급)
- DeepSeek-R1 카드.
- 신뢰 커뮤니티 양자화 또는
convert_hf_to_gguf.py. - SHA·크기 검증.
llama-cli에-c,-b명시.
금지: 다른 포크 토크나이저 혼용. 추론 템플릿은 Modelfile과 일치.
성능·품질 함정 6가지
함정 1 — 16GB에서 「满血」
증상: 멈춤, 스왑 100%.
해결: 7b/8b 증류 또는 14B Q4.
함정 2 — 첫날 최대 컨텍스트
증상: 긴 붙여넣기 후 OOM.
해결: OLLAMA_NUM_CTX=8192(24GB는 4096).
함정 3 — 추론 벤치에 Q2_K
증상: CoT 루프, 산술 오류.
해결: 최소 Q4_K_M, Q8과 골드 세트 비교.
함정 4 — MoE vs dense 라벨
증상: 「70B」가 active만 — VRAM은 여전히 큼.
해결: total/active 파라미터 읽기.
함정 5 — Mac mini 서멀
증상: 10분 후 tok/s 절반.
해결: 냉각, OLLAMA_MAX_LOADED_MODELS=1, 낮엔 32B, 밤에 70B.
함정 6 — 구버전 Ollama/llama.cpp
증상: unknown tensor type.
해결: ollama pull --latest 또는 main 재빌드.
비용: 로컬 vs API
| 방식 | 초기 | 지속 | 적합 |
|---|---|---|---|
| API | $0 HW | $/1M 토큰 | 저볼륨·최신 모델 |
| 로컬 32B Q4 | 보유 GPU/Mac | 전기 | 프라이버시·고반복 |
| 로컬 70B Q4 | $2k–$8k | 전력·시간 | 오프라인 eval·라벨링 |
| 클라우드 GPU 시간 | $0 | $/시간 | CAPEX 없는 스파이크 |
로컬은공짜가 아닙니다. 월 ~50M 토큰 API면 중고 4090+128GB RAM이 6–12개월 회수 가능한 오더(투자 조언 아님).
선택: 빌드 전용 리모트 Mac
커스텀 양자화·eval만 상시 Mac, 채팅은 노트북도 가능. Mac mini M4 SSH 가이드(렌탈 홍보 없음).
FAQ
결론
2026년 DeepSeek-R1 풀 웨이트 로컬은 대개 현명한 양자화이며 노트북 FP16이 아닙니다. 24GB 한계를 본 매트릭스, Q4_K_M 또는 32B 증류, 컨텍스트 제한, 위 6함정을 지키세요.