AI 인프라

DeepSeek-R1 로컬 실행: 양자화 가이드 (2026)

DeepSeek-R1 로컬 양자화: 소비자 하드웨어에서 70B 오픈 웨이트 2026

프론티어 추론 모델 API 비용은 프롬프트·에이전트·평가 루프를 반복할수록 빠르게 쌓입니다. DeepSeek-R1 같은 대형 오픈 웨이트를 로컬에서 돌리면 이미 가진(또는 한 번 산) 하드웨어로 비용을 옮길 수 있지만, 양자화·VRAM/RAM 예산·「70B 로컬」이 망가져 보이는 함정을 이해해야 합니다.

DeepSeek-R1(MIT, Hugging Face 증류·풀 체크포인트)은 오픈 추론 스타일 모델을 널리 알렸습니다. 「满血版」/ 풀 웨이트는 보통 FP16/BF16 원본(디스크 140GB+, 추론만 VRAM 80GB+)을 뜻합니다. 일반 사용자에게는 24–48GB GPU64–128GB 통합 메모리 Mac에서 Ollama·llama.cppGGUF 양자화가 현실적입니다.

이 가이드는 OOM·품질 저하에 당황하지 않을 AI 연구자·오픈 모델 애호가·데이터 과학자를 위한 것입니다. Understand Anything(레포 시각화), OpenClaw(멀티 에이전트)와 함께 읽어도 되며 클라우드 호스트는 필요 없습니다.

소개

로컬 추론 전에 용어와 하드웨어 현실을 맞춥니다.

「로컬 풀 웨이트」의 의미

용어일반적 의미디스크대상
FP16/BF16 풀비양자화 가중치~140GB(70B급)2× A100 80GB, H100
AWQ / GPTQ 4-bitGPU 최적화 양자화~35–45GBLinux+CUDA, vLLM 등
GGUF Q8_0고품질 CPU/GPU~70GB64GB+ RAM 워크스테이션
GGUF Q4_K_M품질·크기 균형~40–43GB24GB VRAM 70B급 스위트스팟
증류 R1(7B–32B)작은 학생 모델4–20GB노트북, Mac mini 24GB+
정의:양자화는 수치 정밀도를 메모리와 맞바꿉니다. 더 작은 다른 모델을 받는 게 아니라 같은 아키텍처를 더 적은 비트로 저장합니다. 품질 손실은 방식(Q4_K_M vs Q2_K)과 태스크에 달립니다.

공식: Hugging Face DeepSeek-R1. 미러 전 라이선스·수출 규정을 확인하세요.

하드웨어 매트릭스: 70B 로컬 가능?

양자화 선택 전 1차 필터입니다. 수치는 70B급 대략치입니다.

구성통합 RAM/VRAM현실적 70B비고
Mac mini M4 16GB16GB7B–8B Q4만32B+ 스왑 지옥
Mac mini M4 24GB24GB14B–32B Q4; 70B 불가≤32B MLX 유리
Mac Studio M2 Ultra 192GB192GB70B Q4_K_Mtok/s 느리나 동작
RTX 4090 24GB24GB70B Q4_K_M(부분 GPU)레이어 분할·짧은 컨텍스트
RTX 3090 24GB×248GB70B Q4 여유일부 TP 지원
128GB DDR5+24GB GPU152GB 실효70B Q8 또는 빠른 Q4프로슈머 조합

경험칙: GGUF 크기 ≈ 실행 시 가중치 메모리+ KV 캐시. 32k 컨텍스트 70B Q4만으로도 수 GB — 숨은 OOM 1위.

Apple Silicon은 MLX 대안. R1 변형 지원은 모델별 확인. 서울처럼 여름 실내 온도가 높으면 Mac mini 장시간 부하에서 tok/s가 떨어질 수 있어, 환기·야간 배치를 같이 보는 게 낫습니다.

양자화 형식 매트릭스

형식품질크기런타임함정
Q4_K_M기본 균형~40GBOllama, llama.cpp긴 컨텍스트 수학 약함
Q5_K_M더 섬세~45GB동일컨텍스트 포함 24GB 초과 가능
Q8_0FP16 근접~70GB64GB+ RAM24GB GPU 느림
Q2_K공격적~25GB「돌아간다」 트윗추론 붕괴·반복
AWQ 4-bitNVIDIA 강함~35GBvLLM, TGIOllama 비네이티브
IQ(IQ4_XS)실험적더 작음최신 llama.cpp버전별 불안정
  • 24GB GPU/Mac 24GB: DeepSeek-R1-Distill-Qwen-32B 또는 Llama 3.3 70B Q4_K_M, 컨텍스트 8k부터.
  • 48GB+ VRAM: 70B Q4/Q5, 16k–32k 테스트.
  • 128GB+ 통합: Q8_0·부분 FP16 후 「满血」 주장.

Ollama 로컬 런북

1단계 — 디스크·RAM

df -h ~, macOS sysctl hw.memsize. pull·임시 파일용 모델 크기 1.2배 여유.

2단계 — Ollama 설치

다운로드ollama --version.

3단계 — R1 계열 pull

ollama pull deepseek-r1:32b / deepseek-r1:70b. 라이브러리에서 태그 확인.

4단계 — 낮은 컨텍스트 스모크

ollama run deepseek-r1:32b "Explain quantization in 3 bullet points."

5단계 — 컨텍스트·스레드 상한

OLLAMA_NUM_CTX=8192 ollama run deepseek-r1:70b. Mac은 첫 로드 시 메모리 모니터.

6단계 — tok/s 벤치

ollama run deepseek-r1:32b --verbose. CPU만 70B에서 <5 tok/s면 대화는 증류, 70B는 배치.

7단계(선택) — llama.cpp 오프로드

./llama-cli -m ./DeepSeek-R1-Q4_K_M.gguf -ngl 35 -c 8192. OOM 시 레이어 5씩 줄이기.

Hugging Face + 수동 GGUF(고급)

  1. DeepSeek-R1 카드.
  2. 신뢰 커뮤니티 양자화 또는 convert_hf_to_gguf.py.
  3. SHA·크기 검증.
  4. llama-cli-c, -b 명시.

금지: 다른 포크 토크나이저 혼용. 추론 템플릿은 Modelfile과 일치.

성능·품질 함정 6가지

함정 1 — 16GB에서 「满血」

증상: 멈춤, 스왑 100%.
해결: 7b/8b 증류 또는 14B Q4.

함정 2 — 첫날 최대 컨텍스트

증상: 긴 붙여넣기 후 OOM.
해결: OLLAMA_NUM_CTX=8192(24GB는 4096).

함정 3 — 추론 벤치에 Q2_K

증상: CoT 루프, 산술 오류.
해결: 최소 Q4_K_M, Q8과 골드 세트 비교.

함정 4 — MoE vs dense 라벨

증상: 「70B」가 active만 — VRAM은 여전히 큼.
해결: total/active 파라미터 읽기.

함정 5 — Mac mini 서멀

증상: 10분 후 tok/s 절반.
해결: 냉각, OLLAMA_MAX_LOADED_MODELS=1, 낮엔 32B, 밤에 70B.

함정 6 — 구버전 Ollama/llama.cpp

증상: unknown tensor type.
해결: ollama pull --latest 또는 main 재빌드.

비용: 로컬 vs API

방식초기지속적합
API$0 HW$/1M 토큰저볼륨·최신 모델
로컬 32B Q4보유 GPU/Mac전기프라이버시·고반복
로컬 70B Q4$2k–$8k전력·시간오프라인 eval·라벨링
클라우드 GPU 시간$0$/시간CAPEX 없는 스파이크

로컬은공짜가 아닙니다. 월 ~50M 토큰 API면 중고 4090+128GB RAM이 6–12개월 회수 가능한 오더(투자 조언 아님).

선택: 빌드 전용 리모트 Mac

커스텀 양자화·eval만 상시 Mac, 채팅은 노트북도 가능. Mac mini M4 SSH 가이드(렌탈 홍보 없음).

FAQ

DeepSeek-R1을 로컬에서 무료로 돌릴 수 있나요?+
가중치는 MIT 등 오픈 라이선스입니다(저장소 확인). 전기·하드·시간이 비용이며 DeepSeek API를 쓰지 않으면 토큰 과금은 없습니다.
쓸 만한 최소 하드웨어는?+
16GB RAM: 7B–8B Q4. 24GB: 14B–32B Q4. 70B급: 48GB+ VRAM 또는 128GB RAM.
Ollama vs llama.cpp?+
먼저 Ollama. 레이어 오프로드·IQ·임베드는 llama.cpp.
양자화가 추론을 망가뜨리나요?+
그럴 수 있습니다. Q2·나쁜 머지는 garble. Q4_K_M vs Q8을 자체 eval로 비교.
Llama 3.3 70B에도 동일?+
예. VRAM·GGUF 함정 동일. 모델명만 교체.
잘못된 포크 피하기?+
HF 공식 org 또는 Ollama 라이브러리, 다운로드 수·날짜 확인.

결론

2026년 DeepSeek-R1 풀 웨이트 로컬은 대개 현명한 양자화이며 노트북 FP16이 아닙니다. 24GB 한계를 본 매트릭스, Q4_K_M 또는 32B 증류, 컨텍스트 제한, 위 6함정을 지키세요.

공식: GitHub · Ollama · llama.cpp

로컬 추론 운영

헤드리스 Mac SSH·상시 가동 요점은 도움말에 정리되어 있습니다.