DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

Table of Contents

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1은 순수 강화학습(RL)과 소량의 Cold-start 데이터를 결합한 다단계 학습 파이프라인을 통해, OpenAI o1 시리즈에 필적하는 수준의 추론 능력을 달성한 오픈소스 언어모델입니다. 671억 파라미터 규모의 MoE 아키텍처를 쓰고, 약 560만 달러 규모의 학습 비용을 들였다고 알려졌으며, 추론 성능과 가독성, 인간 선호와의 정렬(alignment)을 모두 고려한 점이 특징입니다.

모델 구조 및 학습 파이프라인

초기 베이스라인: DeepSeek-V3-Base

671B MoE(스파스 전문가) 레이어
토크나이저: BPE 기반 약 25만개 어휘
학습 인프라: TPU v3 Pod 256코어, 80만 스텝

1단계: DeepSeek-R1-Zero

목표: 지도 학습(SFT) 없이 순수 강화학습만으로 추론 능력 획득
강화학습 기법:
GRPO(Group Relative Policy Optimization)로 Critic 없이 정책 최적화
룰 기반 보상(정확도·형식 보상) 적용
성과:
AIME 2024 Pass@1 15.6% → 71.0%
다수결 투표 시 86.7% (OpenAI-o1-0912와 동등)

2단계: DeepSeek-R1 다단계 학습

Cold-start SFT
수천 개의 고품질 Chain-of-Thought 예시로 모델을 먼저 미세조정
가독성과 언어 일관성 보강
재강화학습(RL)
수학·코딩·과학·논리 문제에 집중된 규칙 기반 보상
CoT 내 언어 일관성 보상 추가
Rejection Sampling + SFT
RL 체크포인트로부터 60만 개 추론 샘플 수집 및 필터링
추가로 20만 개 비추론(SFT) 샘플 결합, 총 80만 개로 2 epoch 미세조정
추가 RL 정렬
유용성·무해성 보상 모델 혼합, 다양한 프롬프트 분포 적용
결과: OpenAI-o1-1217과 유사한 수준의 종합 추론 성능

성능 평가

추론 태스크
AIME 2024 Pass@1: 79.8% (o1-1217 소폭 상회)
MATH-500: 97.3% (o1-1217와 동등)
LiveCodeBench: 57.2% (o1-mini 대비 대폭 개선)
지식 기반 QA
MMLU: 90.8%, GPQA Diamond: 71.5%
창의적 언어 생성
AlpacaEval 2.0 승률 87.6%, Arena-Hard 승률 92.3%
긴 문맥 이해
수백 개의 CoT 토큰 생성 가능, DeepSeek-V3 대비 뛰어난 문맥 처리

소형 모델 증류(Distillation)

DeepSeek-R1의 SFT 샘플 80만 개로 Qwen·Llama 계열 소형 모델(1.5B~70B) 미세조정
Distill-Qwen-7B: AIME 55.5% → QwQ-32B-Preview 능가
Distill-Qwen-32B: AIME 72.6%, MATH-500 94.3% → o1-mini 수준

장단점 및 한계

장점
RL만으로도 추론 능력 학습 가능함을 최초 검증
Cold-start SFT 결합으로 가독성·일관성 대폭 개선
대규모 RL + Distillation 하이브리드 전략의 경제성 증명
한계
학습 데이터 소스·큐레이션 불투명
영어·중국어 중심, 타 언어 입력 시 혼용·오류 발생
함수 호출·멀티턴 대화 등 특수태스크 성능 부족
방대한 RL 연산 비용과 인프라 부담

향후 연구 방향

다양한 언어 및 다중 모달 강화
프롬프트 견고성·로버스트니스 강화
함수 호출, JSON 출력 등 복합 작업 성능 개선
효율적 MCTS/PRM 같은 탐색 기법 재고

결론

DeepSeek-R1은 순수 강화학습과 소량의 고품질 SFT를 결합하여, 스스로 체계적인 추론 패턴과 CoT를 학습하도록 유도한 혁신적 접근입니다. 대규모 MoE 아키텍처의 계산 효율성과 Distillation 전략을 통해 경제성과 성능을 모두 잡았으며, 오픈소스 생태계에 유용한 참고 사례로 자리매김했습니다. 다만 데이터 큐레이션의 투명성 확보와 다국어 지원 강화, 특수업무 성능 보완이 향후 과제로 남아 있습니다.

spacexo