정보글

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1은 순수 강화학습(RL)과 소량의 Cold-start 데이터를 결합한 다단계 학습 파이프라인을 통해, OpenAI o1 시리즈에 필적하는 수준의 추론 능력을 달성한 오픈소스 언어모델입니다. 671억 파라미터 규모의 MoE 아키텍처를 쓰고, 약 560만 달러 규모의 학습 비용을 들였다고 알려졌으며, 추론 성능과 가독성, 인간 선호와의 정렬(alignment)을 모두 고려한 점이 특징입니다.

모델 구조 및 학습 파이프라인

초기 베이스라인: DeepSeek-V3-Base

  • 671B MoE(스파스 전문가) 레이어
  • 토크나이저: BPE 기반 약 25만개 어휘
  • 학습 인프라: TPU v3 Pod 256코어, 80만 스텝

1단계: DeepSeek-R1-Zero

  • 목표: 지도 학습(SFT) 없이 순수 강화학습만으로 추론 능력 획득
  • 강화학습 기법:
  • GRPO(Group Relative Policy Optimization)로 Critic 없이 정책 최적화
  • 룰 기반 보상(정확도·형식 보상) 적용
  • 성과:
  • AIME 2024 Pass@1 15.6% → 71.0%
  • 다수결 투표 시 86.7% (OpenAI-o1-0912와 동등)

2단계: DeepSeek-R1 다단계 학습

  • Cold-start SFT
  • 수천 개의 고품질 Chain-of-Thought 예시로 모델을 먼저 미세조정
  • 가독성과 언어 일관성 보강
  • 재강화학습(RL)
  • 수학·코딩·과학·논리 문제에 집중된 규칙 기반 보상
  • CoT 내 언어 일관성 보상 추가
  • Rejection Sampling + SFT
  • RL 체크포인트로부터 60만 개 추론 샘플 수집 및 필터링
  • 추가로 20만 개 비추론(SFT) 샘플 결합, 총 80만 개로 2 epoch 미세조정
  • 추가 RL 정렬
  • 유용성·무해성 보상 모델 혼합, 다양한 프롬프트 분포 적용
  • 결과: OpenAI-o1-1217과 유사한 수준의 종합 추론 성능

성능 평가

  • 추론 태스크
  • AIME 2024 Pass@1: 79.8% (o1-1217 소폭 상회)
  • MATH-500: 97.3% (o1-1217와 동등)
  • LiveCodeBench: 57.2% (o1-mini 대비 대폭 개선)
  • 지식 기반 QA
  • MMLU: 90.8%, GPQA Diamond: 71.5%
  • 창의적 언어 생성
  • AlpacaEval 2.0 승률 87.6%, Arena-Hard 승률 92.3%
  • 긴 문맥 이해
  • 수백 개의 CoT 토큰 생성 가능, DeepSeek-V3 대비 뛰어난 문맥 처리

소형 모델 증류(Distillation)

  • DeepSeek-R1의 SFT 샘플 80만 개로 Qwen·Llama 계열 소형 모델(1.5B~70B) 미세조정
  • Distill-Qwen-7B: AIME 55.5% → QwQ-32B-Preview 능가
  • Distill-Qwen-32B: AIME 72.6%, MATH-500 94.3% → o1-mini 수준

장단점 및 한계

  • 장점
  • RL만으로도 추론 능력 학습 가능함을 최초 검증
  • Cold-start SFT 결합으로 가독성·일관성 대폭 개선
  • 대규모 RL + Distillation 하이브리드 전략의 경제성 증명
  • 한계
  • 학습 데이터 소스·큐레이션 불투명
  • 영어·중국어 중심, 타 언어 입력 시 혼용·오류 발생
  • 함수 호출·멀티턴 대화 등 특수태스크 성능 부족
  • 방대한 RL 연산 비용과 인프라 부담

향후 연구 방향

  • 다양한 언어 및 다중 모달 강화
  • 프롬프트 견고성·로버스트니스 강화
  • 함수 호출, JSON 출력 등 복합 작업 성능 개선
  • 효율적 MCTS/PRM 같은 탐색 기법 재고

결론

DeepSeek-R1은 순수 강화학습과 소량의 고품질 SFT를 결합하여, 스스로 체계적인 추론 패턴과 CoT를 학습하도록 유도한 혁신적 접근입니다. 대규모 MoE 아키텍처의 계산 효율성과 Distillation 전략을 통해 경제성과 성능을 모두 잡았으며, 오픈소스 생태계에 유용한 참고 사례로 자리매김했습니다. 다만 데이터 큐레이션의 투명성 확보와 다국어 지원 강화, 특수업무 성능 보완이 향후 과제로 남아 있습니다.

spacexo

Recent Posts

TensorFlow Extended(TFX): 프로덕션 레벨의 E2E 기계학습 파이프라인 플랫폼

TensorFlow Extended(TFX): 프로덕션 레벨의 E2E 기계학습 파이프라인 플랫폼 TensorFlow Extended(TFX)는 구글에서 자체 머신러닝 제품을 안정적으로…

1주 ago

AutoML-Zero: ‘zero’에서부터 스스로 진화하는 기계학습 알고리즘

AutoML-Zero: ‘zero’에서부터 스스로 진화하는 기계학습 알고리즘 기계학습 알고리즘 설계의 혁신, AutoML-Zero 단 몇 줄의 코드도…

2주 ago

TensorFlow Lite: 모바일 & IoT 디바이스를 위한 딥러닝 프레임워크

TensorFlow Lite: 모바일 & IoT 디바이스를 위한 딥러닝 프레임워크 엣지 인텔리전스를 향한 경량화된 딥러닝 TensorFlow…

2주 ago

Graph Convolutional Networks(GCN) 개념 정리

Graph Convolutional Networks(GCN) 개념 정리 최근 비정형 데이터의 대표격인 그래프(graph)를 처리하기 위한 딥러닝 기법으로 Graph…

2주 ago

Graph Neural Networks(그래프 뉴럴 네트워크) 기초 개념 정리

Graph Neural Networks(그래프 뉴럴 네트워크) 기초 개념 정리 딥러닝은 이미지·음성·텍스트와 같은 격자(grid) 형태 데이터에서 뛰어난…

2주 ago

설명 가능한 인공지능(XAI): 투명성과 신뢰를 향한 혁신적 도전

설명 가능한 인공지능(XAI): 투명성과 신뢰를 향한 혁신적 도전 21세기 들어 인공지능(AI)은 전 세계 산업과 일상생활…

3주 ago