IT 정보글

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1은 순수 강화학습(RL)과 소량의 Cold-start 데이터를 결합한 다단계 학습 파이프라인을 통해, OpenAI o1 시리즈에 필적하는 수준의 추론 능력을 달성한 오픈소스 언어모델입니다. 671억 파라미터 규모의 MoE 아키텍처를 쓰고, 약 560만 달러 규모의 학습 비용을 들였다고 알려졌으며, 추론 성능과 가독성, 인간 선호와의 정렬(alignment)을 모두 고려한 점이 특징입니다.

모델 구조 및 학습 파이프라인

초기 베이스라인: DeepSeek-V3-Base

  • 671B MoE(스파스 전문가) 레이어
  • 토크나이저: BPE 기반 약 25만개 어휘
  • 학습 인프라: TPU v3 Pod 256코어, 80만 스텝

1단계: DeepSeek-R1-Zero

  • 목표: 지도 학습(SFT) 없이 순수 강화학습만으로 추론 능력 획득
  • 강화학습 기법:
  • GRPO(Group Relative Policy Optimization)로 Critic 없이 정책 최적화
  • 룰 기반 보상(정확도·형식 보상) 적용
  • 성과:
  • AIME 2024 Pass@1 15.6% → 71.0%
  • 다수결 투표 시 86.7% (OpenAI-o1-0912와 동등)

2단계: DeepSeek-R1 다단계 학습

  • Cold-start SFT
  • 수천 개의 고품질 Chain-of-Thought 예시로 모델을 먼저 미세조정
  • 가독성과 언어 일관성 보강
  • 재강화학습(RL)
  • 수학·코딩·과학·논리 문제에 집중된 규칙 기반 보상
  • CoT 내 언어 일관성 보상 추가
  • Rejection Sampling + SFT
  • RL 체크포인트로부터 60만 개 추론 샘플 수집 및 필터링
  • 추가로 20만 개 비추론(SFT) 샘플 결합, 총 80만 개로 2 epoch 미세조정
  • 추가 RL 정렬
  • 유용성·무해성 보상 모델 혼합, 다양한 프롬프트 분포 적용
  • 결과: OpenAI-o1-1217과 유사한 수준의 종합 추론 성능

성능 평가

  • 추론 태스크
  • AIME 2024 Pass@1: 79.8% (o1-1217 소폭 상회)
  • MATH-500: 97.3% (o1-1217와 동등)
  • LiveCodeBench: 57.2% (o1-mini 대비 대폭 개선)
  • 지식 기반 QA
  • MMLU: 90.8%, GPQA Diamond: 71.5%
  • 창의적 언어 생성
  • AlpacaEval 2.0 승률 87.6%, Arena-Hard 승률 92.3%
  • 긴 문맥 이해
  • 수백 개의 CoT 토큰 생성 가능, DeepSeek-V3 대비 뛰어난 문맥 처리

소형 모델 증류(Distillation)

  • DeepSeek-R1의 SFT 샘플 80만 개로 Qwen·Llama 계열 소형 모델(1.5B~70B) 미세조정
  • Distill-Qwen-7B: AIME 55.5% → QwQ-32B-Preview 능가
  • Distill-Qwen-32B: AIME 72.6%, MATH-500 94.3% → o1-mini 수준

장단점 및 한계

  • 장점
  • RL만으로도 추론 능력 학습 가능함을 최초 검증
  • Cold-start SFT 결합으로 가독성·일관성 대폭 개선
  • 대규모 RL + Distillation 하이브리드 전략의 경제성 증명
  • 한계
  • 학습 데이터 소스·큐레이션 불투명
  • 영어·중국어 중심, 타 언어 입력 시 혼용·오류 발생
  • 함수 호출·멀티턴 대화 등 특수태스크 성능 부족
  • 방대한 RL 연산 비용과 인프라 부담

향후 연구 방향

  • 다양한 언어 및 다중 모달 강화
  • 프롬프트 견고성·로버스트니스 강화
  • 함수 호출, JSON 출력 등 복합 작업 성능 개선
  • 효율적 MCTS/PRM 같은 탐색 기법 재고

결론

DeepSeek-R1은 순수 강화학습과 소량의 고품질 SFT를 결합하여, 스스로 체계적인 추론 패턴과 CoT를 학습하도록 유도한 혁신적 접근입니다. 대규모 MoE 아키텍처의 계산 효율성과 Distillation 전략을 통해 경제성과 성능을 모두 잡았으며, 오픈소스 생태계에 유용한 참고 사례로 자리매김했습니다. 다만 데이터 큐레이션의 투명성 확보와 다국어 지원 강화, 특수업무 성능 보완이 향후 과제로 남아 있습니다.

spacexo

Recent Posts

집 청둥오리 효능 부작용, 알 새끼, 이름 유래, 영어로 천연기념물, – 유기농 / 오리농법으로 농사짓는 여자 농부

집 청둥오리 효능 부작용, 알 새끼, 이름 유래, 영어로 천연기념물, - 유기농 / 오리농법으로 농사짓는…

2개월 ago

스칸디나비아 북유럽 여행을 준비하다가… 서랍에서 꺼낸 유로화 동전

스칸디나비아 북유럽 여행을 준비하다가… 서랍에서 꺼낸 유로화 동전 23000원어치 여행 전날, 서랍 속 ‘잊힌 자산’을…

3개월 ago

기생충에 감염된 달팽이의 최후의 수단

기생충에 감염된 달팽이의 최후의 수단 생태계의 기이한 기생 구조 자연계는 단순한 먹고 먹히는 관계를 넘어,…

3개월 ago

중부지방 장마 예상기간 (서울, 수도권)

중부지방 장마 예상기간 (서울, 수도권) 우리나라에서 여름철을 대표하는 기상 현상 중 하나인 장마(梅雨)는 대기 중…

3개월 ago

Extreme ways 가사 본 시리즈 OST 테마, 유튜브 쇼츠 BGM인기곡

죄송하지만, 저작권이 있는 “Extreme Ways”의 전체 가사를 한‐줄씩 모두 제공해 드릴 수는 없습니다. 대신 법적…

3개월 ago

IndexNow 빙 자동 색인 요청하기 – 워드프레스 CrawlWP 플러그인

IndexNow 빙 자동 색인 요청하기 - 워드프레스 CrawlWP 플러그인 웹사이트를 운영하다 보면 게시물을 빠르게 검색…

3개월 ago