DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델
DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델 DeepSeek-R1은 순수 강화학습(RL)과 소량의 Cold-start 데이터를 결합한 다단계 학습 파이프라인을 통해, OpenAI o1 시리즈에 필적하는 수준의 추론 능력을 달성한 오픈소스 언어모델입니다. 671억 파라미터 규모의 MoE 아키텍처를 쓰고, 약 560만 달러 규모의 학습 비용을 들였다고 알려졌으며, 추론 성능과 가독성, 인간 선호와의 정렬(alignment)을 모두 고려한 점이 특징입니다. 모델 구조 및 … Read more