DeepSeek R1 정리 #0
2025년 1월 DeepSeek R1의 공개 이후 파급효과가 매우 컸다. 예전에 발표했던 내용을 간략하게 정리하고자 글을 남긴다. HW와 SW 관점 모두 짚고 넘어간다.
DeepSeek의 모회사는 중국의 헤지펀드 회사 '환팡퀀트(High-Flyer Quant)'이다. High Frequency Trading을 하며 이러한 퀀트 트레이딩에서는 NLP가 핵심적인 역할을 한다고 한다. 기본적으로 AI 기술과 가까운 기업이다.
이미 대중 수출 제한 전부터 이미 엄청난 양의 GPU에 투자해왔고 많은 양을 보유중이라고 알려져있다. 이 환팡퀀트의 공동창업자 량원평이 사내 AI 연구부서를 2023.Q2에 독립하여 만든 회사가 DeepSeek이다.
발전 과정
모델을 이해하기 위해선 그동안 DeepSeek 회사에서 만든 여러 모델들을 쭉 참고해서 아이디어를 누적해야한다. 중요한 부분은 DeepSeekMoE, DeepSeek V2, DeepSeek V3 이렇게 3개 논문을 읽고 R1을 읽는게 이해하는데 좋다.
본 DeepSeek 게시물 시리즈에선 R1을 기준으로 내용을 정리한다.
사용된 아이디어는 크게 아래와 같다.
- Reinforce Learning(강화학습) : GRPO
- DeepSeekMoE architecture
- MLA
- MTP
- DualPipe(GPU Scheduling)
- Floating Point Operation
- PTX
- Distillation
#0에 해당하는 챕터이므로 사전지식으로 언급할 내용들이 있다.
Reasoning Model
최근 LLM들은 Reasoning Model 기반으로 CoT(Chain of Thoughts)를 한다. 기존 모델의 경우 SYSTEM 1 기반으로 깊게 생각하는 능력이 부족했다. 최근 LLM들은 전반적으로 SYSTEM 2, 즉 Reasoning Model 구조를 지닌다. OpenAI-o1, o3-mini, DeepSeek R1등이 사용중이다.
CoT 말그대로 생각의 사슬이다. 본인이 inference한 Output을 다음 생각에 함께 Input으로 집어넣어 좀 더 좋은 inference로 이어진다. 성능은 좋아지지만 각 turn 마다 reasoning token이 만들어진다. 참고로 OpenAI의 상위 모델 토큰 비용이 증가하는 것 역시, 이러한 turn 마다 만들어지는 token들이 모두 inference로 이어지진 않지만 요금 청구에 포함되기 때문이다.
전반적으로 Reasoning Model이 Non-Reasoning Model 보다 좋은 성능을 보이는 만큼 사용하는 것이 대세이다.(예외적으로 GPT-4.5는 Reasoning Model이 아니다)
이제 본격적으로 진행해보겠다