2025.01.20. DeepSeek-R1이 공개되었다. 이로 인해 1월 27일 Nvidia 주가가 17% 급락하며 시가총액 5890억 달러가 증발했다. 역사상 사상 최대 규모의 시총이 하루 만에 사라질 정도의 큰 파급효과가 일어났다.

DeepSeek-R1-Zero

SFT(Supervised Fine Tuning) 없이 RL(강화학습)만 사용한 모델이다. SFT에선 cold data를 이용하는데, cold data는 소량의 supervised data이다.

다만 이 R1-Zero 모델의 단점은 poor readability, language mixing 문제가 있다.

이런 R1-Zero 모델을 추가로 조작하여 발전시킨 것이 최종적으로 DeepSeek-R1 모델이 된다.

 

DeepSeek-R1

모델 구조 자체는 V3와 동일하다. 다만 처리 과정이 조금 더 복잡해진다.

https://www.youtube.com/watch?v=FNUqAJ4OUXk

크게 이러한 절차를 거쳐 DeepSeek R1이 최종적으로 만들어진다.

참고사항들이 있다면

  • R1-Zero로 부터 나온 Cold-start data는 human annotator가 전처리했다고한다.
  • DeepSeek-V3-Base 모델은 딱 2.664M 만큼 학습시킨 상태로 Pre-Training만 한 것이다. 여기에 Post-Training(SFT,RL) 까지 해야 V3가 된다고 이해하면 된다.
  • RL Checkpoint에서 Rejection Sampling을 한다고 되어 있는데 Rejection Sampling은 우리가 목표하는 함수에서 sampling하기 어려울 때 sampling할 수 있는 proxy 분포를 만들어서 사용하는 개념이다.
  • 600K의 Reasoning dataset 와 200K의 Non Reasoning dataset을 fine-tuned된 V3를 이용해 만들고 이걸 이용해서 V3-Base를 Fine tuning하게 된다.

Local에서 돌릴 수 있는 모델이다?

DeepSeek R1 original model은 671B의 크기를 갖고 있어 매우 거대하다. 그래서 (Knowledge) Distillation을 통해 각자의 local 서버(GPU)에서 돌릴 수 있도록 하였다. 참고로 Distillation에선 SFT만 사용하고 RL은 사용하지 않았다. 애초에 목적이 Distillation 기술의 영향만을 확인하려는 것이었고 이후는 ablation으로 남겼다.

 

세간에 알려진 로컬에서 돌리는 모델들은 실제로 Qwen과 Llama를 DeepSeek로부터 만들어진 Reasoning/Non Reasoning Sample들로 Distillation 한 것이다. 오픈소스로 깃허브에 공개되어있다.

 

Distilled models benchmarks

추가적으로 언급할 사항이 있다. 공식 논문에서는 Distillation만 언급했고 추후 사람들이 Quantization을 더 적용한 모델들도 공개하였다.

https://apxml.com/posts/gpu-requirements-deepseek-r1

unsloth.ai에서 발표했고 4가지 버전의 양자화 모델이 존재한다. 보면 720GB(671B) -> 131GB로 80% 가량 용량을 감소시킨 것을 볼 수 있다.

+ Recent posts