DeepSeek R1 정리 #4 (V3_MTP)

mmww24 2025. 4. 21. 20:32

2025. 4. 21. 20:32

DeepSeek-V3

기본 구조는 V2와 동일하다. V3에선 MoE 구조중에 auxiliary-Loss-Free Load Balancing 전략을 제시한다. 기존 MoE 모델에선 특정 expert에 작업이 편중되면 라우팅 효율성이 감소하며 계산 자원이 비효율적인 문제점이 있었다. 기존에는 auxiliary loss(부가 손실)을 추가하여 부하 균형을 맞추는 방식을 사용해왔고 이는 모델 성능을 저하시킬 위험이 있었다고한다. 그래서 V3에선 bias term을 동적으로 조정하는 전략을 사용했다고 한다.

V3_MTP Module

MTP(Multi Token Prediction) module이라는 개념을 제시한다. 이름에 prediction이 들어가서 inference 용도라고 생각할 수 있지만 이 전체 구조는 training 용도이다. inference 시엔 맨 앞의 main model 만 사용한다고 한다.(뒤에 이어지는 Module 1,2 도 선택할 수는 있지만 저자는 main만 쓴 듯 하다.

기존 transformer 구조에선 Next-Token Prediction 방식으로 1번에 1개의 token을 예측/inference 한다면, 이 MTP에선 여러 token을 동시에 예측할 수 있다. MTP 원본 논문(Better & Faster LLMs via Multi-token Prediction)에서 지적하는 것은 기존 Next-Token Prediction 방식은 패턴을 지역적으로만 인식하고 어려운 결정을 간과하는 문제점을 갖고 있다고 한다. (참고로 V3에선 2개의 token 씩 예측한다)

저작자표시 비영리 변경금지

'AI > LLM' 카테고리의 다른 글

DeepSeek R1 정리 #6 (0)	2025.04.21
DeepSeek R1 정리 #5 (V3_Parallelism 및 마무리) (0)	2025.04.21
DeepSeek R1 정리 #3 (V2_MLA) (0)	2025.04.21
DeepSeek R1 정리 #2 (DeepSeekMoE) (0)	2025.04.21
DeepSeek R1 정리 #1 (0)	2025.04.21

mmww24 님의 블로그