DeepSeek R1 정리 #3 (V2

AI/LLM

DeepSeek R1 정리 #3 (V2_MLA)

mmww24 2025. 4. 21. 20:24

DeepSeek-V2

진화 순서 : MHA->MQA->GQA->MLA

기존 MHA가 transformer에서 제시된 아이디어이다. 다만 MHA는 모든 시점의 hidden state와 계산값들을 KV Cache로 저장하는데 많은 메모리를 필요로 한다. 이를 해결하기 위해 MQA를 제시하지만 이는 너무 성능 저하로 이어진다. 그래서 MHA와 MQA를 절충하는 GQA라는 아이디어를 내놓는다.

MLA의 경우 새로운 아이디어를 제시한다. Compressed Latent KV를 1개만 두고(MQA 방식 이용해서 만듦) 필요할 때 projection 시켜 사용하는 방식이다. 이를 통해 KV Cache도 줄이고 성능도 좋아졌다고 한다.