MLA Analysis
MLA (Multi-head Latent Attention) ์ฌ์ธต ๋ถ์
Low-Rank KV Joint Compression ยท Decoupled RoPE ยท Weight Absorption ยท DeepSeek-V2/V3
MLA(Multi-head Latent Attention)๋ DeepSeek-V2๊ฐ ๋์ ํ ์ดํ ์ ๊ธฐ๋ฒ์ผ๋ก, Key/Value๋ฅผ ์ ์ฐจ์ latent(์ ์ฌ) ๋ฒกํฐ๋ก ์์ถํด KV ์บ์๋ฅผ ํฌ๊ฒ ์ค์ ๋๋ค. ๊ธด ๋ฌธ๋งฅ์์๋ KV ์บ์๊ฐ ๋ฉ๋ชจ๋ฆฌ์ ๋์ญํญ ๋ณ๋ชฉ์ด ๋๊ธฐ ์ฌ์ด๋ฐ, MLA๋ ์ ์ฅ ๋์์ ์๊ฒ ๋ง๋ค์ด ์ด ๋ณ๋ชฉ์ ์ง์ ์ค์ ๋๋ค.
GQA/MQA๊ฐ 'KV ํค๋ ์'๋ฅผ ์ค์ด๋ ๋ฐฉ์์ด๋ผ๋ฉด, MLA๋ '์ ์ฅํ๋ ๋ด์ฉ ์์ฒด'๋ฅผ ์ ์ฐจ์์ผ๋ก ์์ถํฉ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ ์บ์๋ ์๊ฒ ์ ์งํ๋ฉด์๋ ํ์ง ์ ํ๋ฅผ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ์ค๊ณ๋๋ฉฐ, decoupled RoPE์ weight absorption์ ํตํด ์์น ์ ๋ณด ์ฒ๋ฆฌ์ ์ถ๋ก ๊ฒฝ๋ก๋ ํจ๊ป ์ ๋ฆฌํฉ๋๋ค.
ํต์ฌ ๊ฐ๋
- latent ์์ถ โ K,V๋ฅผ ์์ latent c_KV๋ก ์์ถํด ์บ์์ ์ ์ฅํฉ๋๋ค.
- low-rank ๋ถํด โ ํฐ ํฌ์ ํ๋ ฌ์ down-projection๊ณผ up-projection์ผ๋ก ๋๋๋๋ค.
- decoupled RoPE โ ๋ด์ฉ ์ ๋ณด์ ์์น ์ ๋ณด๋ฅผ ๋ถ๋ฆฌํด RoPE๋ฅผ ๋ณ๋๋ก ์ฒ๋ฆฌํฉ๋๋ค.
- weight absorption โ up-projection์ Q/O ์ชฝ์ ํก์ํด ๋ณต์ ๋จ๊ณ๋ฅผ ์ค์ ๋๋ค.
1. ํต์ฌ ์์ด๋์ด โ K,V๋ฅผ ์ ์ฐจ์ latent๋ก ์์ถ
MLA์ ์ถ๋ฐ์ ์ GQA/MQA์ ๊ฐ์ ๋ฌธ์ (KV ์บ์๊ฐ ๋ฉ๋ชจ๋ฆฌยท๋์ญํญ ๋ณ๋ชฉ)์ด์ง๋ง, ์ ๊ทผ์ด ๋ค๋ฆ ๋๋ค. ํค๋๋ฅผ ๊ณต์ ํด ํํ๋ ฅ์ ํฌ์ํ๋ ๋์ , Key/Value๋ฅผ ์ ์ฐจ์ ์ ์ฌ ๋ฒกํฐ๋ก ์์ถํด ์ ์ฅํ๊ณ ์ฌ์ฉํ ๋ ๋ณต์ํฉ๋๋ค.
๊ทธ๋ฆผ 1. ๊ธฐ์กด MHA/GQA๋ ํค๋๋ณ K,V๋ฅผ ์ ์ฅ, MLA๋ ์์ latent c_KV๋ง ์ ์ฅ
GQA์์ ๊ทผ๋ณธ์ ์ฐจ์ด
-
GQA/MQA โ 'KV ํค๋ ์'๋ฅผ ์ค์ฌ ์บ์๋ฅผ ์ค์ ๋๋ค(ํค๋ ๊ณต์ ). ํํ๋ ฅ์ ์ผ๋ถ ํฌ์ํ๋ ํธ๋ ์ด๋์คํ๊ฐ ์์ต๋๋ค.
-
MLA โ ์ ์ฐจ์ ํ๋ ฌ ๋ถํด(low-rank)๋ก K,V๋ฅผ ์์ถํฉ๋๋ค. ํฐ ํฌ์ ํ๋ ฌ W_KV๋ฅผ down-projection(W_DKV)๊ณผ up-projection(W_UK, W_UV) ๋ ๋จ๊ณ๋ก ๋ถํดํด, ์ ๋ ฅ์ ์์ latent c_KV(d_c ์ฐจ์, ์: 512)๋ก ์์ถ ์ ์ฅํ๊ณ , ์ฌ์ฉ ์ ํค๋๋ณ full K,V๋ก ๋ณต์ํฉ๋๋ค.
-
KV ์บ์์๋ ์์ c_KV๋ง ์ ์ฅ โ ํค๋ ์๊ฐ ์๋๋ผ 'latent ์ฐจ์'๋งํผ๋ง ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์๋๋ค.
-
ํต์ฌ ์ฃผ์ฅ(DeepSeek): MLA๋ MHA๋ณด๋ค KV ์บ์๋ ํจ์ฌ ์์ผ๋ฉด์ ํ์ง์ ์คํ๋ ค ๋ ์ข์ต๋๋ค. ์ฆ 'ํค๋๋ฅผ ์ค์ด๋ฉด ํ์ง ์์ค'์ด๋ผ๋ GQA์ ํธ๋ ์ด๋์คํ๋ฅผ ์ฐจ์ ์์ถ์ผ๋ก ์ฐํํฉ๋๋ค.
2. ๋ฐ์ดํฐ ํ๋ฆ โ ์์ถ ๊ฒฝ๋ก์ decoupled RoPE
MLA๋ ๋ ๊ฐ๋์ ๊ฒฝ๋ก๋ก ์๋ํฉ๋๋ค. ํ๋๋ K,V์ '๋ด์ฉ'์ ์์ถํ๋ ๊ฒฝ๋ก์ด๊ณ , ๋ค๋ฅธ ํ๋๋ '์์น ์ ๋ณด'(RoPE)๋ฅผ ๋ฐ๋ก ์ฒ๋ฆฌํ๋ ๊ฒฝ๋ก์ ๋๋ค. ์ด ๋์ ๋ถ๋ฆฌํ๋ ๊ฒ์ด MLA ๊ตฌํ์ ํต์ฌ ๋์ ์ด์ ํด๋ฒ์ ๋๋ค.
๊ทธ๋ฆผ 2. ์์ถ ๊ฒฝ๋ก(downโlatentโup)์ RoPE ๊ฒฝ๋ก(๋ณ๋ rotary key)์ ๋ถ๋ฆฌ
๋ ๊ฒฝ๋ก
-
์์ถ ๊ฒฝ๋ก(๋ด์ฉ) โ ์ ๋ ฅ hโ๋ฅผ down-projection์ผ๋ก latent c_KV๋ก ์์ถ โ ์ด๊ฒ๋ง ์บ์์ ์ ์ฅ โ ์ดํ ์ ์ up-projection์ผ๋ก K^C, V๋ฅผ ๋ณต์.
-
RoPE ๊ฒฝ๋ก(์์น) โ ๋ณ๋์ ์์ ํฌ์์ผ๋ก ์์น ๋ถ๋ถ์ ๋ง๋ค๊ณ RoPE๋ฅผ ์ ์ฉํด, ๋ชจ๋ ํค๋๊ฐ ๊ณต์ ํ๋ ์์ rotary key(k^R)๋ก ์ ์ฅ. ์บ์์๋ c_KV์ ์์ k^R ๋๋ง ์ ์ฅ๋ฉ๋๋ค.
์ RoPE๋ฅผ ๋ถ๋ฆฌ(decouple)ํ๋
๋ฌธ์ ๋ ์ ์ฐจ์ ์์ถ(low-rank)๊ณผ RoPE(ํ์ ์์น ์ธ์ฝ๋ฉ)๊ฐ ํธํ๋์ง ์๋๋ค๋ ์ ์ ๋๋ค. RoPE๋ ์์น์ ๋ฐ๋ผ K๋ฅผ ํ์ ์ํค๋๋ฐ, ์ด ํ์ ์ด ์์ถโ๋ณต์ ๊ณผ์ ๊ณผ ๊ตํ(commute)๋์ง ์์ ์์น ์ ๋ณด๋ฅผ latent์ ํจ๊ป ํก์ํ ์ ์์ต๋๋ค. ํด๊ฒฐ์ฑ ์ด decoupled RoPE์ ๋๋ค. K๋ฅผ ๋ด์ฉ ๋ถ๋ถ(K^C, latent๋ก ์์ถยท์์น ์์)๊ณผ ์์น ๋ถ๋ถ(K^R, ๋ณ๋ ์ฐจ์์ RoPE ์ ์ฉยท๋ชจ๋ ํค๋๊ฐ ๊ณต์ )์ผ๋ก ๋๋๊ณ , ์ดํ ์ ์ ๋์ concatํด ์ฌ์ฉํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์์ถ์ ์ด์ ์ ์งํค๋ฉด์๋ ์์น ์ ๋ณด๋ฅผ ์ ํํ ๋ฐ์ํ ์ ์์ต๋๋ค.
3. Weight Absorption โ ๋ณต์ ๋จ๊ณ๋ฅผ ์์ ๋ ์ถ๋ก ํธ๋ฆญ
MLA๋ฅผ ์์งํ๊ฒ ๊ตฌํํ๋ฉด ๋์ฝ๋ฉ๋ง๋ค latent์์ K,V๋ฅผ ๋ณต์ํ๋ ์ฐ์ฐ์ด ์ถ๊ฐ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ํ๋ ฌ๊ณฑ์ ๊ฒฐํฉ๋ฒ์น์ ์ด์ฉํ๋ฉด ์ด ๋ณต์ ๋จ๊ณ๋ฅผ ์์ ์์จ ์ ์์ต๋๋ค. ์ด๊ฒ์ด weight absorption(ํ๋ ฌ ํก์)์ ๋๋ค.
๊ทธ๋ฆผ 3. ์์งํ ๋ณต์ ๋ฐฉ์ vs up-projection ํ๋ ฌ์ QยทO์ ํก์ํ๋ ๋ฐฉ์
weight absorption์ ์๋ฆฌ
-
QยทKแต์์ K=W_UKยทc_KV์ด๋ฏ๋ก, W_UK๋ฅผ Query ํฌ์์ ๋ฏธ๋ฆฌ ๊ณฑํด๋๋ฉด(ํก์) ๋ณต์ ์์ด latent c_KV๋ก ๋ฐ๋ก ์ดํ ์ ์ ์๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค.
-
๋ง์ฐฌ๊ฐ์ง๋ก ์ถ๋ ฅ ์ชฝ์ W_UV๋ ์ถ๋ ฅ ํฌ์ W_O์ ํก์๋ฉ๋๋ค. ๋ ๋ค ํ์ต์ด ๋๋ ๋ค ๊ฐ์ค์น๋ฅผ ๋ฏธ๋ฆฌ ํฉ์ณ๋๋ ๊ฒ์ด๋ผ ์ํ์ ์ผ๋ก ์์ ํ ๋๋ฑํฉ๋๋ค.
-
๊ฒฐ๊ณผ: ์ ์ฅ์ ์์ latent๋ก(๋ฉ๋ชจ๋ฆฌโ), ๊ณ์ฐ๋ ๋ณต์ ์์ด(์ฐ์ฐโ). ๋ค๋ง latent์ ์ง์ ๊ณ์ฐํ๋ฉด ํค๋ ๊ฐ ๊ณต์ ๊ตฌ์กฐ๊ฐ ์๊ฒจ ์ปค๋ ์ต์ ํ๊ฐ ๊น๋ค๋กญ์ต๋๋ค.
-
์คํ ๋ฐฉ์ ์ ํ โ latent ์ฌ์ฌ์ฉ(์ฐ์ฐโยท๋ฉ๋ชจ๋ฆฌ ์ ๊ทผโ)๊ณผ ๋ณต์ ์ฌ๊ณ์ฐ(๋ฉ๋ชจ๋ฆฌโยท์ฐ์ฐโ) ์ฌ์ด์ ํธ๋ ์ด๋์คํ๊ฐ ์์ด, ํ๋์จ์ดยท๋ฌธ๋งฅ ๊ธธ์ด์ ๋ฐ๋ผ ์ ๋ฆฌํ ์ชฝ์ด ๋ฌ๋ผ์ง๋๋ค.
4. ๋น๊ต/๋ถ์
๊ทธ๋ฆผ 4. KV ์บ์ ํฌ๊ธฐยทDeepSeek-V2 ์์นยทํ์ง vs KV ์ฐ์ ๋ยท์ฑํ/๋ง์ด๊ทธ๋ ์ด์
๋ค ๋ฐฉ์์ KV ์บ์ ๋น๊ต
DeepSeek-V2 ๋ณด๊ณ ์์น (vs DeepSeek 67B)
-
KV ์บ์ 93.3% ๊ฐ์ โ latent ์์ถ์ผ๋ก ํ ํฐ๋น ์บ์๊ฐ ํฌ๊ฒ ์ค์ด๋ญ๋๋ค.
-
์์ฑ ์ฒ๋ฆฌ๋ 5.76๋ฐฐ โ 8รH800 ๋ ธ๋์์ 50K tokens/s๋ฅผ ์ด๊ณผํ๋ ์ต๋ ์์ฑ ์ฒ๋ฆฌ๋.
-
ํ์ต ๋น์ฉ 42.5% ์ ๊ฐ โ MLA์ DeepSeekMoE๋ฅผ ํจ๊ป ์ ์ฉํ ๊ฒฐ๊ณผ.
-
๋ชจ๋ธ ๊ท๋ชจ โ ์ด 236B ํ๋ผ๋ฏธํฐ ์ค ํ ํฐ๋น 21B๋ง ํ์ฑํ(MoE), 128K ๋ฌธ๋งฅ ๊ธธ์ด ์ง์.
ํ์ง-KV ํ๋ฉด์์ MLA๋ '์์ KV + ๋์ ํ์ง'์ ์ข์๋จ์ ์์นํฉ๋๋ค. MQA๋ KV๊ฐ ์์ง๋ง ํ์ง์ด ๋ฎ๊ณ , MHA๋ ํ์ง์ด ๋์ง๋ง KV๊ฐ ํฌ๋ฉฐ, GQA๋ ๊ทธ ์ค๊ฐ์ธ ๋ฐ๋ฉด, MLA๋ ๋ ๋ชฉํ๋ฅผ ๋์์ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ด ํต์ฌ ์ฃผ์ฅ์ ๋๋ค. ์ค์ ๋ฐฐํฌ ์์๋ FP8๊ณผ KV ์บ์ ์์ํ๊น์ง ๊ฒฐํฉํด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ ์ค์ผ ์ ์์ต๋๋ค โ ์ฆ MLA๋ ์์ํ์ ์ง๊ต์ ์ผ๋ก ํจ๊ป ์ฐ์ ๋๋ค.
์ฅ๋จ์
| ์ฅ์ | ๋จ์ |
|---|---|
| KV ์บ์๋ฅผ MQA ์์ค์ ๊ฐ๊น๊ฒ ์ค์ผ ์ ์๋ค | ์ปค๋ ๊ตฌ์กฐ์ ์์์ด ๋ณต์กํด ๊ตฌํ์ด ๊น๋ค๋กญ๋ค |
| GQA๋ณด๋ค ํํ๋ ฅ ์์ค์ ๋ ์ ๋ฐํ ์ ์๋ค | ๋ชจ๋ธ๋ง๋ค latent ์ฐจ์๊ณผ RoPE ๋ถ๋ฆฌ ๋น์จ์ ์กฐ์ ํด์ผ ํ๋ค |
| KV ์์ํ, PagedAttention๊ณผ ์ง๊ต์ ์ผ๋ก ๊ฒฐํฉํ ์ ์๋ค | ๊ธฐ์กด MHA/GQA ๋ชจ๋ธ์ ์ ํ ์ ์ฐจ๊ฐ ํ์ํ๋ค |
5. ๊ด๋ จ ๊ธฐ์
๊ธฐ์กด MHA ๋ชจ๋ธ์ MLA๋ก โ MHA2MLA
MLA์ ๊ฐ๋ ฅํจ ๋๋ฌธ์, ์ด๋ฏธ ํ์ต๋ MHA/GQA ๋ชจ๋ธ์ MLA๋ก ์ ํํ๋ ค๋ ์ฐ๊ตฌ๊ฐ ํ๋ฐํฉ๋๋ค. MHA2MLA๋ ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ผ๋ก ์ด๋ฅผ ๋ฐ์ดํฐ ํจ์จ์ ์ผ๋ก ์ํํฉ๋๋ค: (1) partial-RoPE โ ์ดํ ์ ์ ์์ ๋ ๊ธฐ์ฌํ๋ ์ฐจ์์์ RoPE๋ฅผ ์ ๊ฑฐํ๊ณ , (2) joint SVD โ ์ฌ์ ํ์ต๋ Key/Value ํ๋ผ๋ฏธํฐ๋ฅผ ํน์ด๊ฐ ๋ถํด(SVD)๋ก ์ ์ฐจ์ ๊ทผ์ฌํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ์ 0.3~0.6%๋ง์ผ๋ก ์ฑ๋ฅ์ ํ๋ณตํ๋ฉฐ, ์๋ฅผ ๋ค์ด Llama2-7B์ KV ์บ์๋ฅผ 92.19% ์ค์ด๋ฉด์ LongBench ์ฑ๋ฅ์ 0.5%๋ง ํ๋ฝํ๋ค๊ณ ๋ณด๊ณ ํฉ๋๋ค. KV ์บ์ ์์ํ ๊ฐ์ ์์ถ ๊ธฐ๋ฒ๊ณผ๋ ๋งค๋๋ฝ๊ฒ ๊ฒฐํฉ๋ฉ๋๋ค.
KV ์ ๊ฐ ๊ธฐ๋ฒ๋ค ์ MLA์ ์์น
MLA๋ LLM ์ถ๋ก ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ์ ์ฌ๋ฌ ์ถ ์ค '์ดํ ์ ์ํคํ ์ฒ' ์ถ์์ GQA์ ๋ค์ ์งํ์ ํด๋นํ๋ฉฐ, ๋ค๋ฅธ ์ถ์ ๊ธฐ๋ฒ๋ค๊ณผ ์ง๊ต์ ์ ๋๋ค.
์ ๋ฆฌํ๋ฉด 'KV๋ฅผ ๋ช ๊ฐ ํค๋๋ก/์ผ๋ง๋ ์์ถํ ์ง(MLAยทGQA), ๋ช ๋นํธ๋ก(์์ํ), ์ด๋ป๊ฒ ๋ด๊ณ (PagedAttention), ์ด๋ ํ ํฐ๊น์ง(์ถ์ถ)'๊ฐ ํจ๊ป ์๋ํ๋ ์ค๊ณ ๊ณต๊ฐ์ด๋ฉฐ, MLA๋ ๊ทธ์ค ๊ฐ์ฅ ์นจ์ต์ ์ด์ง๋ง ๊ฐ๋ ฅํ ์ํคํ ์ฒ ์์ค ์์ถ์ ๋ด๋นํฉ๋๋ค.
์ฐธ๊ณ ๋ฌธํ
- DeepSeek-AI et al., DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model (arXiv:2405.04434)
- Ji et al., Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs (arXiv:2502.14837)
ํต์ฌ ์ ๋ฆฌ
ํต์ฌ ์ ๋ฆฌ โ MLA๋ Key/Value๋ฅผ ์ ์ฐจ์ latent ๋ฒกํฐ๋ก ์์ถํด KV ์บ์๋ฅผ ์ค์ด๋ ์ดํ ์ ๊ธฐ๋ฒ์ผ๋ก, GQA๊ฐ ํค๋๋ฅผ ๊ณต์ ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ '์ ์ฅ ๋ด์ฉ ์์ฒด'๋ฅผ ์์ถํ๋ค. down-projection์ผ๋ก ์์ c_KV๋ง ์บ์์ ์ ์ฅํ๊ณ up-projection์ผ๋ก ๋ณต์ํ๋, ์์ถ๊ณผ ํธํ๋์ง ์๋ RoPE๋ decoupled RoPE๋ก ๋ถ๋ฆฌ(๋ด์ฉ K^C + ์์น K^R)ํด ์ฒ๋ฆฌํ๋ค. ์ถ๋ก ์์๋ up-projection ํ๋ ฌ์ QยทO์ ํก์(weight absorption)ํด ๋ณต์ ๋จ๊ณ๋ฅผ ์์จ ์ ์์ด ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ์ ํจ๊ป ์ ๊ฐํ๋ค. DeepSeek-V2๋ MLA๋ก 67B ๋๋น KV ์บ์ 93.3% ๊ฐ์ยท์์ฑ ์ฒ๋ฆฌ๋ 5.76๋ฐฐ๋ฅผ ๋ณด๊ณ ํ๊ณ , MLA๋ ์์ํยทPagedAttention๊ณผ ์ง๊ต์ ์ด๋ฉฐ, MHA2MLA ๊ฐ์ ๋ง์ด๊ทธ๋ ์ด์ ์ผ๋ก ๊ธฐ์กด ๋ชจ๋ธ์๋ ์ ์ฉํ ์ ์๋ค(Llama2-7B KV 92.19% ๊ฐ์).
์ฃผ์ โ ๋ณธ๋ฌธ ์์น๋ ์๋ ผ๋ฌธ(DeepSeek-V2 arXiv 2405.04434)๊ณผ ํ์ ์ฐ๊ตฌ(MHA2MLA arXiv 2502.14837)์ ๋ณด๊ณ ๊ฐ์ด๋ค. 'KV 93.3% ๊ฐ์ยท5.76๋ฐฐ ์ฒ๋ฆฌ๋'์ DeepSeek-V2 ๋ DeepSeek 67B์ ํน์ ์กฐ๊ฑด(8รH800, ํน์ ํ๋กฌํํธ/์์ฑ ๊ธธ์ด ๋ถํฌ) ๊ฒฐ๊ณผ์ด๋ฉฐ d_c=512 ๋ฑ ๊ตฌ์ฑ์ ๋ชจ๋ธ๋ง๋ค ๋ค๋ฅด๋ค. 'Llama2-7B KV 92.19% ๊ฐ์ยทLongBench 0.5% ํ๋ฝ'์ ๋ณ๋ ์ฐ๊ตฌ(MHA2MLA)์ ๋ณด๊ณ ๊ฐ์ผ๋ก, ์์ถ๋ฅ ยท์ ํ๋ ๊ท ํ์ ๋ชจ๋ธยท์ค์ ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. MLA๋ V3/R1์๋ ์ฌ์ฉ๋๋ ๊ตฌ์ฑ ์ธ๋ถ๋ ๋ฒ์ ๋ง๋ค ์ฐจ์ด๊ฐ ์๋ค.
# ์ดํ
์
์ ์: Q ยท K^t (K^t ๋ K์ ์ ์น)
# ๊ทธ๋ฐ๋ฐ MLA์์ K = W_UK ยท c_KV (up-projection ร latent)
#
# Q ยท K^t = Q ยท (W_UK ยท c_KV)^t
# = Q ยท c_KV^t ยท W_UK^t
# = (Q ยท W_UK^t) ยท c_KV^t
# โโโโโโฌโโโโโ
# W_UK ๋ฅผ Query ์ชฝ์ ํก์ โ ๋ฏธ๋ฆฌ ํฉ์ณ๋ ์ ์์
#
# ๋ง์ฐฌ๊ฐ์ง๋ก ์ถ๋ ฅ์ W_UV ๋ ์ถ๋ ฅ ํฌ์ W_O ์ ํก์ ๊ฐ๋ฅ
# ๊ฒฐ๊ณผ: ์บ์๋ latent c_KV ๋ก '๋ฐ๋ก' ์ดํ
์
โ K,V ๋ณต์ ๋จ๊ณ ์ ๊ฑฐ
| ๋ฐฉ์ | KV ์บ์์ ์ ์ฅํ๋ ๊ฒ | ์๋ ํฌ๊ธฐ | ํ์ง |
|---|---|---|---|
| MHA | ํค๋๋ง๋ค ์ ์ฒด K,V | ๊ฐ์ฅ ํผ | ์ต๊ณ (๊ธฐ์ค) |
| GQA | KV ํค๋ 1/g ๊ทธ๋ฃน์ K,V | ์ค๊ฐ | MHA๋ณด๋ค ์ฝ๊ฐโ |
| MQA | K,V ํค๋ 1๊ฐ | ์ต์ | ์ ํ ์ํ |
| MLA | ์์ latent c_KV (+ k^R) | MQA์ ๋ฒ๊ธ | MHA ์ด์ ์ฃผ์ฅ |
| ์ถ | ๊ธฐ๋ฒ | MLA์์ ๊ด๊ณ |
|---|---|---|
| ํค๋ ์ / ์์ถ | GQA/MQA โ MLA | MLA๊ฐ ํค๋ ๊ณต์ ๋ฅผ latent ์์ถ์ผ๋ก ๋์ฒด(์งํ) |
| ๋นํธ ์ | KV ์์ํ(FP8/INT4) | ์ง๊ต โ MLA ์์ KV ์์ํ๋ฅผ ์ถ๊ฐํ ์ ์์ |
| ๋ญ๋น | PagedAttention | ์ง๊ต โ latent๋ ๋ธ๋ก์ผ๋ก ํ์ด์ง ๊ด๋ฆฌ ๊ฐ๋ฅ |
| ํ ํฐ ์ | KV ์ถ์ถ(H2O ๋ฑ) | ์ง๊ต โ ์ค์ ํ ํฐ๋ง ๋จ๊ธฐ๋ ๊ฒ๊ณผ ๋ณํ ๊ฐ๋ฅ |