Memory Centric LLM Serving Survey
๋ฉ๋ชจ๋ฆฌ ์์คํ ๊ด์ ์ LLM ์๋น ์ต์ ํ โ ๋ ผ๋ฌธ ์ ๋ฆฌ
Memory-Centric LLM Serving: KV ์์ถยท์บ์ฑยท์คํ๋ก๋ฉยทP/D ๋ถ๋ฆฌยทPIM/PNMยท์ ๋ขฐ์ฑ (์ต๊ทผ ์ฐ๊ตฌ ์ข ํฉ)
๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM) ์ถ๋ก ์ ๋ณธ์ง์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ๋ฐ์ด๋์ด๋ฉฐ, KV ์บ์์ ์ฉ๋ ํญ์ฆ๊ณผ ๋์ฝ๋ฉ ๋จ๊ณ์ ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ์ด ํต์ฌ ๋ณ๋ชฉ์ ๋๋ค. ๋ณธ ๋ฌธ์๋ '๋ฉ๋ชจ๋ฆฌ ์์คํ ๊ด์ '์์ LLM ์๋น์ ์ต์ ํํ๋ ์ต๊ทผ ์ฐ๊ตฌ๋ค์ ๋ค ๊ฐ๋ โ (1) KV๋ฅผ ์๊ฒ(์์ถยท์ถ์ถ), (2) KV๋ฅผ ์ฌ์ฌ์ฉ(์บ์ฑยทํ์ด์ง), (3) KV๋ฅผ ์ด๋์ ๋๋(์คํ๋ก๋ฉยทํฐ์ด๋ง), (4) ์ด๋์ ๊ณ์ฐํ๋(P/D ๋ถ๋ฆฌยทPIM/PNM) โ ๋ก ๋ถ๋ฅํ๊ณ , ์ด๋ฅผ ๊ฐ๋ก์ง๋ฅด๋ ์ ๋ฐ๋ยท์ ๋ขฐ์ฑยท์ค์ผ์ค๋ง ์ถ์ ๋ณ๋๋ก ์ ๋ฆฌํฉ๋๋ค. ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ ๋ํ ๋ ผ๋ฌธ์ ํ๋ก ๋ชจ์์ผ๋ฉฐ, ์ด๋ฆยท๋ฐํ์ฒยทํต์ฌ ๊ธฐ์ฌ๋ฅผ ์์ฝํ์ต๋๋ค. ํ์ ์์นยท๊ธฐ์ฌ๋ ๊ฐ ๋ ผ๋ฌธ์ ๋ณด๊ณ ๊ฐ์ ์์ฝํ ๊ฒ์ผ๋ก, ์์ธํ ์กฐ๊ฑด์ ์๋ฌธ์ ํ์ธํด์ผ ํฉ๋๋ค.
์ด ๋ถ๋ฅ๋ ๋จ์ํ ๊ธฐ๋ฒ ๋ชฉ๋ก์ ๋์ดํ๋ ๋ฐ์ ๋๋์ง ์์ต๋๋ค. ์ค์ ์๋น์ค ์ค๊ณ์์๋ ๊ฐ์ ์์ฒญ ๊ฒฝ๋ก ์์์ ์์ํ, ํ์ด์ง, ์คํ๋ก๋ฉ, ๋ถ๋ฆฌํ ๋ฐฐ์น๊ฐ ๋์์ ์ ์ฉ๋๋ฉฐ, ๊ฐ ๊ธฐ๋ฒ์ HBM ์ฉ๋, PCIe/CXL ๋์ญํญ, TTFT/TPOT ๊ฐ์ ์ง์ฐ ์งํ์ ์ง์ ์ฐ๊ฒฐ๋ฉ๋๋ค. ๋ฐ๋ผ์ ๋ฉ๋ชจ๋ฆฌ ์ค์ฌ ๊ด์ ์ ๋ ผ๋ฌธ ๋ถ๋ฅ์ด์ ์์คํ ์ด์ ๊ด์ ์ ์ฒดํฌ๋ฆฌ์คํธ์ด๊ธฐ๋ ํฉ๋๋ค.
1. ๋ฐฐ๊ฒฝ โ ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ๋ณ๋ชฉ์ธ๊ฐ
๊ทธ๋ฆผ 1. LLM ์๋น์ ๋ฉ๋ชจ๋ฆฌ ๋ฒฝ(์ฉ๋ยท๋์ญํญ)๊ณผ ์ด๊ธฐ์ข ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต, ๊ทธ๋ฆฌ๊ณ ๋ค ๊ฐ์ง ์ต์ ํ ์ง๋ฌธ
LLM ์ถ๋ก ์ ๋์ฝ๋ฉ์ ๋งค ํ ํฐ๋ง๋ค ์ ์ฒด KV ์บ์์ ๊ฐ์ค์น๋ฅผ ์ฝ์ด์ผ ํ๋ memory-bound ์ฐ์ฐ์ ๋๋ค. ๋ ๊ฐ์ง ์๋ฐ์ด ๋์์ ์์ฉํฉ๋๋ค โ ์ฉ๋(KV ์บ์๊ฐ ๋ฌธ๋งฅยท๋ฐฐ์น์ ๋น๋กํด ํญ์ฆ, 70Bยท128Kยท๋ฐฐ์น32์์ KV๋ง 150GB+๋ก HBM ์ด๊ณผ)๊ณผ ๋์ญํญ(HBM์ ๋น ๋ฅด๋ ์๊ณ , ์ฉ๋์ ๋๋ฆฌ๋ ค๋ฉด ๋๋ฆฐ ํ์ ํฐ์ด๊ฐ ํ์). ์ด๊ธฐ์ข ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต(HBM > DRAM > CXL > NVMe)์ ๋น ๋ฅด๊ณ ์์ ๊ณณ๊ณผ ๋๋ฆฌ๊ณ ํฐ ๊ณณ์ ํธ๋ ์ด๋์คํ๋ฅผ ์ด๋ฃน๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๊ด์ ์ ์ต์ ํ๋ ๊ฒฐ๊ตญ ๋ค ์ง๋ฌธ์ผ๋ก ์ ๋ฆฌ๋ฉ๋๋ค: KV๋ฅผ ์ด๋ป๊ฒ ์๊ฒ ๋ง๋ค๊ณ , ์ด๋ป๊ฒ ์ฌ์ฌ์ฉํ๊ณ , ์ด๋์ ๋๊ณ , ์ด๋์ ๊ณ์ฐํ๋๊ฐ.
2. ๋ถ๋ฅ ์ฒด๊ณ
๊ทธ๋ฆผ 2. ๋ฉ๋ชจ๋ฆฌ ๊ด์ LLM ์๋น ์ต์ ํ์ ๋ค ์นดํ ๊ณ ๋ฆฌ์ ๊ฐ๋ก์ง๋ฅด๋ ์ถ(์ ๋ขฐ์ฑยท์ ๋ฐ๋ยทSLO)
KV ์บ์ ๊ด๋ฆฌ ์๋ฒ ์ด(Li et al., TMLR 2025, arXiv 2412.19442)๋ ์ต์ ํ๋ฅผ token-levelยทmodel-levelยทsystem-level๋ก ๋ถ๋ฅํ๊ณ , ๋ ๋ค๋ฅธ ๋ฆฌ๋ทฐ(arXiv 2603.20397)๋ cache evictionยทcompressionยทhybrid memoryยทnovel attentionยทcombination์ ๋ค์ฏ ๋ฐฉํฅ์ผ๋ก ์ ๋ฆฌํฉ๋๋ค. ๋ณธ ๋ฌธ์๋ ์ด๋ฅผ ๋ฉ๋ชจ๋ฆฌ ๊ด์ ์ ๋ค ๊ฐ๋๋ก ์ฌ๊ตฌ์ฑํ๊ณ , ์ ๋ฐ๋ยท์ ๋ขฐ์ฑยท์ค์ผ์ค๋ง์ ๊ฐ๋ก์ง๋ฅด๋ ์ถ์ผ๋ก ๋ก๋๋ค. ํนํ ์ ๋ขฐ์ฑ์ ์ฑ๋ฅ ์ค์ฌ ์ฐ๊ตฌ์ ๋นํด ๋น์ด ์๋ ์์ญ์ด๋ผ ๋ณ๋ ์ (7์ฅ)๋ก ๋ค๋ฃน๋๋ค.
3. KV๋ฅผ ์๊ฒ โ ์์ถยท์ถ์ถยท์ํคํ ์ฒ
KV ์บ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ์ ๊ทผ์ ๋ค ์ถ์ผ๋ก ๋๋ฉ๋๋ค: ํ ํฐ ์ถ์ถ(์ค์ํ์ง ์์ ํ ํฐ ๋ฒ๋ฆฌ๊ธฐ), ๋นํธ(์์ํ), ํค๋/์ ์ฐจ์(์ํคํ ์ฒ), ๊ทธ๋ฆฌ๊ณ ์ดํ ์ ํจํด(๊ตญ์ํ).
์ค์ ๋ก๋ ๋ค ์ถ์ด ์๋ก ๊ฒน์นฉ๋๋ค. ํ ํฐ ์ถ์ถ์ ์ค์๋๊ฐ ๋ฎ์ ํ ํฐ์ ๋ฒ๋ ค ๊ธธ์ด๋ฅผ ์ค์ด๊ณ , ์์ํ๋ ๊ฐ์ ์ ๋ณด๋ฅผ ๋ ์ ์ ๋นํธ๋ก ๋ด์ผ๋ฉฐ, ์ํคํ ์ฒ ๊ธฐ๋ฒ์ ์ ์ด์ KV๊ฐ ๋ ์๊ธฐ๋๋ก ๋ฐ๊ฟ๋๋ค. ๊ตญ์ ์ดํ ์ ์ ๊ธด ๋ฌธ๋งฅ์ ์์ ์ฌ๊ณ์ฐํ์ง ์์ผ๋ฉด์๋ ์บ์ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ ๋ฐฉํฅ์ ๋๋ค.
| ์ถ | ๋ํ ๊ธฐ๋ฒ | ํต์ฌ ์์ด๋์ด |
|---|---|---|
| ํ ํฐ ์ถ์ถยท์ ํ | H2O, StreamingLLM, SnapKV, Scissorhands, Keyformer, BUZZ, Quest | attention score, ์ต๊ทผ์ฑ, ์ง์ ๊ด๋ จ์ฑ, ์ค์๋ ์ง์์ฑ์ ์ด์ฉํด ์ ์งํ ํ ํฐ๋ง ๋จ๊น |
| ์์ํ | KIVI, KVQuant, Oaken | Key/Value๋ฅผ ๋น๋์นญยท๋น๊ท ์ผยทํผํฉ ์ ๋ฐ๋๋ก ์ ์ฅํด ๋ฉ๋ชจ๋ฆฌ์ ๋์ญํญ์ ์ค์ |
| ํค๋ยท์ ์ฐจ์ยท์ดํ ์ | GQA/MQA, MLA, Sliding Window Attention, Gemma 2 interleave | head ์๋ latent ์ฐจ์์ ์ค์ด๊ฑฐ๋, ์ง์ญ ์ดํ ์ ์ผ๋ก KV ์์ฑ์ ์ต์ |
3.1 ํ ํฐ ์ถ์ถยท์ ํ (Token Eviction / Selection)
ํ ํฐ ์ถ์ถ์ KV ์ ์ฒด๋ฅผ ์ ์งํ์ง ์๊ณ , ๋ค์ ํ ํฐ ์์ธก์ ๋ ์ค์ํ ํญ๋ชฉ์ ๋ฒ๋ฆฌ๋ ๋ฐฉ์์
๋๋ค. StreamingLLM์ attention sink์ ์ต๊ทผ ์๋์ฐ๋ฅผ ์ ์งํ๊ณ , H2O๋ ๋์ ์ดํ
์
์ด ๋์ heavy hitter๋ฅผ ๋จ๊น๋๋ค. SnapKV๋ prefill ๋์์ ๊ด์ธกํ ์ฐฝ์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ํ ์์น๋ฅผ ๊ณ ๋ฅด๊ณ , Scissorhands๋ ์ค์ ํ ํฐ์ ์ง์์ฑ์ ๊ฐ์ ํฉ๋๋ค. Quest๋ ์ง์ ์ธ์ํ ํ์ด์ง ๋ก๋ฉ์ผ๋ก ์ฌ์ฌ์ฉ ๊ฐ๋ฅ ๋ฒ์๋ฅผ ์ขํ๊ณ , Ada-KV์ NACL์ ์์ฐ๊ณผ ๊ณต์ ์ฑ์ ํจ๊ป ๋ค๋ฃน๋๋ค.
3.2 ์์ํ (Quantization)
์์ํ๋ KV๋ฅผ ๋ ๋ฎ์ ๋นํธ์๋ก ํํํด ์ฉ๋๊ณผ ์ ์ก๋์ ๋์์ ์ค์
๋๋ค. KIVI๋ Key์ Value์ ์๋ก ๋ค๋ฅธ ์ถ์ ์์ํ๋ฅผ ์ ์ฉํ๊ณ , KVQuant๋ ๋น๊ท ์ผ ์์ํ์ per-channel ์ค๊ณ๋ฅผ ๊ฒฐํฉํด ๊ธด ๋ฌธ๋งฅ์์๋ ์ ํ๋๋ฅผ ์งํต๋๋ค. Oaken์ ์จ๋ผ์ธยท์คํ๋ผ์ธ์ ์์ ํ์ด๋ธ๋ฆฌ๋ ์ ๋ต์ผ๋ก ์๋น ์ฑ๋ฅ๊ณผ ํจ์จ์ ํจ๊ป ๋
ธ๋ฆฝ๋๋ค.
3.3 ํค๋ยท์ ์ฐจ์ยท์ํคํ ์ฒ (Architectural)
์ํคํ
์ฒ ๊ธฐ๋ฒ์ KV ์์ฒด์ ์์ฑ๋์ ์ค์ด๊ฑฐ๋, ๋ฌธ๋งฅ ์ ์ฒด ๋์ ํ์ํ ๋ฒ์๋ง ๋ณด๋๋ก ๋ง๋ญ๋๋ค. GQA/MQA๋ KV head ์๋ฅผ ์ค์ฌ ์บ์๋ฅผ ์์ถํ๊ณ , MLA๋ ์ ์ฐจ์ latent๋ก KV๋ฅผ ํก์ํฉ๋๋ค. Sliding Window Attention์ ์ต๊ทผ ํ ํฐ๋ง ๋ณด๋ ๊ตญ์ ์ดํ
์
์ผ๋ก ๊ธธ์ด ์์กด์ฑ์ ์ ํํ๊ณ , Gemma 2์ interleave ๋ฐฉ์์ ๊ตญ์/์ ์ญ ๋ ์ด์ด๋ฅผ ์์ด ํจ์จ๊ณผ ์ฅ๊ฑฐ๋ฆฌ ์ฑ๋ฅ์ ๋ง์ถฅ๋๋ค.
4. KV๋ฅผ ์ฌ์ฌ์ฉ โ ํ์ด์งยท์บ์ฑ
์ด๋ฏธ ๊ณ์ฐํ KV๋ฅผ ๋ค์ ๋ง๋ค์ง ์๋๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ณ (ํ์ด์ง), ๊ณตํต ๋ถ๋ถ์ ์ฌ์ฌ์ฉํฉ๋๋ค(์บ์ฑ).
ํ์ด์ง ๊ณ์ด์ fragmentation์ ์ค์ด๊ณ , ์บ์ฑ ๊ณ์ด์ prefix๋ ์๋ฏธ๊ฐ ๊ฐ์ ์์ฒญ์ ์ฌ์ฌ์ฉํฉ๋๋ค. ๋ ๋ค ๋ชฉ์ ์ ๊ฐ์ง๋ง, ์ ์๋ ๋ฉ๋ชจ๋ฆฌ ๋ฐฐ์น์ ๋ญ๋น๋ฅผ ์ค์ด๊ณ ํ์๋ ์ค๋ณต ๊ณ์ฐ ์์ฒด๋ฅผ ํผํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค.
| ๋ฐฉ์ | ์ฌ์ฌ์ฉ ๋์ | ๊ฐ์ | ์ฃผ์์ |
|---|---|---|---|
| PagedAttention / vLLM | KV ๋ธ๋ก | near-zero waste, ๋์ batch ํจ์จ | ๋ธ๋ก ๊ฐ ๊ฐ์ ์ฐธ์กฐ ๋น์ฉ์ด ์์ |
| vAttention | ์ฐ์ ๊ฐ์ ์ฃผ์ + ๋ฌผ๋ฆฌ ๋ฉ๋ชจ๋ฆฌ | CUDA VMM์ผ๋ก ๋ฒ์ฉ kernel ์ง์ | VMM ์ง์๊ณผ ๊ตฌํ ๋ณต์ก๋ ์์กด |
| RadixAttention / APC | prefix tree ๋ธ๋ก | ๋ฉํฐํด ํ๋กฌํํธ ๊ณต์ ์ ๊ฐํจ | ์ ํํ prefix ์ผ์น๊ฐ ํ์ |
| Prompt caching | provider prompt | API ์์ค์์ ๊ฐ๋จํ ์ ์ฉ | ์ ์ ํ๋กฌํํธ์ ์ ํฉ |
| Semantic caching | ์๋ฏธ ์ ์ฌ ์ง์/์๋ต | ๋ฐ๋ณต ์ง์ ๋น์ฉ์ ํฌ๊ฒ ์ค์ | false hit/miss ์ ์ด๊ฐ ํต์ฌ |
MeanCache๋ ์๋ฏธ์ ์ผ๋ก ์ ์ฌํ ์ง์๋ฅผ ์ฌ์ฉ์ ๋จ์๋ก ๋ค๋ฃจ๊ณ , ์ปจํ
์คํธ ์ฒด์ธ์ ํจ๊ป ์ ์ฅํด contextual query์ ์คํ์ ์ค์ด๋ ค๋ ์ ๊ทผ์
๋๋ค. ์ด๋ฐ ๊ณ์ด์ ๊ฒ์ํ ์๋น์ค๋ ๋ฐ๋ณต ์ง์๊ฐ ๋ง์ ํ๊ฒฝ์์ ํนํ ์ ํจํฉ๋๋ค.
5. KV๋ฅผ ์ด๋ ๋๋ โ ์คํ๋ก๋ฉยทํฐ์ด๋ง
๊ทธ๋ฆผ 3. ์คํ๋ก๋ฉยทํฐ์ด๋ง๊ณผ ์ ์ก ๋ณ๋ชฉ(PCIe)์ ์ค์ด๋ ํต์ฌ ๊ธฐ๋ฒ
GPU์ ๋ค ๋ด์ง ๋ชปํ๋ KV(๋ฐ ๊ฐ์ค์น)๋ฅผ CPUยทCXLยทNVMe๋ก ๋ด๋ฆฌ๊ณ , ํ์ํ ๊ฒ๋ง ์์ธกํด ์ ์ฌํฉ๋๋ค. ๊ณตํต ๋ณ๋ชฉ์ PCIe/CXL ๋งํฌ ๋์ญํญ์ด๋ฉฐ, ์์ธกยทํ๋ฆฌํ์นยท์์ถยท์คํธ๋ฆฌ๋ฐ์ผ๋ก ์ ์ก๋์ ์ค์ ๋๋ค. CXL์ ๋จ์ํ ๋๋ฆฐ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์๋๋ผ, ์ฌ๋ฌ ์๋ฒ๊ฐ ๋๋ ์ฐ๋ pooled capacity๋ก๋ ์ฐ์ ๋๋ค.
| ํฐ์ด | ํน์ง | ์ฐ์์ |
|---|---|---|
| HBM | ๊ฐ์ฅ ๋น ๋ฅด์ง๋ง ์์ | hot KV, ํ์ฑ ๊ฐ์ค์น |
| DRAM | HBM๋ณด๋ค ํฌ๊ณ ๋๋ฆผ | warm KV, host-side cache |
| CXL | ํ๋ง ์ฉ๋, ์ค๊ฐ ๋์ญํญ | ๊ณต์ KV, tiering |
| NVMe / SSD | ๊ฐ์ฅ ํฐ ์ฉ๋, ๊ฐ์ฅ ํฐ ์ง์ฐ | cold KV, archival offload |
FlexGen์ ๋ ์ด์ด๋ณ placement๋ฅผ LP๋ก ์ต์ ํํ๊ณ , DeepSpeed-Inference๋ ๋ ์ด์ด ๋จ์ ์คํ๋ก๋ฉ์ผ๋ก GPU ๋ฉ๋ชจ๋ฆฌ ์์ฐ์ ์ค์
๋๋ค. InfiniGen์ ๋ค์ ๋ ์ด์ด์ ํ์ํ KV๋ง rehearsal ๊ธฐ๋ฐ์ผ๋ก ์์ธกํด ๊ฐ์ ธ์ค๊ณ , CacheGen๊ณผ LMCache๋ ์์ถยท๋ค์ธต ์ ์ฅ์ผ๋ก ์ ์ก๊ณผ ์ฌ์ฌ์ฉ์ ํจ๊ป ๋ค๋ฃน๋๋ค. Select-N๊ณผ Aqua๋ SLO์ ๋คํธ์ํฌ ์ํฉ์ ํจ๊ป ๊ณ ๋ คํด ์ด๋ค ์์ฒญ์ ๋ด๋ฆด์ง ์ ํฉ๋๋ค.
6. ์ด๋์ ๊ณ์ฐํ๋ โ P/D ๋ถ๋ฆฌ์ PIM/PNM
6.1 PrefillโDecode ๋ถ๋ฆฌ (Disaggregation)
๊ณ์ฐ์ง์ฝ prefill๊ณผ ๋ฉ๋ชจ๋ฆฌ์ง์ฝ decode๋ฅผ ๋ค๋ฅธ ํ๋์จ์ด๋ก ๋ถ๋ฆฌํด ๊ฐ์ญ์ ์์ ๊ณ ๊ฐ์ ์ต์ ํํฉ๋๋ค.
| ๋จ๊ณ | ๋ณ๋ชฉ | ๋ง๋ ๋ฐฐ์น |
|---|---|---|
| Prefill | compute-bound GEMM | GPU / NPU, ํฐ ๋ฐฐ์น |
| Decode | memory-bound GEMV | PIM / PNM, ๋์ ๋์ญํญ |
DistServe๋ prefill๊ณผ decode๋ฅผ ์๋ก ๋ค๋ฅธ GPU์ ๋ฐฐ์นํด TTFT์ TPOT๋ฅผ ๋ถ๋ฆฌํด ์ต์ ํํ๊ณ , Splitwise๋ prompt์ token ๋จ๊ณ๋ฅผ ๋ค๋ฅธ ๋จธ์ ์ด๋ ์ด์ข
GPU๋ก ๋๋๋๋ค. Mooncake๋ KVCache ์์ฒด๋ฅผ ๋ถ๋ฆฌํ ํ๋ก ๋ค๋ค ๊ณต์ ๋ฅผ ์ ์ ๋ก ํฉ๋๋ค. ํต์ฌ์ ๋ถ๋ฆฌ๊ฐ ๋ชฉ์ ์ด ์๋๋ผ, ๋จ๊ณ๋ณ๋ก ๋ค๋ฅธ ๋ณ๋ชฉ์ ๋ง๋ ์์์ ์ฃผ๋ ๋ฐ ์์ต๋๋ค.
6.2 PIM / PNM โ ๋ฉ๋ชจ๋ฆฌ ๊ณ ์ฐ์ฐ
๊ทธ๋ฆผ 4. CXLยทPIM/PNM(๋ฉ๋ชจ๋ฆฌ ๊ณ ์ฐ์ฐ)๊ณผ ๋ํ ์ฐ๊ตฌ โ Ryotta ์ฐ๊ตฌ์ ์ง๊ฒฐ
๋์ฝ๋ฉ์ GEMV๋ ๋ฉ๋ชจ๋ฆฌ ๋ฐ์ด๋๋ผ ๋ฑ ํฌ ๋ณ๋ ฌ PIM์ ์ ํฉํ๊ณ , prefill์ GEMM์ NPU/GPU๊ฐ ๋งก๋ ์ด์ข ๊ฐ์์ด ํต์ฌ ํจํด์ ๋๋ค. CXL์ ์ฉ๋ยทํ๋ง ํฐ์ด๋ฅผ, PNM์ ๋ฉ๋ชจ๋ฆฌ ๊ณ ์ฐ์ฐ์ผ๋ก ์ ์ก ์์ฒด๋ฅผ ์ค์ ๋๋ค.
AttAcc, NeuPIMs, IANUS, SpecPIM์ HBM-PIM๊ณผ NPU๋ฅผ ํจ๊ป ์จ์ ๋์ฝ๋ฉ ๋์ญํญ ๋ณ๋ชฉ์ ์ํํ๊ณ , LPDDR-CXL-PNM, CXL-NDP, Scalable CXL-PNM, Sangam์ CXL ๊ณ์ธต์ด๋ ์นฉ๋ DRAM ์ชฝ์์ ๋ ๋ง์ ์ผ์ ์ฒ๋ฆฌํ๊ฒ ๋ง๋ญ๋๋ค. ์ด ๊ฐ๋๋ ๋ชจ๋ "๋ฐ์ดํฐ๋ฅผ GPU๋ก ๊ฐ์ ธ์ค๊ธฐ ์ ์, ๋ฉ๋ชจ๋ฆฌ ๊ทผ์ฒ์์ ๋๋ผ ์ ์๋"๋ฅผ ๋ฌป์ต๋๋ค.
7. ์ฅ๋จ์
๋ฉ๋ชจ๋ฆฌ ์ค์ฌ ์ต์ ํ์ ๊ฐ์ฅ ํฐ ์ฅ์ ์, LLM ์๋น์ ์ค์ ๋ณ๋ชฉ์ธ KV ์บ์ ์ฉ๋๊ณผ ๋์ฝ๋ฉ ๋์ญํญ์ ์ง์ ๊ฒจ๋ฅํ๋ค๋ ์ ์ ๋๋ค. ์์ํยท์ถ์ถยท์ํคํ ์ฒ ๋ณ๊ฒฝ์ ๊ฐ์ HBM ์์ฐ์์ ๋ ๊ธด ๋ฌธ๋งฅ๊ณผ ๋ ํฐ ๋ฐฐ์น๋ฅผ ์์ฉํ๊ฒ ๋ง๋ค๊ณ , ํ์ด์งยท์บ์ฑ์ ๋จํธํ์ ์ค๋ณต ๊ณ์ฐ์ ์ค์ฌ ์ฒ๋ฆฌ๋์ ๋์ ๋๋ค. ์คํ๋ก๋ฉยทํฐ์ด๋ง๊ณผ P/D ๋ถ๋ฆฌ๋ HBM ๋ฐ์ DRAMยทCXLยทSSD๊น์ง ์์ ํ์ ๋ํ, ๋จ์ผ GPU ๋ฉ๋ชจ๋ฆฌ ํ๊ณ๋ฅผ ์์คํ ์ฐจ์ ๋ฌธ์ ๋ก ์ฌ์ ์ํฉ๋๋ค.
๋ฐ๋ฉด ๊ธฐ๋ฒ ๊ฐ ๊ฒฐํฉ์ด ๋ณต์กํด์ง์๋ก ๊ตฌํ ๋๋์ ์ด์ ๋ฆฌ์คํฌ๋ ์ปค์ง๋๋ค. KV ์ถ์ถ๊ณผ ์์ํ๋ ์ ํ๋ ์ ํ๋ ํ์ง ํธ์ฐจ๋ฅผ ์ ๋ฐํ ์ ์๊ณ , ์คํ๋ก๋ฉยทํฐ์ด๋ง์ PCIe/CXL ๋ณ๋ชฉ๊ณผ ์์ธก ์คํจ ๋น์ฉ์ ๋๋ฐํฉ๋๋ค. ๋ถ๋ฆฌํ ๋ฐฐ์น์ PIM/PNM์ ์ฑ๋ฅ ์ ์ฌ๋ ฅ์ ํฌ์ง๋ง, ๋ฐํ์ ์ค์ผ์ค๋ฌยท๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ยท์ปค๋ ํธํ์ฑ๊น์ง ํจ๊ป ๋ง์ถฐ์ผ ํ๋ฏ๋ก ์ํํธ์จ์ด ์คํ ์์กด์ฑ์ด ๋์ต๋๋ค.
8. ๊ฐ๋ก์ง๋ฅด๋ ์ถ โ ์ ๋ขฐ์ฑ(๋น์ด ์๋ ์์ญ)
๊ทธ๋ฆผ 5. KV ์บ์์ ์ค๋ฅ ๋ด์ฑ, reliability-aware ์ค๊ณ ๊ธฐํ, ๊ทธ๋ฆฌ๊ณ ์ ์ฒด ์ ๋ฆฌ
์ฑ๋ฅ ์ฐ๊ตฌ์ ๋นํด ์ ๋ขฐ์ฑ์ ์๋์ ์ผ๋ก ๋น์ด ์๋ ์์ญ์ ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ๋ค์ด ๊ณตํต์ ์ผ๋ก ๋ณด๊ณ ํ๋ ํต์ฌ ๋ฐ๊ฒฌ์, KV ์บ์๊ฐ ๋นํธ ์ค๋ฅ์ ๋น๊ต์ ๊ฐํ๋ค๋ ๊ฒ โ softmax ์ฐ์ฐ์ด ์ค๋ฅ๋ฅผ ํฌ์(masking)ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ค๋ง ํ ํฐ ์ค์๋ยท๋นํธ ์์น(MSB)ยท๋ ์ด์ด์ ๋ฐ๋ผ ๋ฏผ๊ฐ๋๊ฐ ๋ค๋ฅด๋ฏ๋ก ์ฐจ๋ฑ ๋ณดํธ์ ์ฌ์ง๊ฐ ์์ต๋๋ค.
์ฐ๊ตฌ ๊ธฐํ โ KV๊ฐ ๋นํธ ์ค๋ฅ์ ๋น๊ต์ ๊ฐํ๋ค๋ ์ ๊ณผ ์ค์๋๋ณ ๋ฏผ๊ฐ๋ ์ฐจ์ด๋ฅผ ๊ฒฐํฉํ๋ฉด, '์ด๋ KV๋ฅผ ยท ์ด๋ ํฐ์ด์ ยท ๋ช ๋นํธ๋ก ยท ์ด๋ค ECC ๊ฐ๋๋ก' ๋์ง๋ฅผ ๋์์ ์ ํ๋ reliability-aware ํฐ์ด๋ง/์คํ๋ก๋ฉ์ด ์์ฐ์ค๋ฌ์ด ๋น์นธ์ด๋ค. ์ฑ๋ฅ SLO์ ์ ํ๋(์ค๋ฅ) SLO๋ฅผ ํจ๊ป ๋ค๋ฃจ๋ ์ค์ผ์ค๋ง์ ์์ง ์ถฉ๋ถํ ํ๊ตฌ๋์ง ์์๋ค. ์ด๋ ์ด๊ธฐ์ข ๋ฉ๋ชจ๋ฆฌ(CXLยทPIM/PNM)์์ ํนํ ์๋ฏธ๊ฐ ํฐ๋ฐ, ํฐ์ด๋ง๋ค ๋นํธ ์ค๋ฅ ํน์ฑ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค.
| ๋ฐฉํฅ | ๋ํ ์ฐ๊ตฌ | ์์ฌ์ |
|---|---|---|
| refresh-aware | Kelle, SHIELD | ์ค์ ํ ํฐ๊ณผ ๋น์ค์ ํ ํฐ์ ๋ค๋ฅธ refresh ์ ์ฑ ์ผ๋ก ๋ค๋ฃธ |
| storage-aware | KVNAND | KV๋ฅผ NAND ์ชฝ์ ๋๋๋ผ๋ softmax masking์ด ์ด๋ ์ ๋ ๋ฒํ |
| precision-aware | FineServe | ์์ํ ํน์ฑ์ ๋ง์ถ slab / scheduling์ด ๊ฐ๋ฅํจ |
| fault study | GPU soft-error ์ฐ๊ตฌ | ๋จ์ผ ๋นํธ๋ ์์ฃผ ๊ฐ๋ ค์ง์ง๋ง ๋์ ์ค๋ฅ๋ ์ํํจ |
๊ด๋ จ ์๋ฒ ์ด์ ๊ธฐ์ค ๋ฌธํ
| ์๋ฃ | ๊ด์ |
|---|---|
| A Survey on Large Language Model Acceleration based on KV Cache Management (arXiv 2412.19442) | token-level, model-level, system-level taxonomy |
| A Survey on Efficient Inference for Large Language Models (arXiv 2404.14294) | data/model/system optimization๊ณผ ๋ณ๋ชฉ ์์ธ ์ ๋ฆฌ |
| Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective (arXiv 2410.04466) | CPU/GPU/FPGA/ASIC/PIM/NDP ๊ด์ ๋น๊ต |
| PagedAttention Analysis | page/block ๊ธฐ๋ฐ KV ๊ด๋ฆฌ |
| KV Cache Quantization Analysis | KV ๋นํธํญ ์ถ์์ ์ ํ๋ ์ ์ถฉ |
| Disaggregated LLM Serving Analysis | P/D ๋ถ๋ฆฌ์ ํด๋ฌ์คํฐ ๋ฐฐ์น |
9. ์ข ํฉ ์ ๋ฆฌ
๋ฉ๋ชจ๋ฆฌ ๊ด์ ์์ LLM ์๋น ์ต์ ํ๋ ๋ค์๊ณผ ๊ฐ์ด ์๋ ดํฉ๋๋ค.
-
KV๋ฅผ ์๊ฒ โ ํ ํฐ ์ถ์ถ(H2OยทStreamingLLMยทSnapKVยทQuestยทScissorhands)ยท์์ํ(KIVIยทKVQuantยทOaken)ยท์ ์ฐจ์(MLAยทGQA)ยท๊ตญ์ ์ดํ ์ (SWAยทGemma ์ธํฐ๋ฆฌ๋ธ).
-
KV๋ฅผ ์ฌ์ฌ์ฉ โ ํ์ด์ง(PagedAttentionยทvAttention)ยทํ๋ฆฌํฝ์ค ์บ์ฑ(RadixAttentionยทAPCยทํ๋ก๋ฐ์ด๋ prompt caching)ยท์๋งจํฑ ์บ์ฑ(GPTCache)ยท์ด๊ธฐ์ข ํ์ด์ง(Jenga).
-
KV๋ฅผ ์ด๋ ๋๋ โ ์คํ๋ก๋ฉ(FlexGenยทDeepSpeedยทPowerInferยทLMCacheยทCacheGenยทInfiniGen)๊ณผ SLOยท๋คํธ์ํฌ ์ธ์ ๋ฐฐ์น(Select-NยทAqua), ์์ธกยทํ๋ฆฌํ์น๋ก PCIe ๋ณ๋ชฉ ์ํ.
-
์ด๋์ ๊ณ์ฐํ๋ โ P/D ๋ถ๋ฆฌ(DistServeยทSplitwiseยทMooncakeยทSarathi-ServeยทTetriInfer)์ PIM/PNM(AttAccยทNeuPIMsยทIANUSยทSpecPIM)ยทCXL ํฐ์ด/๊ณ์ฐ์ฐ(LPDDR-CXL-PNMยทPondยทCXL-NDPยทScalable CXL-PNMยทSangam).
-
๊ฐ๋ก์ง๋ฅด๋ ์ถ โ ์ ๋ฐ๋(์์ํ)ยท์ ๋ขฐ์ฑ(KelleยทSHIELDยทKVNANDยทsoft-error ์ฐ๊ตฌ)ยท์ค์ผ์ค๋ง/SLO. ์ ๋ขฐ์ฑ์ ์๋์ ์ผ๋ก ๋น์ด ์์ด ์ฐ๊ตฌ ๊ธฐํ๊ฐ ํฌ๋ค.
ํต์ฌ ๋ฉ์์ง โ LLM ์๋น์ ๋ฉ๋ชจ๋ฆฌ ๋ฒฝ์ HBM(๋์ญํญ)+CXL(์ฉ๋ยทํ๋ง)+๊ณ์ฐ์ฐ(PIM/PNM)์ ์ด๊ธฐ์ข ๊ณ์ธต์ผ๋ก ๊ตฌ์กฐ์ ์ผ๋ก ํด์๋๋ ๋ฐฉํฅ์ผ๋ก ์๋ ดํ๊ณ ์๋ค. KV ์บ์ ๊ด๋ฆฌ(์๊ฒยท์ฌ์ฌ์ฉยท์ด๋๋๋)์ ์ฐ์ฐ ๋ฐฐ์น(P/D ๋ถ๋ฆฌยท๋ฉ๋ชจ๋ฆฌ ๊ณ ์ฐ์ฐ)๋ ์๋ก ์ง๊ต์ ์ด์ด์ ํจ๊ป ์ ์ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ชจ๋ ๊ฐ๋๋ฅผ ๊ฐ๋ก์ง๋ฅด๋ ์ ๋ฐ๋ยท์ ๋ขฐ์ฑยทSLO ์ถ์์, ํนํ 'reliability-aware ํ KV ํฐ์ด๋ง/์คํ๋ก๋ฉ'(์ด๋ KV๋ฅผ ์ด๋ ํฐ์ด์ ๋ช ๋นํธยท์ด๋ค ECC๋ก ๋์ง๋ฅผ ์ ํ๋ SLO์ ํจ๊ป ์ ์ํ)์ด ์ฑ๋ฅ ์ค์ฌ ์ฐ๊ตฌ๊ฐ ์ฑ์ฐ์ง ๋ชปํ ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ๋น์นธ์ด๋ค.
์ฃผ์ โ ๋ณธ ์ ๋ฆฌ๋ ๊ฐ ๋ ผ๋ฌธยท์๋ฒ ์ด(KV ์บ์ ๊ด๋ฆฌ ์๋ฒ ์ด arXiv 2412.19442, ํจ์จ์ ์ถ๋ก ์๋ฒ ์ด arXiv 2404.14294, ํ๋์จ์ด ๊ด์ ์๋ฒ ์ด arXiv 2410.04466, PagedAttention arXiv 2309.06180, DistServe arXiv 2401.09670, vAttention arXiv 2405.04437, InfiniGen arXiv 2406.19707, MeanCache arXiv 2403.02694, ๊ทธ๋ฆฌ๊ณ ๋ณธ๋ฌธ์ ์ธ์ฉํ ๊ฐ๋ณ ๋ ผ๋ฌธ๋ค)์ ๊ธฐ๋ฐํ๋ค. ํ์ '๋ฐํ์ฒยท์ฐ๋ยท์์น'๋ ๋ณด๊ณ ๊ฐ์ ์์ฝํ ๊ฒ์ผ๋ก ๋ฒ์ ยท์กฐ๊ฑด์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์์ผ๋ฉฐ, ์ผ๋ถ arXiv ์ ์ฉ/ํ๋ฆฌํ๋ฆฐํธ๊ฐ ํฌํจ๋๋ค. ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ ๋ถ์ผ๋ผ ๋ณธ ๋ชฉ๋ก์ ๋ํ ์ฌ๋ก์ ์ผ๋ถ์ด๋ฉฐ ์์ ํ์ง ์๋ค. ์ ํํ ์์นยท๋ฐฉ๋ฒ์ ์๋ฌธ ํ์ธ์ด ํ์ํ๋ค.
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| StreamingLLM | ICLR 2024 | attention sink(์ด๊ธฐ ํ ํฐ) + ์ต๊ทผ ์๋์ฐ๋ก ๋ฌดํ ์คํธ๋ฆฌ๋ฐ, 4M ํ ํฐยท22.2๋ฐฐ (arXiv 2309.17453) |
| H2O | NeurIPS 2023 | heavy-hitter(๋์ ์ดํ ์ ์ ์ ์์) + ์ต๊ทผ ํ ํฐ๋ง ์ ์งํ๋ ๋์ ์ถ์ถ (arXiv 2306.14048) |
| Scissorhands | NeurIPS 2023 | '์ค์๋ ์ง์์ฑ ๊ฐ์ค' โ ์ค์ ํ ํฐ์ ๊ณ์ ์ค์, ํ ์คํธ ์ KV ์์ถ |
| SnapKV | NeurIPS 2024 | ํ๋กฌํํธ ๋ ๊ด์ธก ์๋์ฐ๋ก ์ค์ ์์น๋ฅผ prefill ๋จ๊ณ์ ์ ๋ณ (arXiv 2404.14469) |
| Quest | ICML 2024 | ์ง์ ์ธ์ ํฌ์์ฑ โ KV๋ฅผ ํ์ด์ง๋ก ๋ฌถ์ด ์ง์ ๊ด๋ จ ํ์ด์ง๋ง ๋์ ๋ก๋(์ ์ฒด๋ ๋ณด๊ด) |
| Ada-KV / NACL | 2024 | ์ ์์ ์์ฐ ๋ฐฐ๋ถ(Ada-KV)ยทํธํฅ ์๋ ๋ฌด์์ ์ถ์ถ(NACL)๋ก ์ถ์ถ ํ์ง ๊ฐ์ |
| Keyformer / BUZZ | MLSys/2024 | key ํ ํฐ ์ ํ(Keyformer)ยท๋ฒ์งํ ์ธ๊ทธ๋จผํธ heavy hitter(BUZZ) |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| KIVI | ICML 2024 | Key=per-channel, Value=per-token ๋น๋์นญ 2๋นํธ ์์ํ, ๋ฌดํ์ต (arXiv 2402.02750) |
| KVQuant | NeurIPS 2024 | per-channel Key + non-uniform(NUQ) 3๋นํธ ๋ฏธ๋ง, 1์ฒ๋ง ๋ฌธ๋งฅ ์ง์ (arXiv 2401.18079) |
| Oaken | 2025 | online-offline ํ์ด๋ธ๋ฆฌ๋ KV ์์ํ๋ก ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์๋น |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| GQA / MQA | 2023 | KV ํค๋ ์๋ฅผ ์ค์ฌ(๊ทธ๋ฃน/๋จ์ผ) KV ์บ์ ์ถ์ (arXiv 2305.13245 / 1911.02150) |
| MLA (DeepSeek-V2) | 2024 | ์ ์ฐจ์ latent๋ก KV ์์ถ(KV 93% ๊ฐ์)ยทdecoupled RoPE (arXiv 2405.04434) |
| Sliding Window Attn | 2020~ | ๊ฐ ํ ํฐ์ด ์ต๊ทผ W๊ฐ๋ง ๋ณด๋ ๊ตญ์ ์ดํ ์ , ๋ ์ด์ด๋ก receptive field ํ๋(LongformerยทMistral) |
| Gemma 2 ์ธํฐ๋ฆฌ๋ธ | 2024 | ๊ตญ์ SWA โ ์ ์ญ full ๋ ์ด์ด ๊ต๋๋ก ํจ์จยท์ฅ๊ฑฐ๋ฆฌ ๊ท ํ (arXiv 2408.00118) |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| PagedAttention / vLLM | SOSP 2023 | OS ํ์ด์ง์ฒ๋ผ KV๋ฅผ ๋ธ๋ก ๋จ์๋ก ๊ด๋ฆฌํด ๋จํธํ ์ ๊ฑฐ(60~80%โ4%) (arXiv 2309.06180) |
| vAttention | ASPLOS 2025 | CUDA ๊ฐ์๋ฉ๋ชจ๋ฆฌ(VMM)๋ก ์ฐ์ ๊ฐ์์ฃผ์ + ๋์ ๋ฌผ๋ฆฌํ ๋น, vLLM ๋๋น 1.97๋ฐฐ (arXiv 2405.04437) |
| RadixAttention / SGLang | 2024 | ํ ํฐ ๋จ์ radix tree๋ก ํ๋ฆฌํฝ์ค ์๋ ๊ณต์ ยท์ฌ์ฌ์ฉ, ๋ฉํฐํด 10~20% (arXiv 2312.07104) |
| vLLM APC | 2023~ | ๋ธ๋ก ํด์ ๊ธฐ๋ฐ ์๋ ํ๋ฆฌํฝ์ค ์บ์ฑ(Automatic Prefix Caching) + LRUยทref-count |
| Prompt Caching (ํ๋ก๋ฐ์ด๋) | 2024~ | ์ ์ ํ๋ฆฌํฝ์ค ์บ์ฑ API(์๋/๋ช ์) โ ๋น์ฉยท์ง์ฐ ๋ํญ ์ ๊ฐ |
| GPTCache (Semantic) | 2023~ | ์ง๋ฌธ ์๋ฒ ๋ฉ ์ ์ฌ๋๋ก '์๋ต ์์ฒด' ์ฌ์ฌ์ฉ(๊ทผ์ฌ์ ), LLM ํธ์ถ ํํผ (arXiv 2403.02694) |
| Jenga | SOSP 2025 | ์ด๊ธฐ์ข ์๋ฒ ๋ฉ์ ๊ณ ๋ คํ PagedAttention ํ์ฅ, ํจ๊ณผ์ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| FlexGen | ICML 2023 | ๋จ์ผ GPU์ ๊ฐ์ค์นยทKV๋ฅผ CPUยท๋์คํฌ๋ก ์คํ๋ก๋, LP ๊ธฐ๋ฐ ์ต์ ๋ฐฐ์น (arXiv 2303.06865) |
| DeepSpeed-Inference | SC 2022 | ํ์ฌ ๋ ์ด์ด๋ง GPU, ๋๋จธ์ง host๋ก ์คํ๋ก๋(ZeRO-Inference) |
| PowerInfer | SOSP 2024 | ํ์ฑ ๋น๋ ๋์ hot ๋ด๋ฐ์ GPU, cold๋ CPU โ neuron-aware ์คํ๋ก๋ฉ (arXiv 2312.12456) |
| LMCache | 2024~ | ์์ง(vLLM/SGLang)์์ KV ์ถ์ถยท๋ค์ธต(GPU/CPU/๋์คํฌ) ์ ์ฅยท๊ณต์ , ์ต๋ 15๋ฐฐ (arXiv 2510.09665) |
| CacheGen | SIGCOMM 2024 | KV ๋ถํฌ ํน์ฑ ํ์ฉ ํ ์ ์ธ์ฝ๋๋ก ์์ถยท์คํธ๋ฆฌ๋ฐ, ํฌ๊ธฐ 3.5~4.3๋ฐฐโ (arXiv 2310.07240) |
| InfiniGen | OSDI 2024 | ๋ค์ ๋ ์ด์ด ์ค์ ํ ํฐ์ rehearsal๋ก ์์ธกํด ํ์ํ KV๋ง prefetch, 3๋ฐฐ (arXiv 2406.19707) |
| Select-N / Aqua | 2025 | SLOยท๋คํธ์ํฌ๋ฅผ ๊ณ ๋ คํ ์ ํ์ ์คํ๋ก๋ฉ์ผ๋ก ์ง์ฐ ๋ณด์ฅ(Aqua: ASPLOS'25) |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| Orca | OSDI 2022 | ์ฐ์ ๋ฐฐ์นญ(iteration-level batching)์ผ๋ก head-of-line blocking ์ํยท์ฒ๋ฆฌ๋โ |
| Sarathi-Serve | OSDI 2024 | chunked prefill + stall-free ๋ฐฐ์นญ์ผ๋ก colocation ๊ฐ์ญ ์ํ, 2.6~5.6๋ฐฐ (arXiv 2403.02310) |
| DistServe | OSDI 2024 | prefill/decode๋ฅผ ๋ค๋ฅธ GPU์ ๋ถ๋ฆฌ, goodput ์ต์ ํยท์์ ๊ณต๋ ์ต์ ํ (arXiv 2401.09670) |
| Splitwise | ISCA 2024 | prompt/token ๋จ๊ณ๋ฅผ ๋ค๋ฅธ ๋จธ์ ยท์ด์ข GPU์ ๋ถ๋ฆฌ, 2.35๋ฐฐ ์ฒ๋ฆฌ๋ (arXiv 2311.18677) |
| Mooncake | FAST 2025 | KVCache ์ค์ฌ ๋ถ๋ฆฌ + CPU/DRAM/SSD ๋ถ๋ฆฌํ KV ํ, ์ต๋ 525% (arXiv 2407.00079) |
| TetriInfer / Nexus | 2024~ | ์์ฒญ์ ์ง์ฐ ํด๋์ค๋ก ๋ผ์ฐํ (TetriInfer)ยทintra-GPU ๋ถ๋ฆฌ(Nexus) |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| AttAcc | ASPLOS 2024 | NPU+HBM-PIM ์ด์ข ๊ฐ์์ผ๋ก ์ดํ ์ (GEMV) ์ฒ๋ฆฌ, ๋์ฝ๋ฉ ๋์ญํญ ๋ณ๋ชฉ ์ํ |
| NeuPIMs | ASPLOS 2024 | GEMM-NPU + GEMV-PIM ๋์ ํ์ฉ, ๋ฐฐ์น ์ถ๋ก ๊ฐ์(์ด์ค ํ๋ฒํผ ๋ฑ) |
| IANUS / SpecPIM | ASPLOS 2024 | NPU-PIM ํตํฉ ๋ฉ๋ชจ๋ฆฌ(IANUS)ยทspeculative decoding์ PIM ๊ฐ์(SpecPIM) |
| LPDDR-CXL-PNM | HPCA 2024 | LPDDR ๊ธฐ๋ฐ CXL-PNM ํ๋ซํผ์ผ๋ก TCO ํจ์จ์ Transformer(GPT) ์ถ๋ก |
| Pond | ASPLOS 2023 | CXL ๊ธฐ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํ๋ง ์์คํ (ํด๋ผ์ฐ๋) โ stranded capacity ์ ๊ฐ |
| CXL-NDP | 2025 | ํ์ค CXL.mem ์ ์ง, ๋นํธํ๋ ์ธ ๋ ์ด์์+๋ฌด์์ค ์์ถ์ผ๋ก ์ ํจ ๋์ญํญ ์ฆํญ(KV 46.9%โ) |
| Scalable CXL-PNM | 2025 | 1M ํ ํฐยท405B์ ํ ํฐ ํ์ด์ง ์ ํ์ CXL ๋ด๋ถ ๊ฐ์๊ธฐ์ ์ํ, 21.9๋ฐฐ ์ฒ๋ฆฌ๋ (arXiv 2511.00321) |
| Sangam | 2025 | ์นฉ๋ DRAM-PIM + CXL ํตํฉ ๊ฐ์๊ธฐ๋ก LLM ์ถ๋ก |
| ๊ธฐ๋ฒ | ๋ฐํ์ฒ | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|
| Kelle | MICRO 2025 | eDRAM+KV ์บ์ฑ ๊ณต๋์ค๊ณ โ ์ค์ ํ ํฐ์ ๋์ refresh, ๋น์ค์๋ ๋ฎ๊ฒ(์ค์๋ ์ธ์) |
| SHIELD | 2026 | ๋ถํ ๊ณ์ธต ๋ฉ๋ชจ๋ฆฌ โ KV(์์)์ QO(์ผ์) ์ค๋ฅ ๋ด์ฑ ์ฐจ์ด๋ฅผ ์ด์ฉํ lifecycle-aware refresh |
| KVNAND | 2025 | DRAM-free in-flash KV โ softmax ์ค๋ฅ ๋ง์คํน์ผ๋ก KV๊ฐ ๊ฐ์ค์น๋ณด๋ค ์ค๋ฅ ๋ด์ฑโ |
| GPU soft-error ์ฐ๊ตฌ | 2025~ | ๋ช ๋ น ์์ค ๊ฒฐํจ ์ฃผ์ โ ๋จ์ผ ๋นํธ๋ ๋ง์คํน, ๋์ ์ ๊ธ๊ฒฉ ์ดํยทํฐ ๋ชจ๋ธ์ด ๋ ๊ฐ๊ฑด |
| FineServe | 2025 | ์ ๋ฐ๋ ์ธ์ KV slab + 2๋จ ์ค์ผ์ค๋ง โ ์์ํ ํน์ฑ๋ณ KV ํ ๋น์ผ๋ก ๋จํธํโ |