Architecture Venues LLM Memory Papers
์ํคํ ์ฒ ํํ์ ๋ฉ๋ชจ๋ฆฌ ๊ด์ LLM ์ต์ ํ ๋ ผ๋ฌธ (2024~2026)
ISCA ยท MICRO ยท HPCA ยท ASPLOS ยท DAC ยท PACT ยท DATE โ KV ์บ์ยทPIM/PNMยทCXLยทin-storageยท์์ํยท์๋นยท์ ๋ขฐ์ฑ
๋ณธ ๋ฌธ์๋ 2024~2026๋ ์ฃผ์ ์ปดํจํฐ ์ํคํ ์ฒ ํํ(ISCAยทMICROยทHPCAยทASPLOSยทDACยทPACTยทDATE)์ ๊ฒ์ฌ๋, '๋ฉ๋ชจ๋ฆฌ ์์คํ ๊ด์ '์์ LLM์ ์ต์ ํํ ๋ ผ๋ฌธ๋ค์ ๋ชจ์ ์ ๋ฆฌํ ๊ฒ์ ๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๊ด์ ์ด๋ KV ์บ์ยท๋ฉ๋ชจ๋ฆฌ ๋์ญํญยท์ฉ๋ยท๋ฐ์ดํฐ ์ด๋์ 1๊ธ ์ ์ฝ์ผ๋ก ๋ณด๋ ์๊ฐ์ผ๋ก, ๋ณธ ๋ฌธ์๋ ์ด๋ฅผ 6๊ฐ๋ โ PIM/PNM ๊ฐ์, CXLยท๋ฉ๋ชจ๋ฆฌ ํ๋ง, in-storageยทDIMM-NDP, KV ์์ํยท์์ถ, ํฌ์ยท์ถ์ถยท์ดํ ์ IO, ์๋นยทP/D ๋ถ๋ฆฌยท์ ๋ขฐ์ฑ โ ๋ก ๋ถ๋ฅํฉ๋๋ค. ๊ฐ ๋ ผ๋ฌธ์ ๋ฐํ ํํยท์ฐ๋ยทํต์ฌ ๊ธฐ์ฌ๋ฅผ ํจ๊ป ํ๊ธฐํ์ต๋๋ค.
๋ฒ์์ ์ ํ์ฑ์ ๊ดํ ์ฃผ์: ํํยท์ฐ๋๋ ๊ณต์ ํ๋ก๊ทธ๋จ๊ณผ venue-ํ๊น ์๋ฃ๋ก ํ์ธํ์ผ๋, ์ผ๋ถ ํญ๋ชฉ์ arXiv ๋จ๊ณ๋ก 7๊ฐ ํํ ๊ฒ์ฌ๊ฐ ํ์ ๋์ง ์์์ต๋๋ค(ํ์ 'arXiv'๋ก ํ๊ธฐ). ์ด๋ฐ ํญ๋ชฉ์ ํ๋ฆฌํ๋ฆฐํธ์ด๊ฑฐ๋ ๋ค๋ฅธ ํํ(์: OSDIยทFASTยทMLSysยทEMNLP) ๋ฐํ์ผ ์ ์์ต๋๋ค. ๋ ๋น ๋ฅด๊ฒ ์์์ง๋ ๋ถ์ผ๋ผ ๋ณธ ๋ชฉ๋ก์ ๋ํ ์ฌ๋ก ๋ชจ์์ด๋ฉฐ ์์ ํ์ง ์์ต๋๋ค. PhD ์ฐ๊ตฌ์ ์ธ์ฉํ์ค ๋๋ ๊ฐ ๋ ผ๋ฌธ์ ์ถ์ฒ๋ฅผ ์ง์ ํ์ธํ์๊ธธ ๊ถํฉ๋๋ค.
1. ํํ ร ์ฐ๋ ์งํ
๊ทธ๋ฆผ 1. 7๊ฐ ํํ ร 2024~2026 ์งํ (์ ์์ ๋ํ ๋ ผ๋ฌธ์ด๋ฉฐ ์ ์ฒด๊ฐ ์๋)
๋ฉ๋ชจ๋ฆฌ ๊ด์ ์ LLM ์ต์ ํ๋ ISCAยทMICROยทHPCAยทASPLOS์ ์ง์ค๋์ด ์์ผ๋ฉฐ, ํนํ HPCA 2025์ ASPLOS 2026์ด ํ๋ถํฉ๋๋ค. DACยทPACTยทDATE์๋ ๊ด๋ จ ๋ ผ๋ฌธ์ด ์์ผ๋ ํธ์๊ฐ ์๋์ ์ผ๋ก ์ ์ต๋๋ค. 2026๋ ์ ์ผ๋ถ๋ง ๊ณต๊ฐ๋์ด ์์ต๋๋ค(HPCAยทASPLOS ์์ฃผ, MICROยทISCA 2026์ ์ดํ ๊ฐ์ต/๊ณต๊ฐ).
2. ๋ถ๋ฅ โ ๋ฉ๋ชจ๋ฆฌ ๊ด์ 6๊ฐ๋
๊ทธ๋ฆผ 2. ๋ณธ ๋ ผ๋ฌธ ๋ชจ์์ 6๊ฐ๋ ๋ถ๋ฅ์ ๋ํ ๋ ผ๋ฌธ(ํํ ํ๊ทธ)
| ๋ถ๋ฅ | ์ง์ ๊ฒจ๋ฅํ๋ ๋ณ๋ชฉ | ์ฃผ๋ ๋ฉ๋ชจ๋ฆฌ ์์น | ๋ํ ๋ ผ๋ฌธ ์์ | ์์คํ ๊ด์ ํต์ฌ ์ง๋ฌธ |
|---|---|---|---|---|
| PIM/PNM ๊ฐ์๊ธฐ | decode ์ GEMV ๋์ญํญ | HBM-PIM, near-memory | AttAcc, NeuPIMs, Pimba | GPU๋ก ์ฎ๊ธฐ๊ธฐ ์ ์ ์ด๋๊น์ง ๋ฉ๋ชจ๋ฆฌ ๊ณ์์ ๋๋ผ ์ ์๋๊ฐ |
| CXLยท๋ฉ๋ชจ๋ฆฌ ํ๋ง | ์ฉ๋ ๋ถ์กฑ, ๋ฉ๋ชจ๋ฆฌ ๊ณต์ | CXL Type-2/3, pooled DRAM | LPDDR-CXL-PNM, SkyByte, Cohet | ํฐ KV๋ฅผ ์ด๋ ํฐ์ด์ ๋๊ณ ์ด๋ป๊ฒ ์ผ๊ด์ฑ์ ์ ์งํ ๊ฒ์ธ๊ฐ |
| In-storageยทDIMM-NDP | GPU ๋ฐ ๋์ฉ๋ KV ์ฒ๋ฆฌ | DIMM, SSD, CSD | InstAttention, Lincoln, Hermes | ๋๋ฆฐ ํฐ์ด์ ์ฉ๋ ์ด๋์ ์ง์ฐ ์ฆ๊ฐ๋ณด๋ค ํฌ๊ฒ ๋ง๋ค ์ ์๋๊ฐ |
| KV ์์ํยท์์ถ | KV ์ ์ฅ ์ฉ๋, ์ฝ๊ธฐ ๋์ญํญ | HBM, DRAM, ์ ์ฉ ์์ถ ๊ฒฝ๋ก | Oaken, BitMoD, ZipServ | ์ ํ๋ ์์ค์ ํ์ฉ ๋ฒ์ ์์ ๋๊ณ ๋ช ๋นํธ๊น์ง ๋ฎ์ถ ์ ์๋๊ฐ |
| ํฌ์ยท์ถ์ถยท์ดํ ์ IO | ๋ถํ์ํ ํ ํฐ ์ ๊ทผ, IO ์ด๋ | KV ์บ์ ์ ์ฒด ๊ฒฝ๋ก | ALISA, PAT, V-Rex | ๋ชจ๋ ํ ํฐ์ ์ฝ์ง ์๊ณ ๋ ํ์ง์ ์ ์งํ ์ ์๋๊ฐ |
| ์๋นยทP/D ๋ถ๋ฆฌยท์ ๋ขฐ์ฑ | ๋จ๊ณ ๊ฐ ๊ฐ์ญ, SLO, ์ค๋ฅ ๋ฏผ๊ฐ๋ | ํด๋ฌ์คํฐ ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ์ ๋ฐ | Splitwise, Bullet, Kelle | ์ด๋ค ์์ฒญ๊ณผ ์ด๋ค KV๊ฐ ๋ ๋น ๋ฅธ ํฐ์ดยท๊ฐํ ๋ณดํธ๋ฅผ ๋ฐ์์ผ ํ๋๊ฐ |
3. PIM / PNM ๊ฐ์๊ธฐ โ ๋ฉ๋ชจ๋ฆฌ ๊ณ์์ GEMV ์ฒ๋ฆฌ
๋์ฝ๋ฉ์ GEMV(๋ฉ๋ชจ๋ฆฌ ๋ฐ์ด๋)๋ฅผ ๋ฉ๋ชจ๋ฆฌ ๊ณ(PIM/PNM)์์ ์ฒ๋ฆฌํ๊ณ , prefill์ GEMM์ NPU/GPU๊ฐ ๋งก๋ ์ด์ข ๊ฐ์์ด ํต์ฌ ํจํด์ ๋๋ค.
์ด ๊ณ์ด์ GPU๊ฐ ๋ฐ๋ณต์ ์ผ๋ก HBM์์ KV๋ฅผ ์ฝ์ด ์ค๋ ๋น์ฉ์ ์ค์ด๋ ๋ฐ ์ง์คํฉ๋๋ค. ํนํ AttAcc, NeuPIMs, PAISE, Pimba ๊ฐ์ ๋ ผ๋ฌธ์ "์ฐ์ฐ์ ๋ ๋น ๋ฅด๊ฒ" ํ๊ธฐ๋ณด๋ค "๋ฐ์ดํฐ๋ฅผ ๋ ์์ง์ด๊ฒ" ๋ง๋๋ ์ชฝ์ด decode ์ง์ฐ์ ๋ ์ง์ ์ ์ด๋ผ๋ ์ ์ ๋ณด์ฌ ์ค๋๋ค.
4. CXL ยท ๋ฉ๋ชจ๋ฆฌ ํ๋ง โ ์ฉ๋ ํ์ฅ๊ณผ ์ฝํ์ด๋ฐํธ ํฐ์ด
CXL์ ์ฉ๋์ ํ์ฅํ๋ ๋ฉ๋ชจ๋ฆฌ ํฐ์ด์ด์, ๊ณ ์ฐ์ฐ(PNM)์ ์น๋ ๊ณ์ฐ ๊ธฐํ์ผ๋ก ์งํํ๊ณ ์์ต๋๋ค.
์ด ์ถ์ ํต์ฌ์ HBM๋ง์ผ๋ก๋ ๊ฐ๋นํ๊ธฐ ์ด๋ ค์ด ๊ธด ๋ฌธ๋งฅ๊ณผ ๋ง์ ๋์ ์์ฒญ์ ์ธ๋ถ ๋ฉ๋ชจ๋ฆฌ ํฐ์ด๋ก ๋๊ธฐ๋ ๊ฒ์ ๋๋ค. ๋ค๋ง ๋งํฌ ์ง์ฐ, page placement, coherence ๋น์ฉ์ด ์ปค์ง๋ฏ๋ก, ์ด๋ค KV๋ฅผ CXL๋ก ๋ฐ์ด๋ผ์ง ๊ฒฐ์ ํ๋ ์ ์ฑ ์ด ์ฑ๋ฅ์ ์ข์ฐํฉ๋๋ค.
5. In-storage ยท DIMM-NDP โ KV/์ดํ ์ ์ ํ๋์ยทDIMM์ผ๋ก
GPU ๋ฐ ๋์ฉ๋ ๋งค์ฒด(ํ๋์ยทDIMM)์ KV๋ฅผ ๋๊ณ ๊ทธ ์๋ฆฌ์์ ์ฒ๋ฆฌํด ์ ์ก ๋ณ๋ชฉ์ ์ค์ ๋๋ค.
์ด ์ ๊ทผ์ ๊ฐ์ฅ ๋๋ฆฐ ํฐ์ด๋ฅผ ์ฐ๋ ๋์ ๊ฐ์ฅ ํฐ ์ฉ๋์ ํ๋ณดํฉ๋๋ค. InstAttention, Lincoln, Hermes ๊ณ์ด์ SSD๋ DIMM ๊ทผ์ฒ์์ ์ผ๋ถ attention ๋๋ KV ์ ๊ทผ์ ๋๋ด ์ ์ก๋์ ์ค์ด์ง๋ง, ๊ทธ๋งํผ ์ํํธ์จ์ด ๋ฐํ์๊ณผ ์ฅ์น ์ค์ผ์ค๋ฌ์ ์ญํ ์ด ์ปค์ง๋๋ค.
6. KV ์์ํ ยท ์์ถ (ํ๋์จ์ด/์์คํ )
KV ์บ์์ ๋นํธ์ยท์ ๋ฐ๋๋ฅผ ์ค์ฌ ์ฉ๋ยท๋์ญํญ์ ์ ๊ฐํ๋ฉฐ, ์ ์ฉ PEยท๋ฐ์ดํฐํ์์ผ๋ก ๊ฐ์ํฉ๋๋ค.
์ด ๋ถ๋ฅ๋ ๊ฐ์ฅ ๋ฒ์ฉ์ฑ์ด ๋์ต๋๋ค. ๊ฐ์ ๋ชจ๋ธ๊ณผ ๊ฐ์ ์๋น ์คํ์์๋ KV ๋นํธํญ๋ง ์กฐ์ ํด ์ฆ์ ์์ฉ๋์ ๋์ผ ์ ์๊ธฐ ๋๋ฌธ์, Oaken, BitMoD, MANT, ZipServ์ฒ๋ผ ํ๋์จ์ด ๊ตฌ์กฐ์ ์์น ํ์์ ํจ๊ป ์ค๊ณํ๋ ์ฐ๊ตฌ๊ฐ ๋น ๋ฅด๊ฒ ๋๊ณ ์์ต๋๋ค.
7. ํฌ์ ยท ์ถ์ถ ยท ์ดํ ์ IO
ํ ํฐ์ ์ ํยท์ถ์ถํด KV๋ฅผ ์ค์ด๊ฑฐ๋, ์ดํ ์ ์ ๋ฐ์ดํฐ ์ด๋(IO)์ ๋ถ์ยท์ต์ ํํฉ๋๋ค.
์ด ๊ทธ๋ฃน์ "๋ชจ๋ KV๋ฅผ ๋๊น์ง ์ ์งํด์ผ ํ๋๊ฐ"๋ผ๋ ์ง๋ฌธ์์ ์ถ๋ฐํฉ๋๋ค. ALISA, PAT, V-Rex, I/O Analysis ๊ณ์ด์ ์ค์ํ ํ ํฐ๋ง ๋จ๊ธฐ๊ฑฐ๋ ์ ๊ทผ ์์๋ฅผ ๋ฐ๊ฟ์, ์ ์ฅ ์ฉ๋๋ฟ ์๋๋ผ ์ค์ ๋ฉ๋ชจ๋ฆฌ ํธ๋ํฝ๊น์ง ์ค์ด๋ ๋ฐฉํฅ์ ์ทจํฉ๋๋ค.
8. ์๋น ยท P/D ๋ถ๋ฆฌ ยท ์ ๋ขฐ์ฑ
์์คํ ๊ณ์ธต์ ์ค์ผ์ค๋งยท๋ถ๋ฆฌ(disaggregation)์, ๋ฉ๋ชจ๋ฆฌ ์ ๋ขฐ์ฑ(refreshยท์ค์๋ ์ธ์)์ ๋ค๋ฃน๋๋ค.
Splitwise, Bullet, QoServe๋ ์์ฒญ ๋จ์์ ์ง์ฐ๊ณผ ์ฒ๋ฆฌ๋์ ์กฐ์ ํ๋ ์ด์ ๋ฌธ์ ๋ฅผ ์ ๋ฉด์ ๋ก๋๋ค. Kelle์ฒ๋ผ ์ ๋ขฐ์ฑ์ ์ ๋ฉด์ผ๋ก ๋ค๋ฃจ๋ ์ฌ๋ก๋ ์์ง ์ ์ง๋ง, CXL๊ณผ ์ด๊ธฐ์ข ํฐ์ด๊ฐ ๋์ด์ง์๋ก "์ค์ํ KV๋ฅผ ๋ ์์ ํ ํฐ์ด์ ECC ์ ์ฑ ์ ๋ ๊ฒ์ธ๊ฐ"๊ฐ ๋ ๋ฆฝ์ ์ธ ์ฐ๊ตฌ ์ถ์ผ๋ก ์ปค์ง ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
9. ์ข ํฉ โ ๋ถ๋น๋ ์์ญ๊ณผ ๋น ์์ญ
๊ทธ๋ฆผ 4. ํ๋ฐํ ์์ญ๊ณผ ์๋์ ์ผ๋ก ๋น์ด ์๋ ์์ญ(์ฐ๊ตฌ ๊ธฐํ)
ํ๋์จ์ด ๋ฉ๋ชจ๋ฆฌ ์คํ์ ๊ฐ ํฐ์ด(HBMยทHBM-PIMยทCXLยทDIMMยทํ๋์)๋ฅผ ๋ ธ๋ฆฐ ๋ ผ๋ฌธ๋ค์ ํ๋์ ๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๊ทธ๋ฆผ 3. ํ๋์จ์ด ๋ฉ๋ชจ๋ฆฌ ์คํ ๊ด์ ์์ ๊ฐ ํฐ์ด๋ฅผ ๊ณต๋ตํ ๋ํ ๋ ผ๋ฌธ
ํต์ฌ ๊ด์ฐฐ
-
๊ฐ์ฅ ํ๋ฐํ ์์ญ์ PIM/PNM ๋์ฝ๋ฉ ๊ฐ์(NPU+HBM-PIMยทCXL-PNM), KV ์์ํ ํ๋์จ์ด, P/D ๋ถ๋ฆฌ ์๋น, in-storage ์คํ๋ก๋ฉ์ ๋๋ค.
-
ํต์ฌ ํจํด์ด ์๋ ดํ๊ณ ์์ต๋๋ค โ 'GEMM=GPU/NPU, GEMV=PIM'์ ์ญํ ๋ถ๋ด๊ณผ, 'HBM(๋์ญํญ)+CXL(์ฉ๋ยทํ๋ง)+ํ๋์/DIMM(๋์ฉ๋)'์ ์ด๊ธฐ์ข ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต์ ๋๋ค.
-
์ ๋ขฐ์ฑ์ Kelle(MICRO 2025) ๋ฑ ์์์ ๊ทธ์นฉ๋๋ค. KV ์บ์๊ฐ softmax ๋ง์คํน์ผ๋ก ๋นํธ ์ค๋ฅ์ ๋น๊ต์ ๊ฐํ๋ค๋ ์ ์ ์๋ ค์ก์ง๋ง, ๋นํธ์ค๋ฅยทrefreshยทECC๋ฅผ ์ ๋ฉด์ผ๋ก ๋ค๋ฃฌ ์ํคํ ์ฒ ๋ ผ๋ฌธ์ ๊ฑฐ์ ์์ต๋๋ค.
ํต์ฌ ์ ๋ฆฌ โ 2024~2026๋ ISCAยทMICROยทHPCAยทASPLOS์๋ ๋ฉ๋ชจ๋ฆฌ ๊ด์ LLM ์ต์ ํ ๋ ผ๋ฌธ์ด ํ๋ถํ๋ฉฐ(ํนํ HPCA 2025ยทASPLOS 2026), PIM/PNM ๊ฐ์ยทCXL/๋ฉ๋ชจ๋ฆฌ ํ๋งยทin-storageยทKV ์์ํยทํฌ์/์ถ์ถยท์๋น ๋ถ๋ฆฌ์ 6๊ฐ๋๋ก ์ ๋ฆฌ๋๋ค. ๊ณตํต์ ์ผ๋ก ๋์ฝ๋ฉ์ memory-bound GEMV๋ฅผ ๋ฉ๋ชจ๋ฆฌ ๊ณ(PIM/PNM)์์ ์ฒ๋ฆฌํ๊ณ , HBMยทCXLยทํ๋์์ ์ด๊ธฐ์ข ๊ณ์ธต์ผ๋ก ์ฉ๋ยท๋์ญํญ์ ๋์์ ํธ๋ ๋ฐฉํฅ์ผ๋ก ์๋ ดํ๋ค. ๋ฐ๋ฉด ์ ๋ขฐ์ฑ(๋นํธ์ค๋ฅยทrefreshยทECC ์ธ์)์ Kelle ๋ฑ ๊ทน์์๋ก ๋น์ด ์๋ค.
์ฐ๊ตฌ ๊ธฐํ(๋ฉ๋ชจ๋ฆฌ ์์คํ ๊ด์ ) โ '์ด๋ KV๋ฅผ ยท ์ด๋ ํฐ์ด(HBM/CXL/DIMM/ํ๋์)์ ยท ๋ช ๋นํธ๋ก ยท ์ด๋ค ECC ๊ฐ๋๋ก' ๋์ง๋ฅผ ์ ํ๋ SLO์ ์ฑ๋ฅ SLO๋ฅผ ํจ๊ป ๊ณ ๋ คํด ์ ์ํํ๋ reliability-aware KV ํฐ์ด๋ง/์คํ๋ก๋ฉ์ด ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ๋น์นธ์ด๋ค. ํฐ์ด๋ง๋ค ๋นํธ ์ค๋ฅ ํน์ฑ์ด ๋ค๋ฅธ CXL ์ด๊ธฐ์ข ๋ฉ๋ชจ๋ฆฌ์์ ํนํ ์๋ฏธ๊ฐ ํฌ๋ฉฐ, ๋ณธ ๋ชฉ๋ก์ PIM/PNMยทCXLยท์์ํ ์ฐ๊ตฌ๋ค์ด ๊ทธ ํ ๋๋ฅผ ์ ๊ณตํ๋ค.
์ฃผ์(์ ํ์ฑยท์์ ์ฑ) โ ํํยท์ฐ๋๋ ๊ณต์ ํ๋ก๊ทธ๋จ(hpca-conf.org, asplos-conference.org, IEEE/ACM DL)๊ณผ venue-ํ๊น ์๋ฃ๋ก ๊ต์ฐจํ์ธํ๋ค. ๋ค๋ง ํ์ 'arXiv (๋ฏธํ์ )'์ผ๋ก ํ์ํ ํญ๋ชฉ(P3-LLMยทSangamยทScalable CXL-PNMยทCXL-NDPยทL3 ๋ฑ)์ ๋ณธ 7๊ฐ ํํ ๊ฒ์ฌ๊ฐ ํ์ธ๋์ง ์์์ผ๋ฉฐ, ํ๋ฆฌํ๋ฆฐํธ์ด๊ฑฐ๋ ๋ค๋ฅธ ํํ(OSDIยทFASTยทMLSysยทEMNLPยทSOSP ๋ฑ) ๋ฐํ์ผ ์ ์๋ค. ๋ ์ผ๋ถ ์์คํ ๋ ผ๋ฌธ(InfiniGen=OSDI'24, Mooncake=FAST'25, DistServe=OSDI'24, Jenga=SOSP'25 ๋ฑ)์ ๋ณธ 7๊ฐ ์ํคํ ์ฒ ํํ ๋ฐ์ด๋ผ ์ ์ธํ๋ค. ๋ถ์ผ๊ฐ ๋งค์ฐ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๋ฏ๋ก ๋ณธ ๋ชฉ๋ก์ ๋ํ ์ฌ๋ก ๋ชจ์์ด๋ฉฐ ์์ ํ์ง ์๋ค โ ์ธ์ฉ ์ ์๋ฌธยทDOI ํ์ธ์ ๊ถํ๋ค.
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| AttAcc | ASPLOS 2024 | NPU+HBM-PIM | ์ดํ ์ (GEMV)์ HBM-PIM์, FC๋ฅผ NPU์ ๋ถ๋ดํ๋ ์ด์ข ๊ฐ์ |
| NeuPIMs | ASPLOS 2024 | NPU+HBM-PIM | GEMM-NPU + GEMV-PIM ๋์ ํ์ฉ, ๋ฐฐ์น ์ถ๋ก ๊ฐ์(์ด์ค ํ๋ฒํผ) |
| IANUS | ASPLOS 2024 | NPU-PIM ํตํฉ | NPU-PIM ํตํฉ ๋ฉ๋ชจ๋ฆฌ ์์คํ ์ผ๋ก LLM ์ถ๋ก ๊ฐ์ |
| SpecPIM | ASPLOS 2024 | PIM speculative | speculative decoding์ PIM์์ ๊ฐ์(์ํคํ ์ฒ-๋ฐ์ดํฐํ๋ก ๊ณต๋ํ์) |
| PAISE | HPCA 2025 | PIM ์ค์ผ์ค๋ง | Transformer LLM์ฉ PIM-๊ฐ์ ์ถ๋ก ์ค์ผ์ค๋ง ์์ง(Samsung SDS) |
| FACIL | HPCA 2025 | SoC-PIM | ์ ์ฐํ DRAM ์ฃผ์ ๋งคํ์ผ๋ก SoC-PIM ํ๋ ฅ on-device ์ถ๋ก (SNU) |
| LAD | HPCA 2025 | ๋์ฝ๋ฉ ๊ฐ์ | locality-aware decoding ๊ฐ์๊ธฐ(ICT, CAS) |
| Cambricon-LLM | MICRO 2024 | ์นฉ๋ | 70B LLM on-device ์ถ๋ก ์ฉ ์นฉ๋ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ |
| MCBP | MICRO 2025 | ๋นํธ์ฌ๋ผ์ด์ค | bit-slice ํฌ์ยท๋ฐ๋ณต์ฑ์ผ๋ก GEMMยทKV ์ ๊ทผ ์ ๊ฐ(A100 ๋๋น ์๋์งํจ์จโ) |
| REPA | ASPLOS 2026 | ์ฌ๊ตฌ์ฑํ PIM | KV ์บ์ ์คํ๋ก๋ฉ๊ณผ ์ฒ๋ฆฌ๋ฅผ ๊ณต๋ ๊ฐ์ํ๋ ์ฌ๊ตฌ์ฑํ PIM(SJTU) |
| STARC | ASPLOS 2026 | PIM ๋์ฝ๋ฉ | ์ ํ์ ํ ํฐ ์ ๊ทผ + ๋ฆฌ๋งคํยทํด๋ฌ์คํฐ๋ง์ผ๋ก PIM ๋์ฝ๋ฉ ํจ์จํ |
| LPU | ASPLOS 2026 | ์ ์ฉ ๊ธฐํ | hardwired-neuron Language Processing Unit(ICT, CAS) |
| Pimba | ISCA 2025 | ์ ์ ๋ฐ PIM | ์ ์ ๋ฐ ์ฐ์ PCU๋ก KV ์์ํ PIM ๋ฉด์ ํจ์จ ๊ฐ์ |
| P3-LLM | arXiv (๋ฏธํ์ ) | NPU-PIM ํผํฉ์ ๋ฐ | ํ์ด๋ธ๋ฆฌ๋ ์์นํ์(W4A8KV4)๋ก ์ ์ ๋ฐ edge LLM PIM ์ถ๋ก |
| Sangam | arXiv (๋ฏธํ์ ) | ์นฉ๋ +CXL | ์นฉ๋ DRAM-PIM + CXL ํตํฉ LLM ์ถ๋ก ๊ฐ์๊ธฐ |
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| LPDDR-CXL-PNM | HPCA 2024 | CXL-PNM | LPDDR ๊ธฐ๋ฐ CXL-PNM ํ๋ซํผ์ผ๋ก TCO ํจ์จ์ Transformer(GPT) ์ถ๋ก |
| SkyByte | HPCA 2025 | CXL-SSD | ๋ฉ๋ชจ๋ฆฌ ์๋งจํฑ CXL-SSD๋ฅผ OS-HW ๊ณต๋์ค๊ณ(๊ธฐํ์ ๋ฌธ๋งฅ์ ํยทํ์ด์ง ์น๊ฒฉ) |
| Cohet | HPCA 2026 | CXL ์ฝํ์ด๋ฐํธ | CXL ๊ธฐ๋ฐ ์ฝํ์ด๋ฐํธ ์ด๊ธฐ์ข ์ปดํจํ ํ๋ ์์ํฌ + ์ ์ฒด์์คํ ์๋ฎฌ |
| Demystifying CXL Type-2 | MICRO 2024 | CXL Type-2 | CXL Type-2 ๋๋ฐ์ด์ค ํน์ฑ ๋ถ์(์ด๊ธฐ์ข ํ๋ ฅ ์ปดํจํ ๊ด์ ) |
| Scalable CXL-PNM | arXiv (๋ฏธํ์ ) | CXL-PNM | 1M ํ ํฐยท405B์ ํ ํฐํ์ด์ง ์ ํ์ CXL ๋ด๋ถ ๊ฐ์๊ธฐ์ ์ํ(21.9๋ฐฐ) |
| CXL-NDP | arXiv (๋ฏธํ์ ) | CXL near-data | ํ์ค CXL.mem ์ ์ง, ๋นํธํ๋ ์ธ+๋ฌด์์ค ์์ถ์ผ๋ก ์ ํจ ๋์ญํญ ์ฆํญ |
| Pond (์ฐธ๊ณ ) | ASPLOS 2023 | CXL ํ๋ง | CXL ๊ธฐ๋ฐ ๋ฉ๋ชจ๋ฆฌ ํ๋ง(ํด๋ผ์ฐ๋) โ ๋ฒ์ ๋ฐ์ด๋ ๊ธฐ๋ฐ ์ฐ๊ตฌ |
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| InstAttention/InstInfer | HPCA 2025 | in-storage | ๋์ฝ๋ฉ KV ์ดํ ์ ์ Computational Storage Drive(CSD)๋ก ์คํ๋ก๋(PKU) |
| Lincoln | HPCA 2025 | LPDDR-ํ๋์ | LPDDR ์ธํฐํ์ด์คยท์ฐ์ฐ๊ฐ๋ฅ ํ๋์๋ก 50~100B LLM ์ค์๊ฐ ์ถ๋ก (THU) |
| Hermes (NDP-DIMM) | HPCA 2025 | NDP-DIMM | NDP-DIMM์ผ๋ก GPU ๋ฉ๋ชจ๋ฆฌ ์ฆ๊ฐ, ์ ๋น์ฉ ์ถ๋ก (ICT, CAS) |
| AsyncDIMM | HPCA 2025 | DIMM-NMP | DIMM ๊ธฐ๋ฐ ๊ทผ์ ๋ฉ๋ชจ๋ฆฌ์ ๋น๋๊ธฐ ์คํ ๋ฌ์ฑ(SJTU) |
| UniNDP | HPCA 2025 | near-DRAM | near-DRAM ์ฒ๋ฆฌ ์ํคํ ์ฒ์ฉ ํตํฉ ์ปดํ์ผยท์๋ฎฌ ๋๊ตฌ(THU) |
| L3 | arXiv (๋ฏธํ์ ) | DIMM-PIM | DIMM-PIM ํตํฉ ์ํคํ ์ฒยท์กฐ์ ์ผ๋ก ํ์ฅํ long-context ์ถ๋ก |
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| Oaken | ISCA 2025 | ํ์ด๋ธ๋ฆฌ๋ ์์ํ | online-offline ํ์ด๋ธ๋ฆฌ๋ KV ์์ํ๋ก ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์๋น(KAIST) |
| BitMoD | HPCA 2025 | ๋นํธ์๋ฆฌ์ผ | bit-serial mixture-of-datatype, ๊ทธ๋ฃน๋ณ ๋ฐ์ดํฐํ์ ์ ์(Cornell) |
| MANT | HPCA 2025 | ์ ๋นํธ ๊ทธ๋ฃน | ์ํ์ ์ ์ ์์นํ์ผ๋ก ๊ทธ๋ฃน๋ณ ์ ๋นํธ ์์ํ + ์ค์๊ฐ ์์ํ ์ ๋(SJTU) |
| Anda | HPCA 2025 | ํ์ฑ ๋ฐ์ดํฐํ์ | ๊ฐ๋ณ๊ธธ์ด ๊ทธ๋ฃน๊ณต์ ์ง์์ ์ ์ํ ํ์ฑ ๋ฐ์ดํฐ ํ์(NJU/KU Leuven) |
| VQ-LLM | HPCA 2025 | ๋ฒกํฐ ์์ํ | ๋ฒกํฐ์์ํ ์ฆ๊ฐ LLM ์ถ๋ก ์ฉ ๊ณ ์ฑ๋ฅ ์ฝ๋ ์์ฑ(SJTU) |
| ZipServ | ASPLOS 2026 | ๋ฌด์์ค ์์ถ | ํ๋์จ์ด ์ธ์ ๋ฌด์์ค ์์ถ์ผ๋ก ๋ฉ๋ชจ๋ฆฌโยท์ ํ์ฑ ๋ณด์กด(HKUST-GZ) |
| Cocktail | DATE 2025 | ํผํฉ์ ๋ฐ | chunk-adaptive ํผํฉ์ ๋ฐ ์์ํ๋ก long-context ์ถ๋ก |
| eDKM | HPCA 2025 | ๊ฐ์ค์น ํด๋ฌ์คํฐ | train-time ๊ฐ์ค์น ํด๋ฌ์คํฐ๋ง์ผ๋ก LLaMA-7B 12.6GBโ2.5GB(Apple) |
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| ALISA | ISCA 2024 | ํฌ์ ์ดํ ์ | sparsity-aware attention์ผ๋ก salient token๋ง ์บ์ + ๋์ ์ค์ผ์ค๋ง |
| SpeContext | ASPLOS 2026 | ๋ฌธ๋งฅ ํฌ์ | speculative context sparsity๋ก long-context ์ถ๋ก ํจ์จํ(SJTU) |
| PAT | ASPLOS 2026 | ํ๋ฆฌํฝ์ค ์ดํ ์ | prefix-aware attention + ๋ฉํฐํ์ผ ์ปค๋๋ก ๋์ฝ๋ฉ ๊ฐ์ |
| Mugi | ASPLOS 2026 | ๊ฐ ์์ค ๋ณ๋ ฌ | value-level parallelism โ ํ ์/์ํ์ค๋ณด๋ค ์ธ๋ฐํ ๋ณ๋ ฌ ์ฐจ์(CMU) |
| I/O Analysis is All You Need | ASPLOS 2026 | IO ๋ถ์ | long-sequence ์ดํ ์ ์ IO ์ค์ฌ ๋ถ์(FLOPs๋ณด๋ค ๋ฐ์ดํฐ ์ด๋์ด ์ง๋ฐฐ) |
| V-Rex | HPCA 2026 | ๋์ KV retrieval | ์คํธ๋ฆฌ๋ฐ ๋น๋์ค LLM ๊ฐ์, ๋์ KV ์บ์ retrieval |
| ๋ ผ๋ฌธ | ํํยท์ฐ๋ | ๊ทธ๋ฃน | ํต์ฌ ๊ธฐ์ฌ |
|---|---|---|---|
| Splitwise | ISCA 2024 | P/D ๋ถ๋ฆฌ | prompt/token ๋จ๊ณ๋ฅผ ๋ค๋ฅธ ๋จธ์ ยท์ด์ข GPU์ ๋ถ๋ฆฌ(2.35๋ฐฐ ์ฒ๋ฆฌ๋) |
| MuxWise | ASPLOS 2026 | intra-GPU ๋ฉํฐํ๋ ์ค | GPU ๋ด prefill-decode ๋ฉํฐํ๋ ์ฑ ์๋น(SLO ์ธ์ ๋์คํจ์ฒ) |
| Bullet | ASPLOS 2026 | P/D ๋์์คํ | prefillยทdecode ๋์ ์คํ + ์ค์๊ฐ ์ฑ๋ฅ๋ชจ๋ธ ๊ธฐ๋ฐ ์์๋ฐฐ๋ถ(SYSU) |
| TPLA | ASPLOS 2026 | ๋ถ๋ฆฌ + latent attn | tensor-parallel latent attention์ผ๋ก ๋ถ๋ฆฌํ P/D ์ฅ๋ฌธ ์ถ๋ก (PKU) |
| QoServe | ASPLOS 2026 | QoS ์ค์ผ์ค๋ง | ์ธ๋ฐํ QoS ๋ถ๋ฅ + ๋์ chunking์ผ๋ก SLO ๋ณด์ฅ(MSR India) |
| BlendServe | ASPLOS 2026 | ์คํ๋ผ์ธ ๋ฐฐ์นญ | ์์ ์ธ์ ๋ฐฐ์นญ์ผ๋ก ์คํ๋ผ์ธ ์ถ๋ก ์ฒ๋ฆฌ๋โ(UC Berkeley) |
| MoE-APEX | ASPLOS 2026 | ์ ๋ฌธ๊ฐ ์คํ๋ก๋ฉ | adaptive-precision expert offloading์ผ๋ก MoE ๋ฉ๋ชจ๋ฆฌ ์๋ฐ ์ํ(SJTU) |
| DynamoLLM | HPCA 2025 | ์๋์ง | ๋ถํยท์์ ๋ฐ๋ผ ์๋์ง ์ต์ ๊ตฌ์ฑ ์ ํ(๋ณ๋ ฌ์ฑยทGPU์ฃผํ์)(UIUC/MS) |
| throttLL'eM | HPCA 2025 | ์๋์ง | ์์ธก์ GPU ์ค๋กํ๋ง์ผ๋ก ์๋์ง ํจ์จ ์ถ๋ก ์๋น(NTU Athens) |
| Kelle | MICRO 2025 | ์ ๋ขฐ์ฑยทrefresh | eDRAM+KV ๊ณต๋์ค๊ณ โ ์ค์ ํ ํฐ์ ๋์ refresh, ๋น์ค์๋ ๋ฎ๊ฒ |
| RoMe | HPCA 2026 | ๋ฉ๋ชจ๋ฆฌ ์ ๊ทผ | Row Granularity Access Memory System for LLM |
10. ๋์ ์๋ฆฌ
์ด ๋ถ์ผ์ ๊ณตํต ๋์ ์๋ฆฌ๋ ๋น๊ต์ ๋จ์ํฉ๋๋ค. prefill์ ํฐ ํ๋ ฌ๊ณฑ(GEMM) ๋น์ค์ด ๋์ GPU/NPU ๊ฐ์ ๊ณ์ฐ ์์์ ์ ๋ง๊ณ , decode๋ ๋งค ํ ํฐ๋ง๋ค KV ์บ์๋ฅผ ๊ณ์ ์ฝ๋ GEMV ์ฑ๊ฒฉ์ด ๊ฐํด ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ๊ณผ ์ฉ๋์ด ๋ณ๋ชฉ์ด ๋ฉ๋๋ค. ๊ทธ๋์ ๊ฐ ๋ ผ๋ฌธ์ prefill๊ณผ decode๋ฅผ ๊ฐ์ ๊ณณ์์ ๋ชจ๋ ์ฒ๋ฆฌํ๋ ค ํ๊ธฐ๋ณด๋ค, ๋ณ๋ชฉ์ด ๋ค๋ฅธ ๊ตฌ๊ฐ์ ์๋ก ๋ค๋ฅธ ํ๋์จ์ด์ ๋ฐฐ์นํ๋ ๋ฐฉํฅ์ผ๋ก ์๋ ดํฉ๋๋ค.
| ๊ตฌ๊ฐ | ์ฃผ๋ ๋ณ๋ชฉ | ๋ํ ๋์ |
|---|---|---|
| Prefill | compute-bound GEMM | GPU/NPU ์ง์ค, ๋ฐฐ์น ์ต์ ํ |
| Decode | memory-bound GEMV | HBM-PIM, CXL-PNM, DIMM-NDP |
| Tiering | ์ฉ๋ยท๋์ญํญ ๋ถ์กฑ | CXL, DRAM, SSD, ํ๋์ ๋ถ์ฐ ๋ฐฐ์น |
KV๋ฅผ ์๊ฒ ๋ง๋๋ ๊ณ์ด์ ๊ฐ์ ํ๋ฆ ์์์ ๋ ๋ง์ ์์ฒญ์ ๋ด๊ฒ ํด ์ฃผ๊ณ , P/D ๋ถ๋ฆฌ ๊ณ์ด์ ๊ณ์ฐ ๊ฒฝ๋ก๋ฅผ ๋๋ ๊ฐ์ญ์ ์ค์ ๋๋ค. ๋ฐ๋ฉด PIM/PNM ๊ณ์ด์ ๋ฐ์ดํฐ๋ฅผ GPU๋ก ์ฎ๊ธฐ๊ธฐ ์ ์ ๋ฉ๋ชจ๋ฆฌ ๊ณ์์ ๋๋ด๋ ค ํ๊ณ , in-storage ๊ณ์ด์ ๋ ์๋ ํฐ์ด์์ KV๋ฅผ ๋ค๋ฃจ๋ฉฐ ์ ์ก ์์ฒด๋ฅผ ์ค์ ๋๋ค.
11. ์ฅ๋จ์
| ๊ด์ | ์ฅ์ | ํ๊ณ |
|---|---|---|
| PIM/PNM | decode ๋ณ๋ชฉ์ ์ง์ ๊ฒจ๋ฅํ๊ณ ๋ฐ์ดํฐ ์ด๋์ ์ค์ | ํ๋์จ์ด ์์กด์ฑ์ด ํฌ๊ณ ์ค๊ณ ๋ณต์ก๋๊ฐ ๋์ |
| CXL/ํฐ์ด๋ง | ์ฉ๋ ํ์ฅ์ด ์ฝ๊ณ pooled memory์ ์ฐ๊ฒฐ ๊ฐ๋ฅ | ๋งํฌ ์ง์ฐ๊ณผ ์ผ๊ด์ฑ ๊ด๋ฆฌ๊ฐ ๋ถ๋ด |
| in-storage/DIMM-NDP | GPU ๋ฐ ๋์ฉ๋ ๊ณ์ธต๊น์ง ํ์ฉ ๊ฐ๋ฅ | ๋์ญํญ์ด ๋ฎ๊ณ ์ปค๋/์ํํธ์จ์ด ๊ฐ์กฐ๊ฐ ํ์ |
| KV ์์ํ/์์ถ | ๋ฉ๋ชจ๋ฆฌ ์ ๊ฐ ํจ๊ณผ๊ฐ ์ฆ์ ํฌ๊ณ ์ ์ฉ ๋ฒ์๊ฐ ๋์ | ์ ํ๋ ์์ค๊ณผ ๋ฐ์ดํฐํ์ ์ค๊ณ๊ฐ ์ค์ |
| P/D ๋ถ๋ฆฌยท์๋น | prefill๊ณผ decode๋ฅผ ๋ฐ๋ก ์ต์ ํํด ์ฒ๋ฆฌ๋์ ๋์ | ๋ผ์ฐํ ยท์ค์ผ์ค๋งยท์ํ ๊ด๋ฆฌ๊ฐ ๋ณต์กํด์ง |
| ์ ๋ขฐ์ฑ ์ถ | ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต ์ ๋ฐ์ ์ค๋ฅ ๋ฏผ๊ฐ๋๋ฅผ ๋ฐ์ํ ์ ์์ | ์์ง ์ฐ๊ตฌ ์๊ฐ ์ ๊ณ ํ๊ฐ ๊ธฐ์ค์ด ๋ถ์ฐ๋จ |
์ ์ฒด์ ์ผ๋ก ๋ณด๋ฉด ์ด ๋ถ์ผ๋ ์ฑ๋ฅ ์ด๋์ด ๋ถ๋ช ํ์ง๋ง, ์์คํ ํตํฉ๊ณผ ๊ฒ์ฆ ๋น์ฉ์ด ๋์ต๋๋ค. ํนํ ์ค์ ์ ํํ ๊ด์ ์์๋ ์ ํ๋, ์ง์ฐ, ๋น์ฉ, ์ ๋ขฐ์ฑ ์ฌ์ด์ ๊ท ํ์ ํจ๊ป ๋ง์ถฐ์ผ ํฉ๋๋ค.
12. ๊ด๋ จ ๊ธฐ์
| ์๋ฃ | ์ฐ๊ฒฐ์ |
|---|---|
| Memory Centric LLM Serving Survey | KV ๊ด๋ฆฌ, ์คํ๋ก๋ฉ, P/D ๋ถ๋ฆฌ, PIM/PNM ์ถ ์ ๋ฆฌ |
| PagedAttention Analysis | page/block ๊ธฐ๋ฐ KV ๊ด๋ฆฌ |
| KV Cache Quantization Analysis | KV ๋นํธํญ ์ถ์์ ์ ํ๋ ์ ์ถฉ |
| Disaggregated LLM Serving Analysis | P/D ๋ถ๋ฆฌ์ ํด๋ฌ์คํฐ ๋ฐฐ์น |
| CXL Version Comparison | CXL Type-1/2/3์ ๋ฉ๋ชจ๋ฆฌ ํ์ฅยท์ฝํ์ด๋ฐ์ ๊ธฐ๋ฐ |
| NAND NVMe SSD Analysis | in-storage ๊ณ์ด์ ํ๋ถ ์ ์ฅ ๊ณ์ธต ๋ฐฐ๊ฒฝ |
| Memory Controller | ๋์ญํญยท์ฑ๋ยท๋ฑ ํฌ ๋ฐฐ์น ๊ด์ |
์ด ๋ฌธ์์ ๋ฒ์ ๋ฐ์ผ๋ก๋ KV cache management ์๋ฒ ์ด, ํจ์จ์ LLM ์ถ๋ก ์๋ฒ ์ด, ํ๋์จ์ด ๊ด์ ์๋ฒ ์ด๊ฐ ์ง์ ์ ์ผ๋ก ์ด์ด์ง๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๊ณ์ธต๊ณผ ์ค์ผ์ค๋ง์ด ํจ๊ป ์ฝํ๋ฏ๋ก, ๊ฐ๋ณ ๋ ผ๋ฌธ๋ณด๋ค ์ด๋ค ์ ๋ฆฌ ๋ฌธ์์ ํจ๊ป ๋ณด๋ ํธ์ด ์ดํด๊ฐ ๋น ๋ฆ ๋๋ค.
13. ํต์ฌ ์ ๋ฆฌ
2024~2026๋ ์ํคํ ์ฒ ํํ์ LLM ๋ฉ๋ชจ๋ฆฌ ์ฐ๊ตฌ๋ PIM/PNM, CXL ํฐ์ด๋ง, in-storage, KV ์์ํ, ํฌ์/์ถ์ถ, P/D ๋ถ๋ฆฌ๋ก ์๋ ดํ๊ณ ์์ต๋๋ค. ๊ณตํต ๋ฐฉํฅ์ decode์ memory-bound ๋ณ๋ชฉ์ ์ค์ด๊ณ , HBMยทCXLยทDRAMยทSSD๋ฅผ ์ญํ ๋ณ๋ก ๋๋๋ ๊ฒ์ ๋๋ค.
๋ค๋ง ์ ๋ขฐ์ฑ ์ถ์ ์์ง ๋น์ด ์๋ ํธ์ด๋ผ, reliability-aware KV ํฐ์ด๋ง๊ณผ ์คํ๋ก๋ฉ์ด ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ์ฐ๊ตฌ ๊ณต๋ฐฑ์ผ๋ก ๋จ์ ์์ต๋๋ค. ์ด ๋ถ์ผ๋ ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ๊ฐ์ ํญ์ด ํฐ ๋์ , ํ๋์จ์ดยท์ํํธ์จ์ด ํตํฉ ๋๋๊ฐ ๋๋ค๋ ์ ์ด ํจ๊ป ๋ฐ๋ผ์ต๋๋ค.