🤖 LLM 검증완료

KV Cache Quantization Analysis

KV Cache 양자화 심층 분석

KV Cache Quantization · Per-channel Key / Per-token Value · KIVI · KVQuant · FP8/INT8 · Mixed Precision

KV 캐시 양자화는 LLM 추론에서 Key/Value 캐시의 정밀도를 낮춰(FP16 → INT8/INT4/INT2 또는 FP8) 메모리 용량과 대역폭을 절감하는 기법입니다. KV 캐시는 시퀀스·배치에 비례해 커져 모델 가중치만큼이나 메모리를 차지하고, 디코딩은 이 캐시를 읽는 속도에 좌우되므로, KV를 작게 만드는 것은 곧 더 큰 배치·더 긴 문맥·더 빠른 디코딩을 의미합니다. KV 캐시를 줄이는 방법은 비트폭, 입도, 최근 토큰 보존, 커널 융합의 조합 문제이기도 합니다. 같은 2비트라도 KIVI와 KVQuant의 품질이 다른 이유는 Key/Value 분포와 RoPE 처리 방식이 다르기 때문입니다.

실전에서는 "몇 비트까지 낮출 수 있나"보다 "어떤 KV를 어떤 입도로 줄일 것인가"가 더 중요합니다. Key는 채널 이상치에 민감하고, Value는 토큰별 오차 누적에 민감하며, 프레임워크는 다시 역양자화 오버헤드와 커널 융합 여부에 따라 성능이 갈립니다. 본 문서는 KV 캐시의 메모리 문제 → 양자화 기초 → KV가 왜 특별한가(Key/Value 비대칭) → 주요 기법(KIVI·KVQuant·FP8/INT8·혼합 정밀도) → 시스템 통합 → 장단점 → 트레이드오프·메모리 티어링 연결의 순서로 분석합니다.

1. KV 캐시 메모리 문제

KV 캐시는 과거 토큰들의 Key/Value를 저장해 어텐션 재계산을 피하지만, 그 크기가 추론의 병목이 됩니다. 크기는 배치·시퀀스 길이·레이어·헤드 수에 모두 비례하므로, 긴 문맥이나 큰 배치에서는 모델 가중치를 넘어서기도 합니다.

용량과 대역폭

항목	양자화 전	양자화 후
저장 용량	시퀀스·배치·레이어에 비례해 급증	8/4/3/2비트로 축소
읽기 대역폭	디코딩마다 전체 KV를 읽음	읽기량 감소, dequant 비용 추가
배치 크기	HBM 소진으로 제한	같은 GPU에 더 많은 요청 수용
문맥 길이	긴 문맥에서 급격히 증가	더 긴 문맥 서빙에 유리
### 두 가지 절감 — 용량과 대역폭

메모리 용량(capacity) — KV가 작아지면 같은 GPU에 더 긴 문맥, 더 큰 배치를 담을 수 있습니다 → 처리량 향상(거의 항상 이득).
메모리 대역폭(bandwidth) — 디코딩은 매 스텝 KV를 읽는 메모리 바운드 작업이므로, 읽을 KV가 작아지면 디코딩이 빨라집니다(단 역양자화 연산과 상쇄될 수 있음).

2. 양자화 기초

양자화는 연속적인 실수값(FP16/BF16)을 더 적은 비트의 정수(INT8/INT4/INT2)나 저비트 부동소수점(FP8)으로 매핑하는 것입니다. 핵심은 scale과 zero-point만 있으면 정수와 근사 실수를 오갈 수 있다는 점입니다.

그림 1. 실수→정수 격자 매핑, affine 양자화 수식, 비트별 메모리 절감

핵심 개념

균등(affine) 양자화 — q = round(x/s + z)로 양자화, x_hat = s·(q−z)로 역양자화. s는 scale, z는 zero-point.
대칭 vs 비대칭 — 분포가 0 중심이 아니면 zero-point z≠0인 비대칭이 유리합니다.
입도(granularity) — per-tensor(텐서 1개 scale)보다 per-channel/per-token(행·열별 scale)이 세밀해 정확하지만, scale 저장 공간이 늘어 실효 절감이 이론치보다 약간 작아집니다(특히 INT4/INT8).
이상치(outlier) — 소수의 큰 값이 격자 범위를 넓혀 나머지 값의 해상도를 떨어뜨립니다. KV 양자화의 핵심 난제입니다.

3. KV 캐시는 왜 특별한가 — Key와 Value의 비대칭

KV 캐시는 가중치와 달리 입력마다 분포가 변하는 런타임 활성값이라 이상치가 많고, 무엇보다 Key 캐시와 Value 캐시의 분포가 서로 다릅니다. 이 비대칭을 무시하고 단순 per-tensor INT4로 양자화하면 정확도가 크게 무너집니다.

그림 2. Key는 채널 이상치 → per-channel, Value는 → per-token (KIVI의 핵심 발견)

Key=per-channel, Value=per-token

Key 캐시 — 소수의 고정된 채널이 매우 큰 값을 가집니다(채널 이상치). 그 채널을 채널 단위로 양자화(per-channel)해야 이상치가 다른 채널의 해상도를 망치지 않습니다.
Value 캐시 — 뚜렷한 채널 이상치는 없지만, 어텐션 출력이 Value들의 가중합(value mixer)이므로 토큰별로 오차를 가두는 per-token 양자화가 안전합니다.
RoPE 문제 — 회전 위치 인코딩이 채널 쌍을 섞어 Key의 이상치 구조를 흐트러뜨립니다. KVQuant는 RoPE 적용 '전'에 Key를 per-channel 양자화해 이 문제를 피합니다.
최근 토큰 보존 — 가장 최근의 Key/Value 일부를 full precision sliding window로 남기면 어려운 추론 과제의 정확도가 회복됩니다. 예를 들어 KIVI 논문에서 Llama-2-7B의 GSM8K가 naive 2비트에서 13.50→5.76으로 무너지지만, full-precision 잔차를 둔 KIVI-2는 13.50→12.74로 대부분 회복합니다.

4. 주요 KV 양자화 기법

그림 3. FP8/INT8, KIVI, KVQuant, 혼합 정밀도의 비교

KIVI — 비대칭 2비트 (ICML 2024, arXiv 2402.02750)

KV 캐시 분포 분석에서 출발해, Key는 per-channel·Value는 per-token으로 양자화하는 비대칭 2비트 기법입니다. 튜닝이 필요 없고(plug-and-play), 최근 토큰은 full precision 잔차로 유지하며, 역양자화를 matmul과 융합한 하드웨어 친화적 구현을 제공합니다. 논문에 따르면 Llama-2·Falcon·Mistral에서 거의 같은 품질을 유지하면서 (가중치 포함) 최대 메모리를 2.6배 줄이고, 이로써 최대 4배 큰 배치와 2.35~3.47배 처리량을 달성합니다.

KVQuant — 3비트 (NeurIPS 2024, arXiv 2401.18079, UC Berkeley)

네 가지 기법을 결합해 sub-4-bit 정밀도를 가능케 합니다: (i) per-channel Key 양자화, (ii) RoPE 적용 전 Key 양자화(pre-RoPE), (iii) 민감도 가중 비균등 양자화(NUQ), (iv) per-vector dense-and-sparse(이상치를 따로 분리). LLaMA·Llama-2/3·Mistral에서 3비트로 perplexity 저하 0.1 미만을 달성하며, LLaMA-7B 기준 단일 A100-80GB에서 100만(1M) 토큰, 8-GPU에서 1000만(10M) 토큰 문맥을 서빙할 수 있다고 보고합니다. 커스텀 CUDA 커널로 약 1.7배 speedup도 제시합니다.

FP8 / INT8 — 8비트 (프레임워크 기본)

FP8 — OCP가 정의한 E4M3(4지수·3가수, ±240 범위, FP32 scale 필요)와 E5M2(5지수·2가수) 두 형식. vLLM은 kv_cache_dtype="fp8"(E4M3/E5M2)을 지원하며, E4M3는 정확도 저하가 대체로 미미합니다. NVIDIA Hopper/Ada, AMD MI300 등이 하드웨어 변환을 가속합니다.
INT8 — TensorRT-LLM은 FP8(E4M3)과 INT8 KV 캐시를 모두 지원합니다. 다만 INT8/INT4는 scale 저장이 추가로 필요해 FP8보다 메모리 이득이 약간 줄고, FP8은 스케일 부담이 작아 구현이 단순합니다.

혼합 정밀도 (Mixed Precision)

중요한 토큰·이상치는 고정밀로, 나머지는 저비트로 차등 적용하는 방향입니다. MiKV는 중요 KV는 고정밀로 유지하고 Q와 attention map은 부동소수점으로 두며, KVmix는 레이어 중요도(gradient 기반)에 따라 비트폭을 할당해 Key 2.19비트·Value 2.38비트 같은 극저비트에서 4.9배 압축·5.3배 속도를 보고합니다. attention sink(앞쪽 핵심 토큰) 보존이 공통 열쇠입니다.

정확도 vs 비트폭 정리

비트폭	대표 방식	정확도 경향	메모리 경향
8비트	FP8 / INT8	거의 무손실	약 2배 절감
4비트	그룹/혼합 양자화	대체로 양호	약 4배 절감
3비트	KVQuant	< 0.1 perplexity 저하 수준까지 가능	강한 절감
2비트	KIVI	residual window가 있으면 실용적	매우 강한 절감
2비트 미만	mixed precision	중요 토큰 보존이 필수	정책 복잡도 증가

5. 시스템 통합

양자화는 추론 파이프라인의 어디에서, 어떤 비용으로 일어나는지가 실제 이득을 좌우합니다. 일반적으로 저장은 저비트로 하되 어텐션 연산 자체는 고정밀로 수행합니다.

그림 4. 디코딩 스텝에서 양자화/역양자화 위치와 용량·대역폭 두 측면

구현·시스템 고려사항

양자화 위치 — 새 토큰의 K,V를 계산한 직후 양자화해 캐시에 저장하고, 어텐션 직전에 역양자화(또는 저비트 matmul)합니다.
역양자화 오버헤드 — dequant를 matmul과 융합(fused kernel)하지 않으면 대역폭 절감으로 얻은 지연 이득이 사라질 수 있습니다.
vLLM — kv_cache_dtype="fp8". 현재 주 이득은 용량(≈2배 토큰)이며, 지연 이득은 백엔드 의존입니다(과거에는 fused dequant 미구현으로 지연 이득이 제한적이었고, FlashAttention-3 백엔드에서는 어텐션도 FP8로 수행). LLM Compressor로 보정(calibration)된 scale을 쓰면 품질이 좋아집니다.
TensorRT-LLM — FP8·INT8 KV 캐시 지원. SqueezeBits 벤치마크에서 vLLM의 FP8는 처리량 개선이 거의 없었던 반면(프리필 위주에선 소폭 저하), TensorRT-LLM의 FP8·INT8은 처리량 향상을 보였습니다. 프레임워크·워크로드에 따라 결과가 크게 다릅니다.
PagedAttention과 직교 — 블록 안의 K,V를 저비트로 담으면 블록당 더 많은 토큰이 들어가므로, 두 기법을 함께 쓸 수 있습니다.
정확도 평가 — perplexity와 함께 장문맥 벤치마크(LongBench·passkey retrieval·RULER), GSM8K 같은 추론 과제로 검증합니다.

6. 장단점

장점

메모리 절감 효과가 직접적입니다. FP8/INT8만으로도 대체로 약 2배, INT4/INT2 계열은 그보다 더 큰 절감이 가능해 긴 문맥과 큰 배치를 같은 GPU에 담기 쉬워집니다.
대역폭 병목 완화에 도움이 됩니다. 디코딩 단계는 매 스텝 과거 KV를 반복해서 읽기 때문에, KV 크기가 줄면 HBM 읽기량과 오프로딩 전송량도 함께 줄어듭니다.
메모리 관리 기법과 결합하기 쉽습니다. PagedAttention, KV offloading, 메모리 티어링과 직교적이라 기존 서빙 스택 위에 덧붙여 효과를 누적할 수 있습니다.

단점

낮은 비트폭에서는 정확도 저하 위험이 큽니다. 특히 Key/Value 비대칭, RoPE, 최근 토큰 보존을 무시하면 2비트 근처에서 품질이 급격히 무너질 수 있습니다.
구현 복잡도가 높아집니다. per-channel/per-token scale 관리, 이상치 분리, fused dequant kernel, backend별 dtype 제약을 함께 고려해야 합니다.
프레임워크와 워크로드에 따라 성능 이득이 달라집니다. 용량 절감은 비교적 안정적이지만, 지연 시간과 처리량 개선은 kernel fusion, attention backend, batch 크기에 크게 좌우됩니다.

7. 트레이드오프와 메모리 티어링 연결

그림 5. 정확도-비트 트레이드오프, 그리고 precision tiering(티어별 정밀도 차등)

핵심 트레이드오프

정확도 ↔ 압축률 — 비트가 낮을수록 메모리는 줄지만 정확도가 떨어집니다. 8비트는 거의 공짜, 4비트는 실용적, 2비트 이하는 정교한 기법이 필수입니다.
용량 이득 ↔ dequant 비용 — 대역폭 절감과 역양자화 연산이 상쇄될 수 있어, 커널 융합 여부가 지연 이득을 결정합니다.
정밀도 ↔ scale 저장 — 세밀한 입도(per-channel/per-token)일수록 정확하지만 scale 오버헤드가 늘고, GQA/MQA·FlashAttention과의 호환성도 고려해야 합니다.

메모리 티어링·오프로딩과의 결합 (직교적·상보적)

양자화는 KV를 '줄이고', 티어링은 KV를 '옮깁니다'. 두 기법은 직교적이며 함께 쓰면 효과가 배가됩니다. 양자화로 KV를 줄이면 CXL/PCIe로 옮길 데이터와 대역폭 부담이 함께 감소하기 때문입니다.

precision tiering — hot KV는 GPU에서 고정밀(FP16/FP8), warm KV는 CPU DRAM에서 INT8/INT4, cold KV는 CXL/NVMe에서 더 공격적인 INT4/INT2로 두는 식의 티어별 정밀도 차등이 가능합니다.
전송량 절감 — 아래 티어로 옮기는 KV를 더 공격적으로 양자화하면, 느린 링크(PCIe/CXL)를 통과하는 데이터량 자체가 줄어 오프로딩의 대역폭 병목을 완화합니다.
신뢰성 관점 — 저비트일수록 비트 오류에 대한 민감도가 달라지므로, 티어별 정밀도와 ECC(오류 정정)를 함께 설계하는 공동 설계 여지가 있습니다.

8. 관련 기술

문서/연구	연결점
PagedAttention Analysis	KV 블록 단위 관리와 block table 기반 서빙
KV Cache Offloading Analysis	KV를 GPU 밖으로 옮기는 오프로딩과의 결합
StreamingLLM Analysis	attention sink와 최근 토큰 보존 아이디어
KIVI (arXiv 2402.02750)	2-bit asymmetric KV quantization
KVQuant (arXiv 2401.18079)	pre-RoPE, NUQ, dense-and-sparse, 3-bit KV quantization
MiKV / KVmix	mixed precision과 중요 토큰 보존

9. 핵심 정리

KV 캐시 양자화는 Key/Value의 정밀도를 낮춰 용량과 대역폭을 동시에 줄이는 가장 직접적인 KV 절감 수단이다. 핵심은 Key와 Value의 분포가 다르다는 점으로, Key는 채널 이상치 때문에 per-channel, Value는 per-token으로 양자화해야 하며(KIVI), RoPE 전 양자화·비균등 양자화·이상치 분리(KVQuant)와 최근/중요 토큰의 고정밀 보존이 저비트 정확도의 열쇠다. 8비트(FP8/INT8)는 거의 무손실로 프레임워크가 기본 지원하고, 3비트는 KVQuant, 2비트는 KIVI의 비대칭+잔차, 2비트 미만은 혼합 정밀도가 필요하다. 양자화는 메모리 티어링·오프로딩과 직교적이어서, hot KV는 고정밀·cold KV는 저비트로 두는 precision tiering으로 결합하면 CXL/PCIe 전송량까지 함께 줄일 수 있다.

주의 — 본문 수치는 각 논문(KIVI arXiv 2402.02750, KVQuant arXiv 2401.18079, MiKV arXiv 2402.18096, KVmix arXiv 2506.08018)과 관련 프레임워크의 보고값으로, 모델·데이터셋·하드웨어·배치 조건에 따라 달라진다. KIVI의 2.6배는 가중치를 포함한 peak memory 기준이고, KVQuant의 1M/10M 문맥 수치는 특정 모델과 GPU 구성을 전제로 한다.

메모리 크기 감각

KV_bytes ≈ 2 × L × n_kv_heads × head_dim × seq_len × batch × bytes
bytes: FP16=2, FP8/INT8=1, INT4=0.5, INT2=0.25

비트폭별 요약

비트폭	정확도	필요 기법
8비트(FP8/INT8)	거의 무손실	per-tensor scale로 충분, 프레임워크 기본
4비트	대체로 양호	그룹 양자화(group-wise)
3비트	정교하면 거의 무손실	KVQuant(pre-RoPE·NUQ·dense-and-sparse)
2비트	주의 필요	비대칭(채널/토큰)+full-precision 잔차(KIVI)
2비트 미만	어려움	혼합 정밀도(중요 토큰 고정밀)

Ryotta's Basic