🤖 LLM 검증완료

vAttention Analysis

vAttention 심층 분석

CUDA Virtual Memory · Contiguous KV Cache · Demand Paging · ASPLOS 2025

vAttention(Prabhu et al., ASPLOS 2025, arXiv 2405.04437)은 KV cache를 연속된 가상 메모리에 두고 물리 메모리만 필요할 때 매핑하는 방식으로 동적 메모리 관리를 수행합니다. PagedAttention처럼 KV를 블록으로 쪼개지 않기 때문에, 기존 attention kernel을 그대로 사용하면서도 물리 단편화를 줄일 수 있습니다.

이 접근의 핵심은 단편화의 본질이 물리 메모리에 있다는 점입니다. CUDA virtual memory management(VMM) API로 가상 주소 예약과 물리 할당을 분리하면, OS의 demand paging과 같은 구조를 GPU 서빙에도 적용할 수 있습니다. 논문은 decode throughput 최대 1.99x, 온라인 end-to-end throughput 최대 1.23x, FlashAttention-3까지의 즉시 활용 가능성을 보고합니다.

1. 문제의식

PagedAttention은 내부 단편화를 줄이는 데 효과적이지만, KV cache의 가상 주소까지 비연속으로 바꾸는 대가가 있습니다. 그 결과 attention kernel은 블록 테이블을 따라가며 토큰을 참조해야 하고, 서빙 프레임워크도 별도의 메모리 관리 로직을 갖춰야 합니다.

그림 1. PagedAttention의 비연속 레이아웃과 vAttention의 가상 연속성 대비

PagedAttention의 비용

커널 재작성 필요: 비연속 KV를 처리하도록 attention kernel을 다시 구현해야 합니다.
블록 테이블 관리 필요: 프레임워크가 동적 블록의 주소와 매핑을 추적해야 합니다.
CPU/GPU 오버헤드 증가: 블록 테이블 구성과 간접 참조가 임계 경로에 들어갑니다.
이식성 저하: 새로운 attention kernel이 나올 때마다 paged 버전을 다시 만들어야 합니다.

핵심 개념

개념	의미
가상 연속성	커널 입장에서는 하나의 연속 텐서로 보임
물리 on-demand	실제 토큰이 늘어날 때만 물리 페이지를 매핑
page-group	한 번의 VMM 호출로 묶어 다루는 물리 페이지 묶음
granularity	CUDA 기본은 2MB 중심, 논문은 64KB 지원을 추가
request-level buffer	요청별 K/V 버퍼를 분리해 관리

2. 가상/물리 분리

vAttention은 CUDA VMM API로 가상 주소와 물리 메모리 할당을 분리합니다. 각 요청의 KV 텐서에 대해 최대 길이만큼 연속된 가상 주소를 미리 예약하고, 물리 메모리는 실제로 필요한 시점에만 붙입니다.

그림 2. 연속 가상 주소 예약과 물리 on-demand 매핑 흐름

단계	동작	관련 API
1	KV용 연속 가상 주소 공간을 예약	`cuMemAddressReserve`
2	필요한 크기의 물리 메모리 핸들을 생성	`cuMemCreate`
3	예약된 가상 주소에 물리 메모리를 매핑	`cuMemMap`
4	접근 권한을 부여해 텐서처럼 사용	`cuMemSetAccess`
5	요청 종료 시 해제 또는 지연 회수	`cuMemUnmap`, `cuMemRelease`

CUDA 문서도 cuMemMap이 접근 권한을 주지 않으며, 별도의 cuMemSetAccess가 필요하다고 설명합니다. vAttention은 이 흐름을 요청별 KV cache에 그대로 적용합니다.

동작 원리

가상 예약: 64-bit 주소 공간은 넉넉하므로, 요청별 최대 길이만큼 VA를 미리 잡아도 부담이 작습니다. 논문은 64-bit 시스템의 사용자 공간이 충분히 크다고 가정합니다.
물리 매핑: 토큰이 늘어 기존 페이지가 다 찰 때만 새 페이지를 붙입니다.
커널 관점: attention kernel은 KV가 연속이라고 가정한 채 그대로 실행합니다.

3. LLM 특화 최적화

CUDA VMM은 유용하지만, LLM 서빙에 그대로 쓰면 두 가지 문제가 있습니다. 첫째는 런타임 호출 지연, 둘째는 2MB 중심의 큰 페이지가 만드는 내부 단편화입니다.

그림 3. 2MB granularity와 VMM 호출 지연에 대한 대응

문제	논문 관찰	대응
큰 페이지 granularity	2MB 단위는 짧은 시퀀스에서 낭비가 큼	64KB page-group 지원
VMM 호출 지연	호출당 5~15ms 스파이크 가능	compute와 allocation overlap
요청 종료 시 재활용	새 요청이 바로 쓸 수 있는 메모리 재사용이 유리	deferred reclamation
임계 경로 할당	decode 중 동기 할당은 지연을 키움	eager / proactive allocation

논문은 Yi-6B, Llama-3-8B, Yi-34B에서 per-token 메모리 풋프린트가 각각 64KB, 128KB, 240KB이며, 전체 allocation rate의 최대치가 750MB/s 수준이라고 보고합니다. 즉, 메모리 할당 대역폭은 LLM inference에서 병목이 아니며, 지연 숨기기와 단편화 완화가 핵심입니다.

4. 성능과 비교

그림 4. 보고된 throughput과 PagedAttention 대비 비교

지표	결과	비교 대상
decode throughput	최대 1.99x	vLLM
prefill throughput	최대 1.24x / 1.26x / 1.24x	FA2 Paged, 192K context
prefill throughput	최대 1.25x / 1.36x / 1.17x	FlashInfer Paged
offline end-to-end	최대 1.18x / 1.15x / 1.13x	FA2 Paged
offline end-to-end	최대 1.19x / 1.23x / 1.14x	FlashInfer Paged
online median latency	최대 42% 감소	FA2 Paged

PagedAttention vs vAttention

측면	PagedAttention	vAttention
가상 KV 레이아웃	비연속	연속
attention kernel	paged용 재작성 필요	기존 kernel 그대로 사용
관리 주체	프레임워크 중심	CUDA VMM / driver 중심
CPU/GPU 오버헤드	높음	낮음
이식성	낮음	높음
의존성	범용 블록 추상화	NVIDIA CUDA VMM

vAttention은 FlashAttention-3처럼 PagedAttention 지원이 없던 커널도 바로 활용할 수 있게 해 줍니다. 즉, 메모리 관리 방식의 변경이 커널 혁신 속도를 따라가는 데 걸림돌이 되지 않도록 만드는 쪽에 가깝습니다.

5. 장단점

장점: 커널 수정이 거의 필요 없고, 최신 attention kernel을 그대로 활용하기 쉽습니다.
장점: 블록 테이블 관리가 사라져 CPU/GPU 경로가 단순해집니다.
장점: 물리 메모리만 on-demand로 붙이므로 단편화와 낭비를 줄입니다.
장점: KV 크기 축소 기법(양자화, GQA, MLA)과는 독립적으로 결합할 수 있습니다.
한계: CUDA VMM과 NVIDIA 드라이버에 의존합니다.
한계: 작은 페이지 지원을 위해 드라이버 확장이 필요할 수 있습니다.
한계: 물리 단편화는 줄이지만 KV 자체를 줄이진 않으므로, 대용량 모델에서는 양자화와 병행하는 편이 유리합니다.

6. 관련 기술

문서/기술	연결점
vAttention (ASPLOS 2025, arXiv 2405.04437)	CUDA VMM 기반 설계, 성능 수치, 최적화 기법의 1차 출처
PagedAttention Analysis	블록 단위 KV 관리와 대비되는 기준점
CUDA Driver API Virtual Memory Management	`cuMemAddressReserve`, `cuMemCreate`, `cuMemMap`, `cuMemSetAccess`
Unified Memory (`cudaMallocManaged`)	논문 8장에서 비교하는 대안
FlashAttention-2 / FlashAttention-3	vAttention이 그대로 활용하는 attention kernel 계열
FlashInfer	paged / non-paged kernel 비교 대상
vLLM / TensorRT-LLM	PagedAttention 기반 서빙 시스템의 대표 사례

7. 핵심 정리

vAttention은 PagedAttention과 같은 목표, 즉 KV cache 단편화 완화를 더 단순한 방식으로 달성합니다. PagedAttention이 KV의 가상 레이아웃까지 비연속으로 바꿨다면, vAttention은 CUDA VMM을 이용해 가상 주소는 연속으로 유지하고 물리 메모리만 필요할 때 매핑합니다. 덕분에 attention kernel을 수정하지 않고도 최신 커널을 그대로 활용할 수 있고, 블록 테이블과 간접 참조 오버헤드도 줄어듭니다.

논문은 2MB 기본 granularity와 VMM 호출 지연을 64KB page-group, overlap, deferred reclamation, eager allocation으로 보완합니다. 보고 성능은 decode throughput 최대 1.99x, offline end-to-end 최대 1.23x이며, online 환경에서도 latency가 감소합니다. CUDA VMM 의존성이 있는 대신, KV 양자화나 GQA/MLA와는 직교적으로 함께 사용할 수 있습니다.

Ryotta's Basic