GPU 메모리 아키텍처 기초
개요 (Overview)
GPU는 대규모 병렬 연산을 수행하는 프로세서로, 수천 개의 연산 코어가 동시에 동작하기 때문에 메모리 대역폭이 핵심 병목입니다. GPU 메모리 아키텍처는 CPU 메모리와 근본적으로 다른 접근 방식을 취하며, 고대역폭·저레이턴시에 최적화된 전용 메모리 인터페이스를 사용합니다.
GPU 메모리의 주요 특징은 병렬 워크로드에 최적화된 와이드 버스 아키텍처, GPU 온보드 고정 방식(Discrete GPU), 그리고 메모리 대역폭 계산 방식에 있습니다. GDDR(Graphics DDR) 계열과 HBM(High Bandwidth Memory) 계열이 대표적인 GPU 전용 메모리 기술로, 각각 비용·전력·대역폭 면에서 상이한 특성을 가집니다.
GPU 메모리 계층 구조 다이어그램
핵심 개념
GPU 메모리의 필요성
GPU는 수천 개의 스트림 프로세서(Stream Processor)로 구성되어 있으며, 각 프로세서가 독립적으로 메모리에 접근합니다. CPU가 캐시 계층과 복잡한 제어 로직으로 단일 스레드 성능을 극대화하는 반면, GPU는 수많은 스레드의 병렬 메모리 접근 패턴을 처리해야 합니다.
- 대역폭 병목: GPU 코어가 초당 수십~수백 GB의 데이터를 필요로 하므로, 기존 DDR DRAM으로는 대역폭이 부족
- 동시 접근: 수천 개 스레드가 동시에 메모리 접근 → 높은 읽기/쓰기 동시 처리 능력 필요
- 형상 데이터: 텍스처, 프레임버퍼, 셰이더 데이터 등 대규모 연속 데이터 스트림
GPU 메모리 계층 구조
GPU는 일반적으로 다음과 같은 계층적 메모리 구조를 사용합니다:
| 계층 | 용량 (일반적) | 대역폭 | 지연 시간 | 특징 |
|---|---|---|---|---|
| 레지스터 파일 | 수십 KB~수백 KB | 매우 높음 | ~1 클럭 | 스트림 프로세서 내부 |
| Shared Memory / LDS | 16~64 KB | 높음 | ~5 클럭 | 워크그룹(Workgroup) 공유 |
| L1 캐시 | 128 KB~256 KB | 높음 | ~20 클럭 | 데이터 캐싱 |
| L2 캐시 | 수 MB | 중간 | ~100 클럭 | 다이 레벨 캐시 |
| VRAM (GDDR/HBM) | 8~96 GB | 높음 | ~200~400 클럭 | GPU 온보드 메모리 |
| 시스템 메모리 (CPU DRAM) | 수십 GB~수 TB | 낮음 | ~수천 클럭 | UVM을 통한 공유 |
실제 GPU 소프트웨어 스택에서는 이 계층이 하드웨어만으로 끝나지 않습니다. CUDA Unified Virtual Memory(UVM), AMD HMM(Heterogeneous Memory Management), page migration 엔진 같은 계층이 VRAM과 시스템 메모리 사이를 이어 주며, 대역폭이 크게 다른 두 메모리 공간을 어떻게 배치하고 옮길지가 성능을 좌우합니다.
메모리 대역폭 계산
GPU 메모리 대역폭은 다음 공식으로 계산됩니다:
대역폭 (GB/s) = 메모리 클럭 속도 × 데이터 버스 폭 × 전송 배율 ÷ 8
- 메모리 클럭 속도: MHz 단위의 기본 클럭
- 데이터 버스 폭: 비트 단위 (예: 256-bit, 384-bit, 1024-bit)
- 전송 방식: 세대별 인터페이스에 따라 달라지며, GDDR6X는 PAM4, GDDR7은 PAM3를 사용
예시 계산:
- NVIDIA RTX 3080: GDDR6X, 19 Gbps/pin, 320-bit 버스 → 760 GB/s
- NVIDIA H100 SXM: HBM3, 3.35 TB/s
- AMD Radeon VII: HBM2, 1 TB/s (4 HBM2 스택)
GDDR 메모리 계열
GDDR6
GDDR6는 JEDEC이 2017년에 표준화한 그래픽 전용 DDR 메모리입니다.
| 항목 | 사양 |
|---|---|
| 데이터 레이트 | 최대 16~20 Gbps/pin |
| 동작 전압 | 1.35V |
| 인터페이스 | 32-bit 채널 × 2 (독립 채널) |
| 데이터 인코딩 | NRZ (Non-Return-to-Zero) |
| 특징 | 2개의 16-bit 채널, WCK 기반 전송 |
GDDR6는 GDDR5 대비 핀당 대역폭이 2배 향상되었으며, 16Gb(2GB) 칩이 상용화되었습니다. Samsung, SK Hynix, Micron이 주요 공급처이며, NVIDIA RTX 20 시리즈, AMD RX 5700 시리즈 등에 탑재되었습니다.
GDDR6X
GDDR6X는 Micron과 NVIDIA가 협력하여 개발한 고급 GDDR6 변형입니다.
| 항목 | GDDR6 | GDDR6X |
|---|---|---|
| 데이터 레이트 | 최대 20 Gbps/pin | 최대 21~23 Gbps/pin |
| 인코딩 | NRZ (PAM2) | PAM4 (Pulse Amplitude Modulation 4-level) |
| 핀당 비트 | 1 비트/심볼 | 2 비트/심볼 |
| 전력 효율 | 기준 | 비트당 15% 절감 |
| 적용 제품 | RTX 20 시리즈 | RTX 3080/3090 |
PAM4는 4개 전압 레벨을 사용하여 심볼당 2비트를 전송하므로, NRZ 대비 이론적으로 2배의 대역폭을 달성합니다. 다만 신호 대 잡음비(SNR) 문제가 있어 구현 비용이 높습니다.
GDDR7
GDDR7은 2024년 JEDEC이 표준화한 최신 GDDR 메모리이며, PAM3 신호 방식과 분할 채널 구조로 대역폭과 전력 효율을 함께 끌어올립니다.
| 항목 | 사양 |
|---|---|
| 데이터 레이트 | 최대 28~48 Gbps/pin (초기 32 Gbps) |
| 인코딩 | PAM3 |
| 채널 구조 | 4 × 8-bit 채널 |
| 적용 제품 | NVIDIA RTX 50 시리즈 등 |
GDDR7은 GDDR6보다 높은 핀당 전송률을 제공하며, on-die ECC와 CA parity 같은 신뢰성 기능을 함께 강화합니다.
HBM (High Bandwidth Memory) 계열
HBM 기본 구조
HBM은 AMD와 SK Hynix가 공동 개발한 3D 적층 DRAM 기술로, JEDEC이 JESD235로 표준화했습니다.
핵심 특징:
- 3D 적층: 최대 32개 DRAM 다이를 수직 적층
- 와이드 인터페이스: 1024-bit 버스 (HBM1 기준)
- TSV (Through-Silicon Via): 다이 간 수직 연결 기술
- 실리콘 인터포저: GPU/HBM을 동일 기판에 패키징
HBM 스택은 일반적으로 4-Hi(4다이), 8-Hi(8다이), 12-Hi(12다이), 16-Hi(16다이) 구성으로 제공됩니다.
HBM 세대별 비교
| 세대 | 연도 | 핀당 속도 | 스택 대역폭 | 최대 용량 | 채널 구성 |
|---|---|---|---|---|---|
| HBM1 | 2013 | 1 Gbps | 128 GB/s | 4 GB | 8채널 × 128-bit |
| HBM2 | 2016 | 2 Gbps | 256 GB/s | 8 GB | 8채널 × 128-bit |
| HBM2E | 2019 | 3.6 Gbps | 460 GB/s | 24 GB | 8채널 × 128-bit |
| HBM3 | 2022 | 6.4 Gbps | 819 GB/s | 24 GB | 16채널 × 64-bit |
| HBM3E | 2023 | 9.8 Gbps | 1.2 TB/s | 48 GB | 16채널 × 64-bit |
| HBM4 | 2025 | 8 Gbps (baseline) | 2 TB/s (baseline) | 64 GB | 32채널 × 64-bit |
공개 제품 기준으로는 Samsung HBM4가 13 Gbps, 3,300 GB/s, 36 GB 12H를, Micron HBM4가 11 Gbps 이상, 2.8 TB/s 이상, 2048-pin 버스를 제시합니다.
HBM vs GDDR 비교
| 특성 | GDDR6/6X | HBM3/3E |
|---|---|---|
| 구조 | 2D 평면 패키징 | 3D 적층 + 인터포저 |
| 버스 폭 | 32~64-bit × N채널 | 1024~2048-bit |
| 대역폭/스택 | 44~92 GB/s | 819 GB/s~2 TB/s |
| 전력 소비 | 상대적 높음 | 핀당 낮음 |
| 비용 | 상대적 낮음 | 높음 (인터포저 + TSV) |
| 적재 밀도 | 넓은 면적 | 컴팩트 (패키지 내장) |
| 주요 적용 | 게이밍 GPU (RTX 20/30/40) | 데이터센터 GPU (H100, A100) |
실리콘 인터포저와 패키징
HBM을 사용하려면 GPU 다이와 HBM 스택을 하나의 실리콘 인터포저에 연결해야 합니다:
- 실리콘 인터포저: GPU와 HBM을 근접 배치하여 짧은 연결 경로 확보
- μbump (마이크로 범프): 다이 간 미세 연결
- TSV: 실리콘을 수직으로 관통하는 구리 도체
- 고밀도 패키징: CoWoS (Chip-on-Wafer-on-Substrate) 등
이러한 패키징 기술은 제조 원가를 높이지만, 훨씬 높은 대역폭과 낮은 전력 소비를 달성합니다.
동작 원리
메모리 접근 패턴
GPU는 메모리 접근 시 다음과 같은 패턴을 사용합니다:
연속 접근 (Coalesced Access):
- 인접 스레드가 인접 메모리 주소에 동시에 접근
- 최대 대역폭 활용 (128바이트 또는 256바이트 캐시 라인 단위)
- 가장 효율적인 접근 방식
비연속 접근 (Strided/Scattered Access):
- 간격이 있는 주소에 접근
- 대역폭 활용도 저하
- 캐시 미스 증가
메모리 컨트롤러
GPU 메모리 컨트롤러는 CPU 메모리 컨트롤러와 다음과 같은 차이점이 있습니다:
| 특성 | CPU 메모리 컨트롤러 | GPU 메모리 컨트롤러 |
|---|---|---|
| 채널 수 | 2~8 채널 | 8~32 채널 |
| 우선순위 | 지연 시간 최소화 | 처리량 최대화 |
| 스케줄링 | 명령 큐 관리 | 워프(Warp) 단위 스케줄링 |
| 캐시 정책 | 복잡한 캐시 계층 | 단순화된 캐시 + 공유 메모리 |
| 대역폭 추구 | 낮은 지연 시간 | 높은 처리량 |
메모리 압축 기술
현대 GPU는 메모리 대역폭을 효율적으로 활용하기 위해 다양한 압축 기술을 사용합니다:
- Delta 압축: 인접 픽셀 간 차이값만 저장
- BFRT (Bit-Format Runtime Compression): NVIDIA의 실시간 비트 포맷 압축
- AFBC (Arm Frame Buffer Compression): AMD/Arm의 프레임버퍼 압축
- MMU 압축: 메모리 관리 단위 수준 압축
용량 확장과 패키지 선택
GPU 메모리 설계는 단순히 핀당 속도를 높이는 문제만이 아니라, 용량과 패키지 수율 사이의 절충이기도 합니다. 게이밍 GPU는 PCB 위에 여러 개의 GDDR 칩을 배치해 BOM과 제품군 확장을 유연하게 가져갈 수 있고, AI 가속기는 HBM 스택 수와 stack height를 늘려 모델 파라미터와 KV cache를 패키지 안에 더 많이 올리는 방향을 택합니다.
이 때문에 최신 데이터센터 GPU는 연산 성능보다 먼저 메모리 용량과 패키지 공급성이 제품 경쟁력을 결정하는 경우가 많습니다. 예를 들어 HBM3E/HBM4 세대에서는 핀당 속도뿐 아니라 12-Hi 이상 적층, 스택당 용량, 인터포저 면적, CoWoS 같은 고급 패키징 캐파가 함께 병목으로 취급됩니다.
장단점
GDDR 계열 vs HBM 계열 대역폭 비교
GDDR의 장단점
장점:
- 높은 대역폭 대비 비용 효율성
- 성숙한 제조 공정과 공급망
- 넓은 제조사 선택 범위 (Samsung, SK Hynix, Micron)
- 비교적 낮은 패키징 비용
단점:
- 높은 핀당 전력 소비
- 대역폭 확장에 한계 (버스 폭 증가 시 면적·전력 증가)
- 대용량 구현 시 패키지 면적 문제
HBM의 장단점
장점:
- 극도로 높은 대역폭 (TB/s 수준)
- 낮은 핀당 전력 소비
- 컴팩트한 패키지 크기
- 높은 메모리 밀도 (스택 당 수십 GB)
단점:
- 높은 제조 원가 (실리콘 인터포저, TSV 공정)
- 복잡한 패키징 기술
- 제한된 공급 (SK Hynix, Samsung, Micron)
- 열 관리 문제 (적층 구조로 열 집적)
메모리 대역폭 계산 예시
GDDR6X (RTX 3080)
핀당 속도: 19 Gbps
버스 폭: 320-bit (10개 32비트 채널)
전체 대역폭: 19 Gbps × 320 bit ÷ 8 = 760 GB/s
HBM3 (NVIDIA H100 SXM)
공개 사양: 80 GB HBM3, 3.35 TB/s
HBM3E (NVIDIA H200 SXM)
공개 사양: 141 GB HBM3E, 4.8 TB/s
관련 기술
참고 문헌 및 표준
- JEDEC JESD235: High Bandwidth Memory (HBM) DRAM Standard
- JEDEC JESD235a: HBM2 Standard
- JEDEC JESD235b: HBM2E Standard
- JEDEC JESD235c: HBM3 Standard
- JEDEC JESD235d: HBM3E Standard
- JEDEC JESD235e: HBM4 Standard
- JEDEC GDDR6 SGRAM Standard
- JEDEC GDDR6X Specification (Micron/NVIDIA)
- JEDEC GDDR7 Standard
관련 논문
- Kim et al., "A 1.2V 8Gb 8-channel 128GB/s High-Bandwidth Memory (HBM) Stacked DRAM with Effective Microbump I/O Test Methods," ISSCC 2014
- Lee et al., "A 1.2V 20nm 307GB/s HBM DRAM With At-Speed Wafer-Level IO Test Scheme and Adaptive Refresh Considering Temperature Distribution," IEEE JSSC 2017
관련 문서
- DRAM 1T1C Analysis
- DRAM Refresh Comparison
- HBM Generation Comparison
- GDDR Generation Comparison
- GPU Heterogeneous Memory Papers
- CUDA 메모리 관리
- GPU 메모리 최적화 기법
핵심 정리
- GPU는 대규모 병렬 연산 특성상 고대역폭 메모리가 필수적이며, GDDR과 HBM이 주요 두 가지 접근 방식입니다.
- GDDR6X는 PAM4, GDDR7은 PAM3와 분할 채널 구조로 핀당 전송 효율을 끌어올렸고, HBM은 3D 적층과 와이드 버스로 TB/s 수준의 대역폭을 제공합니다.
- HBM4는 2048-bit 인터페이스를 표준 baseline으로 두며, 공개 제품은 11~13 Gbps와 2.8~3.3 TB/s 수준까지 제시됩니다.
- 메모리 대역폭 계산은 "핀당 속도 × 버스 폭 ÷ 8" 공식으로 가능하며, GPU 아키텍처에 따라 채널 구성과 전송 배율이 다릅니다.
- 패키징 기술(실리콘 인터포저, TSV, μbump)은 GPU 메모리 성능의 핵심 요소로, 제조 비용과 열 관리에 직접적인 영향을 미칩니다.