🐧 Linux 검증완료

하드웨어 메모리 압축

개요

하드웨어 메모리 압축은 RAM의 물리적 용량을 소프트웨어 압축 알고리즘 대비 훨씬 낮은 지연시간으로 확장하는 기술입니다. DRAM 가격이 비싼 서버 환경이나 메모리 제약이 큰 엣지/임베디드 장치에서 효과적이며, 실시간 압축(real-time compression), 캐시 압축(cache compression), BDI(Base-Delta-Immediate), FPC(Frequent Pattern Compression) 같은 하드웨어 친화적 알고리즘을 통해 CPU 오버헤드 없이 메모리 대역폭과 용량의 트레이드오프를 조절합니다.

이 문서는 각 압축 기법이 어떤 원리로 동작하고, 어떤 워크로드에 적합하며, 소프트웨어 압축 대비 어떤 이점과 한계를 가지는지를 한 흐름으로 정리합니다.

그림 1. 하드웨어 메모리 압축 기법 분류와 적용 계층

핵심 개념

실시간 압축 (Real-Time Compression)

실시간 압축은 메모리 쓰기 또는 읽기 경로에서 하드웨어나 마이크로아키텍처 수준의 병렬 처리로 압축/해제를 수행하는 기법입니다. 소프트웨어 압축(zswap, zram) 대비 지연시간이 수십~수백 배 낮아, CPU 파이프라인에 최소한의 영향을 줍니다.

IBM zSeries의 HCE(Hardware Compression Engine)는 메모리 쓰기 시 실시간으로 압축하고, 읽을 때 해제합니다.
Intel의 QAT(QuickAssist Technology)는 DMA 기반으로 오프로딩하여 CPU를 완전히 해방합니다.
AMD는 최신 EPYC에서 메모리 압축을 검토 중이며, CXL.mem 인터페이스와 결합된 하드웨어 압축을 연구하고 있습니다.
실시간 압축은 CPU 파이프라인 stall이나 스페큘레이션 영향을 최소화하도록 설계됩니다.
대표적인 알고리즘: LZ4, ZSTD의 하드웨어 가속화 변형

캐시 압축 (Cache Compression)

캐시 압축은 L2/L3 캐시 라인의 실효 용량을 압축으로 늘리는 기술입니다. 캐시 미스 비용이 높은 워크로드에서 효과적이며, 캐시 라인 내 데이터의 중복성과 패턴을 활용합니다.

IBM POWER8은 L3 캐시에서 DPLZ(Delta-Predicted Lempel-Ziv) 압축을 지원합니다.
ARM의 DSU(DynamIQ Shared Unit)는 캐시 압축을 위한 표준 인터페이스를 정의하고 있습니다.
캐시 압축은 캐시 라인의 effective capacity를 1.5~2배로 늘릴 수 있습니다.
압축 해제 지연은 보통 1~2 사이클이며, 파이프라인에 통합됩니다.
미스 비용이 높고 working set이 큰 데이터베이스/분석 워크로드에 적합합니다.

BDI (Base-Delta-Immediate)

BDI는 메모리 페이지 내 데이터의 상대적 차이를 저장하는 압축 알고리즘입니다. 모든 값이 하나의 기본값(base)으로부터 작은 차이(delta)로 표현 가능한 경우에 매우 높은 압축률을 달성합니다.

페이지 내 8-byte 워드를 base로 나누어 delta를 인코딩합니다.
base 값이 페이지 전체에 걸쳐 유사하면 압축률이 2:1~4:1에 달합니다.
가상 머신의 메모리 페이지, 배열 기반 데이터 구조에 효과적입니다.
IBM zEnterprise에서 하드웨어로 구현되어 실시간 동작합니다.
delta가 base에서 크게 벗어나면 압축률이 급격히 떨어지는 한계가 있습니다.

FPC (Frequent Pattern Compression)

FPC는 페이지 내에서 반복되는 패턴을 찾아 압축하는 알고리즘입니다. 특정 값이나 값의 조합이 빈번하게 나타나는 데이터에 최적화되어 있습니다.

페이지 내 빈번한 값의 조합(frequent pattern)을 사전에 학습하거나 동적으로 감지합니다.
패턴 테이블을 기반으로 반복되는 값을 짧은 인덱스로 대체합니다.
제로 패딩된 정수, 희소 배열, 널 패딩 문자열에 특히 효과적입니다.
IBM zSystems의 하드웨어 압축 엔진에서 구현되어 있습니다.
패턴이 불규칙한 워크로드에서는 BDI보다 효율이 떨어질 수 있습니다.

하드웨어 압축 엔진

하드웨어 압축 엔진은 별도의 ASIC이나 FPGA, 또는 CPU 내부의 고정 하드웨어 블록으로 압축/해제를 수행합니다. 소프트웨어 구현 대비 전력 효율과 처리량이 우수합니다.

IBM zSeries HCE: CPU 클럭과 동기화되어 파이프라인에 통합
Intel QAT: PCIe 기반 가속기, DMA 오프로딩
NVIDIA ConnectX/DPU: 네트워크 인터페이스 카드 내 메모리 압축 가속
FPGA 기반 압축: 재구성이 가능한 맞춤형 알고리즘 구현

비교/분석

기법	원리	압축률	지연시간	하드웨어 의존성	적합한 워크로드
실시간 압축	LZ 계열 하드웨어 가속	2:1~3:1	~1ns	전용 엔진 필요	가상화, 클라우드
캐시 압축	캐시 라인 내 압축	1.5:1~2:1	1~2 사이클	마이크로아키텍처 통합	DB, 대용량 분석
BDI	Base-Delta 인코딩	2:1~4:1	~1ns	하드웨어 엔진 필요	VM 메모리, 배열 데이터
FPC	빈번 패턴 테이블	2:1~3:1	~1ns	패턴 테이블 로드 필요	제로 패딩, 희소 데이터
소프트웨어 (zswap/zram)	LZ4/ZSTD 소프트웨어	2:1~5:1	10~100μs	없음 (CPU 사용)	범용 리눅스 시스템

동작 원리

메모리 컨트롤러가 페이지 쓰기 요청을 받으면, 하드웨어 압축 엔진이 해당 페이지의 데이터 패턴을 분석합니다.
BDI는 페이지 내 8-byte 워드들의 base 값을 계산하고, 각 워드의 delta를 인코딩합니다.
FPC는 페이지 내 빈번한 값의 조합을 패턴 테이블에서 검색하고, 매칭되는 패턴을 짧은 인덱스로 대체합니다.
압축된 데이터는 기존 페이지의 일부만 차지하며, 나머지는 다른 페이지로 활용됩니다.
읽기 시 하드웨어 압축 해제 엔진이 원래 데이터를 복원하고, 캐시에 적재합니다.
캐시 압축의 경우 L2/L3 캐시 라인에 압축된 데이터를 저장하고, 미스 시 해제합니다.

쓰기 경로:
  CPU write → Memory Controller → HW Compress Engine → Compressed DRAM

읽기 경로:
  Compressed DRAM → HW Decompress Engine → Cache Line → CPU read

그림 2. 압축 쓰기 경로와 해제 읽기 경로

장단점

장점: 소프트웨어 압축 대비 지연시간이 수십~수백 배 낮아 실시간 처리에 적합합니다.
장점: CPU 리소스를 거의 사용하지 않아 다른 워크로드에 영향을 주지 않습니다.
장점: 메모리 대역폭을 효과적으로 확장하여 DRAM 비용을 절감할 수 있습니다.
장점: 물리적 메모리 용량을 가상으로 늘려 VM 밀도를 높일 수 있습니다.
단점: 전용 하드웨어가 필요하여 플랫폼 의존성이 높습니다.
단점: 모든 데이터 유형에서 높은 압축률을 보장하지 못합니다. 무작위 데이터는 압축이 거의 불가능합니다.
단점: 압축 해제 지연은 소프트웨어보다 낮지만, 캐시 라인 접근에는 여전히 비용이 발생합니다.
단점: 하드웨어 구현 복잡도가 높아 칩 면적과 전력 소모가 증가합니다.

핵심 정리

하드웨어 메모리 압축은 CPU 리소스를 최소화하면서 메모리 용량과 대역폭을 확장하는 기술로, 실시간 압축, 캐시 압축, BDI, FPC 등 다양한 알고리즘이 하드웨어 수준에서 구현됩니다. 소프트웨어 압축 대비 지연시간이 수십~수백 배 낮고 CPU 오버헤드가 거의 없어 가상화, 데이터베이스, 분석 워크로드에 효과적이지만, 전용 하드웨어 의존성과 데이터 패턴에 따른 압축률 변동이라는 한계가 있습니다. 따라서 워크로드의 데이터 locality와 패턴 특성을 고려해 적합한 압축 기법을 선택하는 것이 핵심입니다.

Ryotta's Basic