PCIe Gen5/Gen6
개요
PCIe(Peripheral Component Interconnect Express)는 CPU와 주변장치, 가속기, 저장소 디바이스를 연결하는 고속 직렬 인터커넥트 표준이다. PCIe 5.0은 32 GT/s, PCIe 6.0은 64 GT/s를 달성하며, 메모리 대역폭이 중요한 AI/ML, 데이터센터, HPC 환경에서 핵심 인프라 역할을 한다.
PCIe 세대가 진화할수록 신호링 방식과 인코딩 구조가 바뀐다. Gen5는 NRZ 방식을 유지하면서 속도를 두 배로 끌어올렸고, Gen6는 PAM4로 전환하며 FEC와 FLIT 기반 전송을 도입했다. 이 변화는 단순한 속도 향상이 아니라, 신뢰성과 효율성을 동시에 고려한 아키텍처적 전환이다.
핵심 개념
신호링 방식 비교
| 항목 | Gen5 | Gen6 |
|---|---|---|
| 데이터 속도 | 32 GT/s | 64 GT/s |
| 신호링 | NRZ (2-Level) | PAM4 (4-Level) |
| 인코딩/전송 단위 | 128b/130b | 1b/1b + 256B FLIT |
| FEC | 없음 | 3-way interlaced FEC |
| x16 대역폭 (양방향) | 64 GB/s | 128 GB/s |
NRZ는 High/Low 두 가지 전압 레벨로 1비트를 전송하고, PAM4는 네 가지 레벨로 2비트를 전송한다. PAM4는 대역폭 효율이 높지만 신호 대 잡음비(SNR)가 낮아지므로 FEC가 필수적이다.
FLIT 기반 전송
PCIe 6.0부터는 256바이트 FLIT(Flow Control Unit) 단위로 전송되며, 일반적인 payload FLIT은 236바이트 TLP 영역, 6바이트 DLP(Data Link Payload), 8바이트 CRC, 6바이트 FEC로 구성된다. Gen5까지 링크 계층이 별도 DLLP를 가변 길이 패킷으로 다뤘다면, Gen6는 ACK/NAK, replay, FLIT sequence 정보가 DLP 안으로 들어가며 고정 길이 FLIT 단위 전송으로 바뀐다.
FEC(Forward Error Correction)
Gen6에서는 PAM4의 낮은 SNR을 보완하기 위해 CRC와 함께 3-way interlaced FEC를 사용한다. 이 조합은 단순 재전송에만 의존하지 않고, 짧은 burst error를 링크 단에서 먼저 흡수하도록 설계됐다.
- CRC: FLIT 단위의 무결성 확인
- 3-way interlaced FEC: 242B 데이터에 대한 저지연 오류 보정
FEC는 오버헤드를 발생시키지만, 재전송 빈도를 줄여 전체적인 유효 대역폭을 높인다.
전원 관리 및 링크 상태
| 상태 | 동작 | 소비 전력 |
|---|---|---|
| L0 | 완전 동작 | 최대 |
| L0p | 링크 폭/활성 구간을 줄여 동작 | 높음~중간 |
| L0s | 빠른 전력 절약 | 중간 |
| L1 | 저전력 대기 | 낮음 |
| L2/L3 | 재구성 필요 | 최저 |
Gen6는 새 저전력 상태인 L0p를 도입해 링크를 완전히 끊지 않고도 활성 lane 수와 전력을 줄일 수 있게 했다. 이는 고대역폭 링크에서 유휴 구간이 짧게 반복되는 AI 가속기, SSD, 스위치 환경에서 효율을 높이는 데 유용하다.
비교/분석
세대별 주요 변화 비교
| 항목 | Gen3 | Gen4 | Gen5 | Gen6 |
|---|---|---|---|---|
| 공개 시점 | 2010 | 2017 | 2019 | 2022 |
| 데이터 속도 | 8 GT/s | 16 GT/s | 32 GT/s | 64 GT/s |
| x16 대역폭 | 32 GB/s | 32 GB/s | 64 GB/s | 128 GB/s |
| 인코딩 | 128b/130b | 128b/130b | 128b/130b | 1b/1b + 256B FLIT |
| 신호링 | NRZ | NRZ | NRZ | PAM4 |
| FEC | 없음 | 없음 | 없음 | 3-way interlaced FEC |
CXL과의 관계
PCIe 6.0은 CXL 3.0의 물리 계층(PHY)로 사용된다. CXL은 PCIe의 코히어런스와 메모리 프로토콜을 확장한 표준이므로, PCIe 6.0의 PAM4와 FLIT 기반 전송은 CXL 3.0의 패브릭과 메모리 풀링 성능에 직접적인 영향을 미친다.
| CXL 버전 | 기반 PCIe | 신호링 |
|---|---|---|
| CXL 1.x | PCIe 5.0 | NRZ |
| CXL 2.0 | PCIe 5.0 | NRZ |
| CXL 3.0/3.1 | PCIe 6.0 | PAM4 |
| CXL 4.0 | PCIe 6.0+ | PAM4 |
동작 원리
PCIe 통신은 크게 세 계층으로 동작한다.
- 트랜잭션 계층(TLP): 상위 레이어에서 생성된 요청/응답 패킷을 처리한다. Gen6에서는 FLIT으로 통합된다.
- 데이터 링크 계층(DLLP/DLP): 패킷의 무결성과 흐름 제어를 담당한다. Gen5까지는 DLLP가 독립적으로 오가지만, Gen6에서는 ACK/NAK, replay, sequence 정보가 6바이트 DLP 필드로 FLIT 안에 포함된다.
- 물리 계층(PHY): 실제 전기 신호로 변환하여 전송한다. Gen5는 NRZ와 128b/130b를, Gen6는 PAM4와 FLIT 기반 전송을 사용한다.
Link Training 및 Equalization
Gen5/Gen6에서는 높은 속도에서 신호 왜곡을 보정하기 위해 복잡한 이퀄라이제이션이 필요하다.
- Tx EQ: 송신단에서의 신호 보정
- Rx EQ: 수신단에서의 시저(Equalizer) 처리
- Retimer: 장거리 링크에서 중간에 신호를 재생성하는 중계기
장단점
| 장점 | 단점 |
|---|---|
| 세대마다 대역폭이 두 배로 증가 | 높은 속도에서 신호 무결성 유지가 어려움 |
| backward compatible으로 하위 세대 지원 | PAM4/FEC 구현 복잡도와 비용 증가 |
| CXL 등 신규 프로토콜의 기반 제공 | 고속 시 PHY 전력 소비가 큼 |
| 데이터센터/HPC/AI에 최적화된 대역폭 | 레거시 장치와의 호환성 검증 필요 |
관련 기술
- CXL Version Comparison
- NVMe Architecture
- CPU Cache Architecture
- Memory Controller
- PCI-SIG Official Site
- PCIe 6.0 Specification
- PCIe 5.0/6.0 Technology Overview
핵심 정리
PCIe Gen5는 NRZ 방식으로 32 GT/s를 달성하여 기존 아키텍처의 한계를 보여줬고, Gen6는 PAM4와 FEC를 도입하여 64 GT/s를 구현했다. 이 변화는 단순한 속도 향상을 넘어, 신뢰성과 에너지 효율을 동시에 고려한 아키텍처적 전환이다. Gen6의 FLIT 기반 전송은 CXL 3.0의 패브릭과 메모리 풀링의 성능 기반이 되며, 데이터센터와 AI 인프라의 핵심 인터커넥트로 자리매김하고 있다.