🏗️ Arch 검증완료

title: 멀티코어/이기종 아키텍처
date: 2025-06-26
category: arch
tags: [multicore, heterogeneous, big.LITTLE, DynamIQ, tile-based, ARM, GPU, AMP]

멀티코어/이기종 아키텍처

개요

멀티코어 아키텍처는 하나의 칩에 여러 개의 처리 코어를 집적하여 병렬 처리 성능을 높는 기술이다. 초기의 동일 코어 구성(SMP, Symmetric Multiprocessing)에서 출발하여, 연산 능력과 전력 소모가 서로 다른 이종 코어를 혼합한 이기종 멀티코어(Heterogeneous Multicore) 아키텍처로 발전했다. 대표적으로 ARM의 big.LITTLE과 DynamIQ는 고성능 코어와 저전력 코어를 결합하여 워크로드에 따라 동적으로 전력-성능 트레이드오프를 조절한다.

GPU에서도 타일 기반 렌더링(Tiled Rendering)과 같은 이기종 병렬 처리 패러다임이 모바일과 임베디드 분야에서 핵심적인 역할을 수행한다. 타일 기반 아키텍처는 프레임버퍼 대역폭을 크게 줄여 저전력 환경에서 고효율 렌더링을 가능케 한다. 본 문서는 CPU의 멀티코어/이기종 설계와 GPU의 타일 기반 렌더링 아키텍처를 분석한다.

이기종 아키텍처의 핵심 동기는 "연산량에 비례하여 전력이 소모되는 것이 아니라, 클럭을 높이면 전력이 제곱에 비례하여 증가한다"는 칩 내 전력 스케일링 법칙이다. 따라서 단일 고성능 코어 하나로 모든 작업을 처리하는 것보다, 저전력 코어로 일상적인 작업을 처리하고 필요할 때만 고성능 코어를 활성화하는 것이 전체 에너지 효율 측면에서 유리하다.

핵심 개념

멀티코어 분류

분류	설명	특징
SMP (Symmetric)	모든 코어가 동일한 성능/구조	캐시 일관성 프로토콜 필요, 범용 서버
AMP (Asymmetric)	코어 간 성능/구조 차이	전력-성능 최적화, 임베디드
이기종 (Heterogeneous)	서로 다른 ISA 또는 기능을 가진 코어 혼합	big.LITTLE, CPU+GPU, NPU 통합

big.LITTLE 아키텍처

ARM이 2011년에 발표한 이기종 멀티코어 기술로, 고성능 big 코어와 저전력 LITTLE 코어를 결합한다:

구성	설명	동작 방식
Clustered Switching	big/LITTLE 클러스터를 번갈아 사용	한 클러스터만 활성, 단순하지만 유연성 낮음
CPU Migration (IKS)	big과 LITTLE을 페어링하여 가상 코어로 관리	demand에 따라 한쪽만 동작, 전환 오버헤드
Global Task Scheduling (GTS)	모든 코어를 스케줄러에 직접 노출	가장 유연, 모든 코어 동시 사용 가능

big.LITTLE의 핵심 이점은 active power가 스위칭 빈도에 비례하고, leakage power가 트랜지스터 수에 비례한다는 점이다. 고성능 out-of-order 코어가 유휴 상태일 때, 더 적은 트랜지스터로 구성된 간단한 코어가 동일한 작업을 훨씬 낮은 전력으로 수행할 수 있다.

DynamIQ

2017년에 big.LITTLE의 후속으로 발표된 DynamIQ는 더 높은 유연성과 확장성을 제공한다:

특성	big.LITTLE	DynamIQ
클러스터당 최대 코어 수	4개	8개 (ARMv8.2), 12개 (ARMv9), 14개 (ARMv9.2)
최대 클러스터 수	2개	32개
클러스터 내 총 다양성	동일 클러스터 간 big/LITTLE 구분	단일 클러스터 내 다양한 코어 타입 혼합
전압 제어	클러스터 단위	코어 단위 세밀한 제어
L2 캐시 속도	공유 또는 분리	더 빠른 L2, 코어별 유연한 구성
호환성	이전 ARM 설계와 호환	Cortex-A75/A55 이후부터 지원

타일 기반 렌더링 (Tile-based Rendering)

GPU에서 전체 프레임을 작은 타일(16×16 또는 32×32 픽셀)로 분할하여 각 타일을 독립적으로 렌더링하는 방식이다:

방식	설명	장점	단점
Immediate Mode	전체 프레임을 한 번에 렌더링	단순한 구현	높은 메모리 대역폭 필요
Tile-based (TBIM)	타일 단위로 렌더링 후 즉시 합성	낮은 대역폭, 병렬화 용이	삼각형이 여러 타일에 걸칠 때 중복 렌더링
Tile-based Deferred (TBDR)	타일 내에서 보이지 않는 서피스 제거 후 렌더링	대역폭 최소화, 셰이딩 최적화	구조가 더 복잡

ARM Mali, Qualcomm Adreno, Apple GPU, PowerVR 등 모바일 GPU의 대부분이 타일 기반 아키텍처를 채택하고 있다. 최근에는 NVIDIA Maxwell(2014), AMD Vega(2017), Intel Gen11(2019) 등 데스크톱 GPU에서도 타일 기반 기법을 도입하고 있다.

Intel 하이브리드 아키텍처와 Thread Director

Intel은 2021년 Alder Lake(12세대)부터 P-core(Performance-core)와 E-core(Efficient-core)로 구성된 하이브리드 아키텍처를 도입했다. P-core는 Golden Cove/Gracemont 등 고성능 코어로 하이퍼스레딩을 지원하며, E-core는 Gracemont/Crestmont 등 저전력 코어로 다이 면적 대비 높은 처리량을 제공한다.

Intel Thread Director는 하드웨어 수준에서 OS 스케줄러에 워크로드 배치 힌트를 제공하는 기술이다. 각 코어의 성능/에너지 특성과 현재 워크로드의 요구사항을 실시간으로 평가하여, OS가 최적의 코어에 스레드를 할당하도록 유도한다. Windows 11과 Linux 5.18+에서 Intel Thread Director를 지원한다.

AMD 하이브리드 코어

AMD는 Zen 4c(2023)와 Zen 5c(2024)에서 고밀도 컴팩트 코어를 도입했다. Zen 4c는 Zen 4와 동일한 ISA와 IPC를 유지하면서 다이 면적을 약 35% 축소한 코어로, 클라우드 서버용 Bergamo(EPYC 97x4)에 최대 128코어를 집적했다. Zen 5c는 Zen 5 대비 약 25% 면적 축소를 달성했으며, 클라이언트용 Strix Point APU에서는 Zen 5 + Zen 5c 조합으로 이기종 구성을 구현했다.

칩렛/타일 기반 CPU 아키텍처

현대 고성능 프로세서는 단일 모놀리식 다이 대신 여러 개의 작은 다이(칩렛 또는 타일)를 패키지 내에서 연결하는 방식으로 진화하고 있다:

아키텍처	제조사	도입 시기	구성 방식	인터커넥트
Zen 칩렛	AMD	2017 (Zen 2)	CCD(코어) + cIOD(IO) 분리	Infinity Fabric
Meteor Lake	Intel	2023	Compute/GPU/SoC/IO 타일 분리	Foveros 3D
Apple UltraFusion	Apple	2022	M1 Ultra: 2개 M1 Max 연결	UltraFusion
Granite Rapids	Intel	2024	3개 컴퓨트 타일 + 2개 IO 타일	EMIB

칩렛 아키텍처의 핵심 이점은 수율 향상(작은 다이는 결함 확률이 낮음), 공정 혼합(코어는 최신 공정, IO는 구형 공정), 설계 재사용(동일 칩렛을 여러 제품에 활용)이다. 단점으로는 다이 간 통신 지연시간 증가와 전력 오버헤드가 있다.

비교/분석

CPU 이기종 아키텍처 비교

항목	big.LITTLE	DynamIQ	Apple M-series	Intel P-core/E-core	AMD Zen 4c/5c
발표 연도	2011	2017	2020~	2021 (Alder Lake)	2023 (Bergamo)
클러스터당 최대 코어	4	8~14	4+4 (M1)	8P+16E (14th Gen)	최대 128c (Bergamo)
전압 제어	클러스터 단위	코어 단위	코어 단위	코어 단위	코어 단위
주요 활용	모바일 AP	모바일/서버	PC/서버	PC/서버	서버/클라이언트
호환성	ARMv7/v8	ARMv8.2+	Apple ISA	x86-64	x86-64
스케줄링 지원	EAS (Linux)	EAS (Linux)	Apple QoS	Thread Director	CPPC (ACPI)

GPU 렌더링 아키텍처 비교

GPU	렌더링 방식	타일 크기	특징
ARM Mali	TBDR	16×16	모바일 표준, 낮은 전력
Qualcomm Adreno	TBIM + FlexRender	가변	Immediate/Tile 전환 가능
Apple GPU	TBDR	16×16	높은 메모리 효율
PowerVR	TBDR	32×12	HSR(Hidden Surface Removal) 최적화
NVIDIA Maxwell+	Forward+	가변	데스크톱 최초 타일 기반 도입
AMD Vega+	Primitive Discard	가변	드로우 콜 버블 최소화

멀티코어 스케줄링 전략

전략	설명	장점	단점
작업 분할 (Partitioning)	작업을 코어 수만큼 분할	단순한 구현	불균형 부하 가능
파이프라인	각 코어가 파이프라인의 한 단계 담당	높은 처리량	지연시간 증가 가능
마스터-슬레이브	하나의 마스터가 슬레이브에게 작업 배분	유연한 부하 분산	마스터 병목 가능
작업 풀 (Work Stealing)	유휴 코어가 다른 코어의 큐에서 작업 가져옴	높은 부하 균형	큐 관리 오버헤드

동작 원리

big.LITTLE Global Task Scheduling

GTS는 모든 물리적 코어를 스케줄러에 직접 노출한다:

작업 분류: 스케줄러가 각 스레드의 computational intensity와 priority를 평가
코어 할당: high-intensity 스레드는 big 코어에, low-intensity 스레드는 LITTLE 코어에 할당
동적 전환: 워크로드 변화에 따라 코어 간 작업 마이그레이션
에너지 인식 스케줄링 (EAS): Linux 5.0부터 도입된 에너지 효율 기반 스케줄링

[big 코어 0] ← 고성능 작업 (게임, 렌더링)
[big 코어 1] ← 고성능 작업
[LITTLE 코어 0] ← 백그라운드 작업
[LITTLE 코어 1] ← 저부하 작업
[LITTLE 코어 2] ← 유휴 관리
[LITTLE 코어 3] ← 센서 데이터 처리

DynamIQ 클러스터 구조

DynamIQ는 단일 클러스터 안에서 다양한 코어 타입을 혼합 배치한다:

Cortex-X 시리즈: 최고 성능, 단일 코어 또는 소수 구성
Cortex-A7xx 시리즈: big 코어, 높은 IPC
Cortex-A5xx 시리즈: LITTLE 코어, 저전력/고효율

DynamIQ 클러스터 (최대 8코어):
┌─────────────────────────────────────┐
│  [X4]  [A720]  [A720]  [A720]      │  ← 고성능 영역
│  [A520] [A520] [A520] [A520]       │  ← 고효율 영역
│           공유 L3 캐시              │
└─────────────────────────────────────┘
       ↓ 클러스터 내부 연결
  [메모리 컨트롤러]

타일 기반 렌더링 흐름

기하학 수집: 모든 삼각형의 기하 정보를 수집
타일 할당: 삼각형이 겹치는 타일에 기하 정보 할당
타일 렌더링: 각 타일을 독립적으로 렌더링 (온칩 메모리에서)
프레임 합성: 완성된 타일들을 프레임버퍼에 병합

TBDR의 경우 3단계에서 보이지 않는 서피스 제거(HSR)를 수행하여 불필요한 셰이딩을 방지한다. 이는 immediate mode 대비 메모리 대역폭을 50% 이상 절감할 수 있다.

장단점

이기종 멀티코어의 장단점

장점:
- 워크로드에 따른 최적의 전력-성능 매칭
- 백그라운드 작업 시 전력 소모 대폭 절감 (최대 75%)
- 동시 실행으로 피크 성능 향상
- 소프트웨어 업그레이드 없이 하드웨어 전환으로 성능 조절 가능

단점:
- 비대칭 구조로 인한 스케줄러 복잡성 증가
- 캐시 일관성 관리 오버헤드
- 소프트웨어 최적화 필요 (SMP 대비 개발 부담)
- 런타임 컨텍스트 전환 비용

칩렛/타일 아키텍처의 장단점

장점:
- 작은 다이 크기로 수율 향상 및 제조 비용 절감
- 코어 다이와 IO 다이에 서로 다른 공정 노드 적용 가능
- 동일 칩렛을 여러 제품군에 재사용하여 개발 효율 향상
- 모듈식 설계로 제품 라인업 확장 용이

단점:
- 다이 간 통신 지연시간 증가 (인터커넥트 오버헤드)
- 패키지 내 데이터 이동에 추가 전력 소모
- NUMA 특성으로 인한 소프트웨어 최적화 필요
- 인터커넥트 대역폭이 온다이 버스 대비 제한적

타일 기반 렌더링의 장단점

장점:
- 프레임버퍼 대역폭 대폭 절감 (온칩 메모리 활용)
- 낮은 전력 소모로 모바일/임베디드에 적합
- 타일 독립성으로 자연스러운 병렬화
- Hidden Surface Removal로 불필요한 연산 최소화

단점:
- 삼각형이 여러 타일에 걸칠 때 중복 렌더링 발생
- 프레임 전체 효과(Motion Blur, MSAA 합성) 구현이 복잡
- 타일 경계에서의 stitching 오류 가능성
- 전체 프레임 접근이 제한되어 특정 후처리 기법 구현 어려움

이기종 멀티코어는 전력-성능 트레이드오프를 동적으로 조절하여, 고성능 작업에는 big 코어를, 일상적인 작업에는 LITTLE 코어를 활용하여 배터리 수명과 성능을 동시에 최적화한다.
big.LITTLE의 Global Task Scheduling이 가장 유연한 구현으로, 모든 코어를 스케줄러에 직접 노출하여 워크로드에 따라 실시간으로 작업을 배분하고 Linux 5.0의 Energy Aware Scheduling과 결합되어 에너지 효율을 극대화한다.
DynamIQ는 단일 클러스터 내 다양한 코어 타입 혼합을 가능하게 하여, big.LITTLE 대비 최대 8개의 서로 다른 코어를 하나의 클러스터에서 운용할 수 있으며, 코어 단위 전압 제어로 더 세밀한 전력 관리가 가능하다.
GPU 타일 기반 렌더링은 모바일/임베디드 환경의 핵심 기술로, 전체 프레임을 작은 타일로 분할하여 온칩 메모리에서 렌더링함으로써 외부 메모리 대역폭을 크게 절감하고 전력 효율을 높인다.
현대 프로세서는 CPU의 이기종 멀티코어와 GPU의 타일 기반 아키텍처가 결합되어 SoC 수준에서 연산, 그래픽, AI 추론 등 다양한 워크로드를 하나의 칩에서 효율적으로 처리한다.
Intel Thread Director와 AMD Zen 4c/5c는 x86 진영의 이기종 설계로, 하드웨어 기반 스케줄링 힌트와 고밀도 컴팩트 코어를 통해 서버와 클라이언트 모두에서 전력-성능 최적화를 실현한다.
칩렛/타일 기반 아키텍처는 모놀리식 설계의 한계를 극복하여, 수율 향상과 공정 혼합, 설계 재사용을 가능하게 하며 AMD, Intel, Apple 등 주요 제조사가 채택하고 있다.

Ryotta's Basic