🤖 LLM 검증완료

MoE Serving Routing LoadBalance

MoE Serving - Routing과 Load Balancing 심층 분석

Expert Routing · All-to-All Dispatch · Capacity Factor · Expert Parallelism · Hot Expert Replication

개요

MoE 서빙의 병목은 전문가 수보다 토큰이 선택된 전문가로 얼마나 고르게, 빠르게 이동하느냐에 가깝습니다. sparse activation은 계산량을 줄이지만, expert parallelism을 쓰는 순간 all-to-all dispatch와 gather가 추가되어 통신이 지연의 중심이 됩니다.

학습 단계의 라우팅 품질과 서빙 단계의 처리량은 같은 문제가 아닙니다. 라우팅이 조금만 치우쳐도 특정 expert shard가 tail latency를 결정하고, capacity factor와 배치 정책이 전체 시스템의 안정성을 좌우합니다.

그림 1. MoE serving pipeline - router, dispatch, expert compute, gather가 한 흐름으로 이어진다.

1. 핵심 개념

개념	의미	서빙 영향
Routing / Gating	토큰마다 top-k expert를 고르는 단계	라우팅 분포가 곧 부하 분포가 된다
Expert Parallelism	expert를 여러 GPU에 shard하는 배치 방식	GPU 간 all-to-all 통신이 필요하다
Capacity Factor	expert가 한 번에 받을 토큰 상한	overflow를 drop하거나 대기시킨다
Hot Expert	선택 빈도가 높은 expert	hotspot, queueing, tail latency를 만든다
Hot Expert Replication	자주 쓰는 expert를 복제 배치	메모리를 쓰는 대신 병목을 줄인다
Dropless Buffering	overflow를 바로 버리지 않고 흡수	품질을 지키지만 지연이 늘 수 있다

그림 2. expert parallelism에서는 토큰이 GPU 사이를 오가며, 한쪽으로 쏠리면 전체 step이 느려진다.

2. 비교/분석

접근	핵심 아이디어	장점	단점
Switch Transformer	top-1 routing과 단순한 균형 제어	통신 비용이 낮다	라우팅 선택 폭이 좁다
GShard 계열	top-k routing과 capacity 관리	품질과 확장성이 좋다	통신과 구현이 복잡하다
DeepSeekMoE	fine-grained expert와 shared expert	전문화가 잘 된다	expert 관리 부담이 커진다
DeepSeek-V3	auxiliary-loss-free load balancing	학습 안정성이 좋다	서빙 배치 문제는 별도다
Hot expert replication	인기 expert 복제	tail latency를 줄인다	메모리 사용량이 증가한다

그림 3. 학습, 라우팅, 배치, 커널 최적화가 각각 다른 레이어에서 부하를 줄인다.

3. 동작 원리

토큰은 router에서 점수를 계산한 뒤 top-k expert로 선택되고, dispatcher가 같은 expert로 갈 토큰을 묶어 GPU별로 보냅니다. expert 계산이 끝나면 gather가 원래 순서로 출력을 합칩니다.

이 흐름에서 가장 민감한 지점은 routing skew입니다. 특정 expert로 토큰이 몰리면 그 expert가 속한 GPU는 계산과 통신을 동시에 떠안고, 나머지 GPU는 유휴 상태가 됩니다. capacity factor가 작으면 overflow가 발생하고, 크면 queueing이 길어집니다.

그림 4. expert별 토큰 수가 균일하지 않으면 capacity 초과와 대기열이 동시에 생긴다.

4. 장단점

항목	장점	단점
Sparse activation	활성 계산량을 줄인다	통신 병목이 새로 생긴다
Expert specialization	expert가 역할을 나눠 학습한다	특정 expert 편중이 생길 수 있다
Topology-aware placement	네트워크 병목을 줄인다	배치와 운영이 복잡하다
Fused all-to-all	고정비를 낮춘다	커널 구현 난도가 높다

MoE 서빙은 모델만 보면 좋아 보이지만, 실제 운영에서는 네트워크 토폴로지와 expert 배치가 성능을 좌우합니다. 좋은 라우터보다 더 중요한 것은 느린 shard를 만들지 않는 운영 방식입니다.

그림 5. scheduler, router, dispatcher, expert compute, gather를 하나의 루프로 묶어야 지연이 안정된다.

5. 관련 기술

MoE Analysis - MoE 구조, routing, load balancing, DeepSeek 계열 배경
Continuous Batching Analysis - active request가 변할 때의 스케줄링
Disaggregated LLM Serving Analysis - prefill/decode 분리와 배치 전략
Switch Transformers: arXiv:2101.03961
DeepSeekMoE: arXiv:2401.06066
DeepSeek-V3 Technical Report: arXiv:2412.19437

Switch Transformer는 routing 알고리즘을 단순화하고 통신 비용과 학습 불안정을 줄였고, DeepSeekMoE는 fine-grained expert와 shared expert로 전문화를 강화했습니다. DeepSeek-V3는 671B total / 37B activated 구조와 auxiliary-loss-free load balancing을 함께 사용해 안정성과 효율을 맞췄습니다.

6. 핵심 정리

MoE 서빙의 핵심은 sparse activation 자체가 아니라, 토큰이 선택된 expert로 얼마나 균등하게 흘러가느냐입니다. routing skew는 계산 문제이면서 동시에 통신 문제입니다.

따라서 MoE 운영은 모델 설계만으로 끝나지 않고, capacity factor, batch policy, expert placement, hot expert replication, fused all-to-all까지 함께 봐야 합니다.

서빙 품질은 가장 빠른 expert가 아니라 가장 느린 shard가 결정합니다. 이 문맥에서 MoE는 분산 시스템 문제로 다루는 것이 맞습니다.

Ryotta's Basic