🤖 LLM 검증완료

LLM Basics

LLM 기초 — 대형 언어 모델의 원리

Tokenization · Transformer · Self-Attention · Training · Inference & KV Cache

개요

LLM(Large Language Model, 대형 언어 모델)은 지금까지의 토큰을 입력으로 받아 다음 토큰의 확률분포를 예측하도록 학습된 모델입니다. 이 단순한 목적을 거대한 데이터와 충분한 파라미터 규모로 밀어붙이면 번역, 요약, 코딩, 질의응답 같은 다양한 작업이 한 모델 안에서 나타납니다.

실제 시스템 관점에서 LLM은 학습보다 추론에서 더 분명한 병목을 드러냅니다. prefill은 큰 행렬곱이 중심인 연산 집약 단계이고, decode는 KV cache를 반복해서 읽는 메모리 집약 단계입니다. 그래서 LLM 기초를 이해할 때는 모델 구조뿐 아니라 KV cache, 메모리 대역폭, 서빙 방식까지 함께 보는 것이 중요합니다.

그림 1. 입력 → 토큰화 → 임베딩 → Transformer → 확률분포 → 샘플링의 자기회귀 반복

1. 핵심 개념

토큰과 토큰화

토큰(token)은 텍스트를 나눈 단위입니다. 실제 LLM은 단어보다 작은 서브워드(subword)를 자주 사용합니다. 예를 들어 running은 run과 ning처럼 나뉠 수 있습니다.
토큰화는 보통 BPE(Byte-Pair Encoding)나 그 변형(WordPiece, SentencePiece)을 사용합니다.
각 토큰은 정수 ID로 바뀌어 모델에 들어가고, 모델 출력은 어휘 전체에 대한 다음 토큰 확률입니다.

Transformer

오늘날 대부분의 LLM은 Transformer를 사용합니다. GPT 계열은 decoder-only 구조로, 동일한 Transformer 블록을 여러 층 쌓아 만듭니다. 입력 토큰을 벡터로 바꾸고, 블록을 통과시켜 문맥이 반영된 표현을 만든 뒤, 마지막에 다음 토큰 점수(logits)를 출력합니다.

Embedding: 토큰 ID를 d_model 차원의 벡터로 변환합니다.
위치 정보: 토큰 순서를 알려주는 신호입니다. 원조 Transformer는 sinusoidal positional encoding을, 현대 LLM은 RoPE나 ALiBi를 많이 씁니다.
블록: LayerNorm -> Self-Attention -> Residual과 LayerNorm -> FFN -> Residual로 구성됩니다.
FFN: 토큰별 비선형 변환을 담당하는 2층 MLP입니다. 최신 모델은 SwiGLU 같은 게이트형 변형을 자주 씁니다.
LM Head: 마지막 표현을 어휘 크기만큼의 점수로 바꿉니다. 입력 임베딩과 가중치를 공유하는 경우가 많습니다.

자기회귀 생성

LLM은 한 번의 forward로 다음 토큰 1개의 분포를 내놓고, 그중 하나를 선택해 뒤에 붙인 뒤 다시 예측하는 과정을 반복합니다. 이 반복이 자기회귀 생성입니다.

스케일링과 추론 지표

LLM 성능은 대체로 파라미터 수, 학습 토큰 수, 학습 compute가 커질수록 개선되는 스케일링 법칙 경향을 보입니다. 다만 같은 성능을 더 낮은 비용으로 얻기 위해서는 데이터 품질, optimizer 설정, 병렬화 전략까지 함께 조정해야 합니다.
추론 시스템에서는 TTFT(Time To First Token)와 토큰당 지연 시간이 대표 지표입니다. prefill 최적화는 TTFT를 줄이고, decode 최적화는 초당 생성 토큰 수를 높이는 방향으로 작동합니다.
최근 모델은 MHA 대신 GQA(Grouped Query Attention)나 MQA(Multi-Query Attention)를 써서 KV cache 크기와 메모리 대역폭 요구를 줄이기도 합니다.

2. 비교/분석

구분	Prefill	Decode
입력	프롬프트 전체	새 토큰 1개
연산 특성	큰 행렬곱 중심	작은 연산 반복
병목	compute-bound	memory-bound
KV cache	한 번 계산해 저장	저장된 KV를 재사용
체감 영향	TTFT에 직접 영향	생성 속도에 직접 영향

샘플링	동작	특징
Greedy	가장 확률 높은 토큰 선택	결정적이지만 반복적일 수 있음
Temperature	분포의 날카로움 조절	높을수록 다양성 증가
Top-k	상위 k개 후보만 선택	이상한 토큰을 줄임
Top-p (nucleus)	누적확률 p까지 후보 사용	문맥에 따라 후보 수가 변함

3. 동작 원리

Self-Attention

각 토큰은 Query(Q), Key(K), Value(V) 세 벡터를 만들고, Q와 K의 내적으로 토큰 간 유사도를 계산한 뒤 V를 가중합합니다. decoder-only LLM에서는 causal mask로 미래 토큰을 막습니다.

Attention(Q, K, V) = softmax((QK^T) / sqrt(d_k) + mask) V

scores = (Q @ K.transpose(-2, -1)) / (d_k ** 0.5)
scores = scores.masked_fill(causal_mask, float('-inf'))
weights = softmax(scores, dim=-1)
output = weights @ V

학습 단계

Pretraining: 라벨 없는 방대한 텍스트로 다음 토큰 예측을 학습합니다.
SFT: 사람이 만든 지시-응답 쌍으로 대화와 지시 따르기를 익힙니다.
Alignment: RLHF나 DPO 같은 방법으로 도움됨, 안전성, 정직성을 맞춥니다.

KV Cache

자기회귀 생성은 매 스텝 과거 전체에 attention해야 하므로, 과거 K/V를 저장하지 않으면 재계산 비용이 커집니다. KV cache는 각 토큰의 K/V를 한 번만 계산해 저장하고 재사용해 decode를 빠르게 합니다.

KV cache는 시퀀스 길이와 배치에 비례해 커집니다. 대략적으로는 KV_bytes ≈ 2 × L × d_model × seq_len × batch × dtype_bytes로 볼 수 있습니다. 예를 들어 L=80, d_model=8192, seq_len=8192, batch=1, FP16이면 한 시퀀스만으로도 약 21GB 수준이 됩니다.

4. 장단점

장점	단점
범용성이 높다	파라미터와 데이터 규모가 매우 크다
병렬화가 잘 된다	attention이 길이에 따라 O(n²)로 커진다
프롬프트만 바꿔 다양한 작업에 적용 가능	추론 시 KV cache가 메모리 병목이 된다
서빙 최적화 여지가 많다	긴 문맥·큰 배치에서 비용이 빠르게 증가한다

5. 관련 기술

내부 문서

주요 원문

자료	핵심
Vaswani et al., 2017, Attention Is All You Need	Transformer의 출발점
Brown et al., 2020, Language Models are Few-Shot Learners	대규모 자기회귀 언어 모델의 확장
Dao et al., 2022, FlashAttention	IO-aware exact attention
Kwon et al., 2023, PagedAttention	KV cache를 페이지처럼 관리
Kaplan et al., 2020, Scaling Laws for Neural Language Models	모델 크기, 데이터, compute와 성능의 스케일링 관계

6. 핵심 정리

LLM은 다음 토큰의 확률분포를 예측하는 Transformer 기반 자기회귀 모델입니다. 토큰화, 임베딩, self-attention, FFN, LM head가 기본 흐름을 이룹니다.

학습은 pretraining, SFT, alignment로 이어지고, 규모가 커질수록 성능은 대체로 멱법칙에 따라 좋아집니다. 다만 추론에서는 prefill과 decode의 병목이 달라지며, 특히 decode는 KV cache 때문에 메모리 대역폭이 중요해집니다.

그래서 LLM 시스템에서는 FlashAttention, PagedAttention, KV cache 양자화, GQA/MQA, 오프로딩 같은 기법이 핵심입니다. 이 문서의 핵심은 모델 구조보다도, 추론 단계에서 메모리가 왜 병목이 되는지 함께 보는 데 있습니다.

Ryotta's Basic