LLM-Inference 관련해서

Mar 19. 2026 brunch_membership's

"나는 지금 이 순간, 2027년까지 최소 1조 달러 이상의 수요가 있다고 확신합니다."

— 젠슨 황, NVIDIA GTC 2026 기조연설

2026년 3월 16일, 미국 캘리포니아 주 산호세의 SAP 센터. 검은 가죽 재킷을 입은 한 남성이 수만 명의 청중 앞에 섰습니다. NVIDIA의 최고경영자 젠슨 황(Jensen Huang). 그는 이날 단 하나의 단어를 반복해서 강조했습니다. 바로 '추론(Inference)'입니다.

AI를 공부해본 사람이라면 흔히 '학습(Training)'이 핵심이라고 생각합니다. 방대한 데이터로 거대한 모델을 훈련시키는 것이 AI의 전부라고요. 하지만 젠슨 황은 GTC 2026 기조연설에서 이렇게 말했습니다.

'AI는 이제 무엇을, 언제, 어디서, 어떻게 대답할지를 묻는 시대가 지났습니다. 이제는 창조하고, 실행하고, 구축하라고 명령합니다. AI가 생각해야 합니다. 생각하기 위해서는 추론해야 합니다. 읽기 위해서도, 이유를 파악하기 위해서도 추론이 필요합니다.'

그리고 그는 NVIDIA가 2025년 말 약 200억 달러(약 27조 원)에 인수한 AI 추론 칩 설계 회사 'Groq'의 기술을 처음으로 공개했습니다. 바로 Groq 3 LPU(언어처리장치, Language Processing Unit)입니다. 그리고 이 칩을 제조하는 파트너로 한국의 삼성전자를 지목하며 이렇게 말했습니다.

"삼성이 우리를 위해 Groq 3 LPU를 제조하고 있습니다. 최대한 빠르게 생산을 늘리고 있습니다. "

— 젠슨 황, GTC 2026

키노트에서 특정 파트너 기업을 공개적으로 언급하며 감사를 표하는 것은 매우 이례적인 일입니다. 반도체 업계 전체가 이 발언에 주목했습니다. 도대체 '추론'이 무엇이길래, 세계 최고의 AI 기업이 200억 달러를 쏟아붓고, 삼성전자와 협업까지 하는 걸까요?

LLM 추론이란 무엇인가?

'추론'이라는 단어를 들으면 인간이 논리적으로 생각하는 과정을 떠올리기 쉽습니다. AI에서 말하는 추론(Inference)도 비슷한 개념입니다. 학습(Training)이 AI가 '공부'하는 과정이라면, 추론은 AI가 '시험을 보는' 과정, 즉 실제로 질문을 받고 답변을 생성하는 과정입니다.

ChatGPT에게 '오늘 저녁 뭐 먹을까?'라고 물어보는 바로 그 순간, LLM은 추론을 수행합니다. 클로드에게 코드 리뷰를 요청하는 순간도, 구글 Gemini에게 번역을 맡기는 순간도 모두 추론입니다. 우리가 AI와 상호작용하는 모든 순간이 바로 추론의 연속입니다.

추론의 두 단계: 프리필(Prefill)과 디코드(Decode)

LLM이 입력을 받고 출력을 생성하는 과정은 크게 두 단계로 나뉩니다. 이 두 단계는 서로 매우 다른 특성을 가지고 있으며, GTC 2026에서 젠슨 황이 발표한 Groq 3 LPU의 핵심 아이디어도 바로 이 두 단계를 분리하는 것에서 나왔습니다.

▶ 1단계: 프리필(Prefill) — 질문을 이해하는 단계

여러분이 AI에게 '다음 소설의 다음 챕터를 3,000자로 써줘'라고 요청하면서 소설 전체를 붙여넣었다고 가정해 봅시다. LLM은 먼저 이 긴 텍스트 전체를 한꺼번에 읽고 분석해야 합니다. 이 과정이 프리필입니다.

프리필 단계에서는 입력된 텍스트(프롬프트)의 모든 단어와 문장을 병렬로 처리합니다. 수천 개의 단어가 동시에 연산에 들어가기 때문에, GPU처럼 병렬 연산에 특화된 하드웨어가 매우 유리합니다.

(※ 프리필은 GPU의 병렬 연산 능력이 핵심입니다. 긴 문서를 읽고 이해하는 능력은 GPU의 계산 성능에 비례합니다.)

▶ 2단계: 디코드(Decode) — 답변을 생성하는 단계

프리필이 끝나면 이제 AI가 답변을 생성합니다. LLM은 답변을 한 번에 쭉 생성하지 않습니다. 한 번에 딱 하나의 '토큰'만 생성합니다. 그리고 그 토큰을 입력에 추가한 뒤, 다음 토큰을 생성합니다. 이 과정을 수백, 수천 번 반복해야 비로소 완전한 답변이 됩니다.

여러분이 ChatGPT 화면에서 답변이 한 글자씩 타이핑되듯 나타나는 것을 본 적 있나요? 그것이 바로 디코드 과정을 시각적으로 보여주는 것입니다. 각 토큰이 생성될 때마다 화면에 표시되는 것이죠.

디코드는 본질적으로 '순차적(sequential)' 작업입니다. 이전 토큰이 결정되어야 다음 토큰을 예측할 수 있기 때문입니다. 이 특성 때문에 디코드는 GPU의 병렬 연산 능력을 제대로 활용하기 어렵습니다.

(※ 디코드는 메모리 대역폭이 핵심입니다. 매 토큰을 생성할 때마다 수십억 개의 모델 파라미터를 메모리에서 읽어와야 하기 때문입니다.)

토큰이란 무엇인가?

LLM은 단어 단위가 아니라 '토큰' 단위로 텍스트를 처리합니다. 토큰은 단어보다 작은 텍스트의 기본 단위입니다. 영어의 경우, 'hello'는 1개의 토큰이지만, 'understanding'은 'under'+'standing' 2개의 토큰으로 나뉠 수 있습니다. 한국어는 형태소의 특성상 영어보다 더 많은 토큰이 필요한 경향이 있습니다.

왜 토큰을 쓸까요? 단어 전체를 처리하면 어휘 사전이 너무 커지고, 철자 단위로 처리하면 너무 잘게 쪼개져 문맥을 파악하기 어렵습니다. 토큰은 이 두 극단의 절충점으로, 약 50,000~100,000개의 토큰 사전으로 대부분의 언어를 효율적으로 표현할 수 있습니다.

GPT-4의 경우 약 1,000개의 토큰이 대략 750개의 영어 단어에 해당합니다. 이 블로그 포스트 전체가 약 8,000~10,000 토큰 정도 될 것입니다. 여러분이 하루에 AI를 몇 번 사용하는지 생각해 보세요. 전 세계에서 AI가 매초 생성하는 토큰의 양은 상상을 초월합니다.

추론과 학습(Training)은 어떻게 다를까?

많은 사람들이 AI의 '학습'과 '추론'을 혼동합니다. 이 둘은 근본적으로 다릅니다.

학습은 AI가 방대한 데이터를 보고 자신의 내부 파라미터(가중치)를 조정하는 과정입니다. GPT-4를 만들기 위해 수천 억 개의 텍스트를 학습시켰고, 이 과정에서 수개월의 시간과 수천만 달러의 비용이 들었습니다. 학습은 '한 번' 또는 가끔 진행되는 '일회성' 작업에 가깝습니다.

반면 추론은 학습이 완료된 AI 모델이 실제 질문을 받고 답변을 생성하는 과정입니다. 우리가 AI를 사용할 때마다 발생하는, '지속적이고 반복적인' 작업입니다. 그리고 사용자가 늘어날수록, AI가 더 많은 곳에 배포될수록 추론의 양은 기하급수적으로 늘어납니다.

학습은 AI의 '교육 비용'이고, 추론은 AI의 '운영 비용'입니다. AI가 산업 전반에 퍼질수록 학습보다 추론이 훨씬 더 중요한 경제적 요인이 됩니다.

젠슨 황이 GTC 2026에서 강조한 것도 바로 이 지점입니다. AI가 단순한 챗봇을 넘어 에이전트(Agent), 로봇, 자율주행, 의료 진단 등 모든 분야에 퍼지면 추론 수요는 지금의 수백만 배가 됩니다.

추론의 병목 현상: 왜 이렇게 느릴까?

LLM 추론이 왜 어렵고 비쌀까요? 이를 이해하려면 현대 컴퓨터의 구조를 조금 알아야 합니다. 마치 인체에 비유하면, 뇌(CPU/GPU)와 기억(RAM) 사이에 병목이 생기는 것과 같습니다.

메모리 대역폭 문제

LLM은 수십억, 심지어 수천억 개의 '파라미터(parameter)'로 구성됩니다. 파라미터는 AI가 학습을 통해 획득한 지식을 담은 숫자들입니다. 예를 들어, Meta의 Llama 3.1 405B 모델은 무려 4,050억 개의 파라미터를 가지고 있습니다.

디코드 단계에서 AI는 토큰 하나를 생성할 때마다 이 수천억 개의 파라미터를 메모리에서 읽어와야 합니다. 마치 책 한 줄을 쓸 때마다 도서관 전체를 뒤져야 하는 것과 같습니다. 이 과정에서 '메모리 대역폭(Memory Bandwidth)'이 결정적인 역할을 합니다.

메모리 대역폭이란 초당 얼마나 많은 데이터를 CPU/GPU와 메모리 사이에 주고받을 수 있는지를 나타내는 수치입니다.

� 주요 하드웨어의 메모리 대역폭 비교 (2026년 기준)

• NVIDIA RTX 4090: ~1 TB/s
• NVIDIA H100 (HBM3): ~3.35 TB/s
• Apple M3 Ultra: ~800 GB/s
• Groq 3 LPU: 22 TB/s ~ 150 TB/s (SRAM 기반)
• Samsung HBM4E (GTC 2026 발표): ~4 TB/s