[10] Chat GPT는 어떻게 작동할까?

대규모 언어모델(LLM)이 작동하는 방법

by 키라쿠

우리는 요즘 ChatGPT, Perplexity, Claude, Gemini 등의 AI툴(엄밀히 말하면 대규모 언어모델)을 정말 자주 씁니다. 질문을 던지면 마치 사람처럼 문장을 만들어 대답해 주죠. 그런데 이건 구글에서 검색하는 것과는 전혀 다릅니다. 검색은 저장된 문서에서 답을 찾아오는 거지만, ChatGPT 같은 인공지능은 새로운 문장을 물어볼 때마다 정답을 만들어내는 방식으로 작동합니다.

도대체 어떻게 이런 게 가능할까요?



1. 대규모 언어 모델이란 무엇일까?

LLM(대규모 언어 모델, Large Language Model)은 간단히 말하면 “앞의 단어들을 보고, 다음에 올 단어를 예측하는 모델”입니다.

예를 들어, 제가 “오늘 날씨가…”라고 말하면, 여러분 머릿속에는 자동으로 “좋다” 혹은 “나쁘다” 같은 단어가 떠오르죠? LLM도 이와 같은 방식으로, 수많은 텍스트를 학습해 어떤 단어가 자연스럽게 이어질지를 확률적으로 계산합니다.

즉, 우리가 보는 매끄러운 문장은 사실 수많은 ‘다음 단어 맞히기’ 게임의 결과물인 거예요.

그럼 어떻게 이런 예측이 가능할까요? 바로 방대한 양의 데이터를 학습했기 때문인데요.

body1.png gemini 이미지 생성


2. 어떻게 학습할까?

ChatGPT 같은 모델은 인터넷에 공개된 책, 기사, 웹페이지 등 수많은 텍스트 데이터를 학습합니다. 수십억 문장을 읽으며 “언제 어떤 단어가 등장하는지” 패턴을 기억하는 거죠.

비유하자면, 학생이 교과서와 문제집 수천 권을 풀면서 글쓰기 감각을 익히는 것과 같습니다. 다만, 이 학생은 인간과 달리 수조 개의 ‘연결선(파라미터)’을 가진 뇌를 갖고 있고, 모든 문장을 통계적으로 연결해 기억한다는 점이 다르죠.

body2.png gemini 이미지 생성




3. Transformer: 이 모든 걸 가능하게 한 발명

이 모든 걸 가능하게 한 모델은 "Attention is All You Need"이라는 논문에 등장하는 Transformer 모델 구조입니다.

Transformer는 문장의 모든 단어를 한꺼번에 보고, 어떤 단어가 어떤 단어와 관련 있는지를 계산합니다.
책을 읽을 때 한 줄씩 읽는 게 아니라 전체 문장을 동시에 스캔하면서, 중요한 단어끼리 형광펜을 그어 연결하는 것과 같아요.

예를 들어, 문장이 “나는 어제 친구와 영화를 보고 집에 갔다”라면, 모델은 “나는 → 갔다”, “영화 → 보고” 같이 각 단어의 중요도와 문맥적 관계, 연결 고리를 주의 깊게 살펴봅니다. 이 과정을 Self-Attention이라고 부르죠. 덕분에 모델은 긴 문장도 맥락을 파악하고, 훨씬 자연스러운 답변을 만들어낼 수 있습니다.

body3.png gemini 이미지 생성


4. 답변은 어떻게 만들어질까?

사용자가 “오늘 날씨 어때?”라고 묻는 순간, 모델은 입력된 문장을 토큰(단어 조각) 단위로 쪼갭니다.
그다음, Transformer 구조 안에서 각 토큰이 서로 어떤 의미적 관계를 맺는지 계산하죠. 그리고 나서 가장 확률이 높은 다음 단어를 하나씩 이어 붙여 가며 답변을 생성합니다.

body4.png gemini 이미지 생성


5. 어떻게 사람이 원하는 답변이 될까?

처음 훈련된 모델은 사실 그냥 말만 그럴싸하게 이어붙일 뿐, 쓸데없는 답을 할 수도 있습니다. 그래서 추가로 사람의 피드백을 반영하는 훈련(RLHF, Reinforcement Learning with Human Feedback)을 거칩니다.

쉽게 말해, 학생이 숙제를 풀고 선생님이 “이건 좋아, 저건 고쳐야 해”라고 계속 피드백을 주는 과정과 비슷해요. 덕분에 모델은 단순히 맞는 말을 하는 게 아니라, 사람이 선호하는 방식으로 대답하도록 조율됩니다.

body5.png gemini 이미지 생성


6. LLM의 한계

물론 LLM이 항상 완벽한 것은 아닙니다. 때때로 사실이 아닌 내용을 그럴듯하게 말하기도 하는데, 이를 전문 용어로 ‘환각(hallucination)’이라고 부릅니다. 또, 모델이 학습한 시점 이후의 새로운 정보는 알 수 없다는 한계도 있죠.

비유하자면, 수천 권의 책을 읽은 똑똑한 친구가 있다고 해봅시다. 이 친구는 정말 많은 걸 알고 있어서 여러 주제에 대해 이야기할 수 있지만, 가끔은 모르는 내용을 지어내기도 하고, 최근 뉴스나 최신 연구 결과 같은 건 알 수가 없는 거예요. 그러다 보니 매우 유능하지만, 늘 100% 믿을 수 있는 건 아닌 셈이죠.

body6.png gemini 이미지 생성


정리하자면, ChatGPT 같은 LLM은 '다음 단어 예측'이라는 간단한 아이디어에서 출발해, Transformer 구조와 방대한 학습 덕분에 놀라운 수준의 대화를 만들어냅니다. 우리가 보는 자연스러운 답변은 사실 수많은 예측의 선택지 중에서 가장 자연스러운 걸 골라낸 결과물인 거죠.

그렇다면 언어가 아니라 이미지는 어떨까요? 단어를 이어붙이듯 그림의 픽셀도 이어 붙일 수 있지 않을까요?
다음 글에서는 우리가 요즘 자주 접하는 그림 그리는 인공지능(이미지 생성 AI)의 원리와, 텍스트가 어떻게 그림으로 바뀌는지 흥미로운 과정을 함께 살펴보겠습니다.

많은 기대 부탁드려요!

keyword
이전 09화[9] 와이파이, 셀룰러 데이터, 테더링