6. GPT의 T를 알아보자

전문 지식은 필요 없지만, AI를 '어느 정도' 이해하고 싶은 당신께

by 먀 ai

오늘은 GPT의 T에 해당하는 트랜스포머 구조에 대해 알아보려고 합니다. 트랜스포머는 GPT의 '뇌 구조'라고도 볼 수 있는데요.


오픈AI의 GPT, 앤트로픽의 Claude, 구글의 Gemini 등, 수많은 언어 모델은 공통적으로 ‘트랜스포머(Transformer)’라는 구조 위에 세워졌습니다. 트랜스포머는 2017년 구글이 발표한 논문 <Attention is All You Need> 에서 처음 소개한 개념인데요. 기존 방식보다 훨씬 빠르고, 더 똑똑하게 문맥을 이해할 수 있는 구조로 주목 받았습니다.


AI는 문장을 어떻게 읽을까?


트랜스포머의 등장이 왜 주목을 받았는지를 이해하려면, 트랜스포머 이전에 AI가 문장을 어떻게 읽었는지 알아야 하는데요. 이전에는 등장하는 단어를 순차적으로 읽으며 문장을 이해했습니다. 예시를 볼까요?


“나는 오늘도 초코바를 먹고 싶어”라는 문장은

'나는' → '오늘도' → '초코바를' → '먹고' → '싶어' 순으로 읽혔습니다.

ChatGPT Image May 27, 2025, 08_55_13 PM copy.png

이 방식은 하나씩 순서대로 단어를 읽으며 이해하려 했기 때문에 문장이 길어지면 앞 내용을 잊거나, 계산 시간이 오래 걸렸습니다. 멀리 떨어진 단어 간 관계를 파악하기도 어려웠지요. 그럼 트랜스포머는 어떻게 다를까요?


트랜스포머 구조란?


지난 화에서 배운 '토큰'과 '벡터', 그리고 '임베딩'을 기억하시나요?


토큰은 GPT가 문장을 쪼개 이해하는 최소 단위이고, 벡터는 토큰의 의미와 단어 간 관계를 수치로 나타낸 숫자 묶음이라고 배웠습니다. 임베딩은 토큰을 벡터로 나타내는 과정이라고 했지요. 또한, ‘커피’와 ‘카페’처럼 유사한 상황에서 자주 사용되는 단어들은 벡터 값도 서로 비슷하게 나타난다는 이야기도 했는데요.


트랜스포머는 임베딩된 벡터들끼리 서로 얼마나 관련 있는지 비교하여 전체 문맥을 파악하는 구조입니다. 모든 단어를 병렬적으로 비교하며 처리하기 때문에, 속도도 빠르고, 문맥도 잘 파악하고, 더 자연스러운 문장을 만들어낼 수 있지요. 간단하게 정리하면, 과거 방식은 단어를 순서대로 읽으며 이해하는 순차적인 처리 방식이라면 트랜스포머는 모든 단어 간 관계를 동시에 고려해 문맥을 이해하는 병렬 처리 방식입니다.


트랜스포머가 어떻게 작동하는지 살펴볼까요?


1. 문장을 토큰 단위로 쪼갠다.

2. 각 토큰을 벡터로 바꾸는 임베딩 과정을 거친다.

3. 각 벡터끼리 ‘어텐션(Attention)’을 통해 서로 얼마나 중요하게 여겨야 하는지 계산한다.

4. 결과를 조합해 문장을 이해하거나, 다음 단어를 예측한다.


자, 어텐션이 무엇인지 궁금하시지요? 바로 알아보겠습니다.


‘어텐션(Attention)’을 알아보자


어텐션은 문장 안에서 한 단어가 다른 단어에 얼마나 중요한지 계산하는 기술입니다. 예시로 알아보겠습니다.


식탁 위에 도마가 있다. 그것은 나무로 만든 것이다.
May 27, 2025, 08_47_27 PM.png


위 문장에서, '그것'이 테이블을 지칭하는지 도마를 지칭하는지 어떻게 알 수 있을까요? 트랜스포머는 이런 상황에서 '그것'이라는 토큰이 등장하면 앞에 나왔던 단어들 중 '식탁'과 '도마'를 모두 비교해서 어느 쪽이 더 관련 있는지를 숫자로 계산합니다. 무엇이 '나무로 만들어진 것'이라는 문맥에 더 어울리는지 찾으려고 주의를 기울이는(attend) 과정이지요. 물론, AI가 정답을 정확히 아는 건 아닙니다. 수많은 데이터를 바탕으로 '가장 그럴듯한 답'을 예측할 뿐입니다.


트랜스포머 구조를 살펴보자

트랜스포머는 ‘인코더(Encoder)’와 ‘디코더(Decoder)’로 구성돼 있습니다. 아주 간단한 개념이니 겁 먹지 마세요!


인코더: 입력 문장을 받아서 문맥을 이해하는 역할

디코더: 문맥을 바탕으로 새로운 문장을 만들어내는 역할


트랜스포머는 이 인코더와 디코더 안에서 ‘어텐션’이라는 기술을 사용해, 문장 속 단어들끼리 어떤 관계가 있는지를 계산하고 문맥을 파악하는 구조입니다. 오픈AI의 GPT는 여기서 디코더 구조만 사용해서 문장 생성에 특화된 모델로 태어났는데요. 인코더 구조만 사용해 문장 이해에 특화된 모델도 있습니다. 바로 구글의 BERT입니다.


BERT에 대해 알아보자


BERT는 Bidirectional Encoder Representations from Transformers의 약자인데요. 2018년 구글이 발표했고, 앞서 말했듯이 트랜스포머 구조의 인코더 부분만 사용한 모델입니다.


BERT의 가장 두드러지는 특징이 있습니다. 바로 문장을 앞, 뒤에서부터 동시에 읽어 문맥을 파악한다는 점인데요.

ChatGPT Image May 27, 2025, 09_10_41 PM.png

GPT는 왼쪽에서 오른쪽 방향으로만 예측하는 방식으로 훈련되는 반면, BERT는 양방향 문맥을 모두 고려하는 방식으로 훈련되기 때문에 이해도가 몹시 높습니다. 훈련을 할 때도 문장에서 일부 단어를 가려놓고 앞뒤 문맥을 통해 맞히는 식으로 학습하지요. BERT는 구글 검색 엔진에도 적용된 적이 있으며, 지금도 다양한 문장 이해 작업에 활용되고 있습니다. 다만 현재 대부분의 LLM은 주로 GPT 구조로 만들어져 있습니다.




이번 글에서는 GPT의 핵심 구조인 ‘트랜스포머’가 어떻게 문장을 읽고 이해하는지 알아보았습니다. 문장을 순서대로 하나씩 읽는 대신, 모든 단어를 한눈에 보고 문맥을 파악하는 트랜스포머 구조 덕분에 지금처럼 맥락에 맞는 자연스러운 문장 생성이 가능해졌지요.


그렇다면, 우리 말을 잘 이해하게 된 AI가 우리가 원하는 방식으로 대답하게 하려면 어떻게 해야 할까요?

다음 편에서는 AI에게 ‘역할’과 ‘말투’를 알려주는 기술인 인스트럭션 튜닝(Instruction Tuning)에 대해 알아보겠습니다. 전문적인 지식까지는 아니어도, AI를 어느 정도 이해하고 싶으시다면 다음 주 글도 기대해 주세요!



먀. AI 뉴스레터를 구독하시면 매주 재밌는 AI 이야기를 받아보실 수 있어요!


keyword
이전 06화5. 프롬프트와 파인튜닝을 알아보자