8. Transformer의 전체 구조

2장 GPT의 기반 기술, Transformer란 무엇인가?

Nov 8. 2025

1장 AI는 데이터를 어떻게 이해할까: 특징량화의 원리(1~7)에서 텍스트 데이터를 중심으로, 입력 데이터를 생성형 AI모델에서 다루기 위해 특징량화 하는 방법을 파악했으므로 2장 GPT의 기반 기술, Transformer란 무엇인가?부터는 생성형 AI모델에 대한 중요한 원 논문들을 직접 읽어나가면서 이해를 깊게 해 나갑니다.

생성형 AI 모델을 이해하는데 있어, "단 하나만 골라서 곡 알아야 할 모델"을 꼽으라면 무엇을 들 수 있을까? 필자는 Transformer를 고를 것이고, 절대 다수의 사람들도 마찬가지 선택을 할 것라고 강하게 확신합니다. 이번에는 생성형 AI 모델의 뺴놓을 수 없는 토대가 되고 있는 Transformer를 제안한 아래 원 논문을 상세히 읽어봅시다.

Attention Is All You Need (2017/06/12)

이 강좌에서 원논문 해설은 전부를 설명하기에는 다소 무리가 있어 중요한 부분만 골라서 설명하는 경우가 대부분입니다. 하지만, Transformer 원 논문은 생성형 AI의 기념비적인 논문이기 때문에, 이 논문만큼은 구석구석까지 훑으면서 제대로 맛보는 것을 목표로 합니다.

내용에 들어가기 전에 하나 알아두어야 할 것은 "Transformer"라는 말의 범위입니다. 원래 Transformer라는 용어는 "기계 번역 모델"을 가리키는 말이었고, 지금 세상에서 쓰이는 Transformer라는 말은 그보다 훨씬 넓은 의미로 사용되고 있다는 점을 이해해 둘 필요가 있습니다. 이제부터 보게 되겠지만, Transformer에는 인코더 부분과 디코더 부분이 존재합니다. 이 둘은 떼어내서 별도의 파생모델을 만드는데에도 쓰이고, 그런 파생 모델들까지 싸잡아 Transformer라고 부르는 경우도 있습니다.

이 강좌에서는 용어를 다음과 같이 구분합니다.

"Transformer"라고 쓸 때는 기계번역에서의 인코더-디코더 구조 전체를 가르킵니다.

그 외의 경우에는 Transformer 디코더 등으로 따로 써서 구별이 가도록 합니다.

8. Transformer의 전체 구조

원 논문의 동기는 텍스트처럼 순서가 중요한 데이터를 다룰 때, 순차 처리(recurrent, step-by-step)를 요구하지 않으면서도 계산 효율이 높은 모델을 만들고 싶다는데서 출발합니다. 당시 텍스트 데이터를 다루는 모델로 큰 성공을 거두고 있던 것은,

인코더와 디코더를

어텐션 메커니즘(attention mechanism)으로 연결한

순환 신경망(Recurrent Neural Network, RNN)기반 모델이었습니다.

하지만 RNN은 학습 시에 이런 제약을 갖습니다.

t번째 토큰의 계산을 시작하기 위해서는

t-1번째 토큰의 계산이 끝나 있어야 합니다.

이런 식의 순차 처리 요구가 병렬 계산을 방해하는 주요 원인이었습니다.

원 논문에서는 이 문제를 어텐션 매커니즘만으로 구성된 Transformer 모델을 설계함으로써 해결합니다. 그리고 다음과 같이 병렬성의 장점을 강하게 주장합니다.

“The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality”

(Transformer는 훨씬 높은 수준의 병렬 처리를 가능하게 하고, 번역 성능에서도 새로운 SOTA를 달성한다)

Transformer에서 핵심적인 역할을 하는 주기주의(self-attention) 자체는 사실 이 논문에서 처음 제안된 개념은 아닙니다. 하지만, 원 논문에서 말하듯,

“In all but a few cases, however, such attention mechanisms are used in conjunction with a recurrent network.”

(그러나 극히 일부 경우를 제외하면, 이런 어텐션 메커니즘은 항상 RNN과 함께 사용되어 왔다)

“In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output.”

(본 연구에서는, 재귀 구조를 버리고, 입력과 출력 간의 전역적인 의존 관계를 포착하기 위해 오로지 어텐션 메커니즘만에 의존하는 모델 구조인 Transformer를 제안한다)

라고 설명하듯, RNN을 완전히 뗴어내고, 오직 어텐션만으로 모델을 구성한 것이 새로운 포인트입니다.

또한, 병렬 계산이 가능한 모델로는 합성곱 신경망(Convolutional Neural Network, CNN)도 있습니다. 하지만, 이에 대해서는 원 논문에서 이렇게 말합니다.

“In these models, the number of operations required to relate signals from two arbitrary input or output positions grows in the distance between positions”