Attention Nueral Network/ Transformer
최근(Early 2026)에 업데이트된 AI모델 (Gemini 3.1 Pro, GPT-5시리즈, Claude 4.6 등)을 사용하다 보면, 이전보다 훨씬 효율적으로 바뀌었다는 것을 체감할 수 있습니다. 최근 AI모델의 공통적인 특징은 바로 MoE(Mixtral of Expert)구조를 채택하고 있다는 것인데요. 오늘은 MoE를 이해하기 전에 필요한 Attention 매커니즘과 초기 트랜스포머(Vanilla Transformer)에 대해 다루겠습니다.
이 Attention 매커니즘은 트랜스포머 모델의 기초가 되어 지금의 LLM이 있게한, 아주 중요한 개념입니다. '집중'이라는 이름 그대로 사람이 무엇인가에 집중할 때, 집중해서 보고 들은 부분은 또렷하고 기억에 오래 남는것에서 시작된 개념입니다.
기존 이 Attention Mechanism은, 순환신경망(RNN)과 함께 사용된 기법이었으나 'Attention is all you need'라는 논문을 통해 Attention기법을 단독으로 사용하는 'Transformer(트랜스포머)'아키텍처를 제안했습니다.
Attention이 등장하기 전, 순환신경망(RNN, Recurrent Neural Network)은 Seq2Seq 모델을 사용했습니다. 즉 입력된 문장을 앞에서부터 '순서대로' 읽습니다. 이 경우, 앞에 있는 단어의 처리가 끝나야 다음 단어로 처리할 수 있기에 연산속도가 느려지는 이른바 '병목현상'이 나타나게 됩니다. 병렬처리가 되지 않기에 메모리 제약으로 인해 문장이 길어질수록 처음에 나왔던 단어의 의미를 점점 잃게 되는 '장기기억상실'의 문제도 발생하게 됩니다. (병렬처리가 되지 않기에 GPU의 기능도 한 껏 활용할 수 없었어요.)
이를 해결하기 위해 인수분해나 조건부 연산 등을 통해 효율성을 크게 향상시키고, 모델 성능까지도 개선했지만 순차적인 연산이라는 근본적인 한계는 여전히 남아있었습니다.
2017년 Google에서 발표한 'Attention is All You Need'는 바로 이러한 순차적 연산의 한계를 깨기 위해 등장한 메커니즘입니다. 해당 논문에서는 순환을 배제하는 대신, 입력(Encoder)과 출력(Decoder)간의 의존성을 이끌어내기 위해 Attention 메커니즘만 활용하는 모델 구조인 '트랜스포머'도 함께 제안하고 있습니다.
출력 단어를 하나씩 만들때마다, 입력 문장 전체를 다시 한 번 훑어보자.
단, 모든 단어를 똑같이 보는게 아니라 지금 출력할 단어와
가장 연관성 있는 중요한 단어에 더 집중(Attention)해서 보자.
이 Attention Mechanism은, 위와 같은 아주 상식(?)적인 접근을 하는 것입니다.
Attention은 아래 3가지 요소로 이루어집니다.
사용자 질의에 해당하는 문제에 해당하는 Q(Query)
→ "내가 지금 찾고(또는 분석하고) 있는 정보가 뭐야?" (현재 분석중인 단어)
문제를 풀기 위한 힌트와 같은 요소인 K(Key)
→ "이 정보는 어떤 특징을 가지고 있어?" (다른 단어들이 지닌 특성)
힌트 중, 가장 도움이 되는 힌트의 내용인 V(Value)
→ "그래서 그 정보의 진짜는 뭐야?" (단어의 실제 의미)
Attention은 이 세 요소를 활용하여 단어의 유사도를 계산하고, 중요한 단어와 연관성이 높은 것들을 추려냅니다.
이 Attention 메커니즘을 활용한 것이 바로 'Transformer(트랜스포머)'모델입니다.
Q, K, V 이 3가지 요소로 단어의 유사도를 파악하여 제일 높은 단어를 추려내고, 이 정보를 바탕으로 단어 사이의 관계를 파악합니다. 하지만 단순히 관계만 찾는다고 문장이 매끄럽게 완성되지는 않겠지요.
이때 트랜스포머에 2가지 주요 메커니즘이 더해집니다.
첫 번째는 '번호표'(Positional Encoding)입니다.
RNN(순환신경망)처럼 '순서대로' 읽지 않고, 한꺼번에 보기에 단어들의 순서를 알 수 없습니다.
예를들어 '나는 너를 좋아해'와 '너는 나를 좋아해'라는 두 문장은 단어의 순서만 바뀌었을 뿐인데 의미가 달라집니다. 그래서 각 단어에 '내가 몇 번째 단어인지'알려주는 위치 정보를 더하여 문장구조를 유지합니다.
두 번째는 '여러 개의 눈'(Multi-Head Attention)입니다.
Q, K, V 이 3가지 요소로 단어의 유사도를 파악하여 제일 높은 단어를 추려내고, 이후 계산과정 거치는데, 해당 논문에서의 트랜스포머 모델은 이 어텐션 과정을 한 번만 거치는 것이 아니라, 8개로 쪼개어 동시에 진행(MHA, Multi-Head Attention)합니다.
이 경우, 하나의 문장을 다양한 관점에서 분석할 수 있어 모델이 문맥을 이해하는 능력이 비약적으로 높아집니다. 예를 들어 어떤 이야기를 읽을 때 누군가는 '등장인물의 감정'에 집중하고, 누군가는 '시대적 배경'에 집중하고 누군가는 '문체'에 집중하는 것처럼요.
[참고자료]
Attention is All You Need, Google DeepMind.
https://arxiv.org/pdf/1706.03762