brunch

11. 인코더와 디코더의 공통 구성요소

2장 GPT의 기반 기술, Transformer란 무엇인가?

by AI개발자
2025-최신-생성형ai-이해하기-top.png

지금까지 Transformer의 핵심 구성요소에 대해 살펴봤습니다. 그런데 Transformer 구조에서는 이 외에도, 인코더와 디코더 양쪽에 공통적으로 포함되는 요소들이 있습니다. 이 내용은 원 논문 이전부터 알려져 있던 기법들이라서 여기서는 핵심만 짚어봅니다. 더 깊이 확인하고 싶다면 해당 기법들이 제안된 원 논문들을 직접 참고하길 추천합니다.


Add & Norm: Residual Connection + Layer Normalization

Add & Norm은 이름 그대로,

Residual Connection (잔차 연결)

Layer Normalization (레이어 정규화)

이 2가지를 묶어서 표현한 것입니다.

llm-0001.jpg Transformer구조 (원 논문 Figure1) 이 두 요소가 인코더/디코더 전반에 공통으로 붙고 PyTorch모델코드나 Transformer 구현에서도 기본 들어가 있음

① Residuual Connection (잔차 연결)의 역할

입력 h를 받았을 때, 출력 h'를 만든다고 생각해 봅시다. 모델 내부의 비선형 변환을 f(h; {Wᵢ})라고 하면, 잔차 연결은 아주 단순하게 정의됩니다.


h′ = f(h; {Wᵢ}) + h …


즉, 새로운 변환 결과 + 원래 입력을 더하는 방식입니다.

정말 단순한데, 이게 딥러닝에서 엄청 중요한 역할을 합니다.


왜 Residual이 필요할까?

딥러닝 모델의 레이어수가 많아지면 학습이 잘 안되는 문제가 생깁니다. 특히 어떤 레이어가 사실상 "별로 변화를 만들 필요가 없을" 때, 즉 거의 항등함수(identity mapping)에 가까운 기능만 해야 하는 경우를 떠올려 봅시다.

입력 h가 그대로 있는 상태라면, f가 0에 가까운 값만 출력하도록 학습시키면 됨 → 쉬움

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 09화10. 멀티헤드 어텐션