2장 GPT의 기반 기술, Transformer란 무엇인가?
지금까지 Transformer의 핵심 구성요소에 대해 살펴봤습니다. 그런데 Transformer 구조에서는 이 외에도, 인코더와 디코더 양쪽에 공통적으로 포함되는 요소들이 있습니다. 이 내용은 원 논문 이전부터 알려져 있던 기법들이라서 여기서는 핵심만 짚어봅니다. 더 깊이 확인하고 싶다면 해당 기법들이 제안된 원 논문들을 직접 참고하길 추천합니다.
Add & Norm은 이름 그대로,
Residual Connection (잔차 연결)
Layer Normalization (레이어 정규화)
이 2가지를 묶어서 표현한 것입니다.
① Residuual Connection (잔차 연결)의 역할
입력 h를 받았을 때, 출력 h'를 만든다고 생각해 봅시다. 모델 내부의 비선형 변환을 f(h; {Wᵢ})라고 하면, 잔차 연결은 아주 단순하게 정의됩니다.
h′ = f(h; {Wᵢ}) + h …
즉, 새로운 변환 결과 + 원래 입력을 더하는 방식입니다.
정말 단순한데, 이게 딥러닝에서 엄청 중요한 역할을 합니다.
왜 Residual이 필요할까?
딥러닝 모델의 레이어수가 많아지면 학습이 잘 안되는 문제가 생깁니다. 특히 어떤 레이어가 사실상 "별로 변화를 만들 필요가 없을" 때, 즉 거의 항등함수(identity mapping)에 가까운 기능만 해야 하는 경우를 떠올려 봅시다.
입력 h가 그대로 있는 상태라면, f가 0에 가까운 값만 출력하도록 학습시키면 됨 → 쉬움
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠