초거대언어모델(LLM) 이전의 언어모델 : LSTM과 GRU
1. LSTM(Long Short-Term Memory)
LSTM(Long Short-Term Memory)는 한국어로 '장단기메모리'로 번역됩니다. 딥러닝 기반 seq2seq란?에 서 살펴본 RNN의 Long-Term Dependencies(장기 의존 문제)를 해결하기 위해 고안되었습니다. '장기 의존 문제'란 입력되는 문장의 길이가 길어질수록 점점 문장의 학습력이 떨어지는 치명적인 단점을 야기하는 문제입니다. LSTM은 1997년 Hochreiter, S., & Schmidhuber, J. (1997)이 제안한 논문에 처음 등장하는데요. 여러 연구와 수정을 거쳐 현재에는 언어, 음성인식 등 연속적인 데이터를 다루는 다양한 분야에 활용되고 있습니다.
재미있는 사실은 LSTM(Long Short-Term Memory) 역시 순환 신경망(RNN, Recurrent Neural Network)의 한 종류라는 것입니다. 이 알고리즘 역시 시퀀스 데이터를 모델링하고 예측하기 위해 사용된다는 측면에서 본질적으로는 seq2seq 모델의 한 종류라고 할 수 있습니다. LSTM은 RNN과는 다르게 병렬처리가 가능해 보다 뛰어난 처리속도를 자랑한다는 큰 장점이 있습니다.
- LSTM의 작동원리
LSTM은 다양한 게이트(gate) 메커니즘을 사용하여 입력 데이터에서 중요한 정보를 선택적으로 기억하고 삭제하는 방식으로 동작하는데, 일반적으로 LSTM은 이전의 정보 중 어떤 것을 잊어버릴지 정하는 Forget Gate, 현재의 입력 데이터와 이전의 값 중 어떤 것을 현재 상태에 추가할지 결정하는 Input Gate, 그리고 현재와 이전의 값 중 어떤 것을 출력할지 결정하는 Output Gate로 구성되어 있습니다.
GRU는 LSTM과 매우 유사하지만, 조금 더 간단한 구조를 가지고 있습니다. LSTM이 input, forget, output 게이트를 사용하는 반면에, GRU는 업데이트 게이트와 리셋 게이트 두 가지 게이트만 사용합니다. 이러한 간소화된 구조 덕분에 GRU는 LSTM보다 학습 속도가 빠르고, 더 적은 매개변수를 필요로 합니다.
GRU는 LSTM보다 더 적은 계산을 필요로 하기 때문에, 학습 속도가 빠르고 더 간단한 구조를 가지고 있습니다. 이러한 성능면의 메리트 덕분에 GRU는 다양한 응용 분야에서 널리 사용되고 있습니다. 마찬가지로 재미있는 사실은 GRU 개발을 한국인이 주도했다는 사실입니다. 뉴욕대 컴퓨터과학과 교수 조경현 교수님이 개발한 GRU는 딥러닝의 역사에 중요한 족적을 남겼습니다.
-GRU의 작동원리
GRU 역시 마찬가지로 기본 RNN의 단점을 보완하기 위해 고안된 알고리즘으로, 역시 RNN의 일종이며 LSTM보다 간소화되고 더욱 좋은 성능을 보여줍니다. 과거의 정보를 리셋하는 리셋 게이트와 과거와 현재의 정보 최신화 정도를 정하는 업데이트 게이트 두 가지 로 이루어져 있는 아키텍쳐로 위의 그림과 같이 작동합니다.
지금까지 초거대언어모델(LLM) 이전의 seq2seq 기반 언어모델의 기본적인 개념과 작동원리에 대해 살펴보았습니다. 다음 시간부터는 본격적으로 초거대언어모델(LLM)이 어떻게 작동하는지 낱낱히 파해쳐보겠습니다.