아직도 챗GPT가 의식을 가지고 있다고 믿는 분들께
2022년 11월 GPT-3.5를 기초모델로 사용한 챗GPT가 대중에 공개되었을 때 사람들은 경악했습니다. 사람처럼 자연스럽고 매끄러운 문장 구사능력은 물론이고, 다소 모호한 질문속에서도 그 의도를 기가 막히게 유추해내 막힘없이 대답해내는 언어모델의 등장에 사람들은 존재론적 두려움을 마주하기도 했습니다. 그러나 인공지능 개발자와 연구자들에게 챗GPT는 그다지 새로울 것이 없었습니다. 2020년 GPT-3을 세상에 발표하는 논문에서 연구진과 엔지니어들은 이미 GPT-3의 편향된 학습 데이터와 지나치게 뛰어난 성능으로 인한 잠재적인 위협을 경고한바 있기 때문이죠.
세간에서 회자되고 있는 GPT의 놀라운 성과는 초거대언어모델(LLM)이라는 굳건한 기술적 토대위에 쌓아올려졌습니다. 사실 지금까지 우리가 배운 모든 자연어처리와 관련된 개념들은 초거대언어모델(LLM)의 작동 방식을 이해하기 위한 준비운동이었습니다. 자연어처리에 입문하고 통계학과 딥러닝이라는 험준한 산을 넘어 초거대언어모델(LLM)의 세계에 무사히 도착하신 여러분을 환영합니다.
언어모델은 결국 통계학과 심층신경망을 통한 확률 예측 게임입니다. 여러분들은 챗GPT에 의식이 있다거나 인공지능 로봇이 인류를 공격한다는 혹은 몇달내에 인공일반지능(AGI)가 등장 할 것이라는 주장에 대해 어떻게 생각하시나요? 저는 개인적으로 이것은 마치 지구가 편평하다는 것 만큼 터무니없는 주장이라고 생각합니다. (그러나 이 브런치북 후반부에 다루겠지만 AGI의 출현에 대한 가능성을 완전히 배제할 수는 없습니다. )이제부터 배우게 될 개념들에는 최신 자연어처리의 정수가 담겨있습니다. 인공지능과의 공존이 디폴트가 된 인공지능시대를 위해 매우 중요한 내용이라고 확신합니다.
기술 발전의 흐름을 이해하기 위해 잠시 초거대언어모델(LLM) 이전의 순환신경망(RNN) 모델의 작동방식을 복습해봅시다. RNN은 인공신경망을 활용하여 통계 기반 언어모델이 한정된 학습 데이터에 지나치게 의존하는 희소 문제(sparsity problem)를 훌륭하게 해결했습니다. 그러나 RNN은 장단기 의존문제(problem of long-term dependency)라는 치명적인 문제와 마주하게 됩니다.
연구자와 엔지니어들은 장단기기억(LSTM)과 게이트 순환 유닛(GRU)이라는 한층 진화한 순환신경망 모델을 고안해, seq2seq 메커니즘을 유지하면서 입력 정보를 선택적으로 활용하여 장단기의존문제를 어느정도 해결할 수 있었습니다. 그러나 LSTM과 GRU는 여전히 문장이 길어짐에 따라 정보가 소실되는 장단기의존 문제와 기울기 소실 문제라는 치명적인 한계점을 가지고 있었습니다.
이러한 문제점을 해결하기 위해 혜성처럼 등장한 것이 바로 어텐션(attention) 메커니즘입니다. 어텐션은 기존에 seq2seq 방식에 기반한 언어모델이 입력된 텍스트 데이터를 모두 동일한 가중치로 확률을 부여하던 단순하고 천편일률적인 접근방식에서 탈피하여 다음 단어를 예측할 때 문장속 각 단어에 가중치를 두어 언어모델이 중요한 부분에 더 집중하도록 한 방식입니다.
한 발 나아가 2017년 구글의 개발자와 연구자들은 ‘attention is all you need’라는 논문을 통해서 seq2seq방식을 과감히 버리자는 제안을 하기에 이릅니다. seq2seq 방식을 적용하지 않고도 기존의 인코더-디코더 구조만 유지한 채 어텐션 메커니즘만을 적용하는 방식으로 놀라운 성능을 보여줄 수 있다며 트랜스포머(Transformer) 계열의 모델을 발표한 것이죠.
seq2seq 방식에서의 탈피는 병렬처리(parallel processing)를 통해 연산속도와 성능면에서 엄청난 개선을 이루어냈습니다. 구글 연구진들의 생각이 맞았음을 증명하듯 트랜스포머 이후 등장한 BERT와 GPT 등 트랜스포머 계열 언어모델들은 엄청난 성능의 개선을 보여주며 오랜기간 SoTA 모델로서 언어모델 분야를 주름잡아왔습니다.
그러나 어텐션 메커니즘도 여전히 한계점을 가지고 있습니다. 고정된 길이의 벡터에 모든 정보를 압축해야 한다는 어텐션 메커니즘의 특성상 문장이 길어짐에 따라 여전히 기울기 소실 문제가 발생할 수 있으며, 이러한 이유로 모든 시퀀스 위치에 대한 가중치를 계산하기 때문에 막대한 계산비용이 발생하기 때문입니다.
연구자와 엔지니어들은 막대한 양의 훈련 데이터와 매개변수(parameter)를 통해 해결하고자 했습니다. 초거대언어모델(LLM)이 출현하는 순간이입니다. 고성능 컴퓨팅 기술과 클라우드 데이터 저장기술의 발전으로 기초모델에 방대한 양의 데이터를 저장 및 활용할 수 있게 되면서 천문학적인 양의 텍스트 데이터를 사전학습 하는것이 가능해졌습니다.
이를 계기로 언어모델은 점점 더 거대화 되어갔으며, 점점 더 방대한 양의 텍스트 데이터를 사전학습 하며 성능을 개선하는 방식으로 발전해왔습니다. 다음시간 부터는 초거대언어모델(LLM)의 토대가 되었던 어텐션 메커니즘의 개념과 트렌스포머 계열 모델에 대해 소개합니다. 그리고 전이학습(transfer learning)이라는 개념을 통해 언어모델의 페러다임을 전환하고자 했던 초거대언어모델(LLM)의 작동원리에 대해 배울 수 있습니다.