brunch

매거진 첨단기술 읽어주는 농부

라이킷 11 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 반병현 Jan 07. 2023

ChatGPT의 역사

ChatGPT

이번 글도 생능출판사의 ChatGPT관련 도서에 수록하려다 폐기한 원고입니다.

구글이 2017년 트랜스포머를 발표했고, 바로 이듬해 OpenAI는 트랜스포머를 활용한 GPT 논문을 발표했습니다. GPT는 트랜스포머를 12층 쌓아올린 모델입니다.

GPT는 당시의 기술들 대비 뛰어난 성능을 보이며 순식간에 세 개 분야에서 세계 최고수준을 차지했습니다. 트랜스포머의 위대함을 재발견하며 새로운 활용방법을 제시했고, 프리트레이닝 기법의 실용적인 사용 방법을 제안했다는 점이 GPT의 가장 큰 성취입니다.

이듬해인 2018년, OpenAI는 GPT-2 모델을 발표합니다. GPT에는 1.2억 개 가량의 파라미터가 있었는데요, GPT-2는 최대 15.4억 개 가량의 파라미터를 포함합니다. 모델의 부피 자체가 13배 이상 증가했습니다. 인공지능의 뇌가 더욱 커졌으므로, 성능 또한 더욱 증가했으리라 추측할 수 있겠지요? 학습 가능한 어휘의 개수도 5만 개로 대폭 증가했습니다.

하지만 GPT-2의 가장 큰 기여는 부피가 아니라 제로 샷(zero shot) 학습을 가능케 했다는 점입니다. GPT를 대화형 모델로 활용하려면 프리트레이닝 된 AI를 새롭게 학습시켜야 했습니다. GPT-2는 이 과정을 생략하는 방법을 제안했습니다. 물론 성능의 한계는 있었지만요.

한 번 학습된 인공지능을 여러 가지 용도로 활용할 수 있는 기술적 배경을 제안했다는 점에서 GPT-2는 무척이나 높게 평가받고 있습니다.

일반적으로 한 가지 작업을 학습한 인공지능은 다른 작업을 수행할 수 없습니다. 만약 새로운 작업을 학습하더라도, 기존에 학습했던 내용들은 모두 잊어버리는 것이 일반적이고요. AI가 여러 작업을 연속해서 학습할 수 없다는 의미에서 이 문제를 컨티뉴얼 러닝 문제라고 부릅니다. GPT-2는 이를 해결할 수 있는 실마리를 제안했기에 대단한 것입니다.

또다시 1년이 흘렀고, OpenAI는 2019년 드디어 GPT-3을 공개합니다. 논문의 제목인 <Language models are few-shot learners>에서부터 알 수 있듯이 GPT-3은 퓨샷(few-shot) 러닝을 수행합니다. 프리트레이닝 이후 몇 개 정도의 대화 예시만 보여줘도 충분하지, 따로 학습을 진행하지는 않는 것입니다!

아울러 성능을 높이기 위해 <self-attention>을 엄청나게 많이 삽입했습니다. 이로 인해 파라미터개수가 1,750억 개로 증가했지만, 장문의 텍스트를 입력해도 문맥을 엄청나게 잘 이해할 수 있는 괴물같은 인공지능이 만들어진 것입니다.