brunch

연재 중 생각하는 기계의 원리 - 2편 07화

라이킷 27 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 알바트로스 Mar 17. 2024

GPT 시리즈 해부하기

자전거에서 우주선까지

챗GPT의 등장으로 이제 GPT는 생성형 AI의 대명사가 되었습니다. 이제 인공지능은 데이터의 특성을 파악하는 것을 넘어 텍스트, 이미지, 동영상 등 데이터를 스스로 창조해 내는 지경에 이르렀습니다. 생성형 AI의 시대가 도래한 것입니다. 사람들은 2022년 혜성처럼 등장한 챗GPT를 보면서 인공지능이 만들어갈 미래에 대한 희망과 두려움을 말하기 시작했습니다. 그러나 모든 혁신이 그렇듯 변화는 하루아침에 이루어지지 않았습니다.

출처 : 나무위키

지구상에 생명체가 처음 존재하기까지 무려 37억 년의 시간이 걸렸다고 합니다. 캄브리아기 대폭발 이후 지구의 생명체들은 매우 단순한 형태의 단세포 미생물로부터 오늘날의 다양하고 복잡하며 활동적인 생명체로 발전했습니다. 이처럼 폭발적인 성장 뒤에는 매우 길고도 지난한 준비과정이 있습니다. GPT 역시 마찬가지입니다.

GPT의 탄생은 GPT-1.0이 개발된 2018년까지 거슬러 올라갑니다. 그리고 GPT-1.0의 탄생은 지금까지 이 브런치북에서 다루었던 개념들과 매우 밀접하게 관련되어 있습니다. GPT 이전에는 2017년 생성형 AI 개발을 위한 모든 이론적 토대를 제공한 Transformer의 등장이 있었죠. 그 이전에는 더하기가 아닌 빼기로 혁신한 어텐션 메커니즘(attention mechanism)이 있었습니다. 그보다 더 이른 2010년대 초중반에는 심층신경망(Deep Neural Network, DNN)의 눈부신 발전이 있었습니다. 이 브런치북을 차근차근 따라오신 여러분들은 캄브리아기 지구상에 생명체가 처음 생겨나기 이전까지, 즉 인공지능의 폭발적인 성장을 위한 조건이 갖추어져 가는 이론적 토대를 배우셨을 것입니다.

지금부터 해부해 볼 GPT는 지난 시간에 배웠듯 Transformer의 두 자녀들 중 하나입니다. GPT(Generative Pre-trained Transformer)라는 이름에서도 나타나듯이 문장생성에 강점을 가지고 있는 트랜스포머 디코더의 아키텍처를 활용한 모델이지요. Transformer가 기계번역(machin translation)이라는 한정된 태스크에 포커스 되어있었다면 GPT는 기계번역뿐 아니라 문장 요약, 분류, 생성 등 다양한 태스크를 수행할 수 있는 형태로 발전해 왔습니다.

OpenAI는 2020년 GPT-3 이후로 GPT 시리즈의 소스코드(source code)를 공개하지 않는 정책을 펴고 있습니다. 따라서 기본적으로 OpenAI에서 제공하는 기초모델을 활용하기 위해서는 OpenAI에서 제공하는 API를 비롯한 다양한 서비스나 OpenAI사 제1의 투자사이자 파트너사인 Microsoft Azure 플랫폼을 활용해야 합니다. OpenAI에서 제공하는 플러그인 스토어를 통해 PPT, Excel 및 재무분석 등 다양한 업무에 챗GPT를 활용할 수도 있습니다.

출처 ms azure

GPT는 챗GPT의 기초모델인 GPT 3.5 - Turbo를 비롯하여 GPT 3.5 - Davinci, GPT 4 등 지속적인 성능 개선으로 세상을 놀라게 하고 있는 GPT 시리즈의 기초모델의 핵심적인 아키텍처입니다. 따라서 2018년 출시된 GPT-1이나 이 글을 쓰고 있는 시점에서 최신 모델로 알려진 GPT-4나 모두 근본적인 작동원리는 GPT 시리즈에 기반합니다.

하지만 같은 아키텍처를 사용하는 GPT 모델들 사이의 성능 차이는 어마어마한 것으로 알려져 있습니다. GPT- 3.0의 성능이 자전거라면 챗GPT의 기초모델 중 하나인 GPT 3.5 - Turbo는 자동차에 비교할 수 있지요. 체감상 GPT-4.0는 비행기 혹은 자기 부상열차에 비유할 수 있다고 말할 수 있습니다. GPT-5.0은 지구를 넘어 안드로메다를 향해 가는 우주선급으로 발전할지 모릅니다. 도대체 무엇이 이처럼 거대한 성능차이를 만들어내는 것일까요?

출처 : medium

GPT는 GPT 1 출시 이후 Zero-shot Learning과 Few-shot Learning 그리고 인간 피드백에 의한 강화학습(Reinforcement Learning From Human Feedback, RLFH) 등 다양한 형태의 학습방법을 동원하여 성능을 개선해 왔습니다. 그러나 GPT의 성능 개선에 무엇보다 큰 영향을 미친 것은 모델의 매개변수(parameter) 증가와 훈련에 사용하는 다양한 텍스트 양의 증가라고 할 수 있습니다. 다음시간부터는 논문을 리뷰하며 GPT-1부터 GPT-4까지 차근차근 그 발전과정을 살펴보도록 합시다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari