brunch

연재 중 생각하는 기계의 원리 - 2편 10화

라이킷 21 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 알바트로스 Mar 30. 2024

GPT-3 해부하기

몇 가지 예시만으로도 원하는 작업을 수행할 수 있는 언어모델

GPT-3은 2020년 OpenAI가 발표한 세 번째 GPT 모델로 그 규모와 성능면에서 역대급이라는 평가를 받았습니다. 2022년 말 챗GPT가 나오기 전부터 이미 GPT-3가 생성한 기사는 사람이 쓴 기사와 전혀 구분할 수 없는 수준에 도달했습니다. 논문의 저자들은 당시에 이미 가짜뉴스(fake news)와 편향된 데이터(biased data)가 미칠 사회적 악영향에 대해 우려를 표명하기도 했지요.

GPT-3는 GPT-2와 비슷한 아키텍처(architecture)를 가지고 있는 것으로 알려졌습니다. 따라서 GPT-3 논문에는 특별한 모델 아키텍처 변화에 대한 설명이 등장하지 않습니다. 그럼에도 불구하고 GPT-3은 특정 데스크에만 두각을 나타낸 것이 아니라 문장 생성, 코드 작성, 질문 응답, 문장 번역 등의 다양한 태스크에서 골고루 높은 성능을 보이며 여러 자연어 처리 벤치마크 성능에서 SOTA(State-Of-The-Art)를 달성했습니다. 어떻게 이것이 가능했을까요?

이는 어마무시한 GPT-3의 매개변수(parameter) 수와도 관련이 있습니다. 약 1750억 개의 매개변수를 갖고 있는 GPT-3은 단순히 매개변수의 개수만 놓고 보아도 GPT-2의 15억 개와 비교하면 100배 이상 큰 크기를 자랑합니다. GPT-1의 1.17억 개와 비교하면 무려 1000배 이상 차이나는 숫자입니다. 매개변수가 늘어난 만큼 전작 GPT-2에 비해 확실한 성능 개선을 보여줬습니다.

이처럼 매년 10배 규모로 증가하는 LLM의 크기를 보면 24개월마다 성능이 두 배씩 좋아지는 반도체 무어의 법칙(Moore's Law)이 떠오릅니다. LLM의 성능 역시 이와 비슷하게 매년 10배 이상 매개변수가 증가하며 성능 역시 기하급수적으로 좋아지고 있습니다. 이를 두고 NLP 무어의 법칙(NLP's Moore's Law)이라고 칭하기도 합니다.

LLM Parameter 수와 성능의 상관관계(출처 : Language Models are Few-Shot Learners)

그러나 매개변수가 전부는 아닙니다. GPT-3 시리즈부터는 프롬프트 엔지니어링(prompt engineering)의 기반이 되는 In-context learning이라는 개념이 본격적으로 등장하기 시작합니다. 이번 시간에는 2020년 발표된 Language Models are Few-Shot Learners라는 논문을 리뷰하며 GPT-3을 해부해 보도록 하겠습니다.

1. GPT-3을 통해 해결하고자 했던 문제

GPT-3은 이전 시리즈 모델들과 비교해서 어떤 점이 개선되었을까요? 비교를 위해 잠시 복습해 봅시다. GPT-1은 비지도 사전학습과 지도 미세조정을 융합한 준지도학습(Semi-supervised learning)을 차용해 특정 태스크에 대한 성능을 끌어올렸다면, GPT-2은 한발 더 나아가 GPT가 미세조정(Fine-tuning) 없이도 비지도 사전학습(Unsupervised pre-training) 만을 통해 어떠한 태스크를 요청받더라도 '평균이상'의 성능을 내는 일반언어모델(General Language Model)로 향하는 발판을 마련했었죠.

이처럼 GPT-2는 미세조정(fine-tuning) 없이도 수많은 다운스트림 태스크에서 평균 이상의 준수한 성능을 보여주는 모델이었지만, 여전히 일반화 능력과 전반적인 성능이 부족하다는 한계점이 있었습니다. GPT-3 논문의 저자들은 In-context learning과 Parameter 수의 증가라는 두 가지의 방법을 통해 이러한 문제를 해결하고자 했습니다. 아래의 표에서 보는 것처럼 매개변수의 숫자를 늘리는 것뿐만 아니라, 더 많은 문맥(Context)을 제공할수록 언어모델의 성능(Accuracy)이 향상되는 것을 볼 수 있습니다. In-context learning이란 한마디로 명령(Prompt, 프롬프트)과 예시를 통해 언어모델의 성능을 끌어올리는 기법입니다. 예시를 통해 살펴봅시다.

Context와 Parameter수에 따른 모델의 정확도(출처 : Language Models are Few-Shot Learners)

In-context Learning의 첫 번째 방식은 Zero Shot Learning입니다. Zero Shot은 모델에게 문제에 대한 설명만 제시해 주고 예시에 대해서는 알려주지 않는 방법입니다. 예를 들어 아래와 같이 '텍스트를 중립, 부정 혹은 긍정으로 분류해 줘'라는 프롬프트(Prompt)만 제시했을 때에도 GPT-3는 관련된 태스크를 꽤나 잘 수행해 냅니다.

Zero Shot Learning의 예시(출처 : Prompt Engineering Guide)

다음으로 One Shot Learning과 Few Shot Learning입니다. One Shot 혹은 Few Shot은 모델에게 우선 문제에 대해 설명해 주고, 한 개 혹은 여러 개의 예시를 추가로 제공해 주는 방법입니다. 예를 들어 위의 프롬프트(Prompt)에 더해 아래와 같이 해당 태스크의 몇 가지 예시를 추가해 주는 것입니다. 위의 그래프에서 확인할 수 있듯이 Zero Shot 보다는 One Shot이 성능이 좋고 One Shot 보다는 Few Shot이 성능이 좋습니다. 그러나 예시의 숫자가 많을수록 성능이 비례해서 계속해서 좋아지는 것은 아닙니다.

Few Shot Learning의 예시(출처 : Prompt Engineering Guide)

2. GPT-3의 한계점

GPT-3는 그 뛰어난 성능에도 불구하고 여러 논란의 대상이 되었습니다. 모델이 편향된 정보나 잘못된 답변을 생성해 낸 것이지요. 이러한 문제는 모델의 학습 데이터와 관련이 있으며 챗GPT가 등장한 현재에도 언어모델은 데이터에 의한 편향성에도 자유로울 수 없다는 한계점이 있습니다.

그 외에도 논문에서는 토큰 예측 학습 방법에 대한 한계점을 언급하고 있습니다. GPT 시리즈 모델은 BERT와는 다르게 AR(Autoregressive) 방식으로 다음 토큰을 예측하며 모델이 학습합니다. 이때 모든 토큰에 동일한 가중치가 부여되는데, 이는 잘못된 방식일 수 있습니다. Transformer의 핵심인 Attention Mechanism에서 살펴보았듯 자주 출현하는 단어에 더 큰 가중치를 주는 것이 언어의 현실을 더욱 잘 반영하고, 모델의 성능 개선에도 도움이 됩니다. 이는 딥러닝 연구에 다양한 Attention 메커니즘들이 제시되고 발전되는 계기가 됩니다.

다음으로는 실제 현실을 반영하는 콘텍스트 부족 문제에 대해 언급하고 있습니다. 논문에서는 GPT-3는 인터넷상의 언어를 학습했기 때문에 물리적인 실세 세상을 이해하기 위한 문맥(Context)이 부족하다며 문제를 제기합니다. GPT-3은 일견 인간의 언어를 모방하는 능력이 있는 것처럼 느껴지지만 이는 인간의 언어 능력을 모방하는 것일 뿐 실제 세상과는 거리가 있습니다. GPT-4를 비롯한 다양한 언어모델이 출시되고 있는 요즘도 이러한 문제는 완벽히 해결되지 않았습니다.

연구진은 GPT-3이 실제 세계와 관련된 문제를 반영을 못하는 문제에 대한 해결 방안으로 사람에 의한 강화학습(RLHF, Reinforcement Learning from Human Feedback)이라는 해결책을 제시합니다. 실제로 RLHF는 GPT-3.5에 적용됩니다. 인간의 피드백에 의한 강화학습을 사용하여 챗GPT는 더욱 사람과 유사해졌습니다. 다음시간에는 GPT-3.5에 적용된 기술들에 대해 자세히 살펴보도록 하겠습니다.

3. GPT-3이 가지는 의의

GPT-3는 특정 작업을 위한 별도의 미세조정(fine-tuning) 없이도 예제를 몇 가지 제공하는 In-context learning을 활용하는 것만으로도 원하는 작업을 수행할 수 있는 수준으로 발전하였습니다. 이를 통해 GPT-3은 특정 작업뿐만 아니라 다양한 작업에 유연하게 대응할 수 있는 능력을 보여주었습니다. 어쩌면 GPT-3은 초거대언어모델(LLM)이라는 말이 어울리는 최초의 언어모델 일지도 모릅니다.

그러나 한 편 그 크기와 복잡성 때문에 GPT-3을 학습하거나 실행하는 것은 상당한 컴퓨팅 자원을 필요로 합니다. GPT-3의 출현은 자연어 처리의 가능성을 넓히는 동시에 초거대언어모델(LLM)의 편향성과 관련된 문제도 수면 위로 올라오게 하는 계기가 되기도 하였지요. 다음 시간에는 사람에 의한 강화학습(RLHF, Reinforcement Learning from Human Feedback)으로 사람보다 더욱 사람 같은 인공지능 탄생의 시작을 알린 GPT-3.5(챗GPT의 기초모델)에 대해 알아보도록 하겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari