GPT-3.5 해부하기

인간 피드백에 의한 강화학습(RLHF)으로 더욱 똑똑해진 인공지능

by 알바트로스 Mar 31. 2024

GPT-3.5는 2022년 세상을 놀라게 한 그 유명한 챗GPT의 기초모델(foundation model)로, 생성형 AI를 사람들에게 알리게 된 본격적인 계기를 마련했습니다. 2022년 말 챗GPT의 출현을 두고 영국의 일간지 인디펜던트는 '구글은 끝났다(Google is done)'는 제목의 기사를 내기도 했지요. 기존의 검색기반 시대에서 생성형 AI 시대로의 패러다임 전환이 일어나는 시점이 바로 이 GPT-3.5가 세상에 공개되는 시점이지 않았나 싶습니다.

GPT-3.5는 기존의 GPT 시리즈와 마찬가지로 미리 학습된 방대한 양의 텍스트 데이터를 기반으로 지능적으로 작동하며, 텍스트 완성, 번역, 질문 답변과 같은 다양한 태스크에서 높은 성과를 보입니다. 그러나 이것은 그다지 새로울 것은 없는 일입니다. 지난 시간에 살펴보았듯 이미 GPT-3가 생성한 기사는 사람이 쓴 기사와 전혀 구분할 수 없는 수준에 도달했기 때문이지요.

그러나 GPT-3.5는 GPT-3보다 더욱 박학다식하고 사람처럼 자연스럽게 말할 줄 알게 되었습니다. GPT-3보다 거대해진 모델 사이즈 덕분일까요? 아닙니다. GPT-3.5의 매개변수(parameter) 수는 1750억 개로 GPT-3과 동일합니다. 그럼 GPT-3.5는 모델 사이즈를 키우지 않고도 어떻게 GPT-3보다 똑똑해질 수 있었을까요?

그 비결은 바로 인간 피드백에 의한 강화학습(Reinforcement Learning from Human Feedback, RLHF)에 있습니다. 이번 시간에는 GPT-3.5이자 챗GPT의 뼈대가 된 InstructGPT의 작동원리에 대해 다루고 있는 Training language models to follow instructions with human feedback라는 논문을 리뷰하며 GPT-3.5를 해부해 보도록 하겠습니다.

1. GPT-3.5를 통해 해결하고자 했던 문제

인공지능은 우리 인간처럼 현실 세상을 잘 모릅니다. 인공지능을 트레이닝할 때 사용된 데이터는 모두 인터넷 공간에만 존재하기 때문입니다. 이것은 인간처럼 세상을 경험하지 못하는 인공지능의 결정적인 한계일지도 모릅니다. 이를 두고 GPT-3의 연구진은 Language Models are Few-Shot Learners라는 논문에서 실제 현실을 반영하는 문맥(Context)이 부족하다는 문제를 제기했습니다.

GPT-3는 똑똑해 보이지만 실전 경험은 적은 '키보드 워리어' 같은 모습을 보입니다. 인터넷상에 떠도는 정보로만 언어를 학습했기 때문에 물리적인 실제 세상에서 어떤 일이 벌어지는지 잘 모릅니다. 따라서 내놓는 답변마다 무언가 피상적이고 2% 부족하게 느껴집니다. 이처럼 GPT-3은 일견 인간의 언어를 구사하는 능력이 있는 것처럼 느껴지지만 이는 인간의 언어 능력을 모방하는 것일 뿐 실제 세상과는 거리가 있습니다.

이러한 문제를 해결하기 위해서는 직접 인간이 개입해서 현실 세계에 대해 알려주는 것이 가장 효과적입니다. 인간 피드백에 의한 강화학습(Reinforcement Learning from Human Feedback, RLHF)은 인공지능 모델이 생성한 결과물에 대한 인간의 피드백을 통해 모델을 개선하는 방법론으로, GPT-3.5의 학습 과정에서 핵심적인 역할을 합니다. 이전의 GPT 모델들은 대규모 데이터셋을 바탕으로 사전 학습된 후, 추가적인 인간 피드백 없이는 개선되지 않았습니다. 그러나 GPT-3.5는 RLFH를 통해 지속적으로 인간의 피드백을 받아들여 모델의 성능을 향상하는 데 성공합니다.

2. GPT-3.5의 작동원리

출처 : Training language models to follow instructions with human feedback

챗GPT의 기초모델(foundation)인 GPT-3.5를 훈련하는 기법인 인간 피드백에 의한 강화학습(RLHF)은 다량의 데이터를 일괄적으로 학습과는 다르게 매우 복잡한 과정을 거칩니다. RLHF는 Supervised fine-tuning(SFT)를 거쳐 Reward Model(RM) training을 진행하고 마지막으로 Fine-tuning using PPO를 진행하는 총 세 단계로 이루어져 있습니다.

- GPT-3.5의 RLHF를 통한 훈련과정 살펴보기

1. Supervised Fine-tuning (SFT) : GPT-3.5는 먼저 Supervised Fine-tuning (SFT) 단계를 거쳐 학습됩니다. SFT는 GPT-1에서 이미 배운 대로 사전학습(pre-trained)된 모델을 바탕으로 최종적으로 목표하는 작업을 수행하기 위해 특정한 데이터셋으로 사전 학습된 모델을 미세 조정합니다. 모델이 사람이 요구하는 작업에 대해 정확한 답변을 내놓을 수 있도록 돕는 과정입니다.

2. Reward Model (RM) Training: 그다음으로는 Reward Model (RM) Training이 이루어집니다. 이 단계에서는 모델이 생성한 결과물에 대한 인간의 피드백을 평가하고 이를 보상 신호로 활용하여 모델을 개선합니다. 즉, 모델이 원하는 작업을 수행하는 데 있어서 인간의 피드백을 바탕으로 얼마나 좋은 결과물을 내놓았는지를 평가하여 모델을 조정하는 것입니다.

Reward Model(출처 : Klu.ai)

쉽게 말해 RM의 역할은 어떤 작업 지시를 위한 프롬프트(prompt)에 대한 응답(response)을 LLM(large language model)이 내놓았을 때, 그 응답에 대한 reward score(보상 점수)를 예측하는 것입니다. 아래의 화면을 보시면 [2,1,0]과 [2,0,1]이라는 list 형태의 아웃풋을 보실 수 있습니다. 이는 completion_0부터 completion_2까지의 모델은 각각 GPT-3.5, GPT3('text-davinci-003'), GPT3('text-ada-001')이 내놓은 아웃풋을 인간이 평가하여 점수화한 것입니다. GPT-3.5가 text-davici-003 모델과 text-ada-001 모델보다 더 나은 점수를 받았습니다.

출처 : KoChatGPT

3. Fine-tuning using PPO: 마지막으로는 Proximal Policy Optimization (PPO)를 통한 미세조정(Fine-tuning)이 이루어집니다. 이 단계에서는 모델이 생성한 결과물에 대한 피드백을 바탕으로 정책(policy)을 최적화하여 모델을 더욱 개선시킵니다.

PPO는 강화학습 알고리즘 중 하나로, 모델이 더 나은 결과를 얻을 수 있는 정책을 찾아내는 데 활용됩니다. 이 마지막 과정을 거치면서 기존에 SFT를 통해 미세조정(fine-tuning)된 LLM과 RM을 이용하여 적절한 함숫값(cost)으로 LLM을 fine-tuning 합니다.(자세한 수식은 생략하겠습니다.)

PPO를 통한 최적화(https://kyujinpy.tistory.com/79)

3. GPT-3.5의 한계

- 환각현상(Hallucination)

GPT-3.5는 사람처럼 자연스러운 답변과 뛰어난 성능에도 불구하고 환각현상(Hallucination)이라는 치명적인 단점을 가지고 있습니다. 환각현상(Hallucination)은 챗GPT와 같은 생성형 AI 모델이 부적절하거나 허위 정보를 생성하는 현상을 말합니다.

환각현상(출처 : 시사위크)

환각의 예시에는 수학 계산 오류, 맞지 않는 논리에 의한 엉터리 추론, 잘못된 역사적 사실, 물리적 세계에 대한 몰이해를 뿐만 아니라 사회적 가치와 부합하지 않는 편향과 차별적 정보 생성까지 광범위한 영역이 포함됩니다. GPT-3.5는 평균적으로 15~20%의 환각률을 갖는다고 합니다. 이러한 환각현상을 줄이기 위해 나중에 자세히 살펴볼 RAG(Retrieval Augmented Generation) 등 다양한 방법론이 등장합니다.

- 입출력 토큰수(Token)

GPT-3.5는 입력 토큰의 수에 제한이 있습니다. 일반적으로 GPT-3.5 Turbo나 Text-Davinci-003(GPT-3.5와 비슷한 성능을 보이는 모델)의 입력 토큰 수는 약 4097개로 알려져 있으며, 더 긴 텍스트나 문맥을 처리하기 위해서는 입력을 분할하거나 다른 방법을 사용해야 합니다. 이에 비해 GPT-4.0의 경우는 약 32,768개의 토큰 입출력이 가능하다는 점에서 훨씬 향상된 능력을 자랑합니다.

GPT-4.0은 텍스트뿐 아니라 이미지까지 질문과 답변에 포함시킬 수 있다는 점에서 획기적입니다. 또한

GPT-4.0는 인간 수준의 추론 능력을 보여준 것으로도 유명하지요. 오픈 AI에 따르면 GPT-4는 어떤 구체적 훈련 없이도 상위 10% 성적을 냈으며 미 대학수학능력시험(SAT) 읽기 및 쓰기 시험과 수학 시험에서도 성적이 가장 높은 사람을 100으로 할 때 GPT-4는 각각 백분위 93과 89를 기록했다고 합니다. 다음 시간에는 GPT 시리즈의 첫 번째 멀티모달(multi-modal) 모델인 GPT-4.0를 해부해 보도록 하겠습니다.