챗GPT(1): 챗GPT가 사용자의 지시를 따르는 원리

GPT-1부터 GPT-3.5까지

Dec 4. 2023

이번에는 세상을 떠들썩하게 만든 대규모 언어 모델(LLM)인 GPT 모델에 대해서 조금 더 자세히 살펴보겠습니다. 특히 챗GPT가 2022년 11월 30일에 출시되었는데, 1년 만에 얼마나 많은 일들이 일어났는지에 대해 알아보겠습니다.

GPT 모델은 OpenAI 사에서 개발되었고, GPT-1(2018년) 이후 GPT-2(2019년), GPT-3(2020년), GPT-3.5(2022년), GPT-4(2023년 3월), 가장 최근에 GPT-4 터보(2023년 11월)까지 출시되어 있습니다. GPT-1, 2, 3의 경우 모델의 구조나, 인터넷에서 수집된 대규모 데이터를 이용해 다음 텍스트를 예측하도록 모델을 학습하는 방식은 모두 동일한데, 단지 모델 파라미터 수와 학습 데이터의 양이 점점 커졌을 뿐입니다. 그리고 현재 챗GPT(무료 버전)에 사용되는 모델은 GPT-3.5입니다. 여기서 한 가지 궁금증이 생깁니다. 세 번째 글에서 대규모 언어 모델은 대규모의 데이터를 미리 학습한 모델이 주어진 텍스트가 있을 때 다음에 올 텍스트를 예측하는 역할을 한다고 했습니다. 그런데 챗GPT는 단순히 다음 텍스트를 예측하는 게 아니라 우리가 프롬프트에 입력한 질문에 대한 답을 생성하고, 지시하는 일에 대한 답변도 척척 생성해 냅니다. 이렇게 챗GPT가 사용자의 지시를 따르는 원리는 무엇일까요? 바로 지시 조정(instruction tuning)과 인간의 피드백을 이용한 강화 학습(Reinforcement Learning from Human Feedback, RLHF) 과정 덕분입니다.

지시 조정(instruction tuning)

지시 조정이란 사용자의 질문 및 지시를 포함한 프롬프트에 대한 적절한 답변으로 구성된 데이터셋을 가지고 사전 학습된 대규모 언어 모델을 미세 조정하는 것을 의미합니다 (특정한 형식으로 결과를 출력하는 데 유용한 미세 조정 방법에 대한 더 자세한 설명은 다섯 번째 글을 참고해 주세요). 이러한 지시 조정 과정을 통해 대규모 언어 모델이 사용자의 의도에 맞는 답변을 생성할 수 있게 됩니다.

인간의 피드백을 이용한 강화 학습(RLHF)

인간의 피드백을 이용한 강화 학습이란 지시 조정을 통해 생성된 답변의 품질을 높이기 위한 방법으로, 사람들이 생성된 답변의 유용성과 안전성에 초점을 맞춘 점수를 매겨서 어떤 답변이 더 좋은지에 대한 피드백을 추가하는 과정입니다. 이러한 답변 생성 + 답변의 품질에 대한 피드백 과정을 통해 모델이 점점 더 높은 점수를 받을 수 있도록 강화되어 더욱 유용하고 안전한 답변을 생성할 수 있는 것입니다.

(참고로, 대규모 언어 모델이 학습 데이터를 기반으로 단순히 다음 텍스트를 예측하는 것(Vanilla 또는 Generic LLM)을 넘어 사용자의 지시에 대한 답변을 예측하도록 학습된 경우, 이를 지시를 따르는 대규모 언어 모델(instruction tuned LLM)이라고 부릅니다.)

챗GPT의 GPT-3.5 모델은 사용자의 의도에 맞는 놀라운 답변 생성 능력으로 세상에 충격을 주었고 단기간에 어마어마한 수의 사용자들이 생기게 한 일등 공신입니다. 한편, 아래 그림에서 볼 수 있듯 챗GPT의 유료 버전인 챗GPT 플러스를 이용하면 GPT-4 (터보) 모델을 사용할 수 있습니다. OpenAI는 일반적인 문제에서 GPT-3.5와 GPT-4의 성능 차이는 크지 않지만, 복잡한 추론이 필요한 문제의 경우 GPT-4의 성능이 훨씬 더 뛰어나다고 안내하고 있습니다. 그렇다면 어떤 개선점들이 있기에 더 좋은 성능을 보이는 것일까요? 다음 글에서는 GPT-4와 GPT-4 터보 모델 및 챗GPT 플러스가 어떻게 GPT-3.5 모델 기반의 챗GPT와 다른지 개선된 점을 중심으로 살펴보겠습니다.