아래 이미지에서 보시는 대로 챗GPT는 GPT-3.5를 기반으로 만들어졌고, GPT-3.5는 다시 GPT-3을 바탕으로 두고 있습니다. 즉, GPT-3이 점진적으로 발전한 결과가 지금의 챗GPT라고 할 수 있습니다. 먼저 GPT-3은 방대한 데이터를 사용하여 훈련되었는데 이 과정을 사전 훈련Pre-training이라고 부르고요. 이 과정을 거친 모델이 사전 훈련된 모델입니다. 여기서 사전Pre이라는 접두사가 붙은 이유는 이 모델을 그대로 사용자에게 제공하지 않고 튜닝을 통해 사용자 친화적인 모델로 업그레이드하기 때문입니다.
특히 챗GPT를 만들기 위해 GPT-3.5를 튜닝하는 과정에서 인간 피드백 기반 강화 학습RLHF, Reinforcement learning from human feedback이 적용되었는데요. 이러한 학습을 거치는 이유는 LLM의 목표는 ‘인간의' 응답, 행동, 그리고 의사 결정을 모방하는 것이기 때문입니다. 그래서 LLM 사용자가 사람과 대화하는 것처럼 느낄 수 있도록 인간의 관점을 기준으로 적절하고 자연스러운 응답을 생성했을 때 보상을 주는 방식으로 모델의 발전을 돕는 것이지요. 이러한 이유로 동일한 질문을 GPT-3, GPT-3.5, 챗GPT에 했을 때 가장 인간처럼 답변하는 모델이 챗GPT인 이유는 챗GPT가 RLHF를 거치면서 이전 모델보다 더 세밀하게 튜닝되었기 때문이지요.
출처 : Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K., Gutierrez, L., Tan, T.F. and Ting, D.S.W., 2023. Large language models in medicine. Nature medicine, 29(8), pp.1930-1940.