전문 지식은 필요 없지만, AI를 '어느 정도' 이해하고 싶은 당신께
LLM이 어느 정도 자연어로 답변을 할 수 있도록 만들었으니, 이제는 좀 더 섬세하게 다듬을 차례입니다. 인간이 사용하는 AI 모델인 만큼, 인간이 직접 알려주는 게 가장 효과적이겠지요? 오늘은 더욱 섬세하고 인간적인 반응을 보이도록 훈련하는 과정인 RLHF(Reinforcement Learning from Human Feedback)에 대해 알아보겠습니다.
RLHF는 Reinforcement Learning from Human Feedback의 약자로, '인간의 피드백을 이용한 강화학습'을 의미합니다. 간단하게 말하면, 사람이 마음에 드는 답변을 하면 상을 받고, 그 반대 경우에는 벌을 받는 학습 과정입니다.
전통적인 강화학습(Reinforcement Learning)은 보통 명확한 목표와 보상을 줄 수 있는 환경에서 사용되는데요. '좋은 답변'이 무엇인지, AI가 알 수 있을까요? 이를 명확하게 하기 위해 인간의 판단(피드백)을 통해 좋고 나쁜 답변의 기준을 학습하게 만드는 방식이 바로 RLHF입니다.
AI가 결론적으로 스스로 좋은 답변과 나쁜 답변을 판단할 수 있도록 하려면, 인간이 먼저 '지도'를 해야 합니다. 따라서 RLHF의 첫 단계는 사람이 작성한 질문–답변 세트를 사용하여 LLM을 처음 파인튜닝하는 과정입니다. 기초적인 대화 능력을 모델이 익히도록 하는 목적인데요. 아래와 같은 간단한 질문-답변 세트면 충분합니다.
사용자: 바다에 사는 포유류는 뭐가 있어?
모델: 고래, 돌고래, 바다표범 등이 있어요!
이런 '정답'을 기준 삼아 모델은 학습할 수 있습니다.
인간이 어떤 답변을 선호하는지 알기 위해서는 비교를 해봐야겠지요? 2단계에서는 하나의 질문에 대해 답변을 2개 이상 생성하도록 시킵니다. 이후, 사람이 생성된 답변들을 보고 어떤 답변이 더 나은지 순위를 매기지요.
예시:
질문: 강아지는 왜 사람을 따라다닐까?
답변1: 강아지는 감정이 풍부하고, 사람에게 애착을 느끼기 때문이죠!
답변2: 간식 얻어먹으려고요.
→ 사람 평가자: 답변1 > 답변2
이렇게 선호도에 따라 순위가 매겨진 데이터를 바탕으로, AI는 '사람이 선호할 만한 답변의 패턴'이 무엇인지 알아가게 되는데요. 이렇게 사람의 선호를 학습하는 별도의 AI를 보상 모델(Reward Model)이라고 부릅니다. 보상 모델은 인간이 선택한 순위를 바탕으로 학습되어, 이후에는 답변을 제공하는 LLM의 답변을 스스로 평가하고 점수를 매길 수 있게 됩니다. 쉽게 말해, 인간 선호도에 대한 공부를 마친 후에 '이 답변은 얼마나 사람 취향에 맞을까?'를 판단하는 자동 심사위원 역할을 하게 되는 것이지요.
단, 보상 모델은 학습용 평가자입니다. 실제로 우리가 챗GPT에 질문을 던질 때마다 뒤에서 보상 모델이 '이 답변은 92점!' 하고 점수를 매기고 있는 건 아닙니다. 이미 그런 과정을 거쳐 훈련된 결과가 우리 앞에 나오는 것뿐이지요.
사람이 답변을 할 LLM도, 심사를 할 보상 모델도 열심히 지도해 주었으니, 이제 AI끼리 학습할 차례입니다. 이때 LLM은 답변을 생성하고, 보상 모델이 점수를 줍니다. 이런 식으로 보상에 따라 정책을 조정해 가는 과정을 강화학습(Reinforcement Learning)이라고 하는데요. AI끼리 피드백을 주고받으며 훈련하는 구조라고 볼 수 있습니다.
이 과정에서 자주 쓰이는 알고리즘*이 바로 PPO(Proximal Policy Optimization)입니다.
*알고리즘: AI가 상황에 따라 어떤 선택을 할지를 결정해 주는 일종의 규칙 모음
가까운(proximal), 정책(policy), 최적화(optimization)이라는 이름에서 유추할 수 있듯이, PPO는 기존 정책에서 크게 벗어나지 않는 가까운 범위 안에서 모델의 답변을 안전하게 업데이트하는 기법입니다. RLHF의 마지막 단계에서 사용되며, 답변 스타일을 조정해 주는 역할을 합니다.
RLHF의 핵심은 'AI가 인간의 피드백을 받아 점점 더 나은 답변을 할 수 있도록 학습시키는 것'입니다. 이를 위해 모델은 피드백에서 얻은 보상을 기준으로 답변 방식을 조금씩 조정해 나가야 하지요.
러닝머신 속도를 조금씩 올려야 실력이 늘지, 갑자기 속도를 크게 높여버리면 뛸 수가 없거나 다칠 수 있겠지요? AI도 똑같습니다. 모델을 너무 과도하게 조정하면 원래 모델이 망가질 수도 있습니다. 그렇다고 너무 약하게 조정하면 아무 변화가 없을 수 있지요. PPO는 이 문제를 해결해 주는 '잔소리 서비스'라고 볼 수 있습니다. 모델이 기존에 잘하던 점은 크게 훼손하지 않으면서, 수정이 필요한 부분만 조금씩 조정하지요.
러닝머신 예시로 돌아간다면, PPO는 마구잡이로 뛰는 LLM을 보고:
'그렇게 뛰는 거 좋은데, 실력을 높이려면 고개를 너무 치켜들면 안 돼'
'보폭을 조금만 줄여 봐'
(위)와 같은 코칭을 통해 모델을 조금씩 교정해 줍니다. '한 번에 싹 다 고쳐야겠어!'가 아니라. '지금 잘하니까, 그 범위 안에서 조금만 더 나아지자'는 접근이지요.
RLHF는 현대 LLM, 특히나 챗GPT 같은 챗봇형 AI가 호감형으로 느껴지도록 만드는 데 핵심 역할을 합니다. 단순히 성능을 올리는 기술이 아니라, AI가 인간의 기대와 기준에 맞게 행동하게 만드는 중요한 방법론이지요. 좀 더 살펴볼까요?
GPT와 같은 언어 모델은 수많은 텍스트 데이터를 학습해 ‘다음에 올 말’을 예측하는 방식으로 답변을 생성한다고 했지요? 이때는 단순히 통계적으로 그럴듯한 문장을 만드는 것이 목표입니다. 하지만 사람과의 대화에서는 '논리적이면서도 예의 바르고, 확신하지만 너무 단정 짓지도 않는' 식의 복합적인 기대가 있습니다. LLM은 이런 '사회적 기준'이나 '사람이 좋아할 표현 방식'을 알 수 없기 때문에 RLHF를 통한 추가 학습이 필요합니다.
오픈AI에 의하면, 지난 1년 간 챗GPT에게 개인적인 조언을 구한 이용자가 눈에 띄게 증가했다고 합니다.
이제 AI는 검색 도구로 넘어 비서, 조언자, 친구처럼 사용되고 있는데요. RLHF는 AI가 이런 역할을 감당할 수 있도록 신중하고 부드러운 방향으로 대꾸하도록 유도할 수 있습니다.
RLHF는 인간 평가자가 비윤리적이거나 차별적인 답변에 낮은 점수를 주는 방식으로 훈련되는데요. 이를 통해 LLM이 사회적으로 수용되지 않는 발화를 줄이고, 보다 책임 있는 언어 사용을 하도록 유도할 수 있습니다. 또한, '난 절대 틀리지 않아'와 같은 위험한 발화를 줄이거나, 불확실한 정보에 대해 '모른다'라고 말하는 능력도 RLHF를 통해 길러지지요.
기존의 지도 학습(Supervised Learning)은 정답 데이터를 주고 학습하는 방식인데요. 인간이 모든 상황에 대해 ‘정답’을 미리 만들어 둘 수는 없겠지요? RLHF는 정답 대신 선호도 순위를 제공함으로써, AI가 스스로 더 나은 답변 방향을 탐색하게 만듭니다. 챗봇형 AI 모델들이 '사람처럼' 말하는 데 큰 기여를 한 방식입니다.
약간의 방식이나 사용한 데이터 차이는 있겠지만, 우리가 익숙한 오픈AI의 챗GPT, 앤트로픽의 클로드, 메타의 라마 등도 유사한 RLHF를 사용했습니다. 그렇다면 이런 모델들의 성능은 어떻게 비교할 수 있을까요?
다음 편에서는 AI 모델의 성능을 측정하는 '시험 문제'라고 볼 수 있는 벤치마크에 알아보겠습니다. 전문적인 지식까지는 아니어도, AI를 어느 정도 이해하고 싶으시다면 다음 주 글도 기대해 주세요!
먀. AI 뉴스레터를 구독하시면 매주 재밌는 AI 이야기를 받아보실 수 있어요!