인간 피드백 기반 강화학습(RLHF) 이해하기
2017년 딥마인드와 오픈AI 연구진이 제시한 인간 피드백 기반 강화학습, 이른바 RLHF는 인공지능 학습 방식의 방향을 근본적으로 전환한 개념입니다. 기존 강화학습이 환경에 의해 명시적으로 정의된 보상함수를 최대화하는 구조였다면, RLHF는 인간이 무엇을 더 선호하는지를 직접 학습 대상으로 삼는 방식입니다. 즉, 무엇이 정답인가를 수식으로 정의하는 대신 “어떤 결과가 더 낫다고 느껴지는가?”를 인간의 판단을 통해 모델이 스스로 학습하도록 설계된 접근입니다. 이는 특히 언어, 대화, 창작, 판단처럼 정량화하기 어려운 영역에서 기존 강화학습이 가진 한계를 보완하기 위해 등장한 개념입니다.
이 개념은 2017년 DeepMind와 OpenAI 연구진이 발표한 인간 선호 기반 강화학습 연구에서 본격적으로 제시되었습니다. 연구진은 에이전트가 수행한 두 개의 행동 결과를 인간에게 제시하고, 어느 쪽이 더 나은지를 선택하게 하는 방식으로 데이터를 수집했습니다. 이 비교 결과를 기반으로 보상 모델을 학습시키고, 그 보상 모델을 다시 강화학습의 보상함수로 사용해 정책을 최적화하는 구조입니다. 이 과정에서 중요한 점은 인간이 모든 행동에 대해 점수를 매길 필요가 없다는 점입니다. 단순한 비교 판단만으로도 충분히 유의미한 보상 신호를 학습할 수 있다는 점이 입증되었고, 짧은 시간의 비전문가 피드백만으로도 복잡한 행동을 학습시킬 수 있다는 실험 결과는 큰 주목을 받았습니다. 이는 보상함수를 사람이 직접 설계해야 했던 기존 강화학습의 구조적 부담을 크게 낮춘 전환점이었습니다.
https://deepmind.google/blog/learning-through-human-feedback/
이후 RLHF는 대규모 언어 모델의 정렬 문제를 해결하는 핵심 기법으로 자리 잡았습니다. 사전 학습된 언어 모델은 방대한 텍스트를 학습하지만, 그 자체로는 인간에게 도움이 되는 답변을 안정적으로 생성하지 못합니다. RLHF는 모델이 생성한 여러 응답 중 인간이 더 바람직하다고 판단한 응답을 기반으로 보상 모델을 학습시키고, 이를 통해 언어 모델이 인간의 기대에 가까운 방향으로 답변하도록 유도합니다. 이 방식은 대화의 자연스러움, 도움 정도, 안전성, 사회적 규범 준수와 같은 요소를 동시에 반영할 수 있다는 점에서 기존 지도학습이나 규칙 기반 필터보다 훨씬 유연한 정렬 수단으로 작동합니다. 실제로 ChatGPT와 같은 대화형 AI 서비스는 이 구조를 통해 사용자에게 더 일관되고 신뢰 가능한 응답을 제공할 수 있게 되었습니다.
RLHF의 확산은 단순히 성능 향상에 그치지 않고, 인공지능 개발의 책임성과 방향성에 대한 논의를 촉진했습니다. 인간의 판단이 학습 루프에 직접 개입함으로써, AI가 사회적 맥락과 가치 판단을 어느 정도 반영할 수 있게 되었기 때문입니다. 동시에 이는 인간 피드백의 품질, 편향, 비용이라는 새로운 문제를 드러내기도 했습니다. 피드백을 제공하는 사람이 누구인가에 따라 보상 모델이 달라질 수 있고, 대규모 모델을 학습시키기 위해 필요한 인간 평가 비용 또한 무시할 수 없는 수준으로 증가했습니다. 이로 인해 RLHF가 과연 장기적으로 확장 가능한 방식인가에 대한 질문도 함께 제기되었습니다.
최근에는 이러한 한계를 보완하기 위한 다음 단계의 논의가 활발히 진행되고 있습니다. 대표적으로는 보상 모델과 정책을 분리하지 않고 동시에 최적화하려는 시도, 소수의 고품질 인간 피드백을 기반으로 더 많은 자동 피드백을 생성하는 방식, 그리고 인간 피드백을 완전히 대체하지 않으면서도 비용을 줄이기 위한 AI나 규칙 기반 자기평가 기법 등이 논의되고 있습니다. 또한 단일한 인간 선호가 아니라 서로 다른 가치와 판단이 공존하는 상황에서, 이를 어떻게 안정적으로 통합할 것인가 역시 중요한 연구 주제로 부상하고 있습니다. 이는 기술적 문제를 넘어, 인공지능이 어떤 사회적 기준 위에서 작동해야 하는가라는 질문과도 맞닿아 있습니다.
결국 2017년 제시된 RLHF는 하나의 학습 기법을 넘어, 인공지능을 인간 사회에 어떻게 정렬시킬 것인가라는 문제에 대한 실질적인 해답을 제시한 출발점이었습니다. 인간의 판단을 수식이 아닌 데이터로 받아들이는 이 접근은 이후 생성형 AI 시대의 핵심 인프라로 자리 잡았으며, 지금도 그 확장과 한계를 둘러싼 논의는 계속되고 있습니다. RLHF 이후의 방향성은 단순히 더 똑똑한 AI가 아니라, 더 인간의 맥락을 이해하고 책임 있게 작동하는 AI를 어떻게 구현할 것인가에 대한 고민으로 이어지고 있습니다.