brunch

강화학습이 창의력을 억제한다?

RLVR이 대형 언어 모델에 미치는 영향

by AI러 이채문

강화학습의 한계와 창의성



강화학습(Reinforcement Learning, RL)은 인공지능(AI) 모델이 특정 행동을 수행할 때 보상을 통해 학습하도록 하는 기술입니다. 그러나 최근 연구는 이러한 훈련 방식이 창의적인 사고를 유도하지 못하고, 오히려 기존의 학습된 경로를 더 빠르고 정확하게 탐색하는 데 초점을 맞춘다는 결론을 내놓고 있습니다.


2025년 5월 1일, 중국 칭화대와 상하이교통대 연구진은 RL의 새로운 변형 방식인 RLVR(Verified Reward)이 창의적 추론을 저해할 수 있다는 연구 결과를 발표했습니다. 연구진은 RLVR이 기본 모델의 성과를 향상시키기는 하지만, 정답이 이미 모델 내부에 학습된 경우에만 효과적이며, 새로운 문제를 해결하는 데에는 큰 기여를 하지 못한다고 주장합니다.


이러한 연구 결과는 AI의 창의성에 대한 근본적인 의문을 제기합니다. RL이 기존의 패턴을 반복하고 최적화하는 데 집중하는 한, 인공지능이 인간처럼 창의적 사고를 할 수 있을지는 여전히 미지수입니다.


img.jpg



RLVR의 기술적 분석과 창의성 저해 요인



강화학습의 메커니즘과 RLVR의 차별성

강화학습은 주어진 환경에서 에이전트가 보상을 최대화하기 위해 최적의 행동을 학습하는 과정입니다. 이 과정에서 에이전트는 다양한 상태에서 다양한 행동을 시도하며, 특정 행동이 보상을 얻을 때마다 해당 경로가 강화됩니다.


RLVR(Verified Reward)은 기존 RL의 보상 체계를 더 엄격하게 검증하는 방식입니다. 예를 들어, 수학 문제를 풀거나 코드 오류를 수정하는 과정에서 RLVR은 정답이 명확히 존재하는 문제에 한해 보상을 제공합니다.
이러한 접근 방식은 모델이 학습된 답을 빠르게 도출하도록 유도하지만, 정답이 미리 정의되지 않은 창의적인 문제에서는 오히려 다양한 경로 탐색을 제한할 수 있습니다.


RLVR의 문제점:

경로 편향(Bias Toward Known Paths): 모델이 이미 학습한 경로를 반복적으로 탐색하는 과정에서, 새로운 경로를 발견하거나 창의적인 사고를 시도할 가능성이 줄어듭니다.

보상 기반 학습의 한계: 정답이 명확하지 않거나 다양한 접근 방식을 요구하는 문제에서는, 보상이 주어지지 않는 경로가 무시됩니다.


사례 분석: RLVR과 기본 모델의 성과 비교

연구진은 RLVR 모델과 기본 모델을 비교하는 실험을 통해, 두 모델의 성과 차이를 분석했습니다.

실험 환경: 수학 문제, 코드 오류 수정, 시각적 추론 문제를 포함한 다양한 문제군에서 테스트가 이루어졌습니다.

결과 분석: RLVR 모델은 정답이 명확한 문제에서 더 빠른 시간 내에 정답을 도출했습니다. 반면, 정답이 미리 학습되지 않은 문제나 새로운 유형의 문제에서는 기본 모델이 더 높은 성과를 보였습니다.


이 실험 결과는 RLVR이 정답 후보군의 범위를 좁히는 과정에서 창의적인 경로를 배제할 가능성이 높다는 점을 시사합니다.


RLVR이 창의성에 미치는 영향

RLVR은 기본 모델이 학습한 정답 경로를 더욱 정밀하게 강화하는 과정에서 창의적인 사고 경로를 배제할 가능성이 높습니다.

탐색 트리(Exploration Tree) 분석: RLVR 모델은 정답 경로를 명확히 인지하고 보상 경로를 따라가지만, 보상이 없는 경로는 무시하는 경향이 있습니다. 반면, 기본 모델은 보상이 없는 경로에서도 새로운 답을 찾으려는 경향이 강합니다. 이는 창의적인 문제 해결이 필요한 상황에서 기본 모델이 RLVR 모델보다 더 유리할 수 있음을 의미합니다.



AI 모델의 창의성, 강화학습의 한계를 넘어서



결국, RLVR이 창의적 사고를 저해하는 요인은 모델이 이미 학습한 경로만을 반복적으로 탐색하게 만드는 구조적 문제에 기인합니다. RLVR이 정답 경로를 더욱 빠르게 찾도록 도와주는 데는 성공적이지만, 새로운 문제를 창의적으로 해결하는 데에는 오히려 장애가 될 수 있습니다.


강화학습이 AI 모델의 효율성과 신뢰성을 높이는 데는 탁월한 방법이지만, 창의적인 사고를 촉발하기 위해서는 기존 경로를 넘어서는 탐색이 필요합니다.


이러한 맥락에서, 오픈AI나 구글 등 대형 AI 연구소는 RLVR을 보완할 수 있는 창의성 기반 학습 방법론을 적극적으로 연구하고 있으며, 이는 추후 AI의 진정한 창의성을 이끌어내는 핵심 과제로 자리 잡을 것입니다.

keyword
매거진의 이전글오픈AI 챗GPT ‘아첨’ 논란