효율의 승리, 가능성의 패배

정답에 집착하는 동안 잃은 것들

by HoA

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

By Yang Yue et al.


이 논문은 AI, 그 중 강화학습이 우리에게 준 기여와 앗아간 가치에 대해 다루고 있다.


강화학습은 오랫동안 진보의 상징이었다. 알파고가 인간 최고수를 꺾었을 때, 우리는 기계가 스스로 사고하고 진화할 수 있다는 환상을 보았다. 특히 보상이 명확한 환경에서, 강화학습은 인간이 설계하지 않은 전략을 발견해 내며 “창발적 지능”의 증거처럼 여겨졌다. 이 성공의 서사는 대규모 언어모델(LLM)로 자연스럽게 확장되었다.

정답을 맞히면 보상을 주는 강화학습(RLVR)을 통해, 모델은 더 깊이 사고하고 더 멀리 나아갈 것이라 기대했다.

그러나 최근 연구는 이 믿음에 조용하지만 치명적인 균열을 냈다. 강화학습은 모델을 더 똑똑하게 만들지 않았고, 오히려 이미 가지고 있던 추론의 지평을 좁히고 있었다.


표면적으로 강화학습은 성공적으로 보인다. 단 한 번의 시도로 정답을 맞혀야 하는 원샷원킬의 상황에서, 강화학습된 모델은 분명히 더 뛰어나다. 빠르고 정확하다. 하지만 여러 번 시도할 수 있는 상황, 즉 모델의 잠재력을 묻는 질문에서는 결과가 뒤집힌다. 충분한 탐색이 허용되자, 훈련 이전의 기반 모델이 오히려 더 많은 문제를 해결한다. 이는 단순한 성능 역전이 아니다. 모델이 접근할 수 있는 해결 경로의 총량, 즉 ‘사고의 영역’이 줄어들었음을 의미한다.


강화학습은 새로운 추론을 만들어내는 것에 미숙하다. 대신, 원래 가능했던 여러 사고 경로 중 일부를 집중적으로 강화한다. 정답일 확률이 높은 경로, 보상을 받았던 경로만을 남기고 나머지를 희석시킨다. 그 결과 평균 성능은 오른다. 하지만 “어쩌면 풀 수 있었을지도 모를 문제들”은 조용히 사라진다. 논문이 보여주듯, 강화학습 모델의 모든 추론은 이미 기반 모델의 분포 안에 있었다. 낯선 사고는 없었고, 새로 배운 세계도 없었다. 그저 선택의 폭이 줄어든 세계만 남았다.


이 지점에서 이 연구는 AI에 대한 논문을 넘어, 우리 사회 전체에 대한 은유가 된다.

우리는 오래전부터 같은 선택을 반복해 왔다.

고성능 신용평가 모델은 연체를 줄였지만, 금융의 포용성을 서서히 줄였다.

고효율 마케팅 타게팅은 전환율을 높였지만, 고객의 저변은 점점 좁아졌다.

정답을 잘 맞히는 데 취해 조직은 단기 성과를 내는 듯 보였지만, 그사이 낯선 기회를 감지하는 감각을 잃었다.


모든 곳에서 동일한 논리가 작동한다. 효율은 보상되고, 탐색은 벌을 받는다.

실패 가능성이 있는 시도는 제거되고, 검증된 경로가 반복된다. 그 결과 우리는 “잘하는 것”에는 집착하지만, “다르게 해 볼 수 있는 능력”은 체계적으로 잃었다.


강화학습된 AI가 겪는 문제는 인간 조직이 이미 오래전부터 겪어온 문제다. 우리는 성과 지표를 최적화하면서, 그 지표가 포착하지 못하는 가치들을 소거해 왔다. 유연성, 개방성, 연결성, 확장성. 처음에는 미세한 손실이지만, 시간이 지날수록 회복 불가능한 차이가 된다. 논문에서 관찰된 것처럼, 훈련을 거듭할수록 평균 성능은 오르지만 잠재력은 줄어든다. 이는 AI만의 이야기가 아니다. 전문화의 대가는 언제나 가능성의 축소다.


흥미로운 것은, 이 연구가 희망의 단서도 함께 제시한다는 점이다. 강화학습이 아니라 증류(distillation)에서 진정한 확장이 나타났다는 사실이다. 더 강력한 교사 모델의 추론 과정을 학습했을 때, 학생 모델은 기존에 없던 사고 패턴을 획득했다. 이는 내부 최적화만으로는 새로운 세계에 도달할 수 없음을 시사한다. 새로운 관점은, 언제나 외부에서 들어온다.

여기서 우리는 하나의 소중한 진실을 발견한다.

진화는 보상 함수의 결과가 아니라, 상호작용의 산물이라는 점이다.


강화학습은 닫힌 세계에서의 최적화다. 규칙은 고정되어 있고, 보상은 이미 정의되어 있다. 그 안에서 에이전트는 더 빨리, 더 정확하게 움직일 뿐이다. 하지만 진정한 확장은, 다른 지능과의 마찰, 예측 불가능한 대화, 다회차의 상호작용 속에서 일어난다. 인간 역시 그렇다. 우리는 혼자서 깊어질 수는 있어도, 혼자서 넓어지지는 못한다.


이 연구가 던지는 가장 불편한 질문은 이것이다.

“우리는 정말로 더 똑똑해지고 있는가, 아니면 단지 더 효율적으로 좁아지고 있는가?”


AI의 배신은 결코 갑작스러운 것이 아니다. 그것은 우리가 설정한 보상 함수의 정직한 결과다. 효율을 최고의 가치로 삼는 순간, 가능성은 비용이 된다. 그리고 비용은 언제나 제거된다. 지금 AI에서 벌어지고 있는 일은, 우리가 이미 인간 사회에서 선택해 온 길의 반영일지도 모른다.


이 사실을 알게 된 지금 우리는 질문을 바꿔야 한다.

정답을 더 잘 맞히는 방법이 아니라, 잃어버린 가능성을 어떻게 다시 회복할 것인가에 대한 질문이 필요하다.

AI에게도, 그리고 우리 자신에게도.

우리는 그동안 무엇을 잃었는가...

keyword