RLVR vs SFT

‘Off-Principal’ vs ‘On-Principal’의 두 세계

Nov 22. 2025

최근 AI 연구에서 뜨거운 주제인 대형 언어 모델(LLM)의 미세 조정 방법 중, 강화 학습 기반의 RLVR(Reinforcement Learning with Verifiable Rewards)과 전통적인 지도 미세 조정(SFT)은 완전히 다른 학습 경로를 걷습니다. RLVR은 수학·코딩 같은 복잡한 추론 능력을 강화하면서도 모델의 매개변수 변화를 최소화하는 듯 보이지만, 이는 착시입니다. 실제로는 모델 고유의 ‘최적화 바이어스’가 작용하죠. 이 논문 “The Path Not Taken: RLVR Provably Learns Off the Principals”에서 제안된 세 개의 문 이론으로 이 차이를 설명하며, 두 방법이 어떻게 근본적으로 다른 길을 선택하는지 간단히 살펴볼게요. 이 이론은 RLVR의 업데이트를 세 단계(1. KL Anchor, 2. Model Geometry, 3. Precision)로 분해해, 왜 RLVR이 ‘취하지 않은 길’을 가는지 밝힙니다.

스펙트럼의 안정성: 모델의 ‘뼈대’를 건드리는가?

LLM의 내부 매개변수 구조를 스펙트럼(특이값 구조)이라고 부르는 모델의 핵심 ‘뼈대’로 비유할 수 있습니다. 이는 모델이 세상을 이해하는 가장 근본적인 방식으로, 학습 중 이 뼈대가 어떻게 변하는지가 두 방법의 차이를 드러냅니다. 논문의 실험(Qwen 모델 체크포인트 분석)에서 RLVR은 스펙트럼을 거의 왜곡하지 않지만, SFT는 크게 변화시킵니다.

SFT: 핵심 구조 재구성 – ‘산등성이’ 오르기

SFT는 외부의 강력한 정답 라벨(선생님의 지시)에 따라 직선적 업데이트를 합니다. 이 과정에서 모델의 스펙트럼을 왜곡하고 주요 서브스페이스를 회전시켜, 기존 지식 구조 자체를 과감하게 재구성합니다. 결과적으로 모델은 특정 작업에 최적화되지만, 원래 ‘뼈대’가 크게 변형될 수 있죠.

RLVR: 뼈대 유지, 기술 덧입히기 – ‘골짜기’ 따라가기

RLVR은 첫 번째 문인 KL Anchor로 인해 매 스텝마다 KL 발산을 제한합니다. 이는 “현재 정책에서 너무 멀리 가지 마!“라는 안전벨트로, 업데이트를 작고 안정적으로 유지합니다. 두 번째 문인 Model Geometry에서 미리 훈련된 모델의 기하학이 저곡률 방향(부드러운 변화)으로 업데이트를 유도해, 스펙트럼을 보존하는 서브스페이스로 이끕니다. 즉, 모델의 ‘뼈대’는 거의 그대로 두고, 새로운 추론 능력을 조용히 덧입힙니다.

이 차이는 RLVR이 에이전트(AgentFlow)나 RLHF(인간 피드백)에서도 유지되며, 모델의 기하학을 ‘스크램블’하면 바이어스가 사라지는 실험으로 확인됩니다.

Principal Weights 피하기: 주요 지식에 초점을 맞추는가?

Principal Weights는 모델의 전체 기능에 가장 큰 영향을 미치는 핵심 매개변수로, ‘가장 중요한 지식 저장소’입니다. 논문에서 RLVR 업데이트는 이 부분과 겹침이 랜덤 이하로 낮지만, SFT는 적극 타겟팅합니다. 이는 RLVR의 ‘off-principal’ 특성을 보여줍니다.

SFT: ‘On-Principal’ 학습 – 중요한 방 직접 타겟팅

SFT는 Principal Weights를 초점으로 업데이트합니다. 이는 모델이 핵심 지식 영역에 깊게 개입해 특정 작업(예: 새로운 언어 능력)에 맞게 재조정한다는 뜻입니다. 하지만 이 과정에서 고곡률 방향으로 가며 스펙트럼을 왜곡할 위험이 큽니다.

RLVR: ‘Off-Principal’ 학습 – 조용한 우회로 탐색

RLVR은 Principal Weights를 의도적으로 피합니다. 두 번째 문인 Model Geometry에서 미리 훈련된 모델의 구조화된 풍경이 고곡률 ‘고영향 지대’ 대신 저곡률 ‘쉬운 골짜기’를 따라 업데이트를 안내하기 때문입니다. 세 번째 문인 Precision에서 bfloat16 같은 제한된 정밀도가 미세 업데이트를 ‘숨겨’ 희소성처럼 보이게 하지만, 이는 바이어스의 결과물입니다.

RLVR은 모델의 ’암시적 나침반’에 따라 주요 지식 대신 주변 매개변수를 미세 조정해 보상을 얻습니다. SFT가 ‘고속도로’를 달린다면, RLVR은 ‘숲길’을 개척해 목적지에 도달하는 영리한 탐험가입니다. 이 바이어스는 데이터셋이나 알고리즘(GRPO, DAPO)에 상관없이 모델 고유로, 여러 실험에서 일관되게 나타납니다.

실제 함의: PEFT 전략에 미치는 영향

이 근본 차이는 모델을 효율적으로 미세 조정하는 PEFT 전략에도 큰 영향을 줍니다. SFT 시대의 방법은 RLVR의 ‘off-principal’ 특성과 충돌합니다. 논문의 case study에서 Principal Weights만 업데이트하면 KL drift가 느려지고 정확도가 떨어지며, LoRA 변형은 불안정해 붕괴합니다. 이는 아래의 두 사실을 알려줍니다.

• Principal-targeted 전략 실패: SFT에선 효과적이지만, RLVR에서 Principal Weights 업데이트는 학습 경로를 막아 성능 최악으로 이어집니다. 주요 방향을 강조하면 훈련이 조기 붕괴합니다.

• Non-principal/low-magnitude weights가 핵심: 이 부분 업데이트가 dense RLVR과 유사한 성능을 냅니다.

마무리: 효율적인 학습을 추구하며

이 논문은 RLVR의 “블랙박스”를 열어 “화이트박스”로 만듭니다. 단순히 “희소하다”가 아닌, 왜, 어떻게 매개변수가 변하는지 설명해요. 유익하게: RL 학습을 더 효율적으로 설계할 수 있어요. RLVR을 “모험가”로 보는 시각이 신선하죠.

또한 논문은 RLVR의 기하학적 특성을 인지한 RL-native PEFT 개발을 강조합니다. SFT 시대 트릭은 RLVR의 복잡한 추론 문제에 통하지 않죠. 이 이해로 RL 학습 비용을 줄이고, geometry-aware 알고리즘을 설계할 수 있습니다. AI 연구자라면 논문 필독 추천합니다!

keyword

미미니 직업 회사원

지식 공유가 즐거운 내향형 인간

구독자 81

매거진의 이전글AI가 스스로 진화하는 법을 배우다깊이 쌓는다고 다가 아닌 세상매거진의 다음글