정답지는 필요 없다, 내가 직접 만들게!
보통 AI를 가르칠 때는 사람이 정성껏 만든 '질문-정답' 세트(SFT 데이터)가 대량으로 필요합니다. 하지만 좋은 데이터를 구하기는 점점 힘들어지고 비용도 많이 들죠. Meta와 UIUC 연구진이 제안한 Dr. Zero는 이 과정을 통째로 AI에게 맡깁니다.
Dr. Zero 시스템 안에는 두 AI가 살고 있습니다.
• 출제자 (Proposer): "이런 것도 알까?" 하며 점점 더 어렵고 복잡한 질문을 만들어냅니다.
• 해결사 (Solver): 출제자가 낸 문제를 인터넷 검색 도구를 활용해 척척 풀어냅니다.
이 둘은 서로를 돕습니다. 해결사가 실력이 좋아지면, 출제자는 더 수준 높은 문제를 내야 합니다. 마치 운동선수가 실력에 맞춰 훈련 강도를 높여가는 '자동 커리큘럼'과 같습니다.
검색 에이전트가 스스로 학습할 때 가장 큰 문제는 '계산 비용'입니다. 여러 단계의 검색을 거쳐야 하니 시간이 너무 많이 걸리죠.
연구진은 이를 해결하기 위해 HRPO라는 새로운 최적화 기법을 도입했습니다. 비슷한 난이도(검색 단계 수)를 가진 질문들을 그룹으로 묶어서 효율적으로 학습시키는 방식인데, 덕분에 훨씬 적은 비용으로도 안정적인 성능 향상이 가능해졌습니다.
보통 AI를 강화학습(RL)으로 가르칠 때는 여러 문제를 한꺼번에 풀게 하고 그 결과에 따라 상(Reward)을 줍니다. 하지만 검색 에이전트의 세계에서는 질문마다 난이도가 천차만별입니다.
• 쉬운 질문: "대한민국의 수도는?" (1단계 검색, 즉 1-Hop으로 끝남)
• 어려운 질문: "2024년 오스카 작품상 수상작의 감독이 태어난 도시의 인구는?" (여러 단계를 거쳐야 함, 즉 Multi-Hop)
기존 방식대로 이들을 한 바구니에 넣고 학습시키면, AI는 "어려운 문제는 노력해도 점수 따기 힘들고, 쉬운 문제는 대충 해도 점수가 잘 나오네?"라고 판단하며 학습 효율이 급격히 떨어지게 됩니다. (이를 전문 용어로 '높은 분산(High Variance)' 문제라고 합니다.)
HRPO는 이 문제를 'Hop(검색 단계)' 기준으로 해결합니다.
1. 그룹화 (Hop-grouping): 질문들을 필요한 검색 단계(Hop) 수에 따라 그룹으로 묶습니다. (1-Hop 그룹, 2-Hop 그룹 등)
2. 상대적 최적화 (Relative Optimization): 같은 그룹 안에서만 서로 비교합니다.
• 어려운 5단계 질문을 풀었을 때는 그 5단계 질문들 사이에서 얼마나 잘했는지를 따져서 보상을 줍니다.
• 이렇게 하면 어려운 문제를 풀 때 발생하는 복잡한 '노이즈'가 쉬운 문제 학습을 방해하지 않습니다.
HRPO는 기존의 PPO(Proximal Policy Optimization) 식을 검색 에이전트에 맞게 변형했습니다. 핵심 아이디어는 보상(Reward)을 줄 때 그 그룹의 평균적인 성과를 기준으로 얼마나 더 잘했는가(Advantage)를 계산하는 것입니다.
핵심은 보상을 절대적인 수치가 아니라, 같은 Hop 수를 가진 그룹 내에서의 상대적 수치로 치환하여 AI가 "아, 이 정도 난이도에서는 이 방법이 제일 좋구나!"를 명확하게 깨닫게 만드는 데 있습니다.
놀랍게도 이렇게 데이터 하나 없이 독학한 Dr. Zero는, 인간이 만든 정답지로 학습시킨 모델들과 대등하거나 심지어 더 뛰어난 성능을 보여주었습니다. 특히 복잡한 '다단계 추론(Multi-hop reasoning)' 분야에서 그 진가가 드러났습니다.
이 연구는 AI가 단순히 인간의 지식을 복제하는 단계를 넘어, 스스로 지식을 탐구하고 논리적 사고를 확장할 수 있음을 증명했습니다. 마치 우리가 공부를 하다가 모르는 게 나오면 스스로 문제를 만들어 해결하며 실력을 쌓는 것과 비슷하죠.
데이터 없이도 무한히 성장하는 AI의 미래, 정말 기대되지 않나요? 약간 무섭기도 하구요. 이제 사람은 뭐 하고 사나 걱정도 되네요.