brunch

제로부터 깨어나는 AI 에이전트

데이터 없이도 똑똑해지는 마법 같은 이야기

by 미미니

안녕하세요! 요즘 LLM 에이전트 논문이 쏟아지는데, 그중에서도 진짜 “와 이건 좀 다르다” 싶은 논문을 하나 발견했습니다. 제목부터 심상치 않습니다.

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

쉽게 말하면 “인간이 만든 데이터 하나도 없이, 오직 자기 자신과 도구만 가지고 계속 똑똑해지는 AI 에이전트”를 만든 논문이에요.


핵심 아이디어


“커리큘럼 에이전트”와 “실행 에이전트”라는 두 쌍둥이 AI가 서로 경쟁하면서 계속 더 어려운 문제를 내고 풀고, 그 과정에서 코드 인터프리터(파이썬 실행기)까지 써서 무한히 진화합니다. 왜 이게 대단하냐면…


지금까지 LLM을 강하게 만드는 방법은 거의 다 이랬죠.

1. 인간이 엄청난 양의 고품질 데이터 만들어 주기 (RLHF, synthetic data 등)

2. 그걸로 SFT Reward Model RL (DPO, PPO 등) - 즉, 인간의 감독


근데 이건 다 비용이 너무 많이 들고, 결국 인간 지식의 천장에 갇힙니다.

Agent0는 아예 인간 데이터를 쓰지 않고, “제로 데이터”에서 출발해요.

그런데도 Qwen3-8B를 가지고 수학 벤치마크 18%, 일반 추론 벤치마크 24%나 올려버렸습니다.


어떻게 가능했나? 핵심 장치 3개


1. 두 명의 에이전트가 서로를 가르친다

• Curriculum Agent: “지금 너한테 딱 맞게 어려운 문제 하나 낼게~”

• Executor Agent: “그거 풀어볼게! (도구도 써가면서)”

• 서로 같은 베이스 모델에서 시작하지만, 각자 다른 역할로 RL을 돌립니다.


2. 도구(코드 인터프리터)를 핵심 동력으로 쓴다

• 단순히 “도구 주면 성능 오르겠지?”가 아니라, 커리큘럼 에이전트에게 “도구를 많이 쓰게 만드는 문제가 좋은 문제야!”라고 명시적으로 보상을 줍니다.

• 그러니까 점점 더 복잡하고 계산이 필요한 문제가 생성되고, 실행 에이전트는 진짜로 파이썬을 써서 풀게 되죠. 이게 바로 virtuous cycle!


3. 불확실성을 정밀하게 측정해서 “딱 적당히 어려운” 문제만 골라 훈련

• Executor가 10번 풀었을 때 정확히 50% 정도만 맞히는 문제(가장 불확실한 문제)만 골라서 훈련합니다.

• 너무 쉽거나 너무 어려운 문제는 버려요. 학습 효율 극대화하는 거죠.


AIME 2024/2025 같은 최신 대회 문제에서도 28점대까지 찍었어요.

(참고로 Claude 3.5 Sonnet이나 GPT-4o도 이 정도 점수대입니다… 그런데 위 모델들은 수십조 토큰 데이터로 훈련됐죠?)


3번의 반복만에 성능이 계속 올라가는 그래프를 봤을 때 진짜 소름 돋았어요.

Iteration 1 2 3으로 갈수록 커리큘럼 에이전트가 만드는 문제가 눈에 띄게 어려워지고, 동시에 도구 호출 횟수도 1.65 2.60번으로 늘어납니다.

진짜 “스스로 진화하고 있다”는 느낌이 팍팍 와요.


마무리: 앞으로의 의미


이 논문은 단순히 “또 하나의 self-improvement 방법”이 아니라,

“인간 데이터 의존도를 완전히 끊고, 도구와 자율 경쟁만으로도 모델을 계속 강하게 만들 수 있다”는 가능성을 증명한, 어떻게 보면 역사적인 작업이에요.

만약 이 아이디어가 더 큰 모델에도 먹히고, 도구를 웹 브라우저·파일 시스템·다른 에이전트 등으로 확장한다면 진짜로 영화 속 자비스 같은 자율 진화형 에이전트가 현실이 될 수도 있겠다는 생각이 들더라고요.

데이터 없이도 계속 똑똑해지는 AI라니…

이제 진짜 SF가 현실이 되는 시대가 오나 보네요.

keyword
매거진의 이전글깊이 쌓는다고 다가 아닌 세상