brunch

AI가 스스로 진화하는 법을 배우다

AgentEvolver 논문 파헤치기

by 미미니

"AI가 스스로 똑똑해진다"는 말, 영화 속 이야기였는데, 이젠 정말 여기저기에서 많은 연구 결과가 나오는 시대가 되었네요.

오늘 소개할 알리바바 통이랩(Tongyi Lab)의 AgentEvolver​ 논문은 그 상상을 현실로 한 걸음 다가가게 합니다. 이 논문은 단순히 ‘더 똑똑한 AI’가 아니라, AI가 스스로 진화하는 시스템을 제안합니다.

AgentEvolver는 AI가 어떻게 스스로 알 수 있게 되는지에 대한 정말 흥미로운 사례인 것 같습니다. AI가 단순히 지식을 저장하는 것을 넘어, 지식을 발견하는 법을 배우고 있으니까요. 이건 마치 포켓몬 같아요. 경험치를 쌓고, 스스로 문제를 만들고, 약점을 보완하며 다음 단계로 '진화'하는 거죠!


기존 AI 에이전트, 왜 비효율적이었을까?


지금까지 AI 에이전트(예: 앱을 대신 조작해 주는 비서)를 훈련시키는 건 막대한 '인력'과 '비용'이 드는 일이었습니다.

• 문제: "이 앱에서 '안녕'이라고 이메일 보내줘." (사람이 만들어야 함)
• 정답: "1. 메일 앱 클릭 2. '새 메일' 클릭 3. 주소 입력 4. '안녕' 입력 5. '보내기' 클릭" (사람이 만듦)

AI는 이 '정답지(데이터셋)'를 수천, 수만 번 따라 하며 배웁니다.


이 방식의 치명적인 단점은...

1. 비용 폭탄 : 사람이 일일이 문제와 정답을 만드는 비용이 엄청납니다.

2. 무식한 탐험: 새로운 앱(환경)을 만나면, AI는 말 그대로 '무작위'로 이것저것 다 눌러봅니다. 성공할 때까지 수천 번 실패하며 전기료와 시간을 낭비하죠.

3. 낮은 적응력: 정답지(데이터셋)에 없던 새로운 상황이 닥치면 쉽게 당황합니다.


AgentEvolver의 혁신: AI야, 네가 알아서 배워!


AgentEvolver는 이 악순환을 끊기 위해 AI에게 '자율권'을 줍니다. "우리가 문제집 안 만들어줄게. 네가 직접 환경을 탐험하고, 문제도 만들고, 스스로 채점하면서 커 봐!"

이 '자체 진화' 시스템은 3가지 핵심 능력(논문의 3대 메커니즘)으로 돌아갑니다.


1. 스스로 질문하기: 호기심 많은 탐험가

이게 바로 "문제집"을 스스로 만드는 능력입니다.

• 기존 AI: "무엇을 해야 할지 모르겠어... (무작위로 버튼 누르기)"
• AgentEvolver: "오, 여기 '편집' 버튼이 있네? 이걸 누르면 '복사하기'가 나오네? (탐험) 좋아! 그럼 '이 텍스트를 복사하는' 퀘스트(문제)를 스스로 만들어보자! (질문 생성)"

마치 게이머가 새로운 게임 맵을 탐험하며 "저긴 뭐가 있을까?", "이 아이템은 무슨 기능일까?" 호기심을 갖는 것과 같아요. AI는 이렇게 환경을 탐험하며 해볼 만한 가치가 있는 작업을 스스로 발굴해 냅니다. 더 이상 인간이 만든 비싼 문제집이 필요 없죠!


2. 스스로 길 찾기: 노련한 베테랑

"문제"는 만들었는데, 어떻게 효율적으로 풀까요?

• 기존 AI: (실패) "다시 처음부터 무작위로 해보자." (또 실패) "또 처음부터..."
• AgentEvolver: "아, 지난번에 이메일 보낼 때 '주소록' 버튼을 누르니 편했지. 이번에도 비슷하게 해 보자."

이전의 성공/실패 경험을 재사용합니다. 무작정 '맨땅에 헤딩'하는 게 아니라, "과거의 나"의 경험을 바탕으로 가장 성공 확률이 높은 길을 영리하게 찾아갑니다. 덕분에 탐험 효율이 폭발적으로 증가하죠.


3. 스스로 피드백하기: 냉철한 복기 전문가

AI가 20단계를 거쳐 임무에 실패했을 때, 무엇이 문제였을까요?

• 기존 AI: "20단계 전체가 다 문제인가 봐... (전체 0점 처리)"
• AgentEvolver: "음... 1~18단계는 완벽했어. (가산점) 아! 19단계에서 버튼을 잘못 눌렀구나. 이게 결정적인 패인이네. (큰 감점)"


마치 바둑 기사가 '복기'를 하듯, 자신이 수행한 긴 행동을 되돌아보며 어떤 행동이 성공에 기여했고, 어떤 행동이 실패의 원인이었는지 정확하게 책임을 따집니다.

이 덕분에 AI는 "내가 정확히 뭘 잘못했는지" 깨닫고, 다음 시도에서는 그 실수만 콕 집어 수정할 수 있습니다. 학습 속도가 엄청나게 빨라지는 건 당연하겠죠?


마무리: 스스로 진화하는 AI의 시작


AgentEvolver는 이 3가지 '셀프' 능력 (질문, 길 찾기, 피드백)을 하나의 루프로 묶었습니다.

1. [질문] 호기심으로 새로운 문제를 만들고

2. [탐색] 과거 경험으로 영리하게 시도하고

3. [피드백] 스스로 냉철하게 복기해서

4. (진화!) 더 똑똑해진 AI가 다시 1번으로 돌아갑니다.

이 시스템은 AI 개발의 패러다임을 바꿉니다. 더 이상 인간이 모든 것을 떠먹여 줄 필요가 없습니다. AI가 스스로 환경을 탐험하고, 배우고, 성장하는, 말 그대로 '지속 가능한 자가 학습'이 가능해진 것입니다.


앞으로 우리가 새로운 앱이나 프로그램을 만들어도, AgentEvolver 같은 시스템이 알아서 탐험하고 사용법을 익혀 우리를 도와주는 시대가 올지도 모르겠네요.


논문에서 수학적 모델링을 어떻게 하였나 궁금하신 분들은 꼭 논문을 읽어 보시길 추천합니다.

keyword
매거진의 이전글컨텍스트 엔지니어링 2.0