사람같이 학습하는 또다른 AI의 학습법
AI가 인간처럼 과거를 기억하며 똑똑해진다면 어떨까요? 실패했던 실수를 피해가고, 성공했던 전략을 재활용하는 AI를 상상해 보세요. 그런데 이 모든 걸 대형 언어 모델(LLM)을 건드리지 않고, 즉 비싼 파인튜닝 없이 해낸다고요! 논문 Memento: Fine-tuning LLM Agents without Fine-tuning LLMs는 바로 이런 혁신적인 아이디어를 제시합니다. xAI, OpenAI 같은 거물들이 꿈꾸는 ‘일반 지능 에이전트’로 한 발짝 다가가는 이 논문은 AI가 “기억 상자”를 들고 실시간으로 배우는 이야기를 풀어냅니다.
LLM 기반 AI 에이전트는 웹 검색, 코드 작성, 연구 보조 같은 복잡한 작업을 수행하지만, 한계가 뚜렷해요:
• 고정된 워크플로: 미리 짜인 스크립트처럼 움직이지만, 새로운 상황에선 뻣뻣해요. 예를 들어, “검색 버튼 누르고, 결과 저장” 식으로 고정된 로직은 세상이 바뀌면 무용지물이죠.
• 파인튜닝의 부담: LLM 자체를 업데이트하면 적응력은 좋아지지만, 컴퓨팅 비용이 어마어마해요(수백만 달러!). 게다가 실시간(온라인) 학습은 거의 불가능하죠. AI가 “졸업” 후엔 더 배우지 못하는 셈이에요.
Memento는 이 문제를 메모리 기반 학습으로 해결합니다. 인간처럼 “에피소딕 메모리”(과거 경험 저장)를 활용해 LLM을 건드리지 않고 에이전트를 지속적으로 “파인튜닝”하는 거예요. 비유하자면, AI가 “일기장”에 성공과 실패를 기록하고, 필요할 때 꺼내 읽으며 똑똑해지는 거죠. 이 접근법은 비용 효율적이고, 실시간 적응이 가능해 AI의 평생 학습을 가능케 합니다.
Memento의 핵심은 Memory-augmented Markov Decision Process(M-MDP)라는 수학적 프레임워크예요. 마르코프 결정 과정(MDP)은 강화 학습에서 상태-행동-보상 순환으로 의사결정을 모델링하는 방법인데, 여기에 메모리를 추가해 과거 경험을 저장하고 활용합니다. 논문은 이를 케이스 기반 추론(CBR)과 결합해 에이전트가 과거 사례를 참고해 문제를 푸는 구조를 제안해요.
• 구조: Memento는 세 가지 구성 요소로 작동해요.
• Planner(계획자): GPT-4.1 같은 LLM이 과거 케이스를 참고해 계획을 세웁니다. “이전 웹 검색에서 이렇게 했더니 성공했어!” 같은 식으로 말이죠.
• Executor(실행자): 검색 엔진, 코드 실행기 등 다양한 도구를 MCP(Model Context Protocol)로 연결해 실행해요.
• Case Bank(메모리 은행): 성공/실패 경험을 저장하는 “기억 상자”. Netflix가 비슷한 영화를 추천하듯, 비슷한 과거 케이스를 골라냅니다.
• 학습 방식: M-MDP는 온라인 강화 학습과 CBR을 결합해요. 에이전트는 환경에서 보상을 받고, 이를 메모리에 저장하며 정책을 개선합니다. 메모리는 두 가지로 구현돼요:
• 비파라메트릭 메모리: 단순히 케이스를 저장하고, 유사도(코사인 유사도)로 검색. 전통적 머신러닝 방식에 가까워요.
• 파라메트릭 메모리: 신경망으로 Q-함수를 학습해 케이스 선택을 최적화. 이건 딥러닝 기법(Deep Q-Learning)이 사용돼요.
M-MDP 자체는 강화 학습(머신러닝의 하위 분야) 프레임워크로, 특정 알고리즘을 강제하지 않아요. 비파라메트릭 메모리는 전통적 머신러닝(유사도 기반)에 가깝고, 파라메트릭 메모리는 신경망을 쓰므로 딥러닝이에요. 즉, 구현에 따라 달라지죠!
Memento는 네 가지 벤치마크에서 테스트됐어요: GAIA(도구 사용), DeepResearcher(웹 연구), SimpleQA(사실 확인), HLE(인간 지식 한계). 논문에서 제시한 결과는 놀라워요:
• GAIA: 검증 세트 87.88% (Pass@3)로 1위, 테스트 세트 79.40%로 4위. 대부분 오픈소스 프레임워크(Manus, Aworld, OWL)를 압도했어요.
• DeepResearcher: F1 66.6%, PM 80.4%로 기존 SOTA(비용 높은 훈련 기반)보다 우월했어요.
• SimpleQA: 95.0% 정확도로 WebSailor(93.5%), DeepSeek-r1-React(72.2%) 등을 제치며 환각 최소화했다 합니다.
• HLE: PM 24.4%로 GPT-5(25.32%)에 근접하고, Gemini-2.5-Pro(21.64%)를 앞섰다네요!
Ablation Study에서 메모리(CBR)를 제거하면 성능이 4.7~9.6% 하락했고, OOD(새로운 데이터) 태스크에서 메모리가 특히 빛을 발했어요. 학습 곡선(Table 4, Fig. 1c)은 반복할수록 성능이 올라가는 “경험치 쌓기”를 보여줍니다.
Memento는 AI 에이전트의 평생 학습을 위한 획기적인 길을 열었어요. 비싼 파인튜닝 없이도 실시간 적응이 가능하니, 로봇, 연구 도우미, 게임 AI에 적용할 잠재력이 엄청나죠. 코드도 공개(https://github.com/Agent-on-the-Fly/Memento)돼 있어 누구나 실험해볼 수 있어요.
비유하자면, Memento는 AI에게 “기억 상실증” 치료제를 준 셈이에요. 이제 AI는 “일기장”을 들고 다니며 “오, 이거 지난번에 망했지!” 하며 똑똑해져요. 비파라메트릭은 단순히 일기장을 뒤지는 거고, 파라메트릭은 AI가 일기장을 분석해 “이 페이지는 보물!“이라고 골라내는 똑똑한 신경망이죠.
이 논문은 AI가 더 인간처럼 배우는 길을 제시하며, 비용 효율적이고 확장 가능한 에이전트 설계를 제안해요. 연구자, AI 팬, 또는 미래 기술에 관심 있다면 꼭 읽어볼 만해요.