brunch

Memento: AI가 잊지 않고 배우는 마법의 기억

사람같이 학습하는 또다른 AI의 학습법

by 미미니

AI가 인간처럼 과거를 기억하며 똑똑해진다면 어떨까요? 실패했던 실수를 피해가고, 성공했던 전략을 재활용하는 AI를 상상해 보세요. 그런데 이 모든 걸 대형 언어 모델(LLM)을 건드리지 않고, 즉 비싼 파인튜닝 없이 해낸다고요! 논문 Memento: Fine-tuning LLM Agents without Fine-tuning LLMs​는 바로 이런 혁신적인 아이디어를 제시합니다. xAI, OpenAI 같은 거물들이 꿈꾸는 ‘일반 지능 에이전트’로 한 발짝 다가가는 이 논문은 AI가 “기억 상자”를 들고 실시간으로 배우는 이야기를 풀어냅니다.


AI 에이전트의 고질적 문제


LLM 기반 AI 에이전트는 웹 검색, 코드 작성, 연구 보조 같은 복잡한 작업을 수행하지만, 한계가 뚜렷해요:

고정된 워크플로: 미리 짜인 스크립트처럼 움직이지만, 새로운 상황에선 뻣뻣해요. 예를 들어, “검색 버튼 누르고, 결과 저장” 식으로 고정된 로직은 세상이 바뀌면 무용지물이죠.

파인튜닝의 부담: LLM 자체를 업데이트하면 적응력은 좋아지지만, 컴퓨팅 비용이 어마어마해요(수백만 달러!). 게다가 실시간(온라인) 학습은 거의 불가능하죠. AI가 “졸업” 후엔 더 배우지 못하는 셈이에요.


Memento는 이 문제를 메모리 기반 학습으로 해결합니다. 인간처럼 “에피소딕 메모리”(과거 경험 저장)를 활용해 LLM을 건드리지 않고 에이전트를 지속적으로 “파인튜닝”하는 거예요. 비유하자면, AI가 “일기장”에 성공과 실패를 기록하고, 필요할 때 꺼내 읽으며 똑똑해지는 거죠. 이 접근법은 비용 효율적이고, 실시간 적응이 가능해 AI의 평생 학습을 가능케 합니다.


Memento의 핵심: 기억 강화 마르코프 결정 과정(M-MDP)


Memento의 핵심은 Memory-augmented Markov Decision Process(M-MDP)라는 수학적 프레임워크예요. 마르코프 결정 과정(MDP)은 강화 학습에서 상태-행동-보상 순환으로 의사결정을 모델링하는 방법인데, 여기에 메모리를 추가해 과거 경험을 저장하고 활용합니다. 논문은 이를 케이스 기반 추론(CBR)과 결합해 에이전트가 과거 사례를 참고해 문제를 푸는 구조를 제안해요.


구조: Memento는 세 가지 구성 요소로 작동해요.

• Planner(계획자): GPT-4.1 같은 LLM이 과거 케이스를 참고해 계획을 세웁니다. “이전 웹 검색에서 이렇게 했더니 성공했어!” 같은 식으로 말이죠.

• Executor(실행자): 검색 엔진, 코드 실행기 등 다양한 도구를 MCP(Model Context Protocol)로 연결해 실행해요.

• Case Bank(메모리 은행): 성공/실패 경험을 저장하는 “기억 상자”. Netflix가 비슷한 영화를 추천하듯, 비슷한 과거 케이스를 골라냅니다.


학습 방식: M-MDP는 온라인 강화 학습과 CBR을 결합해요. 에이전트는 환경에서 보상을 받고, 이를 메모리에 저장하며 정책을 개선합니다. 메모리는 두 가지로 구현돼요:

• 비파라메트릭 메모리: 단순히 케이스를 저장하고, 유사도(코사인 유사도)로 검색. 전통적 머신러닝 방식에 가까워요.

• 파라메트릭 메모리: 신경망으로 Q-함수를 학습해 케이스 선택을 최적화. 이건 딥러닝 기법(Deep Q-Learning)이 사용돼요.


M-MDP 자체는 강화 학습(머신러닝의 하위 분야) 프레임워크로, 특정 알고리즘을 강제하지 않아요. 비파라메트릭 메모리는 전통적 머신러닝(유사도 기반)에 가깝고, 파라메트릭 메모리는 신경망을 쓰므로 딥러닝이에요. 즉, 구현에 따라 달라지죠!


놀라운 성과: 벤치마크에서 압도적 1위!


Memento는 네 가지 벤치마크에서 테스트됐어요: GAIA(도구 사용), DeepResearcher(웹 연구), SimpleQA(사실 확인), HLE(인간 지식 한계). 논문에서 제시한 결과는 놀라워요:

• GAIA: 검증 세트 87.88% (Pass@3)로 1위, 테스트 세트 79.40%로 4위. 대부분 오픈소스 프레임워크(Manus, Aworld, OWL)를 압도했어요.

• DeepResearcher: F1 66.6%, PM 80.4%로 기존 SOTA(비용 높은 훈련 기반)보다 우월했어요.

• SimpleQA: 95.0% 정확도로 WebSailor(93.5%), DeepSeek-r1-React(72.2%) 등을 제치며 환각 최소화했다 합니다.

• HLE: PM 24.4%로 GPT-5(25.32%)에 근접하고, Gemini-2.5-Pro(21.64%)를 앞섰다네요!

Ablation Study에서 메모리(CBR)를 제거하면 성능이 4.7~9.6% 하락했고, OOD(새로운 데이터) 태스크에서 메모리가 특히 빛을 발했어요. 학습 곡선(Table 4, Fig. 1c)은 반복할수록 성능이 올라가는 “경험치 쌓기”를 보여줍니다.


마무리: 더 인간같은 학습의 길


Memento는 AI 에이전트의 평생 학습을 위한 획기적인 길을 열었어요. 비싼 파인튜닝 없이도 실시간 적응이 가능하니, 로봇, 연구 도우미, 게임 AI에 적용할 잠재력이 엄청나죠. 코드도 공개(https://github.com/Agent-on-the-Fly/Memento)돼 있어 누구나 실험해볼 수 있어요.

비유하자면, Memento는 AI에게 “기억 상실증” 치료제를 준 셈이에요. 이제 AI는 “일기장”을 들고 다니며 “오, 이거 지난번에 망했지!” 하며 똑똑해져요. 비파라메트릭은 단순히 일기장을 뒤지는 거고, 파라메트릭은 AI가 일기장을 분석해 “이 페이지는 보물!“이라고 골라내는 똑똑한 신경망이죠.

이 논문은 AI가 더 인간처럼 배우는 길을 제시하며, 비용 효율적이고 확장 가능한 에이전트 설계를 제안해요. 연구자, AI 팬, 또는 미래 기술에 관심 있다면 꼭 읽어볼 만해요.

keyword
매거진의 이전글다중 토큰 예측 잠재력의 발견?