좋은 요리를 위해 부엌을 고치지 않고 요리책을 잘 만들기
오늘 살펴볼 논문은 “Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models”라는 제목으로, 대규모 언어 모델을 더 똑똑하고 효율적으로 만드는 새로운 방법을 소개합니다. 모델의 “두뇌”를 바꾸지 않고 더 좋은 요리책을 주는 것과 같아요. 함께 빠져들어 볼까요?
LLM이 복잡한 문제를 푸는 상황을 상상해 보세요. 예를 들어, 앱을 탐색하거나 금융 데이터를 분석하는 일을 할 때, 모델을 처음부터 다시 학습시키는 대신(이건 몇 년 동안 학교로 돌아가는 것만큼 힘들죠), ACE는 컨텍스트—즉, 모델이 답변하기 전에 받는 지침, 과거 경험, 추가 정보—를 똑똑하게 조정하는 방법이에요. 이 컨텍스트는 시간이 지나면서 점점 더 좋아지는 플레이북 같은 거예요.
이 논문은 스탠퍼드 대학, SambaNova Systems, UC 버클리 연구진이 공동으로 작성했는데, 기존 방법의 두 가지 문제점을 해결하려고 해요.
1. 간결함 편향(Brevity Bias): 지침이 너무 짧아져서 중요한 세부사항이 빠지는 문제.
2. 컨텍스트 붕괴(Context Collapse): 시간이 지나면서 플레이북이 점점 짧고 정보가 부족한 요약본으로 변해버리는 문제.
ACE는 “그렇게 안 할 거야! 플레이북은 풍부하고, 상세하고, 계속 성장해야 해!”라고 외칩니다.
LLM은 이미 대단하지만, 완벽하진 않아요. 특정 작업(앱 코딩, 금융 분석)에서 빛을 발하려면 약간의 도움이 필요하죠. 전통적으로는 모델을 다시 학습시키거나(비싸고 느림) 짧고 일반적인 프롬프트를 사용하는 방식이 있었는데, 이건 중요한 세부사항을 놓칠 때가 많았어요. ACE는 컨텍스트를 살아있는 문서처럼 만들어서, 모델이 작업을 할 때마다 더 똑똑해지게 해 줍니다.
왜 이게 대단하냐면 말이죠..
• 재학습 필요 없음: 모델의 “두뇌”를 건드릴 필요 없이 컨텍스트만 바꾸면 성능이 쑥쑥!
• 해석 가능: 플레이북은 사람이 읽을 수 있어서, 실수를 고치거나 새 팁을 추가하기 쉬워요.
• 확장 가능: 긴 컨텍스트를 다룰 수 있는 최신 LLM과 KV 캐시 재사용 같은 기술 덕분에 비용도 낮아요.
• 스스로 개선: 모델이 성공과 실패를 통해 배우며, 마치 숙제를 복습하면서 점점 나아지는 학생 같아요.
ACE는 세 명의 똑똑한 조수가 팀을 이뤄 플레이북을 만들고 다듬는 시스템이에요. 팀을 소개할게요.
1. 생성자(Generator): 이 친구는 문제를 푸는 주인공이에요. 코드를 작성하거나 금융 질문을 풀면서 궤적(trajectories)—생각 과정, 행동, 결과의 기록—을 남겨요.
2. 반성자(Reflector): 비평가죠. 생성자의 작업을 검토해서 잘한 점과 잘못한 점을 찾아내고, 교훈을 뽑아요(예: “아, API 문서를 확인 안 했네!”). 마치 경기 후 코치가 피드백 주는 것과 비슷해요.
3. 큐레이터(Curator): 정리 전문가예요. 반성자의 교훈을 델타 업데이트라는 작은 조각으로 만들어 기존 플레이북에 깔끔하게 추가해요. 전체를 다시 쓰는 대신, 필요한 부분만 수정해서 정보 손실을 막죠.
플레이북은 항목화된 목록처럼 구성돼요. 각 항목은
• 메타데이터: 고유 ID와 이 항목이 얼마나 유용하거나 해로운지를 기록하는 카운터
• 내용: 재사용 가능한 전략, 팁, 또는 주의사항(“API 호출 전에 사용자 입력을 꼭 검증해!”)
이 구조 덕분에 기존 방법의 문제를 피할 수 있어요. 짧고 모호한 요약으로 축소되는 대신(간결함 편향), 플레이북은 풍부한 세부사항을 유지해요. 그리고 전체를 다시 쓰면서 정보를 잃는 대신(컨텍스트 붕괴), 작은 업데이트로 지식을 쌓아가죠.
ACE는 성장과 다듬기 전략으로 플레이북을 관리해요.
• 성장(Grow): 새로운 교훈을 항목으로 추가해서 플레이북을 점점 풍부하게 만들어요.
• 다듬기(Refine): 중복되거나 오래된 항목을 정리해요. 이를 위해 시맨틱 임베딩을 사용해 항목이 비슷한지 확인(두 항목이 같은 뜻인지 알아내는 똑똑한 방법!). 이 과정은 매 업데이트 후 바로 하거나, 컨텍스트가 너무 커졌을 때만 할 수 있어요.
이 균형 덕분에 플레이북은 유용하면서도 너무 비대해지지 않아요!
연구진은 ACE를 두 가지 어려운 작업으로 테스트했어요. 에이전트 벤치마크(AppWorld, 모델이 앱을 탐색하는 가상 비서 역할)와 금융 분석(FiNER, Formula, 복잡한 금융 데이터를 다루는 작업)인데, 결과가 어땠는지 볼까요?
1. 에이전트 벤치마크에서 대성공
AppWorld에서 ACE는 GEPA, Dynamic Cheatsheet 같은 강력한 기준선보다 평균 10.6% 더 나은 성능을 냈어요. 심지어 GPT-4.1 기반의 최상위 에이전트(IBM CUGA)와 평균 성적이 비슷했고, 더 어려운 테스트 챌린지 분할에서는 이겼어요! 게다가 ACE는 더 작은 오픈소스 모델(DeepSeek-V3.1)을 썼다는 점에서 엄청난 업적이죠. 마치 약체 팀이 프로팀을 이긴 격!
ACE는 정답 데이터 없이도 실행 피드백(코드가 성공했는지 실패했는지)만으로 성능을 높였어요.
2. 금융 분석에서 압도적
금융 벤치마크에서 ACE는 평균 8.6% 더 높은 정확도를 냈어요. XBRL(금융 문서 형식) 같은 전문 지식을 담은 상세한 플레이북 덕분이죠. ICL, MIPROv2, GEPA 같은 방법들을 큰 차이로 앞섰어요. 이들은 짧은 프롬프트로 중요한 세부사항을 놓쳤거든요.
3. 초효율적
ACE는 적응 시간(플레이북 업데이트 시간)을 평균 86.9% 줄였어요. 빠르죠! 롤아웃(작업 시도 횟수)과 토큰 비용(계산 비용)을 줄여, 돈도 아꼈어요.
4. 정답 없이도 OK
ACE는 실행 피드백만으로도 성능을 14.8%나 끌어올렸어요. 정답 데이터가 없는 실세계 상황에서 딱이에요.
ACE는 LLM이 일하면서 배우게 해 줘요. 학습 때 배운 것에 얽매이지 않고, 작업별로 맞춤화된 팁과 트릭이 담긴 플레이북을 들고 다니는 거죠. 예를 들어, “이 API 호출엔 특정 헤더가 필요해”라거나 “금융 공식은 두 번 확인해야 해” 같은 메모를 계속 추가해요. 시간이 지날수록 나는 더 똑똑해지죠!
게다가 실용적이에요. 비싼 재학습이나 엄청난 컴퓨팅 자원이 필요 없어요. 또한 플레이북은 사람이 읽을 수 있어서, 개발자가 고치거나 오래된 정보를 지우기 쉬워요(개인정보 보호나 법적 이유로 중요!). 긴 컨텍스트를 다루는 최신 LLM과 KV 캐시 재사용 같은 기술로 효율적이기도 해요.
완벽한 시스템은 없죠. 논문에서 몇 가지 한계를 언급했어요
• 피드백 의존: ACE는 좋은 피드백이 필요해요. 반성자가 유용한 패턴을 못 찾으면 플레이북이 엉망이 될 수 있어요.
• 모든 작업에 필요하진 않음: 퀴즈 같은 간단한 작업은 짧은 프롬프트로 충분할 때도 있어요. ACE는 복잡한 도메인 지식이나 도구 사용이 필요한 작업에서 빛나요.
ACE는 LLM을 더 똑똑하고, 효율적이고, 스스로 개선하게 만드는 멋진 방법이에요. 상세한 플레이북을 만들어서 복잡한 작업을 더 잘 처리하고, 비용과 시간을 아끼죠. 앱 탐색이든 금융 분석이든, ACE는 모델이 일하면서 배우는 미래를 열어줍니다. 이 논문은 AI를 더 똑똑하게 만드는 데 한 발짝 더 다가선 연구로, 정말 흥미롭고 유익하죠!