자비스는 아직 없다
우리는 흔히 AI 에이전트라고 하면, 알아서 계획을 짜고 코딩도 하고 배포까지 척척 해내는 '완전 자율 AI'를 상상합니다. 최근의 논문들도 이를 추구하고 있죠. 하지만 최신 연구 결과는 우리의 상상과는 꽤 다른 '현실적인(그리고 조금은 충격적인)' 이야기를 들려줍니다.
최근 발표된 논문(Measuring Agents in Production)에서 보면 연구진이 306명의 실무자와 26개 도메인에서 20건의 실제 프로덕션 에이전트를 파헤쳐 봅니다. 그 결과 우리가 꿈꾸던 “완전 자율 AI 에이전트”는… 아직 멀었어요. 오히려 “인간이 계속 붙잡고 있는 반 자동 에이전트”가 현실입니다.. 그들이 발견한 '진짜 에이전트'의 4가지 반전을 소개합니다.
영화 속 AI는 혼자서 끝없이 생각하지만, 현업의 에이전트는 '짧은 목줄'을 차고 있습니다.
• 짧은 단계: 68%의 에이전트는 최대 10단계까지만 수행합니다. 5단계도 못 가서 끝나는 경우도 절반(47%)에 가깝습니다.
• 사람의 개입: 74%는 여전히 사람의 평가를 필요로 합니다.
이유는 '신뢰성'이 가장 큰 숙제이기 때문입니다. 팀들은 에이전트가 멋대로 창의성을 발휘하기보다, 정해진 일을 틀리지 않고 수행하길 원합니다. 그래서 자율성을 의도적으로 포기합니다.
이 부분이 개발자들에게 가장 큰 충격일 수 있습니다. 설문조사에서는 61%가 랭체인 같은 프레임워크를 쓴다고 했지만, 실제 프로덕션(상용) 배포 팀의 85%는 처음부터 자체 구현을 선택했습니다. 복잡한 프레임워크보다 직접 API를 호출하는 핵심 루프(Loop)가 훨씬 제어하기 쉽고 명확하기 때문입니다. 튜토리얼과 실전은 다릅니다.
모델 선택에 있어서 '오픈 소스'의 로망은 아직 현실과 거리가 있었습니다. 20건 중 17건이 Claude Sonnet 4, Opus 4.1, GPT o3 같은 폐쇄형 프런티어 모델을 사용했습니다.
오픈 소스는 비용이 너무 많이 들거나 규제 이슈가 있을 때만 어쩔 수 없이 선택하는 경향을 보였습니다.
에이전트는 매번 다른 답을 내놓기 때문에 기존의 CI/CD 파이프라인(소프트웨어 테스트)을 박살 냅니다.
결국 'Human-in-the-loop(사람 개입)'가 답입니다. LLM을 심판(Judge)으로 쓰더라도, 결국 애매한 건 사람이 다시 봅니다. 심지어 AI가 "확신한다"라고 해도 5%는 무조건 샘플링해서 사람이 뜯어봅니다.
우리가 수많은 논문과 데모에서 보는 “무한 자율 에이전트”는 아직 프로덕션에 거의 없습니다. 실제 돈 버는 곳에서는 조금만 자율적으로 해도 사람보다 훨씬 낫기 때문에, AI agent를 잘 짜인 틀 안에서 인간의 수작업을 10배 효율적으로 줄여주는 '성실한 비서'로 사용하고, 나머지는 사람이 꽉 잡고 있어요.
읽고 나면 “아… 그래서 요즘 에이전트 스타트업들 데모는 화려한데 실제 고객 사례는 조용하구나” 하고 무릎을 치게 되는 논문입니다.
이 연구는 우리에게 중요한 메시지를 던집니다. "화려한 자율성보다는, 통제 가능한 신뢰성을 확보하라."