"당신의 AI, 진짜 똑똑한가요?" 세일즈포스가 제안하는 실전 AI
저는 종종 AI 비서에게 조금은 짓궂은 질문을 던지곤 합니다. 단순히 '오늘 날씨 어때?' 같은 단답형 질문이 아니라,
'주말에 친구랑 강릉으로 여행 갈 건데, 예산은 30만 원이고, 운전은 못해. 감성적인 숙소랑 맛집 포함해서 1박 2일 코스 좀 짜줘'
와 같이 복잡한 임무를 툭 던져보는 식이죠. 돌아오는 대답은 제법 그럴싸하지만, 어딘가 모르게 2% 부족함을 느낄 때가 많았습니다. 마치 정해진 레시피만 읊어주는 요리사처럼, 예상치 못한 변수나 저의 숨은 취향까지는 읽어내지 못하는 듯한 느낌이었죠.
그럴 때마다 생각했습니다. 우리는 AI의 '지능'을 과연 제대로 평가하고 있는 걸까? 우리가 흔히 접하는 AI 성능 순위는 대부분 정해진 시험(벤치마크) 점수로 매겨집니다. 누가 더 많은 지식을 외우고, 누가 더 어려운 논리 문제를 잘 푸는지를 겨루는 시험이죠. 하지만 제가 AI에게 진정으로 원했던 것은 '암기왕'이 아니라, 제 삶의 복잡한 문제들을 함께 고민하고 해결해 나가는 '만능 해결사'에 가까웠습니다.
우리가 진짜 원하는 AI는 단순히 지식을 답하는 '암기왕'이 아니라, 복잡한 목표를 스스로 계획하고, 필요한 도구를 활용해 문제를 해결하는 '만능 해결사'일 거예요.
이런 고민의 실마리를 풀어줄 흥미로운 소식을 접했습니다. 세계적인 기업 세일즈포스(Salesforce)가 AI의 '진짜 실력'을 평가하는 새로운 방법을 제안했다는 이야기였습니다. 어쩌면 제 AI 비서가 더 똑똑해질 수 있는 열쇠가 여기 있을지도 모른다는 생각에 가슴이 뛰기 시작했습니다.
요리사의 실력을 필기시험으로만 평가할 수 없듯, AI의 능력도 정해진 문제 풀이만으로는 전부 알 수 없습니다. 훌륭한 요리사는 냉장고에 남은 재료만으로도 근사한 요리를 만들어내고, 예상치 못한 상황에 유연하게 대처하는 능력이 뛰어나죠.
세일즈포스의 AI 연구팀이 개발한 MCPEval이라는 평가 프레임워크는 바로 이 '실전 능력'에 주목합니다. 저는 이 접근 방식이 참 마음에 들었습니다. AI에게 끊임없이 변화하는 동적인 문제를 던져주고, 웹 검색이나 계산기 같은 도구를 활용해 처음부터 끝까지 임무를 완수하는 전 과정을 지켜보겠다는 것이니까요. 마치 AI에게 "자, 이런 복잡한 문제가 생겼어. 네가 가진 모든 능력과 도구를 총동원해서 한번 해결해 봐!"라고 말하는, 실전형 종합 능력 평가인 셈입니다.
이 평가의 핵심에는 **몬테카를로 계획(MCP)**이라는 기술이 숨어있습니다. 이름은 조금 낯설지만, 알파고가 수많은 경우의 수를 시뮬레이션하며 최적의 수를 찾아냈던 것처럼, AI가 목표를 달성하기 위한 수많은 시나리오를 미리 그려보고 가장 성공적인 길을 선택하는 방식이라고 생각하니 쉽게 이해가 되었습니다. 드디어 AI의 진짜 문제 해결 능력을 엿볼 수 있는 창이 열린 것 같아 설레었습니다.
세일즈포스 연구팀은 MCPEval을 이용해 요즘 가장 주목받는 AI 모델들을 테스트했습니다. 그리고 그 결과는 제가 막연하게 느끼던 '2%의 부족함'의 이유를 명확하게 설명해주었습니다.
결과는 꽤나 충격적이었습니다. 기존 시험에서 최상위권 성적을 자랑하던 한 모델(Qwen2)이, 여러 도구를 사용하며 복잡한 문제를 해결해야 하는 실전 평가에서는 다른 모델(GPT 계열)에 비해 다소 고전하는 모습을 보였기 때문입니다.
AI의 '지식 수준(book smarts)'과 '실전 문제 해결 능력(street smarts)'은 다를 수 있다는 것.
이 결과는 제게 중요한 깨달음을 주었습니다. 단순히 시험 점수만 보고 AI를 선택하는 것이 얼마나 섣부른 판단일 수 있는지를요. 더 흥미로운 사실은, AI들도 각자 잘하는 분야가 달랐다는 점입니다. 어떤 AI는 상황에 맞는 도구를 척척 꺼내 쓰는 '만능 기술자' 같았고, 또 다른 AI는 전체적인 전략을 짜고 논리적인 판단을 내리는 '지혜로운 지휘관'의 모습을 보였습니다.
이제 "어떤 AI가 최고야?"라는 질문은 의미가 없어졌습니다. 대신 "내가 하려는 일에 어떤 AI가 가장 적합할까?"라고 질문을 바꿔야 한다는 것을 알게 되었죠. 제 여행 계획을 짜줄 AI와 업무 보고서를 분석해 줄 AI는 서로 다른 강점을 가진 모델이어야 할지도 모릅니다.
물론 세일즈포스의 연구가 모든 것을 설명해주지는 않습니다. 하지만 이 작은 균열은 AI 시대를 살아가는 우리에게 중요한 이정표가 되어줄 거라 믿습니다. AI를 도입하려는 기업은 우리 회사에 꼭 맞는 '진짜 에이스'를 찾을 수 있는 힌트를 얻었고, 개발자들은 AI가 더 나은 '계획자'이자 '실행자'가 되도록 연구할 명확한 목표를 갖게 되었습니다.
MCPEval의 등장은 AI 능력 평가의 패러다임을 바꾸는 신호탄입니다. 이제 AI의 진짜 실력은 복잡하고 예측 불가능한 세상의 문제를 얼마나 지혜롭게 해결하느냐에 달려있을 겁니다.
이 글을 읽는 여러분은 어떠신가요? 여러분의 곁에 있는 AI 비서가 어떤 '실전 능력'을 갖추길 바라시나요? 단순히 정보를 검색해주는 것을 넘어, 나의 복잡한 고민을 함께 풀어주는 든든한 파트너가 되어주길 기대하지는 않으신가요?
어쩌면 머지않은 미래에, 우리는 AI의 시험 성적표가 아니라 그 AI가 풀어낸 '문제 해결 포트폴리오'를 보며 나의 AI 파트너를 선택하게 될지도 모르겠습니다.