“시리야”라고 부르면 뭐든 다 해주는 시대, 우리는 지금 어디쯤 있을까?
안녕하세요. 카카오벤처스 투자팀입니다.
투자팀은 늘 창업 초기 단계에 있는 스타트업들과 함께 하며 시장 동향을 살피고 있는데요. 그러다 보면 궁금증과 고민이 생겨서 팀 안팎으로 많은 이야기를 나누게 됩니다. 아마 시장에 관심을 가진 분이라면 누구나 저희와 비슷한 상황에 있으실 듯합니다. 생각은 다양할수록, 대화는 깊을수록 좋기 때문에 저희가 가졌던 생각의 일부를 앞으로 하나씩 공유해 드리고자 합니다. 창업자, 투자자, 혹은 시장에 흥미를 가지신 분들께 조금이나마 도움이 되길 바랍니다.
Open AI의 Chat-GPT의 등장과 함께 본격 AI 시대가 열린 지도 벌써 2년이 지났습니다. 자연어를 이해하여 어떤 질문에도 답변하고, 사람의 의도와 감정을 파악하고, 사람과 같은 답변을 내어놓는 AI 챗봇의 등장은 우리의 라이프스타일을 180도 바꾸어 놓았다고 봐도 무방한데요. 학교 공부를 할 때도, 직장 면접을 준비할 때도, 개인적인 고민이 있을 때도 마치 요술램프를 소환하듯 GPT를 소환하게 됩니다.
하지만 Chat-GPT는 아직까진 반쪽짜리 지니에 불과한데요. 현재까진 채팅 형태의 인터페이스에서 문제를 던졌을 때 단순 계산, 검색, 분류, 번역 등 단순한 형태의 문제만 해결해 줄 수 있기 때문입니다. 다시 말해, 지니처럼 실제로 사람을 대신해 복잡한 task를 수행하기엔 역부족인 거죠.
그래서 등장한 개념이 AI 에이전트입니다. AI 에이전트는 Chat-GPT에서 한 단계 나아간 형태입니다. 채팅 인터페이스가 아닌 음성과 같은 새로운 인터페이스로 task를 전달받기도 하고, 일반 웹페이지에 Adaption*형태로 존재해 추천과 검색을 도와줄 수 있습니다.
*Adaption: AI 시스템이 특정 환경이나 사용자 요구에 맞게 동작을 최적화하거나 조정하는 형태
이렇게만 보면 추상적으로 다가올 수 있으니, 실제 사례를 봐볼까요? 최근 애플은 Apple Intelligence를 공개하며 AI Agent 시대의 서막을 열었습니다. 새롭게 공개된 Apple Intelligence에서, 시리는 온디바이스 형태로 존재하며 사람의 말을 알아듣고, 사람의 명령("시리야, 캘린더에 내일 9시에 등산 약속을 넣어줘")을 수행합니다. 또한, 아이폰 상의 모든 데이터를 오가며 나에게 꼭 맞는, 개인화된 요청을 수행합니다. “오늘 엄마랑 저녁에 뭐 하기로 했지?”라고 물었을 때, 엄마와 내가 나눈 메시지 기록을 보고 답변해 줄 수 있습니다.
물론, 시리가 지니가 되기까지는 아직 넘어야 할 산이 많습니다. 완전한 지니(=AGI)는 어쩌면 영원히 오지 않을 미래일 수도 있죠. 하지만, 특정 영역과 용도에서 사용된다는 보수적인 관점에서, 이미 AI Agent의 시대는 열렸고 앞으로 기술과 서비스를 이끌어 갈 가장 중요한 키워드인 것은 분명합니다. 따라서 이번 글에서는 AI Agent가 무엇인지, 앞으로 넘어야 하는 산은 무엇인지, 그리고 스타트업은 어떤 플레이를 할 수 있을지 이야기 해보려 합니다.
AI 에이전트는 다음과 같은 단계로 task를 수행할 줄 알아야 합니다.
1. 스스로 문제를 분석
2. 작은 단위의 단계적 문제들로 분리
3. 반복적 결과물 검토
4. 메모리를 활용한 맞춤화된 답 도출
5. 단계적 문제를 외부 tool과 함께 처리
여기 “내년 1월 1일부터 8일까지 동남아 여행을 가고 싶은데, 2명 경비 300~400만 원 범위에서 가장 합리적이고, 사람들이 적게 가는 접근성 좋은 여행지를 추천해 줘. 그리고 항공권과 숙소 예약까지 해줘”라는 복잡한 문제가 있습니다.
AI 에이전트는 이 복잡한 문제를 1) 사람들이 적게 가는 동남아 여행지 추리기 2) 접근성 좋은 곳들을 골라내기 3) 해당 일시에 각 옵션의 항공권 가격 알아보기 등 작은 단위의 간단한 문제들로 분리할 수 있습니다. 그리고 이 결과물에 대해 반복적으로 검토하고, 과거에 나눴던 대화 데이터를 기반으로 의뢰인의 취향 반영도 하는데요. 최종적으로는 다시 외부 tool과의 협업을 통해 직접 항공권과 숙소를 예약해야 합니다. 여행 예약이라는 복잡한 task를 위와 같은 5단계를 거쳐 수행해야 하는 겁니다.
지난달 공개된 GPT-4o1이 압도적인 성능을 보이기 시작하며 이 다섯 단계가 더욱 완성도 있게 갖추어지고 있습니다. GPT-4o1에 새롭게 도입된 'Chain of Thought' (CoT) 기술은 AI가 최종 답변을 도출하기 전 중간 추론 단계를 명시적으로 생성하는 기술인데요. 하단의 사진과 같이 복잡한 task가 주어졌을 때, 스스로 문제를 분석하고, 복잡한 문제를 쉬운 여러 개의 문제들로 분리해 반복적으로 결과물을 검토하며 문제를 풀어나가는 것을 볼 수 있습니다. 앞서 말했던 AI Agent의 업무 처리 5단계 중, 1, 2, 3번 단계, 특히 2번 단계를 더욱 완성도 있게 구현한 거죠.
그렇다면, 남겨진 4번과 5번, 즉 메모리를 활용한 맞춤화와 외부 tool과의 연동이 AI Agent로 가는 가장 큰 보틀넥이라고 할 수 있겠는데요. 각각의 의미가 무엇인지, 왜 어려운지에 대해서 설명해 보려 합니다.
먼저 위의 표를 살펴보겠습니다.
세로축은 맞춤화의 정도를, 가로축은 외부 tool과의 연동 정도를 나타내었는데요. 궁극적으로 AI Agent가 나아가야 할 방향은 사분면 중 오른쪽 상단으로, 맞춤화 및 외부 tool과의 협동이 가능한 형태입니다.
맞춤화와 외부 tool과의 협동, 직관적으로 이해하기 어려우시죠?
각각의 의미에 대해 살펴보면,
1. 맞춤화: Customizable vs. Universal
AI Agent는 유저에게 맞춰 답변을 내놓고, 주어진 일을 수행해야 합니다. 상단의 여행 계획 task가 주어졌다고 가정하겠습니다. 현재의 AI는 사람들이 가장 많이 가는 대표 여행지와 호텔을 추천하는 수준이라면, 앞으로는 사용자의 취향과 성향을 ‘기억'해서 사용자에게 알맞은 여행지와 호텔을 추천해야 합니다. 5성급 고급 호텔만 선호하는 사용자에게는 알아서 고급호텔만 추천해 주고, 도시보다 자연을 선호하는 사용자에게는 자연 중심의 여행지를 추천해 줘야 하는 거죠.
그렇다면, 더 잘 ‘기억’ 하기 위해서는 어떻게 해야 할까요? 개인화된 데이터를 잘, 많이 수집해야 합니다. 앞서 이야기했던 Apple Intelligence의 강점 또한 여기에 있는데요. 다년간 하드웨어와 자체 OS 등을 포함한 거대한 플랫폼을 운영해 온 애플은 개인화된 데이터를 누구보다 많이, 손쉽게 수집할 수 있습니다. (다양한 형태의 방대한 데이터를 어떻게 정제하고, 분류할지는 또 다른 문제지만요.)
2. 외부 tool과의 연동: Closed vs. Opened
앞서 이야기했던 여행 준비 task의 예시로 돌아가 보겠습니다. 여행 준비라는 task가 주어졌을 때, 만약 나에게 맞는 여행지와 호텔을 단순히 추천만 한다면, 결국 마지막에는 사람이 직접 비행기표를 사고, 호텔을 예약해야 하는데요. 이러한 형태는 진정한 Agent라고 보기는 어렵습니다.
우리가 기대하는 우상단의 AI Agent는 실제로 표를 사고 호텔을 예약해 줄 수 있는, 사람을 대체해서 Action까지 취할 수 있는 형태입니다. 이때, 필연적으로 외부 tool과의 협동이 필요하죠. 예를 들어, 시리에게 택시를 불러달라고 요청했을 때, 시리는 스스로 외부 tool인 우버에 접속해 택시를 예약해야 합니다.
이 두 가지의 병목은 아직 어느 기업도 완전히 뛰어넘지 못했습니다. 위의 사진을 보면, 현재 AI Agent는 어디까지 왔는지, 또 어디로 가야 하는지 알 수 있습니다.
먼저 closed-universal(왼쪽 하단)에는 맞춤화된 답변도 생성하지 못하고, 외부 tool 간의 협동 또한 어려운 형태입니다. 대표적인 예시로는 컴패니언 AI인 character.ai가 있는데요. 해당 서비스는 character.ai의 채팅 인터페이스에서만 사용이 가능하고, ‘나’를 기억하기보다는 대중의 데이터를 기반으로 누구나 만족할 수 있는 보편적인 답변을 내어놓습니다. 컴패니언 AI인 만큼, 유저들은 ‘나’를 더 잘 기억하기를 바라는 니즈가 있지만, 아직은 다양한 사람들의 데이터를 수집하며 맞춤 답변을 준비하는 단계로 보입니다.
다음은 closed-customizable(왼쪽 상단) 영역입니다. 해당 영역에는 산업 현장 등 특정한 버티컬에서 사용되는 AI Agent가 있을 수 있는데요. 특정 버티컬에서만 사용되는 만큼, 기업과 산업에 맞는 개인화된 데이터 수집은 용이합니다. 하지만 역시나, 특정 기업 내부에서만 사용되며 외부와의 호환은 어렵습니다.
마지막으로는 universal-opened 영역입니다. 현재 완전한 openness를 실현한 기업은 없는데요. 애플의 apple intelligence는 어느 정도 시도해 보고 있는 단계로 볼 수 있습니다. 시리를 통해 캘린더에 일정을 등록하고, imessage를 탐색해 지난 대화를 불러올 수 있죠. 하지만 자체 OS를 벗어난 완전한 외부 tool과의 연결은 아직 지원되지 않습니다.
이렇게 보면, 맞춤화의 문제는 어느 정도 출구가 보입니다. 개별 기업 단에서 개인 데이터를 잘 수집하면 되니까요. 여기서 ‘잘’이라는 표현은, 꼭 많다는 의미는 아닙니다. 목적에 특화된, 양질의 데이터를 수집하는 게 중요합니다.
정말 어려운 건 외부 tool과의 연동 문제입니다. ‘연동’이라는 단어가 시사하듯, 나 혼자만 잘하면 되는 게 아닌 생태계가 함께 참여하고 협력하는 기반이 필요하기 때문입니다.
먼저, 단순히 자사의 데이터 수집가가 혼자 잘한다고 풀리는 문제가 아닙니다. API를 받아야 하는 기업의 데이터가 제대로 관리되어 있지 않고 형태가 제각각이라면, API를 연동한다고 해도 사용할 수 없게 되어버립니다. 사용자를 대신해 쇼핑을 해주는 AI 에이전트를 예로 들어보겠습니다. 해당 Agent는 커머스와의 연동이 필수적입니다.
미국의 경우 데이터에 대한 관리가 잘 되어있고 통일된 형태로 존재하는 경우가 많아 API 연동이 쉬운데요. 우리나라의 경우, 카페 24처럼 데이터가 통일된 형태로 존재한 커머스는 가능하죠. 하지만 일본의 경우, 오프라인 몰 위주로 운영되는 구조적 특성상, 데이터의 형태가 통일되어 있지 않고, API도 제대로 구축되어 있지 않은데요. 이 경우 아무리 데이터가 잘 쌓여있는 기업이라도, AI Agent는 해당 커머스에서 실제로 구매를 대신해주지 못하게 됩니다.
둘째로, 기업들이 생태계에 참여하고 데이터를 개방할 의지가 있는지도 불확실합니다. 데이터는 어느 기업에나 민감한 문제입니다. 따라서 데이터를 서로 공유하는 것에 대해서 다양한 이해관계가 얽혀있을 수밖에 없죠. 이미 인적, 물적 자원이 풍부한 대기업 입장에선 자체적으로 내부에서만 활용하는 AI Agent를 만드는 게 더 안전하다고 판단할 수 있습니다.
AI 활용이 확산되며 정부 차원에서 제도를 만들어 중재하려 한다는 상상을 해 볼 수도 있겠는데요. 설령 정부 차원에서 어떠한 제도를 통해 데이터를 공유하도록 한다고 해도, 유의미한 수준의 데이터가 공유될지는 여전히 미지수입니다. 마치 금융 분야에서 마이데이터 법안이 개정되었지만, 보험과 같은 민감한 데이터를 공유하는 것엔 여전히 이견이 많은 것처럼요.
방대한 양의 데이터를 쌓아 맞춤화하고, 한 곳 한 곳 씩 뚫어가며 생태계의 협동을 이끌어내는 것 모두 이제 시작하는 스타트업에겐 쉽지 않은 이야기일 것입니다. “궁극의 AI Agent를 만들겠어”라는 비전은 다소 먼 미래의 이야기처럼 들리기도 합니다.
하지만, 이렇게 분명한 문제가 있다는 건 스타트업에게는 기회이기도 합니다. 뾰족하게 문제에 집중하는 것이 스타트업이 가장 잘할 수 있는 것이기도 하고요. 따라서 저희는 수많은 기업이 우상단으로 도약하려는 중간에서 맞춤화와 외부 tool과의 연동을 더 잘할 수 있도록 도와주는 middle layer 영역에서 기회가 남아있다고 봤습니다.
우선 맞춤화로 향하는 가장 큰 병목은 데이터인데요. 데이터를 잘 수집하도록 도와주거나, 이미 존재하는, 정리되지 않은 데이터를 정제해 주는 것을 도와줄 수 있습니다. 실제로 최근 AI를 활용해 비정형 데이터를 정형 데이터로 치환하는 문제를 푸는 스타트업은 꽤 많이 보입니다. (사실 데이터 수집 및 정제는 맞춤화뿐 아니라 추후 외부 tool과의 연동의 기반이 되기도 합니다.)
가장 어려운 외부 tool과의 연동 문제는, 기술 관점에서 아직 금광이 남아있는 시장입니다. 다만 기업 간의 compliance 및 governance라는 외부 환경적 요인에 가로막혀 있죠. 이러한 외부 환경을 hedging 할 수 있는 특출난 기술력을 가지고 있거나, 기술력보단 환경적인 문제를 잘 풀어낼 수 있는 중간 단계의 player가 등장하기를 기대해 볼 수 있습니다.
여기서 환경적 요소를 hedging 할 수 있는 기술력이라고 하면, 프로덕트를 패키징하는 엔지니어링 기술을 이야기하는데요. 우리나라와 미국 SaaS의 가장 큰 차이점 또한 여기에 있습니다. 우리나라는 스타트업이 직접 고객사를 하나하나 찾아다니며, 각종 동의를 구하고 온보딩해주는 과정이 필요한 반면, 미국은 좋은 엔지니어링 기술로 사람이 개입되는 별도의 프로세스 없이 빠르고 간단하게 사용이 가능한데요. 이 과정에서, 고객사들은 각종 가치판단을 하기도 전, 이미 서비스를 사용하게 되는 겁니다. 결국, 뛰어난 엔지니어링으로 연동과정에서 허들을 최대한 줄이는 거죠.
이번 글에서는 AI Agent라는 거대한 키워드를 기술 관점에서 다소 좁게 바라봐 보았는데요. 글의 범위가 제한적이다 보니, 읽으시며 다양한 궁금증이 남으셨을 거라 짐작됩니다. 만약 AI Agent에 대해 조금 더 알고 싶으시다면, 차주 화요일(11/19)에 진행되는 ‘카카오벤처스 Insightful Day’에 부담 없이 참여해 주세요. 카카오벤처스 김영무 심사역과 카벤 패밀리 와들, 트릴리온랩스의 대표님들을 모시고 AI Agent에 대해 한층 더 깊은 이야기를 나눠 볼 예정입니다! 많은 관심 부탁드립니다.
참여 신청 : https://event-us.kr/m/95006/25679