갖추어진 제한된 테두리
인공지능(AI) 서비스의 최종 목적지로 여겨지는 'AI 에이전트(AI Agent)'를 향한 빅테크 기업들의 경쟁이 최고조에 달했다. 거의 모든 주요 기업이 저마다의 특색을 내세운 AI 에이전트를 시장에 선보이며 치열한 주도권 다툼을 벌이는 양상이다.
OpenAI가 GPT-4o 이후 더욱 발전시킨 '오퍼레이터(Operator)'와 얼마 전 공개한 GPT-5, 구글이 프로젝트 아스트라(Project Astra)를 통해 구체화한 '제미나이 에이전트(Gemini Agent)'와 Gemini Pro 2.5 Deep Thinking, 앤트로픽(Anthropic)이 제시한 '컴퓨터 사용(Computer Use)'와 Opus 4.1 등을 통해서 이미 초기 버전을 출시했거나 공개 베타 테스트를 통해 그 실체를 드러내고 있다.
이러한 AI 에이전트의 본격적인 상용화와 대중화 속도는 각 기업의 하드웨어(HW) 보유 및 통제 역량에 따라 명확한 차이를 보인다. HW를 직접 설계하고 생산하는 기업일수록 자사 생태계에 최적화된 에이전트를 빠르게 구현하고 있다. 대표적으로 테슬라의 완전자율주행(FSD)은 차량이라는 특정 하드웨어에 고도로 특화된 '오토파일럿 AI 에이전트'로 볼 수 있다. 안드로이드 운영체제를 기반으로 하는 구글의 픽셀(Pixel)과 삼성의 갤럭시(Galaxy) 역시, 진화된 '제미나이 보이스 어시스턴트'를 통해 온디바이스(On-device) AI 에이전트의 가능성을 현실로 만들고 있다. 이들은 자체 HW와 OS에 AI를 깊숙이 통합하여 하드웨어의 센서와 기능을 완벽하게 제어하는 능력을 갖추고 있다.
주어진 임무를 스스로 파악하고 자율적으로 수행하는 AI 에이전트의 능력은 크게 세 가지 핵심 요소로 정의된다. 바로 추론 및 계획 능력, 기억 능력, 행동 능력이다. (출처: 오그랲) 이 분류는 2025년 현재에도 AI 에이전트의 기능을 설명하는 가장 보편적인 기준으로 통용되고 있으며, 앞으로 이 세 가지 능력을 중심으로 최신 동향을 분석하고자 한다.
우선 AI 에이전트의 작동 원리를 이해하기 위해 정보 처리 방식의 진화 과정을 살펴볼 필요가 있다. 초기 컴퓨팅은 '입력-처리-출력'이라는 단순한 구조를 따른다. 이는 '조건-동작' 형태로 나타나는데, 특정 조건이 충족되면 정해진 동작을 수행하는 방식이다. 예를 들어 실내 온도가 설정값 이하로 내려가면 보일러가 켜지고, 이상으로 올라가면 에어컨이 작동하는 것이 이에 해당한다. 여기서 한 단계 발전한 것이 내비게이션과 같은 '입력-해석' 방식이다. 사용자가 목적지를 '입력'하면 시스템은 현재 교통 상황, 도로 정보 등을 '해석'하여 최적 경로, 추천 경로 등 여러 대안을 '출력'한다. 여기에는 시스템의 알고리즘에 기반한 '의견'이 개입된다는 미묘한 차이가 있다.
본격적인 AI 시대에 접어들면서 이 처리 방식은 '입력-학습-처리-출력'의 흐름으로 진화했다. 기존 방식과 가장 큰 차이점은 '학습' 단계의 추가다. AI는 방대한 데이터를 학습하여 사용자의 질문, 처한 상황, 그리고 숨겨진 의도까지 파악한 후 최적의 결과물을 도출한다. 이 '학습'은 곧 '경험'의 디지털화다. 인터넷에 수십 년간 축적된 텍스트, 이미지, 영상 등 인류의 집단 경험 데이터를 AI가 학습하고, 이를 바탕으로 추론하고 답변하는 것이다. 2023년을 전후하여 등장한 ChatGPT나 Claude 같은 대화형 AI 챗봇이 그 대표적인 사례였다. 이들은 기존의 검색 엔진과는 차원이 다른, 맥락을 이해하는 대화를 통해 정보를 제공했다.
2024년은 멀티모달(Multi-modal) AI가 이 흐름을 완전히 바꾸어 놓았다. OpenAI의 GPT-4o(Omni)와 구글의 제미나이 라이브(Gemini Live)는 텍스트뿐만 아니라 음성, 이미지, 영상을 실시간으로 이해하고 상호작용하는 능력을 선보이며 진정한 AI 에이전트의 서막을 열었다. (참고) 이제 AI는 카메라를 통해 보이는 세상을 설명하고, 사용자의 음성 지시에 따라 즉각적으로 작업을 수행하는 단계에 이르렀다. 다른 예로, 구글 딥마인드의 근본도 초창기부터 '에이전트 기반 시스템(Agent-based systems)', 즉 주어진 임무를 완수할 수 있는 시스템에 집중해왔다고 한다. 예를 들어, 알파고와 같은 시스템으로 바둑에 특화되어 바둑과 관련된 임무를 완수하는 시스템이다. 이것은 생각을 기반으로 한 원리, 즉 Gemini와 같은 강력한 기반 모델 위에 '생각(Thinking)', '계획(Planning)', '추론(Reasoning)' 능력을 추가하는 방식임을 알 수 있다. (출처: 데미스 하사비스 인터뷰 https://youtu.be/njDochQ2zHs?feature=shared)
AI 에이전트의 첫 번째 핵심 능력은 주어진 과제를 해결하기 위한 방법을 스스로 고민하고(추론), 해결에 필요한 도구를 선택하며(계획), 이를 실행하는 능력이다. 문제 해결 능력의 본질은 곧 알고리즘 설계 능력이다. 최적의 문제 해결 절차를 찾아내는 것이 프로그래밍의 기초이듯, AI 에이전트 역시 가장 효율적인 실행 경로를 설계해야 한다.
출처: arXiv.com ⓒ https://arxiv.org/abs/1706.03762
현대 AI의 근간이 된 'Attention Is All You Need' 논문 역시 입력된 문장의 단어 간 관계와 맥락을 분석하여 다음 단어를 예측하는 혁신적인 알고리즘을 제시했다. 이 '트랜스포머(Transformer)' 아키텍처의 등장은 'ChatGPT 모멘트'를 촉발하며 생성 AI 시대를 열었다. 이러한 알고리즘의 정교함 뒤에는 인간의 뇌 규모에 필적하는 방대한 데이터 학습이 존재한다. 인간의 뇌에는 약 1,000억 개의 뉴런과 100조 개의 시냅스가 있는 것으로 알려져 있다. 2024년 말과 2025년 초에 공개된 최신 LLM들은 수백조 개에 달하는 파라미터(매개변수)를 기반으로 학습하여, 인간의 뇌가 가진 연결성의 복잡성에 근접하고 있다.
하지만 여전히 인간의 천연지능(Natural Intelligence)과 인공지능의 가장 큰 차이는 진정한 의미의 '추론' 능력에 있다. 추론은 이미 알고 있는 정보를 바탕으로 논리적 비약을 통해 새로운 결론을 도출하고, 그 근거를 제시하여 주장의 타당성을 증명하는 고차원적 사고 과정이다. 현재 AI는 학습 데이터에 기반한 통계적 패턴을 통해 매우 논리적인 '정리된 의견'을 제시하지만, 인간과 같은 깊이 있는 통찰이나 창의적 추론에는 한계가 있다.
이러한 한계를 극복하고 AI의 추론 및 계획 능력을 한 차원 높이기 위한 핵심 기술로 앤트로픽이 제안한 'MCP(Model Context Protocol)'가 주목받고 있다. MCP는 LLM이 외부 데이터 소스나 API, 도구(Tool)와 원활하게 통합될 수 있도록 하는 개방형 프로토콜, 즉 일종의 '약속'이다. 이 약속을 지키는 모든 서비스는 LLM과 손쉽게 연동될 수 있다. MCP는 LLM을 사용하는 응용 프로그램(MCP Host), 서버와 연결을 유지하는 클라이언트(MCP Client), 그리고 특정 기능을 제공하는 외부 서비스(MCP Server)로 구성된다. 사용자가 특정 작업을 요청하면, 호스트 앱이 클라이언트를 통해 필요한 기능(예: 구글 드라이브 검색, 슬랙 메시지 전송)을 가진 서버를 호출하고 결괏값을 받아오는 구조다. 이는 인간이 어떤 작업을 수행할 때, 뇌가 필요한 지식과 기술(도구)을 떠올려(추론) 최적의 방식으로 처리하는(계획) 과정과 매우 흡사하다. MCP는 AI에게 본능처럼 외부 도구를 활용하는 능력을 부여하여, 마치 인간처럼 복합적인 문제를 해결하게 만드는 핵심 열쇠로 부상하고 있다.
두 번째 핵심 능력은 기억이다. 이미 ChatGPT를 비롯한 대부분의 AI 서비스는 이전 대화 내용을 기억하거나, 사용자가 별도로 설정한 정보를 바탕으로 개인화된 답변을 제공하는 기능을 기본적으로 탑재하고 있다. 2025년 현재, 이러한 기억 능력은 단기적인 대화 맥락을 넘어, 사용자와의 모든 상호작용을 포괄하는 '지속적 기억(Persistent Memory)'으로 발전하고 있다.
인간의 기억은 뇌의 측두엽과 해마를 중심으로 신경세포(뉴런)와 시냅스의 복잡한 연결망에 저장된다. 특히 새로운 기억을 생성하고 단기기억을 장기기억으로 전환하는 해마의 역할은 AI의 기억 메커니즘 개발에 중요한 영감을 주었다. 2012년 노벨 물리학상 수상자인 제프리 힌튼 교수가 고안한 딥러닝 초기 구조는 뇌가 정보를 저장하는 방식을 모방하여 인공 신경망을 구축하는 기반이 되었다. 앞서 언급했듯, 최신 LLM의 파라미터 수가 인간 뇌의 시냅스 수에 근접하고 있다는 점은 AI의 기억 용량과 정교함이 비약적으로 발전했음을 시사한다. 이제 AI 에이전트는 사용자의 선호도, 과거의 중요한 사건, 직업적 특성 등을 장기기억으로 저장하고, 이를 바탕으로 사용자의 다음 행동을 예측하고 선제적으로 제안하는 수준에 도달하고 있다.
마지막 핵심 능력은 행동이다. 인간에게 행동은 사고와 의도가 담긴 물리적 움직임을 의미한다. 하지만 AI 에이전트에게 '행동'은 사용자의 요청을 이행하기 위해 디지털 세계에서 수행하는 모든 '작업(Task)'을 의미한다. 이는 단순 정보 제공을 넘어, 실질적인 결과를 만들어내는 것이다.
AI 에이전트의 행동은 스마트폰이나 PC를 매개로 이루어진다. 전화 걸기, 메시지 보내기와 같은 기본적인 작업을 넘어, 이제는 더욱 복잡하고 개인화된 요청 처리가 가능해졌다. 예를 들어 "이번 주 금요일 저녁 7시, 강남역 근처에 있는 이탈리안 레스토랑 2인 예약해 줘. 평점 4.5 이상인 곳으로."와 같은 복합적인 명령을 이해하고, 여러 앱과 서비스를 넘나들며 예약을 완료한다. 또한 IoT 기술과 연동하여 집 안의 조명, 온도, 가전제품을 사용자의 생활 패턴에 맞게 자동으로 제어하는 등, 사용자를 대신하여 수많은 디지털 작업을 자율적으로 처리한다. 궁극적으로는 이 행동 능력이 로봇공학과 결합하여 물리 세계에서도 진정한 행동을 수행하는 시대가 올 것이지만, 2025년 현재의 행동은 주로 디지털 영역에 국한된다. 중요한 것은 AI의 행동이 단순한 자동화가 아니라, 추론과 기억에 기반한 '의도 있는 움직임'이라는 점이다.
현재 모바일 OS 생태계는 애플의 iOS와 구글의 안드로이드로 양분되어 있다. 두 운영체제는 서로 다른 개발 언어, 시스템 구조, UX/UI를 가지고 있어 개발자들은 동일한 서비스를 위해 개별 앱을 만들어야 했다. 이러한 파편화는 사용자 경험의 단절을 낳았고, 제조사 간의 폐쇄적인 경쟁을 심화시켰다.
AI 서비스 시장 역시 초기에는 비슷한 파편화의 길을 걷는 듯했다. ChatGPT, Claude, Perplexity, Gemini 등 수많은 AI 모델과 서비스가 각자의 강점을 내세우며 경쟁했지만, 이는 사용자에게 피로감과 선택의 어려움을 안겨주었다. 각 서비스에 종속된 플러그인이나 확장 기능은 또 다른 형태의 '벽'을 만들었다.
그러나 2025년 현재, AI 생태계는 디바이스 시장과는 다른 길을 걷기 시작했다. 바로 앞서 언급한 MCP와 같은 개방형 프로토콜의 등장 덕분이다. iOS와 안드로이드 사이에는 기기 간 파일 전송을 위한 공식적인 규약이 없어 서드파티 앱에 의존해야 했지만, AI 서비스 세계에는 'MCP'라는 공통의 약속이 생겨나고 있다. MCP는 AI 서비스계의 'USB Type-C'와 같은 역할을 수행하며, 어떤 LLM이든, 어떤 외부 서비스든 이 규약만 준수하면 서로 자유롭게 데이터를 주고받고 기능을 호출할 수 있게 한다. 특정 AI 서비스에 종속된 플러그인을 개발할 필요 없이, MCP 표준에 맞는 도구를 한 번만 만들면 모든 주요 AI 에이전트에서 활용할 수 있는 시대가 열리고 있는 것이다. 자체 플러그인 스토어(GPT Store)를 통해 폐쇄적인 생태계를 구축했던 OpenAI마저 MCP와의 호환성을 적극적으로 검토하면서, AI 시장은 예상보다 훨씬 빠르게 개방과 통합의 방향으로 나아가고 있다.
결론적으로, 앞으로 우리가 알던 '생태계'의 정의가 근본적으로 바뀔 가능성이 크다고 생각한다. 하나의 기업이 만든 제한된 테두리 안에서의 확장이 아닌, 서로 다른 서비스들이 개방형 프로토콜을 통해 유기적으로 연결되는 새로운 시대가 오고 있다. 제각각의 복잡다단한 구조를 가진 AI 서비스들이 MCP라는 공통 언어를 통해 하나로 융합되어, 사용자에게는 놀랍도록 단순하고 강력한 단일 경험을 제공하는 날이 머지않았음을 느낀다.
곧, AI Agent는 인간의 생활 속에 녹아들지 않을까.