마누스는 제2의 딥시크 모먼트가 되지는 않을 것입니다.

모니카(Monica)가 공개한 범용 AI 에이전트 마누스(Manus)

by BH

범용 AI 에이전트, 마누스

지난 2025년 3월 6일, 중국의 모니카(Monica)는 마누스를 공개했습니다. 마누스는 '손'을 의미하는 라틴어로, 범용 AI 에이전트(General AI Agent)를 목표로 하는 모니카의 의도를 잘 나타냅니다.


범용 AI 에이전트라는 이름이 붙은 배경은 마치 사람이 PC를 사용하여 업무를 하는 것처럼 마누스가 직접 웹 브라우저와 PC를 제어하여 문제를 풀어내는 구조로 구성되어 있기 때문입니다. 아마존에 입점한 상점의 판매 실적을 분석하거나, 특정 산업의 AI 솔루션을 조사 및 분석하거나, 여행 계획을 세우는 일 등을 할 수 있습니다. 일부 영역에서는 오픈AI의 딥 리서치(Deep Research)와 유사한 기능을 수행하기도 합니다.


현재 마누스는 초청받은 사람 중심으로 사용이 가능하며, 공개 사용 지원을 받고 있으나 사용 승인을 받는 비율은 매우 낮은 것으로 알려져 있습니다.

Pasted image 20250311160539.png 범용 AI 에이전트를 표방하는 모니카(Monica)의 마누스(Manus)



마누스의 구조

마누스는 '마누스 컴퓨터'라는 명칭의 인터넷이 접속된 가상 PC(우분투 리눅스 기반)를 제어하는 방식으로 동작합니다. 마누스 컴퓨터 내에서의 동작은 인식 -> 계획 -> 실행 세 단계를 반복해 가며 구동되며, 이 과정에서 멀티모달 LLM 모델을 사용합니다.


'인식'은 사용자의 명령을 인식하고 계속해서 변경되는 마누스 컴퓨터의 상태를 파악하는 단계를 말합니다. 이때의 상태는 마누스 컴퓨터의 웹 브라우저 및 리눅스 터미널 내에서의 행동과 파일 시스템의 변화 등, 우리가 실제로 PC를 사용하는 과정에서 인지하는 모든 변화에 대한 상태 인식과 개념적으로 동일합니다. '계획'은 LLM을 통해 마누스 컴퓨터를 어떻게 조작할 것인지 전략을 세우는 단계를 말하며, '실행'은 LLM이 마누스 컴퓨터를 직접 제어하는 단계입니다.


마누스가 사용하는 AI 모델은 최초 공개 시점 기준으로 멀티 에이전트를 사용하고 있다고 밝혔습니다. 그러나 후속 인터뷰에서는 알리바바 클라우드의 QwQ-2.5.Max 모델을 사용한다고 말했습니다. 하지만 마누스 사용자들은 소스코드를 해킹하여 공개했으며, 이를 토대로 분석한 결과 앤트로픽의 클로드 3.5 소넷 (Claude 3.5 Sonnet) 단일 모델을 사용하는 것으로 보입니다. 마누스의 소스코드는 ANUS 프로젝트 및 OpenManus 프로젝트 등으로 유출되어 있습니다. 아래와 같이 Claude 3.5 Sonnet 모델을 사용하는 것으로 추정됩니다 (OpenAI GPT-4o 모델을 사용할 수 있는 옵션과 구현체 또한 존재합니다).

Pasted image 20250311222035.png 유출된 마누스의 설정 파일의 일부



마누스의 성능

마누스는 범용 AI 에이전트의 성능을 측정하는 GAIA(General AI Agent) 벤치마크 지수 기준으로 오픈AI의 딥 리서치보다 우수한 성능을 보이는 것으로 알려져 있습니다. 아래의 성능은 모니카가 제공한 마누스의 GAIA 벤치마크 결과입니다.

Pasted image 20250311144556.png 마누스의 GAIA 벤치마크 성능. 오픈AI 딥 리서치보다 우수하다.



GAIA 살펴보기

GAIA는 General AI Agent의 약자로, 메타 플랫폼스(Meta Platforms)의 FAIR (Fundamental AI Research)에서 만든 범용 AI 에이전트 성능 측정을 위한 벤치마크입니다. 얀 르쿤(Yann LeCun) 또한 이 지표를 만드는 데 참여했습니다.


GAIA는 AI에게 질문을 던지고, 올바른 결과를 도출하는지의 여부로 성능을 평가합니다. 벤치마크 데이터는 총 3단계로 구성되어 있는데, 질문에 대한 답변을 도출하기까지 얼마나 추론이 필요한지에 따라 구분된 레벨입니다. 레벨 1은 추론을 사용하지 않고 풀 수 있는 문제, 레벨 2는 간단한 추론을 해야 풀 수 있는 문제, 레벨 3은 깊은 수준의 추론을 해야 풀 수 있는 문제로 구성되어 있습니다. 각 레벨 별 예사는 아래와 같습니다.


레벨 1 예시

질문: "Scikit-Learn 2017년 7월 변경로그에서, 어떤 다른 예측기의 기본(base) 명령의 버그가 수정되었나요? 경로가 아닌 이름을 알려주세요." (In the Scikit-Learn July 2017 changelog, what other predictor base command received a bug fix? Just give the name, not a path.)

답변: BaseLabelPropagation


레벨 2 예시

질문: "가장 오래 사는 척추동물은 한 섬의 이름을 따서 명명되었습니다. 2021년 1월 1일 기준 위키피디아에 따르면, 해당 섬의 2020년 추정 인구는 천 단위로 반올림하면 얼마인가요?" (The longest-lived vertebrate is named after an island. According to Wikipedia as of January 1, 2021, what is the 2020 estimated population of that island, to the nearest thousand?)

답변: 56000


레벨 3 예시

질문: "2023년 6월 마지막 버전의 영어 위키피디아 페이지에서, 8월의 각 날짜별 페이지에 트위터/X 게시물이 참고 문헌으로 몇 번 인용되었나요?" (How many times was a Twitter/X post cited as a reference on the english Wikipedia pages for each day of August in the last June 2023 versions of the pages?)

답변: 3


이와 같이, GAIA 벤치마크의 질문에 대한 답변을 내리기 위해서는 웹 브라우징을 자유롭게 할 수 있어야 하며, 수집한 정보를 취합하여 결과를 도출해 내어야 합니다.



마누스의 한계: 왜 마누스는 제2의 딥시크 모먼트가 될 수 없는가?

한편, 마누스는 범용 AI 에이전트라는 명칭에도 불구하고 실질적인 범용성을 갖추지 못했다는 평가가 있습니다. 가장 큰 이유는 마누스가 LLM을 기반으로 하기 때문에 LLM의 한계를 그대로 지니고 있다는 것입니다. LLM의 대표적인 한계는 의사 결정으로 내리고 우선순위를 설정하는 것과 같은 정성적이며 책임 소재가 발생하는 요소에서 결정을 내리지 못한다는 것입니다. 이는 사람이 해야만 하는 부분이며, 본질적으로 AI가 대신해 줄 수 없는 부분입니다. 마누스가 다재다능한 것은 맞지만 핵심 기능을 LLM에 의존하는 만큼, 그 한계 또한 LLM에 종속되어 있습니다.


딥시크의 경우, 중국 LLM의 성능을 한 층 높였다는 점에서 미국 및 전 세계에 큰 놀라움을 주었습니다. 우수한 핵심 기술력을 공개했기 때문입니다. 그러나 마누스는 만들어진 LLM을 활용하는 도구로, LLM에 비해 기술적 해자가 낮습니다. 즉 엔지니어링에 대한 집중 투자로 달성할 수 있는 성과이며, 창출해 낼 수 있는 부가가치 또한 제한된다는 점에서 한계가 큽니다. 마누스는 제2의 딥시크 모먼트가 되기에는 부족합니다.



참고 자료

Manus AI: The Best Autonomous AI Agent Redefining Automation and Productivity | Hugging Face

Manus probably isn’t China’s second ‘DeepSeek moment’ | TechCrunch

Overhyped: Manus From Monica — AI Made In China | Forbes

Leaked Manus Source Code | Manus

nikmcfly/ANUS | GitHub

keyword