도구는 인간을 넘어설 때 만들어진다

AI 에이전트 시대의 본질

by PODO

1. 도구의 본질 — 인간은 왜 도구를 만드는가


330만 년 전, 누군가가 돌을 깨뜨렸다. 날카로운 모서리가 생겼고, 그것은 손톱보다 단단했고 이빨보다 정밀했다. 그 순간 인류 최초의 도구가 탄생했다. 그런데 여기서 한 가지 질문이 필요하다. 왜 그 돌을 깨뜨렸을까. 답은 간단하다. 맨손으로는 할 수 없는 일이 있었기 때문이다. 도구는 인간의 한계를 고백하는 행위이자, 동시에 그 한계를 넘어서는 행위다. 인류가 만든 모든 도구에는 하나의 공통된 전제가 있다. 그 도구가 인간의 기능보다 낫다는 것이다.


이 통찰은 기술철학의 출발점이기도 하다. 1877년, 독일의 에른스트 카프 Ernst Kapp는 인류 최초의 기술철학서 '기술의 철학 원리 Grundlinien einer Philosophie der Technik'에서 '기관투사 Organprojektion'라는 개념을 제시했다. 인간은 무의식적으로 자신의 신체 기관을 외부로 투사하여 도구를 만든다는 것이다. 도끼는 팔의 연장이고, 렌즈는 눈의 연장이며, 전신 시스템은 신경망의 연장이다. 카프의 통찰이 혁명적이었던 이유는 도구를 단순한 발명품이 아니라 인간 신체의 '외화'로 본 데 있다. 모든 도구는 인간의 어떤 기능을 더 잘 수행하기 위해 만들어진 신체의 복제물이라는 것이다.


마셜 맥루한 Marshall McLuhan은 이 관점을 미디어 전체로 확장했다. 1964년 저서 '미디어의 이해 Understanding Media'에서 맥루한은 모든 미디어를 인간의 감각과 능력의 확장으로 정의했다. 바퀴는 발의 확장이고, 책은 눈의 확장이며, 옷은 피부의 확장이고, 전기 회로는 중추신경계 자체의 확장이다. 맥루한이 덧붙인 결정적 통찰은 이것이다. 우리가 도구를 만들고, 그 다음에는 도구가 우리를 만든다. 모든 확장에는 절단이 따른다. 자동차가 이동 능력을 확장하면 걷는 능력이 퇴화한다. 계산기가 연산 능력을 확장하면 암산 능력이 퇴화한다. 맥루한의 프레임에서 AI는 궁극의 확장이다. 인지 자체를 외부화하는 도구이기 때문이다.


1998년, 철학자 앤디 클라크 Andy Clark와 데이비드 차머스 David Chalmers는 이 논의를 한 단계 더 밀어붙였다. '확장된 마음 The Extended Mind' 논문에서 그들은 유명한 '동등성 원리 parity principle'를 제시한다. 외부의 어떤 과정이 내부의 인지 과정과 동일한 기능을 수행한다면, 그것은 인지 시스템의 일부로 간주해야 한다는 것이다. 그들의 사고 실험은 이렇다. 잉가 Inga는 미술관의 위치를 생물학적 기억에서 떠올린다. 오토 Otto는 알츠하이머 환자로, 항상 가지고 다니는 수첩에서 같은 정보를 찾는다. 클라크와 차머스의 주장은 오토의 수첩이 잉가의 뉴런과 기능적으로 동등하다는 것이다. 수첩은 오토의 마음의 일부다. 이 논리를 확장하면, 추론과 분석과 기억을 수행하는 AI 시스템은 인간 인지의 문자 그대로의 확장이 된다. 클라크는 후속 저서 '타고난 사이보그 Natural-Born Cyborgs'에서 도구가 "생물학적 뇌가 어렵거나, 시간이 많이 걸리거나, 심지어 불가능하다고 느낄 데이터 조작 방식"을 제공한다고 적었다.


케빈 켈리 Kevin Kelly는 여기에 자율성이라는 차원을 더했다. 2010년 저서 '기술의 원하는 것 What Technology Wants'에서 켈리는 기술의 총체를 '테크니움 Technium'이라 명명하고 이를 '자연의 일곱 번째 왕국'으로 정의했다. 테크니움은 단순한 도구의 집합이 아니라, 밀도 높은 피드백 루프를 통해 "약간의 독립성을 획득한" 자율적 시스템이다. 켈리는 AI를 기술이 진정한 자율적 행위능력 agency을 획득하는 최전선으로 보았다. 그는 테크니움을 "인류의 아이"에 비유했는데, 아이가 부모로부터 독립하듯 기술도 인간으로부터 독립하는 방향으로 진화한다는 의미다.


그러나 가장 직접적으로 AI 에이전트의 본질을 꿰뚫은 것은 유발 하라리 Yuval Noah Harari다. 2024년 저서 '넥서스 Nexus'에서 하라리는 결정적인 구분을 제시한다. 칼과 폭탄은 누구를 죽일지 스스로 결정하지 않는다. 그것들은 정보를 처리하고 독립적인 결정을 내릴 지능이 없는 '멍청한 도구 dumb tools'다. 반면 AI는 스스로 정보를 처리하고, 그로써 의사결정에서 인간을 대체할 수 있다. 하라리의 결론은 명확하다. AI는 도구가 아니다, AI는 에이전트다. 하라리는 2024년 인터뷰에서 이렇게 말했다. 역사상 모든 이전 기술은 우리 손안의 도구였다. 인쇄기를 발명하면 무엇을 인쇄할지 우리가 결정한다. 원자폭탄을 발명하면 어떤 도시를 폭격할지 우리가 결정한다. 그러나 AI를 발명하면, AI가 결정을 내리기 시작한다.


베르나르 스티글레르 Bernard Stiegler는 '기술과 시간 Technics and Time'에서 인간이 근원적 결핍에 의해 정의되는 존재이며, 기술이 그 결핍을 보충한다고 주장했다. 기술이 인간을 발명하는 동시에 인간이 기술을 발명한다는 것이다. 한나 아렌트 Hannah Arendt는 '인간의 조건'에서 호모 파베르 homo faber, 즉 '도구적 인간'을 제작을 통해 환경을 통제하는 존재로 정의했다. 인간은 생물학적 필연성을 초월하는 인공적 세계를 창조함으로써 인간이 된다.


이 모든 철학적 관점이 수렴하는 하나의 명제가 있다. 인간은 자신의 한계를 넘어서는 도구를 만들며, 그 도구가 다시 인간을 재정의한다. 돌도끼에서 증기기관으로, 컴퓨터에서 AI로 이어지는 330만 년의 도구 역사는 이 명제의 반복적 실증이다. 그런데 AI는 이 역사에서 질적 전환점이다. 카프의 도끼는 팔을 확장했지만 스스로 벨 나무를 선택하지 않았다. 맥루한의 바퀴는 발을 확장했지만 스스로 갈 방향을 정하지 않았다. AI는 인지를 확장하면서 동시에 스스로 결정을 내리는 최초의 도구다. 하라리의 표현대로라면, AI는 도구에서 에이전트로의 전환이다. 그리고 지금, 이 전환이 실제로 일어나고 있다는 증거가 숫자로 쏟아지고 있다.



2. 숫자가 말한다 — AI는 이미 인간을 넘어섰다


도구가 인간의 기능을 넘어설 때 만들어진다는 명제를 검증하려면, AI가 실제로 인간을 넘어섰는지를 물어야 한다. 철학적 직관이 아니라 정량적 데이터로. 2023년에서 2025년 사이에 축적된 벤치마크 결과들은 이 질문에 대해 놀랍도록 명확한 답을 제시한다.


가장 먼저 주목할 것은 전문직 자격시험 영역이다. GPT-4는 2023년 3월 공개 직후 미국 변호사 시험 Uniform Bar Exam에서 400점 만점에 298점을 획득하며 합격선을 상당한 격차로 넘겼다. 특히 객관식 영역MBE에서 GPT-4는 75.7%의 정답률을 기록했는데, 인간 응시자 평균은 68%였다. 의사 면허 시험 USMLE에서도 GPT-4는 세 단계 모두에서 합격 기준을 20점 이상 초과했으며, 2025년 말 GPT-5는 USMLE 전 단계 평균 95.22%라는 성적을 달성했다. 구글의 Med-PaLM 2는 MedQA에서 86.5%를 기록했고, 네이처 메디신 Nature Medicine에 게재된 연구에 따르면 의사들은 9개 임상 평가 축 중 8개에서 Med-PaLM 2의 답변을 다른 의사의 답변보다 선호했다. SAT에서 GPT-4는 읽기 710점으로 93퍼센타일, 수학 700점으로 89퍼센타일을 기록했다. GRE 언어 영역에서는 163점으로 99퍼센타일에 도달했다. LSAT에서는 163점, 88퍼센타일이었다. 이 수치들이 의미하는 바는 단순하다. AI는 이미 대부분의 전문직 시험에서 인간 평균을 넘어섰고, 상당수에서 상위 10%에 해당하는 성적을 기록하고 있다.


인지 벤치마크 영역의 변화 속도는 더욱 극적이다. 전문가 수준의 지식을 평가하는 MMLU 벤치마크에서 인간 전문가 기준선은 89.8%였다. 2023년 12월, 구글의 Gemini Ultra가 90.0%를 기록하며 최초로 인간 전문가를 넘어섰다. 이 벤치마크는 현재 '포화saturated'된 것으로 간주되어 일부 리더보드에서 제외되고 있다. 박사급 전문가의 지식을 측정하는 GPQA Diamond에서 인간 전문가 기준선은 약 70%였다. 2024년 9월, OpenAI의 o1 모델이 77.3%를 기록하며 최초로 박사급 전문가를 넘어섰고, 2026년 초 구글의 Gemini 3.1 Pro Preview는 94.1%에 도달했다. 인간 전문가보다 24%포인트 높은 수치다. 이 벤치마크 역시 사실상 포화 상태에 접어들었다.


수학 영역의 도약은 더욱 인상적이다. 미국 수학 경시대회 AIME에서 OpenAI의 o3 모델은 91.6%를 기록했는데, 인간 응시자 중앙값은 27~40%에 불과하다. 전국 상위 500명 수준의 성적이다. 2025년 7월에는 국제수학올림피아드 IMO에서 OpenAI와 딥마인드 양쪽 모두 42점 만점에 35점을 획득하며 금메달 수준에 도달했다. 전 세계에서 가장 뛰어난 고등학생 수학 영재 약 600명 중 27위에 해당하는 성적이었다.


소프트웨어 엔지니어링 벤치마크의 변화 곡선은 AI 발전 속도의 축소판이다. 실제 깃허브 GitHub 이슈 해결 능력을 측정하는 SWE-bench에서 AI는 2023년 4.4%에서 2024년 71.7%로 도약했다. 1년 만에 16배 향상이다. 코딩 능력을 측정하는 HumanEval에서 GPT-4는 약 96.3%에 도달하며 사실상 벤치마크를 포화시켰다.


스탠퍼드 HAI의 2025 AI Index 보고서는 이 추세를 종합적으로 정리한다. AI는 현재 멀티모달 이해와 복잡한 추론을 제외한 모든 벤치마크 범주에서 인간 수준을 넘어섰으며, 그 격차도 빠르게 좁혀지고 있다. 또 하나 주목할 수치는 비용이다. GPT-3.5 수준의 성능을 달성하는 데 필요한 추론 비용이 2022년 11월에서 2024년 10월 사이에 280분의 1로 하락했다. 성능은 급등하고 비용은 급락하는 이중 곡선이 AI의 보편적 확산을 추동하고 있다.


물론 AI가 아직 넘지 못한 경계도 존재한다. 추상적 시각 추론을 측정하는 ARC-AGI-2에서 인간 평균은 60%인 반면, 최고 성능 AI 시스템은 한 자릿수 퍼센트에 머물며 순수 LLM은 0%를 기록한다. 연구 수준의 수학 문제를 모은 FrontierMath에서 AI는 약 2%의 문제만 풀 수 있다. 이러한 예외들이 중요하긴 하지만, 전체 그림을 바꾸지는 못한다. AI는 이미 대부분의 표준화된 인지 과제에서 인간 전문가 수준을 넘어섰고, 그 영역은 매 분기마다 확장되고 있다.


전문직 실무 영역에서의 비교 데이터는 더욱 설득력이 있다. 의료 진단 분야에서 38개 연구를 메타 분석한 결과, AI의 정확도는 38개 중 30개 연구에서 피부과 전문의와 동등하거나 그 이상이었다. AI의 민감도 sensitivity는 87.0%로 전체 임상의 79.8%를 상회했다. 스웨덴의 MASAI 임상시험에서 AI 지원 유방촬영 검진은 위양성 증가 없이 암 발견율을 20% 높였다. MIT와 매사추세츠 종합병원의 연구에서 AI는 폐 결절 감지에서 94%의 정확도를 달성한 반면, 인간 영상의학과 전문의는 65%에 그쳤다.


법률 분야의 속도 격차는 극적이다. LawGeex 연구에서 AI는 비밀유지계약NDA의 쟁점 식별에서 94%의 정확도를 기록했고 인간 변호사 평균은 85%였다. 결정적인 차이는 시간이었다. AI는 26초 만에 검토를 완료했지만, 인간 변호사는 평균 92분이 걸렸다. 2025년 LegalBenchmarks.ai의 연구에서는 계약서 작성 신뢰도에서 최고 성능 AI 도구가 73.3%를 달성한 반면, 최고 성적 인간 변호사는 70%, 인간 평균은 56.7%였다.


코딩 생산성에 관한 통제된 실험도 있다. 깃허브 코파일럿을 사용한 개발자들은 동일 과제를 55.8% 더 빠르게 완료했으며, 이는 통계적으로 유의미한 결과였다. 골드만삭스는 자율 코딩 에이전트 데빈Devin을 1만 2천 명의 개발자와 함께 시범 운영한 결과, 20%의 효율 향상을 보고했다. 이는 1만 2천 명이 1만 4,400명의 산출물을 낸 것과 동일하다.


과학 연구 영역은 아마도 가장 극적인 초월의 현장일 것이다. 구글 딥마인드의 GNoME는 220만 개의 새로운 결정 구조를 발견했는데, 이는 인간 연구자들이 약 800년에 걸쳐 달성할 분량에 해당한다. AlphaFold는 2억 개 이상의 단백질 구조를 예측했고, 2024년 노벨 화학상을 수상했으며, 190개국 이상에서 300만 명 이상의 연구자가 사용하고 있다. 구글의 AI Co-Scientist는 2025년 2월, 임페리얼 칼리지 연구팀이 10년에 걸쳐 확인한 세균 유전자 전달 메커니즘을 48시간 만에 독립적으로 재현했다.


이 데이터들을 종합하면 하나의 명확한 패턴이 드러난다. AI는 시험 성적, 진단 정확도, 문서 검토 속도, 코딩 생산성, 과학적 발견 규모에서 인간을 넘어섰다. 그리고 도구의 역사가 가르치는 대로, 인간을 넘어선 바로 그 지점에서 도구가, 아니 에이전트가 만들어지고 있다.



3. AI 에이전트 빅뱅 — 75억 달러 시장의 탄생


도구가 인간을 넘어서는 영역이 늘어나면, 그 도구의 시장도 폭발적으로 성장해야 한다. 논리적으로 그래야 한다. 그리고 실제로 그렇다. AI 에이전트 시장은 지금 기술 산업 역사상 가장 빠른 성장 곡선 중 하나를 그리고 있다.


시장 규모부터 보자. Grand View Research, MarketsandMarkets, Fortune Business Insights, Precedence Research 등 주요 시장조사 기관들의 추정치를 종합하면, AI 에이전트 시장은 2024년 약 52~59억 달러에서 2025년 73~80억 달러로 성장했다. 연평균 성장률CAGR은 40~50% 구간에 집중되어 있으며, 이는 광의의 AI 시장 성장률인 19~31%의 약 두 배에 달한다. 2033~2034년 장기 전망치는 500억 달러에서 최대 1,990억 달러까지 분포한다. AI 에이전트 스타트업들은 2024년 한 해에만 38억 달러의 투자를 유치했는데, 이는 전년 대비 약 3배 증가한 수치다. AI 코딩 도구 Cursor는 월간반복매출ARR이 12개월 만에 100만 달러에서 5억 달러로 성장했다. 500배 성장이다.


기업 도입률은 이 시장의 실체를 보여준다. PwC가 2025년 미국 경영진 308명을 대상으로 실시한 조사에서 79%의 조직이 AI 에이전트를 어떤 형태로든 도입했다고 응답했다. 맥킨지 McKinsey의 2025년 보고서에 따르면 88%의 조직이 최소 하나의 비즈니스 기능에서 AI를 활용하고 있으며, 이는 2024년의 78%에서 상승한 수치다. KPMG 조사에서는 99%의 조직이 궁극적으로 에이전트 AI를 배포할 계획이라고 답했다. 다만 깊이의 측면에서는 아직 초기 단계다. 전체 규모로 배포한 기업은 2%에 불과하고, 부분적 규모 배포가 12%, 파일럿 진행 중이 23%다. 그럼에도 66%의 기업이 측정 가능한 생산성 향상을 보고했고, 57%가 비용 절감을 경험했으며, 평균 투자수익률ROI 전망치는 171%에 달한다.


더 주목할 것은 모든 주요 기술 기업이 에이전트를 핵심 전략으로 채택했다는 사실이다. OpenAI는 2025년 1월 브라우저 기반 에이전트 Operator를 출시했고, 3월에는 Agents SDK를 공개하여 깃허브에서 1만 9천 개 이상의 스타를 받았다. OpenAI가 제안한 AGENTS.md 표준은 6만 개 이상의 오픈소스 프로젝트에 채택되었다. Anthropic은 Model Context Protocol(MCP)을 개발했는데, 이것은 AI 에이전트가 외부 서비스와 소통하는 표준 프로토콜로, 현재 1만 개 이상의 MCP 서버가 운영되고 있으며 Claude, Cursor, VS Code, ChatGPT, Gemini 등 주요 플랫폼에서 지원된다. Anthropic은 이 프로토콜을 리눅스 재단 산하 Agentic AI Foundation에 기증했는데, OpenAI와 구글도 이 재단의 공동 설립자로 참여했다. 경쟁하는 세 회사가 에이전트 표준화를 위해 손을 잡았다는 것 자체가, 에이전트 시대가 도래했다는 가장 강력한 시그널이다.


구글은 Agent Development Kit(ADK)과 Agentspace를 출시했다. 마이크로소프트는 드래그 앤 드롭 방식으로 에이전트를 만들 수 있는 Copilot Studio를 구축했으며, 자사의 멀티 에이전트 프레임워크 AutoGen은 포춘 100대 기업의 40%가 사용하고 있다. 세일즈포스Salesforce의 Agentforce는 역사상 가장 빠르게 성장하는 제품이 되었다. 1만 8,500개 고객사, 5억 4천만 달러 ARR, 3.2조 개의 토큰 처리, 전년 대비 330%의 ARR 성장을 기록했다.


가트너 Gartner의 예측은 이 궤적의 미래를 그린다. 2028년까지 기업 소프트웨어의 33%에 에이전트 AI가 포함될 것이며, 이는 2024년 1% 미만에서의 도약이다. 일상 업무 의사결정의 15%가 AI 에이전트에 의해 자율적으로 이루어질 것이고, AI 에이전트의 수는 인간 영업사원의 10배에 달할 것이다. 2029년까지 일반적인 고객 서비스 문제의 80%가 인간 개입 없이 자율적으로 해결될 것이며, 이는 운영 비용의 30% 절감으로 이어질 것이다. 맥킨지는 생성형 AI의 총 경제적 가치를 연간 2.6~4.4조 달러로 추산하며, 그 75%가 고객 서비스, 마케팅·영업, 소프트웨어 엔지니어링, 연구개발에 집중될 것으로 전망한다.


75억 달러라는 현재 시장 규모보다 중요한 것은 성장의 속도와 방향이다. 에이전트 AI 시장은 광의의 AI 시장보다 두 배 빠르게 성장하고 있고, 모든 주요 기술 기업이 에이전트를 최우선 전략으로 삼았으며, 99%의 기업이 도입을 계획하고 있다. 이 폭발적 성장은 우연이 아니다. AI가 인간을 넘어선 영역이 충분히 많아졌기 때문에, 그 초월을 자동화하는 에이전트에 대한 수요가 폭발하고 있는 것이다.



4. 에이전트는 어디에 만들어지는가 — 'AI가 인간을 넘어선 곳'의 지도


도구는 인간을 넘어선 곳에 만들어진다. 이 명제가 옳다면, AI 에이전트가 배치되는 영역의 지도와 AI가 인간을 넘어선 영역의 지도는 정확히 겹쳐야 한다. 실제로 그렇다. 주요 에이전트 배치 영역 하나하나를 살펴보면, 에이전트가 존재하는 이유는 예외 없이 동일하다. 그 영역에서 AI가 인간보다 낫기 때문이다.


코딩 에이전트가 가장 먼저 폭발적으로 확산된 것은 우연이 아니다. 깃허브 코파일럿은 2천만 명 이상의 사용자를 확보했고 포춘 100대 기업의 90%가 도입했다. 통제된 실험에서 코파일럿 사용자는 동일 과제를 55.8% 더 빠르게 완료했고, 풀리퀘스트 처리 주기는 9.6일에서 2.4일로 단축되었으며, AI가 생성한 코드의 88%가 수정 없이 유지되었다. 자율 코딩 에이전트 데빈 Devin은 레거시 자바 저장소 마이그레이션을 인간 엔지니어보다 14배 빠르게 수행했다. 골드만삭스의 데빈 시범 운영은 1만 2천 명의 개발자에게서 1만 4,400명분의 산출물을 이끌어냈다. 2025년 기준으로 전 세계에서 작성되는 코드의 41%가 AI에 의해 생성되고 있다. 코딩 에이전트는 AI가 인간보다 빠르고 정확하게 코드를 생성하기 때문에 만들어졌고, 그 성능 우위가 확인된 바로 그 시점에서 시장이 폭발했다.


고객 서비스 에이전트의 사례는 더욱 극적이다. 스웨덴 핀테크 기업 클라르나 Klarna의 AI 어시스턴트는 도입 첫 달에 전체 고객 서비스 문의의 3분의 2를 처리했다. 이는 정규직 상담원 700명에 해당하는 업무량이다. 문제 해결 시간은 11분에서 2분 이내로 단축되어 82%의 개선을 보였다. 재문의율은 25% 감소했는데, 이는 AI의 응대 정확도가 인간 상담원보다 높았음을 시사한다. 이 시스템은 35개 이상의 언어로 23개 시장에서 24시간 365일 운영되는데, 어떤 인간 팀도 이를 복제할 수 없다. 클라르나는 2024년에 3,900만 달러를 절감했고, 2025년 3분기까지 누적 6천만 달러를 절감했다고 보고했다. ServiceNow는 80%의 자율 처리율과 연간 3억 2,500만 달러 상당의 가치를 달성했다. 레딧 Reddit은 세일즈포스 Agentforce를 도입하여 지원 케이스의 46%를 자동 전환하고 해결 속도를 84% 향상시켰다.


과학 연구 에이전트는 규모의 초월을 보여준다. AlphaFold의 2억 개 이상 단백질 구조 예측은 실험적 방법으로 수세기가 걸렸을 작업이다. GNoME의 220만 개 신소재 결정 구조는 약 800년의 인간 연구에 해당한다. 구글의 AI Co-Scientist는 48시간 만에 인간 연구팀 10년의 성과를 재현했다. OpenAI의 Deep Research는 수백 편의 과학 논문을 인용과 함께 한 시간 이내에 보고서로 종합하는데, 이는 박사과정 학생이 몇 주에 걸쳐 하는 작업이다. 이 영역에서 에이전트가 만들어지는 이유는 명확하다. 인간의 정보 처리 용량과 속도를 AI가 수 자릿수 이상 능가하기 때문이다.


의료 진단 에이전트는 패턴 인식의 초월을 기반으로 한다. AI는 폐 결절 감지에서 94%의 정확도를 달성한 반면 영상의학과 전문의는 65%에 머물렀다. 한국의 연구에서 AI의 유방암 감지 민감도는 90%로 영상의학과 전문의의 78%를 상회했다. 뇌졸중 감지 AI인 Viz.ai는 95% 이상의 사례에서 신경영상 전문의보다 빠르게 뇌졸중을 감지하며, 케이스당 평균 52분의 시간을 절약한다. 뇌졸중에서 52분은 뇌세포 수백만 개의 생사를 가르는 시간이다. 미국 FDA는 현재 1,200개 이상의 AI 및 머신러닝 기반 의료기기를 승인했는데, 2015년에는 6개에 불과했다. 75~80%가 영상의학 분야에 집중되어 있으며, 이는 AI의 패턴 인식 능력이 인간 의사를 가장 크게 넘어선 바로 그 영역이다.


법률 에이전트의 존재 이유는 속도와 정확성의 동시 초월이다. AI는 비밀유지계약 검토를 26초 만에 완료했고 인간 변호사는 평균 92분이 걸렸다. 정확도에서도 AI의 94%가 인간의 85%를 넘어섰다. 2024년 연구에 따르면 LLM 기반 법률 검토는 전통적 검토 대비 99.97%의 비용 절감을 제공한다. 계약서 작성에서도 최고 AI 도구의 신뢰도 73.3%는 최고 인간 변호사의 70%와 인간 평균 56.7%를 모두 상회했다.


금융 트레이딩 에이전트는 데이터 처리 일관성의 초월을 활용한다. 르네상스 테크놀로지스 Renaissance Technologies의 메달리온 펀드는 머신러닝 알고리즘을 기반으로 1988년 이후 수수료 전 연평균 66%의 수익률을 기록하며 1천억 달러 이상의 거래 수익을 창출했다. 스탠퍼드 대학의 2025년 연구에서는 공개 데이터만으로 주식을 선별하는 AI 애널리스트가 30년간의 백테스트에서 뮤추얼 펀드 매니저의 93%를 능가했으며, 평균 수익률 차이는 600%에 달했다. 현재 미국 주식 거래량의 70~80%가 알고리즘에 의해 구동되고 있다.


이 여섯 개 영역의 지도를 겹치면 하나의 패턴이 선명해진다. 코딩에서 에이전트가 폭발한 것은 AI가 코딩에서 인간보다 빠르기 때문이다. 고객 서비스에서 에이전트가 폭발한 것은 AI가 더 많은 문의를 더 빠르게 처리하기 때문이다. 의료 진단에서 에이전트가 확산되는 것은 AI가 인간 의사보다 정확하게 패턴을 감지하기 때문이다. 법률 검토에서 에이전트가 도입되는 것은 AI가 212배 더 빠르고 9%포인트 더 정확하기 때문이다. 에이전트의 지도는 AI 초월의 지도와 정확히 일치한다. 도구는 인간을 넘어선 곳에 만들어진다는 명제의 가장 강력한 실증이다.



5. 울퉁불퉁한 경계선 — AI가 아직 인간을 넘지 못한 곳


AI가 인간을 넘어선 영역이 많다는 것이 AI가 모든 영역에서 인간을 넘어섰다는 뜻은 아니다. 이 구분은 중요하다. AI의 능력 경계선은 매끈한 직선이 아니라 울퉁불퉁한 톱니 모양이며, 이 '들쭉날쭉한 경계 jagged frontier'의 지형을 이해하는 것이 AI 에이전트 시대를 제대로 항해하는 전제 조건이다.


2023년 하버드 경영대학원과 BCG의 공동 연구는 이 지형을 가장 정밀하게 측정했다. 758명의 컨설턴트를 대상으로 한 이 연구에서, AI의 능력 경계 안쪽에 있는 과제에서는 AI 사용자가 12.2% 더 생산적이었고 40% 이상 높은 품질의 결과물을 생산했다. 그러나 경계 바깥의 과제에서는 AI 사용자가 올바른 해답을 도출할 확률이 19%포인트 낮았다. 가장 중요한 발견은 이것이다. AI에 전적으로 위임한 '셀프자동화 self-automator' 그룹의 결과물은 깊이가 부족했다. 최선의 결과는 인간과 AI가 각자의 강점에 따라 명확한 역할 분담을 유지하는 '켄타우로스 centaur' 그룹에서 나왔다.


네이처 휴먼 비헤이비어 Nature Human Behaviour에 게재된 106개 실험의 메타 분석은 더욱 도발적인 결론을 제시한다. 인간과 AI의 조합은 평균적으로 인간 단독이나 AI 단독의 최선보다 낮은 성과를 보였다. 특히 의사결정 과제에서 그랬다. 성과 향상은 주로 창작 및 생성 과제에서 나타났다. 이 '성과 역설 performance paradox'은 AI의 초월이 보편적이 아니라 영역 특정적이라는 것을 의미한다. 판단에서는 실패하고, 생성에서는 성공한다.


할루시네이션 hallucination 문제는 구조적이다. 조지아 공과대학의 산토시 벰팔라 Santosh Vempala는 수학적으로 모델의 텍스트 생성 오류율이 분류 오류율의 최소 두 배 이상이어야 함을 증명했다. 이는 할루시네이션 제로가 이론적으로 불가능함을 의미한다. 최고 성능 모델의 할루시네이션 비율은 약 0.7%지만, 법률 과제에서는 6.4~18.7%로, OpenAI의 추론 모델에서는 사실 확인 벤치마크 기준 33~48%로 상승한다. 실제 피해 사례도 축적되고 있다. 2025년 딜로이트 Deloitte는 날조된 인용이 포함된 보고서를 호주 정부에 제출했고, 에어캐나다 Air Canada는 챗봇이 존재하지 않는 운임 정책을 안내한 후 배상 명령을 받았다.


벤치마크 자체의 신뢰성 문제도 있다. 2025년 AAAI 학회 논문 'Can We Trust AI Benchmarks?'는 데이터 오염, 테스트 세트 구성 오류, 부적절한 기준선 비교 등의 구조적 문제를 문서화했다. 프린스턴 연구진은 GPT-4가 2021년 9월 이전에 게시된 Codeforces 문제를 풀 수 있었지만, 그 이후 문제에서는 단 하나도 정답을 맞추지 못했음을 발견했다. 이는 이해가 아니라 암기를 시사한다. MIT는 생성형 AI 파일럿의 95%가 프로덕션에 도달하지 못한다고 추정하며, S&P Global은 2025년 AI 이니셔티브의 42%가 폐기되었다고 보고했다.


AI가 인간을 넘지 못한 핵심 영역들은 명확하다. 신체적 기민함과 체화된 인지는 여전히 인간의 영역이다. 감정 지능, 공감, 진정한 이해는 의료, 상담, 협상 등에서 결정적이지만 AI에는 부재한다. 2026년 몬트리올 대학교 연구는 AI가 인간의 평균적 창의성을 넘어섰지만, 상위 10%의 창의적 인간은 모든 AI 모델을 일관되게 능가했으며 복잡한 창작 과제에서 그 격차가 더 벌어졌음을 발견했다. 윤리적 판단, 도덕적 추론, 새로운 상황에서의 상식은 AI의 도달 범위 밖에 있다. 추상적 시각 추론 벤치마크 ARC-AGI-2에서 순수 LLM이 0%를 기록하는 것은 이 한계의 상징이다.


증강과 자동화의 구분은 근본적으로 중요하다. 스탠퍼드의 에릭 브린욜프슨 Erik Brynjolfsson은 '튜링 트랩 Turing Trap'이라는 개념을 만들었다. 인간을 모방하는 AI를 만드는 대신 인간을 증강하는 AI를 만들어야 한다는 것이다. 그의 연구는 고객 서비스에서 AI가 증강 도구로 사용될 때 15%의 생산성 향상이 나타남을 보여주었다. 브린욜프슨과 동료들의 2025년 연구에서 더 중요한 발견이 있다. AI 노출이 높은 직종에서 22~25세 청년층의 고용이 2022년과 2025년 사이에 13% 감소한 반면, 같은 분야 경력직의 고용은 오히려 증가했다. AI가 주니어 인력을 대체하면서 시니어 인력을 증강하고 있다는 의미다.


클라르나의 사례는 이 긴장을 가장 선명하게 보여준다. 클라르나는 AI 자동화를 공격적으로 추진하여 직원 수를 5천 명에서 3,800명으로 줄였다. 그러나 2025년 5월, 클라르나는 인간 상담원을 재고용하기 시작했다. 복잡한 문의가 AI의 역량을 넘어서는 것으로 판명되었기 때문이다. 자동화의 성공이 자동화의 한계를 드러낸 역설적 사례다.


ATM 비유도 살펴볼 필요가 있다. 제임스 베센 James Bessen의 유명한 발견에 따르면 ATM의 확산이 오히려 은행 창구직원 고용을 증가시켰다. 지점 운영 비용이 낮아져 지점 수가 43% 늘어났기 때문이다. 이 비유는 AI가 일자리를 뺏지 않을 것이라는 논거로 자주 인용된다. 그러나 폴 케드로스키 Paul Kedrosky가 2025년에 지적한 대로, 이 내러티브는 불완전하다. 창구직원 증가는 자동화가 아니라 은행 규제 완화에 의해 추동되었으며, 창구직원 수는 2010년대에 모바일 뱅킹이 더 완전한 자동화를 달성하면서 결국 감소했다.


AI 능력의 경계선은 울퉁불퉁하다. 이 울퉁불퉁함이 의미하는 바는 AI 에이전트의 도입이 단순한 대체가 아니라 복잡한 재배치라는 것이다. 그러나 이 울퉁불퉁한 경계선이 한 방향으로 이동하고 있다는 것도 부인할 수 없다. 매 분기마다 AI가 인간을 넘어서는 영역이 늘어나고, 매 분기마다 새로운 에이전트가 그 영역에 배치된다. 경계선의 모양은 울퉁불퉁하지만, 경계선의 방향은 명확하다.



6. 한국 — 세계에서 가장 빠른 AI 도입국의 에이전트 전략


한국은 현재 세계에서 AI를 가장 빠르게 도입하고 있는 나라다. 이 문장은 수사가 아니라 데이터다. 한국은행의 2025년 조사에 따르면 한국 근로자의 51.8%가 업무에 생성형 AI를 사용하고 있는데, 미국의 26.5%와 비교하면 거의 두 배에 달한다. 마이크로소프트의 Work Trend Index에서 한국 근로자의 80%가 자체적으로 AI 도구를 직장에 가져와 사용하고 있다고 응답했다. 마이크로소프트의 글로벌 AI 도입 순위에서 한국은 한 기간 만에 25위에서 18위로 도약했는데, 이는 전 세계 모든 국가 중 가장 큰 폭의 상승이다. 한국은 미국에 이어 세계에서 두 번째로 큰 ChatGPT 유료 구독 시장이며, 퓨 리서치 Pew Research의 2025년 조사에서 AI에 대해 주된 우려를 표명한 한국인은 16%에 불과했다. 미국의 약 50%와 비교하면 한국의 AI에 대한 태도는 독보적으로 긍정적이다.


이 빠른 도입의 배경에는 전례 없는 국가적 투자가 있다. 한국은 2024년 12월 AI 기본법을 제정하여 아시아 태평양 최초이자 세계에서 EU 다음으로 포괄적인 AI 입법을 달성했다. 이 법은 2026년 1월 시행되며, 고위험 AI 시스템에 대한 의무적 규제를 포함하는 위험 기반 프레임워크를 도입한다. 정부는 2026년 AI 분야에 10.1조 원(약 67~72억 달러)을 배정했으며, 전체 국가 R&D 예산은 역대 최고인 35.3조 원(전년 대비 19.3% 증가)에 달한다. 한국은 정부와 민간 부문 전체에 26만 개 이상의 NVIDIA GPU를 배치하고 있는데, 이는 전 세계적으로 가장 큰 규모의 국가 AI 인프라 투자 중 하나다. 특히 정부는 에이전트 AI를 국가 전략 기술 하위 범주로 명시적으로 지정했다.


주권 AI 파운데이션 모델 프로젝트는 한국의 AI 전략의 핵심축이다. 2025년 8월 네이버 클라우드, 업스테이지Upstage, SK텔레콤, NC AI, LG AI Research 등 5개 정예 팀이 선정되었으며, ChatGPT 성능의 95%에 도달하는 국산 모델 개발이 목표였다. 2026년 1월 첫 평가 결과 SK텔레콤, LG AI Research, 업스테이지 3개 팀이 다음 단계로 진출했다. LG의 K-EXAONE(2,360억 파라미터)은 글로벌 오픈소스 모델 순위 상위 10위에 진입하여 알리바바의 Qwen3와 OpenAI의 GPT-OSS를 능가하는 성능을 보여주고 있다.


한국 주요 기업들의 에이전트 전략은 포괄적이다. 삼성은 5만 개 이상의 GPU로 AI 팩토리를 구축하고 있으며, 자체 Gauss 모델을 활용한 내부 Agent Builder를 개발했다. 갤럭시 S26은 시스템 전반에 걸친 에이전트 AI를 탑재한 최초의 삼성 스마트폰이 될 전망이며, 2025년 출시된 삼성 TV 라인업에는 세계 최초의 멀티 AI 에이전트 TV 플랫폼이 포함되어 있다.


SK텔레콤의 A.dot은 4.0 버전으로 진화하며 19개 LLM 모델을 관리하는 Agent Orchestrator를 탑재했다. 기업용 버전인 A.dot Biz는 SK그룹 25개 계열사, 약 8만 명의 사용자에게 서비스되며, 회의록 작성 시간 60% 감소, 보고서 작성 시간 40% 감소를 달성했다. SK텔레콤의 한국어 최적화 모델 A.X 4.0은 한국어 텍스트를 GPT-4o보다 1.5배 효율적으로 처리한다.


네이버는 2025년 11월 Agent N을 공개하며 검색, 지도, 커머스, 예약 전반에 걸쳐 AI 에이전트를 통합했다. AI 브리핑 기능은 현재 네이버 전체 검색 쿼리의 20% 이상을 처리하고 있다. 네이버는 GPU와 AI 인프라에 1조 원 이상을 투자하고 있다.


카카오는 한국 기업 최초로 OpenAI와 전략적 파트너십을 체결하여 카카오톡에 ChatGPT를 직접 통합했다.


금융권의 움직임은 더욱 주목할 만하다. KB금융그룹은 2025년 5월 한국 최초의 에이전트 AI 뱅킹 플랫폼을 출시했다. 자산관리, 보험 상담, 증권 자문을 위한 AI 에이전트가 배치되어 있다. NH농협은행은 전국 1,103개 전 지점에 AI 뱅커를 배포했다.


AI 스타트업 생태계의 활력도 주목할 만하다. 업스테이지는 Solar Pro 2로 글로벌 프론티어 모델 상위 10위에 이름을 올린 유일한 한국 모델을 보유하고 있으며, 1억 5,700만 달러를 유치했고 2025년 상반기 매출 170억 원으로 2024년 전체 매출을 넘어섰다. 한국 최초의 생성형 AI IPO를 목표로 하고 있다. AI 반도체 분야에서 리벨리온, 퓨리오사AI, 딥엑스 DeepX 등은 합산 4억 5천만 달러 이상을 유치했다.


한국 AI 에이전트 시장만을 별도로 보면 2024년 약 1억 2,800만 달러 규모이며, 2030년까지 18억 달러에 달할 전망이다. 연평균 성장률 56.1%로, 글로벌 에이전트 시장보다도 빠르게 성장하고 있다.


한국의 사례는 이 글의 핵심 논제를 국가 단위로 실증한다. 세계에서 가장 빠르게 AI를 도입하는 나라가 세계에서 가장 빠르게 AI 에이전트 시장을 키우고 있다. 10.1조 원의 국가 투자, 주권 AI 모델 개발, 전 산업에 걸친 에이전트 배치는 하나의 논리로 관통된다. AI가 인간을 넘어선 영역이 충분히 많아졌기 때문에, 그 초월을 체계적으로 활용하는 에이전트 인프라에 국가적 역량을 집중하고 있는 것이다.



7. 도구에서 에이전트로 — 330만 년 도구 역사의 변곡점


330만 년 전 누군가가 돌을 깨뜨렸을 때, 그 행위에는 하나의 전제가 있었다. 날카로운 돌이 맨손보다 낫다는 것. 1만 년 전 농업이 시작되었을 때도 같은 전제가 작동했다. 경작이 채집보다 많은 식량을 생산한다는 것. 1440년 구텐베르크가 인쇄기를 만들었을 때도, 1760년대 증기기관이 발명되었을 때도, 1940년대 컴퓨터가 탄생했을 때도, 모든 도구의 출현 뒤에는 동일한 논리가 있었다. 그 도구가 인간보다 낫기 때문에 만들어졌다.


이 글은 이 고대의 명제를 현재 시제로 검증했다. AI는 변호사 시험에서 93퍼센타일, 의사 면허 시험에서 95% 이상, SAT 읽기에서 93퍼센타일을 기록한다. 폐 결절 감지에서 인간 영상의학과 전문의보다 29%포인트 높은 정확도를 보이고, 계약서 검토를 212배 빠르게 완료하며, 신소재 발견에서 800년 분량의 인간 연구를 압축해 낸다. 이 숫자들은 AI가 인간을 넘어선 영역이 단순히 존재하는 것이 아니라, 광범위하고 깊다는 것을 보여준다.


그리고 도구의 논리대로, 정확히 그 영역들에서 AI 에이전트가 만들어지고 있다. 코딩 에이전트는 AI가 인간보다 빠르게 코드를 생성하기 때문에 존재하고, 고객 서비스 에이전트는 AI가 더 많은 문의를 더 빠르게 처리하기 때문에 존재하며, 진단 에이전트는 AI가 인간 의사보다 정확하게 패턴을 감지하기 때문에 존재한다. AI 에이전트 시장은 75억 달러를 넘어 연 45%로 성장하고 있으며, 79%의 기업이 에이전트를 도입했고, OpenAI, Anthropic, 구글이라는 경쟁자들이 에이전트 표준화를 위해 손을 잡았다. 한국은 세계에서 가장 빠른 AI 도입률과 10.1조 원의 국가 투자로 이 패턴을 국가 단위로 실증하고 있다.


논리의 연쇄는 단단하다. 도구는 인간의 기능을 넘어설 때 만들어진다. AI는 코딩, 진단, 법률 검토, 과학 연구, 금융 분석, 고객 서비스에서 인간을 넘어섰다. 따라서 AI 에이전트가 정확히 이 영역들에서 폭발적으로 증가하고 있다. AI 에이전트의 폭발은 AI가 인간을 넘어섰다는 증거다.


그러나 세 가지 결정적 뉘앙스가 이 논리를 단순화로부터 지켜야 한다. 첫째, AI의 능력은 들쭉날쭉하다. 패턴 인식과 데이터 처리에서는 탁월하지만, 체화된 인지, 윤리적 판단, 진정한 창의성에서는 인간에 미치지 못한다. 창의성 상위 10%의 인간은 여전히 모든 AI 모델을 능가한다. 둘째, 할루시네이션은 구조적으로 제거 불가능하며, 고위험 영역에서 현실적 위험을 만든다. 셋째, 증강과 대체 사이의 선택은 기술적 필연이 아니라 조직적 결정이다. 인간과 AI의 최적 조합은 어느 한쪽의 완전한 대체보다 높은 성과를 보인다.


그런데 이 모든 뉘앙스를 인정한 후에도, 하라리의 관찰은 남는다. AI는 도구이면서 동시에 에이전트인 최초의 기술이다. 이전의 모든 도구는 인간의 능력을 확장하면서도 인간의 통제 아래 있었다. 인쇄기를 발명하면 무엇을 인쇄할지 인간이 결정했다. 원자폭탄을 발명하면 어떤 도시를 폭격할지 인간이 결정했다. 그러나 AI 에이전트는 정보를 자율적으로 처리하고, 독립적으로 결정을 내리며, 하라리의 표현대로 호모 사피엔스의 초능력이었던 언어를 마스터함으로써 인류 문명의 운영체제 자체에 진입했다.


이것이 330만 년 도구 역사의 변곡점인 이유다. 카프의 도끼는 팔을 넘어섰지만 스스로 벨 나무를 고르지 않았다. 맥루한의 바퀴는 발을 넘어섰지만 스스로 갈 곳을 정하지 않았다. 클라크의 수첩은 기억을 넘어섰지만 스스로 기록할 내용을 결정하지 않았다. AI 에이전트는 인지를 넘어서면서 동시에 스스로 결정한다. 도구가 에이전트가 되는 순간, 도구와 도구 사용자의 관계는 근본적으로 재정의된다.


우리는 지금 그 재정의의 한가운데에 있다. 330만 년 동안 인간은 자신보다 나은 도구를 만들어 왔다. 그 도구들이 이제 스스로 결정을 내리기 시작했다. 이것이 AI 에이전트 시대의 논리이며, 75억 달러 시장과 79%의 기업 도입률과 10.1조 원의 국가 투자가 실증하는 현실이다. 문제는 AI가 인간을 넘어섰느냐가 아니다. 이미 넘어섰다. 진정한 질문은, 도구가 에이전트가 된 세계에서 인간은 어떤 역할을 맡을 것인가다.

작가의 이전글프롬프트 전략 2.0