LLM 3년 4개월의 진화사 — 2026년 3월 31일 기준
1. 2022년 11월 30일, 세계가 멈춘 날
왜 이 전환이 일어났는가. 2022년 11월 30일 이전까지, '챗봇이 세상을 바꿀 것'이라 예측한 사람은 거의 없었다.
OpenAI가 그날 공개한 것은 GPT-3.5에 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 적용한 대화형 인터페이스였다. 기술적으로 보면 기존 GPT-3의 미세 조정판. 그런데 이 '미세 조정'이 만든 차이는 수치로 드러났다. 사람의 질문에 사람처럼 답하는 AI — 불완전하지만 '대화가 되는' 첫 대중 경험이었다.
ChatGPT는 출시 5일 만에 100만 사용자를 확보했다. 2개월 만에 월간 활성 사용자(MAU) 1억 명을 돌파했다. 인스타그램이 같은 숫자에 도달하는 데 2.5년, 틱톡은 9개월이 걸렸다.
구글은 내부에 '코드 레드'를 발령했다. 20년간 검색 시장을 지배해온 기업이, 대화형 AI를 검색 사업에 대한 위협으로 판단한 것이다. 래리 페이지와 세르게이 브린이 경영에 복귀해 AI 전략을 재검토했다. 마이크로소프트는 2023년 1월, OpenAI에 100억 달러(약 13조 원)를 추가 투자했다. 누적 투자 총액은 130억 달러에 달했다. 빅테크 사이에서 AI는 하룻밤 사이에 '흥미로운 연구 주제'에서 '핵심 생존 전략'으로 격상되었다.
ChatGPT 이전에도 GPT-3는 존재했고, AI 연구자들은 대형 언어 모델의 잠재력을 알고 있었다. 그러나 연구실의 데모와 대중의 경험 사이에는 건널 수 없는 간극이 있었다. ChatGPT가 한 것은 그 간극에 다리를 놓은 일이었다. RLHF라는 기술과 대화형 인터페이스라는 포장이 만든 차이는, 기술 수준의 차이가 아니라 접근성의 차이였다.
이 글은 그로부터 3년 4개월간의 여정을 추적한다.
그 여정의 핵심은 하나의 질문이 다른 질문으로 대체되는 과정이었다. '모델이 얼마나 똑똑한가'에서 '모델이 얼마나 많은 일을 하는가'로. 2022년 11월의 ChatGPT는 오직 텍스트만 생성하는 존재였다. 외부 세상과 연결되지 않았고, 스스로 행동할 수 없었고, 대화창 밖으로 나갈 수 없었다. 이 한계가 어떻게, 언제, 누구에 의해 풀렸는지가 이 글의 본론이다.
2. 프론티어 모델 군비 경쟁: GPT-4에서 Claude 3까지
ChatGPT가 만든 파장은 모든 빅테크에 동일한 신호를 보냈다 — '지금 당장 더 똑똑한 모델을 내놓아야 한다'.
2023년 3월 14일, OpenAI가 GPT-4를 공개했다. MMLU(Massive Multitask Language Understanding) 점수 86.4%. 변호사 시험 상위 10%, SAT 수학 상위 11%. 기존 GPT-3.5와의 격차는 벤치마크 위의 숫자를 넘어서는 것이었다. GPT-4는 멀티모달(텍스트+이미지 입력)의 시작이기도 했다.
이후 12개월은 군비 경쟁이었다. 각사가 프론티어 모델을 내놓은 순서를 정리하면 다음과 같다.
• 2023.3 | OpenAI | GPT-4 | MMLU 86.4%, 멀티모달 입력, 변호사 시험 상위 10%
• 2023.7 | 앤트로픽 | Claude 2 | Constitutional AI 접근, 100K 토큰 컨텍스트
• 2023.7 | 메타 | Llama 2 | 오픈소스 공개, 연구·상업 라이센스 허용
• 2023.11 | xAI | Grok 1.0 | 일론 머스크 진입, X 데이터 차별화
• 2023.12 | 구글 | Gemini 1.0 | Bard→Gemini 리브랜딩, MMLU 90.0% 주장
• 2024.3 | 앤트로픽 | Claude 3 | Opus/Sonnet/Haiku 3-티어 전략, Opus MMLU 86.8%
앤트로픽은 다른 경로를 택했다. OpenAI 출신 연구자들이 설립한 이 기업은 Constitutional AI라는 프레임을 내세우며 '안전한 AI'를 전면에 놓았다. 2023년 7월 Claude 2를 출시하며 100K 토큰의 긴 컨텍스트를 무기로 삼았다. 2024년 3월에는 Claude 3를 출시하면서 Opus/Sonnet/Haiku라는 3-티어 전략을 도입했다. 성능, 가격, 속도라는 세 축으로 모델을 분리 배치했다. 기업가치는 2023년 50억 달러에서 2025년 3월 617.5억 달러로 뛰었다.
구글의 대응은 속도를 앞세웠으나 안정감이 부족했다. 2023년 2월 서둘러 공개한 Bard는 시연 중 사실 오류를 내며 시장에 부정적 신호를 보냈고 12월에야 Gemini 1.0으로 리브랜딩하며 재출발했다. Gemini 1.0 Ultra는 MMLU 90.0%를 주장하며 '최초로 인간 전문가(89.8%)를 초과했다'고 발표했지만 검색 제국이 AI 경쟁에서 뒤처질 수 있다는 위기감이 구글을 뒤덮어버린 후였다.
메타는 전혀 다른 전략을 들고 나왔다. Llama 2를 오픈소스로 공개한 것이다. 마이크로소프트와 파트너십으로 Azure 배포까지 지원했다. 왜 수십억 달러를 들인 모델을 무료로 풀었는가 — 이 질문은 다음 섹션에서 다룬다.
2023년 7월에는 일론 머스크가 xAI를 공식 설립하며 경쟁에 뛰어들었다. 11월에 X(구 트위터) 플랫폼의 실시간 데이터에 접근할 수 있는 Grok 1.0을 출시함으로서 5사 경쟁 구도가 이 시점 확정되었다. 이후 xAI의 모델 진화 속도는 업계에서도 이례적이었다. Grok 1.5(2024.3) → 2(2024.8) → 3(2025.2) → 4(2025.7) → 4.1(2025.11) → 4.20 Beta(2026.2)로 3.5를 건너뛰고 4로 직행한 것은, 경쟁사 대비 6개월 이상 짧은 세대 주기를 유지하겠다는 의지를 보여주었다.
이 시기의 경쟁을 관통하는 키워드는 '벤치마크'였지만 이후 회사별 근본적인 전략 분기가 드러나기 시작했다.
3. 오픈소스 vs 클로즈드: 갈라지는 두 세계
왜 이 전환이 일어났는가. 모델이 상품이 되면, 상품의 가격은 내려간다. 오픈소스는 그 하락 압력을 극단까지 밀어붙이는 힘이었다.
메타가 2023년 7월 Llama 2를 오픈소스로 공개한 것은 자선이 아니었다. 전략이었다. 메타는 AI 모델 자체를 판매하지 않는다. 메타의 수익은 광고에서 나온다 — 2025년 기준 전체 매출의 97%가 광고 매출이다. AI 모델이 범용화될수록 경쟁사의 클로즈드 모델 프리미엄은 줄어들고, 메타의 광고 플랫폼 위에서 AI를 활용할 수 있는 기업은 늘어난다. 오픈소스는 메타에게 비용이 아니라 무기였다. 그리고 이 전략이 다른 4사와 메타를 근본적으로 구분짓는 출발점이었다 — OpenAI, 앤트로픽, 구글, xAI에게 AI는 제품이거나 플랫폼이다. 메타에게 AI는 기존 30억 사용자 앱(Instagram, WhatsApp, Facebook, Messenger)의 engagement를 끌어올리는 드라이버이다.
Llama의 진화는 빨랐다.
• 2023.7 | Llama 2 | 7B/13B/70B | 오픈소스 LLM 시대 개막, 상업 라이센스
• 2024.4 | Llama 3 | 8B/70B | 오픈소스 중 최상위 MMLU 82%(70B)
• 2024.7 | Llama 3.1 | 405B | GPT-4급 성능의 오픈 모델이라는 상징
• 2025.4 | Llama 4 | Scout(109B/17B활성)/Maverick(400B/17B활성) | MoE 전환, 네이티브 멀티모달
누적 다운로드는 6억 회를 넘었다.
그런데 Llama 4는 기대와 현실의 간극을 적나라하게 보여준 사례이기도 했다. 2025년 4월 출시 직후 Maverick이 Chatbot Arena 리더보드 2위를 기록하며 화제를 모았으나, 곧 리더보드에 제출된 버전이 일반 공개 버전과 다르다는 사실이 드러났다. 실험적 튜닝을 거친 별도 체크포인트를 제출한 것이다. 커뮤니티의 반발이 거세졌고, 재평가 후 Maverick은 2위에서 32위로 추락했다. 메타 AI 수석 과학자 얀 르쿤은 자신의 소셜 미디어에서 결과가 "fudged"(조작)되었음을 시인했다. 한편 Llama 4의 최상위 모델로 예고되었던 Behemoth(2T 파라미터)는 학습 효율 문제로 무기한 연기되었다. 벤치마크 스캔들과 플래그십 모델 지연 — Llama 4의 출발은 순탄하지 않았다.
프랑스에서도 Mistral AI가 2023년 4월 설립되어, 9월에 Mistral 7B을 공개했다. 7B 파라미터로 Llama 2 13B급 성능을 내면서 '작지만 효율적인 모델'의 가능성을 입증했고 12월에는 MoE(Mixture of Experts, 혼합 전문가) 아키텍처를 대중화한 Mixtral 8x7B을 선보였다.
중국 DeepSeek은 2024년 5월 V2를 공개하며 MoE 기반의 저비용 고효율 모델로 주목받았다. 236B 파라미터 중 21B만 활성화하는 구조로 API 가격을 극적으로 낮춰 '가격 전쟁'을 촉발했다. 그리고 2025년 1월, OpenAI의 유료 추론 모델 o1과 비슷한 성능을 가진 DeepSeek-R1을 오픈소스로 공개했다. 미국 AI 관련 주가가 일시적으로 급락했고 NVIDIA를 포함한 반도체주가 크게 흔들렸다. 2023년 시점에서 업계의 관심은 미국 내 빅테크 경쟁에 집중되어 있었고, 중국발 오픈소스가 이 정도의 파장을 만들 것이라는 전망은 거의 없었기에 촉발된 것이다.
구글은 양다리를 걸었다. 상용 모델 Gemini는 클로즈드로 유지하면서, 2024년 2월에 Gemma라는 오픈웨이트 모델을 별도로 공개했다. 시장을 내주지 않으면서 오픈소스 생태계에도 발을 걸치겠다는 계산이었다.
한편 OpenAI는 이름과 현실의 괴리에 시달렸다. 'Open'이라는 이름을 달고 있지만, 핵심 모델은 모두 클로즈드였다. 2024년 2월, 일론 머스크가 OpenAI를 상대로 소송을 제기했다. 설립 취지인 오픈소스와 비영리 원칙을 위반했다는 주장이었다.
각사의 오픈소스 전략 비교:
• 메타 — 전면 오픈 | Llama 시리즈 | 모델 범용화로 플랫폼 가치 극대화
• 미스트랄 — 오픈 중심 | Mistral/Mixtral | 유럽 AI 주권 + 효율 중심 브랜딩
• DeepSeek — 오픈 중심 | V2/V3/R1 | 저비용 고효율로 글로벌 파장
• 구글 — 양다리 | Gemma(오픈) + Gemini(클로즈드) | 시장 점유 + 생태계 참여 동시 추구
• OpenAI — 클로즈드 | GPT 시리즈 | 안전+수익+R&D 투자 회수
오픈소스의 확산은 단순히 기술의 민주화만 의미하지 않았다. 모델 자체의 희소성이 낮아지면서, 경쟁의 축이 '모델의 지능'에서 다른 영역으로 이동하는 압력이 형성되기 시작했다. 모델이 무료라면, 무엇으로 돈을 버는가. 클로즈드 진영의 반론도 있었다. 안전성 연구에 필요한 자금은 수익이 있어야 확보할 수 있고, 오픈소스 모델의 악용 가능성은 공개 시점에 통제할 수 없다는 주장이었다. 그러나 시장의 압력은 거세졌다. 이 질문이 이후의 산업 지형을 결정했다.
4. 멀티모달의 확장: 텍스트를 넘어서
왜 이 전환이 일어났는가. 텍스트만 이해하는 AI는 세상의 절반도 인식하지 못하는 존재였다. 사진을 보여주고 '이게 뭐야?'라고 물을 수 없다면, '대화가 되는 AI'라는 말은 절반짜리였다.
2023년 9월, OpenAI가 이미지를 입력으로 받아 텍스트로 답하는 GPT-4V(Vision)를 발표했다. 11월에 API가 공개되면서, AI가 '읽는 기계'에서 '보는 기계'로 확장된 첫 번째 전환점이 만들어졌다. 사진 속 텍스트를 읽고, 그래프를 해석하고, 다이어그램의 흐름을 파악할 수 있는 첫 모델이다.
2024년 5월, GPT-4o(omni)가 등장했다. 텍스트, 음성, 이미지를 하나의 모델로 통합한 것이다. 음성 응답 지연은 최소 232밀리초, 평균 320밀리초 — 인간 대화 수준이었다. GPT-4 Turbo 대비 50% 저렴하고 2배 빨랐다. 무료 사용자에게도 공개되면서, '네이티브 멀티모달'이 프리미엄 기능이 아닌 기본값이 되는 시점을 열었다.
구글은 컨텍스트 윈도우라는 다른 축에서 승부를 걸었다. 2024년 2월, Gemini 1.5 Pro가 100만 토큰의 컨텍스트 윈도우를 선보였다. 이는 약 700페이지 분량의 텍스트를 한 번에 읽을 수 있다는 의미였다. MoE 아키텍처를 기반으로 효율을 높였고, 이후 200만 토큰으로 확장했다.
컨텍스트 윈도우의 진화를 수치로 보면 그 속도가 명확해진다.
• 2022.11 | GPT-3.5 | 4,096 토큰
• 2023.3 | GPT-4 | 8,192 / 32,768 토큰
• 2023.11 | GPT-4 Turbo | 128,000 토큰
• 2024.2 | Gemini 1.5 Pro | 1,000,000 토큰
• 2024 후반 | Gemini 1.5 Pro (확장) | 2,000,000 토큰
2년 만에 약 490배. AI가 한 번에 처리할 수 있는 정보의 양이 논문 한 편에서 책 수백 권으로 늘어난 셈이다. 이 확장이 실용적으로 의미한 것은, 회의록 전체, 계약서 묶음, 코드베이스 전체를 한 번에 넣고 질문할 수 있게 되었다는 것이다. '맥락을 잃지 않는 AI'가 가능해졌다.
멀티모달이 바꾼 것을 정리하면, AI가 '읽는 기계'에서 '보고 듣고 만드는 기계'로 변모했다는 것이다. 인식의 범위가 텍스트에서 이미지, 음성, 영상으로 확장되었다.
그러나 한 가지가 여전히 바뀌지 않았다. AI는 여전히 '대화창 안'에 갇혀 있었다. 사진을 보여주면 설명할 수 있지만, 사진을 찍으러 갈 수는 없었다. 이 감각의 확장과 행동의 부재 사이의 간극이 컸다. 음성으로 대화할 수 있지만, 전화를 걸 수는 없었다. 더 많은 감각을 가진 AI가 더 똑똑해진 것은 사실이지만, 스스로 무언가를 '행동'할 수는 없었다. 인식은 확장되었으나, 행동은 아직이었다. 이 한계가 해소되려면 두 가지가 더 필요했다. AI가 '생각하는 방식'의 전환과, 외부 세상에 연결되는 통로 — 이후 sec07에서 다룰 프로토콜의 구축이었다.
5. 추론의 시대: 생각하는 모델의 등장
왜 이 전환이 일어났는가. 모델을 더 크게 만드는 것만으로는 한계가 보이기 시작했다. 더 큰 모델이 아니라, 같은 모델이 더 오래 생각하게 하는 접근이 필요했다.
2024년 9월 12일, OpenAI가 o1을 출시했다. CoT(Chain-of-Thought, 사고 연쇄)를 모델 내부에 내재화한 최초의 상용 추론 모델이었다. 기존 모델이 질문을 받으면 바로 답을 생성했다면, o1은 답하기 전에 '생각'하는 단계를 거쳤다.
추론 모델이라는 패러다임은 2023년 시점의 주류 논의와 달랐다. 당시 대부분의 논의는 '더 큰 모델'을 중심으로 돌아갔다. 파라미터를 더 늘리고, 데이터를 더 먹이면 성능이 올라간다는 스케일링 법칙이 지배적이었다. 그런데 o1은 다른 방향을 제시했다. 모델의 크기가 아니라 추론 시간(test-time compute)을 늘리는 것이었다.
이 전환의 배경에는 스케일링 법칙의 한계에 대한 논의가 있었다. 2020년 이후 AI 업계를 지배한 믿음이 하나 있었다. 데이터를 더 넣고 파라미터를 더 늘리면 성능이 예측 가능하게 올라간다는 스케일링 법칙이었다. 그런데 2024년 하반기, 이 법칙의 수확 체감이 업계 안에서 공공연히 논의되기 시작했다. OpenAI에서 퇴사한 일리야 수츠케버는 "사전훈련(pre-training)의 시대가 끝났다"고 발언했다. 단순히 모델을 더 크게 만드는 것만으로는 다음 단계의 도약이 불가능하다는 인식이었다. 대안으로 떠오른 것이 '테스트 타임 컴퓨트' — 추론 시 연산을 늘리는 접근이었고, o1이 바로 그 경로의 첫 번째 상용 모델이었다.
각사가 추론이라는 새로운 경쟁 축에 어떻게 반응했는가:
• OpenAI — 전용 추론 모델 라인 (o1, o3, o4-mini) | 추론과 범용을 분리, 별도 가격 체계
• 앤트로픽 — 범용 모델에 통합 (Claude 3.5 Sonnet) | 별도 추론 라인 없이 '충분히 좋은 추론'
• 구글 — 추론 통합형 (Gemini 2.5 Pro) | 추론을 기본 기능으로 내장
• DeepSeek — 오픈소스 추론 (R1) | o1급 성능을 무료 공개
• 메타 — 오픈소스 통합 (Llama 4) | MoE+추론 통합 방향
앤트로픽은 독자적 경로를 걸었다. 2024년 6월 출시된 Claude 3.5 Sonnet은 별도의 추론 모델 없이도 Opus급 성능을 Sonnet 가격(1/5)으로 제공했다. 코딩과 분석에서 GPT-4o와 동급 또는 우위라는 평가를 받았다. '전용 추론 모델이 꼭 필요한가'라는 질문을 던진 셈이었다.
그리고 DeepSeek-R1이 왔다. 이 추론 모델은 미국 AI 관련 주가를 흔들었고 클로즈드 모델만이 최고 성능을 낼 수 있다는 전제가 깼다. R1이 특히 주목받은 이유는, 추론 능력을 달성하는 데 필요한 자원이 예상보다 적다는 점을 보여주었기 때문이다.
추론 모델은 '지능 경쟁'의 정점이자 한계를 동시에 보여주었다. 생각할수록 비용이 올라갔다. o1의 토큰 가격은 입력 $15, 출력 $60/백만 토큰으로, 같은 시기 GPT-4o($2.50/$10)의 6배였다. 더 똑똑한 AI는 더 비싼 AI였다. '더 똑똑하게'만으로는 충분하지 않다는 인식이 이 시기에 형성되기 시작했다. 모델의 지능이 올라갈수록, 정작 병목은 지능이 아닌 다른 곳에 있다는 사실이 드러났다. 지능의 비용이 예상보다 빨리 내려가고 있었다는 점도 중요하다. 이 흐름이 다음 섹션의 주제다.
6. 가격 전쟁과 API 민주화
왜 이 전환이 일어났는가. 추론 모델이 비용 문제를 부각시킨 바로 그 시기에, 산업 전체에서는 정반대 방향의 움직임이 일어나고 있었다. API 가격이 바닥을 향해 추락하기 시작한 것이다.
2023년 3월 GPT-4 출시 시점의 API 가격은 입력 $30, 출력 $60/백만 토큰이었지만 16개월 후인 2024년 7월, GPT-4o-mini가 입력 $0.15, 출력 $0.60에 나왔다. 입력 기준 200배 하락이다.
• GPT-4 (2023.3) — 입력 $30.00 / 출력 $60.00 | 기준
• GPT-4 Turbo (2024.4) — 입력 $10.00 / 출력 $30.00 | 입력 67% ↓
• GPT-4o (2024.5) — 입력 $2.50 / 출력 $10.00 | 입력 92% ↓
• GPT-4o-mini (2024.7) — 입력 $0.15 / 출력 $0.60 | 입력 99.5% ↓
2023년 시점에서 토큰 가격이 이렇게 빨리, 이렇게 크게 떨어질 것이라 예측한 분석가는 드물었다. 2022년 말 주류 예측은 'API 가격은 서서히 내려가되 컴퓨팅 비용의 물리적 제약이 하한선을 만들 것'이라는 방향이었지만 현실은 16개월 만에 200배 하락이었다.
앤트로픽도 같은 방향으로 움직였다. Claude 3 출시 당시 Opus가 입력 $15, 출력 $75였던 것에서, Sonnet 라인은 $3/$15를 유지하면서 성능을 꾸준히 끌어올렸다.
구글은 더 공격적이었다. Gemini API 무료 티어를 제공하며, 분당 15 요청, 일일 1,500 요청까지를 무료로 열었다. 유료 티어에서도 Flash 모델이 입력 $0.075/백만 토큰이라는 최저가 경쟁에 나섰다.
가격 하락은 단순히 '저렴해졌다'는 의미를 넘었다. 새로운 사용 패턴을 가능하게 했다. AI를 한 번 부르는 데 수 달러가 들던 시절에는 사용자가 신중하게 프롬프트를 작성했다. 토큰 비용이 100분의 1로 떨어지자, AI를 수십 번, 수백 번 반복 호출하는 '에이전트 루프'가 경제적으로 가능해졌다. 가격 하락이 반복 호출을 가능하게 했고, 반복 호출이 앱과 인터페이스의 가치를 끌어올렸다.
수익 모델도 변했다. OpenAI의 연 매출은 2023년 약 16억 달러에서 2024년 37억 달러, 2025년 목표는 127억 달러(연간 실행률 기준)였다. 성장의 축이 API 토큰 판매에서 구독 모델로 이동하고 있었다. ChatGPT Plus $20/월에서 Pro $200/월, Max 요금제까지 [35]. 앤트로픽도 Claude Pro($20/월)에서 Max($100~200/월)로 상위 티어를 확장했다.
API를 직접 사용하면 구독보다 저렴한 경우가 많다. 예를 들어, 하루 20회 GPT-4o-mini 대화를 한다고 가정하면(대화당 평균 입력 1K + 출력 2K 토큰), 월 API 비용은 약 $1 수준이다 [33]. $20 구독의 1/20에 불과하다. 그런데도 구독자는 늘어났다. 인터페이스의 편리함, 부가 기능, 그리고 '비용을 신경 쓰지 않아도 되는 심리적 안정감'이 가격 차이를 상쇄한 것이다.
수익화의 단위가 바뀌고 있었다. 토큰 판매 → 좌석 구독 → 작업 완료 과금 → 인터페이스 점유. 이 변화는 경쟁의 초점이 모델의 지능에서 모델이 제공하는 경험 — 즉 행위의 영역으로 이동하고 있음을 뜻했다. 기업들이 모델 자체보다 앱, 브라우저, CLI, 커넥터에 집착하기 시작한 이유가 여기에 있다. 모델은 범용화되고 있었다. 차별화 포인트는 모델이 아니라, 모델 위에 쌓이는 '경험'으로 이동했다. ChatGPT의 월 $200 Pro 구독이나 앤트로픽의 Max 요금제가 팔리는 이유는 모델이 달라서가 아니다. 그 모델이 제공하는 인터페이스와 부가 기능이 달라서이다.
저렴해진 API가 만든 가장 중요한 변화는 '에이전트 루프'의 경제적 실현이었다. 에이전트가 한 번의 작업을 완수하기 위해 API를 100회 호출한다고 가정해보면, GPT-4 시절 이 비용은 대화당 평균 3K 토큰 기준으로 약 $27에 달했다. GPT-4o-mini 기준으로는 약 $0.02 — 1,000배 이상 차이가 난다. 이 가격 차이가 에이전트 시대의 경제적 기반을 만들었다.
7. 펑션 콜링에서 MCP까지: 도구를 쥐는 AI
왜 이 전환이 일어났는가. 아무리 똑똒해도, 대화창 안에 갇혀 있는 AI는 사용자의 일을 대신할 수 없었다. 진짜 병목은 모델의 지능이 아니라, 세상과 연결되는 인터페이스였다. 앞선 섹션에서 다룬 API 가격 하락이 이 연결에 경제성을 부여했다. 값싼 호출이 행동 루프를 가능하게 만들면서, AI와 외부 세계를 잇는 통로의 가치가 급격히 올라갔다.
2023년 6월 13일, OpenAI가 펑션 콜링(Function Calling)을 발표했다. AI가 구조화된 JSON으로 외부 함수 호출을 지시할 수 있게 된 것이다. 날씨를 물으면 날씨 API를 호출하고, 일정을 물으면 캘린더 API를 호출하는 식이다. 기술적으로 보면 단순한 기능이었지만, 의미는 컸다. AI가 처음으로 '행동'을 얻은 순간이었다.
그러나 펑션 콜링은 한계가 분명했다. 개발자가 각 함수의 스키마를 수동으로 정의해야 했고, 모델과 도구 사이의 연결이 일대일이었다. 10개의 도구를 쓰려면 10개의 스키마를 직접 작성해야 했다.
2024년 11월, 앤트로픽이 MCP(Model Context Protocol)를 공개했다. AI 모델과 외부 도구 사이의 범용 연결 규격을 제안한 것이다. 서버/클라이언트 아키텍처로 설계되어, MCP 서버를 한 번 만들면 어떤 AI 클라이언트든 연결할 수 있었다. 도구 연결을 위한 인프라 — 모델과 외부 세계를 잇는 표준화된 통로였다.
확산 속도가 빨랐다. 2025년 6월에 공식 규격이 확정되었고, Streamable HTTP 전송이 추가되면서 웹 기반 연결도 가능해졌다. IDE(코드 편집기)들이 MCP 클라이언트를 내장하기 시작했고, 기업용 커넥터(Slack, GitHub, Jira 등)가 MCP 서버로 구현되었다. 개발자가 아닌 사용자도 MCP 서버를 설치해 AI에 자신의 데이터를 연결할 수 있게 된 것이다.
OpenAI도 움직였다. 2025년 3월, Responses API와 Agents SDK를 발표했다. Chat Completions 이후의 세 번째 API 세대로, 에이전트 오케스트레이션에 최적화된 구조였다. 웹 검색, 파일 검색, 컴퓨터 사용 등 내장 도구를 통합한 점이 특징이었다.
구글은 2025년 6월, Gemini CLI를 오픈소스로 공개했다. 터미널 기반 AI 에이전트로, MCP 서버를 지원하며 Gemini 2.5 Pro를 일일 100만 토큰까지 무료로 제공했다. xAI도 Grok API에 Remote MCP Tools를 지원하며 MCP 생태계에 합류했다.
도구 연결의 진화를 단계별로 정리하면:
• 1단계 (~2023.5) | 프롬프트에 도구 설명 삽입 | 수동적, 비구조적
• 2단계 (2023.6) | 펑션 콜링 (JSON 스키마) | AI가 처음 '행동'을 얻음
• 3단계 (2024.11) | MCP (범용 프로토콜) | 표준화된 연결 규격
• 4단계 (2025.3~) | Agents SDK, Skills, CLI | MCP 위의 고수준 추상화
그러나 현실은 '하나의 표준으로 수렴'이 아니었다. MCP 발표 직후 업계 일각에서는 AI 도구 연결의 표준이 빠르게 수렴할 것이라는 낙관론이 있었다. 현실은 달랐다. MCP, OpenAI의 AGENTS.md, 앤트로픽의 Skills, 각사의 독자 SDK가 동시에 확장되고 있었다. 복수의 표준이 경쟁·병존하는 상태가 2026년 3월 현재에도 계속되고 있다.
각사의 도구 연결 전략:
• OpenAI — 자체 SDK + MCP 수용 | Responses API, Agents SDK, AGENTS.md
• 앤트로픽 — MCP 주도 + Skills | MCP 표준 제안, Claude Code Skills
• 구글 — MCP 호환 + A2A | Gemini CLI, A2A 프로토콜
• 메타 — 오픈소스 생태계 의존 | Llama API 도구 사용 지원
• xAI — MCP 합류 | Remote MCP Tools
이 시기에 일어난 진짜 전환의 의미를 정리하면, AI에 공급되는 맥락(context)의 원천이 바뀐 것이다. 초기에는 사용자가 프롬프트로 직접 입력해야 했다. 펑션 콜링이 등장하면서 JSON 스키마로 구조화된 외부 데이터가 흘러들어왔다. MCP는 이 흐름을 표준화하여 파일, 데이터베이스, API, 웹 서비스가 모두 맥락의 공급원이 되게 했다. 프롬프트 → JSON 스키마 → 검색·파일 → 앱 커넥터 → MCP·에이전트 프레임워크. 컨텍스트 공급망의 진화가 곧 AI 능력의 진화였다.
앞서 언급한 '텍스트만 생성하는 AI의 한계'가 이 시기에 풀리기 시작했다. AI가 외부 세계에 접근할 수 있는 통로를 얻은 것이다. 그리고 이 통로가 가장 먼저 활발하게 쓰인 영역은, 코드였다.
8. 코딩 에이전트의 시대: 개발자 도구에서 자율 엔지니어로
왜 이 전환이 일어났는가. 코드는 AI 에이전트에게ㅕㅕㅕ 가장 검증 가능한 작업 표면이었다. 코드는 실행할 수 있고, 테스트를 돌릴 수 있고, 맞거나 틀리거나 둘 중 하나다. 자연어 작업과 달리, 성공 여부를 객관적으로 확인할 수 있다. 앞 섹션에서 다룬 도구 연결 프로토콜이 가장 먼저 실용화된 곳이 코딩 영역이었던 것은, 이러한 검증 가능성 때문이다.
진화의 경로는 명확하다.
자동완성에서 시작했다. 2021년 6월 프리뷰, 2022년 6월 정식 출시된 GitHub Copilot은 OpenAI Codex 기반의 코드 자동완성 도구였다. 코드를 쓰는 도중 다음 줄을 제안하는 방식이었다. 2024년 기준 유료 구독자 180만 명 이상이었다.
대화형 편집이 뒤따랐다. Cursor는 VS Code를 포크한 AI 네이티브 IDE로, 코드베이스를 인덱싱해 대화형으로 여러 파일을 동시에 편집하는 경험을 제안했다. '자동완성'을 넘어 '대화형 편집'이라는 새로운 패러다임을 열었다.
그리고 온 자율 코딩. 2024년 3월, Cognition Lab이 Devin을 발표했으며 '최초의 AI 소프트웨어 엔지니어'라는 마케팅과 함께 SWE-bench 13.86% 해결률을 내세웠다. 절대값은 낮았지만, 당시 최고 기록이었다. '도구'가 아닌 '동료'라는 프레이밍이 논쟁을 불러일으켰다.
2025년 2월, 앤트로픽이 Claude Code를 출시했다. 전략은 달랐다. GUI가 아닌 CLI(커맨드 라인 인터페이스) 기반이었다. 터미널 네이티브로, 코드베이스 전체를 이해하고, 파일을 생성·수정하고, 테스트를 자율적으로 실행했다. CLAUDE.md라는 파일로 프로젝트 컨텍스트를 관리하는 독특한 방식을 도입했다.
같은 해 5월, OpenAI가 Codex 에이전트를 출시했다. Claude Code가 로컬 터미널에서 동작하는 것과 달리, Codex는 클라우드 샌드박스에서 비동기로 코딩 작업을 처리했다. 여러 작업을 동시에 병렬 처리할 수 있다는 것이 차별점이었다. 로컬 vs 클라우드, CLI vs GUI, 동기 vs 비동기 — 같은 문제를 풀되 경로가 달랐다.
구글은 2025년 6월 Gemini CLI를 오픈소스로 공개하며 같은 전장에 진입했다. MCP 서버를 지원하고, Gemini 2.5 Pro를 일일 100만 토큰까지 무료로 제공하는 공격적 전략이었다.
그리고 '슈퍼 개인'의 시대를 알린 프로젝트가 등장했다. 2025년 10월, 오스트리아의 1인 개발자 Peter Steinberger가 OpenClaw를 공개했다. Steinberger는 PDF 프레임워크 PSPDFKit을 창업해 연매출 $50M 규모로 성장시킨 인물이었다. OpenClaw는 컴퓨터 화면을 직접 보고, 마우스와 키보드를 조작하며, 사용자의 메신저(WhatsApp, Telegram, Slack)로 지시를 받아 작업을 수행하는 오픈소스 자율 AI 에이전트였다. 앤트로픽의 Computer Use가 API 수준에서 증명한 개념을, OpenClaw는 누구나 설치할 수 있는 오픈소스 제품으로 실현한 것이다.
반응의 규모가 이례적이었다. GitHub 스타 33.5만 개를 4개월 만에 달성했다. React가 10년에 걸쳐 세운 기록을 60일 만에 경신한 수치였다. NVIDIA CEO 젠슨 황(Jensen Huang)은 GTC 2026 기조연설에서 OpenClaw를 "the next ChatGPT"라고 언급했다. 2026년 2월 14일, OpenClaw 창업자 Steinberger는 샘 알트만의 직접 영입으로 OpenAI에 합류했다. 1인이 만든 프로젝트가 업계 최대 기업의 인재 전쟁 대상이 된 것이다.
생태계도 빠르게 형성되었다. NVIDIA는 NemoClaw라는 엔터프라이즈 래퍼를 출시해 기업용 배포를 지원했고, 텐센트는 WeChat ClawBot을 통해 중국 시장에 통합했다. Meta가 인수한 Moltbook은 OpenClaw 생태계에서 파생된 프로젝트였다. 그러나 보안 문제도 뒤따랐다. 커뮤니티 기여 Skills 중 악성 코드가 포함된 비율이 20%에 달했고, 4개월 간 9건의 CVE(공통 취약점)가 발행되었다. 카카오와 당근마켓은 사내 OpenClaw 사용을 금지했다.
OpenClaw가 보여준 것은 기술적 혁신 이상이었다. 1인 개발자가 만든 오픈소스 프로젝트가 빅테크의 로드맵을 흔드는 현상 — '슈퍼 개인'의 시대가 코딩 에이전트 영역에서 가장 먼저 드러났다.
코딩 에이전트 시장의 형성 속도는 빨랐다. 자동완성(Copilot)에서 대화형 편집(Cursor)까지는 2년이 걸렸지만, 대화형 편집에서 자율 코딩(Claude Code, Codex)까지는 1년이 채 걸리지 않았다.
CLI가 돌아온 것에는 이유가 있었다. GUI 시대에 터미널이 다시 부상한 것은 에이전트의 특성에 기인한다. 에이전트는 파일 시스템, Git, 셸 명령에 직접 접근해야 한다. GUI는 인간 사용자를 위한 추상화이지만, 에이전트에게는 오히려 장벽이다. CLI는 에이전트에게 가장 자연스러운 작업 표면이었다.
2023년에는 코딩 AI가 자동완성 수준에 머물 것이라는 예측이 지배적이었다. 앤드류 응(Andrew Ng)조차 "2023년 시점의 AI 코딩 도구는 보조 역할에 그칠 것"이라 전망했지만, 2년 만에 자율 코딩 에이전트가 등장했다.
'바이브 코딩(vibe coding)'이라는 현상도 등장했다. 2025년 초, 전 테슬라 AI 디렉터 Andrej Karpathy가 이 용어를 제안했다. 코드를 직접 작성하지 않고 AI와 자연어 대화로 앱을 만드는 방식이다. "이런 기능이 필요해"라고 말하면 AI가 코드를 생성하고, 실행하고, 오류가 나면 스스로 고치는 루프를 도는 것이다. Replit Agent, Vercel의 v0, StackBlitz의 Bolt 같은 도구가 비개발자 코딩의 문을 열었다. 프로그래밍을 배운 적 없는 사람이 하루 만에 작동하는 웹 앱을 만드는 사례가 소셜 미디어에 넘쳤다. 물론 그 앱의 품질과 유지보수 가능성은 별개의 문제였지만, '코딩은 개발자만의 영역'이라는 전제가 흔들리기 시작한 것은 분명했다.
글로벌 AI 코딩 도구 시장은 2024년 약 65억 달러 규모로 추산되며, 2030년까지 연평균 25% 이상 성장이 전망된다.
아직 남은 한계도 명확하다. 대규모 코드베이스에서의 아키텍처 결정, 기존 레거시 시스템과의 통합, 복잡한 디버깅은 여전히 인간 개발자의 영역이다. AI 코딩 에이전트가 잘하는 것은 명확한 범위의 구현 작업이다. 전체 시스템을 설계하는 것은 다른 차원의 문제이며, 이 경계를 넘는 것은 아직 시간이 필요하다.
코딩은 AI 에이전트가 가장 먼저 성숙한 영역이었을 뿐이다. 같은 패러다임 — 도구를 쥐고, 계획을 세우고, 자율적으로 실행하는 — 이 업무 전반으로 확산되기 시작했다. 그 확산의 가장 상징적인 사례가 앤트로픽의 경로에서 나타났다.
9. 에이전틱 AI: 챗봇에서 자율 비서로 — 같은 단어, 다른 미래
왜 이 전환이 일어났는가. '에이전틱(agentic)'이라는 키워드가 2025년을 지배한 이유는 기술이 준비되었기 때문이다. 추론 능력의 향상, 저렴해진 API, 도구 연결 프로토콜의 확산이 합쳐지면서, AI가 '대신 행동하는' 것이 기술적으로 가능한 수준에 이르렀다.
앤트로픽의 에이전트 확장: Claude Code에서 Cowork까지. Claude Code의 성공은 앤트로픽에게 다음 질문을 던졌다 — 개발자 터미널에서 증명된 에이전트의 힘을, 사무직 전체로 확장할 수 있는가. 2026년 1월 12일, 앤트로픽이 Claude Cowork를 발표했다. "Claude Code의 힘을 사무직에게"라는 슬로건을 내세운 GUI 기반의 업무 에이전트였다.
Cowork의 구조는 MCP를 기반으로 한 Deep Connectors라는 계층 위에 구축되었다. 출시 시점에 13개의 엔터프라이즈 플러그인(Google Workspace, Microsoft 365, Salesforce, DocuSign 등)을 지원했다. Agent Skills 오픈 표준을 통해 Atlassian, Canva, Figma, Notion, Stripe 등의 파트너가 서드파티 스킬을 제공하여 개발자가 아닌 사무직이 자연어로 복잡한 업무 자동화를 지시할 수 있게 된 것이다.
이후의 확장이 빨랐다. 2026년 3월 17일, Dispatch가 발표되어 모바일에서 데스크톱으로 작업을 위임하고 비동기로 자율 실행하는 기능을 사용자에게 보급했다. 사용자가 폰에서 "내일 회의 준비해"라고 지시하면, 데스크톱의 Claude가 이메일을 검토하고, 문서를 정리하고, 발표자료를 준비하는 구조였다. 6일 후인 3월 23일에는 Computer Use가 대폭 업그레이드되어 OSWorld 벤치마크 72.5%를 달성했다. 데스크톱 직접 조작의 정확도가 상용 수준에 근접한 것이다.
시장의 반응은 즉각적이었다. Cowork 발표 당일, 글로벌 SaaS 기업들의 시가총액이 합산 $2,850억(약 380조 원) 폭락했다. 'SaaSpocalypse'라는 용어가 등장했다. AI 에이전트가 기존 SaaS의 기능을 대체할 수 있다는 공포가 시장에 반영된 것이다. 앤트로픽의 ARR(연간 반복 매출)은 2024년 12월 $10억에서 2026년 3월 $190억으로, 14개월 만에 19배 성장했다.
Claude Code → Cowork → Dispatch 업그레이드. 이 경로가 보여주는 것은, 코딩 에이전트에서 시작한 자율 실행 능력이 사무직 전체로 확산되는 패턴이다. 그리고 이 확산이 다른 기업들의 에이전트 전략과 어떻게 교차하는지가 현재 경쟁의 핵심이다.
2025년 1월에는, OpenAI가 Operator를 출시했다. ChatGPT Pro 사용자 한정, 미국 한정의 연구 프리뷰였다. 웹 브라우저를 직접 조작해 여행 예약, 쇼핑, 정보 검색 같은 작업을 수행했다. 7월에는 ChatGPT 에이전트 모드가 유료 플랜 사용자에게 확대되면서, 브라우저, 코드 실행, 파일 처리를 연결한 복합 작업이 가능해졌다.
구글은 2025년 4월, A2A(Agent-to-Agent) 프로토콜을 발표했다. MCP가 AI와 도구 사이의 연결이라면, A2A는 에이전트와 에이전트 사이의 통신 표준이었다. 에이전트가 다른 에이전트를 부르고, 작업을 위임하고, 결과를 받는 구조. 멀티에이전트 시스템의 기반이었다.
₩그러나 여기서 주목해야 할 것이 있다. 5사가 모두 '에이전트'와 '비서'라는 동일한 단어를 사용하면서, 실제로는 전혀 다른 미래를 구축하고 있다는 점이다. 같은 키워드 아래 다섯 개의 서로 다른 전쟁이 벌어지고 있다.
OpenAI: 범용 에이전트 플랫폼. ChatGPT를 단순한 챗봇이 아닌, 행동하는 에이전트의 허브로 전환하려 한다. Operator가 웹을 조작하고, Codex 에이전트가 코드를 작성하며, Responses API/Agents SDK가 개발자에게 에이전트 오케스트레이션 도구를 제공한다. 목표는 '무엇이든 대신 해주는 범용 비서'이다. 매출 127억 달러(2025년 실행률)의 상당 부분이 ChatGPT 구독에서 나온다.
앤트로픽: 개발자와 기업의 워크플로우 도구. Claude Code는 AI 코딩 도구 시장에서 54%의 점유율을 기록했다. MCP를 주도하고, Skills를 통해 작업 맥락을 정의하며, Computer Use로 비구조화 도구까지 커버한다. Claude Cowork로 사무직까지 영역을 확장하면서, 앤트로픽의 에이전트는 '대중을 위한 비서'가 아니라 '전문가를 위한 동료'에서 '모든 직장인을 위한 동료'로 정의가 넓어지고 있다.
구글: 검색에서 에이전트로의 전환. 구글의 진짜 무기는 모델이 아니라 배포 규모다. Gemini 앱의 월간 사용자는 7.5억 명에 달하며, AI Mode in Search를 통해 검색 자체를 에이전트화하고 있다. Project Mariner는 브라우저를 조작하는 웹 에이전트이고, Jules는 코딩 에이전트다. A2A 프로토콜로 에이전트 간 통신 표준까지 선점하려 한다. '검색 제국'을 '에이전트 제국'으로 전환하는 것이 구글의 게임이다.
메타: 광고 머신 위의 개인 AI. 메타의 방향은 나머지 4사와 근본적으로 다르다. AI는 독립된 제품이 아니라, 30억 이상의 기존 소셜 앱 사용자에게 심어지는 기능이다. Instagram, WhatsApp, Facebook, Messenger 안에서 작동하는 Meta AI는 친구와 대화하듯 AI와 대화하는 경험을 만든다. 저커버그가 내세우는 "Personal Superintelligence" 비전은, 경쟁사의 AGI나 범용 에이전트와는 결이 다르다. 개인의 취향과 맥락을 깊이 이해하는 AI가 콘텐츠 추천과 광고 타겟팅의 정밀도를 끌어올리고, 이것이 2025년 기준 2,010억 달러에 달하는 광고 매출을 방어·확장하는 구조다. 2026년 2월에는 AI 에이전트 스타트업 Manus를 인수하며 에이전트 역량을 흡수했다. 메타가 AI에 쏟는 자본지출은 2026년 기준 1,150~1,350억 달러로 업계 최고 수준이다.
한편, 메타 AI 조직 자체도 지각변동을 겪었다. 2025년 10월, 오랫동안 메타의 AI 연구를 이끌어온 얀 르쿤이 Chief AI Scientist 직위에서 물러났다. 그 자리에 Scale AI 창업자 알렉산드르 왕(Alexandr Wang)이 Chief AI Officer로 영입되었다. 순수 연구(FAIR)에서 상용 배포(MSL, Machine Learning Systems Lab)로 무게 중심이 이동하는 상징적 전환이었다. 같은 시기 FAIR과 MSL에서 600명이 해고되었다. 연구 중심 AI에서 제품 중심 AI로의 피벗이 조직 구조에도 반영된 것이다.
xAI: 머스크 생태계 통합. xAI의 궤적은 2026년 들어 완전히 다른 차원으로 진입했다. 2026년 1월, xAI와 SpaceX의 합병이 발표되었다. 합산 기업가치 2,500억 달러, 역대 최대 규모의 테크 합병이었다. 머스크는 '궤도 데이터센터'라는 비전을 제시했다 — 지상의 전력과 냉각 제약을 넘어, 우주에서 AI 인프라를 운영하겠다는 구상이다. Grok 4.20 Beta(2026.2)는 4개의 특화 에이전트가 협업하는 멀티에이전트 아키텍처를 도입했다. X 플랫폼의 실시간 데이터, 테슬라의 자율주행 데이터, SpaceX의 위성 통신이 하나의 AI 시스템에 수렴하는 그림이다. 2026년 9월 출시를 목표로 하는 Macrohard/Digital Optimus 프로젝트는 Tesla와 xAI가 공동 개발하는 데스크톱 자동화 에이전트다. 하나의 AI 기업이 아니라, 머스크 제국 전체의 신경망을 구축하려는 시도이다.
마이크로소프트: 파트너 의존의 딜레마. 빅테크 중 가장 먼저, 그리고 가장 크게 AI에 베팅한 기업이 마이크로소프트였다. OpenAI에 130억 달러를 투자하고, M365 Copilot을 전사 제품에 내장했다. 2026년 3월 30일에는 Copilot Cowork를 발표했다. M365 안에 Claude를 내장한 에이전트로, 앤트로픽과 공동 개발한 멀티모델 아키텍처(GPT가 초안 → Claude가 검증)를 적용했다 . 그러나 화려한 발표 뒤에는 험난한 현실이 있었다.
CEO 사티아 나델라가 2025년 12월 사내 전체 회의에서 Copilot이 "제대로 작동하지 않는다"고 직접 인정했다. 수치가 이를 뒷받침한다. Copilot의 일간 활성 사용자는 600만 명으로, ChatGPT의 4.4억 명에 비해 1/73 수준이었다. 유료 시장점유율은 6개월 만에 18.8%에서 11.5%로 39% 급락했다. 글로벌 제약사 Amgen은 Copilot 2만 라이선스를 도입했으나, 정작 직원들은 개인 ChatGPT 계정을 선호했다. GitHub Copilot은 시장점유율 1위를 유지했지만, Stack Overflow 개발자 설문에서 선호도는 9%로 최하위였다. 같은 설문에서 Claude Code의 선호도가 46%로 1위를 기록한 것과 대조적이었다.
마이크로소프트의 대응은 다층적이었다. Copilot의 가격을 $30에서 $60으로 인상할 것이라는 예고가 나왔고, 동시에 영업 목표는 50% 삭감되었다. 2026년 3월 17일에는 AI 조직 대개편이 이루어졌다. Mustafa Suleyman이 초지능 모델 연구로 이동하고, Copilot 사업부에 새로운 리더십이 투입되었다. 자체 모델(GPT)에 대한 의존도를 낮추고 앤트로픽의 Claude를 내장한 Copilot Cowork의 발표는, 모델 경쟁에서 자체적으로 우위를 확보하기 어렵다는 판단의 반영이기도 했다.
5사 비교를 정리하면 다음과 같다.
자율성의 스펙트럼도 정리가 필요하다. 현재의 에이전틱 AI는 '완전 자율'이 아니다. 다음 분류는 업계의 human-in-the-loop 논의를 참고한 저자 관찰 기반의 정리이다.
제안 단계: AI가 다음 행동을 제안하고, 사용자가 승인한다
확인 후 실행: AI가 계획을 세우고 실행하되, 주요 결정에서 사용자 확인을 요청한다
완전 자율: AI가 독립적으로 판단하고 실행한다
현재 대부분의 에이전트 제품은 두 번째 단계에 머물러 있다. '방향 설정' 단계이지 '대중 보급 완료'가 아니다. Operator는 프리뷰이고, Computer Use는 베타이며, ChatGPT 에이전트 모드도 유료 플랜 한정이다. 2024년 말에는 '2025년이면 대부분의 업무가 에이전트로 자동화될 것'이라는 기대가 있었으나, 현실은 제한적 도입 단계에 머물러 있다.
에이전틱 AI에 대한 반론도 고려해야 한다. 에이전트가 잘못된 결정을 내렸을 때 책임은 누구에게 있는가. 보안 경계를 넘어서는 자율적 행동의 위험은 어떻게 통제하는가. 에이전트가 사용자의 이메일을 보내거나 결제를 진행할 때, 한 번의 오류가 만드는 피해는 챗봇의 잘못된 답변과 차원이 다르다. 자율성이 높아질수록 위험도 비례해서 커진다. OpenClaw의 보안 사고가 보여주듯, 에이전트의 자율성과 안전성 사이의 균형은 아직 풀리지 않은 문제다. 이 문제에 대한 합의는 아직 없다.
가장 흥미로운 것은, 이 기업들이 '에이전트'라는 동일한 단어를 사용하면서 사실상 서로 다른 산업을 건설하고 있다는 점이다. OpenAI는 범용 비서를, 앤트로픽은 업무 동료를, 구글은 차세대 검색을, 메타는 소셜 AI를, xAI는 물리적 세계와 디지털 세계의 통합 신경망을 구축하고 있다. 마이크로소프트는 자체 모델의 한계를 인정하면서도 4억 M365 사용자라는 배포 규모로 승부하려 한다. '에이전틱 AI'라는 단일 서사는, 실제로는 수렴이 아닌 분기의 서사다. 같은 기술 위에서 완전히 다른 미래가 갈라져 나오고 있다.
에이전틱 AI의 방향은 설정되었지만, 아직 도착하지는 않았다. 그런데 이 방향 위에서, 이미 다음 전환의 윤곽이 드러나고 있다.
왜 이 전환이 일어났는가 — 혹은, 왜 이 전환이 불가피한가.
지금까지 이 글이 추적한 모든 AI는 하나의 공통점을 가진다. '사용자가 먼저 말을 걸어야 한다'는 것이다. ChatGPT도, Claude Code도, Operator도 사용자가 프롬프트를 입력해야 작동한다. 프롬프트가 없으면 AI는 가만히 있다. 이것이 '반응형(reactive) AI'의 본질이다. 그리고 2026년 들어, 이 전제를 뒤집으려는 움직임이 동시다발로 나타나고 있다.
2026년 1월, 구글이 Personal Intelligence를 발표했다. Gmail, Photos, Calendar, Maps 등 구글 서비스 전반의 데이터를 교차 추론하여, 사용자가 묻기 전에 필요한 정보를 제안하는 기능이었다. 내일 출장이 있으면 오늘 밤 짐 싸기를 알려주고, 이메일에서 약속 시간을 추출해 캘린더에 자동 등록하는 식이다. 구글이 20년간 축적한 사용자 데이터가 이 기능의 원료가 된다.
같은 달, 삼성이 Galaxy S26에 Now Nudge를 탑재했다. 온디바이스 AI가 사용자의 패턴을 분석해 선제적으로 제안을 보내는 기능이었다. "평소 이 시간에 카페에 가시던데, 근처 새로운 곳이 생겼습니다" 같은 알림이다. 클라우드가 아닌 디바이스 위에서 작동한다는 점이 프라이버시 논의에서 차별점이었다.
앤트로픽의 Dispatch(2026.3.17)도 같은 방향의 한 축이다. 사용자가 '아침에 일어나면 이메일 정리해둬'라고 한 번 지시하면, 이후에는 프롬프트 없이도 매일 자동 실행된다. 명시적 프롬프트 → 암묵적 위임으로의 전환이다.
마이크로소프트의 Copilot Cowork(2026.3.30)도 선제적 에이전트를 표방한다. M365 데이터를 분석해 "이 보고서의 수치가 지난달과 크게 차이나는데, 확인이 필요합니다" 같은 알림을 생성한다. 다만 Copilot의 현실적 한계를 감안하면, 이 비전의 실현은 아직 검증이 필요하다.
애플은 WWDC 2026(6월 예정)에서 Siri의 전면 개편을 예고하고 있다. 4년간의 부진 끝에, 온디바이스 LLM과 Apple Intelligence를 결합한 적극적 비서로의 재탄생이 기대된다.
이 전환을 Gartner의 수치가 뒷받침한다. 기업 애플리케이션에 AI 에이전트가 탑재된 비율은 2025년 5% 미만에서, 2026년 말까지 40%로 증가할 것으로 전망된다. 8배 도약이다. 에이전트가 들어가는 위치도 바뀐다 — 사용자가 '부르는' 챗봇에서, 워크플로우 안에 '심어지는' 에이전트로.
이 전환의 핵심을 한 단어로 줄이면 'Pull에서 Push로'다. 지금까지 AI는 Pull 모델이었다. 사용자가 질문을 당겨와야(pull) AI가 답했다. 적극적 AI는 Push 모델이다. AI가 먼저 정보를 밀어넣는다(push). 이 전환은 이 글의 thesis — '지능에서 행위로' — 의 자연스러운 연장이다. 지능(더 똑똑하게) → 행위(대신 행동하게) → 선제적 행위(먼저 행동하게). 프롬프트가 사라지는 것이 아니라, 프롬프트의 필요성이 줄어드는 것이다.
물론 이 방향에는 근본적인 우려가 따른다. AI가 먼저 행동한다는 것은, 사용자가 원하지 않는 개입의 가능성도 의미한다. 프라이버시 침해, 과도한 알림, 잘못된 추론에 기반한 선제적 행동의 위험이 존재한다. 삼성의 Now Nudge가 온디바이스 처리를 강조하는 이유이기도 하다. 편리함과 프라이버시 사이의 긴장은 이 전환이 풀어야 할 가장 큰 과제다.
2026년 3월 시점의 모델 지형을 찍어보면 다음과 같다.
3년 4개월 동안 경쟁의 축은 다섯 번 이동했다.
벤치마크 경쟁 (2023): 누가 더 똑똑한가 — MMLU 점수의 소수점 싸움
가격 경쟁 (2024 전반): 누가 더 저렴한가 — 토큰 비용 200배 하락
도구 연결 (2024 후반~2025): 누가 더 많이 연결하는가 — MCP, 펑션 콜링, SDK
자율성 (2025~2026 초): 누가 더 많이 대신하는가 — 에이전트, Computer Use, Operator
선제성 (2026~): 누가 먼저 행동하는가 — Proactive AI, Dispatch, Personal Intelligence
각 단계에서 승자가 달랐다. 벤치마크에서는 구글과 OpenAI가, 가격에서는 DeepSeek과 구글이, 도구 연결에서는 앤트로픽이, 자율성에서는 앤트로픽과 OpenAI가 선두를 다투고 있으며, 선제성에서는 아직 경쟁이 시작된 단계다. 경쟁의 축이 이동할 때마다 판세가 뒤집히는 것이 이 산업의 특징이었다. 프로토콜 표준화의 문제도 여전히 미결이다 — sec07에서 다룬 MCP, AGENTS.md, A2A의 병존 상태는 2026년 3월에도 하나로 수렴하지 않고 있다.
그리고 다섯 번째 축인 '선제성' 단계에서, 경쟁의 양상이 근본적으로 달라졌다. 앞선 네 축에서는 같은 지표(벤치마크 점수, 토큰 가격, 연결 가능한 도구 수, 자율 실행 범위)로 비교가 가능했다. 그러나 선제성 단계에서 기업들은 더 이상 같은 지표로 경쟁하지 않는다. 구글의 Personal Intelligence가 20년치 이메일 데이터를 교차 추론하는 동안, 앤트로픽의 Dispatch는 데스크톱에서 비동기 작업을 자율 실행하고, 삼성의 Now Nudge는 폰에서 프라이버시를 강조하며, 마이크로소프트는 4억 M365 사용자 데이터를 분석한다. 비교의 공통 분모가 사라졌다. 이것이 현재 AI 경쟁의 가장 중요한 구조적 변화이다.
투자 규모도 이 전환을 반영한다. 글로벌 AI 스타트업 투자는 2023년 약 500억 달러에서 2024년 약 680억 달러로 늘었다. OpenAI, 앤트로픽, xAI 등 초대형 라운드가 총액을 견인했다. 빅테크 4사(마이크로소프트, 구글, 메타, 아마존)의 AI 인프라 2024년 자본지출 합계는 2,000억 달러를 넘었다. 데이터센터 건설과 NVIDIA GPU 확보 경쟁이 전력 인프라의 병목까지 만들어내고 있었다. ChatGPT의 MAU는 2023년 1월 1억 명에서 2024년 8월 2억 명, 2025년 2월 4억 명으로 성장했다. 1년 6개월 만에 2배씩 늘어나는 추세였다.
AGI(Artificial General Intelligence, 범용 인공지능)에 대한 각사의 시각도 갈린다. 이 논쟁이 이 글의 중심 논지 — '지능에서 행위로' — 와 관련되는 지점은, AGI의 정의 자체가 '지능'의 문제인지 '행위'의 문제인지가 합의되지 않았다는 것이다.
세 사람의 예측이 이렇게 갈리는 것 자체가, AGI라는 개념의 정의조차 합의되지 않았음을 보여준다. 그리고 르쿤이 메타의 AI 과학자 직위에서 물러나고 제품 중심의 리더십이 들어선 것은, '연구 대 상업화'라는 긴장이 기업 내부에서도 결론을 향해 이동하고 있음을 시사한다.
아직 해결되지 않은 문제들이 있다. 환각(hallucination)은 줄었지만 사라지지 않았다. 안전성에 대한 합의는 여전히 도달하지 못했다. AI 인프라의 에너지 소비는 지속적으로 논쟁의 대상이다. 일자리 변화에 대한 우려는 커지고 있으나, 대체되는 직무와 새로 생겨나는 직무의 전체 그림은 아직 불분명하다. 벤치마크의 신뢰성 문제도 부각되었다 — Llama 4의 리더보드 스캔들은 벤치마크가 여전히 조작 가능하며, 점수가 곧 실력을 의미하지 않는다는 사실을 상기시켰다.
3년 전에는 상상도 못 한 것들이 있다.
터미널에서 AI가 코드를 자율적으로 작성하고 커밋한다
AI가 브라우저를 열고 웹사이트를 조작한다
토큰 가격이 200배 내려갔다
중국의 오픈소스 모델이 실리콘밸리를 흔들었다
'에이전트'가 업계 최대의 키워드가 되었다
한 AI 기업이 우주기업과 합병해 역대 최대 규모의 테크 합병을 만들었다
1인 개발자의 오픈소스 프로젝트가 4개월 만에 33.5만 GitHub 스타를 받았다
AI가 먼저 행동하는 '적극적 AI' 시대의 윤곽이 드러났다
3년이 지나도 안 된 것들도 있다.
AI는 여전히 거짓말을 한다 (환각)
완전 자율 에이전트는 아직 프리뷰 단계이다
AI가 스스로 목표를 설정하고 추구하지는 못한다
에너지 문제는 해결되지 않았다
업계 표준 프로토콜은 아직 하나로 수렴하지 않았다
'모든 일자리가 사라진다'도, '아무것도 바뀌지 않는다'도 틀렸다
벤치마크를 조작에서 자유롭게 만드는 방법을 아직 찾지 못했다
마이크로소프트의 Copilot은 130억 달러 투자에도 불구하고 기대에 미치지 못하고 있다
3년 4개월 전, ChatGPT가 처음 등장했을 때 사람들이 물었던 질문은 "이게 정말 생각하는 거야?"였다. 지금 사람들이 묻는 질문은 "이걸로 뭘 시켜도 돼?"가 아니라, "이게 알아서 해주는 거야?"이다. 질문의 전환 자체가 이 기간의 본질을 요약한다.
이 글이 추적한 3년 4개월의 핵심을 한 문장으로 줄이면 이렇다. ChatGPT부터 에이전틱 AI까지의 여정은 '텍스트 생성기'가 '자율 비서'가 되는 과정이었고, 그 과정의 진짜 병목은 모델의 지능이 아니라 세상과 연결되는 인터페이스였다. 벤치마크 점수가 아무리 올라가도 AI가 이메일을 보내고 예약을 잡고 코드를 커밋하지 못했던 이유는 모델의 지능이 부족해서가 아니라, 세상과 연결되는 통로가 없었기 때문이다. 펑션 콜링, MCP, 에이전트 프레임워크 — 모델과 외부 세계를 잇는 이 인프라가 진짜 전환을 가능하게 했다.
그리고 이제, 다음 질문이 떠오른다. AI가 '시키면 하는' 존재에서 '알아서 하는' 존재로 전환될 때, 인간과 AI의 관계는 어떻게 재정의되는가. 도구와 사용자의 관계인가, 동료와 동료의 관계인가, 아니면 전혀 새로운 무엇인가. 지능 → 행위 → 선제적 행위로 이어지는 이 궤적의 다음 단계가 무엇인지, 그리고 그것이 가져올 변화가 무엇인지를 예측하는 것은 아직 누구의 능력 밖이다.
다만, 지난 3년이 증명한 것이 있다면, 그것은 AI의 발전이 비선형적이라는 사실이다. 예측한 것은 늦게 오고, 예측하지 못한 것이 먼저 온다. 2022년 11월, ChatGPT가 등장했을 때 가장 흔했던 반응은 "신기하다"였다. 2026년 3월, AI에 대한 가장 흔한 반응은 "어디까지 알아서 해주는 거야?"이다. 이 질문의 변화 자체가, 기술이 얼마나 빠르게 움직이고 있는지를 보여준다.
AI의 역사는 아직 서론도 끝나지 않았다.