학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 앤드리슨 호로위츠가 웹사이트에 공유한 글을 정리한 것입니다.
지난해 AI 분야는 능력, 도입, 개발자 행동의 급격한 변화로 특징지어졌다. 획기적인 추론 모델, 오픈소스 혁신의 가속화, AI 네이티브 애플리케이션의 급증은 지능형 시스템을 구축하고 상호작용하는 방식을 재편했다. 우리는 특히 포괄적인 관점에서 이러한 변화를 분석한 새로운 실증 연구를 발표한다: OpenRouter에서 수집한 실제 거대 언어 모델(LLM) 사용 데이터 100조 개 이상 토큰을 분석했다.
OpenRouter는 현재 500만 명 이상 개발자에게 서비스를 제공하며, 60개 이상 공급업체가 제공하는 300개 이상 모델에 걸쳐 트래픽을 라우팅한다. 이 플랫폼은 연간 약 10조 토큰에서 2025년 중반 기준 100조 토큰 이상으로 성장했다. 지난주만 해도 OpenRouter는 매일 1조 토큰 이상을 처리했다. 비교를 위해, OpenAI 전체 API 10월 일일 평균 처리량은 약 8.6조 토큰이었다. 이러한 규모 덕분에 OpenRouter는 개발자들이 산업, 지역, 모델 계열 전반에 걸쳐 AI를 어떻게 활용하는지에 대한 특히 포괄적인 시각을 확보할 수 있다.
이번 연구 목표는 간단하다: 오늘날 사람들이 AI로 무엇을 하는지, 그리고 그것이 업계 다음 장에 대해 무엇을 시사하는지에 대한 역대 최대 규모 실증적 그림을 제공하는 것이다.
이번 연구는 OpenRouter라는 단일 플랫폼에서 한정된 시간 동안 관찰된 패턴을 반영하며, 광범위한 생태계의 일부만을 보여준다. 기업 사용, 로컬 호스팅 배포, 폐쇄형 내부 시스템과 같은 특정 차원은 데이터 범위 밖에 있다. 따라서 결과는 근본 현상에 대한 확정적 측정보다는 행동 패턴의 지표로 해석되어야 한다.
인공지능 생태계 핵심 쟁점은 오픈소스(간편을 위해 OSS로 약칭) 모델과 독점 모델 간 균형이다. 아래 그림은 지난 1년간 OpenRouter에서 이 균형이 어떻게 변화했는지 보여준다. 독점 모델, 특히 북미 주요 공급업체들 모델이 여전히 대다수 토큰을 처리하지만, OSS 모델은 꾸준히 성장해 2025년 말 기준 사용량의 약 1/3에 달했다.
이러한 확장은 우연이 아니다. 사용량 급증은 DeepSeek V3 및 Kimi K2와 같은 주요 오픈 모델 출시 시점(첫 번째 그림의 수직 점선으로 표시)과 일치하여, DeepSeek V3 및 GPT 오픈소스 모델 과 같은 경쟁력 있는 오픈소스 출시가 신속하게 채택되고 그 성과를 유지한다는 것을 보여준다. 특히 이러한 증가세는 초기 출시 주를 넘어 지속되어, 단기 실험이 아닌 진정한 생산 환경에서 활용되고 있음을 의미한다.
이 성장의 상당 부분은 중국에서 개발된 모델들에서 비롯되고 있다. 2024년 말 미미한 수준(주간 점유율 1.2%까지 하락)에서 출발한 중국 OSS 모델은 꾸준히 입지를 넓혀 어떤 주에는 전체 모델 사용량의 약 30%에 육박했다. 1년이란 기간 동안 중국 OSS 모델은 주간 토큰 처리량의 약 13.0%를 차지했으며, 특히 2025년 후반에 강한 성장세를 보였다.
중국 OSS 확장은 경쟁력 있는 품질뿐만 아니라 빠른 반복과 빈번한 출시 주기가 반영된 결과다. Qwen 및 DeepSeek과 같은 모델은 정기적인 모델 출시를 유지하여 새롭게 등장하는 워크로드에 신속하게 적응할 수 있었다. 이러한 패턴은 오픈 소스 부문을 실질적으로 재편하고 LLM 환경 전반에 걸친 글로벌 경쟁을 진전시켰다.
이러한 추세는 LLM 생태계에 지속적인 이중 구조가 존재함을 보여준다. 독점 시스템은 특히 규제 대상 또는 기업 워크로드들에서 신뢰성과 성능 상한선을 계속해서 올리고 있고 OSS 모델은 비용 효율성, 투명성, 맞춤화 기능을 제공해 특정 워크로드에 매력적인 선택지가 되고 있다. 현재 약 30% 수준에서 균형이 이루어지고 있다. 이러한 모델들은 상호 배타적이지 않으며, 오히려 개발자와 인프라 제공업체가 점점 더 선호하는 다중 모델 스택 내에서 서로를 보완한다.
주요 오픈소스 플레이어
오픈소스 모델 환경은 지난 1년간 크게 변화했다. DeepSeek가 여전히 처리량 기준 최대 오픈소스 기여자로 남아있지만, 신규 진입자들이 빠르게 입지를 넓히며 그 우위는 약화되고 있다. 현재는 여러 오픈소스 패밀리가 각각 상당한 사용량을 유지하며 생태계 다양화를 보여주고 있다.
초기(2024년 말)에는 시장이 매우 집중되어 있었다.: DeepSeek 계열 두 모델(V3 및 R1)이 지속적으로 전체 OSS 토큰 사용량의 절반 이상을 차지했다. 이러한 독점적 구조는 여름 전환점(2025년 중반) 이후 붕괴되었다. 이후 시장은 폭과 깊이가 모두 확대되며 사용 패턴이 크게 다각화됐다. Qwen 모델, Minimax M2, MoonshotAI Kimi K2, OpenAI GPT-OSS 시리즈 등 신규 진입 모델들은 모두 급속히 성장하여 상당한 규모 요청을 처리했으며, 출시 후 몇 주 만에 실전 도입에 이르는 경우가 많았다. 이는 오픈소스 커뮤니티와 AI 스타트업이 독창적인 기능이나 우수한 효율성을 갖춘 모델을 도입함으로써 신속한 채택을 달성할 수 있음을 보여준다.
전반적으로 오픈소스 모델 생태계는 현재 매우 역동적이다. 주요 통찰은 다음과 같다:
최상위 다양성: 한때 한 계열(DeepSeek)이 OSS 사용을 지배했던 것과 달리, 이제는 각각 상당한 점유율을 유지하는 6개 모델이 점점 더 많이 등장한다. 단일 오픈 모델이 OSS 토큰 20–25% 이상을 지속적으로 차지하는 경우는 없다.
신규 진입자들의 급속한 확장: 유능한 신규 오픈 모델은 몇 주 만에 상당한 사용량을 확보할 수 있다. 예를 들어, MoonshotAI 모델은 기존 OSS 리더들과 빠르게 경쟁할 정도로 성장했으며, MiniMax와 같은 신생 모델조차도 단 한 분기 만에 제로에서 상당한 트래픽을 기록했다. 이는 전환 장벽이 낮고 실험을 원하는 사용자 기반이 존재함을 시사한다.
반복적 개선의 이점: DeepSeek가 최상위권을 장기간 유지한 것은 지속적인 개선이 중요함을 강조한다. DeepSeek의 연속적인 출시(Chat-V3, R1 등)는 경쟁자가 등장해도 경쟁력을 유지하는 결과로 이어졌다. 개발이 정체된 OSS 모델은 최첨단 또는 도메인 특화 미세 조정을 통해 자주 업데이트되는 모델에 점유율을 빼앗기는 경향이 있다.
2025년 현재 오픈소스 LLM 분야는 혁신 주기가 빠르고 리더십이 보장되지 않는 경쟁 생태계와 유사하다. 모델 개발자에게 이는 최첨단 성능의 오픈 모델을 출시하면 즉각적인 채택을 이끌 수 있지만, 사용 점유율을 유지하려면 지속적인 개발 투자가 필요함을 의미한다. 사용자 및 애플리케이션 개발자에게 이같은 흐름은 긍정적이다. 선택할 수 있는 오픈 모델 폭이 넓어졌으며, 특정 영역(역할극 등)에서 독점 시스템과 비교해 동등하거나 때로는 우월한 성능을 발휘하는 경우가 많다.
모델 규모 대 시장 적합성: 중간 규모가 새로운 소형이다
1년 전만 해도 오픈소스 모델 생태계는 두 극단 간 절충점에 대한 것이었다.: 수많은 소규모 고속 모델과 소수 강력한 대규모 모델이 공존했다. 그러나 지난 1년을 돌아보면 시장이 상당히 성숙해졌으며, 새롭게 부상하는 카테고리인 중간 규모 모델이 등장했음을 알 수 있다. 참고로 모델은 다음과 같이 매개변수 수에 따라 분류한다:
소형: 매개변수 150억 개 미만 모델
중형: 150억~700억개 파라미터를 가진 모델.
대형: 700억개 이상 파라미터를 가진 모델.
개발자와 사용자 행동 데이터는 미묘한 차이를 보여준다. 모든 범주에 걸쳐 모델의 수는 증가했지만, 사용량은 눈에 띄게 변화했다. 소형 모델 인기는 떨어지는 반면, 중형 및 대형 모델이 그 가치를 흡수하고 있다.
이러한 추세를 주도하는 모델들을 자세히 살펴보면 뚜렷한 시장 역학이 나타난다:
“소형” 시장: 전반적인 사용량 감소. 새로운 모델이 꾸준히 공급되고 있음에도 불구하고, 소형 모델 범주 전체 사용 점유율은 감소하고 있다. 이 범주는 높은 분산성이 특징이다. 단일 모델이 오랫동안 지배적 위치를 차지하지 못하며, 메타(Meta), 구글(Google), 미스트랄(Mistral), 딥시크(DeepSeek) 등 다양한 신규 진입자가 끊임없이 유입된다. 예를 들어, Google Gemma 3.12B(2025년 8월 출시)는 빠른 채택률을 보였으나, 사용자들이 지속적으로 차세대 최상의 대안을 찾는 혼잡한 시장에서 경쟁하고 있다.
“중간 규모” 시장: “모델-시장 적합성” 찾기 중간 규모 모델 카테고리는 시장 창출의 명확한 사례를 보여준다. 2024년 11월 Qwen2.5 Coder 32B가 출시되기 전까지 이 부문 자체는 무시할 수준이었으나, Qwen2.5 Coder 32B가 사실상 해당 카테고리를 정립했다. 이후 Mistral Small 3(2025년 1월) 및 GPT-OSS 20B(2025년 8월) 등 강력한 경쟁자들 등장으로 이 세그먼트는 경쟁 생태계로 성숙하며 사용자 마음 점유율을 확보했다. 이 세그먼트는 사용자들이 성능과 효율성의 균형을 추구함을 보여준다.
“대형” 모델 세그먼트: 다원적 풍경. “품질 추구”는 통합이 아닌 다양화로 이어졌다. 대형 모델 카테고리는 이제 Qwen3 235B A22B Instruct(2025년 7월 출시)와 Z.AI GLM 4.5 Air부터 OpenAI: GPT-OSS-120B(8월 5일)에 이르기까지 다양한 고성능 경쟁 모델을 보유하고 있으며, 각 모델은 의미 있고 지속적인 사용량을 확보하고 있다. 이러한 다원주의는 사용자들이 단일 표준으로 수렴하기보다는 여러 오픈 소스 대형 모델을 적극적으로 비교 평가하고 있음을 시사한다.
소형 모델이 오픈 소스 생태계를 지배하던 시대는 지났을 수 있다. 시장은 이제 양분화되고 있으며, 사용자들은 새로운 강력한 중형 모델 계층으로 이동하거나 가장 뛰어난 단일 대형 모델로 워크로드를 통합하는 양상을 보인다.
오픈소스 모델은 어디에 쓰이나
오늘날 오픈소스 모델은 창의적, 기술적, 정보적 영역에 걸쳐 놀라울 정도로 광범위한 작업에 활용되고 있다. 정형화된 비즈니스 업무에서는 여전히 독점적 모델이 주류를 이루지만, OSS 모델은 특히 두 가지 영역에서 주도권을 확보했다: 창의적 역할극과 프로그래밍 지원이다. 이 두 범주는 OSS 토큰 사용량의 대부분을 차지한다.
OSS 모델 사용량 절반 이상이 롤플레이(Roleplay)에 속하며, 프로그래밍(Programming)이 두 번째로 큰 범주다. 이는 사용자들이 주로 창의적인 대화형 대화(스토리텔링, 캐릭터 역할극, 게임 시나리오 등)와 코딩 관련 작업을 위해 오픈 모델을 활용함을 시사한다. 롤플레이의 압도적 비중(전체 OSS 토큰의 50% 이상을 차지)은 오픈 모델이 우위를 점하는 사용 사례를 부각시킨다: 창의적 활용이 가능하며 콘텐츠 필터 제약이 상대적으로 적어 판타지나 엔터테인먼트 애플리케이션에 매력적이다. 역할극 작업은 유연한 응답, 맥락 유지, 감정적 미묘함을 요구하는데, 이는 상업적 안전성이나 관리 계층에 크게 제약받지 않으면서도 오픈 모델이 효과적으로 제공할 수 있는 특성들이다. 이로 인해 캐릭터 중심 경험, 팬픽션, 인터랙티브 게임, 시뮬레이션 환경을 실험하는 커뮤니티에게 특히 매력적이다.
중국 OSS 모델들은 더 이상 주로 창의적 작업에 사용되지 않는다. 롤플레이(Roleplay)가 약 33%로 여전히 가장 큰 비중을 차지하지만, 프로그래밍과 기술 분야가 합쳐져 전체 사용량의 주요 비중(39%)를 차지하고 있다. 이러한 변화는 Qwen과 DeepSeek같은 모델들이 코드 생성 및 인프라 관련 워크로드들에 점점 더 많이 활용되고 있음을 시사한다. 대규모로 쓰는 기업 사용자들이 특정 분야에 영향을 미칠 수 있지만, 전반적인 추세는 중국 OSS 모델들이 기술 및 생산성 영역에서 직접 경쟁하고 있음을 보여준다.
프로그래밍 분야만 확대해 보면, 독점 모델이 여전히 전체 코딩 지원에서 대부분을 차지하는 것을 확인할 수 있다. 이는 Anthropic Claude와 같은 강력한 서비스가 반영된 결과다. 그러나 오픈소스(OSS) 부분에서는 주목할 만한 전환이 있었다.: 2025년 중반, 중국산 OSS 모델들이 오픈소스 코딩 지원의 대부분을 제공했다.(초기 성공 사례인 Qwen 3 Coder 등에 힘입어). 2025년 4분기에는 메타 LLaMA-2 Code나 오픈AI GPT-OSS 시리즈 같은 서구 OSS 모델들이이 급증했으나, 최근 몇 주간 전체 점유율은 감소했다. 이러한 변동은 매우 경쟁적인 환경을 보여준다. 실질적인 시사점은 오픈소스 코드 어시스턴트 사용이 역동적이며 신규 모델 품질에 매우 민감하다는 점이다: 개발자들은 현재 최상의 코딩 지원을 제공하는 OSS 모델을 가리지 않고 수용한다.
에이전틱 추론의 부상
이전 섹션에서 논의한 진화하는 모델 환경(오픈 소스 대 폐쇄형 소스)에 기반해 이제 우리는 대규모 언어 모델(LLM) 사용 자체의 근본적인 형태로 주제를 전환한다. 언어 모델이 실제 환경에서 활용되는 방식에 근본적인 변화가 진행 중이다: 단일 단계 텍스트 완성에서 다단계, 도구 통합, 추론 집약적 워크플로로 전환되고 있다. 우리는 이 변화를 에이전틱 추론(agentic inference)의 부상이라고 부른다.
여기서 모델은 단순히 텍스트를 생성하는 데 그치지 않고, 계획 수립, 도구 호출, 확장된 맥락 간 상호작용을 통해 행동한다. 이와 관련해 다섯 가지 지표를 통해 이러한 변화를 추적한다: 추론 모델의 부상, 도구 호출 행동의 확대, 변화하는 시퀀스 길이 프로파일, 그리고 프로그래밍 활용이 복잡성을 어떻게 주도하는지.
추론 모델, 전체 사용량의 절반을 차지하다
추론 vs. 비추론 토큰 동향. 추론 최적화 모델을 통해 처리된 전체 토큰 비중은 2025년 초부터 꾸준히 증가해왔다.. 이 지표는 모델 출력 내 “추론 토큰” 비중이 아닌, 추론 모델이 처리한 전체 토큰의 비율을 반영한다.
추론 최적화 모델을 통해 처리된 전체 토큰 비중은 2025년에 급격히 상승했다. 1분기 초에는 사실상 무시할 만한 수준이었던 사용량이 현재는 50%를 넘어섰다.. 이러한 변화는 공급과 수요라는 시장 양측이 모두 반영된 결과다. 공급 측면에서는 GPT-5, Claude 4.5, Gemini 3과 같은 고성능 시스템 출시로 사용자가 단계적 추론에서 기대할 수 있는 범위가 확대되었다. 수요 측면에서는 사용자들이 단순히 텍스트를 생성하는 것보다 작업 상태를 관리하고, 다단계 논리를 따르며, 에이전트 스타일 워크플로를 지원하는 모델을 점점 더 선호하게 되었다.
최신 데이터에서 xAI의 Grok Code Fast 1은 이제 (무료 출시 액세스 제외) 추론 트래픽의 가장 큰 비중을 차지하며 Google의 Gemini 2.5 Pro 및 Gemini 2.5 Flash를 앞섰다. 이는 불과 몇 주 전만 해도 Gemini 2.5 Pro가 이 분야를 주도하고 DeepSeek R1과 Qwen3도 최상위권에 있던 것과 비교해 주목할 만한 변화다. Grok Code Fast 1과 Grok 4 Fast는 xAI의 공격적인 출시, 경쟁력 있는 가격 정책, 그리고 코드 중심 변형 모델에 대한 개발자들의 관심에 힘입어 빠르게 점유율을 높였다. 동시에 OpenAI gpt-oss-120b와 같은 오픈 모델의 지속적인 존재는 개발자들이 가능한 경우 여전히 OSS를 선호한다는 점을 보여준다. 전체적인 구성은 추론 환경이 얼마나 역동적으로 변모했는지 보여준다. 모델의 빠른 교체 주기가 실제 워크로드를 주도하는 시스템을 결정하는 핵심 요인으로 작용하고 있다.
데이터는 명확한 결론을 제시한다: 추론 중심 모델이 실제 워크로드의 기본 경로로 자리잡고 있으며, 이를 통해 처리되는 토큰 비중은 이제 사용자가 AI 시스템과 상호작용하고자 하는 방식을 예측하는 선행 지표가 되었다.
증가하는 도구 호출 채택
도구 호출(Tool-calling, AI 모델이 외부 도구나 기능을 직접 호출해 작업을 실행하는 능력)은 초기에는 소수 모델에 집중됐다.: OpenAI의 gpt-4o-mini와 Anthropic의 Claude 3.5 및 3.7 시리즈가 2025년 초 도구 활성화 토큰의 대부분을 차지했다. 그러나 연중에는 더 다양한 모델들이 도구 제공을 지원하기 시작하며 경쟁적이고 다각화된 생태계를 반영했다. 9월 말부터는 신형 Claude 4.5 Sonnet 모델이 빠르게 점유율을 높였다.
한편 Grok Code Fast및 GLM 4.5와 같은 신규 진입 모델들도 눈에 띄는 진전을 보이며, 도구 활용이 가능한 배포 환경에서 실험과 다양화가 확대되고 있음을 보여준다. 운영자에게 시사하는 바는 분명하다: 고부가가치 워크플로우에서 도구 사용 지원이 증가하고 있있다. 신뢰할 수 있는 도구 포맷을 지원하지 않는 모델은 기업 도입 및 오케스트레이션 환경에서 뒤처질 위험이 있다.
더 긴 시퀀스, 더 복잡한 상호작용
시퀀스 길이는 작업 복잡성과 상호작용 깊이의 지표다. 평균 시퀀스 길이가 지난 20개월 동안 2023년 말 2,000 토큰 미만에서 2025년 말 5,400 토큰 이상으로 3배 이상 증가했다. 이같은 성장은 더 긴 컨텍스트 창, 더 깊은 작업 이력, 더 정교한 완성으로의 구조적 전환을 반영한다.
프로그래밍 관련 프롬프트는 이제 범용 프롬프트보다 평균 3~4배 긴 토큰 길이를 보인다. 이러한 차이는 소프트웨어 개발 워크플로우가 더 긴 상호작용의 주요 동인임을 시사한다. 긴 시퀀스는 단순히 사용자가 장황하게 뭔가 했다는뜻이 아니다.: 이는 내재화된, 더 정교한 에이전트 중심 워크플로우의 특징이다.
시사점: 에이전트적 추론이 새로운 기본값이 되다
이러한 추세들(증가하는 추론 비중, 확장된 도구 사용, 더 긴 시퀀스, 그리고 프로그래밍의 과도한 복잡성)은 LLM 사용 중심축이 이동했음을 시사한다. 전형적인 LLM 요청은 더 이상 단순한 질문이나 고립된 지시가 아니다. 대신, 외부 도구를 호출하고 상태에 대해 추론하며 더 긴 컨텍스트에 걸쳐 지속되는 구조화된 에이전트적 루프의 일부이다.
모델 공급자에게 이는 기본 기능에 대한 기준을 높인다. 지연 시간, 도구 처리, 컨텍스트 지원, 그리고 잘못된 형식이나 적대적 도구 체인에 대한 견고성이 점점 더 중요해지고 있다. 인프라 운영자에게는 추론 플랫폼이 이제 상태 비저장 요청뿐만 아니라 장시간 실행되는 대화, 실행 추적, 권한 민감한 도구 통합까지 관리해야 한다.
카테고리: 사람들은 LLM을 어떻게 사용하고 있을까?
사용자가 LLM으로 수행하는 작업의 분포를 이해하는 것은 실제 수요와 모델-시장 적합성을 평가하는 핵심이다.
프로그래밍은 모든 모델에서 가장 꾸준히 확장되는 분야가 되었다. 프로그래밍 관련 요청 비중은 2025년까지 꾸준히 증가했으며, 이는 LLM 지원 개발 환경과 도구 통합의 부상과 맞물려 있다. 프로그래밍 관련 질의는 2025년 초 전체 토큰 볼륨의 약 11%를 차지했으나 최근 몇 주간 50%를 넘어섰다. 이러한 추세는 탐색적·대화형 사용에서 코드 생성, 디버깅, 데이터 스크립팅과 같은 응용 작업으로의 전환을 반영한다. LLM이 개발자 워크플로우에 내재화됨에 따라 프로그래밍 도구로서의 역할이 정착되고 있다. 이러한 진화는 모델 개발에 시사점을 제공하는데, 코드 중심 학습 데이터 중요성 증대, 다단계 프로그래밍 작업에 대한 추론 깊이 향상, 모델과 통합 개발 환경(IDE) 간의 긴밀한 피드백 루프 구축 등이 포함된다.
이러한 프로그래밍 지원 수요 증가는 모델 공급업체 간 경쟁 구도를 재편하고 있다. Anthropic Claude 시리즈는 관측 기간 대부분 프로그래밍 관련 지출의 60% 이상을 차지하며 해당 분야를 꾸준히 주도해왔다. 그럼에도 시장 지형은 의미 있게 진화했다. 11월 17일 주간, Anthropic의 점유율이 사상 처음으로 60% 아래로 떨어졌다. 7월 이후 OpenAI는 점유율을 약 2%에서 최근 약 8%로 확대했는데, 이는 개발자 중심 워크로드에 대한 재조명을 반영한 것으로 보인다. 같은 기간 구글의 점유율은 약 15%로 안정세를 유지했다. 중위권 세그먼트도 움직임이 있다. Z.AI, Qwen, Mistral AI 등 오픈소스 공급업체들이 꾸준히 인지도를 높이고 있다. 특히 MiniMax는 최근 몇 주간 눈에 띄는 성장을 보이며 급부상하는 신흥 주자로 부상했다. 전반적으로 프로그래밍은 가장 경쟁이 치열하고 전략적으로 중요한 모델 범주 중 하나로 자리매김했다. 모델 품질이나 지연 시간의 사소한 변화조차도 주간별 점유율 변동을 초래할 수 있다.
Anthropic Claude는 프로그래밍 + 기술 활용에 크게 치우쳐 있으며, 이 두 분야가 전체 사용량의 80% 이상을 차지한다. 롤플레이와 일반적인 Q&A는 극히 일부에 불과하다. 이는 Claude가 복잡한 추론, 코딩, 구조화된 작업에 최적화된 모델로 포지셔닝됨을 확인시켜 준다. 개발자와 기업들은 주로 코딩 보조 및 문제 해결 도구로 Claude를 활용하는 것으로 보인다.
Google 모델의 사용 패턴은 더 다양하다. 번역, 과학, 기술 및 일부 일반 지식 분야에서 두드러진 비중을 확인할 수 있다. 예를 들어, 구글 사용량의 약 5%는 법률 또는 정책 관련 콘텐츠였고, 약 10%는 과학 관련이었다. 이는 제미니의 광범위한 훈련 초점을 암시할 수 있다. 다른 모델들과 비교했을 때, 구글은 상대적으로 코딩 비중이 적으며, 실제로 2025년 말까지 감소 추세(약 18%까지 하락)를 보였고, 더 넓은 범주의 사용 패턴을 보인다. 이는 구글 모델이 범용 정보 엔진으로 더 많이 활용되고 있음을 시사한다.
xAI의 사용 프로필은 다른 제공업체와 뚜렷이 다르다. 대부분 기간 동안 사용량은 압도적으로 프로그래밍 분야에 집중되어 전체 토큰의 80%를 초과하는 경우가 많았다. 11월 말에 이르러서야 분포가 확대되며 기술, 역할극, 학술 분야에서 눈에 띄는 증가를 보였다. 이러한 급격한 변화는 xAI 모델이 특정 소비자 애플리케이션을 통해 무료로 배포되기 시작한 시기와 일치한다. 이는 개발자가 아닌 사용자들 대규모 유입을 초래했을 가능성이 높다. 결과적으로 초기 개발자 중심의 핵심 사용층과 갑작스러운 범용적 참여 물결이 혼합된 사용 구성으로 나타났으며, 이는 xAI의 채택 경로가 기술적 사용자들과 프로모션 제공과 연계된 일시적 급증에 의해 동시에 형성되고 있음을 시사한다.
OpenAI의 사용 프로필은 2025년 내내 크게 변화했다. 연초에는 과학 관련 작업이 OpenAI 토큰의 절반 이상을 차지했으나, 2025년 말에는 그 비중이 15% 미만으로 감소했다. 한편 프로그래밍 및 기술 관련 사용량은 현재 전체 사용량의 절반 이상(각각 29%)을 차지하며, 개발자 워크플로우, 생산성 도구, 전문 애플리케이션과 통합을 반영한다. 현재 OpenAI의 사용 구성은 Anthropic의 집중된 프로필과 Google의 확산된 분포 사이에서 위치하며, 고부가가치 구조화 작업으로의 기울기를 보이며 광범위한 활용 기반을 시사한다.
DeepSeek와 Qwen은 앞서 논의된 다른 모델 계열과 상당히 다른 사용 패턴을 보인다. DeepSeek의 토큰 분포는 역할극, 캐주얼 채팅, 엔터테인먼트 중심 상호작용이 지배적이며, 종종 전체 사용량의 3분의 2 이상을 차지한다. 프로그래밍이나 과학 같은 구조화된 작업은 활동의 극히 일부에 불과하다. 이 패턴은 DeepSeek의 강력한 소비자 지향성과 높은 참여도를 유도하는 대화형 모델로서의 포지셔닝을 반영한다. 특히 DeepSeek은 늦여름 프로그래밍 관련 사용량이 소폭이지만 꾸준히 증가하는 모습을 보여, 경량 개발 워크플로우에서 점진적으로 채택되고 있음을 시사한다.
반면 Qwen은 거의 정반대 프로필을 보인다. 표시된 전체 기간 동안 프로그래밍이 전체 토큰의 40~60%를 꾸준히 차지하며 기술 및 개발자 작업에 대한 명확한 중점을 시사한다. Anthropic의 보다 안정적인 엔지니어링 중심 구성과 비교할 때, Qwen은 과학, 기술, 역할극과 같은 인접 카테고리 전반에 걸쳐 더 높은 변동성을 보인다. 이러한 주간별 변화는 이질적인 사용자 기반과 적용 사례의 빠른 반복을 암시한다. 9월과 10월 동안 눈에 띄게 증가한 롤플레이 사용량이 11월에 감소한 점은 사용자 행동 변화나 다운스트림 애플리케이션 라우팅 조정을 암시한다.
요약하면, 각 공급자는 전략적 초점에 부합하는 독특한 프로필을 보여준다. 이러한 차이는 단일 모델이나 공급자가 모든 사용 사례를 최적으로 커버할 수 없는 이유를 부각시키며, 다중 모델 생태계의 잠재적 이점을 강조한다.
지역별 LLM 사용량 차이
글로벌 LLM 사용량은 지역별로 뚜렷한 차이를 보인다. 북미는 여전히 단일 최대 지역이지만, 관측 기간 대부분 동안 전체 지출의 절반 미만을 차지한다. 유럽은 안정적이고 지속적인 기여도를 보여준다. 주간 지출에서 차지하는 상대적 비중은 전체 기간 동안 일관되게 유지되며, 일반적으로 15% 중반에서 20% 초반 사이의 범위를 차지한다. 주목할 만한 발전은 아시아가 최첨단 모델의 생산자일 뿐만 아니라 급속히 확장되는 소비자로 부상하고 있다는 점이다. 데이터셋 초기 몇 주 동안 아시아는 전 세계 지출의 약 13%를 차지했다. 시간이 지남에 따라 이 비중은 두 배 이상 증가하여 최근 기간에는 약 31%에 달했다.
유지률 차트를 보면 표면적으로는 높은 이탈률과 급격한 코호트 감소가 두드러진다. 그러나 이러한 변동성 아래에는 더 미묘하고 중요한 신호가 숨어 있다. 소수의 초기 사용자 코호트가 시간이 지나도 지속적인 유지율을 보인다는 점이다.. 우리는 이를 기초 코호트라 명명한다. 이 코호트는 단순한 얼리 어답터가 아니다. 이들은 워크로드가 깊고 지속적인 워크로드-모델 적합도를 달성한 사용자들을 대표한다. 일단 확립되면, 이 적합도는 새로운 모델이 등장하더라도 대체를 저항하는 경제적·인지적 관성을 동시에 창출한다
마침내 '맞춤'을 찾은 개발자나 조직에게는 이 정합성이 강력한 락인 효과를 창출한다. 그들의 시스템, 데이터 파이프라인, 사용자 경험은 문제를 최초로 해결한 모델에 고정된다. 비용이 감소하고 신뢰성이 증가함에 따라 플랫폼 전환 유인은 급격히 줄어든다. 반대로, 이러한 맞춤을 찾지 못한 워크로드는 탐색적 상태를 유지하며 자신만의 해결책을 찾아 모델들을 찾아다니게 된다.
실증적으로 이 패턴은 2025년 6월 출시된 Gemini 2.5 Pro와 2025년 5월 출시된 Claude 4 Sonnet 코호트에서 관찰된다. 이들 코호트는 출시 5개월 차에 약 40% 사용자를 유지하며, 이는 후속 코호트보다 현저히 높은 수치다. 이러한 코호트는 특정 기술적 돌파구(예: 추론 정확도 또는 도구 사용 안정성)와 연관되어 보이며, 이는 이전에는 불가능했던 워크로드를 마침내 가능하게 했다.
논의할 포인트
이번 연구는 LLM 실제 활용 방식을 데이터 기반 관점에서 제시하며, AI 배포에 관한 통념을 보완하는 몇 가지 주제를 강조한다.
1. 다중 모델 생태계. 분석 결과 단일 모델이 모든 사용을 지배하지 않음을 확인했다. 오히려 폐쇄형과 공개형 모델이 상당한 점유율을 차지하는 풍부한 다중 모델 생태계가 관찰된다. 예를 들어, OpenAI와 Anthropic 모델이 많은 프로그래밍 및 지식 작업에서 선두를 달리고 있음에도, DeepSeek 및 Qwen과 같은 오픈소스 모델들이 총 토큰의 상당 부분(때로는 30% 이상)을 공동으로 처리했다. 이는 LLM 사용의 미래가 모델에 구애받지 않는 이질적인 형태가 될 것임을 시사한다. 개발자에게 이는 유연성을 유지하고, 여러 모델을 통합하며, 각 작업에 최적의 모델을 선택해야 함을 의미한다. 단일 모델의 우위에 모든 것을 걸어서는 안 된다. 모델 제공업체에게는 경쟁이 예상치 못한 곳에서 발생할 수 있음을 강조한다.(예: 지속적으로 개선하고 차별화하지 않으면 커뮤니티 모델이 시장 점유율을 잠식할 수 있음).
2. 생산성을 넘어선 활용 다양성. 놀라운 발견은 롤플레잉 및 엔터테인먼트 중심 활용의 엄청난 규모다. 오픈소스 모델 사용량의 절반 이상이 롤플레잉과 스토리텔링에 사용되었다.독점 플랫폼에서도 초기 ChatGPT 사용 상당 부분은 전문적 용도가 증가하기 전까지 캐주얼하고 창의적인 용도였다. 이는 LLM이 주로 코드 작성, 이메일, 요약 등에 사용된다는 가정을 반박한다. 실제로 많은 사용자가 컴패니온 관계나 탐색을 위해 이 모델들과 교류한다. 이는 중요한 함의를 갖는다. 서사 설계, 감정적 몰입, 상호작용을 결합한 소비자 대상 애플리케이션에 상당한 기회가 있음을 부각한다. 개성을 발전시키고 선호도를 기억하며 장시간 대화를 지속하는 에이전트와 같은 개인화 분야에서 새로운 지평을 제시한다. 모델 평가 지표도 재정의한다.: 성공은 사실적 정확성보다 일관성, 일관성, 그리고 매력적인 대화를 지속하는 능력에 더 좌우될 수 있다. 마지막으로, 이는 AI와 엔터테인먼트 IP 간 교차점을 열어주며, 인터랙티브 스토리텔링, 게임, 크리에이터 주도형 가상 캐릭터 분야에서 잠재력을 지닌다.
3. 에이전트 대 인간: 에이전트적 추론의 부상. LLM 사용은 단일 대화에서 에이전트적 추론으로 전환되고 있다. 여기서 모델은 여러 단계를 걸쳐 계획하고, 추론하며, 실행한다. 일회성 응답 생성 대신, 이제 목표 달성을 위해 도구 호출을 조정하고 외부 데이터에 접근하며 출력을 반복적으로 개선한다. 초기 증거는 다단계 질의와 연쇄적 도구 사용 증가를 보여주며, 이는 에이전틱 사용의 지표로 간주된다. 이 패러다임이 확장됨에 따라 평가 기준은 언어 품질에서 작업 완료 및 효율성으로 전환될 것이다. 다음 경쟁 전선은 모델이 지속적인 추론을 수행하는 효과성에 있으며, 이는 궁극적으로 대규모 에이전틱 추론의 실질적 의미를 재정의할 수 있는 전환점이다.
4. 지리적 전망. LLM 사용은 점점 더 글로벌하고 분산화되는 추세이며, 북미 지역을 넘어 급속히 성장하고 있다. 아시아의 전체 토큰 수요 점유율은 약 13%에서 31%로 상승했는데, 이는 기업 도입과 혁신이 더욱 활발해졌음을 반영한다. 한편, 중국은 주요 세력으로 부상했는데, 이는 국내 소비뿐만 아니라 글로벌 경쟁력을 갖춘 모델을 생산함으로써 이루어졌다. 더 넓은 시야에서 볼 때, LLM은 전 세계적으로 유용해야 하며, 다양한 언어, 맥락, 시장에서 우수한 성능을 발휘해야 한다. 차세대 경쟁은 모델 규모뿐만 아니라 문화적 적응력과 다국어 처리 능력에 달려 있을 것이다.
5. 비용 대 사용 동향. LLM 시장은 아직 상품처럼 행동하지 않는 것으로 보인다: 가격만으로는 사용량을 설명하기 어렵다. 사용자들은 비용과 추론 품질, 신뢰성, 기능 범위를 저울질한다. 폐쇄형 모델은 여전히 고가치·수익 연계 워크로드를 차지하는 반면, 개방형 모델은 저비용·대량 작업에서 우위를 점한다. 이는 안정성보다는 하위에서의지속적인 압력에 의해 정의되는 역동적 균형을 창출한다. 오픈소스 모델은 특히 추론 및 코딩 영역(예: Kimi K2 Thinking)에서 효율적 경계를 지속적으로 확장하며, 신속한 반복과 OSS 혁신이 성능 격차를 좁힌다. 각각의 오픈 모델 개선은 독점 시스템 가격 결정력을 압박하여, 우수한 통합성, 일관성 및 기업 지원을 통해 프리미엄을 정당화하도록 강요한다. 그 결과 경쟁은 빠르게 움직이고 비대칭적이며 지속적으로 변화한다. 시간이 지남에 따라 품질 수렴이 가속화되면 가격 탄력성이 증가할 가능성이 높으며, 이는 한때 차별화된 시장을 더 유동적인 시장으로 전환시킬 것이다.
6. 유지율과 신데렐라 유리 구두 현상. 파운데이션 모델이 단계가 아닌 도약으로 발전함에 따라 유지율은 진정한 방어 가능성의 척도가 되었다. 각 혁신은 모델이 고가치 워크로드를 완벽히 '적합'시킬 수 있는 순간적인 출시 창(신데렐라 유리 구두의 순간)을 창출하며, 사용자가 이 적합성을 발견하면 계속 머무르게 된다. 이 패러다임에서 제품-시장 적합성은 워크로드-모델 적합성과 동일하다: 실제 문제점을 최초로 해결하는 기업은 사용자가 해당 기능을 중심으로 워크플로우와 습관을 구축함에 따라 깊고 지속적인 채택을 이끌어낸다. 이후 전환은 기술적·행동적 측면 모두에서 비용이 발생한다. 개발자와 투자자가 주목해야 할 신호는 성장률이 아닌 유지율 곡선, 즉 모델 업데이트를 견뎌내는 핵심 사용자 집단의 형성이다. 급변하는 시장에서 이러한 중요한 미충족 수요를 조기에 포착하는 것이 다음 역량 도약 이후 생존자를 가른다.
LLM은 프로그래밍부터 창작 글쓰기까지 다양한 영역에서 추론 유사 작업을 위한 필수적인 계산 기반이 되어가고 있다. 모델이 계속 발전하고 배포가 확대됨에 따라, 실제 사용 동향에 대한 정확한 통찰력을 확보하는 것은 정보에 기반한 의사결정을 내리는 데 중요할 것이다. 사람들이 LLM을 사용하는 방식은 항상 기대와 일치하지 않으며 국가별, 주별, 사용 사례별로 크게 다르다. 대규모 사용을 관찰함으로써 우리는 LLM의 영향에 대한 이해를 현실에 기반할 수 있으며, 기술적 개선, 제품 기능 또는 규제를 포함한 후속 개발이 실제 사용 패턴과 요구 사항에 부합하도록 보장할 수 있다.
결론
이번 연구는 LLM이 세계의 계산 인프라에 어떻게 내재화되고 있는지에 대한 경험적 관점을 제시한다. LLM은 이제 워크플로우, 애플리케이션, 행위자 시스템에 필수적인 요소로 자리잡아 정보가 생성, 매개, 소비되는 방식을 바꾸고 있다.
지난 한 해는 해당 분야가 추론을 인식하는 방식에 획기적인 변화를 촉발했다. o1 등급 모델의 출현은 확장된 숙고와 도구 사용을 표준화했으며, 평가 기준을 단발성 벤치마크에서 프로세스 기반 지표, 지연-비용 상충 관계, 오케스트레이션 환경에서의 작업 성공률로 전환시켰다. 추론은 이제 모델이 더 신뢰할 수 있는 결과를 제공하기 위해 얼마나 효과적으로 계획하고 검증할 수 있는지를 측정하는 척도가 되었다.
데이터는 LLM 생태계가 구조적으로 다원적임을 보여준다. 단일 모델이나 공급자가 지배하지 않으며, 사용자는 상황에 따라 능력, 지연 시간, 가격, 신뢰도 등 다중 축을 따라 시스템을 선택한다. 이러한 이질성은 일시적 단계가 아닌 시장의 근본적 특성이다. 이는 신속한 반복을 촉진하고 특정 모델이나 스택에 대한 체계적 의존도를 감소시킨다.
추론 자체도 변화하고 있다. 다단계 및 도구 연계 상호작용의 부상은 정적 완결에서 동적 오케스트레이션으로의 전환을 시사한다. 사용자들은 복합적 목표 달성을 위해 모델, API, 도구를 연결하며, 이를 주체적 추론(agentic inference)이라 부를 수 있는 현상을 낳고 있다. 주체적 추론이 이미 인간의 추론을 능가했거나, 그렇지 않더라도 능가할 것이라는 믿을 만한 근거는 많다.
지리적으로도 환경은 더욱 분산화되고 있다. 아시아의 사용 점유율은 지속적으로 확대되고 있으며, 특히 중국은 문샷 AI, 딥시크, 콴(Qwen)과 같은 기업들의 부상으로 모델 개발자이자 수출국으로 부상했다. 비서구권 오픈웨이트 모델의 성공은 LLM이 진정한 글로벌 컴퓨팅 자원임을 보여준다.
실질적으로 o1은 경쟁을 종식시키지 않았다. 오히려 그 반대다. 이는 설계 공간을 확장시켰다. 이 분야는 단일 시스템에 대한 집중 투자 대신 시스템 사고로, 직관 대신 계측으로, 리더보드 순위 변동 대신 경험적 사용 분석으로 이동하고 있다. 지난 한 해가 에이전트 추론의 실행 가능성이 확장할 수 있음을 입증했다면, 다음 해는 운영적 우수성에 초점을 맞출 것이다.: 실제 작업 완료 측정, 분포 변화 시 변동성 감소, 모델 행동을 생산 규모 워크로드의 실질적 요구와 정렬하는 것이 그 핵심이다.