추론이 새로운 전장이 된 이유: 칩·플랫폼·비즈니스 모델의 대전환
안녕하세요. 데이터 스포일러입니다.
기술 트렌드를 이해하실 수 있도록 정보를 요약해서 공유해 드리겠습니다. 많은 관심 바랍니다.^^
2025년 1월, 전 세계 AI 업계는 충격을 받았습니다.
중국 AI 스타트업 "DeepSeek"이 공개한 추론 특화 모델 R1이 미국 최고 수준의 모델과 비슷한 성능을 내면서도 추론 비용은 최대 20~50배 저렴하다는 사실이 알려지자, 그날 오전 "NVIDIA"의 주가는 단숨에 17% 폭락했습니다. 이 사건은 단순한 주가 조정이 아니었습니다. AI 산업의 가치 창출 방식이 근본적으로 바뀌고 있다는 신호탄이었습니다.
지금까지 AI 투자의 핵심 축은 '학습(Training)'이었습니다. 더 많은 데이터, 더 많은 GPU, 더 많은 전력을 쏟아부어 더 큰 모델을 만드는 것이 경쟁의 문법이었는데요. 그러나 이 문법에 균열이 생기고 있습니다. 인터넷상의 공개 데이터는 사실상 소진 단계에 접어들었고, LLM의 훈련 성능 향상 곡선은 눈에 띄게 완만해지고 있습니다.
자연스럽게 업계의 시선은 '추론'으로 옮겨가고 있습니다. 추론이란 이미 훈련된 AI 모델이 실제로 사용자의 질문에 답하거나 작업을 수행하는 단계, 즉 AI가 가치를 만들어내는 바로 그 순간입니다.
시장 데이터는 이 전환을 선명하게 보여줍니다. 2026년을 기준으로 추론 워크로드는 전체 AI 컴퓨팅의 약 3분의 2를 차지할 것으로 예측되는데, 이는 2023년의 3분의 1, 2025년의 절반에서 가파르게 증가한 수치입니다. 추론 최적화 칩 시장 규모도 2026년에는 500억 달러를 넘어설 전망입니다.(출처: Deloitte Insights)
비용 구조도 이 방향을 강하게 뒷받침합니다. 2025년 스탠퍼드 AI 인덱스에 따르면 추론 비용은 100만 토큰당 20달러에서 0.07달러 수준으로 급감했습니다.(출처: Introl)
비용이 빠르게 낮아지면 소비가 폭발적으로 늘어납니다. 과거에는 너무 비싸서 쓰지 못했던 AI 응용이 이제 실용적이 되고, 그 결과 인프라 수요 자체가 다시 커지는 역설적 선순환이 만들어지고 있습니다.
여기에 '추론 시간 연산(Test-Time Compute, TTC)'이라는 새로운 패러다임이 더해지면서 판도는 한층 복잡해졌습니다. OpenAI의 o 시리즈와 DeepSeek의 R1은 추론 시간에 더 많은 연산, 즉 '더 오래 생각하기'를 허용하면 훈련을 추가하지 않아도 모델 성능이 크게 향상된다는 사실을 보여주었습니다. 문제를 풀기 위해 추론 단계에서 수십 배 더 많은 토큰을 생성하는 이 방식은, 추론 인프라의 수요를 이전과는 비교할 수 없는 수준으로 끌어올리고 있습니다.
이 세 가지 신호, (1)컴퓨팅 비중의 역전, (2)비용 하락에 따른 수요 폭발, 그리고 (3)추론 시간 연산의 등장이 교차하는 지금, AI 산업의 무게중심은 확연히 이동하고 있습니다. 이 이동이 구체적으로 어떤 기업들을 만들어내고, 어떤 전략적 대결을 낳고 있는지, 분석해 보겠습니다.
[NVIDIA × Groq: 추론 시장 선점을 위한 20억 달러짜리 결단]
훈련 시장의 절대 강자 "NVIDIA"가 추론 시장에서 내린 첫 번째 대형 베팅은 바로 "Groq" 인수입니다. NVIDIA는 2025년 9월 대규모 문맥 추론에 특화된 GPU Rubin CPX를 발표했고, Groq 기술의 라이선싱 계약을 통해 저지연·저비용 추론을 자사 AI 팩토리 아키텍처에 통합하려는 전략을 공식화했습니다.
Groq이 구축한 LPU(Language Processing Unit)는 GPU에서 흔히 발생하는 캐시·멀티스레딩 레이어를 제거하고 결정론적 연산 방식을 채택함으로써 일부 워크로드에서 GPU 대비 약 10배의 추론 속도를 구현하면서 전력 소비는 약 3분의 1 수준에 그칩니다.
NVIDIA가 기술을 내재화한다는 것은, 단순히 경쟁자를 제거하는 것이 아닙니다. GPU 중심의 훈련 플랫폼에 초고속 추론 능력을 접목해, AI Factory 전체를 하나의 통합 스택으로 장악하겠다는 의도입니다. GTC 2025 키노트에서 젠슨 황은 '추론의 변곡점이 도래했다'라고 선언하며, 2025~2027년 사이 AI 칩 매출로 최대 1조 달러를 예상한다고 밝혔습니다. 이 수치가 의미하는 바는, 추론이 단순한 서비스 비용이 아니라 차세대 하드웨어 산업의 핵심 수익원으로 전환되었다는 것입니다.
[Google TPU v7 Ironwood: "추론의 시대"를 위해 설계된 반도체]
"Google"이 2025년 Google Cloud Next에서 공개한 7세대 TPU(AI 연산에 특화된 "Google" 자체 칩) Ironwood는, 그 이름 자체가 선언입니다.
Google은 Ironwood를 '추론의 시대를 위해 설계된' 제품이라고 공식 정의했습니다. 반응형 AI에서 벗어나, AI 에이전트가 스스로 데이터를 검색하고 해석하며 통찰을 생성하는 새로운 시대를 지원하는 인프라가 바로 Ironwood라고 강조했습니다. (출처: Google)
특히, 눈길을 끄는 것은 Anthropic과의 협력입니다. Anthropic은 최대 100만 개의 TPU를 활용하기로 계획했으며, 추론 성능과 훈련 확장성의 향상이 고객들의 급증하는 수요를 효율적으로 감당하는 데 핵심이 될 것이라고 밝혔습니다. Google이 TPU를 외부에 판매·임대하기 시작했다는 점은 구조적으로 중요한 변화입니다. 자사 클라우드 플랫폼을 강화하는 데 그치지 않고, NVIDIA GPU 생태계에 맞서는 독립적인 추론 하드웨어 플랫폼으로 포지셔닝하겠다는 의지를 보여주기 때문입니다.
[Cerebras × OpenAI: 웨이퍼스케일 칩으로 쓰여진 10조 원짜리 파트너십]
2026년 1월, AI 인프라 업계에 또 하나의 지각변동이 일어났습니다. "OpenAI"와 "Cerebras"가 최대 750 메가와트 규모의 컴퓨팅 용량을 수년에 걸쳐 배포한다는 파트너십을 발표한 것입니다. 계약 규모는 최대 100억 달러에 달하는 것으로 알려졌는데요. "OpenAI" 측은 이번 계약이 ChatGPT를 구동하는 추론 스택에 저지연 전용 솔루션을 추가하는 것이라며, 지연에 민감한 에이전틱 AI 워크로드를 중심으로 단계적으로 통합할 계획이라고 설명했습니다.
Cerebras의 강점은 독특한 하드웨어 아키텍처에 있습니다.
실제로 "Cerebras" 시스템은 Llama 3.1-405B 기준 초당 969 토큰을 생성해 GPU 기반 하이퍼스케일러 대비 최대 75배 빠른 속도를 자랑하며, "NVIDIA" DGX B200 대비 21배 높은 성능을 3분의 1 수준의 비용과 전력으로 달성하였습니다. (출처: Bigdatasupply)
이 계약이 갖는 의미는 단순히 OpenAI의 인프라 다각화에 그치지 않습니다. 세계 최대 AI 플랫폼이 NVIDIA에 대한 의존도를 공식적으로 낮추기 시작했다는 선언이며, 추론 속도가 서비스 품질의 핵심 변수가 되었음을 공식 확인한 사건입니다. 이것이 의미하는 바는, AI 서비스 기업에게 추론 인프라는 이제 전략적 선택이 아닌 생존 조건이 되었다는 것입니다.
지금까지 살펴본 흐름을 종합하면, AI 산업의 가치 창출 구조가 근본적으로 재편되고 있다는 결론에 이릅니다.
첫째, 컴퓨팅의 무게중심이 바뀌었습니다. 2026년 추론 워크로드가 전체 AI 컴퓨팅의 약 3분의 2를 차지하게 되면, 전 세계 AI 데이터센터 자본지출은 연간 4,000억~4,500억 달러에 달할 전망입니다. 훈련에서 추론으로의 이동은 단기 트렌드가 아닙니다. 이것은 AI 가치 사슬 전체의 구조 변화이며, 칩 설계·클라우드 플랫폼·소프트웨어 스택·비즈니스 모델이 모두 이 방향으로 정렬되기 시작했습니다.
둘째, 추론 특화 아키텍처가 GPU의 독점을 흔들고 있습니다. 2025년 데이터센터 컴퓨팅 지출의 58%를 GPU가 차지하고 있지만, 2026년에는 GPU도 CPU도 아닌 XPU(LPU, TPU 등 특수목적 가속기)가 가장 높은 성장률인 22%를 기록할 것으로 예상됩니다. "Google" Ironwood의 TCO 우위, "Cerebras" WSE-3의 초고속 추론, "Groq" LPU의 전력 효율성은 각기 다른 방식으로 GPU 생태계의 틈새를 파고들고 있습니다.
이것이 의미하는 바는, 앞으로 AI 인프라 투자는 "어떤 칩을 살 것인가"가 아니라 "어떤 워크로드에 어떤 칩을 배치할 것인가"라는 아키텍처 설계의 문제가 된다는 것입니다.
셋째, 비즈니스 모델의 핵심이 전환되었습니다. 추론 비용이 해마다 약 10배씩 하락하는 'LLM인플레이션' 흐름 속에서, 모델 자체는 빠르게 상품화되고 있습니다. 이 구조에서 경쟁 우위는 더 이상 최고 성능의 모델을 보유하는 것이 아닙니다. 가장 낮은 비용에, 가장 짧은 지연으로, 가장 많은 추론 요청을 처리하는 인프라를 구축한 기업이 새로운 해자를 갖게 됩니다.
넷째, 에이전틱 AI의 확산이 추론 수요의 다음 폭발을 예고합니다. AI가 단순한 질의응답을 넘어 스스로 계획을 세우고 여러 단계의 작업을 실행하는 에이전트 형태로 발전하면, 단일 대화에서 수십에서 수백 번의 추론이 연쇄적으로 발생할 수 있습니다.
이 모든 흐름은 하나의 전략적 명제로 수렴됩니다. 지금 이 시장에서 선점 우위를 확보하려는 기업에게 필요한 것은, 단순히 최고 성능의 모델을 구독하는 것이 아니라, 자신의 워크로드에 최적화된 추론 인프라를 직접 설계하고 운영할 수 있는 역량을 내재화하는 일입니다.
(링크) Jensen Huang's GTC 2025 Keynote: 젠슨 황이 추론 시장으로의 전환을 직접 선언하며, Rubin CPX·Groq 통합 전략을 발표한 GTC 2025 기조연설입니다. 추론 인프라 경쟁의 방아쇠를 당긴 역사적 장면을 직접 확인할 수 있습니다.
(링크) Google Cloud Next 2025: Google이 Ironwood TPU를 발표하며 하이퍼스케일 추론 시대의 개막을 선언한 세션입니다. 아키텍처 설계 철학과 Anthropic 파트너십의 전략적 맥락을 이해하는 데 필수적인 영상입니다.
(링크) How Cerebras Built the Impossible AI Chip Now Challenging NVIDIA: NVIDIA GPU의 한계를 돌파하기 위해 웨이퍼스케일 엔진이라는 '불가능한 칩'을 만들어낸 Cerebras 창업자가 추론 속도가 왜 AI의 다음 경쟁 축인지, 그리고 OpenAI와의 대규모 파트너십이 갖는 의미를 직접 설명합니다. 기술과 비즈니스 전략을 함께 이해하기에 최적인 영상입니다.
최신 AI·Bigdata·Cloud 기술 소식을 빠르게 받아보고 싶다면, 구독 버튼을 눌러주세요.
업데이트 알림을 가장 먼저 받아보실 수 있습니다.^^