AI 에이전트에게 필요한 칩 — 추론이 새로운 전쟁터다

보이지 않는 전쟁 제8회

by 조종주


AI 에이전트에게 필요한 칩 — 추론이 새로운 전쟁터다

보이지 않는 전쟁 제8회


7회에서 우리는 NPU가 스마트폰과 노트북 속으로 AI를 가져오는 이야기를 했습니다. AI가 클라우드를 거치지 않고 손안에서 직접 작동하는 세계. 하지만 2026년, AI에서 가장 뜨거운 단어는 따로 있습니다. 바로 '에이전트(Agent)'입니다.

에이전트는 단순한 챗봇이 아닙니다. 사람의 지시를 받아 스스로 판단하고, 도구를 사용하고, 작업을 완수하는 AI — 이메일을 읽고 회의 일정을 잡고, 코드를 작성한 뒤 오류까지 수정하는 "스스로 판단하고 도구를 쓰는 AI 비서"입니다. 지금 이 순간에도 코딩 에이전트는 하나의 문제를 풀기 위해 대형 언어 모델을 열 번에서 스무 번까지 반복 호출합니다. 챗봇이 한 번의 질문에 한 번 답하는 것과는 차원이 다른 연산량입니다.

이 에이전트가 작동하려면 어떤 하드웨어가 필요할까요. 그리고 그 하드웨어는, 우리가 지금까지 이야기해 온 GPU 중심의 전쟁과 같은 것일까요, 전혀 다른 것일까요.


훈련은 한 번, 추론은 매초 수백만 번

AI 반도체 전쟁의 무게중심이 움직이고 있습니다. 지금까지 이 연재가 다뤄 온 이야기 — 수천억 달러 규모의 GPU 투자, NVIDIA의 독주, HBM의 폭발적 성장 — 는 대부분 '훈련(Training)'이라는 단계에 집중된 것이었습니다. GPT-4 같은 대형 모델을 만들기 위해 수만 개의 GPU를 수주에서 수개월간 가동하는, 일회성이지만 막대한 비용이 드는 과정입니다.

그런데 훈련이 끝난 뒤에 시작되는 '추론(Inference)'은 성격이 전혀 다릅니다. 추론은 사용자가 AI에게 질문할 때마다, 이미지를 생성할 때마다, 에이전트가 판단을 내릴 때마다 발생합니다. 한 번 만들어진 모델이 실제로 일하는 단계입니다. 훈련이 대학 교육이라면, 추론은 졸업 후 매일 출근하는 직장 생활과 같습니다. 교육비는 한 번 들지만, 월급은 매달 나갑니다.

그리고 이 "월급"이 이제 "교육비"를 압도하기 시작했습니다. 업계 분석에 따르면, AI 서비스를 운영하는 기업의 전체 AI 컴퓨팅 비용 중 추론이 차지하는 비중은 80~90%에 달합니다. Deloitte는 2026년 전체 AI 연산량 가운데 추론이 약 3분의 2를 차지할 것으로 추정했고, 이 비중은 2023년의 3분의 1에서 불과 3년 만에 두 배로 뛴 수치입니다. 추론 중심 클라우드 인프라 지출은 2026년 초 AI 클라우드 인프라 전체 지출의 55%를 넘어섰습니다.

에이전트는 이 추론 폭증의 극단에 있습니다. 일반 챗봇은 한 번의 질문에 한 번 추론합니다. 하지만 에이전트는 하나의 과제를 완수하기 위해 추론을 열 번, 스무 번 반복합니다. 판단하고, 도구를 호출하고, 결과를 검증하고, 다시 판단하는 루프를 돌립니다. 에이전트 한 대가 소비하는 추론량은 챗봇의 열 배에서 스무 배에 이릅니다. 에이전트의 확산은 곧 추론 수요의 폭발적 증가를 의미합니다.


Groq — 200억 달러짜리 추론의 답

추론이 이토록 중요해졌다면, 기존의 GPU만으로 충분할까요. 답은 "아니오"였습니다. 그리고 그 답을 가장 극적으로 보여준 사건이 2026년 3월, GTC에서 일어났습니다.

NVIDIA의 젠슨 황은 무대 위에서 Groq 3 LPU(Language Processing Unit)를 공개했습니다. 이 칩은 NVIDIA가 2025년 12월, 200억 달러를 들여 Groq의 기술을 라이선스하고 핵심 인력을 영입한 결과물입니다. 반도체 역사상 전례가 드문 규모의 거래였습니다.

왜 NVIDIA는 자체 기술 대신 외부의 칩을 가져왔을까요. GPU는 수천 개의 코어를 동시에 가동하는 "병렬 연산의 왕"입니다. 대규모 데이터를 한꺼번에 처리하는 훈련에는 최적이지만, 추론의 '디코드' 단계 — 토큰을 하나씩 순차적으로 생성하는 과정 — 에서는 구조적 한계가 있습니다. GPU의 막대한 연산 능력이 메모리 대역폭에 묶여 제 성능을 발휘하지 못하는 것입니다. Rubin GPU 한 개의 메모리 대역폭은 22TB/s입니다. Groq 3 LPU는 150TB/s — 약 7배입니다.

비결은 SRAM(Static Random Access Memory)입니다. GPU가 칩 바깥의 HBM에서 데이터를 가져오는 동안, Groq LPU는 칩 안에 512MB의 SRAM을 내장하고 데이터를 직접 처리합니다. 외부 메모리까지 왕복할 필요가 없으니, 지연 시간이 극적으로 줄어듭니다. 에이전틱 AI가 요구하는 목표 처리량 — 초당 1,500토큰 — 을 달성하기 위한 설계입니다.

08회_시각자료_추론칩비교.png [이미지: 추론 전용 칩 비교 — Groq 3 LPU vs NVIDIA Rubin GPU vs 엣지 AI 칩]


GTC 2026에서 공개된 구성은 이렇습니다. Vera Rubin NVL72 랙이 '프리필(Prefill)' — 입력을 처리하는 병렬 연산 — 을 담당하고, Groq 3 LPX 랙(256개의 LPU를 탑재)이 '디코드' — 토큰 생성 — 을 담당합니다. NVIDIA의 Dynamo 오케스트레이션 플랫폼이 두 아키텍처 사이에서 작업을 분배합니다. GPU와 LPU가 역할을 나누는 "이종 결합"입니다. NVIDIA는 이 조합이 GPU만 사용하는 것 대비 와트당 추론 처리량을 최대 35배 높인다고 발표했습니다.

이것은 중요한 전환점입니다. GPU의 제왕 NVIDIA가 스스로 "GPU만으로는 추론 시대에 충분하지 않다"고 인정한 것입니다. 추론 전용 칩이라는 새로운 카테고리가 공식적으로 탄생한 순간이었습니다. 그리고 이 움직임은 NVIDIA만의 것이 아닙니다. AMD는 2025년 추론 칩 스타트업 Untether AI의 엔지니어링 팀을 인수했고, Meta는 커스텀 칩 스타트업 Rivos를 인수했으며, 인텔은 SambaNova에 3억 5천만 달러를 투자하고 다년간 파트너십을 체결했습니다. 추론 칩을 향한 경쟁이 업계 전체로 확산되고 있습니다.


엣지에서의 에이전트

데이터센터 안의 추론 전쟁만이 전부가 아닙니다. 에이전트가 진정으로 자율적이려면, 클라우드까지 왕복할 시간조차 허용되지 않는 현장이 있습니다.

공장의 로봇 팔이 불량품을 감지하는 데 걸리는 시간. 자율주행차가 보행자를 인식하고 브레이크를 밟기까지의 시간. 스마트 시티의 교통 관제 시스템이 신호를 조절하는 시간. 이런 상황에서 데이터를 클라우드로 보내고 결과를 받아오는 수백 밀리초의 지연은 치명적입니다. AI가 현장에서 즉시 판단해야 합니다. 이것이 '엣지 AI(Edge AI)'의 세계이고, 여기에도 전용 칩이 필요합니다.

엣지 AI 하드웨어 시장은 빠르게 성장하고 있습니다. Mordor Intelligence는 이 시장 규모를 2026년 약 307억 달러로 추정하며, 2031년까지 687억 달러에 이를 것으로 내다봅니다. 연평균 성장률 17.5%입니다.

이 시장의 주인공들은 데이터센터의 거대한 칩과는 성격이 다릅니다. NVIDIA Jetson AGX Orin은 275 TOPS(초당 275조 회 연산)의 성능을 10~60와트의 전력으로 구현합니다. 데이터센터 GPU가 수백 와트를 소비하는 것과 대비됩니다. Hailo-10은 5와트 이하에서 70억 파라미터 언어 모델을 구동합니다. 퀄컴의 Robotics RB5는 15 TOPS의 AI 처리 능력에 5G 통신을 결합해, 자율 로봇이 실시간으로 클라우드와 소통하면서도 핵심 판단은 현장에서 내리게 합니다.

엣지 AI 칩의 핵심 경쟁력은 '와트당 성능'입니다. 데이터센터에서는 전력을 더 끌어다 쓸 수 있지만, 배터리로 작동하는 로봇이나 센서에서는 1와트가 아쉽습니다. ARM 아키텍처가 엣지 AI에서 지배적인 이유도 여기에 있습니다. NVIDIA Jetson, 퀄컴 Snapdragon, 구글 Edge TPU — 거의 모든 엣지 AI 칩의 CPU 코어가 ARM 설계를 기반으로 합니다. ARM의 CEO 르네 하스는 2026년 3월, 에이전틱 AI 추론 워크로드가 CPU 수요를 4배로 늘릴 것이라고 전망했습니다.

NVIDIA도 엣지를 향해 움직이고 있습니다. 2025년 출시된 Jetson Thor는 100와트 이하에서 2,000 TOPS를 구현하며, 이미 Amazon Robotics, Boston Dynamics, Figure, Caterpillar 등이 채택했습니다. 자율주행 분야의 DRIVE AGX Thor는 2026년 메르세데스-벤츠, BYD, 샤오펑 등의 차량에 탑재되고 있습니다.


더 많은 에이전트, 더 많은 칩

에이전트 시대의 반도체 수요를 정리하면, 두 개의 전선이 동시에 열리고 있습니다.

첫 번째는 데이터센터 추론입니다. 수억 명의 사용자가 매일 에이전트를 호출하고, 각 에이전트가 열 번에서 스무 번의 추론을 반복합니다. 이 폭발적인 수요를 감당하려면 GPU만으로는 부족하고, Groq LPU 같은 추론 전용 칩이 필요합니다. Deloitte는 추론 최적화 칩 시장이 2026년 500억 달러를 넘어설 것으로 추정합니다.

두 번째는 엣지 추론입니다. 공장, 도로, 병원, 매장 — 클라우드에 의존할 수 없는 현장에서 에이전트가 자율적으로 판단하려면, 저전력 고성능의 엣지 AI 칩이 필요합니다. 이 시장은 2026년 약 307억 달러에서 2031년 687억 달러로 성장할 전망입니다.

메모리 관점에서 보면, 두 전선의 요구는 다릅니다. 데이터센터에서 수조 파라미터 규모의 대형 모델을 추론할 때는 여전히 HBM이 필수입니다. Groq LPU가 SRAM을 사용한다고 해도, NVIDIA는 데이터센터 전체 용량의 약 25%에만 LPU를 배치할 것을 권고합니다. 나머지 75%는 HBM을 탑재한 GPU가 담당합니다. 반면 엣지에서는 LPDDR5 같은 저전력 메모리가 주류입니다. HBM이 필요 없는 대신, 제한된 메모리 안에서 최대한의 효율을 뽑아내는 최적화 기술 — 양자화(Quantization), 증류(Distillation), 가지치기(Pruning) — 이 핵심 경쟁력이 됩니다.

에이전트 시대는 반도체 전쟁의 지형을 바꾸고 있습니다. 훈련의 왕이었던 GPU 곁에, 추론 전용 칩이라는 새로운 병종이 등장했습니다. 데이터센터에서는 GPU와 LPU가 역할을 나누고, 현장에서는 엣지 AI 칩이 밀리초 단위의 판단을 내립니다. AI가 '도구'에서 '행위자'로 진화하는 이 전환 속에서, 반도체 역시 훈련 중심에서 추론 중심으로 무게가 옮겨가고 있습니다.

더 많은 에이전트. 더 많은 추론. 더 많은 칩. 그런데 이 모든 것을 돌리려면 한 가지가 더 필요합니다. 전기입니다. 그리고 전기가, 지금 AI의 가장 큰 벽이 되고 있습니다.


참고 자료

NVIDIA, "GTC 2026 Keynote — Vera Rubin Platform and Groq 3 LPU", 2026년 3월.

Deloitte, "Why AI's next phase will likely demand more computational power, not less", 2026년 2월.

Mordor Intelligence, "Edge AI Hardware Market Report", 2026년 1월.

Tom's Hardware, "How Nvidia's $20 billion Groq 3 LPU deal reshapes the Vera Rubin Platform", 2026년 3월.

IEEE Spectrum, "Nvidia Groq 3 LPU: Speeding AI Inference Tasks", 2026년 3월.


1. 이 글은 『보이지 않는 전쟁 — AI 반도체, 누가 미래를 지배하는가』 연재의 8회차입니다. 매주 화·수·금 발행됩니다.

2. 이 글은 필자가 주 2회(월,목) 발행하는 브런치 매거진 'AI 트렌드 리포트'의 기획기사로 12회에 걸쳐 연재할 예정입니다.

이전 07화NPU — AI가 주머니 속으로 들어온다