NVIDIA는 왜 자신의 황금알을 낳는 거위를 해부하나

by 지적 지니




AI 역사상 가장 극적인 수혜자를 한 기업으로 꼽는다면, 이견 없이 NVIDIA다. 2017년 구글이 "Attention Is All You Need"를 발표한 순간부터 NVIDIA의 운명은 바뀌었다. Transformer 아키텍처는 본질적으로 GPU를 최대한 학대하도록 설계된 구조다. 수조 개의 토큰 쌍에 대한 셀프 어텐션 연산은 지수적 복잡도로 폭발하고, 이를 감당하려면 더 많은 H100이, 더 많은 NVLink 클러스터가, 더 많은 데이터센터가 필요하다. 2023년 NVIDIA의 시가총액이 1조 달러를 돌파하고 2024년 3조 달러를 넘어선 것은 결국 Transformer라는 괴물이 요구하는 연산량 덕분이었다.


그런데 NVIDIA는 지금 그 괴물을 스스로 길들이려 하고 있다.


Nemotron 3 Nano, Nemotron 3 Super. 2025년 말부터 2026년 초까지 NVIDIA가 잇따라 공개한 이 모델들은 순수 Transformer가 아니다. 대부분의 레이어를 Mamba—즉 상태 공간 모델(SSM) 기반의 선형 아키텍처로 채우고, Attention 레이어는 소수만 남겨둔 하이브리드 구조다. Mamba는 시퀀스가 아무리 길어져도 메모리 사용량이 O(1)O(1)로 고정되고, 추론 시 KV Cache를 쌓지 않아도 된다. 이론상 긴 문맥을 처리할 때 Transformer 대비 에너지 소비를 수십 배 줄일 수 있다. NVIDIA는 자신이 지난 7년간 Transformer로 쌓아 올린 제국의 기반을 스스로 침식하는 기술에 투자하고 있는 셈이다.


이것이 자기 파괴적 행동처럼 보이는 이유는, 우리가 "GPU 수요 = Transformer 수요"라는 등식으로만 생각하기 때문이다. 하지만 NVIDIA의 전략은 그보다 훨씬 정교한 계산 위에 서 있다.


첫 번째 논리는 제번스의 역설(Jevons Paradox)이다. 19세기 경제학자 윌리엄 스탠리 제번스는 석탄 증기기관의 효율이 높아지면 석탄 소비가 줄 것이라는 통념을 뒤집었다. 효율이 높아지면 사용 비용이 낮아지고, 비용이 낮아지면 수요가 폭발적으로 늘어 오히려 총소비량이 증가한다는 것이다. Mamba가 추론 단가를 10분의 1로 낮춘다면, 지금은 비용 때문에 존재하지 않았던 수백만 개의 AI 에이전트, 상시 가동되는 온디바이스 AI, 수십억 대의 IoT 기기에서의 실시간 추론이 가능해진다. 개별 작업당 GPU 소모는 줄겠지만, 전체 작업의 수가 기하급수적으로 불어나면 총 GPU 플랫폼 수요는 오히려 폭발한다. NVIDIA가 노리는 것은 "더 적은 GPU로 같은 일을 하는 세상"이 아니라 "같은 GPU로 지금보다 100배 더 많은 일을 하는 세상"이다.


두 번째 논리는 병목의 이동이다. Transformer 시대의 병목은 연산량(FLOPs)이었다. 그래서 NVIDIA는 H100, B200으로 이어지는 연산 가속기를 팔아왔다. 그런데 Mamba는 근본적으로 다른 자원을 갈망하는 아키텍처다. 선형 재귀 연산은 수학적으로 너무 가벼워(산술 강도 약 2.5 FLOPs/byte), 칩이 연산보다 메모리에서 데이터를 얼마나 빠르게 불러오느냐—즉 메모리 대역폭(Memory Bandwidth)—가 성능을 결정한다. 그리고 이 영역에서 NVIDIA의 독점력은 연산 칩보다 훨씬 더 공고하다. HBM 메모리 패키징(CoWoS 기술), NVLink 고속 인터커넥트, InfiniBand 네트워크 패브릭은 NVIDIA가 TSMC와 수년간 독점적으로 쌓아 올린 물리적 해자다. AMD도, 퀄컴도 이 영역에서 NVIDIA를 쉽게 따라잡지 못한다. Mamba가 확산되면 "연산 칩"의 가치는 상대적으로 낮아질 수 있지만, "초고속 메모리 생태계"를 장악한 NVIDIA의 진짜 권력은 오히려 강화된다.


세 번째이자 아마도 가장 영리한 논리는 생태계 해자의 선점이다. NVIDIA가 Mamba를 지원하지 않으면 어떻게 될까. 선형 모델에 특화된 저전력 커스텀 ASIC—Groq의 LPU나 차세대 TPU류—가 "우리 칩이 Mamba를 더 잘 돌린다"고 선언하며 시장을 파고든다. 실제로 이것은 현실적인 시나리오다. NVIDIA는 이 위협을 누구보다 먼저 간파했고, Albert Gu와 Tri Dao의 연구를 지원하며 CUDA 커널과 TensorRT-LLM에 Mamba 최적화 코드를 가장 먼저, 가장 완벽하게 통합했다. 개발자들이 Mamba를 써보면 가장 자연스럽고 빠르게 돌아가는 환경이 결국 CUDA 위에 구축된다. "아키텍처를 바꿔도 하드웨어는 NVIDIA"라는 공식을 강제함으로써 경쟁자들이 비집고 들어올 틈을 원천봉쇄하는 방어적 전략이다.


여기서 한 발 더 물러서면, NVIDIA의 진짜 베팅이 보인다. 지금까지 AI는 클라우드 데이터센터에 집중된 게임이었다. OpenAI가 모델을 학습시키고, 사용자들이 API로 접근하는 중앙집중식 구조다. 그러나 Mamba가 가져오는 세상은 수십억 대의 Edge 기기—스마트폰, 자율주행 차량, 산업용 로봇, 의료 기기—에서 AI가 클라우드 없이 실시간으로 돌아가는 분산형 세계다. 이 세계에서 각 기기에는 Mamba 특화 고속 메모리와 칩이 필요하고, 그 칩들을 연결하는 인터커넥트 패브릭이 필요하며, 기기를 학습시키고 업데이트하는 중앙 클러스터도 여전히 필요하다. NVIDIA는 이 모든 레이어에서 포지션을 갖고 싶어 한다.


결국 NVIDIA가 Mamba에 투자하는 것은 황금알을 낳는 거위를 해부하는 행위가 아니다. 거위를 아예 다른 종류의 동물로 개량하는 행위에 가깝다. Transformer라는 종(種)은 데이터센터라는 우리 안에서만 최적으로 자랐지만, Mamba라는 새로운 종은 지구 위의 모든 곳에서 살아남도록 설계되어 있다. NVIDIA는 그 거위를 손에서 놓지 않은 채로, 세상 전체를 새로운 우리로 바꾸고 있는 것이다.

작가의 이전글SAP는 유럽의 인텔인가