엔비디아(NVIDIA)는 AI 산업의 폭발적인 수요에 맞춰 과거 2년 주기였던 로드맵을 1년 단위로 앞당겨 실행하고 있다.
젠슨 황 CEO가 최근 GTC 2026에서 발표한 내용을 포함하여, 2028년까지의 구체적인 로드맵을 정리해 보자.
1. 엔비디아 가속기 로드맵 (2024~2028)
2024년 아키텍처명 블랙월은 B100/B200이 있으며 TSMC의 5nm급 공정을 사용하고 HMB3 E 메모리 사양을 기반으로 한다.
2025년 아키텍처명 블랙월 울트라는 B300/GB300이 있으며 TSMC의 3nm급 공정을 사용하고 HMB3 E 메모리 사양을 기반으로 한다.
2026년은 아키텍처명 루빈이 출시될 예정이며 R100/VR200이 있으며 3nm 공정을 기반으로 HBM4를 사용할 예정이다.
2027년 아키텍처명 루빈 울트라는 R300이 있으며 TSMC의 3nm급 공정을 사용하고 HMB4 메모리 사양을 기반으로 한다
2028년 아키텍처명 파인만이 예정되어 있으며 F100이고 1.6nm 공정을 기반으로 HBM5를 사용할 예정이다.
2. 주요 아키텍처별 핵심 특징
Blackwell Ultra (2025년 말 ~ 2026년 초) - 추론의 시대
B300 GPU : 현재 막 시장에 풀리기 시작한 주력 모델이다.
HBM3 E 12단(12-Hi)을 탑재하여 메모리 용량이 288GB로 늘어났으며, 단일 랙(GB300 NVL72)에서 1.1 엑사플롭스(ExaFLOPS)의 성능을 낸다.
복잡한 추론(Reasoning) 및 에이전트 AI 구현에 최적화되어 있다.
Rubin (2026년 하반기 예정) - AI 팩토리의 표준
처음으로 HBM4를 채택하여 대역폭이 13TB/s 이상으로 점프한다. (B300 대비 약 1.6배)
기존 Grace CPU를 대체하는 88 코어 ARM 기반 Vera CPU가 루빈 GPU와 결합되어 Vera Rubin 플랫폼을 형성한다.
블랙웰 대비 추론 성능은 약 3.3배, 전력 효율은 최대 10배까지 개선될 것으로 예고되었다.
Feynman (2028년 예정) - 물리적 AI의 정점
TSMC의 최첨단 1.6 나노(A16) 공정을 사용하여 전력 효율과 집적도를 극대화한다.
3D 스택 기술 : 칩 간 통신 성능을 높이기 위해 고급 3D 패키징 기술이 적용되며, 이때부터는 일반적인 규격이 아닌 커스텀 HBM이 본격적으로 사용될 전망이다.
3. 엔비디아-TSMC-삼성/SK하이닉스 삼각관계
TSMC : 엔비디아의 모든 최첨단 칩을 독점 생산 중이다.
특히 2026년 루빈 생산을 위해 CoWoS-L패키징 라인을 풀가동하고 있다.
SK하이닉스 & 삼성전자 : 2026년 현재 두 회사 모두 HBM4샘플을 엔비디아에 공급하여 루빈(Rubin) 탑재를 위한 최종 검증을 진행 중이다.
특히 삼성전자는 HBM4E와 HBF(High Bandwidth Flash) 기술을 통해 엔비디아와의 협력 범위를 넓히려 하고 있다.
엔비디아는 매년 새로운 아키텍처를 내놓으며 경쟁사(AMD, 인텔)와의 격차를 벌리고 있으며, 26년은 HBM4가 탑재된 루빈(Rubin)이 주인공이 될 것이다.
특히 엔비디아 루빈(Rubin) 아키텍처는 단순히 성능이 좋아지는 것을 넘어, 인공지능 인프라의 경제성과 에너지 효율의 패러다임을 완전히 바꿀 것으로 전망된다.
현재까지 공개된 핵심 지표를 바탕으로 가격, 전력 효율, 추론 성능에 미칠 영향을 정리해 보자.
1. 가격 및 경제성 : 10배 낮은 토큰 비용
엔비디아는 루빈을 통해 하드웨어 판매가 아닌 토큰 생성 비용(Tokenomics)의 혁신을 강조하고 있다.
토큰 생성 비용 90% 절감 : 이전 세대인 블랙웰(Blackwell) 대비 AI 모델의 응답(토큰) 하나를 생성하는 데 드는 비용을 1/10 수준으로 낮추는 것을 목표로 한다.
구축 비용(CAPEX) 효율화 : 동일한 규모의 Mixture-of-Experts(MoE) 모델을 학습시킬 때, 블랙웰 대비 4배 적은 수의 GPU만으로도 가능해져 초기 구축 예산을 획기적으로 줄일 수 있다.
시스템 가격 상승 : 하지만 개별 랙(Rack) 단위인 Vera Rubin NVL72의 가격은 약 $500만~$700만(약 70억~100억 원) 수준으로 형성될 전망이다.
이는 내부에 약 100만 달러 가량의 3D NAND 저장 장치와 고가의 HBM4가 탑재되기 때문이다.
2. 전력 효율 : 와트당 지능(Intelligence per Watt)의 극대화
전력 수급이 데이터 센터 운영의 최대 병목이 된 상황에서 루빈은 압도적인 효율을 제시한다.
10배 높은 전력 효율 : 블랙웰 대비 와트당 성능이 10배 향상된다.
같은 전력을 써서 10배 더 많은 데이터를 처리하거나, 같은 양의 데이터를 처리하는 데 전력을 10분의 1만 사용할 수 있다.
100% 액체 냉각(Liquid Cooling) : 루빈 플랫폼은 공랭식을 완전히 배제하고 100% 액체 냉각 시스템을 채택한다.
이를 통해 데이터 센터의 전력 효율 지수(PUE)를 1.1 수준까지 낮춰 냉각에 드는 낭비 전력을 최소화한다.
실리콘 포토닉스 도입 : 구리 배선 대신 빛(광신호)을 이용해 데이터를 전송하는 기술을 적용하여 통신 과정에서 발생하는 전력 소모를 5배 이상 줄였다.
3. 추론 성능 : 에이전트 AI 시대를 위한 도약
루빈은 단순 학습보다 실제 서비스인 추론과 추론 기반의 AI 에이전트 성능에 특화되어 있다.
추론 성능 5~10배 향상 : 블랙웰 대비 최대 10배의 추론 처리량(Throughput)을 제공한다.
복잡한 논리적 사고가 필요한 추론형 AI(Reasoning AI)와 자율형 에이전트가 지연 시간 없이 실시간으로 작동할 수 있게 한다.
HBM4 탑재 : 처음으로 6세대 고대역폭 메모리인 HBM4를 탑재하여 데이터 대역폭이 획기적으로 늘어난다.
초거대 모델이 메모리 병목 현상 없이 부드럽게 돌아가도록 설계되었다.
Vera CPU와의 결합 : 엔비디아의 자체 CPU인 Vera와 결합된 슈퍼칩 구조는 전통적인 CPU-GPU 구조보다 2배 이상의 효율을 내며, 대규모 문맥(Long Context)을 처리하는 능력이 대폭 강화된다.
루빈의 등장은 AI 기업들에게 더 똑똑한 모델을 더 저렴하게 운영할 수 있는 환경을 제공하여, 2026년 이후 AI 서비스의 대중화를 이끄는 결정적인 기폭제가 될 것으로 보인다.