Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁
시리즈 안내
이 글은 GPU와 AI 인프라의 과거, 현재, 미래를 다루는 4부작 시리즈입니다.
Part 1: 3D 그래픽 전쟁에서 AI 혁명까지
Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들
Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁 (현재 글)
Part 4: 미래 인프라 표준 전쟁 - 누가 AI의 언어를 지배할 것인가
Part 2에서 우리는 NVIDIA가 구축한 거대한 생태계를 살펴봤습니다.
HBM부터 CoWoS, NVLink, InfiniBand, CUDA까지 모든 레이어에서 NVIDIA는 시장을 장악하고 있습니다. 그렇다면 질문이 생깁니다. 이 견고한 성에 도전할 수 있는 자들은 누구일까요?
흥미롭게도 가장 공격적으로 도전하는 세력은 NVIDIA의 가장 큰 고객들입니다.
Google, Amazon, Microsoft 같은 하이퍼스케일러들이 수십억 달러를 들여 자체 칩을 개발하고 있습니다. 왜 그럴까요?
첫째, 비용입니다.
H100 GPU 하나에 3만 달러에서 4만 달러입니다. 데이터센터 한 곳에 10만 개를 배치하면 30억 달러입니다. 매년 이 규모로 구매하는 기업들은 "직접 만들면 더 싸지 않을까?"라고 생각하게 됩니다.
둘째, 종속성입니다.
NVIDIA가 공급을 조절하면 클라우드 기업들은 속수무책입니다. 2023년에서 2024년 GPU 부족 사태 때 많은 기업들이 이를 뼈저리게 경험했습니다.
셋째, 최적화입니다.
범용 GPU는 모든 작업을 다 할 수 있지만, 특정 작업에는 과도한 스펙입니다. 추론만 하는 서버에 학습용 고성능 GPU는 낭비입니다. 맞춤형 칩을 만들면 전력과 비용을 크게 줄일 수 있습니다.
Part 3에서는 NVIDIA 독점에 도전하는 다양한 세력을 하나하나 살펴보겠습니다.
그들의 전략, 강점, 그리고 한계는 무엇일까요?
Google은 AI 칩 자체 개발의 선구자입니다.
2015년, Google은 놀라운 발표를 했습니다. 이미 내부적으로 TPU, 즉 Tensor Processing Unit을 개발해서 사용하고 있다는 것이었습니다. 당시는 AlexNet 이후 딥러닝이 막 주목받던 시기였고, 대부분의 기업들은 NVIDIA GPU를 사는 것조차 망설이던 때였습니다.
Google이 TPU를 만든 이유는 명확했습니다. Google Search, YouTube, Gmail, Google Photos 등 수십억 사용자의 서비스에서 AI 추론이 폭발적으로 증가하고 있었습니다. 사용자가 검색할 때마다, 사진을 업로드할 때마다, 이메일을 쓸 때마다 AI 모델이 작동했습니다. GPU로 이 모든 것을 처리하려면 전력 비용이 감당할 수 없는 수준이었습니다.
Google TPU는 처음부터 추론에 최적화되었습니다. 범용 GPU와 달리 행렬 곱셈 전용 하드웨어를 탑재했고, 낮은 정밀도인 INT8을 사용하여 전력 소비를 대폭 줄였으며, Systolic Array 아키텍처로 데이터 흐름을 최적화했습니다.
결과는 놀라웠습니다. 2017년 Google이 발표한 논문에 따르면, TPU v1은 같은 세대 GPU 대비 추론 성능이 15배에서 30배 높았고, 전력 효율은 30배에서 80배 좋았습니다. 같은 작업을 GPU로 하려면 서버 10대가 필요한 것을 TPU 1대로 처리할 수 있었습니다.
TPU v1은 추론 전용이었지만, Google은 곧 한계를 느꼈습니다. 학습은 여전히 NVIDIA GPU에 의존해야 했기 때문입니다. 2018년 TPU v2는 학습과 추론을 모두 지원하기 시작했고, HBM을 탑재하여 메모리 대역폭을 대폭 향상시켰으며, Pod라는 개념으로 256개 TPU를 하나의 시스템처럼 연결했습니다.
TPU v3는 2019년에 냉각 성능을 강화했고, TPU v4는 2021년에 성능을 2배 향상시켰으며, TPU v5는 2023년에 Sparse 연산과 Transformer 최적화를 지원했습니다. v5p는 2024년에 8960개 칩을 연결한 초대형 Pod를 구축했습니다.
Google이 TPU로 성공할 수 있었던 이유는 완벽한 수직 통합입니다.
첫째, 하드웨어입니다. 자체 설계 ASIC으로 워크로드에 최적화되어 있고, TSMC에서 제조하지만 설계는 Google이 합니다.
둘째, 소프트웨어입니다. TensorFlow는 Google이 만든 프레임워크로 TPU와 완벽히 통합되어 있고, JAX는 TPU에서 가장 잘 작동하도록 설계되었습니다.
셋째, 데이터센터입니다. Google 자체 데이터센터에 최적화되어 있고, 전력, 냉각, 네트워킹을 모두 제어합니다.
넷째, 워크로드입니다. Google Search, YouTube, Gmail 등 실제 프로덕션 워크로드로 검증되었습니다.
실제 사례를 보면 이해가 쉽습니다.
Google이 2023년 발표한 바에 따르면 PaLM, 즉 Pathways Language Model은 TPU v4 Pod 6144개로 학습되었고, Gemini 모델도 TPU v5로 학습되었으며, Google Search의 AI 기능은 모두 TPU로 추론합니다. YouTube 추천 알고리즘도 TPU v3와 v4로 작동하고, Gmail 스마트 답장과 스팸 필터도 TPU입니다.
하지만 TPU에는 치명적인 한계가 있습니다.
Google Cloud Platform, 즉 GCP에서만 사용할 수 있다는 것입니다.
AWS나 Azure에서는 쓸 수 없고, 온프레미스 데이터센터에 설치할 수도 없으며, 직접 구매할 수도 없습니다. 오직 GCP에서 임대만 가능합니다.
이것은 전략적 선택입니다. Google은 TPU를 GCP 차별화 요소로 만들었습니다.
"TPU를 쓰고 싶으면 GCP로 오세요"라는 메시지입니다. 하지만 이것이 동시에 TPU의 성장을 제한하는 요인이 됩니다.
문제는 여러 가지입니다.
첫째, 생태계입니다.
TensorFlow와 JAX 외의 프레임워크 지원이 약합니다. PyTorch는 TPU를 지원하지만 CUDA만큼 최적화되지 않았습니다. HuggingFace 모델 대부분이 CUDA 기준으로 만들어져 있어서 TPU로 포팅하려면 추가 작업이 필요합니다.
둘째, 커뮤니티입니다.
CUDA는 전 세계 400만 개발자가 있지만, TPU는 주로 Google 내부와 GCP 사용자로 제한되어 있습니다.
개발자들이 로컬에서 테스트하려면 GPU를 쓰는데, TPU는 클라우드에서만 접근 가능합니다. Stack Overflow나 GitHub에 TPU 관련 자료가 CUDA에 비해 턱없이 부족합니다.
셋째, 이식성입니다. 기업들은 멀티클라우드 전략을 선호하는데, TPU는 GCP 종속입니다. AWS에서 개발하다가 GCP로 옮기는 것은 큰 결단이 필요합니다. TPU에 최적화한 코드는 다른 곳에서 재사용하기 어렵습니다.
결과적으로 TPU는 매우 강력하지만 제한적인 위치에 있습니다. Google 내부에서는 절대 강자입니다. Google의 모든 AI 서비스가 TPU를 쓰고, 수십억 사용자에게 검증되었으며, 비용 효율이 GPU보다 월등합니다.
GCP 사용자 중 일부는 TPU를 채택합니다. 특히 TensorFlow나 JAX를 이미 쓰고 있고, GCP에 올인한 기업들이 그렇습니다. 추론 위주 워크로드에서는 비용 효율이 뛰어나고, Vertex AI 같은 Google 관리형 서비스와 통합이 좋습니다.
하지만 일반 AI 커뮤니티에서는 여전히 NVIDIA가 표준입니다. 대부분의 연구자와 스타트업은 GPU를 씁니다. 오픈소스 모델들이 GPU 기준으로 개발되고, 로컬 개발 환경이 GPU 기반이며, 멀티클라우드 유연성이 필요합니다.
시장 점유율로 보면 AI 학습 시장에서 NVIDIA는 약 94%, AMD는 약 4%, Google TPU는 약 1%에서 2%, 기타가 1% 미만입니다. 추론 시장에서는 조금 다릅니다. NVIDIA가 약 80%, Google TPU가 약 5%에서 10%, AWS Inferentia가 약 5%, 기타가 5%입니다.
Google TPU는 세계에서 가장 빠른 자전거일 수 있지만, 그 자전거는 Google이 만든 도로에서만 달릴 수 있습니다.
AMD는 역사적으로 Intel(CPU)과 NVIDIA(GPU)의 영원한 2인자였습니다.
GPU 부분을 보면, 1990년대 말 ATI로 시작해서 2006년 AMD에 인수된 후 Radeon GPU로 게이밍 시장에서는 NVIDIA와 치열하게 경쟁했습니다. 하지만 CUDA가 나온 2007년 이후 데이터센터와 AI 시장에서 AMD는 완전히 밀려났습니다.
AMD의 Lisa Su CEO는 2014년 취임 후 회사를 극적으로 전환했습니다.
CPU에서는 Ryzen과 EPYC로 Intel을 위협하는 수준까지 올라왔습니다. 이제 GPU에서도 NVIDIA에 도전할 시간이었습니다. 하지만 어떻게?
AMD가 선택한 전략은 명확합니다. 세 방향에서 동시에 공격하는 것입니다.
소프트웨어에서는 ROCm으로 CUDA에 대항하고, 하드웨어 연결에서는 UALink로 NVLink에 대항하며, 네트워킹에서는 Pensando로 InfiniBand에 대항합니다.
AMD의 가장 큰 과제는 소프트웨어입니다.
아무리 GPU 성능이 좋아도 개발자들이 쉽게 프로그래밍할 수 없으면 소용없기 때문입니다. ROCm, 즉 Radeon Open Compute Platform은 AMD의 CUDA 대항마입니다.
ROCm의 역사를 보면 2016년 처음 출시되었을 때 많은 문제가 있었습니다.
불안정했고, 지원하는 하드웨어가 제한적이었으며, 문서가 부족했습니다. 하지만 AMD는 꾸준히 개선해왔습니다. 2020년 ROCm 3.x부터 안정화되기 시작했고, 2022년 ROCm 5.x에서 PyTorch와 TensorFlow 공식 지원이 강화되었으며, 2024년 ROCm 6.x에서는 성능과 사용성이 크게 개선되었습니다.
ROCm의 핵심 전략은 호환성입니다.
첫째, HIP, 즉 Heterogeneous-Compute Interface for Portability입니다.
CUDA 코드를 자동으로 변환해주는 도구로, 많은 경우 80%에서 90%가 자동 변환되고 나머지만 수동 수정하면 됩니다.
둘째, PyTorch와 TensorFlow 공식 지원입니다.
PyTorch 2.x부터 AMD GPU가 1급 시민이 되어 설치와 사용이 CUDA만큼 쉬워졌고, TensorFlow도 ROCm 백엔드를 공식 지원합니다.
셋째, 오픈소스 전략입니다.
ROCm 전체가 오픈소스로 공개되어 있어 커뮤니티가 기여할 수 있고, CUDA는 독점 소프트웨어인 반면 ROCm은 투명합니다.
성과도 나타나고 있습니다.
2024년 기준 주요 AI 프레임워크들이 ROCm을 공식 지원하고, HuggingFace에서 AMD GPU로 돌리는 모델이 급증했으며, Stability AI는 Stable Diffusion 학습에 AMD MI250을 사용했고, Meta는 Llama 2와 3 모델 일부를 AMD GPU로 학습했습니다.
하지만 여전히 CUDA와 격차가 있습니다.
생태계 규모에서 CUDA는 18년의 축적이 있지만 ROCm은 8년입니다.
안정성 측면에서 CUDA는 수백만 시간의 프로덕션 검증이 있지만 ROCm은 아직 일부 엣지 케이스에서 버그가 발생합니다. 최적화 라이브러리에서 cuDNN, cuBLAS가 10년 이상 최적화되었지만 ROCm 라이브러리는 따라가는 중입니다. 커뮤니티 지원 측면에서 Stack Overflow, GitHub 자료가 CUDA가 압도적으로 많습니다.
개발자 관점에서 보면 CUDA는 검색하면 답이 바로 나오고, 모든 튜토리얼이 CUDA 기준이며, 문제 발생 시 해결책을 쉽게 찾을 수 있습니다. ROCm은 검색해도 자료가 적고, 일부 모델은 추가 수정이 필요하며, 트러블슈팅이 더 어렵습니다.
AMD는 이 격차를 줄이기 위해 공격적으로 투자하고 있습니다.
ROCm 개발팀을 대폭 확대했고, 주요 AI 프레임워크 개발자들과 직접 협력하며, 대학과 연구소에 MI300을 기증하고 교육 프로그램을 운영하고 있습니다. 하지만 18년의 격차를 따라잡기는 쉽지 않습니다.
NVIDIA NVLink는 GPU 간 초고속 연결의 표준입니다. 하지만 문제는 NVIDIA GPU만 지원한다는 것입니다. AMD, Intel, 심지어 Google TPU도 쓸 수 없습니다.
2024년, AMD는 Ultra Accelerator Link, 즉 UALink라는 개방형 표준을 발표했습니다.
주도 기업은 AMD, Intel, Meta, Microsoft, Google, Broadcom, Cisco, HPE 등이고, 목표는 NVLink에 필적하는 개방형 GPU 간 연결 표준을 만드는 것입니다.
UALink의 핵심 스펙을 보면 1.0 버전은 초당 200기가바이트에서 400기가바이트로 NVLink 3.0 수준입니다. 2.0 버전은 초당 800기가바이트 이상으로 NVLink 4.0에 근접할 것으로 예상됩니다.
중요한 것은 벤더 중립성입니다. AMD, Intel, 심지어 Google도 참여 가능하고, 칩 제조사가 아닌 클라우드 기업들도 표준 제정에 참여하며, 로열티 없는 개방형 표준입니다.
의미는 큽니다. 만약 UALink가 성공하면 클라우드 기업들은 선택권을 갖게 됩니다. AMD GPU 8개를 UALink로 연결하고, Intel GPU와 AMD GPU를 섞어서 사용하며, 맞춤형 ASIC도 UALink로 연결할 수 있습니다. NVIDIA NVLink 종속성에서 벗어날 수 있습니다.
하지만 도전 과제도 많습니다.
기술적 성숙도 측면에서 NVLink는 4세대로 검증되었지만 UALink는 아직 1세대입니다. 생태계 측면에서 NVSwitch, CUDA, 드라이버가 모두 NVLink에 최적화되어 있고, UALink는 생태계를 처음부터 만들어야 합니다. 시장 관성 측면에서 이미 NVLink로 구축된 데이터센터가 수백 개이고, 새로운 표준으로 전환하려면 막대한 비용이 듭니다.
결과는 2025년에서 2026년에 가닥이 잡히지 나지 않을까... 예측 해봅니다.
Part 2에서 다뤘듯이 AMD는 2022년 Pensando Systems를 19억 달러에 인수했습니다. 이것은 단순한 네트워킹 기업 인수가 아니라 NVIDIA InfiniBand에 대항하는 전략적 포석이었습니다.
AMD의 Pensando 기반 전략을 보면 Pollara 400 AI NIC는 400기가비트 속도에 UEC 표준을 최초 지원하고 P4 프로그래머블 엔진으로 유연성을 제공합니다. EPYC CPU와 Instinct GPU, Pensando DPU 통합은 서버 내부를 완전히 AMD로 통합하여 NVIDIA GPU, NVLink, InfiniBand 스택에 대항하는 AMD 스택을 완성합니다.
의미는 명확합니다.
클라우드 기업들은 "NVIDIA 올인"이 아닌 "AMD 스택"을 선택할 수 있습니다. 하드웨어는 EPYC CPU, Instinct GPU, Pensando DPU이고, 소프트웨어는 ROCm이며, 표준은 UALink와 UEC로 모두 개방형입니다.
하지만 역시 검증이 필요합니다. NVIDIA InfiniBand는 10년 이상 대규모 HPC와 AI 클러스터에서 검증되었지만, Pensando DPU는 아직 대규모 AI 클러스터 배포 실적이 제한적입니다.
생태계 측면에서 Mellanox는 수천 명의 네트워크 엔지니어와 방대한 문서를 보유하고 있지만, Pensando는 성장 중입니다.
AMD가 NVIDIA를 이길 수 있을까요? 성능만으로는 어렵습니다.
NVIDIA Blackwell B200이 가장 빠른 칩이고, NVLink 4.0이 가장 빠른 연결이며, InfiniBand가 가장 검증된 네트워크이고, CUDA가 가장 성숙한 플랫폼입니다.
하지만 AMD는 두 가지 무기가 있습니다.
첫째는 가격입니다.
MI300X는 H100 대비 40%에서 60% 가격으로, 같은 성능을 훨씬 저렴하게 제공합니다. 대규모 배포 시 수억 달러 절감이 가능하고, 클라우드 기업들의 마진을 개선할 수 있습니다.
둘째는 개방성입니다.
ROCm은 오픈소스이고, UALink는 벤더 중립적이며, UEC는 산업 표준입니다. 기업들은 NVIDIA 종속을 우려하고 있고, AMD는 "선택권"을 제공합니다.
AMD의 전략은 명확합니다. "우리가 1등은 못 되더라도 2등으로 충분히 크게 성장할 수 있다"는 것입니다. NVIDIA가 시장의 90%를 가져가더라도, 나머지 10%만으로도 수백억 달러 시장입니다. 그 10%를 AMD가 가져간다면 성공인 것입니다.
Amazon Web Services, 즉 AWS는 세계 최대의 클라우드 기업입니다. 2024년 매출이 1,000억 달러에 육박하며, 클라우드 인프라 시장 점유율 32%로 1위입니다. AWS는 NVIDIA의 가장 큰 고객이기도 합니다. 수십억 달러어치의 GPU를 매년 구매합니다.
그런데 AWS는 조용히, 하지만 매우 공격적으로 자체 AI 칩을 개발하고 있습니다. 왜일까요?
첫째, 비용입니다.
AWS는 고객들에게 GPU 인스턴스를 임대합니다. 예를 들어 P5 인스턴스, 즉 H100 8개가 탑재된 서버는 시간당 약 98달러입니다. 하루면 2,352달러, 한 달이면 약 7만 달러 수준입니다.
이 중 상당 부분이 NVIDIA에게 지불하는 하드웨어 비용입니다. 만약 자체 칩으로 대체할 수 있다면 마진이 크게 개선됩니다.
둘째, 차별화입니다.
GPU는 AWS나 Azure나 GCP나 모두 같습니다. NVIDIA가 공급하는 똑같은 칩이기 때문입니다. 자체 칩을 만들면 "AWS에서만 쓸 수 있는 특별한 것"이 생깁니다.
셋째, 통제권입니다.
2023년에서 2024년 GPU 부족 사태 때 AWS도 영향을 받았습니다. NVIDIA가 공급을 조절하면 AWS는 속수무책입니다. 자체 칩이 있으면 공급 안정성을 확보할 수 있습니다.
AWS는 매우 현명한 선택을 했습니다. 학습과 추론을 분리한 것입니다.
학습, 즉 Training은 NVIDIA GPU를 계속 제공합니다. P5 인스턴스에 H100을 탑재하고, 최신 Blackwell도 도입합니다. 왜냐하면 학습은 CUDA 생태계가 너무 강력하고, 고객들이 NVIDIA를 원하며, 성능이 절대적으로 중요하기 때문입니다.
하지만 추론, 즉 Inference는 다릅니다. 추론은 이미 학습된 모델을 실행만 하면 되므로, GPU만큼 높은 성능이 필요 없고, 대신 비용 효율이 중요하며, 규모가 학습보다 10배에서 100배 큽니다.
ChatGPT 같은 서비스는 한 번 학습하면 수억 명이 추론을 합니다. 바로 여기에 AWS가 집중했습니다.
AWS Inferentia는 2019년 처음 출시된 추론 전용 AI 칩입니다.
Inferentia 1은 2019년에 INT8 연산에 최적화되어 있었고, Transformer 모델을 빠르게 처리했으며, 전력 효율이 GPU 대비 2배에서 3배 좋았습니다.
Inferentia 2는 2023년에 성능이 4배 향상되었고, FP16과 BF16을 지원하며, 대형 언어 모델에 최적화되었습니다.
실제 고객 사례를 보면 더 명확합니다.
Amazon Alexa는 수억 개의 음성 인식 요청을 Inferentia로 처리합니다. Amazon Prime Video는 개인화 추천을 Inferentia로 실행하며, AWS 고객인 Snap은 이미지 처리를 Inferentia로 이전하여 비용을 40% 절감했습니다. Pinterest는 추천 시스템을 Inferentia 2로 마이그레이션하여 지연 시간을 50% 단축했습니다.
AWS가 공개한 벤치마크를 보면 BERT 모델 추론 시 Inferentia 2가 G5, 즉 NVIDIA A10G 인스턴스 대비 성능은 비슷하지만 비용은 70% 저렴합니다. GPT 스타일 모델 추론 시 Inferentia 2가 P4, 즉 A100 인스턴스 대비 처리량은 80% 수준이지만 비용은 50% 수준입니다.
추론에서 성공을 거둔 AWS는 한 걸음 더 나아갔습니다. 2022년 Trainium을 발표하며 학습 시장에도 진입했습니다.
Trainium의 목표는 명확합니다. H100 성능의 70%에서 80%를 40%에서 50% 가격에 제공하는 것입니다. 대형 언어 모델 학습을 지원하고, 수백에서 수천 개의 Trainium을 클러스터로 연결하며, NeuronLink로 칩 간 초고속 연결을 제공합니다.
실제 사례도 나타나고 있습니다. Anthropic, 즉 Claude를 만드는 회사는 AWS와 40억 달러 파트너십을 맺고 Trainium으로 모델을 학습하고 있습니다. Hugging Face는 일부 모델 파인튜닝을 Trainium으로 수행하며, Amazon 내부 AI 팀도 Trainium을 적극 사용하고 있습니다.
하지만 한계도 명확합니다. 생태계가 약합니다. AWS Neuron SDK가 있지만 CUDA만큼 성숙하지 않고, PyTorch와 TensorFlow를 지원하지만 일부 모델은 수정이 필요하며, 커뮤니티가 작아 문제 해결이 어렵습니다. 성능 격차도 있습니다. 최신 Blackwell이나 H200과 비교하면 여전히 차이가 나고, 최첨단 연구에는 여전히 NVIDIA가 선호됩니다.
AWS는 현실적입니다. Trainium이 H100을 완전히 대체할 수 있다고 생각하지 않습니다. 대신 하이브리드 전략을 취합니다.
고성능 학습은 NVIDIA P5, P5e 인스턴스로 H100, Blackwell을 제공하고, 최신 GPU를 빠르게 도입하며, 고급 연구자와 기업을 위해 운영합니다. 비용 효율 학습은 Trainium으로 중소규모 모델과 파인튜닝을 지원하고, 70%에서 80% 성능을 50% 가격에 제공하며, 비용에 민감한 고객을 타겟합니다.
추론은 Inferentia로 대부분의 추론 워크로드를 이전하고, 비용을 50%에서 70% 절감하며, 가장 큰 시장 공략을 목표로 합니다.
고객 입장에서는 선택권이 생깁니다. "최고 성능이 필요하면 P5를 쓰고, 비용을 줄이고 싶으면 Trainium을 쓰고, 추론은 Inferentia를 써라"는 메시지입니다. AWS는 NVIDIA와 경쟁하는 동시에 협력합니다.
결과는 인상적입니다. 2024년 AWS의 AI 칩 매출은 추정 20억 달러에서 30억 달러이고, 전년 대비 100% 이상 성장했으며, 추론 시장에서 점유율이 5%에서 10%로 증가했습니다.
Microsoft는 매우 특별한 위치에 있습니다.
첫째, Azure는 세계 2위 클라우드 기업으로 시장 점유율 23%를 보유하고 있습니다.
둘째, OpenAI에 130억 달러를 투자했고 독점 파트너십을 맺었습니다.
셋째, ChatGPT, GPT-4, DALL-E 등 가장 인기 있는 AI 서비스를 Azure에서 독점 제공합니다.
문제는 OpenAI가 엄청난 양의 GPU를 소비한다는 것입니다. GPT-4 학습에는 추정 2만 5천 개 이상의 H100이 필요했고, ChatGPT 서비스는 매일 수억 건의 추론 요청을 처리하며, 이 모든 것이 Azure에서 NVIDIA GPU로 돌아갑니다. Microsoft는 NVIDIA에 매년 수십억 달러를 지불하고 있습니다.
2023년 11월, Microsoft는 Maia 100이라는 자체 AI 칩을 발표했습니다. 이름은 Maia Weinstock, 레고 엔지니어이자 과학 커뮤니케이터를 기념한 것입니다.
Maia 100의 설계 철학은 명확합니다. 대형 언어 모델에 특화되어 있고, Transformer 아키텍처를 최적화했으며, OpenAI GPT 시리즈를 염두에 두고 설계했습니다.
스펙을 보면 TSMC 5나노미터 공정을 사용하고, HBM2E 메모리를 탑재했으며, 105테라플롭스의 성능을 제공하고, H100보다 약간 낮지만 A100보다는 높습니다.
중요한 것은 수직 통합입니다. Azure 데이터센터 최적화로 전력, 냉각, 네트워크를 모두 Microsoft가 제어하고, OpenAI 워크로드 최적화로 GPT 시리즈 학습과 추론에 맞춤 설계했으며, Azure AI 서비스 통합으로 Azure OpenAI Service와 완벽 통합됩니다.
Microsoft는 AI 칩과 함께 Cobalt 100이라는 ARM 기반 CPU도 발표했습니다. 이것은 AWS Graviton이나 Google Axion과 비슷한 전략으로, x86 Intel이나 AMD CPU를 대체하는 맞춤형 CPU입니다.
Maia와 Cobalt을 함께 사용하면 서버 전체를 Microsoft 칩으로 구성할 수 있습니다. CPU는 Cobalt, GPU는 Maia, 네트워킹은 Azure 최적화입니다.
Microsoft의 목표는 NVIDIA를 완전히 배제하는 것이 아닙니다. 대신 옵션을 만드는 것입니다. 최첨단 연구는 H100, Blackwell로 여전히 NVIDIA가 필요하고, OpenAI 새 모델 학습에 최신 GPU를 사용합니다. 프로덕션 추론은 Maia로 ChatGPT 같은 서비스를 Maia로 이전하고, 비용을 30%에서 50% 절감하며, 규모가 학습보다 훨씬 큽니다. 파인튜닝과 중소규모 모델도 Maia로 Azure 고객들에게 Maia 인스턴스를 제공하고, NVIDIA보다 저렴한 가격을 책정합니다.
Microsoft는 AWS처럼 현실적입니다. Maia가 H100을 이길 수 없다는 것을 알고 있습니다. 하지만 추론과 특정 워크로드에서는 충분히 경쟁력이 있고, 무엇보다 자체 칩이 있다는 것 자체가 NVIDIA와의 협상력을 높입니다.
2024년 말 현재 Maia는 아직 제한적으로 배포되고 있습니다. Azure 내부 워크로드 일부에서 테스트 중이고, 외부 고객 제공은 2025년으로 예정되어 있으며, OpenAI가 Maia를 얼마나 쓰는지는 공개되지 않았습니다.
AWS Trainium이나 Inferentia에 비해 Microsoft는 더 조심스럽게 접근하고 있습니다. 이유는 명확합니다. OpenAI와의 관계가 너무 중요하기 때문입니다. Maia가 제대로 작동하지 않으면 ChatGPT 서비스에 영향을 줄 수 있고, 아직 검증 단계이며 대규모 배포 전에 충분한 테스트가 필요합니다.
NVIDIA, AMD 같은 거대 기업들과 Google, AWS, Microsoft 같은 하이퍼스케일러들이 경쟁하는 시장에 스타트업이 뛰어든다는 것은 무모해 보입니다. 하지만 여러 스타트업들이 독특한 접근으로 틈새를 공략하고 있습니다.
이들의 공통된 전략은 범용이 아닌 특화입니다. NVIDIA GPU는 모든 것을 다 할 수 있지만, 특정 작업에는 과도한 스펙입니다. 스타트업들은 "우리는 한 가지만 하지만 그것을 가장 잘한다"고 말합니다.
Cerebras Systems는 2016년 설립된 실리콘밸리 스타트업입니다.
창업자는 Andrew Feldman, 전 SeaMicro CEO입니다. Cerebras의 접근은 극단적입니다. 보통 칩은 작게 만들어서 웨이퍼 하나에서 여러 개를 생산합니다. Cerebras는 정반대입니다. 웨이퍼 전체를 하나의 칩으로 만듭니다.
WSE-3, 즉 Wafer Scale Engine 3세대는 놀라운 스펙을 자랑합니다. 크기가 21.5센티미터 곱하기 21.5센티미터로 iPad만 합니다. 코어 수는 90만 개로 GPU의 100배입니다. 메모리는 44기가바이트 온칩 SRAM으로 HBM보다 1,000배 빠릅니다. 대역폭은 21페타바이트/초로 H100의 수천 배입니다.
어떻게 이것이 가능할까요? 혁신적인 냉각 시스템으로 웨이퍼 크기 칩의 열을 제어하고, 불량 코어 우회 설계로 일부 코어가 불량이어도 작동하며, 전용 시스템인 CS-3으로 냉장고 크기 박스에 통합했습니다.
장점은 명확합니다. 거대 모델 학습 시 메모리 이동이 거의 없어 GPU 수백 개가 필요한 작업을 WSE 하나로 처리할 수 있고, 초저지연으로 데이터가 칩 내부에만 있어 네트워크 병목이 없으며, 학습 속도가 특정 워크로드에서 GPU 클러스터보다 10배에서 100배 빠릅니다.
하지만 한계도 뚜렷합니다.
가격이 엄청나게 비싸고, CS-3 시스템 하나에 수백만 달러이며, 특정 모델에만 최적화되어 범용성이 떨어지고, 생태계가 없어 Cerebras 전용 소프트웨어를 배워야 합니다.
2024년 Cerebras는 나스닥 상장을 추진했고, Citigroup, Pfizer 등이 고객이며, 특정 AI 연구실과 슈퍼컴퓨터 센터에서 채택했습니다. 하지만 시장은 여전히 틈새입니다.
Groq는 2016년 Google TPU 팀 출신들이 설립했습니다.
Groq의 전략은 추론에 올인하는 것입니다. 학습은 아예 포기하고 추론만 합니다.
LPU, 즉 Language Processing Unit의 특징은 결정론적 실행으로 추론 시간을 정확히 예측할 수 있고, 초저지연으로 토큰당 지연이 마이크로초 단위이며, Tensor Streaming으로 데이터를 파이프라인 방식으로 처리합니다.
결과는 인상적입니다.
2024년 데모에서 Llama 2 70B 모델 추론이 초당 500토큰 이상으로 GPU 대비 10배 이상 빨랐고, Mixtral 8x7B 모델도 초당 300토큰 이상으로 실시간 대화가 완벽히 자연스러웠습니다.
Groq는 GroqCloud라는 API 서비스를 제공합니다. 개발자들이 Groq LPU를 클라우드로 사용할 수 있고, OpenAI API보다 10배 빠르고 저렴하다고 주장하며, 2024년 베타 서비스에 수만 명의 개발자가 가입했습니다.
하지만 한계는 추론 전용으로 학습은 불가능하고, 특정 모델 아키텍처에 최적화되어 있으며, 아직 소규모 배포 단계입니다.
SambaNova Systems는 2017년 스탠포드 교수들이 설립했습니다.
SambaNova의 접근은 Reconfigurable Dataflow Architecture, 즉 RDA입니다.
하드웨어를 소프트웨어로 재구성할 수 있어 모델이 바뀌어도 하드웨어를 다시 설계할 필요가 없고, 학습과 추론을 모두 지원하며, 메모리 계층을 최적화하여 데이터 이동을 최소화합니다.
SambaNova는 독특한 비즈니스 모델을 가지고 있습니다. 하드웨어 판매가 아니라 DataScale이라는 AI 플랫폼을 제공하고, 턴키 솔루션으로 하드웨어, 소프트웨어, 지원을 모두 포함하며, 대기업과 정부를 타겟으로 합니다.
고객으로는 미국 에너지부 Argonne National Lab이 슈퍼컴퓨터에 SambaNova를 사용하고, Lawrence Livermore National Lab도 도입했으며, 일부 Fortune 500 기업들이 채택했습니다.
하지만 역시 가격이 비싸고, 범용성이 제한적이며, 시장이 틈새입니다.
이 스타트업들은 모두 기술적으로 인상적입니다. 하지만 공통된 과제가 있습니다.
생태계입니다.
CUDA는 18년의 축적이 있지만, 스타트업들은 처음부터 생태계를 만들어야 합니다. 개발자들이 새로운 플랫폼을 배워야 하고, 툴체인, 라이브러리, 문서가 부족하며, 커뮤니티가 작아 문제 해결이 어렵습니다.
시장 관성도 있습니다. 기업들은 검증된 솔루션을 선호하고, NVIDIA는 안전한 선택이며, 스타트업은 리스크가 있고, 대규모 구매 결정을 내리기 어렵습니다.
자금도 문제입니다.
AI 칩 개발에는 수억 달러가 필요하고, TSMC 웨이퍼 비용만 수천만 달러이며, 지속적인 R&D 투자가 필수적입니다. NVIDIA는 연간 R&D에 100억 달러 이상을 씁니다. 스타트업이 따라갈 수 없는 규모입니다.
결과적으로 스타트업들은 틈새에서 생존합니다. 특정 워크로드에서 10배 빠른 Groq는 추론 API 서비스로, 초대형 모델에 특화된 Cerebras는 연구소와 슈퍼컴퓨터로, 턴키 솔루션을 원하는 SambaNova는 대기업과 정부로 각자의 영역을 찾아가고 있습니다.
AI 칩 전쟁에서 한국은 독특한 위치에 있습니다. 삼성전자와 SK하이닉스는 메모리 반도체의 절대 강자입니다. Part 2에서 다뤘듯이 HBM 시장의 85% 이상을 한국 기업들이 장악하고 있습니다. 삼성전자는 세계 2위 파운드리이기도 합니다. TSMC가 1위이긴 하지만 삼성도 최첨단 공정을 보유하고 있습니다.
하지만 정작 AI 칩 설계에서는 한국이 뒤처져 있었습니다. NVIDIA, AMD, Intel은 모두 미국 기업이고, Google, AWS, Microsoft의 자체 칩도 미국 설계입니다. 중국은 Huawei Ascend 같은 자체 칩을 만들고 있습니다. 한국은?
그런데 2017년부터 상황이 바뀌기 시작했습니다. 실리콘밸리와 구글에서 경험을 쌓은 한국 엔지니어들이 귀국하여 스타트업을 만들기 시작했습니다. 그들이 본 것은 명확했습니다. "NVIDIA가 모든 시장을 다 독점할 수는 없다. 틈새가 있다."
2022년 설립된 Rebellions는 한국 AI 칩 스타트업 중 가장 주목받는 기업입니다. 창업자 박성현 대표는 Google에서 TPU 개발에 참여했던 엔지니어입니다. TPU의 내부를 들여다본 사람이 한국에 와서 "우리도 할 수 있다"고 생각한 것입니다.
Rebellions의 이름 자체가 상징적입니다. 반란자들. NVIDIA 독점에 대한 반란입니다.
Rebellions의 첫 번째 칩은 ATOM입니다. 이름은 원자, 즉 가장 작고 효율적인 단위를 의미합니다. 전략은 명확합니다. 학습이 아닌 추론에 집중하는 것입니다.
ATOM의 설계 철학을 보면 저전력 고효율로 같은 성능을 절반의 전력으로 구현하고, NPU 아키텍처로 Transformer 모델에 최적화했으며, 삼성 파운드리로 5나노미터 공정을 사용합니다.
벤치마크 결과는 인상적입니다. BERT 모델 추론에서 NVIDIA T4 대비 1.5배에서 2배 빠르고, GPT 스타일 모델에서 전력 효율이 3배에서 4배 좋으며, 가격은 T4의 60%에서 70% 수준입니다.
ATOM으로 추론 시장에 발을 디딘 Rebellions는 2024년 학습용 칩 REBEL을 발표했습니다. 이것은 훨씬 더 야심찬 도전입니다. 추론은 비교적 단순하지만 학습은 NVIDIA의 심장부입니다.
REBEL의 목표는 명확합니다. H100 성능의 70%에서 80%를 50%에서 60% 가격에 제공하는 것입니다. HBM3 메모리를 탑재하고, 칩 간 초고속 연결을 지원하며, 수백 개를 클러스터로 연결할 수 있습니다.
2024년 Rebellions는 놀라운 발표를 했습니다.
사우디 아라비아의 국영 석유 회사 아람코와 4억 달러 규모의 전략적 파트너십을 체결한 것입니다. 이것은 한국 AI 칩 스타트업 역사상 최대 규모의 딜이었습니다.
아람코는 왜 한국 스타트업과 손을 잡았을까요?
첫째, 다변화입니다.
사우디는 석유 의존도를 낮추고 AI와 기술에 투자하고 있습니다. NEOM 같은 미래 도시 프로젝트에 막대한 AI 인프라가 필요합니다.
둘째, NVIDIA 대안입니다.
NVIDIA GPU는 너무 비싸고 공급이 불안정합니다. 자체 칩 공급망을 확보하고 싶었습니다.
셋째, 한국 반도체 생태계입니다.
삼성 파운드리로 생산하고, SK하이닉스 HBM을 사용하며, 한국의 메모리 강자들과 협력할 수 있습니다.
계약 내용을 보면 아람코는 4억 달러를 투자하고, Rebellions는 맞춤형 AI 칩을 개발하며, 사우디 데이터센터에 대규모 배포가 예정되어 있고, 2025년부터 본격 공급이 시작됩니다.
이것은 단순한 투자가 아닙니다. 검증입니다.
"한국 스타트업이 만든 AI 칩으로 국가 규모의 AI 인프라를 구축할 수 있다"는 검증입니다.
국내에서도 Rebellions는 적극적으로 파트너십을 구축하고 있습니다.
KT는 초기 투자자이자 고객으로 통신 인프라 AI에 ATOM을 테스트하고 있습니다. SKT도 투자했고 5G와 6G 네트워크 AI에 활용을 검토 중입니다. 네이버는 검색과 클로바 AI에 Rebellions 칩 도입을 논의하고 있습니다.
한국 통신사와 포털이 "국산 AI 칩"을 진지하게 검토한다는 것 자체가 의미가 있습니다. 5년 전만 해도 상상할 수 없던 일입니다.
하지만 Rebellions도 모든 AI 칩 도전자들이 겪는 문제를 피할 수 없습니다. 바로 소프트웨어입니다.
RBLN, 즉 Rebellions Software Stack은 PyTorch와 TensorFlow를 지원하고, ONNX 모델을 직접 로드할 수 있으며, 개발자 친화적 API를 제공합니다.
하지만 CUDA와 비교하면 아직 초기 단계입니다. 커뮤니티가 작고, 문서와 예제가 제한적이며, 일부 모델은 최적화가 필요합니다. Rebellions는 이를 알고 있고, 소프트웨어 팀을 빠르게 확대하고 있으며, 주요 프레임워크 개발자들과 직접 협력하고, 대학과 연구소에 칩을 제공하여 커뮤니티를 키우고 있습니다.
FuriosaAI는 2017년 설립되어 Rebellions보다 5년 먼저 시작했습니다. 창업자들은 삼성전자와 Qualcomm 출신 엔지니어들입니다. 회사 이름 Furiosa는 영화 Mad Max의 강인한 여성 캐릭터에서 따왔습니다. 거친 환경에서 살아남는 전사라는 의미입니다.
FuriosaAI의 주력 제품은 Warboy 칩입니다. 이름 역시 Mad Max에서 따온 것입니다. 핵심은 RNGD, 즉 Reconfigurable Neural Group Dataflow라는 독특한 아키텍처입니다.
RNGD의 특징을 보면 동적 재구성으로 하드웨어를 소프트웨어로 재구성할 수 있어 다양한 모델에 최적화되고, 데이터 흐름 최적화로 메모리 이동을 최소화하며, 저전력 설계로 같은 성능을 절반의 전력으로 구현합니다.
벤치마크를 보면 ResNet-50 추론에서 NVIDIA T4 대비 비슷한 성능에 전력 소비는 40% 수준이고, BERT 모델에서 처리량이 1.5배 높으며, YOLOv5 객체 인식에서 실시간 처리가 30% 빠릅니다.
FuriosaAI는 처음부터 명확한 타겟을 설정했습니다.
엣지가 아닌 데이터센터, 학습이 아닌 추론입니다. 왜일까요?
첫째, 시장 규모입니다.
데이터센터 추론 시장이 엣지보다 10배 이상 크고, 2025년 예상 시장 규모가 200억 달러 이상이며, 성장률이 연간 40%입니다.
둘째, 진입 장벽입니다.
엣지는 Qualcomm, Apple, MediaTek 등 강자가 많고, 데이터센터는 NVIDIA가 독점하지만 가격과 공급 문제로 대안 수요가 큽니다.
셋째, 한국 시장입니다.
네이버, 카카오, 쿠팡, 배달의민족 등 대규모 서비스 기업들이 추론 칩을 필요로 합니다.
FuriosaAI는 조용히 하지만 착실하게 고객을 확보해왔습니다.
네이버는 초기 투자자이자 첫 번째 고객으로 Papago 번역 서비스 일부를 Warboy로 처리하고, 검색 랭킹 AI에도 테스트하고 있습니다. 카카오도 투자했고 카카오톡 스마트 답장과 이미지 인식에 FuriosaAI 칩 도입을 검토 중입니다.
중요한 것은 이것이 "애국심 마케팅"이 아니라는 것입니다.
네이버와 카카오가 Warboy를 쓰는 이유는 실제로 비용 효율이 좋기 때문입니다.
같은 작업을 GPU 대비 30%에서 40% 저렴하게 처리할 수 있고, 전력 비용도 크게 절감되며, 공급도 안정적입니다.
FuriosaAI는 소프트웨어에 많은 투자를 했습니다. 다른 한국 AI 칩 기업들보다 먼저 이 중요성을 깨달았기 때문입니다.
FuriosaAI SDK의 특징을 보면 PyTorch와 TensorFlow를 완벽 지원하고, ONNX Runtime과 통합되며, 파이썬 API로 개발자 친화적이고, 상세한 문서와 튜토리얼을 제공합니다.
개발자들의 피드백도 긍정적입니다. "생각보다 쉽다", "GPU 코드를 거의 수정 없이 포팅 가능", "디버깅 도구가 잘 되어 있다"는 반응입니다. 물론 CUDA만큼은 아니지만, 한국 스타트업이 만든 SDK 치고는 놀라울 정도로 성숙했습니다.
FuriosaAI는 한국에서 성공을 거둔 후 글로벌 확장을 준비하고 있습니다.
2024년 미국 법인을 설립했고, 실리콘밸리 고객 확보를 시도하고 있으며, 유럽 데이터센터 사업자들과 협상 중입니다.
도전 과제는 명확합니다. 글로벌 시장에서는 "한국 칩"이라는 브랜드가 약하고, NVIDIA, AMD, Intel 같은 검증된 브랜드를 이기기 어려우며, 판매와 지원 네트워크를 구축해야 합니다.
하지만 FuriosaAI는 낙관적입니다.
"우리는 네이버와 카카오에서 검증받았다. 이것은 강력한 레퍼런스다"라고 말합니다.
사피온은 조금 다른 경우입니다.
2018년 SK텔레콤이 설립한 자회사로, 처음부터 대기업 배경을 가지고 있습니다. 이름 Sapeon은 "Sapiens"와 "Aeon"의 합성어로, 지혜로운 시대를 만든다는 의미입니다.
사피온의 칩들을 보면 X220은 1세대 추론 칩이고, X330은 2세대로 성능이 2배 향상되었으며, 차세대 학습용 칩도 개발 중입니다.
독특한 점은 사피온이 외부 판매보다 SK 그룹 내부 사용에 집중한다는 것입니다.
SK텔레콤 5G 네트워크에서 AI 기능을 처리하고, SK하이닉스 반도체 공장에서 불량 검사 AI를 실행하며, SK 에너지, SK 이노베이션 등 계열사에서 산업 AI에 사용합니다.
이것은 전략적 선택입니다. SK 그룹 전체가 매년 수천억 원어치의 GPU를 구매합니다. 이것을 자체 칩으로 대체할 수 있다면 엄청난 비용 절감입니다. 게다가 SK하이닉스는 HBM 1위 기업입니다. 메모리와 칩을 수직 통합할 수 있는 독특한 위치에 있습니다.
외부 관측자들은 궁금해합니다. "사피온이 외부에 판매하지 않는 것은 아직 경쟁력이 부족해서인가, 아니면 전략적으로 SK 내부에만 공급하는 것인가?" 정답은 아마 둘 다일 것입니다.
한국 AI 칩 기업들은 독특한 장점을 가지고 있습니다.
첫째, 메모리 생태계입니다.
SK하이닉스와 삼성전자는 HBM의 절대 강자로 세계 시장의 85%를 장악하고 있습니다. 한국 AI 칩 기업들은 HBM을 안정적으로 공급받을 수 있고, 메모리 기업들과 긴밀히 협력하여 최적화할 수 있으며, 메모리와 칩을 수직 통합할 잠재력이 있습니다.
둘째, 파운드리입니다.
삼성전자는 세계 2위 파운드리로 최첨단 3나노미터와 4나노미터 공정을 보유하고 있습니다. Rebellions와 FuriosaAI 모두 삼성에서 생산하고, 지리적으로 가까워 협력이 쉬우며, TSMC 의존도를 낮출 수 있습니다.
셋째, 국내 시장입니다.
네이버, 카카오, 쿠팡, 배달의민족, SKT, KT 등 대규모 AI 수요 기업들이 있고, "국산 칩" 선호도가 있으며, 초기 고객으로서 검증에 협력합니다.
넷째, 정부 지원입니다.
한국 정부는 반도체를 국가 핵심 전략으로 설정했고, AI 칩 개발에 수조 원을 지원하며, 세제 혜택과 R&D 보조금을 제공합니다.
초기 지원이 필요한 스타트업 입장에서는 나쁘지 않은 조건입니다.
하지만 도전 과제도 명확합니다.
첫째, 소프트웨어입니다.
이것은 모든 NVIDIA 도전자들의 공통 과제이지만, 한국 기업들은 특히 취약합니다. 실리콘밸리처럼 소프트웨어 인재가 풍부하지 않고, 오픈소스 커뮤니티가 작으며, 글로벌 개발자들과의 네트워크가 약합니다.
둘째, 글로벌 시장 진출입니다.
한국 시장만으로는 규모의 경제를 달성하기 어렵고, 미국과 유럽 시장 진출이 필수적이지만, "Made in Korea" 브랜드가 AI에서는 약하고, 판매와 지원 네트워크 구축에 막대한 비용이 듭니다.
셋째, 자금입니다.
AI 칩 개발에는 지속적으로 수천억 원이 필요하고, NVIDIA는 연간 R&D에 15조 원 이상을 쓰며, 한국 스타트업들은 이 규모를 따라갈 수 없습니다.
넷째, 인재 확보입니다.
최고의 AI 칩 엔지니어들은 대부분 실리콘밸리에 있고, 한국으로 유인하기 위해 높은 급여와 스톡옵션이 필요하며, 삼성과 SK 같은 대기업과도 인재 경쟁을 해야 합니다.
한국 AI 칩 기업들의 공통된 전략은 명확합니다.
처음부터 NVIDIA와 정면 승부하지 않는 것입니다. 대신 틈새 시장, 즉 추론, 저전력, 비용 효율에 집중합니다. 한국 시장에서 먼저 검증받고, 네이버, 카카오, SKT, KT 같은 레퍼런스 고객을 확보한 후, 글로벌 확장을 준비합니다. 아시아 시장, 특히 일본, 동남아, 중동을 먼저 공략하고, 마지막으로 미국과 유럽으로 진출합니다.
Rebellions의 사우디 아람코 딜은 이 전략의 완벽한 사례입니다.
한국에서 검증받고, 중동의 대형 고객을 확보하고, 글로벌 레퍼런스를 만들고, 자금을 확보하여 다음 단계로 도약하는 것입니다.
2025년에서 2026년은 한국 AI 칩 기업들에게 결정적인 시기가 될 수 있습니다.
Rebellions의 REBEL 학습용 칩이 양산되고, 사우디 아람코에 본격 공급이 시작되며, 네이버와 KT 같은 국내 고객들이 대규모 도입을 결정할 것입니다. FuriosaAI는 차세대 Warboy를 출시하고, 글로벌 데이터센터 고객 확보를 본격화하며, 미국 시장 진출 결과가 나올 것입니다. 사피온은 SK 그룹 전체로 확산되고, 외부 판매 여부를 결정할 것입니다.
만약 이들이 성공한다면, 즉 글로벌 시장에서 1%에서 2%라도 점유율을 확보한다면, 이것은 한국 반도체 산업의 새로운 장을 여는 것입니다. 메모리 강국에서 시스템 반도체 강국으로 도약하는 것이고, NVIDIA 독점에 균열을 만드는 것이며, 아시아의 AI 칩 허브로 자리매김하는 것입니다.
하지만 실패한다면, 즉 소프트웨어 생태계를 못 만들거나, 글로벌 고객 확보에 실패하거나, 자금이 고갈된다면, 한국 AI 칩의 꿈은 또 다른 "나랏돈 낭비" 사례로 기억될 수도 있습니다.
2025년과 2026년은 한국 AI 칩 산업의 운명을 결정하는 해가 될 것입니다.
한국 반도체 기업들에게 좋은 결과가 있기를 바랍니다.
지금까지 우리는 NVIDIA 독점에 도전하는 다양한 세력에 대해 한 번 알아봤습니다.
Google TPU는 가장 먼저 시작했지만 GCP에 갇혀 있고, AMD는 ROCm, UALink, Pensando로 전방위 공격을 하지만 생태계 격차가 여전히 크며, AWS와 Microsoft는 추론 시장을 공략하며 조용히 점유율을 확대하고 있고, 스타트업들은 틈새 시장에서 혁신을 보여주며, 한국 기업들은 메모리 생태계를 기반으로 아시아에서 새로운 가능성을 열고 있습니다.
공통점은 모두가 "성능만으로는 부족하다"는 것을 알고 있다는 것입니다.
NVIDIA가 강력한 이유는 GPU가 가장 빠르기 때문이 아닙니다. CUDA, NVLink, InfiniBand, 그리고 18년간 쌓인 생태계 때문입니다. 도전자들도 이제 같은 게임을 하고 있습니다. 칩만 만드는 것이 아니라 전체 스택을, 생태계를 만들고 있습니다.
하지만 변화의 조짐이 보입니다.
첫째, 추론 시장이 급성장하고 있습니다.
학습은 한 번이지만 추론은 수십억 번입니다. 이 시장에서는 NVIDIA의 장악력이 약합니다.
둘째, 개방형 표준이 힘을 얻고 있습니다.
UEC와 UALink는 아직 초기지만, 산업 전체가 "NVIDIA 독점은 위험하다"고 인식하고 있습니다.
셋째, 하이퍼스케일러들의 칩 투자가 본격화되고 있습니다.
Google, AWS, Microsoft 모두 수십억 달러를 투자했고, 2025년에서 2026년에 본격 양산될 것입니다.
넷째, 아시아의 부상입니다.
한국, 일본, 중국이 각자의 방식으로 AI 칩을 개발하고 있고, 실리콘밸리 중심의 생태계에 균열을 만들고 있습니다.
2025년은 중요한 분기점이 될 것입니다.
NVIDIA Blackwell이 나오고, AMD MI350이 나오며, AWS Trainium 2세대가 나오고, Google TPU v6가 나옵니다. 그리고 UALink 1.0 제품이 처음 시장에 나오며, Rebellions REBEL이 양산되고, 사우디 아람코 데이터센터에 한국 칩이 배포됩니다.
과연 도전자들이 NVIDIA의 아성을 무너뜨릴 수 있을까요?
Part 4에서는 이 전쟁의 궁극적 전장, 즉 미래 인프라 표준 전쟁을 살펴보겠습니다.
누가 AI의 언어를 지배할 것인가? CUDA의 독점은 계속될 것인가, 아니면 개방형 표준이 승리할 것인가?
다음 편 예고
Part 4: 미래 인프라 표준 전쟁 - 누가 AI의 언어를 지배할 것인가
AI 인프라의 미래를 결정할 표준 전쟁을 살펴봅니다. CUDA는 계속 독점적 위치를 유지할 것인가, OpenAI의 Triton과 MLIR 같은 개방형 컴파일러는 CUDA를 대체할 수 있는가, UEC와 CXL로 대표되는 하드웨어 표준의 미래, Llama, BLOOM 같은 오픈소스 모델이 NVIDIA 종속성에 미치는 영향, 그리고 2030년 AI 인프라는 어떤 모습일 것인지 전망합니다.
Google TPU 관련으로는 TPU 아키텍처와 Systolic Array, TPU v1부터 v5p까지의 발전 과정, PaLM과 Gemini의 TPU 학습, TensorFlow와 JAX의 TPU 통합, GCP TPU 인스턴스 가격과 성능 자료를 참고했습니다.
AMD 전략으로는 Instinct MI300 시리즈 스펙과 가격, ROCm 플랫폼 발전과 PyTorch/TensorFlow 지원, HIP CUDA 변환 도구, UALink 컨소시엄과 스펙, Pensando 인수와 Pollara 400 AI NIC, P4 프로그래머빌리티와 UEC 지원 자료를 참고했습니다.
AWS 자체 칩으로는 Inferentia 1과 2 아키텍처와 성능, Trainium 학습 칩 스펙, AWS Neuron SDK, Anthropic과의 파트너십, 고객 사례와 비용 절감 효과 자료를 참고했습니다.
Microsoft 전략으로는 Maia 100 AI 칩 발표와 스펙, Cobalt 100 ARM CPU, OpenAI와의 관계, Azure AI 인프라 자료를 참고했습니다.
AI 칩 스타트업으로는 Cerebras WSE-3 웨이퍼 스케일 칩, Groq LPU와 추론 성능, GroqCloud API 서비스, SambaNova RDA 아키텍처와 DataScale 플랫폼, 각 스타트업의 고객과 시장 포지션 자료를 참고했습니다.
한국 AI 칩 기업으로는 Rebellions ATOM과 REBEL 칩 스펙, 사우디 아람코 4억 달러 파트너십, FuriosaAI Warboy와 RNGD 아키텍처, 네이버와 카카오 고객 사례, 사피온 X220과 X330 칩, SK 그룹 내부 활용, 한국 메모리와 파운드리 생태계 장점 자료를 참고했습니다.
시장 데이터로는 AI 학습 및 추론 시장 점유율, 하이퍼스케일러들의 자체 칩 투자 규모, TPU, Trainium, Inferentia 채택률, 한국 AI 칩 기업 투자 및 성장 현황 자료를 참고했습니다.