GPU 전쟁: AI를 지배하는 자들

Part 4: 미래 인프라 표준 전쟁

by Yameh

시리즈 안내
이 글은 GPU와 AI 인프라의 과거, 현재, 미래를 다루는 4부작 시리즈입니다.


Part 1: 3D 그래픽 전쟁에서 AI 혁명까지
Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들
Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁
Part 4: 미래 인프라 표준 전쟁 - 누가 AI의 언어를 지배할 것인가 (현재 글)


들어가며: 표준을 지배하는 자가 미래를 지배한다

Part 1에서 Part 3까지 우리는 GPU의 역사, 생태계, 그리고 도전자들을 살펴봤습니다. 그런데 이 모든 전쟁의 핵심에는 하나의 근본적인 질문이 있습니다.

누가 AI 인프라의 '언어'를 정의할 것인가?

역사를 돌이켜보면 표준을 지배한 자가 산업을 지배했습니다.

1990년대 Microsoft의 Windows API가 PC 소프트웨어 생태계를 장악했고, 인터넷은 TCP/IP라는 개방형 표준 덕분에 폭발적으로 성장했으며, 스마트폰 시대는 iOS와 Android라는 두 플랫폼으로 양분되었습니다.

AI 인프라도 마찬가지입니다.

현재 NVIDIA CUDA는 사실상의 표준입니다. 전 세계 AI 개발자 400만 명이 CUDA를 쓰고, 모든 프레임워크가 CUDA 위에서 작동하며, 대학에서 학생들은 CUDA를 배웁니다. 하지만 이 독점은 영원할까요?

Part 4에서는 미래 AI 인프라 표준을 둘러싼 전쟁을 세 가지 차원에서 살펴보겠습니다.

소프트웨어 표준, 즉 개발자들이 칩을 프로그래밍하는 언어는 무엇이 될 것인가?

하드웨어 표준, 즉 칩들이 서로 통신하는 프로토콜은 누가 정의할 것인가?

그리고 생태계 표준, 즉 모델과 데이터가 어떻게 공유되고 발전할 것인가?

5년 후인 2030년, AI 인프라의 지도는 지금과 완전히 다를 수 있습니다.


1. 소프트웨어 표준 전쟁: CUDA를 넘어설 수 있는가?

CUDA의 지속 가능성: 영원한 독점인가?

CUDA는 2007년부터 18년간 AI와 HPC(High Performance Computing, 고성능 컴퓨팅)의 언어였습니다. 하지만 모든 독점은 언젠가 균열을 맞이합니다. Microsoft의 Internet Explorer가 그랬고, Intel의 x86이 ARM의 도전을 받고 있듯이, CUDA도 예외일 수 없습니다.


CUDA의 강점은 여전히 압도적입니다.

18년간 축적된 최적화로 cuDNN, cuBLAS 같은 라이브러리들이 극한까지 튜닝되어 있고, 400만 개발자 커뮤니티가 Stack Overflow, GitHub에 수백만 개의 답변과 예제를 올려놓았으며, 모든 AI 프레임워크인 PyTorch, TensorFlow, JAX가 CUDA 위에서 가장 잘 작동하고, 전 세계 대학의 커리큘럼이 CUDA 기반입니다.


하지만 약점도 명확해지고 있습니다.

NVIDIA 하드웨어에만 작동한다는 배타성 때문에 AMD나 Intel GPU를 쓰려면 코드를 수정해야 하고, 폐쇄적 생태계로 인해 소스 코드가 공개되지 않아 내부 작동을 알 수 없으며, 높은 학습 곡선으로 CUDA를 제대로 쓰려면 GPU 아키텍처를 깊이 이해해야 하고, 라이선스 제약으로 일부 사용 사례에서 NVIDIA가 제약을 걸 수 있습니다.

가장 큰 문제는 멀티벤더 지원입니다. 클라우드 기업들은 NVIDIA, AMD, Intel, 자체 칩을 모두 쓰고 싶어합니다. 하지만 CUDA는 NVIDIA 전용입니다. 이것이 개방형 표준에 대한 수요를 만들어냅니다.


Triton: OpenAI의 야심찬 도전

2021년, OpenAI는 Triton이라는 오픈소스 프로그래밍 언어를 공개했습니다. 겉으로 보면 또 하나의 GPU 프로그래밍 언어처럼 보이지만, 그 철학은 혁명적입니다.


Triton의 핵심 아이디어는 간결함입니다.

CUDA는 너무 로우레벨이라 개발자가 메모리 관리, 스레드 동기화, 캐시 최적화를 모두 직접 해야 합니다. Triton은 이것을 자동화합니다. 파이썬과 비슷한 문법으로 고수준에서 알고리즘만 작성하면, Triton 컴파일러가 자동으로 최적화된 GPU 코드를 생성합니다. CUDA에서 100줄 걸리던 커널이 Triton에서는 20줄이면 됩니다.

더 중요한 것은 벤더 중립성입니다.

Triton으로 작성한 코드는 이론적으로 NVIDIA, AMD, Intel GPU 모두에서 돌아갈 수 있습니다. 백엔드만 바꾸면 됩니다. 한 번 작성하면 어디서나 실행되는, 자바의 "Write Once, Run Anywhere"를 GPU 세계에서 구현하려는 것입니다.


실제 성과도 나타나고 있습니다.

OpenAI는 GPT 시리즈 학습에 Triton 커널을 광범위하게 사용하고 있고, Meta도 Llama 모델 최적화에 Triton을 활용하며, PyTorch 2.0은 Triton을 공식 지원하고, HuggingFace도 일부 모델 최적화에 Triton을 도입했습니다.


벤치마크도 인상적입니다. Flash Attention 같은 최적화된 어텐션 메커니즘을 Triton으로 구현하면 순수 CUDA 대비 90%에서 95% 성능을 내고, 코드는 5분의 1로 줄어들며, 개발 시간은 10분의 1입니다.

하지만 한계도 있습니다. 성숙도 측면에서 CUDA의 18년 대 Triton의 3년이고, cuDNN 같은 극한 최적화 라이브러리에는 아직 못 미치며, 생태계 측면에서 커뮤니티가 빠르게 성장하고 있지만 CUDA의 400만에 비하면 수만 명 수준이고, 벤더 지원 측면에서 NVIDIA는 Triton을 공식 지원하지 않고, AMD와 Intel은 지원하지만 아직 실험적 단계입니다.

근본적인 질문은 이것입니다.

NVIDIA가 Triton의 성장을 가만히 둘까요?

CUDA의 독점이 위협받으면 NVIDIA는 분명 대응할 것입니다. Triton을 포용할까요, 아니면 무력화할까요?


MLIR: 컴파일러 인프라의 통일

표준 전쟁에서 또 하나의 중요한 플레이어는 MLIR, 즉 Multi-Level Intermediate Representation입니다. 2019년 Google과 LLVM 커뮤니티가 시작한 이 프로젝트는 겉보기에는 지루한 컴파일러 인프라 같지만, 실은 게임 체인저일 수 있습니다.

문제는 이렇습니다.

TensorFlow는 자체 컴파일러인 XLA를 쓰고, PyTorch는 TorchScript를 쓰며, ONNX는 또 다른 중간 표현을 씁니다. 각 프레임워크가 각자의 방식으로 하드웨어를 최적화하고, 칩 제조사들은 각 프레임워크에 대해 별도로 최적화를 해야 합니다. 엄청난 중복 작업입니다.

MLIR의 비전은 통일된 컴파일러 인프라를 만드는 것입니다. 모든 프레임워크가 MLIR로 변환되고, 모든 하드웨어가 MLIR을 지원하면, 프레임워크와 하드웨어 사이의 다리가 표준화됩니다.

실제 채택도 늘고 있습니다. TensorFlow는 XLA를 MLIR 기반으로 재작성했고, PyTorch도 torch-mlir 프로젝트로 MLIR 통합을 추진하며, Triton도 내부적으로 MLIR을 사용하고, Google TPU, AMD Instinct, Intel GPU도 모두 MLIR 백엔드를 개발하고 있습니다.

MLIR의 의미는 큽니다.

만약 MLIR이 업계 표준이 된다면, 하드웨어 벤더들은 CUDA 대신 MLIR만 지원하면 되고, 프레임워크 개발자들은 MLIR로만 출력하면 되며, 벤더 종속성이 크게 줄어듭니다.

하지만 역시 NVIDIA가 문제입니다. NVIDIA는 MLIR을 공식 지원하지 않습니다.

CUDA가 너무 잘 작동하는데 왜 MLIR이 필요한가요?

NVIDIA 입장에서는 MLIR이 자신들의 경쟁 우위를 약화시키는 것입니다.

결국 MLIR의 성공은 NVIDIA 외부 생태계가 얼마나 강해지는가에 달려 있습니다.


오픈소스의 역할: 표준은 커뮤니티가 만든다

역사적으로 보면 진정한 표준은 단일 기업이 아니라 커뮤니티가 만듭니다.

HTTP, HTML, Linux, Kubernetes 모두 오픈소스 커뮤니티의 산물입니다.

AI 인프라에서도 같은 일이 일어나고 있습니다.

PyTorch와 TensorFlow는 오픈소스이고, HuggingFace는 모델과 데이터셋을 공개 공유하며, ONNX는 모델 표현 표준을 만들고, Apache Arrow는 데이터 표현 표준을 만듭니다.

중요한 것은 이 모든 오픈소스 프로젝트들이 벤더 중립적이라는 것입니다.

어느 한 기업이 독점하지 않고, 커뮤니티가 함께 발전시킵니다. 이것이 CUDA의 폐쇄성에 대한 자연스러운 견제력입니다.

2025년부터 2030년 사이, 소프트웨어 표준 전쟁의 승자는 누가 될까요?

세 가지 시나리오가 가능합니다.


시나리오 A는 CUDA 독점 지속입니다.

NVIDIA가 너무 강력해서 Triton, MLIR 같은 대안들이 틈새에만 머무르고, 개발자들은 계속 CUDA를 배우며, NVIDIA의 하드웨어 우위가 소프트웨어 독점을 계속 강화합니다.


시나리오 B는 Triton과 MLIR 부상입니다.

개방형 표준이 힘을 얻어 Triton이 AI 커널의 표준 언어가 되고, MLIR이 컴파일러 인프라의 표준이 되며, 개발자들은 벤더 중립적 코드를 작성하고, NVIDIA도 결국 이를 받아들입니다.


시나리오 C는 분열된 생태계입니다.

표준이 통일되지 못해 NVIDIA는 CUDA, AMD는 ROCm, Intel은 oneAPI를 각자 밀고, 개발자들은 타겟 하드웨어에 따라 다른 언어를 배워야 하며, 이것은 전체 생태계의 비효율을 초래합니다.


현재 우리는 시나리오 A에 가깝지만, 시나리오 B로 조금씩 이동하고 있습니다.


2. 하드웨어 표준 전쟁: 연결의 미래

소프트웨어 표준만큼 중요한 것이 하드웨어 표준입니다. 칩들이 서로 어떻게 연결되고, 데이터를 어떻게 주고받는가? 이것이 대규모 AI 클러스터의 성능을 결정합니다.


UEC: Ethernet의 반격

Part 2와 Part 3에서 다뤘듯이, NVIDIA InfiniBand는 현재 AI 클러스터 네트워킹의 골드 스탠다드입니다. 하지만 두 가지 문제가 있습니다. 즉, 너무 비싸다는 것과, NVIDIA에 종속된다는 것입니다.


2023년 설립된 Ultra Ethernet Consortium, 즉 UEC는 이에 대한 산업의 대답입니다.

주도 기업들을 보면 Meta, Microsoft, AMD, Intel, Broadcom, Arista Networks, Cisco 등이 있고, NVIDIA는 빠져 있습니다.


이것 자체가 메시지입니다.

UEC의 목표는 명확합니다.

기존 Ethernet 기술을 확장하여 InfiniBand 성능의 80%에서 90%를 절반 가격에 구현하고, 개방형 표준으로 누구나 구현할 수 있게 하며, 기존 Ethernet 생태계와 호환되게 만드는 것입니다.


핵심 기술 요소들을 보면 초저지연입니다.

전통적 Ethernet의 20마이크로초에서 50마이크로초를 InfiniBand 수준인 2마이크로초에서 5마이크로초로 줄입니다. 무손실 전송도 중요합니다. 패킷 손실을 거의 제로로 만들어 AI 학습에 적합하게 합니다. 집단 통신 최적화는 All-Reduce 같은 AI 특화 통신 패턴을 하드웨어에서 가속하고, 혼잡 제어는 AI 트래픽에 최적화된 새로운 혼잡 제어 알고리즘을 도입합니다.


진행 상황을 보면 2024년 1.0 스펙이 공개되었고, AMD Pensando가 UEC 지원을 최초로 발표했으며, Broadcom, Arista가 UEC 지원 칩과 스위치를 개발 중이고, 2025년 하반기부터 양산 제품 출시 예정입니다.

만약 UEC가 성공한다면 의미는 큽니다.

InfiniBand의 비용 장벽이 낮아지고, 멀티벤더 네트워크 구축이 가능해지며, NVIDIA InfiniBand 종속성에서 벗어날 수 있고, 기존 Ethernet 인프라를 활용할 수 있습니다.


하지만 도전 과제도 만만치 않습니다. 기술적 검증이 필요합니다.

InfiniBand는 15년 이상 검증되었지만 UEC는 아직 초기고, 대규모 AI 클러스터에서의 안정성이 증명되어야 합니다.

생태계 구축도 필요합니다.

칩, 스위치, NIC, 케이블, 소프트웨어 전체 생태계를 만들어야 하고, 이것은 시간과 투자가 필요합니다.


NVIDIA의 대응도 변수입니다. InfiniBand를 더 저렴하게 만들거나, 차세대 기술로 격차를 벌릴 수 있습니다.

2030년까지 UEC가 InfiniBand를 대체할까요? 완전히 대체하기는 어렵겠지만, 상당 부분 점유율을 가져갈 가능성은 높습니다. 특히 비용에 민감한 중소 규모 클러스터에서는 UEC가 강력한 대안이 될 것입니다.


UALink: GPU 연결의 개방형 표준

네트워크 레벨에서 UEC가 InfiniBand에 도전한다면, GPU 간 연결 레벨에서는 UALink가 NVLink에 도전합니다.

Part 3에서 다뤘듯이 UALink는 AMD 주도로 2024년 발표되었고, Intel, Meta, Microsoft, Google, Broadcom 등이 참여하며, NVLink에 필적하는 개방형 GPU 간 연결 표준을 목표로 합니다.


UALink 1.0 스펙을 보면 대역폭은 초당 200기가바이트에서 400기가바이트로 NVLink 3.0 수준이고, 지연 시간은 1마이크로초 미만으로 PCIe 대비 10배 이상 빠르며, 토폴로지는 최대 1024개 가속기를 하나의 도메인으로 연결할 수 있고, 벤더 중립성으로 AMD, Intel, 맞춤형 ASIC 모두 사용 가능합니다.


의미는 명확합니다.

클라우드 기업들은 다양한 칩을 UALink로 통합할 수 있고, 예를 들어 AMD GPU와 Google TPU를 같은 클러스터에서 사용 가능하며, 벤더 종속성을 줄일 수 있고, 가격 협상력이 높아집니다.

하지만 UALink의 성공은 불확실합니다.

2025년에서 2026년이 결정적입니다. 1.0 제품이 실제로 나오고, 대규모 배포에서 검증되며, 생태계가 형성되어야 합니다. 만약 이것이 실패하면 NVLink 독점은 계속됩니다.

NVIDIA의 대응도 주목할 만합니다. 2024년 발표된 NVLink 5.0은 초당 1800기가바이트로 UALink의 2배가 넘습니다. NVIDIA는 기술 격차를 벌리는 전략을 취하고 있습니다.


CXL: 메모리의 미래

조금 다른 차원이지만 중요한 표준이 CXL, 즉 Compute Express Link입니다.

Intel 주도로 2019년 시작된 이 표준은 CPU, GPU, 메모리, 가속기 간의 메모리 일관성과 공유를 가능하게 합니다.

전통적으로 CPU 메모리와 GPU 메모리는 분리되어 있습니다. 데이터를 주고받으려면 복사해야 하고, 이것이 병목입니다. CXL은 이를 해결합니다. CPU와 GPU가 같은 메모리 공간을 공유하고, 복사 없이 직접 접근하며, 메모리 풀을 유연하게 확장할 수 있습니다.

AI 워크로드에서 CXL의 잠재력은 큽니다. 거대 모델의 메모리 병목을 해소하고, CPU와 GPU 간 데이터 이동을 최소화하며, 메모리 용량을 동적으로 할당할 수 있습니다.

현재 CXL 2.0이 양산 중이고, CXL 3.0이 개발 중이며, Intel, AMD, NVIDIA 모두 지원을 선언했습니다.

2025년부터 2027년 사이 CXL 기반 시스템이 본격 보급될 것으로 예상됩니다.

CXL은 UEC나 UALink처럼 NVIDIA에 도전하는 것이 아니라, 산업 전체가 함께 가는 방향입니다.

이것은 협력적 표준화의 좋은 예입니다.


3. 생태계 표준: 오픈소스 모델의 힘

하드웨어와 소프트웨어 표준만큼 중요한 것이 생태계 표준입니다.

모델, 데이터, 워크플로우가 어떻게 공유되고 재사용되는가? 이것이 AI 발전 속도를 결정합니다.


오픈소스 모델의 부상: Llama, Mistral, BLOOM

2023년과 2024년은 오픈소스 모델의 해였습니다. Meta의 Llama 2와 3, Mistral AI의 Mistral과 Mixtral, BigScience의 BLOOM, 그리고 수많은 파생 모델들이 쏟아져 나왔습니다.

이것이 왜 중요할까요?

폐쇄형 모델인 OpenAI GPT나 Anthropic Claude는 API로만 접근 가능하고, 내부를 볼 수 없으며, 특정 클라우드나 서비스에 종속됩니다.

오픈소스 모델은 다릅니다. 가중치를 다운로드할 수 있고, 자체 서버에서 실행 가능하며, 파인튜닝과 수정이 자유롭고, 어떤 하드웨어에서든 돌릴 수 있습니다.


이것이 만드는 역학은 흥미롭습니다.

기업들은 자체 인프라에서 모델을 실행하려 하고, NVIDIA뿐 아니라 AMD, AWS Inferentia 등 다양한 칩에서 실험하며, 벤더 종속을 피할 수 있고, 오픈소스 모델이 NVIDIA 독점을 약화시킵니다.

실제 사례를 보면 Bloomberg는 BloombergGPT를 자체 데이터로 학습시켰고, 독일 정부는 Aleph Alpha와 협력해 유럽 언어 모델을 만들며, 많은 스타트업들이 Llama를 기반으로 도메인 특화 모델을 만들고, 이들은 다양한 하드웨어 옵션을 비교합니다.


오픈 웨이트 vs 오픈소스: 미묘한 차이

하지만 여기에는 미묘한 차이가 있습니다.

Llama 2와 3는 엄밀히 말하면 오픈소스가 아니라 오픈 웨이트입니다.

모델 가중치는 공개되지만, 학습 코드, 데이터셋, 전체 프로세스는 공개되지 않습니다. 라이선스도 제약이 있어서 월간 활성 사용자 7억 명 이상인 서비스에는 별도 계약이 필요하고, 상업적 사용에 일부 제한이 있습니다.

진정한 오픈소스는 BLOOM이나 Pythia 같은 모델들입니다.

학습 데이터셋까지 공개되고, 학습 과정을 재현할 수 있으며, 라이선스 제약이 없습니다.


이 차이가 왜 중요할까요?

오픈 웨이트는 Meta나 Mistral 같은 기업이 여전히 통제권을 가지고, 라이선스 변경이나 제약 추가가 가능하며, 진정한 의미의 탈중앙화는 아닙니다.

진정한 오픈소스는 커뮤니티가 소유하고, 누구도 통제할 수 없으며, 완전히 자유롭게 사용 가능합니다.


2030년까지 오픈소스 모델의 비중은 계속 커질 것입니다. 이유는 명확합니다.

비용, 프라이버시, 커스터마이징, 그리고 벤더 종속 회피입니다.


HuggingFace: 모델의 GitHub

이 오픈소스 생태계의 중심에는 HuggingFace가 있습니다. 2016년 챗봇 회사로 시작한 HuggingFace는 이제 AI 모델의 GitHub가 되었습니다.

2024년 말 기준, HuggingFace에는 50만 개 이상의 모델이 올라와 있고, 10만 개 이상의 데이터셋이 공유되며, 월간 활성 사용자가 수백만 명이고, 거의 모든 주요 AI 기업과 연구소가 모델을 공개합니다.

HuggingFace의 힘은 표준화입니다.

transformers 라이브러리는 거의 모든 모델의 사실상 표준이고, 통일된 API로 다양한 모델을 같은 방식으로 사용하며, CUDA, ROCm, MPS 등 다양한 백엔드를 지원하고, 이것이 벤더 중립적 생태계를 만듭니다.


예를 들어 개발자가 HuggingFace에서 모델을 다운로드하면, NVIDIA GPU에서 실행하다가 AMD GPU로 바꾸기가 상대적으로 쉽습니다. 코드를 크게 수정할 필요가 없고, 이것이 NVIDIA 종속성을 약화시킵니다.

NVIDIA는 이를 인식하고 HuggingFace와 긴밀히 협력하며, TensorRT 통합, 최적화 가이드 제공, Inference Endpoint 서비스 등을 지원합니다. 하지만 동시에 AMD, Intel, AWS, Google도 HuggingFace와 협력합니다.

HuggingFace는 중립적 플랫폼으로 남으며, 이것이 개방형 생태계의 힘입니다.


4. 지정학적 변수: 중국과 아시아의 부상

AI 인프라 표준 전쟁을 논하면서 빼놓을 수 없는 것이 지정학입니다. 미국과 중국의 기술 패권 경쟁, 그리고 한국, 일본, 대만 같은 아시아 국가들의 역할이 점점 커지고 있습니다.


미국의 수출 통제: 게임의 판을 바꾸다

2022년과 2023년, 미국 정부는 중국에 대한 반도체 수출 통제를 대폭 강화했습니다.

H100, A100 같은 고성능 GPU는 중국에 판매할 수 없고, 심지어 클라우드 서비스로도 제공할 수 없으며, 제조 장비와 기술 이전도 제한됩니다.

이것이 만든 결과는 두 가지입니다.


첫째, 중국의 자체 개발 가속화입니다.

Huawei Ascend 910은 중국 자체 AI 칩으로 SMIC 7나노미터 공정으로 제조되고, HBM은 중국 자체 개발 중이며, 소프트웨어 스택도 자체 구축 중입니다. Alibaba, Baidu, Tencent 등이 모두 자체 AI 칩을 개발하고, ByteDance는 Volcano Engine으로 클라우드 인프라를 구축하며, 중국 정부는 반도체 자립에 천문학적 투자를 합니다.


둘째, 글로벌 공급망의 재편입니다.

중국 시장을 잃은 NVIDIA는 매출 타격을 입고, 다른 지역에서 판매를 늘려야 하며, 가격 경쟁이 치열해집니다. 중국 기업들은 NVIDIA 의존도를 낮추고, 대안 칩을 적극 검토하며, 이것이 AMD, Intel에게 기회가 됩니다.


중국 표준의 등장: 독자 생태계

중국은 단순히 칩을 만드는 것을 넘어 독자적 생태계를 구축하고 있습니다.

CANN은 Huawei의 AI 소프트웨어 플랫폼으로 CUDA 대항마이고, MindSpore는 Huawei의 AI 프레임워크로 TensorFlow, PyTorch 대항마이며, PaddlePaddle은 Baidu의 딥러닝 플랫폼입니다.

중국어 AI 모델들도 독자적으로 발전하고 있습니다. Baidu의 Ernie, Alibaba의 Tongyi Qianwen, Tencent의 Hunyuan 등이 있고, 이들은 중국 데이터와 언어에 최적화되어 있으며, 중국 하드웨어에서 잘 작동하도록 만들어집니다.


2030년이 되면 세계는 두 개의 AI 생태계로 나뉠 수 있습니다.

서구 생태계는 NVIDIA, AMD, Intel, CUDA, PyTorch, HuggingFace 기반이고, 중국 생태계는 Huawei, Alibaba, CANN, MindSpore, 독자 플랫폼 기반입니다.

나머지 세계는 어디에 설까요? 유럽은 대부분 서구 생태계에 머물 것이고, 동남아시아, 중동, 아프리카는 양쪽 모두를 사용할 것이며, 한국과 일본은 미묘한 위치에 있습니다.


한국의 선택: 교량인가, 중립인가?

Part 3에서 다뤘듯이 한국은 독특한 위치에 있습니다. 삼성전자와 SK하이닉스는 메모리와 파운드리의 강자이고, Rebellions, FuriosaAI 같은 AI 칩 스타트업들이 성장하며, 미국 동맹이면서 중국과 경제적으로 긴밀합니다.

한국 기업들의 딜레마는 명확합니다.

SK하이닉스 HBM은 NVIDIA에도 가고 중국 Huawei에도 갈 수 있는가? 삼성 파운드리는 미국 칩도 만들고 중국 칩도 만들 수 있는가? Rebellions는 사우디와 협력하면서 미국 시장도 공략할 수 있는가?


미국 수출 통제는 이를 어렵게 만듭니다. 특정 기술과 제품은 중국에 공급이 제한되고, 한국 기업들은 선택을 강요받으며, 전략적 모호성의 공간이 줄어듭니다.

2030년 한국의 포지션은 무엇일까요? 시나리오는 세 가지입니다.

첫째, 서구 진영 확고한 편입으로 미국 동맹 강화, 중국 시장 일부 포기, 서구 생태계 깊숙이 통합됩니다.

둘째, 전략적 균형으로 양쪽 모두에 공급, 기술적 중립성 유지, 어려운 줄타기입니다.

셋째, 독자 생태계 구축으로 한국, 일본, 동남아 중심 제3 생태계 시도, 가장 야심차지만 가장 어렵습니다.

현실적으로는 시나리오 1이 가장 가능성 높지만, 한국 기업들은 시나리오 2를 최대한 유지하려 할 것입니다.


한국은 생태계에서 중요한 위치를 점하고 있지만 그만큼 고민해야 할 과제가 많은 것이 사실입니다.


5. 2030년 시나리오: 세 가지 미래

지금까지의 분석을 바탕으로 2030년 AI 인프라의 모습을 세 가지 시나리오로 그려보겠습니다.


시나리오 A: NVIDIA 독점의 지속

이 시나리오에서는 NVIDIA의 지배력이 계속됩니다. Blackwell 이후 차세대 아키텍처가 계속 성능 격차를 벌리고, CUDA가 여전히 개발자의 기본 언어이며, NVLink와 InfiniBand가 표준으로 남고, 도전자들은 틈새 시장에만 머뭅니다.

이렇게 될 가능성은 얼마나 될까요? 약 45%로 봅니다.

NVIDIA의 실행력이 증명되었고, R&D 투자 규모가 압도적이며, 생태계 전환 비용이 너무 높고, 기업들은 안전한 선택을 선호합니다.

이 시나리오의 문제는 무엇일까요? 혁신 속도가 느려지고, 가격이 계속 높게 유지되며, 중소 기업과 연구자들의 접근성이 떨어지고, 지정학적 리스크가 커집니다. 미국이 NVIDIA를 무기화할 수 있습니다.


시나리오 B: 다원화된 생태계

이 시나리오에서는 표준이 개방화되고 시장이 다원화됩니다.

Triton과 MLIR이 실질적 표준이 되고, UEC와 UALink가 널리 채택되며, NVIDIA, AMD, Intel, AWS, Google이 각자 영역에서 공존하고, 개발자들은 벤더 중립적 코드를 작성합니다.

가능성은 약 35%로 봅니다.

산업 전체가 NVIDIA 독점을 우려하고, 개방형 표준에 대한 투자가 증가하며, 오픈소스 커뮤니티가 강력하고, 하이퍼스케일러들이 자체 칩에 성공합니다.

이 시나리오가 가져올 결과는 무엇일까요?

혁신 속도가 빨라지고, 가격 경쟁으로 비용이 낮아지며, 더 많은 참여자가 AI에 접근하고, 지정학적 리스크가 분산됩니다.

하지만 도전 과제도 있습니다.

파편화된 생태계로 개발자 혼란이 있고, 표준 전쟁으로 비효율이 발생하며, 일부 플레이어의 실패로 투자 손실이 있고, 최적화 수준이 NVIDIA보다 낮을 수 있습니다.


시나리오 C: 지정학적 분열

이 시나리오에서는 세계가 두세 개의 독립적 생태계로 나뉩니다.

서구 블록은 NVIDIA, AMD, Intel 중심이고, 중국 블록은 Huawei, Alibaba 중심이며, 아시아와 중동은 자체 생태계를 시도하고, 상호 호환성이 매우 낮습니다.

가능성은 약 20%로 봅니다. 미중 갈등이 심화되고, 기술 디커플링이 가속화되며, 각 블록이 자급자족을 추구하고, 글로벌 협력이 붕괴됩니다.

이것은 최악의 시나리오일 수 있습니다. 전체 생태계 효율이 떨어지고, 중복 투자로 자원이 낭비되며, 혁신 속도가 느려지고, 개발도상국이 배제되며, 글로벌 AI 격차가 확대됩니다.


역사적으로 기술 표준 전쟁은 보통 다원화로 끝났습니다.

PC 시대의 Windows 독점은 모바일 시대에 iOS와 Android로 나뉘었고, 클라우드도 AWS, Azure, GCP가 공존하며, 브라우저도 Chrome, Safari, Firefox가 경쟁합니다.

AI 인프라도 비슷한 경로를 갈 가능성이 높습니다.

NVIDIA가 여전히 강력하지만, AMD와 하이퍼스케일러들이 의미 있는 점유율을 확보하고, 개방형 표준이 부분적으로 채택되며, 지역과 용도에 따라 다른 솔루션이 사용됩니다.


6. 결론: 표준 전쟁의 승자는?

4부작 시리즈를 마무리하며 처음의 질문으로 돌아갑니다. 누가 AI의 언어를 지배할 것인가?

정답은 아무도 완전히 지배하지 못할 것이라는 것입니다.


Part 1에서 우리는 1990년대 3dfx가 Glide API로 시장을 독점하려다 실패한 것을 봤습니다.

Microsoft의 Direct3D라는 개방형 표준과 NVIDIA의 통합 솔루션이 이겼습니다.

하지만 아이러니하게도 NVIDIA는 이제 3dfx보다 훨씬 강력한 독점을 만들었습니다.


Part 2에서 우리는 GPU 하나를 작동시키는 거대한 생태계를 봤습니다.

HBM, CoWoS, NVLink, InfiniBand, CUDA까지, NVIDIA는 모든 레이어를 장악했습니다.

하지만 각 레이어에서 균열이 생기고 있습니다.


Part 3에서 우리는 도전자들을 봤습니다.

Google TPU, AMD의 3중 전략, AWS와 Microsoft의 자체 칩, 스타트업들의 혁신, 그리고 한국 기업들의 부상까지, NVIDIA의 성에 여러 방향에서 공격이 가해지고 있습니다.


Part 4에서 우리는 미래를 봤습니다. 소프트웨어, 하드웨어, 생태계 표준이 모두 전쟁터입니다. 그리고 승자는 하나가 아니라 여럿일 것입니다.


향후 5년의 관전 포인트

2025년부터 2030년까지 주목해야 할 것들이 있습니다.

2025년은 결정의 해입니다.

NVIDIA Blackwell 본격 양산, AMD MI350 출시, AWS Trainium 2세대, Google TPU v6, Rebellions REBEL 양산, UALink 1.0 제품 출시, UEC 표준 기반 제품 등장이 일어납니다. 이 모든 제품들이 실제 시장에서 경쟁하며, 첫 번째 판가름이 납니다.

2026년은 검증의 해입니다. 대규모 배포 사례들이 나오고, 성능과 안정성이 검증되며, 개발자 커뮤니티 반응이 나타나고, 비용 효율성이 입증되며, 생태계가 형성되기 시작합니다.

2027-2028년은 전환의 해입니다. 표준들이 자리를 잡고, 시장 점유율이 재편되며, 일부 플레이어는 성공하고 일부는 퇴출되며, 새로운 균형이 만들어집니다.

2029-2030년은 안정화의 해입니다. 새로운 질서가 확립되고, 표준들이 공존하며, 다음 세대 기술이 준비되고, 그리고 새로운 도전자들이 나타납니다.


최종 예측: 2030년 시장 구조

대담한 예측을 해보겠습니다.

2030년 AI 학습 시장 구조는 NVIDIA가 60%에서 70%로 여전히 1위이지만 독점은 아니고, AMD가 15%에서 20%로 확실한 2인자이며, 하이퍼스케일러 자체 칩이 10%에서 15%로 각자 영역에서 강하고, 기타가 5%에서 10%로 스타트업과 중국 칩들입니다.

추론 시장 구조는 더 파편화됩니다. NVIDIA가 40%에서 50%로 여전히 강하지만 학습만큼은 아니고, AWS와 Google이 20%에서 25%로 자체 칩이 강세이며, AMD와 Intel이 15%에서 20%이고, 기타가 10%에서 15%로 한국 칩 포함입니다.

소프트웨어 표준은 CUDA가 여전히 지배적이지만 60%에서 70%이고, Triton과 MLIR 기반이 20%에서 30%로 빠르게 성장하며, ROCm과 기타가 10%입니다.

네트워크 표준은 InfiniBand가 50%에서 60%로 고성능 클러스터 중심이고, UEC 기반 Ethernet이 30%에서 40%로 중소규모 배포 중심이며, 기타가 10%입니다.


마지막 메시지: 독점은 일시적이다

역사가 주는 교훈은 명확합니다.

어떤 독점도 영원하지 않습니다. IBM의 메인프레임 독점은 PC에게 무너졌고, Microsoft의 PC 독점은 모바일에게 도전받았으며, Intel의 CPU 독점은 ARM에게 흔들리고, Google의 검색 독점은 생성형 AI에게 위협받습니다.

NVIDIA의 GPU 독점도 예외는 아닐 것입니다. 언제, 어떻게 균열이 올지는 모르지만, 변화는 반드시 옵니다.

그 변화를 만드는 것은 누구일까요?

AMD일 수도 있고, Google일 수도 있으며, AWS일 수도 있고, 중국 기업일 수도 있으며, 한국 스타트업일 수도 있고, 아직 나타나지 않은 누군가일 수도 있습니다.

확실한 것은 하나입니다. 표준 전쟁은 끝나지 않았고, 가장 흥미로운 장은 이제부터입니다.

AI 인프라의 미래는 여전히 쓰여지고 있습니다. 그리고 우리 모두가 그 이야기의 일부입니다.


결론은 열린 결말이라는 것이고 우리는 이 경쟁을 관전하면서 우리에게 가장 유익한 선택을 하면 됩니다.


GPU 시리즈를 마치며

얼마 전, 저는 Voodoo 3D 카드로 처음 3D 그래픽의 충격을 경험했던 1996년을 떠올리며 이 시리즈를 시작했습니다. 그때는 "3D 가속기"가 게임 외에 무슨 쓸모가 있을까 생각했습니다.

30년이 지난 지금, 그 3D 가속기의 후예들은 AI 혁명의 심장이 되었습니다.

GPU는 단순히 그림을 그리는 칩이 아니라, 인류 지능을 확장하는 도구가 되었습니다.

그리고 그 GPU를 둘러싼 전쟁은 단순히 기업들의 이익 싸움이 아닙니다.

이것은 AI의 미래, 기술의 접근성, 혁신의 속도, 그리고 궁극적으로 누가 AI 시대의 인프라를 통제할 것인가를 결정하는 전쟁입니다.


이 시리즈를 읽으신 여러분은 이제 이 전쟁의 역사, 현재, 그리고 가능한 미래를 이해하셨을 겁니다.

뉴스에서 "NVIDIA 주가 급등", "AMD 신제품 발표", "한국 AI 칩 스타트업 투자 유치" 같은 헤드라인을 보실 때, 그 이면의 거대한 그림이 보이실 겁니다.

이 전쟁의 승자는 아직 정해지지 않았습니다.

그리고 그것이 이 이야기를 흥미롭게 만드는 이유입니다.

읽어주셔서 감사합니다.




참고 자료

소프트웨어 표준으로는 CUDA 아키텍처와 18년 발전사, Triton 프로그래밍 언어와 OpenAI 활용 사례, MLIR 컴파일러 인프라와 산업 채택, PyTorch와 TensorFlow의 멀티 백엔드 지원 자료를 참고했습니다.

하드웨어 표준으로는 Ultra Ethernet Consortium 설립과 1.0 스펙, UALink 컨소시엄과 개방형 GPU 연결 표준, CXL 2.0/3.0 메모리 공유 기술, InfiniBand와 AI Ethernet 비교 자료를 참고했습니다.

오픈소스 생태계로는 Meta Llama 2/3 오픈 웨이트 모델, Mistral AI와 Mixtral 모델, BigScience BLOOM 진정한 오픈소스 모델, HuggingFace 플랫폼과 50만 개 모델 생태계, ONNX와 모델 표준화 자료를 참고했습니다.

지정학으로는 미국 대중국 반도체 수출 통제 조치, Huawei Ascend 910과 중국 자체 AI 칩, CANN, MindSpore 중국 소프트웨어 플랫폼, 한국 AI 칩 기업의 지정학적 딜레마 자료를 참고했습니다.

시나리오 분석으로는 2030년 AI 인프라 시장 전망, NVIDIA 독점 vs 다원화 시나리오, 기술 표준 전쟁 역사적 사례 연구 자료를 참고했습니다.


토요일 연재
이전 06화GPU 전쟁: AI를 지배하는 자들