GPU 전쟁: AI를 지배하는 자들

Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들

by Yameh

시리즈 안내
이 글은 GPU와 AI 인프라의 과거, 현재, 미래를 다루는 4부작 시리즈입니다.

Part 1: 3D 그래픽 전쟁에서 AI 혁명까지
Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들 (현재 글)
Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁
Part 4: 미래 인프라 표준 전쟁 - 누가 AI의 언어를 지배할 것인가


들어가며: GPU 하나로는 아무것도 못한다

Part 1에서 우리는 GPU가 어떻게 탄생했고, NVIDIA가 어떻게 시장을 장악했는지 살펴봤습니다.

하지만 많은 사람들이 놓치는 중요한 사실이 있습니다.

GPU 칩 하나만 좋다고 AI가 돌아가는 게 아닙니다.

마치 수퍼카인 페라리의 엔진만 산다고 차가 완성되는 게 아닌 것처럼, GPU도 완전한 생태계가 갖춰져야 작동합니다. NVIDIA H100 GPU 한 개의 가격은 약 3만 달러, 우리 돈으로 4천만 원이 넘습니다.

그런데 이 칩 하나를 만들고, AI 클러스터로 작동시키기까지 최소 20개 이상의 기업이 관여합니다.

대규모 AI 학습을 GPU로 돌리려면 다섯 가지 핵심 레이어가 모두 완벽하게 작동해야 합니다.

초고속 메모리가 GPU에 데이터를 공급해야 하고, GPU들이 서로 연결되어야 하며, 수천 대의 서버가 네트워크로 묶여야 하고, 이 모든 것을 만드는 반도체 제조 공정이 필요하며, 마지막으로 개발자가 쉽게 프로그래밍할 수 있는 소프트웨어 플랫폼이 있어야 합니다.

하나라도 병목이 생기면 전체 시스템이 느려집니다.

Part 2에서는 이 거대한 생태계를 따라가며, 각 단계의 핵심 기업과 그들의 역할을 살펴보겠습니다.

이번 Part 2는 기술적인 내용 중심이라 읽기 어려우실 수도 있습니다. 미리 참고하시고 봐주시기 바랍니다.

최대한 쉽게 설명해 보겠습니다.


1. 메모리 병목: HBM은 왜 필요한가

문제의 시작: GPU는 빠른데 메모리가 느리다

GPU가 아무리 빨라도 데이터를 가져오는 속도가 느리면 의미가 없습니다.

비유하자면 이렇습니다. GPU 코어는 초고속 요리사 1만 명이고, 메모리는 식재료 창고이며, 메모리 대역폭은 창고에서 주방까지 식재료를 나르는 속도입니다. 요리사가 아무리 많아도 식재료를 충분히 빨리 가져오지 못하면 요리사들은 대부분 놀고 있게 됩니다.

우리 PC에 쓰이는 일반 메모리, 즉 DDR4나 DDR5는 CPU와 물리적으로 떨어져 있습니다. PCB 기판 위에 따로 배치되어 있고, 메모리 버스가 길고 좁습니다. DDR5의 대역폭은 초당 약 50기가바이트인데, GPU가 초당 처리하는 데이터는 테라바이트 단위입니다. 턱없이 부족한 속도입니다.


HBM의 혁신: 메모리를 GPU 옆에 붙이다

HBM, 즉 High Bandwidth Memory는 완전히 다른 접근입니다.

첫째, 3D 적층 구조를 사용합니다.

메모리 칩을 수직으로 여러 층, 보통 8~12층까지 쌓습니다. 각 층을 TSV, 즉 Through-Silicon Via, 실리콘 관통 전극으로 연결합니다. 마치 아파트처럼 위로 올라가면서 공간 효율을 극대화하는 것입니다.

둘째, 초근접 배치입니다.

HBM을 GPU 칩 바로 옆에 붙입니다. Interposer라는 중간층을 통해 초단거리로 연결하며, 물리적 거리가 짧아 신호 지연을 최소화합니다.

셋째, 넓은 데이터 통로입니다.

DDR은 64비트 버스, 즉 좁은 길 1개를 사용하지만, HBM은 1024비트 버스, 즉 넓은 고속도로 16차선을 사용합니다.

결과는 놀랍습니다. DDR4는 초당 약 25기가바이트, DDR5는 약 50기가바이트를 전송합니다. HBM2는 초당 약 900기가바이트, HBM3는 초당 3테라바이트를 읽을 수 있습니다. NVIDIA H100은 HBM3를 사용하며, 초당 3테라바이트의 데이터를 읽습니다. 이것은 Full HD 영화 600편을 1초에 읽는 속도입니다.


HBM 시장: 세 거인의 과점

문제는 HBM이 매우 비싸다는 것입니다. H100 GPU 가격의 약 30%에서 40%가 HBM 비용입니다. 제조가 복잡하고 수율, 즉 생산 성공률이 낮습니다. 그리고 주요 공급사가 단 3곳뿐입니다.


SK하이닉스는 HBM 시장의 절대 강자입니다.

2024년 기준 약 50%의 시장 점유율을 보유하고 있으며, NVIDIA H100과 H200의 주 공급사입니다. SK하이닉스가 1위인 이유는 명확합니다. NVIDIA와의 독점 파트너십을 맺어 H100 HBM3를 2022년부터 2023년까지 독점 공급했고, H200 HBM3E도 우선 공급하고 있습니다. Blackwell B100과 B200도 SK하이닉스 중심입니다. 기술적으로도 선도하고 있습니다. 2023년 3분기에 HBM3E를 최초로 양산했고, 12층 HBM3E를 개발하여 용량을 증가시켰으며, 2025년에서 2026년을 목표로 HBM4 개발을 선도하고 있습니다.

가장 중요한 것은 수율입니다. HBM은 수율이 생명인데, 불량률이 높으면 비용이 폭증합니다. SK하이닉스의 수율이 가장 높은 것으로 알려져 있습니다.


삼성전자는 메모리 시장 전체에서는 1위 기업이지만 HBM에서는 2위입니다.

시장 점유율은 약 30%에서 35%입니다.

삼성은 왜 HBM에서 뒤처졌을까요? 늦은 출발 때문입니다.

NVIDIA가 HBM의 중요성을 강조할 때인 2020년에서 2021년, 삼성은 회의적이었습니다. SK하이닉스가 HBM2E와 HBM3 개발에 집중할 때 삼성은 일반 DRAM에 집중했습니다. 결과적으로 NVIDIA는 SK하이닉스와 손을 잡았습니다. 현재 삼성은 AMD Instinct MI300 시리즈에 HBM3를 공급하고, Google TPU에도 공급하며, 2024년부터는 NVIDIA H100 일부 물량도 확보했습니다.

반격 전략으로 HBM3E 양산을 2024년에 시작했고, 평택과 화성 라인에서 생산 능력을 대폭 확대하고 있으며, NVIDIA 점유율 확대를 공격적으로 추진하고 있습니다.


마이크론은 가장 늦게 HBM 시장에 진입했지만 독특한 포지션을 가지고 있습니다.

시장 점유율은 약 10%에서 15%입니다. 마이크론의 차별점은 미국 기업이라는 것입니다.

지정학 리스크를 회피하려는 수요가 있고, 미국 정부의 CHIPS Act 보조금을 받고 있으며, NVIDIA의 다변화 전략에 수혜를 받고 있습니다. 하지만 기술적으로는 SK하이닉스와 삼성보다 6개월에서 12개월 뒤처져 있습니다. HBM3E 양산을 2024년 하반기에 시작했고, 점유율은 10%대 초반으로 제한적입니다.


2023년에서 2024년 AI 붐 때 HBM 공급 부족이 심각했습니다. GPU 칩은 만들었는데 HBM이 없어서 완제품을 못 만드는 상황이 발생했습니다. HBM의 제조 난이도가 매우 높고 신규 진입이 어려운 만큼, AI 붐이 지속되는 한 이 3사의 과점 구조는 당분간 유지될 전망입니다.


2. GPU 칩: 양대 진영

NVIDIA: 압도적 지배자

NVIDIA의 현재 데이터센터 GPU 제품 라인은 명확합니다.

H100은 2022년에 출시된 현재 주력 제품으로 HBM3 80기가바이트를 탑재하고 있습니다.

H200은 2023년에 출시되어 HBM3E 141기가바이트로 업그레이드되었습니다.

B100과 B200은 2024년 Blackwell 아키텍처로 성능이 2배 향상되었습니다.

가격은 공급 상황에 따라 변동이 큽니다. H100은 2만 5천 달러에서 4만 달러, H200은 3만 5천 달러에서 4만 5천 달러, B200은 예상 4만 달러에서 5만 달러입니다.

NVIDIA의 시장 지배력은 압도적입니다.

AI 학습 GPU 시장 점유율은 94%이고, 2024 회계연도 데이터센터 매출은 1,000억 달러 이상으로 예상되며, 영업이익률은 50% 이상입니다.


AMD: 가격으로 승부하는 도전자

AMD는 Instinct 시리즈로 NVIDIA에 도전하고 있습니다.

MI250X는 2021년 초기 AI GPU였고, MI300A는 2023년 CPU와 GPU를 통합한 APU입니다.

MI300X는 2024년 GPU 단독 제품으로 HBM3 192기가바이트를 탑재했습니다.

MI350은 2025년 6월에 출시되었으며 HBM3E와 3나노미터 공정을 사용합니다.

MI400은 2026년 예정으로 Blackwell 경쟁 제품입니다.


AMD의 가격 전략은 명확합니다.

MI300X는 1만 달러에서 1만 5천 달러로 H100의 40%에서 60% 수준입니다.

같은 성능을 더 싼 가격에 제공하는 전략입니다.

전략적 고객 확보도 중요합니다.

2024년 OpenAI는 MI300을 대량 구매 계약을 체결했습니다.

Microsoft Azure는 MI300 인스턴스를 제공하고, Oracle Cloud는 AMD EPYC와 MI300 통합을 제공하며, Meta는 Llama 모델 학습에 AMD를 사용하고 있습니다.


문제는 여전히 소프트웨어입니다.

CUDA와 ROCm(라데온 오픈 컴퓨트)의 격차, 개발자 생태계의 미성숙함이 AMD의 가장 큰 과제로 남아있습니다.


3. 반도체 제조: 보이지 않는 병목

TSMC: 모든 것의 시작점

AI 칩의 90% 이상이 대만의 TSMC에서 만들어집니다.

TSMC는 타 기업으로부터 설계도를 받아 반드체를 위탁 생산하는 기업입니다. 즉, 삼성전자나 SK하이닉스, 인텔 등은 설계 능력을 갖추고 있는 종합반도체회사(IDM, Integrated Device Manufacturer)로 분류되는 반면에 TSMC는 설계는 하지 않고 팹만 운영하는 순수한 파운드리 업체입니다. 따라서 흔히 말하는 '이름없는 회사'였고, 오랫동안 모국인 대만 사람이나 컴퓨터에 특별히 관심이 있는 사람이 아니면 잘 모르는 회사였습니다.

삼성전자와 TSMC가 비교되는 이유는 파운드리 비즈니스를 삼성전자도 가지고 있기 때문입니다. 종합 반드체 회사의 관점에서 두 회사를 비교하는 것은 맞지 않습니다. 비교는 파운드리 관점에서 하는 것이 올바른 비교가 되겠습니다.

TSMC가 지속적인 공정혁신으로 삼성전자를 제치고 세계1위에 오른 것은 대단한 성과인 것은 사실입니다.


NVIDIA H100과 Blackwell은 TSMC 4나노미터와 3나노미터 공정을 사용하고, AMD MI300은 TSMC 5나노미터와 6나노미터를 사용하며, Apple M 시리즈는 TSMC 3나노미터, Google TPU v5는 TSMC에서 생산됩니다.

TSMC가 독점적 지위를 갖는 이유는 두 가지입니다.

첫째, 최첨단 공정입니다. 3나노미터와 4나노미터를 양산할 수 있는 곳은 TSMC와 삼성뿐인데, 삼성 3나노미터는 수율 문제로 채택률이 낮습니다. 결국 TSMC가 사실상 독점하고 있습니다.

둘째, 더 중요한 것은 CoWoS 패키징입니다. AI 칩은 단순 칩 제조로 끝이 아닙니다.

GPU 다이와 HBM 메모리를 하나로 패키징해야 합니다. 이 기술이 CoWoS, 즉 Chip-on-Wafer-on-Substrate입니다. TSMC가 CoWoS 생산 능력의 거의 100%를 보유하고 있습니다.


CoWoS 병목: GPU 부족의 진짜 이유

2023년에서 2024년 상황을 돌이켜보면 놀랍습니다.

NVIDIA는 "칩은 만들었는데 패키징을 못해서 출하가 지연된다"고 했고, AMD는 "TSMC CoWoS 라인을 확보하려고 2년 전에 예약했다"고 했습니다.

TSMC는 "CoWoS 생산 능력을 3배로 확대 중"이라고 발표했습니다.

결론은 명확합니다.

2023년에서 2024년 'GPU 부족'의 실체는 사실 'CoWoS 부족'이었습니다.

GPU 칩은 만들었지만 패키징을 못해서 완제품을 출하하지 못하는 상황이 발생했습니다.

TSMC는 이 병목을 해소하기 위해 2024년부터 2026년까지 200억 달러 이상을 투자하여 CoWoS 생산 능력을 3배로 확대할 계획입니다. 차세대 CoPoS, 즉 Chip-on-Panel-on-Substrate 기술도 개발 중입니다.

경쟁사들도 가만 있지는 않습니다.

삼성전자는 I-Cube라는 유사 기술로 AMD와 협력하고 있고, Intel도 자체 고급 패키징인 Foveros 기술을 개발하고 있지만, 아직 TSMC의 생산 능력과 수율을 따라잡지 못하고 있습니다.


4. GPU 간 연결: NVLink의 마법

문제: 하나의 GPU로는 부족하다

이전에 제가 "AI의 미래: 두개의 엔진" 브런치북에서 다룬 것처럼 현대 AI 모델은 너무 거대합니다.

GPT-3는 175억 개의 파라미터를 가지고 있어 약 700기가바이트의 메모리가 필요합니다. GPT-4는 추정 1조 7천억 개의 파라미터입니다. H100 GPU 메모리는 80기가바이트입니다. 700기가바이트 모델을 80기가바이트 GPU 하나에 넣을 수 없습니다. 여러 개의 GPU에 나눠 담아야 합니다.


PCIe의 한계

전통적으로 GPU는 PCIe, 즉 PCI Express로 연결됩니다. PCIe 4.0은 초당 약 32기가바이트, PCIe 5.0은 초당 약 64기가바이트입니다. 이것도 빠른 것 같지만 HBM3의 3,000기가바이트와 비교하면 50배 이상 느립니다.

문제 상황을 생각해 봅시다.

GPU1의 메모리에서 GPU1 코어로 데이터가 HBM을 통해 초당 3,000기가바이트로 전송됩니다. 하지만 GPU1 코어에서 GPU2 코어로는 PCIe를 통해 초당 64기가바이트밖에 안 됩니다. 이것은 병목입니다. GPU 내부 속도는 3,000기가바이트인데 GPU 간 통신은 64기가바이트밖에 안 됩니다. 50배 차이가 나는 극심한 병목입니다.


NVLink: GPU 간 고속도로

NVIDIA는 2016년 NVLink를 도입했습니다. PCIe 4.0은 양방향 32기가바이트, PCIe 5.0은 64기가바이트입니다. NVLink 3.0은 600기가바이트로 A100에 사용되고, NVLink 4.0은 900기가바이트로 H100에 사용됩니다. NVLink 4.0은 PCIe 5.0보다 14배 빠릅니다.


NVSwitch: 여러 GPU를 하나처럼

2개가 아니라 8개, 16개, 심지어 수천 개의 GPU를 연결하려면 어떻게 해야 할까요?

NVSwitch는 GPU 간 연결을 중재하는 고성능 스위치입니다. 한 서버에 8개 GPU를 모두 NVLink로 연결하고, 각 GPU가 다른 모든 GPU와 직접 통신할 수 있게 Full Mesh로 구성하며, 마치 8개 GPU가 하나의 거대한 GPU처럼 작동하게 만듭니다.

실제 영향은 놀랍습니다. GPT 규모 모델 학습 시간을 비교하면, PCIe로 연결했을 때 100시간 걸리는 작업이 NVLink로 연결하면 20시간으로 5배 단축됩니다.

시간만 줄어드는 게 아닙니다. GPU 활용률이 높아져서 같은 비용으로 5배 더 많은 실험을 할 수 있습니다.


5. 서버 간 네트워킹: 수천 개 GPU를 연결하는 법

규모의 문제: 한 서버를 넘어서

NVLink는 한 서버 안의 GPU들, 보통 8개를 연결합니다. 하지만 최신 LLM 학습에는 수천에서 수만 개의 GPU가 필요합니다. GPT-4 학습에는 추정 약 2만 5천 개의 GPU, 약 3,125대의 서버, 수백 개의 랙이 필요했습니다. 이 수천 대의 서버를 연결하는 네트워크가 필요합니다.


왜 일반 이더넷으로는 안 되는가

우리가 사무실이나 집에서 쓰는 이더넷, 1기가비트나 10기가비트는 AI 학습에는 너무 느립니다.

더 큰 문제는 "지연 시간""패킷 손실"입니다.

분산 학습에서는 모든 GPU가 동기화되어야 합니다.

각 GPU가 일부 데이터로 계산하고, 모든 GPU가 결과를 공유하고 평균을 계산하며, 평균값으로 모델을 업데이트한 후 다음 단계로 넘어갑니다. 한 GPU라도 늦으면 모든 GPU가 기다려야 합니다.

일반 이더넷20마이크로초에서 50마이크로초의 지연이 있지만, InfiniBand1마이크로초에서 2마이크로초의 지연만 있습니다. 2만 5천 개 GPU가 동시에 기다리는 시간이 10배 차이 나면 전체 학습 시간이 수일에서 수주로 늘어날 수 있습니다.

패킷 손실도 치명적입니다. 일반 이더넷은 네트워크가 혼잡하면 데이터 패킷을 잃어버립니다. 그러면 재전송해야 합니다. 대규모 학습에서 재전송 동안 모든 GPU가 대기하고, 수천 개 GPU 중 하나만 재전송해도 전체가 멈추며, 학습 효율이 급격히 떨어집니다.


InfiniBand: HPC와 AI의 골드 스탠다드

InfiniBand는 고성능 컴퓨팅과 AI 학습을 위해 설계된 특수 네트워크입니다.

지연 시간은 이더넷이 20마이크로초에서 50마이크로초인 반면 InfiniBand는 1마이크로초에서 2마이크로초입니다. 패킷 손실은 이더넷에서 발생 가능하지만 InfiniBand는 거의 제로, 즉 Lossless입니다.

CPU 부담은 이더넷이 높지만 InfiniBand는 낮습니다. RDMA를 사용하기 때문입니다.

속도는 이더넷이 100기가비트에서 400기가비트인 반면 InfiniBand NDR은 400기가비트에서 800기가비트입니다. 가격은 이더넷이 저렴하지만 InfiniBand는 매우 비쌉니다.

RDMA, 즉 Remote Direct Memory AccessCPU를 거치지 않고 GPU 메모리 간 직접 전송하여 CPU 사이클을 절약하고 지연을 최소화합니다.

SHARP, 즉 Scalable Hierarchical Aggregation and Reduction Protocol네트워크 스위치에서 데이터 집합과 감소 연산을 수행하여 All-Reduce 같은 집단 통신을 30%까지 가속합니다.

NVIDIA는 2020년 이스라엘의 네트워킹 전문 기업 Mellanox를 69억 달러, 약 8조 원에 인수했습니다. Mellanox는 InfiniBand 시장의 절대 강자로 HPC와 AI 클러스터 네트워킹 시장에서 70%에서 80%의 점유율을 보유하고 있었습니다.

이 인수로 NVIDIA는 GPU 칩부터 칩 간 연결인 NVLink, 서버 간 네트워킹인 InfiniBand까지 수직 통합된 AI 인프라 스택을 완성했습니다.


이더넷의 반격: Ultra Ethernet Consortium

문제는 InfiniBand가 너무 비싸고 NVIDIA에 종속적이라는 것입니다.

InfiniBand의 높은 비용과 NVIDIA 종속성을 우려한 하이퍼스케일러들은 2023년 Ultra Ethernet Consortium, 즉 UEC를 결성했습니다.

주도 기업은 Meta, Microsoft, AMD, Intel, Broadcom 등이며, 목표는 InfiniBand 성능의 80%에서 90%를 더 낮은 비용으로 구현하는 개방형 Ethernet 표준을 만드는 것입니다.


이 흐름 속에서 주목받는 기업이 Arista Networks입니다.

Arista는 클라우드 데이터센터 네트워킹에 특화된 기업으로, Meta가 50만 개 이상의 GPU 클러스터를 구축하면서 Arista의 AI 특화 Ethernet 스위치를 대거 채택했습니다.

Arista는 7800R4 800기가비트 AI 스위치, CloudVision AI 네트워킹, RoCEv2 즉 RDMA over Converged Ethernet 최적화를 제공합니다. 클라우드 친화적 소프트웨어인 EOS를 통해 확장성과 자동화에 강점을 보입니다.

2024년 Arista의 AI 관련 매출은 전체의 30%에서 40%를 차지하며, 전년 대비 40% 이상 성장했습니다. 주요 고객은 Meta, Microsoft, Oracle입니다.


네트워크 장비의 핵심인 스위칭 칩은 주로 Broadcom이 공급합니다.

Broadcom의 Tomahawk 시리즈와 Jericho3-AI 칩은 Arista를 비롯한 대부분의 네트워크 장비 제조사가 사용하고 있습니다. Broadcom의 2024 회계연도 AI 관련 매출은 120억 달러로 예상되며, 전체 매출의 30% 이상을 차지합니다.

전통적인 네트워킹 강자 Cisco도 Nexus 9000 AI 스위치와 Silicon One 칩 자체 개발을 통해 Broadcom 의존도를 낮추며 AI Ethernet 시장에 진입하고 있습니다. UEC에도 참여하고 있지만, 클라우드 AI 전환이 Arista보다 느리고 성장률도 전년 대비 5%에서 10%로 낮은 편입니다.


AMD Pensando: DPU의 다크호스

AMD는 2022년 Pensando Systems를 19억 달러에 인수했습니다. Pensando는 Cisco 출신 엔지니어들이 설립한 회사로 네트워크 처리를 CPU와 GPU에서 오프로드하는 DPU, 즉 Data Processing Unit 기술을 보유하고 있습니다.

AMD는 이 기술을 바탕으로 Pollara 400 AI NIC를 출시했습니다. 이 제품은 400기가비트 속도를 지원하며, Pensando의 3세대 하드웨어 프로그래머블 P4 엔진을 기반으로 구축되었습니다. P4 프로그래머빌리티의 유연성은 고객들이 미래의 기술 요구 사항에 맞춰 NIC 기능을 업그레이드하고, 네트워크 모니터링 및 성능 튜닝에 지능을 부여할 수 있게 하여 인프라 투자의 장기적인 효율성을 극대화합니다.

가장 주목할 점은 Pollara 400 AI NIC가 업계 최초로 Ultra Ethernet Consortium, 즉 UEC의 기능을 지원할 수 있도록 설계된 AI NIC라는 점입니다. 이는 AMD가 Pensando DPU를 통해 UEC 표준을 선도하고, NVIDIA의 InfiniBand 독점 체제에 대항하는 실질적인 개방형 인프라 기술을 확보했음을 의미합니다.

AMD의 전략은 명확합니다. Instinct GPU, EPYC CPU, Pensando DPU를 통합하여 NVIDIA의 수직 통합 스택, 즉 GPU, NVLink, InfiniBand에 대항하는 개방형 대안 스택을 제공하는 것입니다.


6. 소프트웨어: CUDA 생태계의 18년

하지만 하드웨어가 아무리 좋아도 프로그래밍할 수 없으면 쓸모가 없습니다.

NVIDIA의 진짜 해자, 즉 Moat는 하드웨어가 아니라 소프트웨어 생태계입니다.


Layer 1: CUDA - 기반 플랫폼

2007년 NVIDIA가 발표한 CUDA, 즉 Compute Unified Device Architecture는 C나 C++ 기반 GPU 프로그래밍 언어입니다. CUDA Toolkit은 컴파일러, 디버거, 프로파일러를 포함하며, 18년간 지속적으로 개선되어 왔습니다.

CUDA의 장점은 명확합니다. C나 C++를 알면 접근 가능하여 배우기 비교적 쉽고, 방대한 문서와 튜토리얼이 있으며, 활성화된 개발자 커뮤니티가 있습니다.


Layer 2: 가속 라이브러리 - 최적화된 빌딩 블록

cuBLAS, 즉 Basic Linear Algebra Subprograms는 행렬 곱셈 등 기본 선형대수 연산을 제공하며, 손으로 작성한 코드보다 10배에서 100배 빠릅니다.

cuDNN, 즉 Deep Neural Network library는 딥러닝 핵심 연산인 Convolution, Pooling, Activation 등을 제공합니다. TensorFlow와 PyTorch가 내부적으로 사용하며, AI 프레임워크의 성능을 결정하는 핵심입니다.

cuFFT, cuSPARSE, cuRAND 등은 푸리에 변환, 희소 행렬, 난수 생성 등 전문 연산을 제공합니다.

중요한 점은 이 라이브러리들이 NVIDIA 엔지니어들이 수년간 최적화한 결과물이라는 것입니다. 개발자가 직접 짜면 절대 이 성능을 낼 수 없습니다.


Layer 3: AI 프레임워크 통합

주요 AI 프레임워크들이 CUDA에 긴밀히 통합되어 있습니다.

TensorFlow는 GPU를 자동으로 감지하고 사용하며, 내부적으로 cuDNN과 cuBLAS를 호출합니다. 그냥 코드를 작성하면 GPU에서 알아서 돌아갑니다. PyTorch도 모델을 GPU로 이동시키면 내부적으로 CUDA 커널을 실행합니다. JAX, MXNet 등도 모두 CUDA 기반입니다.

개발자들은 CUDA를 직접 쓸 필요가 없습니다. 익숙한 Python 코드만 쓰면 됩니다. 하지만 밑바닥은 모두 CUDA입니다.


Layer 4: 추론 최적화 - TensorRT

학습이 끝나고 실제 서비스, 즉 추론할 때는 속도와 효율이 중요합니다.

TensorRT는 학습된 모델을 추론에 최적화하고, 불필요한 연산을 제거하며, 정밀도를 낮춥니다. FP32에서 FP16으로, 또는 INT8로 변환하여 추론 속도를 2배에서 10배 가속합니다.

실제 사례를 보면, ChatGPT 같은 서비스는 학습에 H100 GPU 수천 개로 몇 주가 걸리지만, 추론은 최적화된 모델로 밀리초 단위 응답을 제공합니다. TensorRT가 없으면 응답 시간이 10배 느려져서 서비스가 불가능합니다.


Layer 5: 개발자 에코시스템

NVIDIA가 20년간 투자한 것들이 있습니다.

교육 측면에서 전 세계 대학에 GPU를 기증하고, CUDA 교육 과정을 무료로 제공하며, DLI, 즉 Deep Learning Institute를 운영합니다. 연구 지원 측면에서 논문에 NVIDIA GPU 사용을 명시하도록 하고, 연구실에 최신 하드웨어를 지원하며, 학회를 스폰서합니다.

개발자 커뮤니티 측면에서 NVIDIA Developer Forums를 운영하고, GitHub에 수만 개의 CUDA 프로젝트가 있으며, Stack Overflow에 방대한 Q&A가 축적되어 있습니다.

기업 지원 측면에서 엔터프라이즈 고객에게 맞춤 지원을 제공하고, 최적화 컨설팅을 하며, 버그를 우선 처리합니다.

결과는 놀랍습니다. 전 세계 400만 명 이상의 CUDA 개발자가 있고, HuggingFace의 거의 모든 모델이 CUDA에 최적화되어 있으며, AI 스타트업들이 NVIDIA GPU를 기본값으로 가정합니다.


경쟁사의 딜레마

AMD ROCm, Intel oneAPI 등이 있지만 격차가 큽니다.

개발 기간은 NVIDIA CUDA가 18년, AMD ROCm이 8년, Intel oneAPI가 5년입니다. 지원 모델 수는 CUDA가 수만 개, ROCm이 수백 개, oneAPI가 수십 개입니다. 커뮤니티는 CUDA가 매우 활성화되어 있고, ROCm은 성장 중이며, oneAPI는 초기 단계입니다. 문서와 자료는 CUDA가 방대하고, ROCm은 보통이며, oneAPI는 제한적입니다. 안정성은 CUDA가 매우 높고, ROCm은 개선 중이며, oneAPI는 초기 단계입니다.

개발자 입장에서 CUDA는 검색하면 답이 나오고 모든 모델이 바로 돌아갑니다. ROCm이나 oneAPI는 직접 디버깅해야 하고 일부 모델은 안 돌아갑니다. 기업 입장에서 CUDA는 검증되었고 안전하며 시간을 절약할 수 있습니다. 대안 솔루션들은 리스크가 있고 엔지니어링 비용이 증가합니다.

이것이 NVIDIA의 진짜 해자입니다.


Part 2 마무리: 생태계가 전부다

지금까지 우리는 GPU 하나를 작동시키기 위해 필요한 거대한 생태계에 대해 알아보았습니다.

SK하이닉스, 삼성전자, 마이크론이 HBM을 공급하고, TSMC가 칩을 만들고 CoWoS로 패키징하며, NVIDIA가 NVLink로 GPU들을 연결하고, Mellanox InfiniBand나 Arista, Broadcom의 Ethernet이 서버들을 묶고, 마지막으로 CUDA가 개발자들이 이 모든 것을 쉽게 사용할 수 있게 합니다.

NVIDIA의 진짜 경쟁력은 GPU 칩 하나가 아닙니다. 이 전체 생태계를 수직 통합했다는 것입니다.

H100 칩부터 HBM, NVLink, InfiniBand, CUDA까지, 모든 레이어에서 NVIDIA는 직접 또는 긴밀한 파트너를 통해 장악하고 있습니다.

하지만 균열이 생기기 시작했습니다. HBM 시장에서 삼성과 마이크론이 추격하고 있고, 네트워킹에서는 UEC가 InfiniBand에 도전하며, AMD는 Pensando를 통해 개방형 대안을 제시하고 있습니다.

가장 중요한 것은 거대 클라우드 기업들이 자체 칩을 만들기 시작했다는 것입니다.


Part 3에서는 이 도전자들을 자세히 살펴보겠습니다.

Google TPU는 왜 강력하지만 제한적인가? AWS와 Microsoft는 왜 수십억 달러를 들여 자체 칩을 만드는가? AMD의 전방위 전략은 성공할 수 있을까?


� 다음 편 예고
Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁


NVIDIA 독점에 도전하는 세력들을 살펴봅니다. Google TPU의 강점과 한계, TensorFlow 종속과 GCP 전용의 딜레마, AMD의 3중 전략인 ROCm, UALink, Pensando를 통한 전방위 대응, AWS Trainium과 Inferentia로 추론 비용을 70% 절감하는 방법, Microsoft Maia와 OpenAI 협력, 그리고 Cerebras, Groq, SambaNova 같은 AI 칩 스타트업들의 틈새 공략을 다룹니다.


참고 자료

메모리 기술로는 HBM 아키텍처와 3D 적층 구조, SK하이닉스 HBM3E 양산 시작과 시장 점유율, 삼성전자 HBM 전략과 AMD 공급, 마이크론의 HBM 시장 진입과 미국 CHIPS Act 자료를 참고했습니다.

GPU 제품으로는 NVIDIA H100, H200, Blackwell 아키텍처, AMD Instinct MI300 시리즈와 가격 전략, OpenAI와 AMD의 파트너십 자료를 참고했습니다.

반도체 제조로는 TSMC CoWoS 패키징 기술과 생산 능력 확대 계획, 2023-2024년 CoWoS 병목 현상, 삼성 I-Cube와 Intel Foveros 기술 자료를 참고했습니다.

GPU 간 연결로는 NVLink 세대별 발전과 대역폭, NVSwitch Full Mesh 토폴로지, PCIe 대비 성능 비교 자료를 참고했습니다.

네트워킹으로는 InfiniBand 아키텍처와 RDMA, SHARP 기술, NVIDIA Mellanox 인수 배경과 의의, Ultra Ethernet Consortium 설립과 목표, Arista Networks AI Ethernet 제품과 성장, Broadcom Tomahawk 칩과 시장 지위, Cisco AI 네트워킹 전략, AMD Pensando 인수와 Pollara 400 AI NIC, P4 프로그래머빌리티와 UEC 표준 지원 자료를 참고했습니다.

CUDA 생태계로는 CUDA Toolkit과 개발 환경, cuDNN, cuBLAS 등 가속 라이브러리, TensorFlow, PyTorch의 CUDA 통합, TensorRT 추론 최적화, NVIDIA의 개발자 교육 프로그램, AMD ROCm과 Intel oneAPI 비교 자료를 참고했습니다.

시장 데이터로는 2025년 AI GPU 시장 점유율, HBM 시장 점유율 분포, AI 네트워킹 시장 규모와 성장률 자료를 참고했습니다.

토요일 연재
이전 04화GPU 전쟁: AI를 지배하는 자들