GPU는 왜 왕좌에 앉았나

보이지 않는 전쟁 제2회

Apr 1. 2026

2012년 가을, 캐나다 토론토 대학의 대학원생 알렉스 크리제프스키(Alex Krizhevsky)가 ImageNet이라는 이미지 인식 대회에 출전했습니다. 120만 장의 사진을 1,000개 범주로 분류하는 과제였습니다. 당시 최고 수준의 오류율은 약 26%였습니다. 크리제프스키의 모델 AlexNet은 15.3%를 기록하며 2위와 10%포인트 이상의 격차로 우승했습니다.[2-1]

주목할 것은 이 모델이 사용한 하드웨어였습니다. 일반적인 CPU 서버가 아니라, NVIDIA의 GPU 두 장이었습니다. 게임용으로 설계된 그래픽카드가 학술 대회를 뒤집은 순간이었습니다.

이것이 모든 것의 시작이었습니다. 2012년 이후 딥러닝 연구는 거의 예외 없이 GPU 위에서 이루어졌고, 14년이 지난 지금 GPU는 AI의 심장이 되었습니다. 원래 게임을 위해 만들어진 이 칩은 어떻게, 그리고 왜 AI의 왕좌에 앉게 되었을까요.

수천 명의 단순 노동자

CPU와 GPU의 차이를 비유로 설명하겠습니다.

CPU는 한 명의 천재 과학자입니다. 복잡한 판단, 조건 분기, 순차적 논리 — 어려운 문제를 빠르고 정확하게 풀 수 있습니다. 그러나 한 번에 한 가지 일만 합니다. 현대 CPU의 코어 수는 4개에서 많아야 64개 수준입니다.

GPU는 수천 명의 단순 노동자입니다. 개별 노동자의 능력은 CPU 코어에 비해 단순하지만, 수천 개의 코어가 동시에 같은 종류의 작업을 수행합니다. NVIDIA의 H100 GPU에는 16,896개의 CUDA 코어와 528개의 텐서 코어가 들어 있습니다.[2-2]

[이미지: CPU vs GPU — 구조적 차이]

정리하면, CPU는 코어 4~64개로 복잡한 작업을 빠르게 처리하는 데 적합하고, GPU는 수천~수만 개 코어로 단순한 작업을 동시에 대량으로 처리하는 데 적합합니다. AI에서 CPU는 데이터 전처리와 시스템 관리를, GPU는 신경망 훈련과 추론을 담당합니다.

AI의 핵심 연산은 행렬 곱셈입니다. 신경망의 각 층에서 수백만 개의 가중치와 입력값을 곱하고 더하는 작업이 반복됩니다. 이 연산들은 서로 독립적이어서, 동시에 병렬로 처리할 수 있습니다. 한 명의 천재가 순서대로 풀 일이 아니라, 수천 명이 동시에 나눠서 풀어야 할 일입니다.

바로 이 구조적 적합성이 GPU를 AI의 심장으로 만들었습니다. AlexNet의 성공 이후, 연구자들은 더 깊은 신경망을 더 빠르게 훈련하기 위해 GPU를 사용하기 시작했고, 이 흐름은 14년이 지난 지금까지 변하지 않았습니다.

CUDA라는 보이지 않는 성벽

GPU가 왕좌에 오른 이유가 하드웨어의 성능만은 아닙니다. 더 결정적인 요인은 소프트웨어입니다.

2006년, NVIDIA는 CUDA(Compute Unified Device Architecture)라는 프로그래밍 플랫폼을 발표했습니다.[2-3] 이전까지 GPU 프로그래밍은 그래픽 전용 언어를 써야 했기 때문에 일반 개발자에게는 접근이 어려웠습니다. CUDA는 C 언어와 유사한 방식으로 GPU를 프로그래밍할 수 있게 해주었고, 이것이 생태계의 출발점이 되었습니다.

20년이 지난 지금, CUDA 위에 쌓인 생태계의 규모는 거대합니다. NVIDIA에 따르면, 400만 명 이상의 개발자가 CUDA를 사용하며, 3,000개 이상의 GPU 가속 애플리케이션이 존재하고, 4만 개 이상의 기업이 CUDA 기반 솔루션을 활용하고 있습니다.[2-4]

이 생태계가 만드는 효과를 비유하면 이렇습니다. CUDA는 NVIDIA만의 언어입니다. 연구자들은 이 언어로 논문을 쓰고, 대학은 이 언어로 수업을 하며, 기업은 이 언어로 제품을 만듭니다. 다른 언어(AMD의 ROCm, 인텔의 oneAPI)도 존재하지만, 20년간 축적된 라이브러리, 최적화 도구, 교육 자료, 커뮤니티를 한순간에 대체할 수는 없습니다. NVIDIA의 생태계를 떠나려면 새 언어를 처음부터 배워야 합니다. 전환 비용이 너무 큽니다.

구체적으로, CUDA 위에는 딥러닝의 핵심 연산을 가속하는 cuDNN, 추론을 최적화하는 TensorRT, 다중 GPU 통신을 관리하는 NCCL 같은 전문 라이브러리가 있습니다.[2-5] 각각은 수천 시간의 엔지니어링이 투입된 결과물입니다. AMD가 ROCm 7.0으로 상당한 개선을 이루었지만, 실제 벤치마크에서 NVIDIA는 여전히 훈련 워크로드에서 2~3배의 성능 우위를 보이고 있으며, 이 격차의 상당 부분은 하드웨어가 아니라 소프트웨어 성숙도에서 비롯됩니다.[2-6]

V100에서 Vera Rubin까지

CUDA가 문을 열었다면, 하드웨어의 세대 교체가 왕좌를 굳혔습니다. NVIDIA의 데이터센터 GPU는 매 세대마다 성능이 2~3배씩 뛰었고, 각 세대는 AI 역사의 이정표와 겹칩니다.

[이미지: NVIDIA 데이터센터 GPU 세대별 진화]

2017년 V100은 HBM2 16GB를 탑재해 FP16 기준 125 TFLOPS를 달성했습니다. 2020년 A100은 HBM2E 80GB로 312 TFLOPS, 2022년 H100은 HBM3 80GB로 FP8 기준 1,979 TFLOPS까지 올랐습니다. 2024년 Blackwell B200은 HBM3E 192GB로 FP4 기준 9,000 TFLOPS를, 2026년 Vera Rubin R100은 HBM4 576GB를 탑재하여 시스템 수준에서 50 PFLOPS의 추론 성능을 실현합니다. (각 세대의 성능 수치는 대표적 지표이며, 측정 조건에 따라 다를 수 있습니다)

2017년 V100이 AI 훈련을 실용적 수준으로 끌어올렸고, 2020년 A100은 코로나 시기에 원격 환경에서의 AI 연구 폭발을 지탱했습니다. 2022년 H100은 ChatGPT의 등장과 함께 생성형 AI 시대의 물리적 기반이 되었습니다. 2024년 Blackwell B200은 멀티모달 AI 시대에 대응하며 메모리를 192GB로 확장했고, 2026년 Vera Rubin R100은 HBM4를 탑재하여 에이전틱 AI 시대를 열고 있습니다.

이 진화에서 주목할 것은 성능의 증가 속도입니다. V100의 FP16 성능 125 TFLOPS에서 H100의 FP8 성능 1,979 TFLOPS까지, 5년 만에 약 16배가 뛰었습니다. 같은 기간 메모리 용량은 16GB에서 80GB로 5배 늘었습니다. AI 모델의 크기가 기하급수적으로 커지는 속도에 맞춰 GPU도 기하급수적으로 진화한 것입니다.

80%라는 숫자

이 모든 요소의 결과가 시장 지배력에 드러납니다.

NVIDIA는 AI 가속기 시장에서 매출 기준 약 80~90%의 점유율을 차지하고 있습니다. 특히 AI 훈련 분야에서는 90%를 넘으며, 추론 분야에서도 60~75% 수준을 유지합니다.[2-7] 이산형 GPU(discrete GPU) 시장 전체로 보면, NVIDIA의 점유율은 2025년 상반기 기준 약 92%에 달합니다.[2-8]

이 독점의 원인을 정리하면 세 가지입니다.

첫째, 선점 효과입니다. 2006년 CUDA를 선보인 이후 20년간 생태계를 구축했습니다. 뒤늦게 뛰어든 경쟁자가 따라잡기에는 격차가 너무 큽니다.

둘째, 풀스택 전략입니다. NVIDIA는 GPU만 파는 것이 아닙니다. CPU(Vera, Rosa), GPU, LPU(Groq), DPU(BlueField), NIC(ConnectX), 네트워킹(NVLink, Spectrum-X), 소프트웨어(CUDA, TensorRT, NemoClaw)까지 AI 인프라 전체를 하나의 시스템으로 제공합니다. 부품이 아니라 플랫폼을 팝니다.

셋째, 제조 역량의 선점입니다. NVIDIA는 TSMC의 최신 공정과 CoWoS 패키징 캐파의 최우선 고객입니다. 경쟁사가 같은 성능의 칩을 설계하더라도, 그것을 만들어줄 공장의 물량을 확보하는 것이 또 다른 벽입니다.

이 독점이 가져오는 결과는 명확합니다. NVIDIA의 데이터센터 매출은 2022년 약 150억 달러에서 2025년 1,300억 달러 이상으로 추정되며, 3년 만에 약 9배 성장했습니다.[2-9] H100 SXM의 제조 원가는 약 3,320달러이지만 판매 가격은 약 28,000달러로, 총이익률은 약 88%에 달합니다.[2-10] 이런 수익률은 반도체 산업에서도 유례를 찾기 어렵습니다.

그러나 NVIDIA의 점유율이 영원히 유지될 것이라는 뜻은 아닙니다. Silicon Analysts에 따르면, 매출 기준 점유율은 2024년 약 87%에서 정점을 찍은 후 2026년에는 약 75%로 하락할 전망입니다.[2-11] 이는 NVIDIA가 약해져서가 아니라, 시장 자체가 너무 빠르게 커지면서 AMD와 커스텀 ASIC이 그 확장분을 가져가기 때문입니다. NVIDIA의 절대 매출은 계속 늘어나지만, 상대적 비중은 줄어드는 구조입니다.

왕좌의 약점

GPU가 AI의 왕좌에 오른 것은 병렬 연산이라는 구조적 적합성과, CUDA라는 20년간의 생태계 축적, 그리고 세대마다 기하급수적으로 진화하는 하드웨어의 삼중 해자 덕분입니다.

그러나 이 왕좌에는 치명적 약점이 하나 있습니다.

GPU가 아무리 빨라도, 연산할 데이터를 제때 먹여주지 못하면 코어들은 놀고 있을 수밖에 없습니다. AI 시대의 진짜 병목은 연산 속도가 아니라 메모리 대역폭입니다. 프로세서는 기하급수적으로 빨라졌지만, 메모리가 데이터를 전달하는 속도는 그만큼 빠르게 올라가지 못했습니다.

이 격차를 "메모리 월(Memory Wall)"이라 부릅니다. 그리고 이 벽을 돌파하기 위해 등장한 기술이 있습니다.

1. 이 글은 『보이지 않는 전쟁 — AI 반도체, 누가 미래를 지배하는가』 연재의 2회입니다. 매주 화·수·금 발행됩니다.

2. 이 글은 필자가 주 2회 발행하는 브런치 매거진 'AI 트렌드 리포트'의 기획기사로 12회에 걸쳐 연재할 예정입니다.

각주

[2-1] Krizhevsky, Sutskever, Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", NeurIPS 2012. AlexNet은 ILSVRC-2012에서 top-5 오류율 15.3%를 기록하며, 2위(26.2%)와 큰 격차로 우승했다. [2-2] NVIDIA H100 공식 스펙. SXM5 버전 기준 16,896 CUDA 코어, 528 Tensor 코어. [2-3] NVIDIA, "CUDA Zone". CUDA는 2006년 11월 NVIDIA가 발표한 병렬 컴퓨팅 플랫폼이자 API. [2-4] MLQ.ai, "AI Chips Research", 2026년. NVIDIA 공식 발표 인용: 400만+ 개발자, 3,000+ GPU 가속 앱, 40,000+ 기업. [2-5] MLQ.ai, 위 기사. cuDNN(딥러닝 기본 연산), TensorRT(추론 최적화), NCCL(다중 GPU 통신) 등 전문 라이브러리 설명. [2-6] MLQ.ai, 위 기사. "AMD has approximately 32% hardware advantage in some metrics, CUDA still delivers 10-30% better real-world performance on many workloads due to software maturity." ROCm 7.0 기준. [2-7] Silicon Analysts, "NVIDIA GPU Market Share 2024–2026", 2026년 2월. AI 가속기 매출 기준 80~90%, 훈련 90%+, 추론 60~75%. [2-8] CarbonCredits, "NVIDIA Controls 92% of the GPU Market in 2025", 2026년 1월 6일. 이산형 GPU 시장 기준 2025년 상반기 약 92%. [2-9] Silicon Analysts, 위 기사. "NVIDIA data center revenue grew from $15B (2022) to $100B+ (2024), with $130B+ projected for 2025." [2-10] Silicon Analysts, 위 기사. "H100 SXM costs $3,320 to manufacture and sells for $28,000 — an 88% gross margin." [2-11] Silicon Analysts, 위 기사. "Revenue share peaked near 87% in 2024 and is projected to decline to 75% by 2026 as competitors scale."

keyword

과학기술

Brunch Book

HBM 혁명

HBM 혁명

brunch book

전체 목차 보기 (총 12화)

이전 01화GTC 2026의 밤 — 1조 달러의 의미왕좌의 약점 — 메모리가 병목이다다음 03화