Part 1: GPU의 탄생 -3D 그래픽 전쟁에서 AI 혁명까지
안녕하세요.
지난 APEC에서 우리나라가 26만장의 NVIDIA GPU를 확보하고 이를 통해 AI 3대 강국을 도약하는 기반을 마련했다는 뉴스를 많은 분들이 보셨을 거라 생각합니다. 많은 분들이 GPU가 무엇이길래 GPU 확보에 목을 메는지에 대해 궁금하실 거라 생각하여 이번 주는 GPU가 무엇이고 왜 중요한지, GPU와 연계된 생태계가 어떻게 구성이 돼 있는지 그리고 NVIDIA의 경쟁을 준비하고 있는 지에 대해 알아보겠습니다.
� 시리즈 안내
이 글은 AI 가속기 시장의 과거, 현재, 미래를 다루는 4부작 시리즈입니다.
Part 1: GPU의 탄생 - 3D 그래픽 전쟁에서 AI 혁명까지 (현재 글)
Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들
Part 3: 도전자들의 반격 - 성능이 아닌 생태계 전쟁
Part 4: 미래 인프라 표준 전쟁 - 누가 AI의 언어를 지배할 것인가
2024년, ChatGPT가 촉발한 생성형 AI 혁명의 이면에는 치열한 '보이지 않는 전쟁'이 펼쳐지고 있습니다. 바로 AI 가속기 시장을 둘러싼 인프라 표준 전쟁입니다. NVIDIA의 압도적 지배력, AMD의 전방위적 대응, Google의 자체 칩 개발, 그리고 Amazon과 Microsoft의 맞춤형 ASIC 개발까지, 이 경쟁은 단순히 칩 성능을 넘어 AI의 미래 인프라 표준과 경제 구조 자체를 재편하고 있습니다.
흥미로운 점은 이 전쟁의 뿌리가 30년 전 3D 그래픽 카드 시장으로 거슬러 올라간다는 것입니다.
1990년대 중반, Voodoo 그래픽 카드로 게이머들을 열광시켰던 3dfx는 어떻게 몰락했고, NVIDIA는 어떻게 지금의 독점적 지위를 구축했을까요?
Part 1에서는 GPU의 탄생부터 NVIDIA가 AI 시대의 절대 강자가 된 역사적 과정을 추적하며, 왜 '하드웨어 성능'만으로는 시장을 지배할 수 없는지 살펴보겠습니다.
본격적인 역사 이야기에 앞서, 많은 사람들이 궁금해하는 근본적인 질문에 답해야 합니다.
컴퓨터에 이미 CPU가 있는데, 왜 굳이 GPU가 필요한가요?
CPU와 GPU의 차이를 가장 쉽게 설명하는 방법은 비유를 사용하는 것입니다.
CPU는 천재 과학자 4-8명과 같습니다. 매우 복잡한 문제를 빠르게 해결하고, 순차적으로 일을 처리하며, 다양한 종류의 작업에 유연하게 대응할 수 있습니다. 판단과 의사결정이 필요한 작업에 강합니다.
반면 GPU는 초등학생 1만 명과 같습니다. 각자는 단순한 덧셈이나 곱셈 같은 계산만 할 수 있지만, 모두가 동시에 작업할 수 있습니다. 같은 종류의 작업을 대규모로 반복하는 데 특화되어 있으며, 복잡한 판단은 못하지만 단순 계산에서는 압도적입니다.
실제 예시로 살펴보겠습니다. 1,000만 개의 숫자를 모두 2배로 만드는 작업이 있다고 가정해봅시다.
CPU 방식은 각 숫자를 순차적으로 처리합니다. 8코어 CPU라면 각 코어가 125만 개씩 나눠서 처리하며 약 1초가 걸립니다. 반면 GPU 방식은 1만 개의 코어가 각자 1,000개씩 동시에 계산하므로 약 0.01초면 끝납니다. 결과적으로 100배 빠른 것입니다.
왜 AI에서는 이것이 결정적일까요? 딥러닝 학습의 핵심은 행렬 곱셈입니다.
예를 들어 10억 개의 가중치와 100만 개의 입력 데이터를 곱하면 1,000조 번의 곱셈이 필요하며, 이를 수천 번 반복해야 모델이 학습됩니다. CPU로 GPT-3 규모의 모델을 학습하려면 수년에서 수십 년이 걸리며 사실상 불가능합니다. 하지만 GPU로는 1만 개를 동원해 약 1개월이면 가능합니다. 이것이 GPU 없이는 현대 AI가 존재할 수 없는 이유입니다.
물론 CPU가 GPU보다 나은 경우도 있습니다.
복잡한 로직이나 조건 분기가 많은 작업, 이전 결과가 다음 단계에 영향을 주는 순차적 작업, 웹 브라우징이나 문서 작업처럼 다양한 작업을 유연하게 처리해야 하는 경우에는 CPU가 적합합니다. 반면 대규모 단순 반복 계산, 행렬 연산, 게임 그래픽 렌더링처럼 수백만 번의 계산을 동시에 해야 하는 작업에는 GPU가 압도적입니다.
결론적으로 CPU와 GPU는 경쟁자가 아니라 협력자입니다. CPU는 지휘관으로서 복잡한 결정과 작업 분배, 전체 조율을 담당하고, GPU는 병력으로서 실제 대규모 계산을 수행합니다.
GPU, 즉 Graphics Processing Unit(그래픽 처리 장치)를 한 문장으로 정의하면 '수많은 단순한 계산을 동시에 처리하는 병렬 기계'입니다. 비유적으로 표현하면 '적분(덧셈)을 수행하는 기계'라고도 할 수 있습니다.
이 비유가 GPU의 본질을 정확히 포착합니다.
3D 그래픽 환경에서 현실의 곡선이나 매끄러운 표면, 즉 메쉬를 컴퓨터가 표현하기 위해서는 어떻게 해야 할까요? 컴퓨터는 곡선을 직접 그릴 수 없습니다. 대신 무수히 많은 작은 직선과 삼각형, 즉 폴리곤들의 위치, 색상, 광원 효과 등을 병렬적으로 덧셈(적분)하고 행렬 연산을 통해 근사해야 합니다.
GPU는 이러한 대규모 병렬 연산에 최적화되어 있으며, 방대한 계산을 동시에 처리함으로써 3D 모델의 곡선이나 복잡한 표면을 더 빠르고 현실에 가깝게 부드럽게, 즉 스무딩(smoothing)하여 표현할 수 있게 합니다.
이러한 대규모 병렬 행렬 연산 능력이 GPU가 AI 시대의 핵심이 된 근본적인 이유입니다.
딥러닝은 본질적으로 대규모 행렬 곱셈과 덧셈으로 구성된 신경망 연산입니다. 수천 개의 코어가 동시에 수많은 행렬 연산을 수행하는 GPU 아키텍처는 방대한 데이터셋을 사용하여 신경망의 수많은 가중치를 동시에 업데이트하고 훈련시키는 작업에 완벽하게 일치합니다.
3D 게임에서 매끄러운 곡선이나 현실적인 표면을 화면에 그리려면 엄청난 양의 계산이 필요합니다.
앞서 말했듯 컴퓨터는 곡선을 그릴 수 없기 때문에 수없이 많은 작은 삼각형, 즉 폴리곤을 조합해서 곡선처럼 보이게 만들어야 합니다.
예를 들어 캐릭터의 둥근 얼굴 하나를 표현하려면 수백 개의 작은 삼각형이 필요하고, 각 삼각형마다 3D 공간에서의 위치와 방향, 빛이 닿는 방식과 그림자, 텍스처를 입히는 방법, 최종적으로 화면에 표시될 색상을 모두 계산해야 합니다.
여기서 핵심은 이 모든 계산이 본질적으로 덧셈과 곱셈의 반복이라는 것입니다.
수백만 개의 폴리곤에 대해 각각의 좌표를 더하고, 빛의 강도를 곱하고, 색상 값을 합산하는 작업입니다.
초당 60프레임을 구현하려면 1초에 수억 번의 이런 덧셈과 곱셈을 해야 합니다. CPU만으로는 불가능한 작업이었고, 이것이 '덧셈 전문가'인 GPU가 탄생한 이유입니다.
흥미롭게도 GPU가 AI에도 완벽한 이유는 같은 맥락입니다. 핵심은 '행렬 연산', 즉 대규모 덧셈과 곱셈입니다.
3D 그래픽에서는 수백만 개의 삼각형 위치를 계산하기 위해 행렬을 곱하고 더합니다. AI 딥러닝에서는 수억 개의 신경망 가중치를 계산하기 위해 행렬을 곱하고 더합니다. 수식은 다르지만 본질은 같습니다. 엄청난 양의 덧셈과 곱셈을 동시에, 병렬로 수행하는 것입니다.
GPU는 원래 그래픽을 위해, 즉 곡선을 부드럽게 표현하기 위한 '적분 기계'로 설계되었지만, 그 구조가 AI의 신경망 계산에도 완벽하게 들어맞았던 것입니다. 이것이 우연이었지만 필연이 된 순간입니다.
이제 이 '적분 기계' GPU가 어떻게 탄생했는지, 1990년대로 돌아가 보겠습니다.
1996년, 3dfx Interactive가 출시한 Voodoo Graphics는 PC 게이머들에게 충격 그 자체였습니다.
저 역시 그 충격을 직접 경험한 세대입니다. 당시 대부분의 PC 게임은 2D나 매우 단순한 3D 그래픽이었습니다. Doom이나 Duke Nukem 3D 같은 게임들도 사실은 2.5D에 가까웠습니다.
그런데 Voodoo 3D 애드온 카드를 장착하고 Quake를 실행했을 때의 그 경험은 지금도 생생합니다. 갑자기 화면이 선명해지고, 텍스처가 살아 움직이는 것처럼 느껴졌습니다. 조명 효과는 현실적이었고, 움직임은 부드러웠습니다. 같은 게임이 완전히 다른 게임처럼 느껴졌습니다.
친구들이 집에 와서 Tomb Raider나 Quake 2를 보면 모두가 "이게 PC에서 가능한 거야?"라고 경탄했습니다.
3dfx는 단순히 하드웨어만 판 것이 아니었습니다. Glide라는 독자적인 소프트웨어 인터페이스, 즉 API를 제공했고 게임 개발자들이 이를 사용하도록 적극 지원했습니다. Glide를 지원하는 게임들은 당시 최고의 그래픽 품질을 자랑했고, 이는 선순환을 만들어냈습니다. 개발자들이 Glide를 사용하면 3dfx 카드에서 게임이 가장 잘 돌아갔고, 그러면 게이머들이 3dfx 카드를 구매했으며, 이는 다시 더 많은 개발자들이 Glide를 사용하도록 만들었습니다. 1990년대 후반, 3dfx는 3D 가속기 시장의 절대 강자였습니다. 게이머라면 누구나 갖고 싶어하는 카드였죠.
그러나 치명적인 한계가 있었습니다. Voodoo 카드는 3D 렌더링만 처리했습니다. 일반적인 2D 화면 출력, 즉 윈도우 바탕화면이나 문서 작업 등은 기존 비디오 카드가 따로 필요했습니다. PC에 두 개의 그래픽 카드를 꽂아야 했던 것입니다.
예를 들어 매트록스 밀레니엄 2D 그래픽 카드, 하나는 3D 게임용 voodoo 3dfx를 같이 껴서 연결하는 것이죠. 불편했지만 3D의 경험이 너무 압도적이었기에 게이머들은 기꺼이 감수했습니다. 아마 그 시절은 경험해보신 분들은 다들 기억하실 겁니다. 그런데 더 큰 문제는 Microsoft가 Direct3D라는 표준 API를 만들면서 시작되었습니다.
3dfx의 독주가 계속되던 1998년, 저는 선택의 기로에 섰습니다.
Voodoo 2로 업그레이드할 것인가, 아니면 새로 나온 NVIDIA RIVA TNT를 시도해볼 것인가.
RIVA TNT는 흥미로운 제품이었습니다. 3dfx와 달리 2D와 3D를 통합한 카드였고, 더 높은 해상도를 지원했습니다. 하지만 솔직히 말하면 당시만 해도 NVIDIA가 3dfx를 압도한다는 느낌은 없었습니다.
저는 결국 RIVA TNT를 선택했습니다. 두 개의 카드를 꽂는 불편함에서 벗어나고 싶었고, 무엇보다 32비트 컬러를 제대로 지원한다는 점이 매력적이었습니다.
당시 그래픽 카드 시장은 춘추전국시대였습니다. 3dfx, NVIDIA, ATI, Matrox, S3 등 수많은 회사들이 경쟁했습니다. 특히 ATI의 RAGE 시리즈, 나중에 MACH 계열도 강력한 경쟁자였고, Matrox는 2D 품질로 유명했습니다. 솔직히 그때만 해도 NVIDIA가 이 경쟁에서 궁극적인 승자가 될 거라고는 생각하지 못했습니다.
그런데 1999년, 모든 것이 바뀌었습니다. NVIDIA가 GeForce 256을 출시했을 때 업계 전체가 놀랐습니다.
이 제품은 세 가지 면에서 혁명적이었습니다.
첫째, 완벽한 2D와 3D 통합이었습니다. 더 이상 두 개의 그래픽 카드가 필요 없었습니다. GeForce 256 하나로 모든 것이 해결되었습니다.
둘째, 하드웨어 T&L, 즉 Transform & Lighting 기능이었습니다. 이것이 진짜 게임 체인저였습니다. Transform & Lighting은 3D 그래픽 파이프라인에서 가장 계산이 많이 필요한 두 단계입니다. Transform은 3D 모델의 모든 점들을 카메라 시점에 맞춰 재계산하는 것이고, Lighting은 각 점에 빛이 어떻게 닿는지 계산하는 것입니다. 이전에는 CPU가 이 작업을 했는데, CPU가 이것만 하느라 다른 일, 즉 물리 엔진이나 게임 AI 같은 작업을 제대로 못했습니다. GeForce 256은 T&L을 그래픽 카드에서 처리하도록 만들었습니다.
결과는 놀라웠습니다. CPU는 다른 작업에 집중할 수 있게 되었고, 화면에 나오는 캐릭터 수가 배로 늘어났으며, 물리 효과가 더해졌고, 게임 AI가 더 똑똑해졌습니다.
셋째, 표준 API 지원이었습니다. NVIDIA는 3dfx와 달리 독자 API를 강요하지 않았습니다. Microsoft의 Direct3D와 업계 표준인 OpenGL을 완벽히 지원했습니다.
NVIDIA는 GeForce 256을 마케팅하며 'GPU', 즉 Graphics Processing Unit이라는 용어를 만들었습니다. 단순한 '가속기'가 아닌 CPU에 준하는 독립적인 프로세서라는 의미를 담았습니다.
저는 GeForce 256을 사지 않았습니다. 하지만 GeForce 2가 나왔을 때 바로 업그레이드했고, 그때 확실히 느꼈습니다. "이제 판이 바뀌었구나."
3dfx의 기술이 나빴던 것은 아닙니다. 실제로 Voodoo5는 출시 당시 여전히 강력한 제품이었습니다.
문제는 전략이었습니다.
첫째, 3dfx는 2D와 3D를 통합한 카드인 Voodoo Banshee를 너무 늦게 출시했습니다. 소비자들은 이미 NVIDIA와 ATI의 편리함에 익숙해져 있었습니다.
둘째, GeForce가 하드웨어 T&L로 차세대 게임의 표준을 만들어가는 동안 3dfx는 이를 탑재하지 못했습니다. 차세대 아키텍처인 Rampage 개발이 계속 지연되었습니다.
셋째, Microsoft의 Direct3D가 업계 표준이 되면서 Glide의 가치는 급속히 떨어졌습니다. 3dfx는 자신들의 독점 생태계에 갇혀버렸습니다.
넷째, 3dfx는 반도체 제조사인 STB Systems를 인수하며 제조까지 직접 하려 했습니다. 하지만 이는 재정 부담만 가중시켰고, TSMC나 삼성 같은 전문 파운드리를 활용하는 경쟁사들을 따라갈 수 없었습니다.
결국 3dfx는 2000년 12월 NVIDIA에 자산과 핵심 엔지니어 약 100명을 매각하며 역사에서 사라졌습니다.
제가 처음 3D의 충격을 경험하게 해준 그 회사가 불과 4년 만에 사라진 것입니다. 시장의 변화는 그만큼 빨랐습니다.
교훈은 명확했습니다.
하드웨어 성능만으로는 시장을 지배할 수 없습니다. 생태계, 표준, 그리고 전략적 타이밍이 더 중요합니다.
이 교훈은 20년 후 AI 가속기 시장에서도 그대로 반복됩니다.
GeForce 256 이후, 저를 포함한 많은 사람들에게 NVIDIA는 '그래픽 카드의 표준'이 되어갔습니다.
물론 ATI, 즉 2006년 AMD에 인수된 그 회사도 강력한 경쟁자였습니다. ATI의 Radeon 시리즈는 2000년대 중반까지 NVIDIA와 치열하게 경쟁하며 시장을 양분했습니다. 특히 Radeon 9700 PRO, 즉 R300 아키텍처는 당시 GeForce FX 시리즈를 압도하는 성능을 보여주기도 했습니다.
하지만 NVIDIA는 단순히 그래픽 카드 경쟁에서 이기는 것을 넘어 다음 단계를 준비하고 있었습니다.
2000년대 중반, NVIDIA와 ATI는 치열하게 경쟁하며 게이밍 GPU 시장을 양분하고 있었습니다.
성능 경쟁은 치열했지만 둘 다 여전히 '게임용 그래픽 카드'를 만들고 있었습니다. 그런데 NVIDIA는 다른 것을 보고 있었습니다. GPU의 병렬 연산 능력을 다른 분야에도 사용할 수 있지 않을까?
과학자들과 연구자들은 이미 눈치채고 있었습니다. 기상 시뮬레이션, 단백질 접힘 연구, 암호화폐 채굴 등에서 GPU가 CPU보다 훨씬 빠르다는 것을요. 문제는 이들을 위한 프로그래밍 도구가 없었다는 것입니다.
GPU는 그래픽 API, 즉 Direct3D나 OpenGL로만 제어할 수 있었는데, 이건 게임 개발자용이지 과학자용이 아니었습니다.
2007년, NVIDIA는 CUDA, 즉 Compute Unified Device Architecture를 발표했습니다.
CUDA는 C나 C++ 같은 일반 프로그래밍 언어로 GPU를 제어할 수 있게 해주는 플랫폼이었습니다. 그래픽과 전혀 상관없는 계산, 즉 행렬 곱셈, 데이터 분석, 시뮬레이션 등도 GPU로 돌릴 수 있게 된 것입니다.
CUDA가 성공한 이유는 기술만이 아니었습니다. CUDA는 무료로 배포되었고, NVIDIA는 전 세계 대학에 GPU를 기증하고 CUDA 교육 과정을 지원했습니다. 문서화와 예제 코드, 개발자 포럼을 적극 운영했으며, 과학 계산에 필요한 각종 라이브러리를 미리 만들어 제공했습니다.
결과는 놀라웠습니다. 10년 뒤인 2017년쯤에는 전 세계 과학자와 엔지니어들이 CUDA를 당연하게 사용하고 있었습니다.
CUDA가 나오고 연구자들이 GPU를 과학 계산에 쓰기 시작한 지 5년 후, 조용히 혁명이 시작되었습니다.
AI 역사에서 2012년은 특별한 해입니다. 토론토 대학의 Alex Krizhevsky와 Geoffrey Hinton 교수 팀이 ImageNet 이미지 인식 대회에서 압도적인 성적으로 우승했습니다.
핵심은 그들이 사용한 AlexNet이라는 딥러닝 모델이었습니다. 그리고 이 모델은 NVIDIA GTX 580 게이밍 GPU 2개로 학습되었습니다.
놀라운 점은 CPU로 했다면 몇 주가 걸렸을 작업이 GPU로 며칠 만에 완료되었다는 것, 게이밍용으로 나온 일반 소비자용 GPU로 가능했다는 것, 그리고 CUDA 덕분에 코드 작성이 상대적으로 쉬웠다는 것입니다.
딥러닝의 핵심 연산은 거대한 행렬의 곱셈이며, 수백만에서 수억 번의 반복적인 계산이 필요합니다. 각 계산은 단순하지만 양이 방대합니다. 이건 GPU가 3D 그래픽에서 하던 것과 거의 똑같았습니다. 수많은 삼각형의 위치를 계산하는 것도 행렬 곱셈이고, 초당 60프레임을 렌더링하는 것도 반복적인 대규모 연산이며, 각 픽셀 계산은 단순한 병렬 처리에 최적화되어 있습니다. GPU는 그래픽을 위해 만들어졌지만 우연히도 AI를 위한 완벽한 하드웨어였습니다.
2012년 이후 딥러닝 붐이 일어났을 때 NVIDIA는 빠르게 대응했습니다.
고성능 GPU를 이미 대량 생산하고 있었고, CUDA로 프로그래밍 장벽이 낮았으며, 전 세계 연구자들이 이미 CUDA에 익숙했고, 2014년에는 cuDNN 같은 딥러닝 전용 라이브러리를 신속히 출시했습니다. 경쟁사들은 뒤늦게 쫓아왔지만 NVIDIA는 이미 5년 선행 투자, 즉 2007년의 CUDA 투자의 결과물을 손에 쥐고 있었습니다.
CUDA가 나오고 딥러닝이 학계에서 주목받기 시작했지만 여전히 전문가들의 영역이었습니다. 일반 대중은 GPU를 여전히 '게임용 그래픽 카드'로만 알고 있었죠. 그런데 전혀 예상치 못한 곳에서 GPU가 갑자기 주목받기 시작합니다.
2009년 비트코인이 등장했고, 초기에는 CPU로 채굴이 가능했습니다. 하지만 2010년쯤 누군가 발견했습니다. GPU로 하면 CPU보다 100배 빠르다는 것을요. 비트코인 채굴은 본질적으로 반복적인 해시 계산입니다. 특정 조건을 만족하는 숫자를 찾을 때까지 무작위로 시도하며, 초당 수십억에서 수조 번의 계산이 필요합니다. 각 계산은 단순하지만 양이 방대합니다. 이건 GPU가 가장 잘하는 작업 유형, 즉 대규모 덧셈과 곱셈입니다.
2011년부터 2016년까지는 조용한 시작기였습니다. 초기 암호화폐 채굴자들은 게이밍 GPU, 즉 GeForce나 Radeon을 여러 개 꽂아서 채굴을 시작했습니다. PC방을 빌려서 수십 대 컴퓨터로 채굴하는 사람들도 생겼습니다. 당시에는 비트코인 가격이 낮아서 큰 주목을 받지 못했습니다. 게이머들도 "이상한 사람들이 그래픽 카드로 돈을 번다더라" 정도로만 알고 있었죠.
2017년, 모든 것이 바뀌었습니다. 암호화폐 가격이 폭등했습니다. 비트코인은 1,000달러에서 19,000달러로, 이더리움은 10달러에서 1,400달러로 치솟았고, 수많은 알트코인이 등장했습니다. 갑자기 전 세계에서 GPU를 사재기하기 시작했습니다.
그래픽 카드 매장에서 재고가 순식간에 소진되었고, 온라인 스토어는 주문 즉시 품절되었습니다.
가격이 정가의 2배에서 3배로 폭등했습니다. NVIDIA GeForce GTX 1070과 1080이 특히 인기였고, AMD Radeon RX 580도 채굴 효율이 좋아 품절 대란이 벌어졌습니다. 뉴스는 "그래픽카드 대란, 게이머들 울상", "채굴꾼들 그래픽카드 1만장 사재기", "PC방에서 밤새 채굴, 전기료 폭탄" 같은 헤드라인으로 가득했습니다.
게이머들은 분노했습니다. 게임하려고 그래픽 카드를 사려는데 없었고, 있어도 터무니없이 비쌌습니다. 중고 시장도 광란 상태였습니다. "채굴러들 때문에 우리만 피해본다!"는 불만이 터져나왔습니다.
NVIDIA와 AMD는 처음에는 반가워했습니다. 매출이 폭증했으니까요. 하지만 곧 고민에 빠졌습니다. 채굴 붐은 일시적이고, 버블이 꺼지면 중고 GPU 시장이 폭락할 것이며, 게이머 고객들이 브랜드에 반감을 갖게 되었고, 채굴 수요는 예측 불가능했습니다.
NVIDIA는 해결책을 내놓았습니다. CMP, 즉 Cryptocurrency Mining Processor라는 채굴 전용 카드를 출시했습니다. 화면 출력 기능이 없는 채굴 전용 제품으로 게이밍 GPU와 시장을 분리하려 했습니다. 또한 게이밍 GPU에 채굴 제한을 걸었습니다. RTX 3060에 이더리움 채굴 해시레이트를 반으로 제한했지만 곧 우회 방법이 발견되었습니다.
2018년 하반기, 암호화폐 가격이 폭락하면서 채굴이 수익성을 잃었습니다. 채굴장들이 GPU를 대량으로 중고로 방출했고, 중고 시장에 그래픽 카드가 넘쳐났으며, 가격이 폭락했습니다.
NVIDIA와 AMD는 깨달았습니다. 변동성 높은 채굴 수요에 의존하면 안 된다는 것을요.
하지만 이 소동이 가져온 긍정적 효과가 있었습니다.
첫째, GPU의 대중적 인지도가 급상승했습니다. 일반인들도 "GPU는 계산을 잘한다"는 걸 알게 되었고, 단순히 게임용이 아니라 범용 컴퓨팅 장치라는 인식이 생겼으며, "병렬 연산에 강하다"는 개념이 대중화되었습니다.
둘째, GPU 연산의 상업적 가치가 입증되었습니다. GPU로 돈을 벌 수 있다는 걸 수백만 명이 경험했고, 기업들도 주목하기 시작했습니다. "GPU로 다른 것도 할 수 있지 않나?"
셋째, NVIDIA 주가가 첫 번째 도약을 했습니다. 2016년에 30달러였던 주가가 2017년에 120달러로 올랐고, 2018년에 60달러로 폭락했습니다. 당시에는 "일시적 거품"으로 보였지만 이건 예고편이었습니다.
2017-2018년 암호화폐 채굴 붐 당시 NVIDIA는 중요한 전략적 선택을 했습니다.
Jensen Huang CEO는 말했습니다. "우리는 채굴 회사가 아닙니다. 우리는 AI와 데이터센터에 투자합니다." 단기 매출보다 장기 비전을 선택한 것입니다.
채굴 수요는 변동성이 크고 예측 불가능하지만, AI 수요는 구조적이고 지속 가능하다고 판단했습니다. NVIDIA는 AI에 집중하기로 결정했고, 이 결정이 2020년대 NVIDIA의 폭발적 성장을 만들었습니다.
2020년대가 되면서 GPU는 세 가지 주요 시장을 갖게 되었습니다. 첫째는 게이밍입니다. GeForce 시리즈로 대표되는 이 시장은 수백만 게이머를 대상으로 하며 안정적이지만 성장은 완만합니다. 둘째는 암호화폐 채굴입니다. 가격에 따라 수요가 급변하는 변동성 시장이며, NVIDIA는 의도적으로 거리를 두고 전용 제품인 CMP로 분리했습니다. 셋째는 AI와 데이터센터입니다. Tesla, A100, H100 시리즈로 대표되며, 2024년 현재 NVIDIA 매출의 80% 이상을 차지하는 진짜 돈이 되는 시장입니다.
AI 모델의 규모가 기하급수적으로 커졌습니다. 2012년 AlexNet은 GPU 2개로 학습되었고, 2018년 BERT는 수백 개, 2020년 GPT-3는 약 1만 개, 2023년 GPT-4는 추정 2만 5천 개 이상의 GPU를 사용했습니다. 문제가 생깁니다. GPU 하나가 아무리 빨라도 수만 개를 하나의 시스템처럼 작동시키려면 훨씬 더 많은 것이 필요합니다.
NVIDIA의 진짜 경쟁력은 GPU 칩 자체가 아닙니다. GPU를 중심으로 한 완전한 생태계입니다.
대규모 AI 학습을 GPU로 돌리려면 최소한 다음이 모두 완벽하게 작동해야 합니다.
첫째, 초고속 메모리입니다. HBM, 즉 High Bandwidth Memory는 GPU에 데이터를 빠르게 공급하는 역할을 하며, SK하이닉스, 삼성전자, 마이크론 3사가 시장을 과점하고 있습니다.
특히 SK하이닉스는 NVIDIA H100과 H200의 주 공급사로 시장 점유율 약 50%를 차지하고 있으며, 2023년에 차세대 HBM3E를 가장 먼저 양산하며 기술 리더십을 확보했습니다.
둘째, GPU 간 연결입니다. NVLink와 NVSwitch는 한 서버 안의 여러 GPU를 묶는 NVIDIA 독점 기술입니다. NVLink는 GPU 간 초고속 데이터 전송을 가능하게 하며, NVSwitch는 8개 이상의 GPU를 하나의 거대한 GPU처럼 작동하게 만듭니다.
셋째, 서버 간 네트워크입니다. 수천 대 서버를 연결하는 이 영역에서는 InfiniBand와 Ethernet이 경쟁하고 있습니다. InfiniBand는 Mellanox가 주도하는데, NVIDIA가 2020년 69억 달러에 인수했습니다. InfiniBand는 초저지연과 제로 패킷 손실을 제공하여 대규모 AI 학습에 최적화되어 있습니다. 반면 AI Ethernet은 Arista Networks, Broadcom, Cisco 같은 기업들이 경쟁하고 있으며, Ultra Ethernet Consortium, 즉 UEC가 결성되어 개방형 표준을 만들고 있습니다.
AMD는 2022년 Pensando Systems를 19억 달러에 인수하여 DPU 기술을 확보했고, Pollara 400 AI NIC를 통해 UEC 표준을 최초로 지원하고 있습니다.
넷째, 반도체 제조입니다. GPU 칩 생산은 TSMC가 거의 독점하고 있으며, NVIDIA, AMD, Google TPU 모두 TSMC에 의존합니다. 특히 TSMC의 CoWoS 패키징 기술은 GPU 칩과 HBM 메모리를 하나로 통합하는 핵심 공정인데, 이 생산 능력이 제한적이어서 2023-2024년 'GPU 부족'의 진짜 원인이 되었습니다.
TSMC는 CoWoS 생산 능력을 2024-2026년 3배로 확대할 계획입니다.
다섯째, 소프트웨어 플랫폼입니다. CUDA는 개발자가 쉽게 프로그래밍할 수 있게 해주며, 18년간의 생태계를 구축했고, cuDNN, cuBLAS 같은 라이브러리를 제공합니다. 전 세계 수백만 명의 개발자가 CUDA를 사용하며, 거의 모든 AI 프레임워크가 CUDA를 기반으로 작동합니다.
하나라도 병목이 생기면 전체 시스템이 느려집니다.
Part 2에서는 이 생태계를 이루는 각 레이어와 핵심 기업들을 자세히 살펴보겠습니다.
1990년대 3dfx는 Glide라는 독점 API로 시장을 장악하려다 실패했습니다. 개방형 표준인 Direct3D와 더 나은 통합 솔루션인 GeForce를 제시한 NVIDIA에게 패배했습니다. 그런데 아이러니하게도 NVIDIA는 이제 3dfx가 꿈꿨던 것보다 훨씬 강력한 독점 체제를 구축했습니다.
3dfx의 독점은 1996년부터 2000년까지 지속되었습니다. Glide API에만 의존했고, 하드웨어 성능 우위를 바탕으로 제한된 생태계를 운영했으며, 독점적이고 폐쇄적이었습니다.
반면 NVIDIA의 독점은 2007년부터 2025년까지 지속되고 있습니다. 칩, 메모리, 네트워크 등 하드웨어 전 계층을 장악했고, CUDA, 라이브러리, 프레임워크 등 소프트웨어 생태계를 장악했으며, 18년간 개발자 교육과 커뮤니티를 구축했고, 극도로 높은 전환 비용을 만들어냈습니다. 개방적처럼 보이지만 실질적으로는 독점입니다.
차이는 명확합니다. 3dfx는 닫힌 독점으로 강압적이었고 대안이 없었습니다. NVIDIA는 열린 독점으로 선택의 자유는 있지만 실질적 대안이 부족합니다.
2025년 현재 AI 학습 GPU 시장 점유율을 보면 NVIDIA가 94%를 차지하고, AMD가 4%, Intel이 1%, 기타가 1%입니다.
저는 1996년 Voodoo로 3D의 충격을 경험했고, 1999년 GeForce로 새로운 시대의 시작을 목격했습니다. 2017년에는 암호화폐 채굴 광풍 속에서 GPU의 계산 능력이 대중에게 알려지는 것을 봤습니다. 그리고 2025년, 그 GeForce를 만든 회사가 AI 시대의 절대 강자가 되어 있습니다.
하지만 변화의 바람이 불고 있습니다. 대규모 클라우드 기업들은 NVIDIA의 독점 가격에 지쳐갑니다.
자체 칩을 개발하고, 개방형 표준을 만들고, 새로운 경쟁 구도를 형성하고 있습니다.
� 다음 편 예고
Part 2: GPU 생태계의 해부 - 칩 하나를 움직이는 거인들
GPU 하나를 작동시키기 위해 필요한 모든 것을 살펴봅니다.
SK하이닉스, 삼성전자, 마이크론의 HBM 경쟁, TSMC의 CoWoS 패키징 병목과 AI 칩 부족의 진짜 이유, NVLink와 NVSwitch를 통한 칩 간 연결, InfiniBand와 AI Ethernet의 네트워킹 경쟁, 그리고 Mellanox, Arista Networks, Broadcom, Cisco, AMD Pensando DPU와 UEC 표준까지, 마지막으로 18년간 축적된 CUDA 생태계를 다룹니다.
GPU 아키텍처와 CPU 비교, 병렬 처리와 순차 처리의 구조적 차이, 3D 그래픽스 파이프라인과 폴리곤 렌더링, 딥러닝의 행렬 연산 구조를 참고했습니다.
3dfx와 NVIDIA의 경쟁 역사는 1996년부터 2000년까지의 3dfx Voodoo Graphics 출시와 시장 지배력, 3dfx의 Glide API 전략과 한계, 1998년 NVIDIA RIVA TNT 출시, 1999년 GeForce 256 출시와 GPU 개념 정립, 하드웨어 T&L 도입의 의의, 3dfx의 몰락 원인 분석, 그리고 ATI Radeon 시리즈와 NVIDIA의 경쟁 자료를 참고했습니다.
CUDA와 GPGPU는 2007년 CUDA 플랫폼 발표, GPGPU 개념과 범용 컴퓨팅으로의 확장, NVIDIA의 개발자 생태계 구축 전략을 다룬 자료를 참고했습니다.
딥러닝과 암호화폐 관련해서는 2012년 AlexNet과 ImageNet 대회, 2010년 이후 비트코인 채굴과 GPU 활용, 2017-2018년 암호화폐 가격 폭등과 GPU 대란, NVIDIA의 CMP 채굴 전용 제품 출시, 2018년 암호화폐 시장 붕괴와 GPU 시장 정상화 자료를 참고했습니다.
AI 시대 본격화와 관련해서는 GPT 시리즈의 GPU 사용량 증가, AI 데이터센터의 부상, NVIDIA의 사업 구조 변화, 즉 게이밍에서 데이터센터로의 전환을 다룬 자료를 참고했습니다.
생태계 구성 요소로는 SK하이닉스, 삼성전자, 마이크론의 HBM 시장, TSMC CoWoS 패키징 기술과 병목 현상, 2020년 NVIDIA의 Mellanox 인수 건, InfiniBand와 Ethernet의 경쟁, AMD의 Pensando Systems 인수, Ultra Ethernet Consortium 설립, CUDA와 딥러닝 프레임워크 통합 자료를 참고했습니다.
시장 데이터로는 2025년 AI GPU 시장 점유율, 2016년부터 2025년까지의 NVIDIA 주가 변동, AI 칩 시장 규모 및 성장률 자료를 참고했습니다.