AI 인프라 전쟁

NVIDIA, AMD, 그리고 커스텀 칩의 부상

by kimdonglin

AI 인프라, 왜 전쟁인가


전 세계 AI 데이터센터의 연간 전력 소비량이 약 200+ GWh(2025년 예상)에 달한다. 이는 한 국가의 소규모 지역이 한 해 동안 사용하는 전기량과 맞먹는 규모다. 칩이 필요하고, 칩은 전력을 먹고, 전력은 돈이다.



실제로 AI 모델 하나를 학습시키는 데 드는 비용을 계산해보면, 연산 자체(GPU 시간)는 전체의 일부일 뿐이다. 냉각, 전기, 건설, 유지보수. 칩을 감싼 인프라 전체가 비용이 된다. 거대 모델을 운영할 수 있느냐는 더 이상 기술력만의 문제가 아니다. 이제는 누가 가장 효율적인 칩을 확보할 수 있느냐의 문제다.



그리고 현실은 명확하다. NVIDIA가 데이터센터 AI 칩 시장의 80-85%를 차지하고 있다. 경쟁이 있다고는 하지만, 시장은 거의 NVIDIA 한 손에 장악되어 있는 상태다. 이 지배력 뒤에는 우연이 아닌 깊은 이유들이 있다. 15년간 쌓인 CUDA 생태계, 수백만 명의 개발자, 최적화된 소프트웨어. 기술적 우위만으로는 아니다.


하지만 동시에 변화도 감지된다. AMD가 공격적으로 MI 칩을 밀어붙이고 있다. Google, Amazon, Microsoft 같은 거대 기업들은 자신의 워크로드에 맞춘 커스텀 칩을 직접 개발하고 있다. 소프트웨어 회사들도 NVIDIA 독점에서 벗어나기 위해 움직이고 있다.


이러한 움직임이 실제 변화를 가져올까? 아니면 표면적인 소동일까? 더 근본적인 질문은 이것이다. NVIDIA의 압도적 우위는 정말 기술력이 최고라는 뜻일까? 아니면 다른 이유가 있을까? 기술팀만이 칩 선택을 결정할까?



NVIDIA의 철옹성: 성능과 생태계


NVIDIA는 데이터센터 AI 칩 시장의 80-85%를 차지하고 있다. 이 수치는 반복해 인용되곤 하지만, 그 의미는 종종 오독된다. 성능이 최고라는 뜻일까? 가격이 가장 저렴하다는 뜻일까? 대부분은 더 깊은 이유를 모른 채 "NVIDIA가 최고니까"라고 끝낸다.


실제로 NVIDIA의 우위는 성능만으로 설명되지 않는다. H100은 분명 강력한 칩이다. NVLink 기술로 여러 칩을 연결할 때의 성능, Tensor Core의 추론 효율은 객관적으로 우수하다. 하지만 강력한 하드웨어는 그것을 제대로 활용할 수 있는 소프트웨어를 필요로 한다. 기술 우위만으로는 NVIDIA의 점유율을 모두 설명할 수 없다.


더 큰 힘은 생태계에 있다. CUDA는 15년을 누적한 플랫폼이다. 개발자 1-2백만 명이 CUDA 코드를 작성해왔다. 매년 10-15% 비율로 새로운 개발자가 CUDA를 배우고 있다. 이 규모는 단순한 수치가 아니다. 이는 이미 작성된 수백만 줄의 최적화된 코드를 의미한다.


성능이 높은 칩을 만드는 것도 어렵지만, 생태계가 15년을 견디며 축적되는 것은 훨씬 더 어렵다. PyTorch, TensorFlow 같은 주요 프레임워크를 보면 이 부동한 위치가 더 명확해진다. PyTorch의 코드 중 CUDA 지원 부분이 25-30%를 차지한다. ROCm(AMD의 대안)은 5-8%에 불과하다. 이는 단순한 지원 코드의 양이 아니다. 최적화의 깊이, 테스트 커버리지, 버그 수정의 신속성이 모두 CUDA 쪽에 쏠려 있다는 뜻이다.


개발자들이 이런 현실을 점점 더 인식하면서, 기존 CUDA 코드를 다른 플랫폼으로 포팅하려는 결정은 더욱 어려워진다. 자료마다 다르지만 대략 $100,000에서 $500,000의 비용과 3-6개월의 시간이 필요하다. 이는 팀의 재교육 시간, 호환성 테스트, 성능 최적화의 비용까지 포함한 수치다. 재작성이 아니어도 비용이 생각 이상으로 크다.


이런 조건에서 기술팀의 선택은 이미 정해져 있는 것처럼 보인다. NVIDIA를 선택하는 것이 가장 안전하다. 기존 코드와의 호환성이 보장되고, 커뮤니티 지원도 가장 풍부하고, 문제 발생 시 해결책도 빠르다. 전환 비용을 감당하면서까지 다른 칩으로 옮길 이유가 없다.


하지만 이 구조는 얼마나 견고할까? 기술이 정말 최고인가, 아니면 그저 먼저 자리잡은 것이 계속 자리를 지키고 있는 건가? 도전자가 존재하려면 단순히 더 나은 기술이 아니라 전환 비용을 상쇄할 만한 강력한 인센티브가 필요하다.


AMD의 도전: 개방과 가성비

AMD의 매출은 2024년 전년 대비 65% 증가했다. 시장 점유율은 여전히 NVIDIA의 8-10% 수준이지만, 그 성장 궤도는 눈에 띈다. NVIDIA의 철옹성이 무너지기 시작했다는 신호일까? 아니면 경쟁사가 점진적으로 틈새를 채우는 정도일까?



AMD가 제시하는 전략은 명확하다: 개방성과 가성비. ROCm은 CUDA와 달리 공개된 플랫폼이다. 500개 이상의 학술 기관이 ROCm을 지원하고 있으며, 기술 접근성이라는 측면에서 AMD는 "NVIDIA의 독점에 대항하는 진정한 대안"이라고 자신한다. 동시에 가격이 문제다. MI300X는 $15-20K 대역대로 책정되어 있다. NVIDIA H100은 $40-50K대이다. 같은 작업을 절반 가격에 해낼 수 있다면?



하지만 현실은 기대와 다르다. 성능 비교부터 살펴보자. MI300X는 특정 워크로드(주로 추론)에서 H100 대비 95% 수준의 경쟁력을 보여준다. 모델 학습 워크로드에서는 성능 차이가 더 크다. 이는 "거의 같은 수준"으로 들리지만, 데이터센터 운영 관점에서는 중요한 차이다. 학습 속도가 5-10% 느리다면, 초대형 모델의 경우 훈련 기간이 수주에서 수개월로 늘어날 수 있다. 성능의 작은 차이는 비용의 큰 차이로 변환된다.



가격 우위도 마찬가지다. MI300X가 저렴해 보이지만, 전체 비용 계산은 다르다. ROCm의 성숙도 문제가 직접적인 비용으로 드러나는 것으로 보인다. PyTorch에서 CUDA 지원 코드는 25-30%를 차지하는 반면, ROCm 지원은 5-8%에 불과하다. 이는 최적화 수준의 차이를 의미한다. 같은 코드가 ROCm에서는 느리거나, 더 많은 엔지니어링 작업을 요구한다. CUDA 대비 ROCm의 최적화 수준은 약 70% 정도다.



기존 CUDA 코드를 ROCm으로 이식하려면? 비용은 $100,000에서 $500,000대이고, 팀의 재교육에만 3-6개월이 필요하다. 이것이 "간단한 전환"이 아니라 대규모 투자를 의미한다. 이미 CUDA로 최적화된 시스템을 운영하고 있는 기업들에게, AMD는 "더 저렴한 칩"이 아니라 "전체 엔지니어링을 다시 해야 하는 비용"으로 다가온다.



그렇다면 AMD는 어디에 성공했는가? 현실 직시가 필요해 보인다. MI300X는 약 50개 이상의 데이터센터에 도입되었다. 전체 GPU 시장 관점에서 보면 2-3% 수준이다. 무의미한 수치는 아니지만, "NVIDIA를 위협하는 점유율"이라 보기 어렵다. AMD의 성장은 실제로 일어나고 있다. 하지만 그것이 "완전한 대체"로 이어지려면, 소프트웨어 생태계라는 더 큰 벽을 넘어야 한다.


AMD의 진정한 역할은 다른 곳에 있을 수 있다. 즉시의 경쟁자가 아니라, 공급 다각화의 신호. 기업들은 NVIDIA 의존도를 낮추려는 압박을 받고 있다. 공급망 위험, 지정학적 우려, 가격 협상력. 이런 배경에서 AMD의 존재는 실질적인 선택지가 아니라도 협상의 카드가 된다. "AMD도 있으니 가격 좀 내려"라는 말이 가능해진 것이다.


AMD가 진정한 경쟁자가 될 수 있을까? 아직은 알 수 없다. 기술은 따라잡고 있다. 생태계는 여전히 뒤처져 있다. 기대와 현실의 간격은 여전히 크다. 하지만 AMD의 성장 궤도가 계속 이어진다면, 5년 뒤 전혀 다른 질문을 해야 할 수도 있다.



커스텀 칩의 부상: Google TPU, AWS Trainium, Microsoft Maia


AMD뿐 아니라 하이퍼스케일러들까지 칩 개발에 나섰다. Google, Amazon, Meta, Microsoft가 모두 자신의 AI 칩을 설계하고 배포 중이다. 왜 이들은 NVIDIA 칩을 쓰지 않고 직접 만드는가? 이유는 명확하다: 비용 절감의 기회다.



Google의 TPU는 비용 효율에서 40-50% 절감을 기록했다. Amazon의 Trainium은 추론 작업에서 30-40% 절감을 실현했다. Meta의 MTIA(Meta Training and Inference Accelerator)는 추천 시스템 추론에서 GPU 대비 1.5-2배 효율을 자랑한다. 매달 수십만 개의 칩을 운영하는 기업 입장에서, 이 절감액은 연간 수십억 달러로 변환된다. 이것이 자체 칩 개발 투자를 정당화한다.



각 기업은 자신의 핵심 워크로드에 최적화된 칩을 개발했다. Google은 검색과 광고 추론에 특화된 TPU를 중심으로, 자사 클라우드 서비스에 탑재했다. 매달 수십만 개의 TPU가 운영 중이며, 클라우드 ML 워크로드의 40-50%를 처리한다. Amazon은 추론 특화 칩인 Trainium과 학습 특화 칩인 Inferentia로 경계를 나눴다. Meta는 추천 알고리즘이라는 구체적 워크로드에 MTIA를 집중 투자했다. Microsoft는 5년에 약 100억 달러를 들여 Maia 칩을 개발 중이다.



이들의 성공은 실제다. 하지만 그것이 NVIDIA 독점을 무너뜨린다는 의미는 아니다. 여기서 중요한 구별이 필요하다: 이 칩들은 "더 나은 범용 칩"이 아니라 "특정 워크로드에 최적화된 칩"이다.


Google의 TPU는 추론에서 탁월하지만, 대규모 모델 학습에서는 추론만큼 효율적이지 않다. Meta의 MTIA는 추천 알고리즘에 매우 효율적이지만, 일반 목적의 LLM 학습에는 적용 범위가 제한적이다. 각 칩은 자신의 내부 워크로드라는 '울타리 안'에서만 최고의 성능을 보인다. 울타리 밖에서는 효율성이 급격히 떨어진다.

이것이 범용성의 한계다. 자신의 워크로드에 최적화하면 할수록, 다른 용도에 쓰기 어려워진다. Google도 Amazon도 Meta도, 자신들이 만든 칩을 클라우드 고객들에게 팔기 시작했다. 하지만 문제가 있다. 한 기업이 다른 기업을 위해 최적화한 칩을 쓸 이유는? 고객사 입장에서는 'Google 검색 엔진을 위해 설계된 칩'이 자신의 추천 시스템에 얼마나 효율적일지 알 수 없다. 생태계의 단편화가 시작되는 것이다.



비용 계산은 여기서 복잡해진다. 칩의 저가격은 도입의 시작일 뿐이다. 자신의 코드를 TPU나 MTIA에 최적화하려면 엔지니어링 투자가 필요하다. CUDA 코드는 수십만 개의 최적화 사례와 커뮤니티 라이브러리로 무장해 있다. 커스텀 칩들은 각각 자신의 생태계만을 갖고 있다. 이는 NVIDIA의 압도적 우위다.



그렇다면 의존도는 감소하는가? 기술적으로는 YES다. NVIDIA의 시장 점유율은 80-85%에서 점진적으로 하락할 전망이다. 다양한 칩 옵션이 등장하면, 의존도 구조 자체가 변한다. 하지만 그것이 "NVIDIA 탈출"을 의미하지는 않는다. 오히려 "다중 의존도"로의 전환이 더 정확한 표현이다. 기업들은 이제 NVIDIA와 Google과 Amazon 중 자신의 워크로드에 맞는 조합을 고르는 다중 칩 전략으로 의사결정 기준을 바꾸고 있다. 의존도가 분산되지만, 의존도 자체는 강화된다.



전략적으로는, 이 변화가 의사결정권자들의 협상력을 약간 높인다. "더 이상 NVIDIA만의 손에 달려 있지 않다"는 신호다. 그러나 완전한 자립(independence)을 의미하지는 않는다. 커스텀 칩은 NVIDIA 의존도를 줄이되, 새로운 형태의 벤더 락인을 만든다.



커스텀 칩의 등장은 AI 인프라 시장을 다각화하고 있다. 효율 우위는 실제다. 범용성의 한계도 현실이다. 최종 승자는 칩 성능이 가장 우수한 기업이 아니라, 자신의 칩 위에서 가장 많은 소프트웨어를 구동할 수 있는 기업일 것이다.



소프트웨어 승부: CUDA vs. 그 나머지


칩의 성능이 모든 것을 결정하지 않는다. 개발자가 쓰지 않으면, 성능 우위도 무의미하다.

앞서 봤듯이 NVIDIA는 성능 면에서 우위를 유지하고 있다. AMD의 MI300X는 기술적으로 경쟁력 있고, Google TPU는 특정 워크로드에서 훨씬 효율적이다. 하지만 선택은 칩의 우수성이 아니라 소프트웨어 생태계의 깊이에 따라 결정된다.



소프트웨어 생태계의 경제학

CUDA에서 ROCm으로 마이그레이션하는 비용을 생각해보자. 단순히 코드를 포팅하는 데 $100,000에서 $500,000이 소요된다. 이는 엔지니어링 비용만 해당한다. 재교육을 포함하면 3개월에서 6개월의 시간이 필요하다.

더 중요한 건 불확실성이다. 새로운 플랫폼에서 코드가 정확히 동일한 결과를 낼지 보장할 수 없다. 성능 특성이 미묘하게 다르다. 디버깅 도구의 성숙도가 떨어진다. 문제 발생 시 기술 지원을 받기도 어렵다. 이 모든 리스크는 현금으로 환산하기 어렵지만 실제로는 마이그레이션을 막는 강력한 장벽이다.



프레임워크 지원의 격차

PyTorch의 코드를 보면 CUDA 지원은 코드의 25~30%에 달한다. 이는 단순히 일부 함수가 CUDA로 최적화되어 있다는 뜻이 아니다. 역산, 모멘텀, 정규화, 활성화 함수 등 핵심 연산이 CUDA 커널로 세심하게 최적화되어 있다는 의미다.

ROCm 지원은 5~8% 수준이다. TPU 지원은 3~5%다. 더 나쁜 건 최적화 수준이 다르다는 점이다. PyTorch의 ROCm 구현은 존재하지만, CUDA 버전만큼 정교하지 않다. AMD의 문서에서도 "CUDA 대비 약 70% 수준의 최적화"라고 명시한다. 이는 같은 모델을 ROCm에서 실행할 때 성능이 15~30% 떨어질 수 있음을 의미한다.


TensorFlow도 비슷하다. CUDA 지원은 20~25%인데, ROCm은 3~5%에 불과하다. 이 차이는 프로덕션 환경에서 치명적이다. CUDA로 개발한 모델은 높은 처리량으로 실시간 응답을 제공한다. 같은 모델을 ROCm에서 실행하면 성능 저하로 인해 비즈니스 요구사항을 충족시키기 어렵다.



개발자 생태계의 관성

HPC 커뮤니티에서 CUDA 사용 비율은 85~90%에 달한다. 이는 우연이 아니다. 대학 교육 과정에서 CUDA를 가르친다. 대형 프로젝트는 CUDA로 시작된다. 초기 성과가 좋으니 더 많은 엔지니어를 CUDA 경험자로 채용한다. 새로운 엔지니어도 팀의 표준을 따른다. 이 순환이 반복되면서 CUDA가 업계 표준이 되었다.

이 자기강화 메커니즘 앞에서 기술 우월성은 거의 무의미하다. AMD의 MI300X가 NVIDIA H100보다 기술적으로 우수하다 해도, 기존 CUDA 코드베이스를 포팅하려면 막대한 비용이 든다. 조직이 그 비용을 감수할 이유가 없다. 현 상태에서 문제없이 작동하기 때문이다.



기술 우월성과 시장 채택의 괴리

이것이 AI 칩 전쟁의 본질처럼 보인다. 승자는 성능으로 결정되지 않는다. 누가 더 많은 개발자를 묶어두는가로 결정된다. NVIDIA는 성능으로 우위를 확보했고, 그 우위는 소프트웨어 생태계를 통해 관성으로 변환되었다. 이제 성능 우위는 유지 조건이 되었다.


AMD의 기술이 근접했을 때, NVIDIA의 우위는 "성능"이 아니라 "생태계"로 옮겨갔다. 개발자를 다시 교육하는 비용, 코드를 포팅하는 시간, 결과의 검증 불확실성. 이 모든 것이 기술 우월성을 압도한다.

Google TPU, AWS Trainium, Microsoft Maia는 내부 워크로드에 국한된다. 범용 AI 개발 플랫폼으로는 성장하지 못한다. 왜냐하면 생태계가 없기 때문이다. 프레임워크 지원이 불완전하다. 학술 커뮤니티가 채택하지 않는다. 따라서 범용 개발자가 배울 이유가 없다.


칩 성능은 초대 조건일 뿐, 소프트웨어 생태계가 진짜 경쟁장이 되어가고 있다. 그렇다면 앞으로의 경쟁 구도는 어떻게 전개될 것인가?


앞으로의 경쟁 구도

지금까지의 분석을 종합하면, 어떤 그림이 나타나는가?

NVIDIA의 우위는 기술만으로는 설명되지 않는다. 15년간 쌓인 CUDA 생태계, 개발자 관성, 소프트웨어 최적화의 누적이 진정한 경쟁 우위다. 이 벽은 단기적으로는 깨어지지 않을 것 같다.


단기 전망: 다음 2-3년

NVIDIA의 우위는 확고할 것이다. 80~85% 시장 점유율은 쉽게 내려오지 않는다. 왜냐하면 경쟁자들이 같은 성능을 제공해도, 조직들은 기존 CUDA 환경에서의 개발과 배포를 바꾸려 하지 않기 때문이다. 변경 비용이 높고, 위험이 불명확하다.

AMD의 MI300X와 Google TPU의 성능은 기술적으로 경쟁력 있다. 하지만 기술 경쟁력만으로는 부족하다. CUDA에서 ROCm으로 마이그레이션하는 비용은 $100,000에서 $500,000이 소요되고, 엔지니어 재교육에는 3개월에서 6개월이 필요하다. 검증 불확실성까지 포함하면, 이 장벽들은 기술로 극복할 수 없다.


중기 변화: 3-5년의 시나리오

다만 변화의 신호는 명확하다. AMD의 매출 성장률이 전년 대비 65%에 달하는 것, AWS가 칩 개발에 연 $5-10억 달러를 투자하는 것, Google이 TPU로 40~50% 비용을 절감하는 것—이 모두 하이퍼스케일러들이 NVIDIA 의존도를 낮추려는 의지를 보여준다.


향후 3-5년은 "점진적 시장 조각내기"의 시기가 될 것 같다. NVIDIA의 점유율이 85%에서 70%, 60%으로 점차 내려올 가능성이 높다. 이는 단일 NVIDIA 의존도에서 AMD, 커스텀 칩 등이 공존하는 다중 의존도 시대로의 전환을 의미한다.


AMD는 특정 고객과 수직 시장에서 성장할 것이다. Meta, Microsoft, ByteDance 같은 대형 하이퍼스케일러들이 AMD를 채택하면, 그것이 신호가 되어 다른 기업들도 따라갈 것이다. 커스텀 칩도 내부 워크로드에 국한되지만, 효율성 때문에 계속 투자될 것이다. 다만 이 모든 변화가 NVIDIA의 절대 규모 성장을 배제하지 않는다는 점이 중요하다.


이 과정에서 소프트웨어 생태계가 가장 중요한 변수가 된다. ROCm이 CUDA 수준으로 성숙해지면, 전환 비용이 크게 낮아진다. PyTorch와 TensorFlow가 AMD와 TPU를 더 적극 지원하면, 개발자들의 선택지가 넓어진다.


장기의 불확실성: 5년 이상

5년 이상의 먼 미래는 예측이 어렵다. 세 가지 가능성이 있다.

첫째는 "다중 플랫폼 표준화"다. OpenXLA 같은 추상화 레이어가 성숙하면, 개발자들은 특정 칩에 종속되지 않고 여러 플랫폼을 동시에 지원할 수 있다. 이 경우 칩은 상품화되고, 소프트웨어가 진정한 경쟁의 중심이 된다.


둘째는 "파편화의 심화"다. 각 하이퍼스케일러가 자신의 칩을 고집하고, 소프트웨어 생태계도 분산되면, AI 개발은 현재보다 훨씬 복잡해진다. 이 경우 소프트웨어 엔지니어링의 비용이 급증할 수 있다.

셋째는 "현상 유지"다. NVIDIA가 계속 우위를 유지하되, AMD와 커스텀 칩이 틈새 시장을 차지하는 구조가 고착될 수도 있다.


주목해야 할 신호들

미래가 불확실한 만큼, 다음 신호들을 주시하는 것이 중요하다.


소프트웨어 생태계의 개방화: PyTorch와 TensorFlow가 얼마나 빨리 AMD와 TPU를 동등하게 지원하는가. 프레임워크가 칩 중립적이 될수록, 시장의 진입 장벽이 낮아진다.

개발자 도구의 진화: 디버깅, 프로파일링, 최적화 도구들이 다중 플랫폼을 얼마나 잘 지원하는가. 이것이 해결되면 전환 비용의 가장 큰 부분이 제거된다.

대규모 도입 사례: AMD와 커스텀 칩의 성공 사례가 얼마나 빨리 증가하는가. 또한 그 실패 사례가 무엇인가. 이것이 다른 기업들의 결정에 큰 영향을 미친다.

전력 인프라의 병목: 2024년 AI 데이터센터 확장 프로젝트의 40~50%가 전력과 냉각 제약으로 지연되고 있다. 이 문제가 해결되지 않으면, 어떤 칩도 도움이 되지 않을 것이다. 역으로 전력 효율을 극도로 높인 칩이 나타나면, 게임은 완전히 바뀔 수 있다.



결국 이 전쟁의 승자는 칩을 먼저 만드는 자가 아니라, 가장 많은 개발자를 붙잡아두는 자일 것이다.

NVIDIA는 지금까지 성능으로 그것을 해냈다. 하지만 경쟁자들이 성능의 격차를 줄이면서, 게임은 변하고 있다. 이제는 성능뿐 아니라, 비용, 생태계, 운영 용이성, 개발자 생산성이 모두 중요해진다. 그리고 보이는 것은 기술팀의 선택이지만, 실제 결정권은 전력팀, 재무팀, 규제팀이 쥐고 있다는 것을 알게 된다.


향후 경쟁의 승자는 기술 혁신과 생태계 개방, 운영 현실의 이해를 모두 갖춘 자일 것이다. 그것이 NVIDIA가 될지, 아니면 누군가 다른 자가 될지는, 지금의 신호들에 달려 있다.

매거진의 이전글파칭코처럼 도는 AI 개발, 그 끝을 누가 정할 것인가