brunch
매거진 WeeklyEDGE

脫 엔비디아라는 신기루

하이퍼스케일러의 자체 AI 칩 개발, 왜 계속 실패하는가?

by CapitalEDGE

어마어마한 인프라 투자, 그리고 GPU 의존도의 현실


지난 10년간 하이퍼스케일러들의 인프라 투자 규모는 상상을 초월하는 수준으로 치솟았습니다. 아마존, 마이크로소프트, 구글, 메타의 연간 자본 지출(CAPEX)은 2015년 240억 달러에서 2025년 예상 3,250억 달러까지 무려 13배 이상 증가했습니다. 특히 2020년 이후 AI 붐과 함께 이 증가세는 더욱 가팔라져, 2024년 한 해에만 글로벌 데이터센터 CAPEX가 51% 증가하여 4,550억 달러에 달했습니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe3ba37a6-9e42-425e-9ad2-ea3eb706d3c8_1600x900.png 하이퍼스케일러 Capex 투자 추이

이 천문학적 투자의 상당 부분이 컴퓨팅 실리콘, 특히 GPU 구매에 집중되고 있습니다. 2024년 기준으로 AI 가속기 서버가 OEM 서버 매출의 36%를 차지했으며, 이는 전년 동기 대비 3분기에만 40%의 비중을 기록할 정도로 급속히 늘어나고 있습니다. AI 훈련 인프라에 대한 투자는 161% 증가했고, 2025년에는 하이퍼스케일러들의 CAPEX가 매출 대비 22%에 달할 것으로 예상되는데, 이는 과거 4년간 평균 11-16%를 크게 상회하는 수치입니다.


더욱 놀라운 것은 이 투자의 집중도입니다. 2024년 4분기 GPU 서버 매출이 기존 CPU 서버 매출을 넘어서며 시장의 3분의 2를 차지했고, 엔비디아는 GPU 서버 출하량의 90% 이상을 독점하고 있습니다. 이처럼 막대한 자본이 단일 공급업체에 집중되는 현상은 기업 전략적 관점에서 심각한 위험 요소로 작용합니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fbd924f2c-7c40-480f-9262-b3f179461d64_1600x900.jpeg 엔비디아 시장점유율


자연스럽게 하이퍼스케일러들이 자체 칩 설계에 눈을 돌릴 수밖에 없는 상황입니다. 비용 절감뿐 아니라 컴퓨팅 수요 증가 속도가 너무나도 빠르게에 시스템 최적화를 위해서라도 엔비디아와 같은 off-the-shelf 제품을 사용하기보다는 자체 니즈에 최적화한 칩을 설계하는 것이 효율적이라는 것은 직관적으로도 당연한 움직임입니다.


하지만 현실은 그렇지 못합니다.


반복되는 지연과 한계


지난주 디인포메이션 보도에 따르면 마이크로소프트가 야심 차게 준비해 온 자체 설계 AI 반도체의 출시 시점이 1년 이상 늦춰질 것으로 알려졌습니다. 마이크로소프트는 2019년부터 자체 AI 가속기 개발을 시작해 2023년 마이아(Maia) 100 칩을 공개했는데 오픈AI의 챗GPT 출시 이전 기획되어 이미지 처리에 초점을 맞추었고 생성형 AI에는 거의 활용하지 못하는 것으로 알려져 있습니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5920756b-0474-44d7-a6de-308ddb59cf55_1000x563.jpeg 마이크로소프트 마이아 100


게다가 마이아 100의 후속 칩 개발 과정에서 오픈AI의 설계 변경 요청으로 추가 지연 사태가 이어졌고 경영진이 일정을 밀어붙이자 핵심 인력이 이탈하는 등 내부 갈등도 이어지고 있다는 소식입니다. 결국 2025년 1월에야 후속작인 브라가(Braga)의 설계가 완료되었고 대량 생산까지 최소 6 - 8개월이 걸리는 점을 감안하면 2026년 출시는 불가피하다는 전망입니다.


하지만 가장 큰 문제는? 2026년에 출시될 브라가 칩이 2024년 말 출시된 엔비디아의 블랙웰 대비 성능이 크게 뒤처지는 것으로 예상된다는 것입니다.


2016년부터 TPU를 개발해 온 AI 커스텀 반도체의 강자 구글 또한 상황이 녹록지는 않습니다. 구글은 차세대 TPU 개발을 위해 이제까지 협력을 이어온 브로드컴에 이어 대만의 미디어텍과도 협력을 시작했지만 여러 개의 칩이 함께 작동할 수 있게 해주는 AI 처리의 핵심 부분인 TPU의 네트워킹 기술을 담당하던 미디어텍의 핵심 팀원들이 엔비디아로 단체로 이직하는 사태를 겪으며 ASIC 반도체 구상의 취약점을 여실히 드러내고 있습니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F4ca5f79c-469d-42ab-8a59-5bdc9b724f86_1000x647.bin 구글의 TPU 로드맵


구글의 차세대 TPU인 Ironwood는 2025년 말부터 소량 생산을 시작하고, 대부분의 대량 생산은 2026년에 예정되어 있습니다. 하지만 Ironwood의 인상적인 수치에도 불구하고, 구글은 여전히 엔비디아 GPU를 대량 주문하고 있습니다. 대부분 고객들은 TPU 보다는 보다 익숙한 엔비디아 GPU 환경을 선호하기 때문입니다. TPU를 도입한 업체들도 구글과 인맥이 있거나 비용 혜택을 받은 경우가 많아, 자체 칩만의 경쟁력으로 시장을 석권했다고 보기는 어렵다는 평가입니다.



젠슨 황 "구매할 수 있는 칩보다 나을 것이 없다면 굳이 ASIC을 만들 이유가 없다"


엔비디아의 GPU에 지불하는 비용이 많고 시스템 최적화 측면에서도 비효율이 많아 직접 칩을 설계하겠다.

굉장히 직관적인 논리이지만 조금만 생각해 보면 허점은 분명합니다. 서버 구매를 위해 지출하는 비용이 많으니 서버를 직접 만들겠다고 나서는 사람들이 없는 이유는 결과적으로 서버를 개발하는 것보다 구매하는 것이 총비용 관점에서 훨씬 경쟁력이 있기 때문입니다. 마찬가지로 엔비디아가 단순히 1등일 뿐만 아니라 연간 수십조 원을 신규 기술 개발과 생태계 강화에 쏟아붓고 있는데 단순히 테스트 결과가 높다는 이유로 스타트업의 칩을 쓸 것이란 논리는 성립하기 어렵습니다.


1️⃣ 아키텍처 전략의 불확실성과 내부적 딜레마


하이퍼스케일러들은 데이터센터에서 어떻게 칩을 활용할지 방향을 정하는 문제부터 난관에 봉착합니다. 엔비디아는 NVLink와 NVSwitch로 다수 GPU를 한데 묶는 스케일업(scale-up) 방식을 구현해 대규모 모델 학습 시 강점을 보였습니다. 반면 자체 칩을 개발하는 기업들은 기존 인프라와의 호환성 등을 이유로 일반 네트워크를 통한 스케일아웃(scale-out) 방식에 의존하거나, NVLink에 상응하는 전용 인터커넥트를 갖추지 못한 경우가 많습니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F050483bd-67c3-4c1c-9cf2-3a4a58155f06_699x586.webp


이는 곧 대규모 AI 연산 시 성능 병목으로 이어질 수 있고, 새로운 칩을 기존 시스템에 "얹어서" 쓸지(수직적 확장) 아니면 별도 클러스터로 "옆에 붙여" 쓸지(수평적 확장)에 따라 수익성과 효율이 크게 달라지는 리스크가 있습니다. 명확한 설계 철학 없이 방향을 저울질하는 사이 개발이 지연되거나, 설령 칩을 완성해도 인프라 최적화 문제로 기존 GPU 대비 경쟁력이 떨어지는 결과가 발생합니다.



2️⃣ 엔비디아와의 기술 격차 및 생태계 장벽


현재 AI 가속기 분야에서 엔비디아가 구축한 하드웨어–소프트웨어 생태계는 타사가 단기간에 따라잡기 어려운 수준입니다. 엔비디아는 매년 막대한 R&D 투자로 GPU 성능을 비약적으로 끌어올리고 있을 뿐 아니라, 업계 표준 지위를 활용해 개발자 커뮤니티와 소프트웨어 호환성 측면에서도 독점적인 우위를 누립니다.


실제로 엔비디아의 최신 블랙웰 GPU는 2천억 개 이상 트랜지스터로 뛰어난 연산력과 에너지 효율을 자랑하며 업계 표준을 다시 끌어올렸습니다. 더 나아가 엔비디아는 고객들이 자체 칩으로 대체하기 어렵게 만들기 위해 2024년 말 출시한 플래그십 AI 하드웨어 시스템 GB200에 공격적인 성능 목표를 설정했습니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F91adbd0e-f04d-4926-af34-64d563874101_1024x768.png 엔비디아의 NVLink Fusion


반면 후발 주자들의 칩은 초기 버전에서는 성능, 전력소모 면에서 아직 격차가 있고, 소프트웨어 최적화 도구도 미흡하여 개발자들이 쉽게 채택하기 어렵습니다. 또한 엔비디아는 2025년 컴퓨텍스에서 NVLink Fusion을 공개, ASIC과 인터커넥트까지 엔비디아의 생태계로 끌어들이겠다는 역공 전략을 공식화하였습니다.



3️⃣ 맞춤형 ASIC 접근의 한계와 경제성 문제


커스텀 실리콘 시대를 맞아 브로드컴, 마벨 등 전통적인 ASIC 전문 기업들도 클라우드 업체들과 손잡고 AI 전용 칩 개발을 도와주거나 자체 솔루션을 내놓고 있습니다. 이러한 ASIC 기반 가속기는 특정 워크로드에 최적화된 고정 기능을 넣어 일반 GPU 대비 비용 효율을 높이겠다는 취지이지만, 정작 AI 알고리즘 트렌드가 바뀔 경우 유연하게 대응하기 어렵다는 치명적인 약점이 있습니다.


더 큰 문제는 경제성 검증인데, 맞춤 ASIC을 만들려면 개발비와 파운드리 비용이 막대하므로 규모의 경제를 달성해야만 이점이 있습니다. 업계에서는 "자체 설계 칩은 기존 인텔/AMD CPU나 엔비디아 GPU보다 현저히 비용이 저렴하지 않으면 시도할 가치가 없다"는 지적도 있습니다. 현재까지 맞춤 AI 칩들이 아직 폭넓게 검증되지 못한 가운데, 초기 투자 대비 성능/비용 이득이 불분명하면 프로젝트 지속이 어렵습니다.



WeeklyEDGE 뉴스레터 구독하기



애플의 10년 역진입 전략


실리콘의 소비자에서 실리콘의 설계자로 성공한 거의 유일무이한 사례는 바로 애플입니다. 하지만 애플이 하루 아침에 자체 칩 설계의 강자가 된 것은 아닙니다. 오히려 2008년 PA Semi 인수에서 2020년 M1 칩 출시까지 12년에 걸친 치밀한 준비와 투자가 뒷받침된 노력이 있었기에 가능한 일이어죠.


애플의 반도체 내재화 여정은 2008년 PA Semi 인수로 시작되었습니다. 당시 대부분의 사람들은 이 인수가 무엇을 의미하는지 이해하지 못했습니다. PC 프로세서 설계 회사였던 PA Semi는 당시 애플의 주력 사업과는 거리가 멀어 보였기 때문입니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F484d289e-d204-4c3d-b4e6-22aa72a8eabe_261x223.jpeg PA Semi 칩


하지만 스티브 잡스는 이미 PC의 미래를 내다보고 있었습니다. 2010년 아이패드에 첫 탑재된 A4 칩을 시작으로, 애플은 모바일 기기에서 자체 칩 설계 역량을 차근차근 쌓아갔습니다. A4, A5, A6... 매년 새로운 칩을 내놓으며 ARM 아키텍처 설계 능력을 고도화했고, 동시에 세계 최고 수준의 반도체 설계 인재들을 확보했습니다.


여기서 중요한 것은 애플이 '모바일 우선' 전략을 택했다는 점입니다. 당시 인텔이 지배하던 PC 시장에 정면으로 도전하는 대신, 새롭게 열리는 모바일 시장에서 자신만의 영역을 구축했습니다. 이 과정에서 축적된 세계적 수준의 설계 인재와 IP를 바탕으로, 맥용 PC 프로세서 분야까지 진출할 수 있었던 것입니다.

https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F340c8e57-38cf-424b-a7b6-fc184651d9d2_980x551.jpeg 애플 실리콘의 진화

특히 애플이 가진 소프트웨어와 하드웨어를 아우르는 생태계 통제력이 큰 힘이 되었습니다. 애플은 iOS, macOS 등 자체 운영체제를 보유하고 있어 칩 아키텍처를 바꿔도 소프트웨어를 최적화하고 이식하는 작업을 주도적으로 수행할 수 있었습니다. 실제로 애플은 x86 → ARM 전환기에 로제타2 에뮬레이션 등을 통해 기존 앱 호환성을 유지하면서도, 자사 앱들은 네이티브 ARM 코드로 재빨리 최적화하여 사용자 이탈을 막았습니다.


이는 하이퍼스케일러들에게도 그대로 적용되는 이야기입니다. 소프트웨어와 시스템에 대한 통제력 없이는 하드웨어를 자체 개발하거나 통합한다는 계획은 구호에 그칠 가능성이 높습니다. 결국 특정 AI 어플리케이션이나 폼팩터를 장악하지 않고서는 자체 AI 칩 설계도 지금처럼 한계에 부딪힐 수밖에 없는 것입니다.


진짜 목표를 오해하면 안 되는 이유


하이퍼스케일러들도 이 사실을 누구보다 잘 알고 있습니다. 사실 자체 칩을 설계하는 진짜 목적은 엔비디아를 교체하는 것이 아니라는 이야기도 나옵니다. 자체 칩을 설계하는 목적 자체가 하나일 수는 없듯이, 각 기업은 다양한 전략적 목표를 가지고 프로젝트를 진행하고 있습니다.


구글은 제미나이 생태계를 강화하여 오픈AI-마이크로소프트 연합에 대항하면서 자사 TPU를 최적화할 복안을 가지고 있습니다. 아마존은 AWS라는 강력한 클라우드 채널을 레버리지하여 고객들에게 차별화된 AI 인프라를 제공하려 합니다. 마이크로소프트는 데이터센터 컴퓨팅보다는 AI PC 등 새로운 엣지 컴퓨팅 분야를 노리면서 자사 칩 설계 역량을 차별화하는 것으로 헤게모니를 이동할 것으로 보입니다.


https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F5ea0d429-52fb-4202-8e21-9e8dd27b79d2_900x506.webp 마이크로소프트 ‘마이아’의 비전


결국 중요한 것은 의도를 오해해서는 안 된다는 것입니다. 오히려 엔비디아를 뛰어넘겠다는 구호를 내걸고 ASIC이 뜬다고 외치며 시장에서 펀딩에 나서는 스타트업들의 솔깃한 주장을 필터링해 들을 필요가 있습니다. 특히 AI 반도체처럼 전문가와 비전문가의 시장에 대한 정보 비대칭이 극심한 영역일수록 '반도체의 아버지' 운운하는 탈 엔비디아 미디어 플레이는 색안경을 끼고 볼 필요가 있습니다.


애플의 10년 이상에 걸친 치밀한 준비와 달리 단순히 엔비디아 대체를 목표로 하는 접근은 성공 가능성이 낮습니다. 탈 엔비디아는 적어도 근미래에는 닿지 않을 신기루에 불과하다는 점을 다시 한번 명심해야 할 것입니다.




CapitalEDGE 팟캐스트 시리즈 두번째 에피소드가 공개되었습니다.


Ep.02-25 신흥 VC, 실리콘밸리 이머징 매니저의 세계


애플팟캐스트


스포티파이


전체 스크립트는 네프콘을 통해 확인하실 수 있습니다.




https://naver.me/5wN41NFw

https://naver.me/5kxsfWWo

https://naver.me/5jBqN0XT


keyword
매거진의 이전글밸류업의 시대, PE를 위한 공짜 점심은 없다