AI 데이터센터, 그 실체를 해부하다(1)

칩부터 AGI까지, 21세기 새로운 공장의 모든 것

by Yameh

안녕하세요.

샘 알트만 OpenAI CEO 방한과 AI 국책 과제에 대한 관심이 높아지고 있습니다. OpenAI와 마이크로소프트가 공동으로 추진하는 스타게이트 프로젝트를 위한 연합군 구성에 한국 참여를 원하고 있는 것 같습니다.

사실 한국이 빠지면 추진이 어려운 것도 사실입니다.

그런데 우리 대부분은 겉으로 드러난 AI의 UI만 접할 수 있어, 그 밑의 인프라가 어떻게 구성이 돼있는지에 대해서는 대부분 잘 모릅니다. 최근 AI 관련 인프라에 대해 리서치를 하다가 AI 데이터센터에 대한 이해를 높여줄 심층적인 분석을 해보면 재미있겠다는 생각이 문득 들었습니다.

데이터센터가 무엇이며 AI를 위한 데이터센터는 어떻게 다르고 왜 글로벌 빅테크 기업들이 AI 데이터센터에 목숨을 거는지에 대해 한 번 정리해 보았습니다.

정리하다 보니 내용이 길어져 두 번에 나눠서 AI 데이터센터에 대해 이야기해 보겠습니다.




21세기 새로운 공장의 탄생

우리가 일상에서 경험하는 인공지능은 마치 클라우드 너머에 존재하는 무형의 소프트웨어처럼 느껴진다. 하지만 그 본질을 들여다보면, AI는 실제로 막대한 물리적 인프라 위에서 작동하고 있다. 우리가 ChatGPT에게 질문을 던지고, Midjourney로 이미지를 생성하며, Claude와 대화를 나눌 때마다, 그 뒤편에서는 수만 개의 GPU가 돌아가고, 엄청난 양의 전력이 소비되며, 거대한 냉각 시스템이 쉼 없이 가동되고 있다.

이 모든 것이 이루어지는 곳, AI의 두뇌이자 심장이며 혈관 역할을 하는 곳이 바로 'AI 데이터센터'다. AI 시대의 패권을 잡기 위한 경쟁이 치열해지면서, 데이터센터는 단순히 서버를 보관하는 시설이라는 과거의 개념을 완전히 벗어났다. 이제 데이터센터는 국가와 기업의 미래를 결정짓는 핵심 경쟁력이자, 21세기판 거대 공장으로 재탄생하고 있다.

이 보고서는 전통적인 데이터센터의 개념에서 시작해, AI 데이터센터로의 패러다임 전환이 무엇을 의미하는지, 그 안을 채우는 서버 기술의 진짜 비밀은 무엇인지, 글로벌 거인들은 어떤 전략으로 움직이고 있는지, 그리고 이 모든 것이 궁극적으로 만들어낼 AI의 질적 도약은 무엇인지까지, AI 데이터센터를 둘러싼 모든 것을 심도 있게 파헤친다.


1. 모든 것의 기반: 전통 데이터센터 이해하기

AI 데이터센터를 제대로 이해하기 위해서는 먼저 그 뿌리가 되는 전통적인 데이터센터가 무엇인지, 어떤 가치를 추구해 왔는지를 알아야 한다. 전통 데이터센터의 핵심 가치는 단 두 가지로 요약된다. '안정성''효율성'이다. 기업의 핵심 데이터가 보관되고, 24시간 중단 없이 서비스가 운영되어야 하며, 이 모든 것이 가능한 한 적은 에너지로 이루어져야 한다는 것이 전통 데이터센터가 지향해 온 철학이었다.

이러한 철학을 실현하고 평가하기 위해, 업계에서는 오랜 시간에 걸쳐 두 가지 핵심적인 지표를 만들어냈다. 하나는 에너지 효율을 측정하는 PUE이고, 다른 하나는 안정성과 가용성을 평가하는 Tier 등급 시스템이다.


1.1 PUE (Power Usage Effectiveness, 전력 사용 효율)

PUE는 데이터센터가 얼마나 에너지를 효율적으로 사용하고 있는지를 나타내는 국제 표준 지표다.

계산 방식은 매우 단순하다.

데이터센터 전체가 소비하는 총전력량을 IT 장비가 실제로 사용하는 전력량으로 나눈 값이다.

PUE = 데이터센터 총 전력 사용량 / IT 장비 전력 사용량

이상적인 상황이라면 PUE는 1.0이 되어야 한다.

이는 데이터센터에 들어오는 모든 전력이 오직 서버, 스토리지, 네트워크 장비 같은 IT 장비를 돌리는 데만 사용된다는 의미다. 하지만 현실에서는 그럴 수 없다. 서버가 돌아가면서 발생하는 엄청난 열을 식히기 위한 냉각 시스템, 건물을 밝히는 조명, 전력을 분배하는 과정에서 발생하는 손실 등 간접적인 부문에서도 상당한 전력이 소비되기 때문이다.

따라서 PUE가 1.0에 가까울수록 IT 장비 운영 외에 낭비되는 에너지가 적다는 뜻이며, 이는 곧 더 효율적인 데이터센터를 의미한다.

업계 평균적으로 PUE는 1.5에서 1.8 정도 수준이지만, 구글이나 마이크로소프트 같은 하이퍼스케일 사업자들이 운영하는 최신 데이터센터는 1.1에서 1.2 수준까지 도달했다.

이는 수십 년간의 냉각 기술 혁신, 서버 배치 최적화, 외부 공기를 활용한 자연 냉각(Free Cooling) 등 온갖 노력의 결과물이다.


1.2 Tier 등급 (Uptime Institute의 등급 시스템)

PUE가 '효율성'을 측정한다면, Tier 등급은 '안정성'을 평가하는 척도다.

Uptime Institute라는 국제기관이 만든 이 등급 시스템은 데이터센터의 전력 및 냉각 시스템이 얼마나 이중화되어 있는지, 즉 장애가 발생했을 때 얼마나 서비스 중단 없이 버틸 수 있는지를 4단계로 나눈다.


Tier 1 (Basic Capacity): 기본형

가장 기초적인 수준의 데이터센터다. 전력과 냉각 시스템이 단일 경로로만 구성되어 있어, 어떤 구성요소에 문제가 생기면 전체 시스템이 멈출 수 있다. 예비 장치나 이중화 개념이 존재하지 않는다. 연간 다운타임은 최대 28.8시간까지 허용된다. 소규모 기업의 사내 전산실이나 예산이 제한된 환경에서 볼 수 있는 수준이다.


Tier 2 (Redundant Capacity Components): 부분 이중화

주요 구성요소, 예를 들어 냉각기나 발전기 같은 핵심 장비에는 예비 장치(N+1 구성)를 갖추었다. 하지만 전력과 냉각을 분배하는 경로 자체는 여전히 단일 경로다. 따라서 주요 장비가 고장 나도 예비 장비로 버틸 수 있지만, 분배 경로에 문제가 생기면 여전히 서비스가 중단될 수 있다. 연간 다운타임은 최대 22시간이다.


Tier 3 (Concurrently Maintainable): 완전 이중화

이 단계부터 진짜 '엔터프라이즈급' 데이터센터라고 부를 수 있다. 모든 주요 구성요소와 분배 경로가 완전히 이중화(N+1)되어 있어, 어떤 장비를 유지보수하거나 교체해야 하는 상황에서도 서비스를 중단할 필요가 없다. 한쪽 경로를 완전히 차단하고 작업을 해도 다른 경로가 모든 부하를 감당할 수 있다. 연간 다운타임은 최대 1.6시간으로 줄어든다. 대부분의 상업용 데이터센터가 이 수준을 목표로 설계된다.


Tier 4 (Fault Tolerant): 장애 내성

데이터센터 설계의 최고봉이다. 완전히 이중화된 시스템을 한 단계 더 넘어, 2N+1 구성, 즉 모든 것이 두 배로 존재하며 거기에 추가로 예비까지 갖춘다. 어떤 단일 장애가 발생하더라도, 심지어 예기치 못한 치명적 사건이 발생하더라도 서비스가 중단되지 않도록 설계되었다. '무정지'를 목표로 한다. 연간 다운타임은 겨우 26.3분 이하다. 금융 기관의 핵심 시스템이나 국가 기간망처럼 단 1초의 중단도 허용되지 않는 환경에서 요구되는 수준이다.


2. 패러다임의 전환: AI 데이터센터의 등장

그런데 생성형 AI의 등장은 이 모든 전통적인 가치와 설계 철학에 근본적인 의문을 던졌다. ChatGPT를 학습시키고, 거대 언어모델을 구동하며, Stable Diffusion으로 이미지를 생성하는 데 필요한 연산량은 기존의 웹 서비스나 데이터베이스 워크로드와는 차원이 달랐다. 이는 단순히 '더 많은 서버가 필요하다'는 양적인 문제가 아니라, 데이터센터를 설계하는 철학 자체를 바꿔야 하는 질적인 변화였다.

AI 워크로드의 특성을 이해하면 왜 패러다임이 바뀌어야 했는지가 명확해진다.

전통적인 서비스는 수많은 사용자의 요청을 동시다발적으로 처리하는 구조였다면, AI 모델 학습은 수천, 수만 개의 GPU가 며칠, 몇 주, 심지어 몇 달 동안 단 하나의 거대한 계산 작업을 동시에 수행하는 구조다.

이때 중요한 것은 '혹시 모를 장애에 대비한 무중단 운영'이 아니라, '모든 GPU가 최대 성능으로 쉬지 않고 돌아가는 것'이었다. 우선순위가 완전히 뒤바뀐 것이다.


2.1 전통 데이터센터 vs. AI 데이터센터: 무엇이 달라졌나

이 변화를 가장 명확하게 보여주는 것이 바로 아래 비교표다.

data center comparison.png

전통 데이터센터에서 하나의 서버 랙이 소비하는 전력은 대략 5kW에서 많아야 15kW 정도였다.

하지만 NVIDIA H100 GPU 8개를 탑재한 AI 서버 랙은 약 50kW를 소비하고, 최신 GB200 NVL72 랙은 무려 120kW에 달한다. 이는 일반 가정 40~50 가구가 동시에 사용하는 전력량이 단 하나의 랙에서 소비된다는 의미다.


2.2 초고밀도, 초고전력: 공기로는 더 이상 감당할 수 없다

전력 밀도가 이렇게 높아지면 가장 먼저 부딪히는 문제가 바로 '냉각'이다.

GPU는 엄청난 연산을 수행하면서 동시에 엄청난 열을 발생시킨다. 하나의 GPU가 수백 와트의 열을 내뿜고, 이것이 8개, 72개씩 한곳에 집중되면 그 온도는 상상을 초월한다.

전통적인 데이터센터에서 사용하던 공랭식 냉각, 즉 찬 공기를 불어넣어 뜨거운 공기를 빼내는 방식으로는 이 열을 감당할 수 없다. 공기의 열전달 효율은 한계가 명확하다.

아무리 강력한 팬을 돌려도, 아무리 정교한 기류 설계를 해도, 120kW가 한 곳에서 쏟아지는 열을 공기만으로 식히는 것은 물리적으로 불가능에 가깝다.

설령 가능하다 해도 그 과정에서 소비되는 전력과 소음, 그리고 공간 낭비는 비효율의 극치가 된다.

그래서 등장한 것이 액랭식 냉각(Liquid Cooling)이다. 물이나 특수 냉각액은 공기보다 열전달 효율이 수십 배 높다.

AI 데이터센터에서는 두 가지 방식의 액랭식 냉각이 사용된다.

하나는 서버 전체를 특수 냉각액에 담가버리는 침지식 냉각(Immersion Cooling)이고, 다른 하나는 서버 내부, 특히 CPU와 GPU에 직접 냉각수 파이프를 연결하여 열을 빼내는 직접 액체 냉각(Direct Liquid Cooling, DLC)이다. 이제 AI 데이터센터를 설계한다는 것은, 건물을 지을 때부터 바닥과 천장에 냉각수가 흐를 수 있는 거대한 배관망을 미리 깔아놓는다는 것을 의미한다.


2.3 회복탄력적 설계: Tier를 넘어선 새로운 철학

전통 데이터센터가 Tier 3, Tier 4를 통해 하드웨어 이중화로 무중단을 달성하려 했다면, AI 데이터센터는 다른 접근을 택했다. 바로 '회복탄력적 설계(Resilient Design)'다.

이 개념은 간단하다. AI 모델 학습은 수만 개의 GPU가 협력하여 하나의 거대한 계산을 수행하는 작업이다. 만약 그중 일부 GPU나 서버에 문제가 생겨도, 소프트웨어 레벨에서 그 작업을 다른 정상 작동하는 GPU에 재분배하면 된다. 물론 전체 속도는 조금 느려지지만, 학습 자체는 멈추지 않고 계속된다.

체크포인트(Checkpoint) 시스템을 통해 일정 시간마다 학습 상태를 저장해 두면, 설령 더 큰 문제가 발생하더라도 처음부터 다시 시작할 필요 없이 마지막 저장 지점부터 재개할 수 있다.

이러한 접근 방식은 하드웨어를 이중, 삼중으로 구축하는 Tier 방식보다 훨씬 비용 효율적이다.

AI 워크로드는 1초의 중단이 치명적인 금융 거래 시스템이 아니다. 몇 분, 심지어 몇 시간의 중단이 발생하더라도 학습은 결국 완료된다. 중요한 것은 '절대 멈추지 않는 것'이 아니라, '최대한 많은 GPU를 최대한 빠르게 돌리는 것'이다. 이것이 AI 데이터센터가 선택한 새로운 철학이다.


3. 생태계의 지배자: 엔비디아의 수직 통합 전략

AI 데이터센터를 이야기할 때 엔비디아를 빼놓을 수 없다. 아니, 사실 엔비디아 없이는 현재의 AI 혁명 자체가 불가능했을지도 모른다. 엔비디아는 단순히 '좋은 GPU를 만드는 반도체 회사'를 넘어섰다. 이들은 AI 데이터센터를 구성하는 모든 핵심 레이어를 직접 설계하고, 통제하며, 그것을 통해 전체 생태계의 표준을 정의하는 위치에 올라섰다.


3.1 풀 스택 지배력: 칩에서 클러스터까지

엔비디아의 진짜 힘은 그들이 보유한 '풀 스택(Full Stack)' 역량에 있다. 이는 AI 연산에 필요한 하드웨어와 소프트웨어의 모든 계층을 수직적으로 통합했다는 의미다.


하드웨어 레이어: 성능의 기반

엔비디아의 GPU는 AI 연산에서 압도적인 성능을 자랑한다.

H100, H200, 그리고 최신 GB200 같은 GPU들은 단순히 빠른 것을 넘어, AI 워크로드에 특화된 아키텍처를 갖추고 있다. Tensor Core라는 특수 연산 유닛은 행렬 곱셈 같은 AI 핵심 연산을 기존 방식보다 수십 배 빠르게 처리한다.

하지만 GPU 하나만으로는 부족하다. 현대의 AI 모델은 수천, 수만 개의 GPU가 동시에 협력해야 한다. 이때 GPU 간의 데이터 교환 속도가 병목이 되면 아무리 GPU가 빠르더라도 의미가 없다.

엔비디아는 이 문제를 NVLinkNVSwitch라는 자체 인터커넥트 기술로 해결했다. NVLink는 GPU들을 초고속으로 연결하고, NVSwitch는 수백 개의 GPU를 병목 없이 그물망처럼 엮어낸다. 이는 마치 수백 개의 뇌가 하나처럼 동작하도록 만드는 신경망과 같다.

여기서 멈추지 않는다. 서버와 서버를 연결하는 네트워킹 레벨에서도 엔비디아는 Mellanox를 인수하여 InfiniBandSpectrum-X 이더넷 기술을 확보했다. 이제 수만 개의 GPU가 탑재된 수천 대의 서버를 하나의 거대한 슈퍼컴퓨터처럼 묶는 네트워크 인프라까지 엔비디아가 직접 제공한다.


소프트웨어 레이어: 개발자를 가두는 생태계

하드웨어가 아무리 뛰어나도 그것을 쉽게 사용할 수 있는 소프트웨어가 없으면 무용지물이다.

엔비디아는 이미 2000년대 중반부터 CUDA라는 GPU 프로그래밍 플랫폼을 구축해 왔다. CUDA는 이제 GPU 컴퓨팅의 사실상 표준이 되었다. 전 세계 수백만 명의 개발자들이 CUDA로 코드를 작성하고, 수많은 AI 프레임워크(PyTorch, TensorFlow 등)가 내부적으로 CUDA에 의존한다.

엔비디아는 여기에 cuDNN(딥러닝 연산 최적화), TensorRT(추론 가속), Triton(추론 서버) 같은 수많은 소프트웨어 라이브러리를 무료로 제공한다. 개발자들은 이 라이브러리를 사용하면 별도의 최적화 없이도 최고의 성능을 얻을 수 있다. 결과적으로 개발자들은 엔비디아 생태계에 갇히게 된다. 다른 회사의 AI 칩으로 옮기려면 모든 코드를 다시 짜야하고, 그 과정에서 성능도 보장할 수 없다. 이것이 바로 엔비디아의 진짜 '해자(moat)'다.


시스템 레이어: 완성품까지 제공

엔비디아는 이 모든 하드웨어와 소프트웨어를 최적으로 결합한 '레퍼런스 디자인(Reference Design)'까지 제공한다. DGX 시스템은 8개의 GPU, NVLink, 고성능 CPU, 스토리지, 네트워킹이 하나의 서버로 완벽하게 통합된 제품이다. 고객은 이것을 구매해서 전원만 꽂으면 바로 AI 개발을 시작할 수 있다.

더 나아가 SuperPOD는 수백에서 수천 개의 GPU가 탑재된 완전한 AI 클러스터를 턴키(Turn-key) 방식으로 제공한다. 데이터센터 설계부터 네트워킹, 소프트웨어 스택까지 모든 것이 사전 통합되어 있다.

고객은 그저 부지와 전력만 제공하면, 엔비디아가 모든 것을 구축해 준다.


3.2 건축가의 등장: 엔비디아가 직접 데이터센터를 짓는 이유

최근 엔비디아는 한 걸음 더 나아가 직접 데이터센터를 구축하고 운영하기 시작했다. 칩 메이커가 왜 직접 건축가가 되려는 걸까? 여기에는 여러 전략적 이유가 있다.


기술 증명의 쇼케이스

엔비디아가 자체 구축한 슈퍼컴퓨터 'Eos'는 자사 기술력을 의심의 여지없이 증명하는 살아있는 증거다.

"우리 GPU와 소프트웨어, 네트워킹을 이렇게 결합하면 이 정도 성능이 나옵니다"라는 것을 벤치마크와 논문이 아니라, 실제로 작동하는 시스템으로 보여주는 것이다. 이것보다 강력한 마케팅은 없다.


최고의 R&D 테스트베드

동시에 이 인프라는 엔비디아 내부 엔지니어들이 차세대 기술을 가장 먼저 테스트하고 검증하는 실험실이 된다. 새로운 GPU 아키텍처, 새로운 인터커넥트 기술, 새로운 소프트웨어 최적화 기법을 실제 대규모 환경에서 돌려보며 문제를 발견하고 개선할 수 있다. 이는 경쟁사가 절대 따라올 수 없는 엄청난 이점이다.


새로운 비즈니스 모델: DGX Cloud

엔비디아는 이제 단순히 하드웨어를 파는 것을 넘어, 직접 구축한 인프라의 컴퓨팅 파워를 빌려주는 클라우드 서비스 'DGX Cloud'를 제공한다. 이는 마이크로소프트 Azure나 AWS 같은 클라우드 사업자의 영역에 발을 들인 것이다. 엔비디아는 이제 하드웨어 판매로 한 번 돈을 벌고, 그 하드웨어를 활용한 서비스로 지속적인 수익을 창출하는 구조를 만들었다.


AI 주권 솔루션 판매

전 세계 각국 정부와 기업들은 이제 'AI 주권(AI Sovereignty)'을 이야기한다.

미국의 거대 클라우드 기업에 종속되지 않고, 자국 또는 자사의 데이터와 AI 역량을 독립적으로 확보하고 싶어 한다. 엔비디아는 이들에게 완벽한 답을 제시한다. "우리가 설계한 최첨단 AI 데이터센터를 통째로 구축해 드리겠습니다. 당신의 땅에, 당신의 소유로." 이것이 바로 엔비디아가 데이터센터 '건축가'가 된 진짜 이유다.


4장. 서버 벤더들의 진짜 경쟁: 같은 엔진, 다른 차체

엔비디아가 생태계의 설계자라면, Dell, HPE, Supermicro, Lenovo 같은 서버 제조사들은 그 생태계 안에서 경쟁하는 플레이어들이다. 흥미로운 점은 이들이 모두 동일한 출발선에서 시작한다는 것이다. 이들은 모두 엔비디아로부터 동일한 HGX 플랫폼을 공급받는다.


4.1 HGX 플랫폼: 모두가 받는 동일한 심장

엔비디아 HGX 플랫폼은 8개의 최신 GPU(예: H100, H200)와 이들을 연결하는 NVLink 및 NVSwitch가 하나의 보드에 통합된, 말하자면 'AI 엔진'이다. 서버 제조사들은 이 엔진을 받아서 그 주변을 설계한다.

CPU는 어떤 것을 쓸지, 메모리는 얼마나 장착할지, 스토리지는 어떻게 구성할지, 전력 공급은 어떻게 설계할지, 냉각은 어떤 방식으로 할지를 결정하는 것이다.

그렇다면 질문이 생긴다.

모두가 같은 엔진을 받는데, 성능 차이가 있을까? 순수한 AI 연산 속도, 즉 GPU가 초당 처리하는 부동소수점 연산 횟수(FLOPS)나 모델 학습 시간 자체는 서버 벤더별로 극적인 차이를 보이지 않는다.

같은 GPU를 쓰는데 다를 수가 없다. 하지만 진짜 차이는 다른 곳에서 나타난다.


4.2 진짜 경쟁 영역: 냉각, 전력, 안정성

냉각 기술의 차이

8개의 H100 GPU가 탑재된 HGX 플랫폼은 약 10,000W(10kW) 이상의 열을 발생시킨다. 이것을 어떻게 효과적으로, 그리고 안정적으로 식히느냐가 서버의 장기 안정성과 수명을 결정한다. 냉각이 제대로 되지 않으면 GPU는 과열되고, 과열되면 성능을 스스로 낮추는 '쓰로틀링(Throttling)' 현상이 발생한다. 결국 같은 GPU를 써도 실제 성능은 떨어지게 되는 것이다.

일부 벤더는 공랭식과 액랭식을 결합한 하이브리드 방식을 채택하고, 일부는 완전한 직접 액체 냉각(DLC) 방식을 택한다. 냉각 파이프를 어떻게 배치하느냐, 냉각수 유량을 어떻게 제어하느냐, 냉각 시스템 자체의 전력 소비는 얼마나 되느냐에 따라 전체 시스템의 효율이 달라진다.

전력 공급 설계

10kW 이상의 전력을 안정적으로 공급하는 것도 쉬운 일이 아니다. 전력 공급 장치(PSU)의 효율, 전력 분배 회로의 설계, 전압 변동에 대한 내성 등이 모두 중요하다. 전력 공급이 불안정하면 GPU가 순간적으로 오류를 일으키고, AI 학습 과정에서는 이러한 작은 오류 하나가 전체 학습을 망칠 수 있다.

네트워킹 확장성

단일 서버의 성능도 중요하지만, 수십, 수백 대의 서버를 연결했을 때 전체 시스템이 얼마나 효율적으로 작동하느냐가 더 중요하다. 서버 간 네트워크 인터페이스를 어떻게 배치하느냐, 케이블 관리를 어떻게 하느냐, 네트워크 병목을 어떻게 최소화하느냐에서 벤더들의 설계 노하우가 드러난다.

관리 및 운영

대규모 AI 클러스터를 운영하다 보면 필연적으로 장애가 발생한다. 이때 어느 서버의 어느 GPU에 문제가 생겼는지를 얼마나 빠르게 진단할 수 있느냐, 원격으로 펌웨어를 업데이트하고 문제를 해결할 수 있느냐, 물리적으로 부품을 교체해야 할 때 얼마나 쉽게 접근할 수 있느냐가 운영 효율을 좌우한다.


4.3 결국은 TCO (Total Cost of Ownership)

고객들이 서버를 선택할 때 보는 것은 단순히 초기 구매 가격이 아니다. 총 소유비용(TCO)을 본다. 이는 초기 구매가, 운영 기간 동안의 전력 비용, 냉각 비용, 유지보수 비용, 장비의 수명, 그리고 장애로 인한 다운타임 손실까지 모두 포함한 개념이다.

예를 들어 A 벤더의 서버가 B 벤더보다 초기 가격이 10% 비싸더라도, 냉각 효율이 뛰어나 전력 비용이 15% 적게 들고, 장애율이 낮아 유지보수 비용이 적게 든다면, 5년 운영 기준으로 오히려 A 벤더가 더 저렴할 수 있다. 대규모 AI 인프라를 구축하는 하이퍼스케일러들은 이런 계산을 매우 정교하게 수행한다.

결국 서버 벤더들의 경쟁은 단순한 '성능 경쟁'이 아니라, 대규모 확장 시의 안정성, 운영 효율성, 장기적인 총 소유비용에서의 경쟁이다. 같은 엔진을 받아도 누가 더 나은 차체를 만드느냐의 싸움인 것이다.




지금까지 우리는 AI 데이터센터라는 거대한 기술의 집합체를 해부해 보았습니다.

그렇다면 이 첨단 기술의 결정체는 지금 이 순간, 전 세계에서 어떤 전략으로, 얼마나 거대한 규모로 지어지고 있을까요?

2부에서는 AI 데이터센터를 둘러싼 글로벌 거인들의 천문학적인 전쟁과, 그 전쟁이 만들어낼 AI의 경이로운 미래를 조망해 보겠습니다."

이전 02화디지털 전환의 시대는 끝났다.