brunch

AI 시대, 전력과 메모리가 미래의 승패를 판가름한다

연산 중심을 넘 전기·변압기·CXL 기반 데이터센터로의 전환 시작

by 드라이트리

금세기 최대 테크 혁명이 AI라면, 그 중심에는 계산 능력뿐 아니라 숨겨진 두 축, 전력과 메모리 인프라가 있다는 사실을 주목해야 합니다. 최근 일론 머스크는 트위터(X)를 통해 AI 계산량이 6개월마다 10배씩 증가하고 있으며 이제 진짜 병목은 칩이 아니라 전력 설비, 특히 변압기가 될 것이라고 강조했습니다. 그는 “Transformer(변압기) 없는 AI는 작동할 수 없다”라는 말장난 섞인 경고를 던지면서, 가까운 미래에는 전기 자체의 부족이 더 심각한 문제가 될 것이라고 덧붙였습니다. 이는 단순한 과장이 아니라 AI와 전기차라는 양대 전력 수요가 동시에 폭발적으로 증가하는 현 상황에서 충분히 현실적인 우려입니다. 이미 데이터센터는 전체 전력 소비의 수 퍼센트를 차지할 정도로 커졌고, AI 전용 데이터센터는 중공업 수준의 전력을 요구하고 있습니다. 전력망과 변압기, 송전 설비의 부족은 곧 AI 산업의 아킬레스건으로 작용할 수 있습니다.


twit.png


https://x.com/elonmusk/status/1907329696523850204?utm_source=chatgpt.com


변압기와 전력망이 왜 ‘새로운 병목’이 되었는지 현장의 목소리도 분명합니다. 세계 최대 변압기 업체인 히타치 에너지 CEO는 2025년 7월 인터뷰에서 “AI 학습이 시작되면 데이터센터 전력 수요가 수 초 내 10배까지 치솟는 스파이크가 발생한다”고 경고했습니다. 이 급등은 재생에너지의 간헐성과 맞물리며 계통 안정성을 흔들 수 있고, 각국은 대형 변압기 생산을 위한 수십억 달러 규모의 증설과 인력 확충에 나서고 있습니다. 수요 급증과 특수 인력 부족 탓에 변압기 납기지연과 주문 적체도 커졌습니다.


megablock.jpg


이 흐름 속에서 테슬라는 2025년 9월 8~9일(현지시간) 라스베이거스 RE+ 행사 기간에 메가팩 3(Megapack 3)와 메가블록(Megablock)을 공개했습니다. 메가블록은 네 개의 메가팩을 현장 맞춤 공정 없이 ‘플러그 앤 플레이’로 묶는 유틸리티급 BESS이며, 현장 설치 시간을 23% 단축하고 시공비를 최대 40% 절감할 수 있다고 소개됐습니다. 특히 변압기와 스위치기어가 통합된 ‘팩토리 프리패브’ 구성은 현장 공사를 대폭 줄여 대규모 전력 보강에 필요한 리드타임을 압축합니다. 공업화된 조립식 변전·저장 블록을 대량으로 찍어내 계통 증설의 속도를 전례 없이 끌어올리겠다는 의지로 읽힙니다.


여기에 더해, 머스크가 메가팩 라인을 위한 변압기를 직접 만들겠다고 X에서 밝혔다고 전하는 보도와 X 게시물들이 이어졌습니다. 이는 테슬라가 변압기 공급망 병목을 자체적으로 흡수하려는 신호로 해석됩니다. 다만 공식 보도자료 수준으로 교차확인된 문구는 아직 제한적이므로, 현재 시점에선 머스크의 X 게시와 복수 매체 보도에 기반한 ‘의사 표시’로 받아들이는 것이 타당합니다.


그렇다면 전력·변압기 문제를 해결한다고 해서 AI 인프라의 병목이 사라질까요? Panmnesia XRIV 기술보고서가 던지는 답은 “아직 갈 길이 멀다”입니다. 이 보고서는 현대 AI의 핵심 병목이 더 이상 ‘연산’이 아니라 ‘메모리’와 ‘통신’임을 정면으로 다룹니다.


이와 맞물려 Panmnesia XRIV 논문은 또 다른 관점에서 병목을 짚어냈습니다. AI 인프라의 가장 큰 문제는 연산이 아니라 메모리와 통신이라는 것입니다. 최신 GPU가 제공하는 HBM 용량은 수백 GB에 불과하고, 수천억 파라미터를 가진 대규모 언어 모델을 구동하려면 수백 테라바이트의 메모리가 필요합니다. 이를 해결하기 위해 여러 GPU를 병렬로 묶지만, 이 과정에서 GPU 간 통신 오버헤드가 전체 학습 시간의 35~70%를 차지합니다. PCIe 기반 외부 메모리 접근은 지연이 수백 나노초에서 수십 마이크로초까지 발생해 GPU 활용률을 떨어뜨립니다. Panmnesia가 주목한 해법은 CXL(Compute Express Link) 기반의 모듈형 아키텍처입니다. CPU, GPU, 메모리를 분리해 각각을 트레이 단위로 구성하고, CXL 스위치를 통해 일관성을 유지하면서 대용량 메모리를 풀링(pooling)해 공유할 수 있도록 설계하는 것입니다. 이를 통해 GPU 메모리 한계를 극복하고, 지연을 대폭 낮추며, 자원을 유연하게 재배치할 수 있습니다. 실증 실험에서는 RAG, DLRM, MPI 기반 과학 시뮬레이션에서 기존 대비 수배 이상의 성능 향상과 지연 감소가 확인되었고, 데이터 이동량도 크게 줄어드는 결과를 보여주었습니다.


https://blocksandfiles.com/wp-content/uploads/2025/07/Panmnesia-XRIV-paper.pdf


Panmnesia가 제안하는 축은 CXL(Compute Express Link) 기반 모듈형 데이터센터입니다. 요지는 메모리 컨트롤러를 연산장치에서 분리(disaggregate)해 외부 메모리 풀을 만들고, 여러 가속기·서버가 캐시 일관성(coherence)을 유지한 채 유연하게 공유하도록 하자는 것입니다. 이렇게 하면 GPU 인접의 고속 로컬 메모리(HBM)는 ‘핫’한 데이터에, 외부 CXL 메모리 풀은 거대한 임베딩·KV 캐시 등 ‘콜드·웜’ 데이터에 배치해 지연과 비용을 최적화할 수 있습니다.


문제는 가속기 간 통신입니다. NVLink·NVLink Fusion, UALink 등 이른바 XLink(가속기 중심 인터커넥트)는 랙 내부 단일 홉 Clos 토폴로지로 매우 낮은 지연과 높은 대역폭을 내지만, 메모리 일관성이 없고 규모 확장이 제한적입니다. 이에 Panmnesia는 CXL-over-XLink라는 하이브리드 설계를 제시합니다. 랙 내부(스케일-업)는 NVLink/UALink로 초저지연을 확보하고, 랙 간(스케일-아웃)은 CXL로 일관성 있는 메모리 공유를 이어 붙여, 장거리 RDMA 교환을 줄이고 대규모 메모리풀을 유지하는 구조입니다.


https://ar5iv.labs.arxiv.org/html/2507.07223


이 설계가 공허한 이상론이 아니라는 점은 실증 수치가 보여줍니다. CXL 3.0 규격을 따르는 프로토타입으로 RAG/Graph-RAG는 기존 대비 실행 시간 14.35배 단축, 데이터 이동량 최대 21.1배 감소를 보였고, DLRM에선 추론 3.32배, 텐서 초기화 2.71배 가속이 관측되었습니다. MPI 기반 과학 시뮬레이션에서도 통신 오버헤드 최대 5.02배 감소 등 의미 있는 개선이 보고되었습니다. 수요가 폭증하는 검색·추천·대규모 추론 워크로드에서 메모리·통신이 병목임을 수치로 입증한 셈입니다.


cxl.png


설계의 공학적 디테일도 제시됩니다. 메모리 트레이는 범용 JBOM(Just a Bunch Of Memory)로 갈지, CXL·DRAM 컨트롤러를 SoC로 통합한 전용 메모리 박스로 갈지 선택지가 있습니다. 후자는 기존 DDR/LPDDR 모듈 재활용과 관리 단순화로 총소유비용(TCO) 절감 여지가 있지만, 데이터 무결성 관리 등 구현 복잡도는 높습니다. 스위치의 위치(트레이 내/별도 스위치 트레이)와 토폴로지(Clos, 3D-Torus, DragonFly) 선택도 비용·성능·확장성의 균형을 좌우합니다. LLM의 지역성·통신 패턴을 감안하면 단일 홉 Clos가 실용안으로 제시됩니다.


clos.png


이 지점에서 머스크의 전력·변압기 발언과 Panmnesia의 메모리·인터커넥트 해법이 하나의 문장으로 결합됩니다. 전력 인프라를 확장하지 못하면 데이터센터는 기동조차 어렵고, 메모리·통신 아키텍처를 재설계하지 못하면 GPU를 아무리 늘려도 효율이 나오지 않습니다. 테슬라가 공장 제작(Off-site)된 변압기·스위치기어 통합 BESS 블록으로 현장 리드타임을 줄이고, 심지어 변압기 자체 내재화까지 시사한 배경은 바로 여기에 있습니다. 전력 인프라의 공업화·모듈화와, 데이터센터 내부 자원의 분해·재조합이 동시에 진행될 때만 AI 인프라의 ‘진짜’ 확장이 가능합니다.


또 하나 간과하기 어려운 사실이 있습니다. 머스크는 2025년 중반 이후 xAI의 초대형 데이터센터 구축을 추진하며 기가와트급 전력 수요를 언급했습니다. 몇몇 보도에 따르면 테네시 등지에서 천연가스 발전을 포함한 전력 조달 논의가 진행되고 있으며, 2026년 전력 병목 우려도 거론됐습니다. 이와 같은 초대형 수요는 변압기·개폐장치·초고압 송전설비의 팩토리 프리패브화가 아니고서는 제때 대응하기 어렵습니다.


종합하면, 전력(발전·송전·변전)과 메모리(용량·일관성·지연), 인터커넥트(가속기 간·노드 간)는 같은 방정식의 미지수입니다. 하나라도 뒤처지면 전체가 멈춥니다. 머스크가 말한 “칩 → 변압기 → 전기”라는 순차적 병목은 외연의 제약을, Panmnesia XRIV가 제시한 “HBM 로컬 + CXL 메모리 풀 + XLink 초저지연”은 내연의 제약을 푸는 열쇠입니다.


전자는 계통의 시간(납기·증설 속도)을, 후자는 계산의 시간(지연·스루풋)을 단축합니다. 두 축이 동시에 맞물릴 때만, AI 인프라는 빠르게·크게·싸게 스케일합니다. 2025년 하반기 현재, 전 세계 전력·변압기 증설 투자와 함께, CXL 3.x·NVLink/UALink·실리콘 포토닉스가 교차하는 하이브리드 아키텍처 논의가 가속하는 이유가 바로 여기에 있습니다.


앞으로의 과제도 명확합니다. 첫째, 전력망의 산업화 속도를 높여 대형 변압기와 변전 설비의 납기를 단축해야 합니다(테슬라식 공업화·모듈화가 하나의 방향입니다). 둘째, CXL-over-XLink와 같은 하이브리드 설계를 실제 상용 GPU·CPU로 확산시키기 위해, 소프트웨어 오케스트레이션과 일관성 프로토콜, 토폴로지 자동화가 표준으로 자리 잡아야 합니다. 셋째, 워크로드 인지 메모리 배치—예컨대 KV 캐시·임베딩을 ‘핫/웜/콜드’로 구분해 HBM·CXL 풀을 가르는 정책—가 운영 체계와 프레임워크에 기본 탑재되어야 합니다. 이미 실증은 시작됐고, 전력과 메모리의 동시 혁신이 AI 확장성의 다음 단계를 열고 있습니다.


결국 전력과 메모리는 별개의 주제가 아닙니다. AI 데이터센터를 설계하는 기업과 국가에게 있어 전력망과 변압기를 안정적으로 확보하는 것, 그리고 CXL 기반 메모리 아키텍처로 통신 병목을 줄이는 것은 같은 선 위의 과제입니다. 머스크가 지적했듯이 변압기는 AI 인프라의 필수 조건이며, Panmnesia의 제안처럼 메모리와 통신을 분리하고 유연하게 재구성하는 혁신 없이는 대규모 AI는 지속 불가능합니다. 미래 세대의 AI 인프라가 안정적으로 성장하기 위해서는 더 많은 칩을 찍어내는 것보다 전력과 메모리라는 두 축을 어떻게 설계하고 운영할 것인지가 결정적 변수가 될 것입니다. AI 시대의 승패는 이제 계산력이 아니라 전력과 메모리에서 갈립니다.

keyword
매거진의 이전글핵추진 LNG선, 바다 위의 원자로