xAI의 Grok3 데이터센터 구축 과정에서 얻는 교훈
국민의힘과 정부는 2025년 2월 18일 당정 협의회를 열고, 내년 상반기까지 최첨단 GPU 보유량을 현재보다 10배 늘려 2만 장으로 확대하기로 했다. 이를 위한 2조 원 규모의 추가경정예산(추경) 편성을 추진할 계획이다.
또한, 올해 국내 고성능 GPU 1만 장을 확보해 국가 AI 컴퓨팅센터를 조기에 개소하고, AI·반도체·2차전지·바이오 분야 연구 대학생을 대상으로 장학 제도를 혁신해 중장기적으로 무상교육을 추진할 방침이다. 국가 첨단 전략 기술을 연구하는 학생들에게 학자금 및 해외 유학 자금을 지원하는 방안이 논의되고 있다.
당정은 한국이 AI 3대 강국으로 도약하는 것을 목표로 예산을 증액할 계획이며, 지난해 국회 과방위에서 합의된 AI 인프라 예산 1조 2000억 원에 8000억 원을 추가해 2조 원을 편성할 방안을 검토 중이다.
한편, 민주당은 당정의 AI 경쟁력 강화 움직임을 긍정적으로 평가하면서도, GPU 2만 장 확보 계획이 기존 정부 예산안의 1만8000장을 과대포장한 것이 아닌지 의문을 제기했다. 아울러, 정부·여당이 구체적인 AI 민생 추경안을 조속히 제시할 것을 촉구했다.
https://www.chosun.com/politics/politics_general/2025/02/19/GCIOA4YKXNHADOB46PY3QIL4DY/
한국시간으로 2025년 2월 18일 일론 머스크가 이끄는 AI 기업인 xAI팀에서 Grok3 모델에 대한 라이브 데모가 있었다. Grok3의 데이터센터 구축 과정에 대한 이야기를 통해, 단순히 고성능 GPU를 많이 확보하는 것이 전부가 아니라, 이를 실제 구현하는데 있어서 공간 확보와 전력 공급, 전력 변동과 통신에 대한 안정적인 흐름 관리 그리고 냉각 시스템 관리가 중요함을 알 수 있었다.
https://www.youtube.com/watch?v=H-6c8GSU2d8
일론 머스크는 소셜미디어 X(과거 트위터)에서 열린 온라인 행사에서 xAI는 “그록 3이 이전 버전인 그록 2보다 성능이 크게 향상되었다”고 강조했다.
xAI에 따르면, 그록 3는 이전 모델보다 10배 이상의 강력한 컴퓨팅 성능을 갖추고 있으며, 이를 기반으로 더욱 뛰어난 문제 해결 능력을 발휘한다. xAI 측은 “그록 3의 혁신적인 성능은 방대한 데이터 학습과 우수한 추론 능력에서 비롯된다”고 설명했다. 실제 발표회에서는 우주 궤도 시뮬레이션 수행과 실시간 게임 제작을 선보이며 향상된 기능을 입증했다.
그록 3의 개발에는 xAI의 대규모 투자가 핵심적인 역할을 했다. xAI는 자체 데이터센터 구축에 막대한 자금을 투입했으며, 현재 총 20만 개의 GPU를 보유하고 있는 것으로 전해졌다. 초기 개발 과정에서는 10만 개 이상의 엔비디아 H100 GPU를 활용했으며, 이후 92일 만에 GPU 수를 두 배로 늘리며 AI 모델의 규모를 더욱 확장했다.
Grok3의 데이터센터 구축 과정은 기존 데이터센터 업체의 예상보다 훨씬 빠른 122일 만에 10만 개의 GPU를 운영할 수 있도록 설계된 대규모 프로젝트였다. 원래 자체적으로 데이터센터를 운영할 계획은 없었으나, 외부 데이터센터 업체에 문의한 결과 10만 개의 GPU를 한곳에서 운영하는 데 18~24개월이 소요된다는 답변을 받고, 경쟁에서 밀리지 않기 위해 직접 구축하기로 결정했다.
우선, 건물이 필요했다. 신규 건설이 불가능했기 때문에 기존 건물 중 상태가 양호하면서도 기업이 파산하여 사용되지 않는 시설을 찾아야 했다. 그렇게 발견된 곳이 멤피스의 폐쇄된 일렉트로룩스 공장이었다. 이 공장은 데이터센터로 활용하기에 적합했으며, 멤피스는 엘비스 프레슬리의 고향이자 고대 이집트의 수도와 같은 이름을 가진 지역이었다.
다음으로, 전력 공급이 핵심 과제였다. 최소 120MW가 필요했지만, 건물의 기존 전력 용량은 15MW에 불과했다. 목표는 20만 개의 GPU를 가동할 수 있는 250MW(1/4GW) 확보였다. 이를 위해 대규모 발전기를 임대하여 건물 한쪽에 배치했고, 냉각을 위해 반대편에는 이동식 냉각 장치를 대량으로 배치했다. 미국 내 이동식 냉각 용량의 1/4을 임대할 정도로 규모가 컸다.
GPU 설치도 중요한 단계였다. 모든 GPU는 액체 냉각 방식이었으며, 높은 밀도를 유지하기 위해 필수적인 설비였다. 그러나 대규모 액체 냉각 데이터센터는 전례가 없어, 배관 설치와 시스템 최적화에 상당한 노력이 필요했다.
하지만 가장 큰 문제는 전력 변동이었다. 10만~20만 개의 GPU가 100밀리초 이내에 가동과 정지를 반복하며 큰 전력 변동을 일으켰고, 이로 인해 발전기들이 불안정하게 작동했다. 이를 해결하기 위해 테슬라의 메가팩을 도입해 전력을 버퍼링했지만, 기본 상태로는 급격한 변동을 감당하지 못했다. 따라서 XAI와 테슬라는 협력하여 메가팩의 소프트웨어를 새롭게 프로그래밍했고, 이를 통해 전력을 안정적으로 조절할 수 있었다.
마지막으로, 모든 GPU 간 원활한 통신을 위해 네트워크 문제를 해결해야 했다. 새벽 4시까지 네트워크 케이블을 디버깅하며 원인을 분석했고, 결국 BIOS 설정 오류를 발견했다. 정상 작동하는 머신과 그렇지 않은 머신의 LSPCI 출력을 비교하며 문제를 해결한 결과, 새벽 4시 20분경에 네트워크 장애를 완전히 복구할 수 있었다.
이러한 과정을 거쳐 xAI 팀은 불과 122일 만에 20만 개의 GPU를 운영하는 데이터센터를 완성했다.
한국 역시 향후 AI 관련 경쟁력을 구축해 나가는 데 있어 단순한 GPU 확보를 넘어, 이를 실제로 활용할 수 있는 인프라와 운영 역량을 확보하는 것이 필수적이다. Grok3의 사례에서 보듯이, 최첨단 GPU를 확보하는 것만으로는 충분하지 않으며, 이를 원활하게 운영하기 위해서는 공간 확보, 전력 공급 및 변동 관리, 냉각 시스템, 네트워크 안정성 등 종합적인 인프라 구축이 필요하다.
따라서, 한국이 AI 3대 강국으로 도약하기 위해서는 GPU 및 AI 인프라 확충을 위한 예산 투입뿐만 아니라, 데이터센터 설계 및 운영 기술, 대규모 전력 관리 시스템, 고성능 네트워크 인프라, 효율적인 냉각 기술 등에 대한 연구 및 투자가 병행되어야 한다. 또한, AI 산업을 지속적으로 성장시키기 위해서는 AI 반도체, 소프트웨어 최적화, 클라우드 컴퓨팅 등의 기술 개발과 함께, 이를 운영할 수 있는 고급 인재를 양성하는 것이 핵심 과제가 될 것이다.
특히, AI 연구를 위한 장학 제도를 강화하고 국가 전략 기술 연구를 수행하는 인재들에게 학자금 및 연구 지원을 확대하는 정책은 장기적으로 AI 산업 경쟁력을 높이는 데 기여할 것이다. 또한, 해외 AI 인재 유치를 위한 정책적 지원과 국내 연구 환경 개선을 통해 세계적인 수준의 연구 생태계를 조성하는 것이 중요하다.
한 투자자 그룹이 한국에 세계 최대 규모의 인공지능(AI) 데이터센터를 건설할 계획을 발표했다. 이는 전 세계적으로 AI에 대한 수요가 급증하는 가운데, 한국이 글로벌 데이터센터 허브로 자리 잡을 가능성을 보여주는 사례다.
이 프로젝트는 최대 350억 달러(약 46조 원) 규모의 투자로 진행되며, 완공 시 최대 3기가와트(GW)의 전력을 공급받는 데이터센터가 될 전망이다. 이는 미국에서 오픈AI(OpenAI)와 소프트뱅크(SoftBank)가 추진 중인 '스타게이트(Stargate)' 프로젝트(1GW)의 세 배에 달하는 규모다.
전 세계적으로 희소한 ‘1GW 이상’ 데이터센터
일반적으로 1GW 이상의 전력을 확보한 데이터센터는 전 세계적으로도 드물다. AI 모델이 더욱 복잡해지고, 이를 운용하기 위한 AI 반도체의 전력 소비량이 급증하면서, 데이터센터의 전력 확보는 점점 더 중요한 이슈가 되고 있다. 2030년까지 초대형 AI 모델 개발에는 5GW 이상의 전력이 필요할 것으로 예상된다는 분석이 나오고 있다.
미국에서는 저렴한 토지와 충분한 전력 공급이 가능한 지역이 점점 줄어들고 있으며, 전력망 문제로 인해 AI 데이터센터 확장이 어려운 상황이다. 이에 따라 글로벌 기업들은 데이터센터 구축을 위한 새로운 대안을 모색하고 있다.
한국의 전력·인프라 강점 주목
이번 데이터센터 프로젝트는 한국 남서부 지역에 건설될 예정으로, 2025년 초 공사를 시작해 2028년 완공을 목표로 한다. 투자 그룹은 ‘Stock Farm Road’라는 회사로 조직됐으며, 초기에 100억 달러(약 13조 원)를 투입하고, 장기적으로 350억 달러까지 투자를 확대할 계획이다.
Stock Farm Road의 공동 설립자는 LG 창업주의 손자(LS 구자홍 회장의 장남, 구본웅)인 브라이언 구(Brian Koo)와 영국·요르단 기반 투자회사 BADR Investments의 설립자인 아민 바드르엘딘(Amin Badr-El-Din)이다.
브라이언 구는 "한국의 데이터센터는 현재 국내 수요를 충족하는 수준이지만, 글로벌 허브로 성장할 충분한 조건을 갖추고 있다"고 강조했다.
한국 정부와의 협력 및 글로벌 경쟁
투자자들은 한국 전라남도와 협약을 체결하여 에너지·수자원 공급 등의 지원을 받을 계획이다. 그러나 데이터센터 건설을 위한 글로벌 공급망 문제와 엔비디아(Nvidia) AI 반도체 공급 부족 등은 프로젝트 진행에 변수가 될 수 있다.
현재 오픈AI와 소프트뱅크가 5,000억 달러(약 660조 원) 규모의 '스타게이트' 프로젝트를 주도하고 있으며, 유럽·중동에서도 데이터센터 건설이 활발히 진행 중이다. 아시아에서는 말레이시아, 태국, 인도 등에서 저렴한 토지와 인건비를 앞세운 경쟁이 치열하다.
P.S. 다만 Stock Farm Road는 실체가 아직 제대로 확인되지 않은 회사이며, 브라이언 구(구본웅) 역시 과거 투자로 인해 큰 실패를 경험한 바 있다. 무엇보다 아직 이 프로젝트는 투자 유치 계획만 밝힌 상태이지, 그 어떤 진행상황도 아직 확인 된 바 없어, 각별한 유의가 필요해 보인다.