brunch

You can make anything
by writing

C.S.Lewis

by 조인후 Nov 14. 2024

국가 간 AI 경쟁에서 GPU보다 중요한 것이 있다

AI시대 Infrastructure의 현재와 미래

"AI에서 가장 중요한 것은 기반 인프라입니다."


ⓒSK텔레콤 뉴스룸


SK텔레콤의 유영상 대표가 'SK AI 서밋 2024'에서 강조한 이 말은 현재 AI 산업의 핵심을 정확히 짚어낸다. 우리가 일상적으로 사용하는 챗GPT나 AI 이미지 생성 등은 빙산의 일각에 불과하며, 그 아래에는 이를 지탱하는 거대한 인프라가 숨어있다. 세계적 시장조사기관 프리시던스리서치(Precedence Research)에 따르면, 2023년 전 세계 AI 시장 규모는 5,381억 달러(약 708조 원)에 달했으며, 2032년까지 2조 5,751억 달러 규모로 성장할 전망이다. 이는 한국의 2023년 GDP(약 2,200조 원)의 1.5배가 넘는 규모다.


AI 인프라는 마치 인간의 신체와 같다. 고성능 컴퓨터는 뇌처럼 복잡한 연산을 처리하고, 데이터센터는 근육처럼 막대한 양의 데이터를 저장하며, 통신망은 신경계처럼 정보를 전달한다. 이 세 요소가 완벽하게 조화를 이루어야 AI가 제대로 작동할 수 있다. 예를 들어, 우리가 자주 사용하는 AI 챗봇 한 번의 응답을 만들어내기 위해서는 수천 개의 GPU가 동시에 작동하고, 수백 테라바이트의 데이터가 처리되며, 이 모든 것이 1초 이내에 이루어져야 한다.


특히 통신사들에게 AI 인프라는 새로운 성장 동력이 되고 있다. 기존의 통신망과 데이터센터 운영 경험은 AI 시대에 더욱 중요한 자산이 되었다. 전국을 촘촘히 연결하는 통신망은 AI 서비스에 필요한 '디지털 고속도로' 역할을 한다. 일반 인터넷이 시내 도로라면, AI에는 전용 고속도로와 같은 '전용회선'이 필요하다. 통신사들이 보유한 이러한 인프라는 AI 서비스의 품질과 안정성을 좌우하는 핵심 요소가 된다.


더욱이 AI 인프라는 이제 단순한 기술 기반을 넘어 국가 경쟁력의 핵심 요소로 부상했다. 마치 산업화 시대에 도로, 항만, 철도와 같은 사회간접자본(SOC)이 국가 발전의 기반이었던 것처럼, AI 시대에는 데이터센터와 통신망이 그 역할을 하게 된다. 유영상 대표가 "한국이 AI 강국 G3에 진입하기 위해서는 탄탄한 인프라 구축이 필수"라고 강조한 것도 이러한 맥락이다.




데이터센터의 진화: 디지털 호텔에서 AI 파워하우스로


SK텔레콤이 SK브로드밴드를 통해 운영하는 100 메가와트 규모의 데이터센터는 지금까지 '코로케이션(Co-location)' 방식으로 운영되어 왔다. 코로케이션이란 쉽게 말해 '디지털 호텔' 서비스다. 통신사가 건물과 전기, 냉방, 보안 설비를 갖추면, 기업들은 필요한 만큼의 공간을 빌려 자신들의 서버를 설치한다. 마치 호텔 투숙객이 객실을 예약하고 자신의 물건을 가져와 사용하는 것처럼, 기업들은 데이터센터의 공간을 빌려 자신들의 서버를 운영한다. 이는 수백억 원이 드는 자체 데이터센터를 짓지 않아도 되는 경제적인 선택이었다.


그러나 AI 시대의 도래로 데이터센터는 이제 단순한 '디지털 호텔'에서 '디지털 발전소'로 진화하고 있다. 가장 큰 변화는 전력 소비량이다. 일반 서버 한 랙(서버를 꽂는 캐비닛)이 4-7kW의 전력을 소비했다면, AI 서버는 최소 15kW에서 많게는 30 kVA까지 필요로 한다. 이러한 급격한 전력 수요 증가는 새로운 기술적 도전을 불러오고 있다.


냉각 시스템도 완전히 달라져야 한다. 기존의 공랭식 냉각 방식으로는 AI 서버의 열을 식힐 수 없어, 후면 도어 열교환기나 직접 칩 액체 냉각과 같은 첨단 냉각 기술이 필요하다. 이는 마치 일반 에어컨으로는 반도체 공장을 냉각할 수 없는 것과 같은 이치다.


특히 주목할 점은 데이터센터의 위치 전략이다. 클라우드 서비스 제공업체들은 서비스 품질을 위해 50km 반경 내에서 데이터센터를 클러스터링하길 원한다. 이는 데이터 처리 속도와 직접적인 관련이 있기 때문이다. 통신사들의 역할도 변화하고 있다. 단순히 공간과 전력을 제공하는 것을 넘어, AI 인프라 전문 기업으로 진화해야 하는 상황이다.


GPU 혁명과 컴퓨팅 민주화


펭귄솔루션즈(Penguin Solutions)의 마크 아담스(Mark Adams) 대표는 "2023년은 GPU 판매의 해였다"고 선언했다. GPU(Graphics Processing Unit)는 원래 게임용 그래픽 처리를 위해 개발된 반도체였지만, 이제는 AI의 '두뇌' 역할을 하는 핵심 부품이 되었다. 이러한 변화는 마치 자동차 산업에서 내연기관이 전기모터로 대체되면서 배터리가 핵심 부품이 된 것과 같다. 실제로 GPU 시장을 주도하는 엔비디아(NVIDIA)의 데이터센터 부문 매출은 2023년에 전년 대비 279% 증가한 185억 달러를 기록했다.


이러한 GPU의 중요성은 AI 개발 방식 자체를 변화시키고 있다. AI 모델을 훈련할 때 사용하는 컴퓨팅 파워가 늘어날수록 모델의 품질과 효율성이 높아진다. 람다랩스의 스티븐 갈리반(Stephen Gallivan) 대표는 "더 많은 기업들이 막대한 비용을 들이지 않고도 AI 기술을 활용할 수 있어야 한다"고 강조한다. 이것이 바로 'GPU as a Service'의 등장 배경이다.


ⓒSK AI Summit 2024


'GPU as a Service'는 마치 넷플릭스로 영화를 보는 것처럼, 필요한 만큼만 GPU 자원을 구독하여 사용하는 방식이다. 과거에는 고성능 GPU를 갖춘 서버를 구매하려면 수억 원의 초기 투자가 필요했다. 하지만 이제는 시간당 또는 작업량에 따라 비용을 지불하면 된다. 이는 마치 자가용을 구매하는 대신 카셰어링을 이용하는 것과 같은 개념이다.


아담스 대표는 "향후 3~5년간 AI를 위한 데이터센터 용량의 큰 부족이 예상된다"고 전망했다. 현재 전 세계 기업들이 AI 개발에 뛰어들면서 GPU 수요는 폭발적으로 증가하고 있다. 반면 GPU 공급은 제한적이다. 고성능 GPU를 생산할 수 있는 기업이 많지 않고, 생산 시설을 늘리는 데도 수년의 시간이 필요하기 때문이다.


이러한 상황에서 GPU의 효율적인 활용이 더욱 중요해졌다. SK텔레콤이 람다랩스와 협력하여 추진하는 GPU 서비스는 한정된 GPU 자원을 최대한 효율적으로 활용하는 것을 목표로 한다. 24시간 내내 GPU를 사용하는 AI 훈련 작업과, 필요할 때만 GPU를 사용하는 추론 작업을 적절히 배분하여 자원 활용도를 극대화하는 것이다.


특히 주목할 점은 이러한 변화가 AI 기술의 민주화를 이끌고 있다는 것이다. 과거에는 구글이나 메타 같은 거대 기업만이 할 수 있었던 AI 개발을, 이제는 중소기업이나 스타트업도 시도할 수 있게 되었다. 이는 마치 클라우드 컴퓨팅이 IT 산업의 진입장벽을 낮춘 것처럼, AI 산업의 새로운 혁신을 가능하게 할 것으로 기대된다.


도전과 과제: 전력과 환경의 딜레마


AI 데이터센터가 직면한 가장 큰 도전은 '전력'이다. 유영상 대표는 AI 인프라 운영에서 발생하는 비용 구조를 명확히 제시했다. 전체 자본지출(CapEx)의 70%가 GPU 관련 비용이고, 운영비용(OpEx)의 70%가 전력 관련 비용이다. 이는 마치 전기차 산업에서 배터리 원가와 충전 비용이 전체 비용의 대부분을 차지하는 것과 비슷한 구조다.


ⓒSK AI Summit 2024


특히 한국은 세 가지 심각한 도전에 직면해 있다. 


첫째는 전력 공급의 물리적 한계다. "수도권에는 더 이상 데이터센터에 전력을 공급할 여력이 없다"는 유영상 대표의 말처럼, 이미 수도권의 전력 공급은 한계에 달했다. 클라우드 서비스 제공업체들은 서비스 품질을 위해 데이터센터를 서울 중심 50km 반경 내에 두길 원하지만, 이는 이제 물리적으로 불가능한 상황이다.


둘째는 전력 가격의 문제다. 한국의 산업용 전력 가격은 인도, 말레이시아, 호주 등 경쟁국보다 높은 수준이다. AI 데이터센터는 결국 글로벌 시장에서 경쟁해야 하는데, 이러한 높은 전력 가격은 큰 약점이 된다. 마치 제조업에서 높은 원가가 경쟁력을 떨어뜨리는 것과 같은 이치다. 최근 10%가량 올랐다는 산업용 전기 요금은 이러한 우려를 더욱 깊게 만든다.


셋째는 환경 문제다. 글로벌 빅테크 기업들은 2050년까지 탄소 배출을 '0'으로 만들겠다고 약속했다. 하지만 이는 AI 시대를 맞아 큰 도전이 되고 있다. "이는 일종의 패러독스"라고 유영상 대표는 말한다. AI 수요가 늘어날수록 전력 소비와 탄소 배출은 필연적으로 증가하기 때문이다.


이러한 도전 과제들을 해결하기 위한 노력도 다각도로 진행되고 있다. 우선 데이터센터의 지방 이전이 검토되고 있다. AI 모델 학습용 데이터센터의 경우 실시간 서비스보다 지연 시간이 덜 중요하기 때문에, 전력 공급이 여유로운 지방으로의 이전이 가능하다. 이는 지역 경제 활성화에도 도움이 될 수 있다.


에너지 솔루션도 다양화되고 있다. 태양광, 풍력과 같은 재생에너지 활용을 늘리는 한편, 소형모듈원자로(SMR: Small Modular Reactor)와 같은 새로운 에너지원도 검토하고 있다. 중동의 경우 데이터센터 특별구역을 지정하여 전력 가격을 낮추는 정책을 시행하고 있는데, 이는 한국에서도 참고할 만한 사례다.


또한 AI 서버의 에너지 효율을 높이기 위한 기술 혁신도 계속되고 있다. 액체 냉각, 직접 칩 냉각 등 새로운 냉각 기술의 도입과 함께, AI 칩 자체의 에너지 효율을 높이는 연구도 활발히 진행 중이다.


미래를 위한 준비: 협력과 혁신의 시대


AI 인프라 구축은 이제 어느 한 기업이나 국가가 단독으로 해결할 수 있는 과제가 아니다. "SK텔레콤은 AI 데이터센터 사업에서 글로벌 파트너들과의 협력에 적극적이며, 이런 파트너십이 SK그룹의 강점입니다." 유영상 대표의 이 말은 AI 시대의 새로운 경쟁 패러다임을 보여준다. 마치 전기차 시대에 자동차 회사들이 배터리 업체, 소프트웨어 기업들과 협력하는 것처럼, AI 시대에도 다양한 분야의 협력이 필수가 되었다.


미래 AI 인프라 시장의 성공을 위해서는 세 가지 핵심 요소가 필요하다. 


첫째는 기술 혁신이다. 펭귄솔루션즈의 아담스 대표는 이미 차세대 AI 가속기 보드인 RISC-V 개발에 착수했다고 밝혔다. "2-3년 후를 내다보고 혁신해야 한다"는 그의 말처럼, 지금부터 미래 기술을 준비해야 한다.


ⓒSK AI Summit 2024


둘째는 정책적 지원이다. 데이터센터 특별구역 지정, 전력 공급 체계 개선, 인재 육성 등 종합적인 정책 지원이 요구된다. 특히 중동의 사례처럼 특별구역 지정을 통한 전력 가격 인하 정책은 글로벌 경쟁력 확보를 위해 검토가 필요하다.


셋째는 생태계 구축이다. 대기업부터 스타트업까지 다양한 기업들이 참여할 수 있는 환경을 만드는 것이 중요하다. 특히 해저 케이블과 같은 기존 인프라를 활용한 새로운 서비스 개발도 주목할 만한 영역이다.


이제 AI 인프라는 마치 20세기 초 전기나 도로처럼, 새로운 시대의 기반 시설이 되어가고 있다. 한국이 이 새로운 시대의 주역이 되기 위해서는 정부와 기업, 그리고 사회 전반의 협력과 혁신이 그 어느 때보다 중요한 시점이다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari