GPU와 CPU가 만난 GH200!
안녕하세요, 에디터 SA입니다. 최근 GPU 부족으로 전 세계가 난리입니다. GPU를 확보하는 것이 실리콘밸리의 최고 이슈로 떠오르고, 중국 빅테크는 GPU를 비축하기 위해 2년간 50억 달러(한화 6조 6000억 원)를 투입하겠다고 밝히기도 했죠. 이렇듯 불꽃 튀는 GPU 확보 경쟁은 당분간 계속될 것으로 보이는데요. 그 가운데에, NVIDIA가 있습니다. ;)
엔비디아에서 신제품을 출시했습니다. ‘AI 슈퍼 칩’이라고 불리는 GH200인데요. 올해 상반기 대만 COMPUTEX에서 있었던 젠슨 황의 프레젠테이션에서 만나본 제품이기도 합니다. 동일한 제품은 아니고, 업데이트 출시한 것인데요. 완전한 새 제품 출시 소식이 아니라 그리 놀라는 분위기는 없는 것 같습니다. 하지만 사양을 들여다보면, AI 개발에 열을 올리고 있는 세계 다수의 기업이 눈독 들일 만한 제품인 것이 분명해 보입니다. 오늘은, GPU와 CPU가 만났다는 GH200에 관해서 이야기해 볼까 해요. :)
엔비디아는 GPU로 이미 AI 인프라 시장을 완전히 장악했습니다. 그렇기에 이번 GH200 출시 소식을 듣고, 너무나 빠르게 새로운 제품을 내놓는 것은 아닌가 싶었는데요. 이미 세계 1위, 그것도 어느 누구도 넘볼 수 없을 만큼 막강한 영향력을 자랑하는 위치에서 빠른 주기로 새 제품을 내놓는다는 것이 엔비디아에 득이 될지, 실이 될지 짐작하기가 쉽지 않았으니까요. 다만, 고성능 제품들이라면 경쟁 우위를 장악하기 위해 공격적인 푸시(push) 전략을 취하는 것일 수 있겠지요.
GH200은 고속 대용량 메모리를 탑재하고 있는, 엔비디아 GPU와 ARM 기반의 CPU를 하나로 결합한 ‘슈퍼 칩’ 입니다. 지난 COMPUTEX에서 발표한 GH200의 업데이트 버전으로, NVIDIA에서 발표한 내용에 따르면 기존 GPU를 뛰어넘는 성능을 자랑하는 일명 ‘추론용’ 설계 제품입니다. 현재 최고급 사양의 AI 칩이라 할 수 있는 'H100'과 동일한 GPU를 사용하고, 141GB의 최첨단 메모리 및 72코어 ARM 기반의 CPU를 결합했다고 해요.
이번 GH200에 탑재된 메모리는 HBM3E입니다. HBM3E는 4세대 HBM 모델로, 여러 개의 D램을 수직으로 연결해 쌓아 데이터 처리 속도를 크게 끌어올린 고대역폭 메모리입니다. 현 HBM3 메모리보다 데이터 속도가 50%나 빠른데요. 이 HBM3E 메모리가 무려 141GB로, 속도는 5TB/s의 대역폭을 지원합니다. GH200은 H100 GPU 대비 1.7배의 메모리 용량과 1.5배의 대역폭을 보장할 수 있다고 해요. @.@
GH200을 사용하면, AI 개발 시 소요되던 시간과 인프라, 전력 등을 포함한 개발 비용을 절약할 수 있게 됩니다. 우선, GPU와 CPU를 결합할 경우 정보를 주고받는 과정을 크게 단축해 전력 소비를 줄일 수 있다는 점에서 비용이 절약돼요. NVIDIA CEO 젠슨 황의 말에 따르면, GH200으로 만들어진 데이터센터는 기존 설비보다 전력을 20배 적게 사용하게 된다고 합니다.
또한 추론용으로 설계된 제품이니, 추론에 필요한 대규모 정보 처리에도 강점이 있습니다. 사실 많은 양의 데이터를 사용하는 AI 학습 과정에서는 몇 달의 기간은 우습게 지나가기도 하는 데다, 초거대 규모의 모델이라면 H100이나 A100가 수천 개씩 필요할 정도로 인프라 비용, 전력 비용이 많이 들게 되는데요. GH200에는 기존 제품보다 더 큰 메모리를 사용했기 때문에 여러 GPU를 연결할 필요가 없어져 AI 모델에 드는 비용이 크게 줄어들게 됩니다.
"수많은 GPU를 연결해 만든 1억 달러 규모의 데이터센터와 동일한 컴퓨팅 인프라를 구축하는데 800만 달러면 충분할 것" 이라고 말한 젠슨 황의 자신감을 확인할 수 있는 부분이네요. :)
GH200 출시와 더불어 전한 NVIDIA의 새로운 소식은 바로 ‘플랫폼’이었습니다. 이미 인프라에서 우위를 점한 엔비디아가 ‘AI 개발’이라는 행위에 좀 더 밀도 있게 접근하고자 하는 움직임이라니, 생각지 못했던 내용이었습니다. :0
NVIDIA에서 새롭게 출시할 플랫폼의 이름은 'AI 워크벤치(AI Workbench)’. 생성 AI를 쉽게 개발할 수 있는 플랫폼입니다. 이 플랫폼은 생성 AI 개발을 위한 프로젝트 예시를 제공하여, 구축, AI 개발을 쉽게 시작할 수 있도록 도움을 준다고 합니다. 또한 엔비디아의 DGX 클라우드는 물론 PC와 워크스테이션, 데이터센터, 퍼블릭 클라우드를 넘나들며 프로젝트를 수행할 수 있습니다. 새로운 제품 및 서비스 개발, 기존 제품과 서비스의 개선 등 지속적인 지원도 있을 것이라고 하네요.
텐서플로, 파이토치로 양분되는 것 같던 프레임워크 시장에 엔비디아까지 진출하는 것인지! 향후 시장의 판도가 주목되는 소식이었습니다. 특히나 엔비디아는 이미 인프라에 있어 경쟁력을 갖추고 있으니, 인프라와 프레임워크를 결합하여 AI 시장에서 압도적인 우위를 점할 수도 있지 않을까, 예상되기도 했답니다.
AI 워크벤치는 올가을 출시될 예정이라고 합니다. 출시까지 얼마 남지 않았으니 조금만 기다리면 되겠지만, 공식 출시 전 사용해 볼 수 있는 '얼리 액세스'(!) 를 신청받고 있다고 하니, 관심이 있으시다면 NVIDIA 홈페이지를 확인해 보시면 좋을 것 같습니다.
최근 NVIDIA의 행보는 정말 무서울 정도입니다. @.@ 매번 출시되는 제품마다 놀라운 성능을 자랑하고, 예상치 못한 분야에 진출하기도 하며, 그 텀은 매우 짧아 공격적으로 느껴지기까지 하죠. 이번 GH200과 AI 워크벤치에 대한 소식은 8월 8일(현지 시각) LA에서 열린 ‘SIGGRAPH 2023’ 컨퍼런스에서의 젠슨 황의 프레젠테이션을 참고했습니다. 경쟁사들은 아직 엔비디아의 A100 성능의 80% 정도만 구현할 수 있다고 하니, 엔비디아에서 출시할 새 제품도 역시, 전 세계 AI 시장 흐름을 바꾸어 놓지 않을까요? GH200이 내년 2분기부터 양산된다고 하니, 내년 하반기에 엔비디아가 가져올 변화를 잘 지켜봐야겠습니다. :)