놀라운 신제품, 예상하지 못한 기업의 방향성과 포부가 드러난 키노트!
안녕하세요, 에디터 SA입니다. 이번 주 화제의 중심에 있었던 NVIDIA GTC 2024, 어떻게 보셨나요? :) GTC는 현지 시각으로 21일, 한국 시각으로 금요일에 워크샵과 엑스포 일정까지 마무리되었는데요. 이번 GTC는 삼성전자, SK하이닉스 등 국내 기업들이 참가하기도 해서, 국내에서도 관심을 갖고 지켜보는 눈이 참 많았지요. 물론 AI 산업의 성장세를 발판으로 세계 시총 3위에 오른 NVIDIA의 이름을 걸고 주최하는 행사라는 게 가장 큰 이유이겠지만요.
GTC의 꽃이라 할 수 있는 젠슨 황의 키노트는 보셨나요? ‘B100’으로 알려진 새로운 제품을 소개한다는 소식이 GTC 개최 직전에 들리기도 했는데요. 아마 지금쯤이면 정확한 자막까지 추가된 각종 편집 영상이 유튜브에 즐비할 것 같습니다. 하지만, 그보다 더 빠르게, 내용을 파악하고 싶다면 역시 TEN의 AI피드만 한 곳이 없겠지요? ;) 에디터 SA가 직접 정리한 NVIDIA CEO 젠슨 황의 GTC 2024 키노트, 지금부터 두 눈 크게 뜨고 따라와 주세요. :)
GTC 개최 전 신제품 ‘B100’이 공개될 것이라는 이야기가 있었는데요. 실제로 공개된 제품의 이름은 ‘블랙웰’ (B200)이었습니다. 이번 신제품의 이름은 미국 국립과학원(NAS)의 첫 흑인 회원으로 선출된 통계학자이자 수학자 데이비드 블랙웰의 이름에서 가져왔다고 합니다. 2023년까지 최고 사양의 AI 칩, 하면 떠올랐던 H100의 성능을 뛰어넘는 GPU입니다. 800억 개의 트랜지스터로 구성된 H100의 약 2.5배 정도 되는, 무려 2,080억 개 트랜지스터로 구성되어 있거든요. :)
현재 존재하는 기술 수준으로는 2,080억 개라는 어마어마한 규모의 트랜지스터를 넣을 수 없다고 하는데요. 어떻게든 성능 개선을 꾀하고자 고민을 거듭한 결과, TSMC 4나노(nm) 공정 기술을 사용해서 2개의 GPU를 하나로 연결하는 방식으로 구현했다고 해요.
비용과 에너지 소비는 최대 25분의 1 수준으로 줄어들었습니다. AI 인프라에 있어 가장 중요한 것이 바로 ‘비용’인데요. @.@ 최고 사양의 GPU 구매는 일단 비용을 지출하기로 했으니 받아들인다 치더라도, 실제 구축한 인프라를 유지하는 비용은 추산했던 규모를 뛰어넘는 경우가 많았습니다. 비용에는 전력 등 에너지에 대한 비용, 인프라가 위치하는 건축물의 유지 비용을 포함하여, 각 HW 요소의 냉각을 위한 물 공급 등 다양한 항목들이 포함되어 있습니다. 글로벌 테크 기업, 대기업들만이 대규모 AI 데이터센터를 구축하는 이유가 바로 여기에 있었지요. 이제 그 비용 부담을 덜 수 있게 된 것입니다.
블랙웰(B200)은 1조 매개변수 규모 LLM의 훈련과 추론을 지원할 수 있습니다. 2세대 트랜스포머 엔진을 갖추고 있기에 4비트 부동 소수점 AI 추론 기능을 통해서 컴퓨팅과 모델 크기를 두 배로 늘릴 수 있고요. 여러분이 잘 아시는 AI인 ‘ChatGPT’를 기준으로 비유해 표현한다면, 응답 추론 시간이 5배나 빨라질 수 있습니다. :0 이 말인즉, AI Pub과 같은 인프라 전용 MLOps 솔루션을 잘 활용하기만 하면, 그 큰 규모만큼 여러 sLM 모델의 훈련과 추론도 동시에 할 수 있음을 의미합니다. :)
NVDIA의 CEO 젠슨 황은 "업계 전체가 블랙웰을 준비하고 있다"면서 블랙웰의 출시에 자신감을 보였는데요. 실제로 구글, 마이크로소프트(MS)의 클라우드 센터 등 주요 글로벌 클라우드 서비스 제공업체에서 채택되고 있다고 하네요. 이번 GTC 동안 엔비디아를 향해 글로벌 테크 기업들의 러브콜이 계속되는 것을 보면, ‘블랙웰’에 대한 지대한 관심을 짐작할 수 있을 것 같습니다.
이번 키노트에서 인상적인 부분이 있다면, ‘블랙웰’이라는 새로운 GPU를 소개한 이후 아주 자연스럽게 HW 요소가 추가되고 확장되어 완성되는 ‘GB200’의 소개였습니다. 엔비디아는 키노트에서 AI 데이터센터가 신제품을 바탕으로 어떻게 구축되고 또 확장되는지를 알 수 있도록 그래픽을 연출하고 있는데요. 볼 때마다 느끼지만, AI 인프라 구축에 대한 전체적인 그림을 볼 수 있게 해주는 좋은 연출인 것 같습니다. :)
아무튼, ‘GB200’은 블랙웰 GPU 2개와 CPU 1개를 탑재한 최신 AI 칩입니다. CPU는 세계 파운드리시장의 60%를 점유하고 있는 대만 기업 TSMC의 제품을 사용합니다. 그리고 블랙웰을 확장하기 위한 요소로, 엔비디아는 NVLink 스위치라는 새로운 칩까지 개발했습니다. NVLink 스위치는 초당 1.8TB라는 어마어마한 속도로 4개의 NVLink 인터커넥트를 연결하고, 네트워크 내 감소를 통해 트래픽을 제거할 수 있습니다.
앞서 블랙웰에 대해 소개할 때, 비용과 에너지를 25분의 1 수준으로 절감할 수 있다고 말씀드렸는데요. 그 덕분에 GB200의 성능은 H100 대비 무려 30배 향상되었다고 합니다. 특히 LLM 추론 과정을 기준으로 할 때 30배인 건데요. 젠슨 황이 키노트 중간에 GB200과 H100을 양손으로 들어 올려 보여주었을 때, 크기상 큰 차이가 나지 않는 두 제품의 성능 차이가 30배라는 것이 더 놀랍게 느껴졌습니다. :0 심지어 젠슨 황의 왼손에 들린 모델은 작년까지만 해도 전 세계 최고 성능을 자랑하던 모델이어서 더 그랬답니다... :0 이어서 보여준 GB200의 확장 가능성 역시 마찬가지였는데요. 72개의 블랙웰 GPU와 AI 모델 트레이닝을 위해 설계된 부품을 결합하여 'GB200 NV링크 2'라는 서버로 구성할 수 있다고 합니다.
'GB200'을 기반으로 하는 차세대 AI 슈퍼컴퓨터의 출시도 올해 하반기에 예정되어 있습니다. NVIDIA DGX SuperPOD라는 이름에서 성능에 대한 위용을 엿볼 수 있는데요. 단일 랙 서버가 아니라, 여러 DGX GB200 시스템의 조합으로 구성되어 있습니다. 8개 이상의 DGX GB200 시스템, 엔비디아 퀀텀 인피니밴드(Quantum InfiniBand)를 통해 연결된 수만 개의 GB200 슈퍼 칩으로 확장되는 구성입니다. 가장 최신이자 최고 성능의 AI 칩으로 구성된 슈퍼컴퓨터라고 볼 수 있습니다.
이 슈퍼컴퓨터는 수조 개의 파라미터 모델을 처리할 수 있다고 합니다. 메모리는 무려 240TB까지 보장되고요. LLM을 넘어, 슈퍼 스케일 수준의 생성 AI를 훈련하고 추론시키는 데 필요한 가동시간이 충분히 보장되는 제품이라고 합니다.
엔비디아는 GPU라는 처리 장치에서 나아가, 이제 슈퍼컴퓨터를 직접 만들기에 이르렀네요. 젠슨 황은 "블랙웰과 엔비디아 DGX 슈퍼포드를 통해 앞으로 데이터센터는 AI 공장으로 여겨질 것"이라고 말했는데요. 단순 비유이겠지만, AI가 양산되는 물건처럼 공장화될 수 있다는 생각을 해본 적이 없어 무척 생경하게 느껴지는 미래상이었습니다. :)
그래서, 엔비디아는 이번에도 ‘자신과의 싸움’에서 승리한 결과로 내놓은 제품만 소개하며 키노트를 마무리했을까요? 제품의 소개가 대략 마무리된 후, 엔비디아의 CEO 젠슨 황은 새로운 GB200 기반 DGX 시스템을 엔비디아의 자체 DGX 클라우드와 AWS, 구글, 마이크로소프트(MS) 등 퍼블릭 클라우드 플랫폼에서 제공할 예정이라고 밝혔는데요. 이와 함께 생각지 못했던 ‘마이크로서비스’를 소개했습니다. :)
이 마이크로서비스는 기업에서 생성형 AI 환경을 더 쉽게 구축 활용할 수 있도록 하고자 제공되는데요. 컨테이너 형태로 제공되는 이 서비스는 쿠다(CUDA) 플랫폼과 엔비디아의 NIM 마이크로서비스를 포함한 풀 스택 구성과 사전 훈련된 모델을 갖추고 있습니다. 엔비디아는 제품과 함께 소프트웨어 솔루션, 스택과 커뮤니티까지 통합한 생태계 구성에 힘써왔는데요. 이번에 공개하는 것도 같은 맥락인 것으로 보입니다.
소프트웨어 NIM은 다른 AI 모델을 서로 연결하고 쉽게 배포할 수 있는 추론 서비스입니다. NIM은 언어, 음성, 신약 개발과 같은 도메인을 위한 업계 표준 API를 지원하기 때문에 쉽게 연결할 수 있고요. 또 엔비디아의 핵심 소프트웨어인 '쿠다(CUDA)'에서 작동하므로 새로운 GPU에 맞게 다시 최적화된다는 점 역시 장점입니다. 보안 취약점과 노출을 지속적으로 검사해서 안전성 역시 믿을 수 있는 부분도 매력적입니다. :)
NIM 마이크로서비스는 엔비디아, A121, 어뎁트, 코히어, 게티이미지, 셔터스톡 모델과 더불어 구글, 허깅페이스, 메타, 마이크로소프트, 미스트랄 AI, 스태빌리티 AI 의 오픈 모델을 배포할 수 있는 프로덕션 AI 컨테이너를 제공합니다. 사실상 AI 개발, 서비스화를 위한 풀 패키지라고 생각하시면 될 것 같습니다. 다양한 서비스 지원이 있으니 앞으로는 자체 인프라에서 안전하게 호스팅되는 독점 데이터를 사용해서 AI 애플리케이션을 빠르게 구축할 수 있을 것으로 보입니다.
엔비디아의 위상이 많이 달라졌습니다. 이제는 AI 산업이나 HW, 개발 관련 종사자가 아니어도 ‘엔비디아’는 물론, ‘GTC’라는 행사를 알고 있는 정도가 되었더라고요. GTC도 해당 분야에 관심이 있는 사람들만 주목하는 행사였던 것 같은데 말입니다. 이전까지는 GPU 신제품 출시와 소프트웨어/솔루션 소개가 중점이 되었던 키노트는 이제 새로운 내용을 추가로 이야기합니다. 양자컴퓨터, 다양한 소프트웨어 스택, AI 로봇까지… @.@ 엔비디아는 첨단 기술의 핵심 기술 공급원으로서 각 분야에 패러다임을 제시할 수 있게 되었네요.
‘플랫폼’이라는 새로운 방향으로 나아갈 NVIDIA는 앞으로 얼마나 더 성장할 수 있을까요? 엔비디아 CEO 젠슨 황은 이번 키노트에서 “생성 AI는 우리 시대를 정의하는 기술이다. 블랙웰 GPU는 이 새로운 산업 혁명을 촉진하는 엔진이다. 우리는 세계에서 가장 역동적인 기업들과 협력하여 모든 산업 분야에서 AI의 가능성을 실현할 것이다”라고 말했는데요. 막강한 기술력을 바탕으로, NVIDIA가 구글, 애플에 이은 새로운 글로벌 플랫폼 기업이 될지, 향후 몇 년 간 귀추를 주목해 봐야겠습니다. 지금까지 에디터 SA였습니다. ;)
* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!