brunch

You can make anything
by writing

C.S.Lewis

by Pen 잡은 루이스 Mar 21. 2024

차세대 인공지능을 향한 전력질주

엔비디아가 선보인 차세대 인공지능 칩, 블랙웰 GB200 

젠슨 황(Jensen Huang)은 1963년 대만에서 태어나 그가 9살이었을 때 미국으로 이주했다. 오리건 주립대학교에서 전기공학 학사, 스탠퍼드 대학교에서 전기공학 석사 학위를 각각 취득한 바 있다. 대학 졸업 후에는 LSI Logic과 AMD에서 마이크로프로세서 설계를 담당했으며 1993년도에 엔비디아를 공동으로 설립해 30년이라는 세월을 겪어왔고 본격 인공지능 시대를 맞아 엔비디아를 정점에 세운 인물이다. 약 3만 명 가까운 인력들이 엔비디아에서 근무하고 있다. 엔비디아의 시총은 2024년 3월 20일 기준으로 한화 약 3천조원에 근접하고 있다(2천994조원이고 USD로는 2조2천350억)


엔비디아의 CEO, 젠슨 황(Jensen Huang)  출처 : CIO News


엔비디아는 세계 최대의 인공지능 콘퍼런스인 GTC 콘퍼런스(GPU Technology Conference = 연례 개발자 콘퍼런스)를 열고 AI 추론 속도를 높이는 소프트웨어 'NIM(Nvidia Inference Microservices, 엔비디아 인퍼런스 마이크로서비스의 줄임말로 이하 NIM으로 통칭합니다)'과 디지털 트윈 플랫폼 옴니버스 업그레이드 내용을 발표한 바 있다. 첨단 테크놀로지 분야 중에서도 인공지능 칩의 선두주자라는 걸 다시 한번 증명하는 자리가 되었다. 엔비디아가 선보인 차세대 인공지능 칩은 블랙웰 GB200이다. 블랙웰(Blackwell)이라는 것은 엔비디아의 새로운 플랫폼인데 미국의 천재적인 수학자로 아주 저명한 데이비드 해롤드 블랙웰(David Harold Blackwell)을 따서 명명한 것이라고 한다. 엔비디아 측은 GPU 스케일 업을 위해 2년마다 GPU 아키텍처를 업그레이드하기도 했다. 이번 GB200은 칩 2개를 하나로 묶은 형태이고 2천80억 개나 되는 트랜지스터를 탑재했다. 기존 플래그십 아키텍처 Hopper 기반의 800억 개 트랜지스터와 비교하면 2.6배 가까이 된다. AI 모델의 추론 성능이 상당하다고 하는데 수치상으로 보면 기존 제품에 비해 최대 30배가 빠르다고 한다. 에너지 소비 효율 역시 25분의 1 수준으로 낮아졌다고도 했다. GB200은 대만의 TSMC가 4 나노 기술을 사용해서 생산할 예정이라고 한다. 

※ 블랙웰 아키텍처 기반의 칩은 1,040억 개의 트랜지스터 탑재. TSMC 4 나노 공정으로 이뤄지고 두 개의 Die를 연결하여 하나의 GPU를 구성하기 때문에 합쳐서 2,080억 개의 트랜지스터로 작동되는 것. Die 사이의 데이터 전송은 초당 10 테라바이트의 대역폭으로 고대역폭 인터페이스이고 블랙웰 GPU 2개와 Grace CPU 1개로 GB200 슈퍼 칩셋 구성 가능. 말 그대로 고성능 컴퓨팅을 구현할 수 있다는 것이다. 


본격 인공지능 시대 속의 엔비디아의 저력.  출처 : Reuters


NIM은 생성형 인공지능 앱 개발에 필요한 추론 속도를 증강시켰다. 생성 AI와 관련한 애플리케이션을 보다 빠르게 구축하고 배포할 수 있도록 돕는 셈이다. AI 모델 및 통합코드, AI 추론에 관한 기능 등을 패키지 형태로 묶어 제공한다고 밝혔다. 생성 AI 애플리케이션이나 LLM(거대언어모델)을 개발한다고 할 때 추론 작업에 꽤 복잡하고 시간도 돈도 인력도 다수 투입되지만 NIM이 이러한 과정들을 보다 간소화하면서도 고성능으로 스케일 업이 된 것이다. 사실 NIM 그 자체로 차세대 인공지능을 향한 일종의 '혁신'을 이뤄낸 것이다. 물론 기업들 대상으로 제대로 된 상용화는 해야겠지만 말이다.  

※ 블랙웰은 8비트 부동소수점 훈련 성능(FP8, 부동소수점 방식은 숫자의 범위나 정밀도를 확장시키는데 공학적 계산에 이상적, 당연하지만 현대 컴퓨팅 분야는 물론이고 인공지능 분야에서는 더더욱 필수적임)이 20 PFLOPS(펩타플롭스 : 1초에 1천 조번의 수학 연산 처리를 의미하는 단위), 4비트 부동소수점 훈련 성능(FP4)은 40 PFLOPS인데 FP4 연산의 경우 AI 추론용으로는 타 연산 대비 정밀함이 떨어지지만 AI 성능 자체가 빨라 AI 주요 지표로 사용됨. 블랙웰은 엔비디아 GPU AI 연산능력으로 볼 때 기존 Pascal 이후 무려 1천 배나 향상되었다고 함. 


AI 로드맵의 속도를 높이려는 기업은 엔비디아의 NIM 구축을 서두를 것 같다. 엔비디아는 아마존, 구글, 마이크로소프트 등 다양한 빅테크와 파트너십을 맺고 있다. 과거의 엔비디아가 단순히 칩을 공급하는 기업이었다면 이제는 글로벌 빅테크가 소프트웨어를 구축할 수 있도록 플랫폼을 공급하는 초대형 빅테크로 거듭난 것이나 다름이 없다. 단순 인공지능 시대를 넘어 차세대 인공지능 플랫폼을 언급하는 시대가 되었다. 그리고 그 위에는 엔비디아가 자리하고 있다. 엔비디아 CEO인 젠슨 황은 자사의 NIM 플랫폼이 AI 기업으로 거듭날 수 있도록 하는 기본적인 구성 요소가 될 것이라고 말한다. 엔비디아의 GPU는 거대언어모델 훈련을 포함해 인공지능에 필수적인 요소로 자리매김했다. 오픈 AI나 마이크로소프트와 같은 빅테크 기업도 엔비디아의 AI 칩을 대량으로 구매하는데 이미 인공지능 칩 시장의 80% 이상을 지배하고 있는 회사가 아닌가. 오픈 AI의 챗GPT 이후 생성형 인공지능은 말 그대로 전 세계에 돌풍을 일으켰다. (생성AI도 그에 따른 돌풍도 아직은 현재진행형이다) 그리고 그 돌풍 뒤에는 엔비디아가 존재하고 있다. 차세대 인공지능을 향한 엔비디아의 전력질주도 아직은 현재진행형이다. 



※ AI 칩과 관련한 반도체 분야에 대해서도 한번쯤 다뤄보고 싶긴 했습니다만 이렇게 엔비디아가 크게 한몫 해줬네요. 그럼에도 불구하고 미디어에서 다룬 것과 같이 가볍게 작성했습니다. 아래 사이트를 참고했습니다. 엔비디아 뉴스룸과 디벨로퍼 사이트에서도 같은 내용이 나옵니다. 

- <Nvidia launches NIM to make it smoother to deploy AI models into production>(2024.3.19), techcrunch

- <NVIDIA NIM Offers Optimized Inference Microservices for Deploying AI Models at Scale>(2024.3.18), developer.nvidia.com

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari