brunch

You can make anything
by writing

C.S.Lewis

by TEN Apr 29. 2024

세계 시총 3위 엔비디아, 어떻게 AI 산업을 장악했나

엔비디아가 시총 세계 3위에 올랐습니다.(!) 엔비디아는 GPU를 포함하여 AI 데이터센터에 집약된 하드웨어 기술로 독보적인 자리에 올라와 있는데요. AI, 게임, 컴퓨터에 관한 지식이 있는 사람들이 주로 알고 있던 ‘엔비디아’라는 기업은 이제 그 분야에 전혀 관심이 없는 사람들도 한 번쯤 들어본 정도로 유명한 기업이 되었지요.


엔비디아에서 올해에도 어김없이 개최하는 GTC 행사를 앞두고 들려온 호재 소식에 전 세계 각계각층 인사들이 엔비디아의 행보를 주목하고 있습니다. AI 산업의 폭풍 같은 성장세, 시장 확장에 힘입어서, 상승세는 앞으로도 당분간 계속될 것 같습니다. :)


그런데 엔비디아가 이렇게 유명해지고, 또 AI와 GPU를 생각하면 바로 떠오르는 기업이 된 데는 어떤 이유가 있을까요? 오로지 GPU 때문일까요? 단 하나로 특정할 수 없는, 엔비디아의 성공 요인을 에디터 SA가 꼽아봤습니다. 이번 [AI, 더 쉽게]의 주제는 ‘엔비디아의 GPU 그리고 또 하나의 성공 전략’이 되겠습니다. ;)





[ 엔비디아의 GPU, 그리고 데이터 패럴리즘 ]

AI 개발, 학습, 서비스 배포에 이르기까지 ‘GPU’는 필수로 여겨지고 있습니다. 머신러닝 프로세스 가속용 컴퓨터 칩은 사실상 엔비디아의 GPU와 그 외 요소들로 양분되고 있는 정도인데요. 물론 GPU’만’ 사용할 수 있는 것은 아닙니다만, ‘GPU’가 AI의 가치 실현 여정에서 적합할 수 있다고 보는 것이 맞겠습니다. 관련하여 AI 피드의 이전 콘텐츠에서 조금 더 자세하게 다룬 적이 있습니다. :)


▶ 인공지능 시장에서 제일 귀하신 몸, GPU를 알아보자


엔비디아 GPU의 아키텍처 구조상 머신러닝 모델을 돌리기에 적합하지 않다는 주장들이 줄곧 나오긴 하지만, 그 주장을 뒷받침하기에는 엔비디아 GPU의 특장점이 아직 크게 작용하고 있습니다. 바로 ‘병렬 컴퓨팅 프로세서’라는 점인데요. GPU는 원래 3D 그래픽(주로 게임용)을 가속할 목적으로 만들어졌습니다. 그러니 병렬 컴퓨팅으로 ‘가속’을 꾀하는 것이 당연하게 다가올 수 있겠습니다.


TEN의 AI Pub Dev는 여러 개의 AI 모델을 동시 개발하더라도 가지고 있는 GPU들을 다양한 방식으로 쪼개 분할할 수 있습니다.

GPU, 즉 병렬 컴퓨팅이 AI에 접목되면 모델 훈련 처리율에서 강점이 나타납니다. 배치 크기에 따라 칩의 각 노드에 모델을 배분해서 사실상 여러 개의 모델을 동시에 돌리게 되는 겁니다. 흔히 생각하시는 MIG 분할 기술을 생각하셔도 됩니다. 혹은 이 기능에서 한발 더 나아가 GPU를 할당하여 효율적으로 활용할 수 있게 하는 TEN의 AI Pub을 떠올리시면 이해가 쉬우실 것 같습니다. :) 이와 관련된 콘텐츠도 이미 AI 피드에서 다룬 적이 있었지요. 


▶ GPU를 이렇게 쓴다고? MIG 모드와 효율적인 분할 사용!


2023년까지 AI 모델의 크기는 계속 불어났습니다. 새로 공개되는 모델들은 LLM, LMM 등 대체로 앞에 ‘Large’가 붙어있죠. 모델의 크기가 크다는 것은 모델이 학습하고 훈련해야 하는 데이터의 양이 매우 많다는 것입니다. 이런 경우에 엔비디아의 GPU는 선택이 아니라 필수가 될 수밖에 없을 것입니다. 모델 훈련 처리율에 강점이 있으니까요. sLM이 작년 말부터 주목받기 시작했지만, 엔비디아 GPU에 대한 수요에는 큰 변화가 없었습니다. 모델의 규모를 축소하여 인프라 사용에 효율성을 도모할 수 있고 개발도 좀 더 수월하니, 동시에 여러 개의 모델을 동시에 개발할 수도 있게 되었거든요. 그러면 더욱, 여러 개의 모델을 동시 학습시킬 수 있는 병렬 컴퓨팅이 매력적일 수밖에요. 









[ GPU만? 아니, 패키지로 간다! ]


엔비디아 GPU는 AI 모델의 데이터 동시 처리(학습/훈련)에 특화된 아키텍처입니다. 데이터 패럴리즘이라고 말하기도 합니다. 데이터 패럴리즘의 핵심은 GPU의 노드를 통해 GPU와 메모리가 빠르게 상호작용하도록 하는 것인데요. 엔비디아는 이 특화된 기능을 더 잘 지원할 수 있는 다양한 방안을 함께 제공하고 있습니다. 복제한 모델을 담아 둘 고성능 외장 메모리, 독자적인 인터커넥터(칩-메모리 교신) 같은 것들 말이에요. :)


쉽게 생각해 보면, 우리는 PC를 구매하여 사용할 때 편의를 위해 여러 가지 주변 기기들이 필요합니다. 마우스, 키보드, 모니터 같은 것들이지요. 만약 엔비디아가 GPU 하나만 툭 던져주고 AI 개발에 활용해 보라 한다면, 불가능하지는 않겠지만 조금 번거로울 겁니다. 엔비디아는 GPU의 특장점, 효율을 극대화할 수 있도록 선택지를 만들어냈습니다.


NVIDIA A100 Tensor 코어 GPU (출처: https://www.nvidia.com/ko-kr/data-center/a100/)

엔비디아의 GPU 중 최신 제품은 아니지만, AI 개발에 다수 쓰이고 있는 A100 모델을 예로 들어볼게요. 이 GPU에 엔비디아의 커스텀 노드인 Nv Switch와 멜라녹스 인피니밴드 기술을 더하면, GPU와 메모리(외장 DRAM 등) 간의 상호작용이 더욱 가속화되며 거대 모델을 처리할 수 있습니다. 여기서 빠질 수 없는 것이 바로 ‘CUDA’입니다. CUDA는 전체 컴퓨터 시스템의 오퍼레이션을 담당하는 엔비디아의 소프트웨어입니다. CUDA의 확장 기능으로 GPU의 퍼포먼스를 효율적으로 관리할 수 있지요. CUDA에 대한 자세한 내용은 AI 피드의 아래 콘텐츠에서 확인할 수 있습니다.


▶ GPU로 AI 개발하면 안다 안다 다 안다! CUDA를 소개합니다!


즉, 엔비디아는 아키텍처 하나만으로 AI 인프라의 답을 제시하지 않습니다. AI 산업에 있어서 인프라 구축과 운영은 시작이자 끝이라 할 수 있는데요. :) 이에 대해 엔비디아는 ‘가장 효율적인 답’을 제시하기 위해서 주력 아키텍처인 GPU 외에도 다양하게 결합이 가능한 커스텀 노드, 커넥터, 그리고 소프트웨어까지 함께 제안하고 있습니다.




[ 컴퓨팅, 소프트웨어, 커뮤니티까지 커버하는 엔비디아 생태계 ]

Installing CUDA Toolkit on Windows (https://www.youtube .com/watch?v=nRSxp5ZKwhQ)

GPU와 종합 솔루션만으로 AI 컴퓨팅에 답을 제시하는 것도 이미 충분한데, 엔비디아는 부족하다고 생각했던 것 같습니다. :) 엔비디아의 또 다른 강점은 바로 ‘커뮤니티’라 하겠습니다. 숙련된 엔지니어 풀은 물론이고, CUDA를 바탕으로 구축된 막강한 개발 생태계가 엔비디아 기반의 커뮤니티를 더 공고히 만들고 있습니다. 


엔비디아는 이렇게 단단한 생태계를 구축하기 위해 GPU 프로세서를 개발하는데 멈추지 않고, AI 개발을 지원하는 핵심 소프트웨어를 개발해 왔습니다. 그 노력의 하나로 엔비디아에서 회사를 AI 개발을 위한 원스톱 플랫폼으로 전환하려는 노력이 10년 전부터 계속 이어져 왔는데요. 투입한 비용은 무려 300억 달러(약 40조 원) 이상이라고 합니다.


현재 대다수의 AI 개발자 및 기업들이 사용하는 AI 개발 프레임워크와 각종 라이브러리, 도구 대다수는 CUDA를 바탕으로 합니다. :) 즉, 엔비디아 GPU에 최적화돼 있는 것입니다. 그뿐만 아니라 사용자 풀을 바탕으로 한 커뮤니티도 활발하게 유지되고 있습니다. 그러니 엔비디아 GPU를 벗어나선 생성 AI를 개발하는 게 불가능한 실정이 되어 버렸지요. AI 개발부터 서비스 배포에 이르기까지 인프라, 기술, 인적 자원 및 정보까지 모두 엔비디아의 GPU를 테마로 집약되기 때문입니다.


CUDA의 영향력에 너무 기대고 있는 것은 아닌가 싶으실 수도 있겠습니다. 엔비디아는 과학자 및 스타트업과 협력하는 것 외에도 대형언어모델(LLM) 개발 및 머신러닝 전문 등 AI에 직접 참여하는 팀을 구성했는데요. 쿠다를 넘어 여러 계층의 핵심 소프트웨어 스택을 개발했어요. AI 작업을 효율적으로 수행하기 위해 독점 네트워킹 기술과 수천 개의 GPU를 사용해 조립하고 운영하는 슈퍼컴퓨터를 아예 직접 만들어 판매하기 시작했지요. 작년 GTC에서 젠슨 황 엔비디아 CEO는 “데이터 센터”라는 말을 거듭 언급했던 것이 바로 이런 맥락입니다. :)


스타트업 코어위브에 자금과 H100 GPU를 공급하면서 클라우드 서비스도 시작했습니다. 사실상 AI 산업에서 필요한 모든 인프라는 다 구축할 수 있게 되는 셈이지요. 이미 막강한 기술력의 GPU를 보유하고 있는 기업임에도, 그것만이 답이 아니라는 듯이 최대한 다양한 AI 인프라 선택지를 제공하려는 모습입니다. 어쩌면 출구가 없는 것 같기도 한데요.(!) AI 산업 내에서 완전한 생태계 구축을 완성한 것이지요. 





지금까지, AI 산업에서 엔비디아가 어떻게 최고의 자리에 오르게 되었는지 간략히 짚어 보았습니다. 때마침 세계 3위라는 어마어마한 시총 규모를 달성했다는 소식까지 들려와, 이번 주제를 준비하던 에디터 SA 두 눈을 의심하기도 했었는데요. :0  PU 등의 칩을 개발하는 컴퓨팅 기업들은 3D 그래픽이 등장한 이래로 수없이 많이 등장하고 스러져 갔지만, 그 사이에서 어떻게 엔비디아가 롱런할 수 있었는지 짐작할 수 있을 것 같습니다. AI라는 커다란 기회의 파도가 밀려올 때까지, 엔비디아가 걸어온 여정이 단순히 ‘외길’인 것은 아니었으며, 명확한 방향성과 탄탄한 구조가 있었네요. :)


엔비디아의 성공 요인에 대해 알아보며, 더 소개하고 싶은 다양한 개념들이 있었는데요. 앞으로 [AI, 더 쉽게]에서 차근차근 다뤄보도록 하겠습니다. 지금까지 에디터 SA였습니다. ;)





* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!

주식회사 텐 홈페이지

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari