AI데이터센터 혈관, InfiniBand/NVLink

AI의 언어들

AI 기술이 폭발적으로 성장하면서 데이터센터의 네트워크 인프라도 급격한 변화를 겪고 있습니다. 특히 대규모 AI 모델을 학습시키려면 GPU 간의 초고속 데이터 전송이 필수적인데요. 여기서 두 가지 핵심 기술이 바로 NVLink와 InfiniBand입니다. 이 둘은 서로 다른 영역에서 최적의 성능을 발휘하는 상호보완적인 관계라고 할 수 있어요.


먼저 NVLink는 NVIDIA GPU만을 위한 전용 연결 기술이에요. 마치 GPU들이 바로 옆자리에 앉아 있는 것처럼 직접적이고 빠른 소통이 가능하죠. 최신 H100 GPU에서는 무려 900GB/s의 엄청난 대역폭을 자랑합니다. 게다가 NVLink로 연결된 GPU들은 메모리를 공유할 수 있어서 데이터를 복사하는 낭비도 줄일 수 있어요. 여기에 NVSwitch라는 혁신적인 스위치까지 더해지면서 멀티캐스트나 그래디언트 집계 같은 고급 기능까지 지원하게 됐죠.



NVLink-types-scaled-1.jpg



반면에 InfiniBand는 다양한 서버 노드를 하나로 묶어주는 광역 네트워크에요. RDMA라는 기술을 써서 원격 서버의 메모리에 직접 접근할 수 있게 해주죠. 최신 사양으로는 400Gbps, 숫자로는 50GB/s의 대역폭을 제공합니다. NVLink보다는 느리지만 훨씬 먼 거리를 커버할 수 있어요. 무엇보다 개방형 표준이라 여러 제조사의 장비를 조합해서 쓸 수 있다는 게 큰 장점이에요.


infiniband.jpg



실제 AI 데이터센터에서는 이 둘을 적재적소에 배치해서 시너지를 극대화하고 있어요. 대표적인 게 OpenAI의 GPT-3 학습 사례인데요. NVSwitch 아키텍처를 도입한 결과 InfiniBand 대비 51.2배나 빠른 학습 속도를 달성했대요. 엄청난 성과죠? 요즘은 NVLink로 단일 노드의 GPU들을 촘촘히 연결하고, InfiniBand로 스토리지나 다른 노드들과 소통하는 하이브리드 구성이 트렌드라고 합니다.


물론 NVLink는 NVIDIA 전용이다 보니 초기 도입 비용이 만만치 않아요. 하지만 학습 시간을 확 단축시켜 주니 장기적으로는 오히려 이득이 될 수 있죠. InfiniBand는 개방성 덕에 경쟁 입찰로 원가를 절감하면서 유연하게 확장할 수 있고요. 앞으로는 NVLink의 차세대 버전이 1.8TB/s까지 속도를 높일 거라는 소식도 있어요. InfiniBand도 800Gbps 시대를 준비하면서 AI에 특화된 QoS 기능을 강화하고 있고요.


더 흥미로운 건 이 둘의 장점만 뽑아 결합한 융합 기술들이 등장하고 있다는 거예요. 엔비디아의 Spectrum-X 같은 차세대 네트워킹 플랫폼이 대표적인데, NVLink 수준의 성능과 이더넷 수준의 유연성을 동시에 제공한다고 해요. 덕분에 OpenAI의 야심찬 스타게이트 프로젝트에서도 채택되었다고 하네요.


NVIDIA5-1024x523.png


이처럼 NVLink와 InfiniBand는 AI 데이터센터의 동맥과 정맥 같은 존재예요. 서로 다른 방식으로 데이터의 흐름을 최적화하면서 거대한 AI 모델의 학습을 돕고 있죠. 앞으로는 작업의 특성에 맞게 이 둘을 전략적으로 배치하고 오케스트레이션 하는 것이 데이터센터 설계의 핵심 과제가 될 것 같아요. 더불어 둘의 융합을 통해 더욱 혁신적인 네트워크 기술이 탄생할 것으로 기대됩니다.


여러분은 데이터센터 네트워크에 대해 어떻게 생각하시나요? IT 인프라에 관심이 있으시다면 NVLink와 InfiniBand의 동향을 주의 깊게 살펴보시길 추천드려요. 단순히 배선을 깔아놓는 것 이상으로, 어떤 방식으로 연결하고 제어할 것인지가 AI의 성패를 가를 열쇠가 될 테니까요. 기술의 진화와 함께 데이터센터의 모습도 계속 달라질 텐데, 여러분도 그 변화의 흐름을 놓치지 마시기 바랍니다!


keyword
수요일 연재