brunch

엔비디아가 자체 LLM을 계속 개발하는 까닭은?

by delight
학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 빅테크놀로지를 운영하는 Alex Kantrowitz의 글을 정리한 것입니다.


엔비디아 기업용 생성형 AI 소프트웨어 부사장 카리 브리스키는 2025년이 되어야 가능해 보이는 프레젠테이션 준비 전략을 가지고 있다. 공개 발표를 준비할 때면 브리스키는 자신의 노트를 AI 음성 클론에 업로드하고, 자신의 목소리로 발표를 전달하는 것을 듣고, 청중의 입장에서 프레젠테이션을 경험한다. 그런 다음 인간 브리스키는 AI 복제본의 포인트가 어떻게 전달되는지에 대한 느낌을 바탕으로 프레젠테이션을 평가하고 다듬는다.


겉보기엔 황당해 보일 수 있지만, 브리스키의 방식은 엔비디아 내에서 전혀 어색하지 않다. 엔비디아는 단순히 칩을 만드는 데 그치지 않고, 자사가 가능케 하는 기술의 한계를 끊임없이 확장해 나가고 있기 때문이다.

브리스키 팀의 주도 아래 엔비디아는 자체 거대 언어 모델(LLM)들까지 구축한다. LLM 개발사들에 제품을 판매하며 세계 최초 4조 달러 기업이 된 엔비디아로서는 이들을 내버려 두는 것이 합리적으로 보일 수 있다. 그러나 브리스키는 최근 인터뷰에서 “거대 언어 모델 분야에서 존재감이 기반 기술 개발 능력의 토대”라고 강조했다.


브리스키는 “우리는 이러한 모델을 대규모로 훈련하는 방법과 추론을 통해 대규모로 실행하는 방법을 이해해야 한다”라며 “이를 통해 GPU 아키텍처뿐만 아니라 스토리지와 네트워킹에도 정보를 제공할 수 있다. 이는 완전한 시스템이다”라고 말했다.


엔비디아 거대 언어 모델 프로젝트(현재 네모트론-Nemotron으로 명명)는 ChatGPT 이전인 2021년으로 거슬러 올라간다. 해당 모델들은 오픈소스로 공개되며, 훈련 데이터까지 포함된다(오늘날 AI 오픈소스 운동에서 보기 드문 사례). 또 매우 거대해질 수 있다. 메타의 라마 모델 요소를 활용한 네모트론 울트라 모델은 2,530억 개 매개변수를 지닌다.


엔비디아 거대 언어 모델은 AWS 같은 클라우드 제공업체와 웹상에서 이용 가능하지만, 브리스키는 네모트론 프로그램이 회사의 전례 없는 성장에 핵심적인 역할을 해온 대형 파운데이션 연구 회사들과 경쟁하기 위한 것이 아니라고 말했다. 그는 “우리는 AGI(인공일반지능)를 목표로 하지 않는다”라며 “이미 그 분야를 시도하는 모델 개발사들이 충분히 많다고 생각한다”고 말했다.


하지만 LLM을 오픈소스로 공개함으로써 엔비디아는 모델 구축을 통해 얻는 전문성 외에도 또 다른 이점을 갖는다. 기술 전반의 채택률 증가 가능성이다. 생성형 AI 기술을 기반으로 구축하려는 많은 기업들은 자신들 사용 사례에 맞게 맞춤화하는 데 관심이 있으며, 오픈소스 모델이 종종 해결책이 된다. 오픈소스 모델을 자신들 요구에 맞게 작동시킬 수 있다면, AWS나 오라클을 통해 더 큰 워크로드를 실행할 수 있어 엔비디아 기술에 대한 수요가 증가할 수 있다.


현재 이 전략은 효과를 발휘하는 것으로 보인다. 예를 들어 AI 검색 엔진 퍼플렉시티(Perplexity)는 네모트론(Nemotron) 기법을 통해 모델을 최적화했다. 서비스나우(ServiceNow)는 기업에 유용한 AI를 만들기 위한 작업에서 네모트론 추론 기능을 활용하고 있다.


서비스나우 제품 관리, AI 경험 및 혁신 부문 그룹 부사장인 도릿 질버샷은 “서비스나우는 에이전틱 AI 개발을 더 빠르고 접근성 있게 만들기 위한 지속적인 작업 일환으로 엔비디아 네모트론 모델을 탐구해 왔다”면서 “초기 결과는 탁월하다. 모델이 효율적이고 적응력이 뛰어나 고객을 위한 혁신을 가속화하는 데 도움이 된다. 엔비디아와 협력을 통해 더 많은 것을 계획하고 있다”고 말했다.


엔비디아는 AI 음성 복제나 거대 언어 모델(LLM)뿐만 아니라 자율주행 기술 프로그램 일환으로 캠퍼스와 베이 에어리어를 주행하는 자체 자율주행 차량도 보유하고 있다. 브리스키는 “경쟁을 위한 것이 아니다. 단순히 이해하기 위한 것이다. 학습 과정이다. 우리는 배워야 한다”라고 말했다. 또 "우리는 엔드투엔드(end-to-end)로 시스템을 구축한 후 이를 분해하고 분석해야 한다. 그래야 파트너사와 대화할 때 우리가 무슨 말을 하는지 정확히 알 수 있다"고 덧붙였다.

keyword
작가의 이전글1000개 스테이블코인을 보겠지만 대부분 실패할 것이다