엔비디아 LLM 시장에 뛰어들다.
NVIDIA는 최근 인공지능 기술과 함께 급부상한 기업이다. 본질적으로 NVIDIA는 GPU라는 컴퓨터 부품 즉 하드웨어를 제작하는 회사이다. NVIDIA가 주로 제작하는 GPU라는 칩은 NVIDIA의 기술력을 따라올 회사가 없어 독점하고 있다. GPU는 컴퓨터에서 많은 연산을 빠르게 시행하는 역할을 하는데 기존에는 CPU에 밀려 조명 받지 못하다 빠른 연산이 필요한 인공지능의 등장으로 많은 사람들의 관심을 받고 있는 것이다.
현재 NVIDIA는 블랙웰이라는 새로운 GPU를 개발하고 있는데 Openai, X 등등 인공지능 개발에 심혈을 기울이는 회사들은 서로 이 칩을 구하기 위해 경쟁하고 있다. 새로 개발하는 칩은 물론 기존 칩도 없어서 못팔고 있는 상황이다.
반도체 공정을 통해 클라이언트가 제시한 반도체의 설계대로 원하는 반도체 공정을 진행해 납품해주는 TSMC라는 회사가 있다. 이 회사는 삼성과 경쟁구도에 있었다. 하지만 삼성전자와 스마트폰 시장에 경쟁구도에 있던 애플이 반도체 공정을 TSMC와 계획하면서 TSMC의 호황기가 시작되었다. 애플이라는 큰 손님을 등에 업고 이어지는 수 많은 자회사, 회사들의 주문을 받으며 TSMC는 반도체 공정 시장에서 우위를 점했다.
여기서 많은 전문가들은 TSMC의 성공 비결을 경영철학이라고 말한다. TSMC는 "우리는 고객과 경쟁하지 않는다." 라는 경영철학을 밝히며 많은 회사들이 안심하고 자신이 설계한 반도체를 제작해달라고 의뢰했던 것이다.
1에서 말한 바와 같이 NVIDIA는 인공지능 특히나 LLM을 개발하고 있는 수 많은 회사들을 주 고객으로 매출을 올리고 있다. NVIDIA는 TSMC와 매우 유사한 하드웨어 제작 회사였다. 애플만 등에 업었던 TSMC와는 달리 Openai, Meta 등등 수 많은 대기업을 등에 업고 있는 NVIDIA는 많은 전문가들이 TSMC와 유사한 보수적인 경영철학을 내세워 꾸준히 수익을 창출하며 성장할 것이라고 생각했다.
하지만 최근 NVIDIA는 놀라운 행보를 보였다. NVIDIA만의 자체 개발 LLM 모델을 공개한 것이다.
NVIDIA는 2024/9/17 자체 웹사이트에 자체 개발 중인 LLM모델인 NVLM에 대한 정보를 게시했고
지금으로부터 7일 전인 10월 1일에 huggingface에 오픈소스로 NVLM 모델과 파라미터들까지 모두 오픈소스로 공개했다. 또한 개발 과정, 활용한 데이터셋, 연구 결과를 정리하여 arxiv에 논문을 게시했다.
AI 시장의 주 관심 분야인 LLM 시장에서 NVIDIA의 GPU는 필수적이다. 이를 제작하는 회사에서 LLM 개발을 시작했다는 것은 주목할만한 소식이다.
https://nvlm-project.github.io/
https://research.nvidia.com/labs/adlr/NVLM-1/
https://huggingface.co/nvidia/NVLM-D-72B
https://arxiv.org/abs/2409.11402
NVIDIA는 논문에서 NVLM의 멀티 모달 기능을 강조했다. NVIDIA는 이전부터 GPU 개발을 통해 그래픽 렌더링과 같이 이미지, 동영상 등의 여러 자료들을 처리 해본 노하우가 있기 때문인지 확실히 멀티 모탈을 활용한 다양한 배치에서 최신에 배포된 GPT-4o, Llama-3과 비교해도 월등한 성적을 거두웠다. NVIDIA가 개발한 첫번째 모델인 것을 감안하면 굉장한 결과인 것 같다. 또 주목해야할 것은 이 모델의 파라미터이다. NVLM은 72B의 최신 모델들과 비교해보면 상대적으로 적은 파라미터를 가지고 있다. 이는 쉽게 말해 적은 양의 데이터를 학습했다는 것이다. 적은 데이터의 학습으로 다른 모델들과 비슷한 성능을 내고 있다는 점도 주목할만한 것 같다. NVIDIA는 월등한 멀티 모달 기능을 완성한 노하우를 데이터의 양보다 데이터의 질에 집중했으며 효율적인 학습을 위해 많은 것을 고려했다고 밝혔다.
엔비디아는 구체적인 모델 내부의 원리도 공개 했는데 관심있으면 위 논문 링크를 참고하면 좋을 것 같다.
간단하게만 설명하자면 NVLM은 텍스트를 입력받아 3가지 모델로 이를 처리하는 시스템 아키텍쳐를 가지고 있다.
1. NVLM-D (Decoder-only architecture): 이 구조는 전통적인 디코더 아키텍처를 기반으로 하며, 주로 텍스트 생성 작업에 적합하다.
2. NVLM-X (Cross-attention based architecture): 이 아키텍처는 교차(attention) 메커니즘을 활용하여 이미지와 텍스트 간의 멀티모달 상호작용을 강조한다. 이는 이미지 정보를 텍스트와 결합하여 더 깊은 의미 이해를 가능하게 한다.
3. NVLM-H (Hybrid architecture): NVLM-H는 위의 두 가지 접근 방식의 장점을 통합한 새로운 하이브리드 구조이다. 이는 이미지 토큰을 두 가지 경로로 나누어 처리하며, 썸네일 이미지 토큰은 텍스트 토큰과 함께 LLM에 입력되고, 일반 타일은 게이티드 크로스 어텐션을 통해 처리되어 고해상도 처리 능력을 강화한다. 이 구조는 NVLM-X보다 높은 해상도를 유지하면서 NVLM-D보다도 계산 효율성을 크게 개선한다 (출처: 섹션 4 "NVLM: models and training methods" 및 섹션 1 "Introduction").
이러한 다양한 아키텍처들은 모두 동일한 데이터 셋에서 훈련되었으며, 관찰된 성과는 최첨단 모델과 비교했을 때 경쟁력 있는 수준이다. NVLM은 멀티모달 작업에서 매우 효율적인 모델이라는 점에서 주목할만하다.
기존의 오픈소스 생태계는 Meta의 Llama가 대부분을 차지하고 있었다. Meta는 NVIDIA의 주 고객이다.
오픈소스 생태계에서 시장 경쟁력을 확보하려는 Meta와 이제 경쟁구도에 놓였다. 앞으로 어떻게 될 지는 두고 봐야 겠지만 굉장히 흥미로운 상황인 것 같다.