비전 인코더, 독자 AI 파운데이션 모델 과제의 민낯
독자 AI 기술이란 무엇을 의미할까?
최근 '독자 AI 파운데이션 모델' 과제에서 네이버클라우드가 멀티 모달 AI 모델이 중국 Qwen의 비전 인코더를 그대로 사용하여 논란이 되었었다.
일반적인 LLM은 텍스트(영어, 한국어,...)를 입력하면 텍스트를 생성한다. 흔히 우리가 사용하는 ChatGPT, Gemini의 초기 형태이다. 지금은 이미지를 입력하거나 오디오를 입력할 수도 있고 생성 또한 텍스트, 이미지, 오디오 다양한 모달리티로 생성이 가능하다.
이때 이미지(비전)라는 모달리티를 LLM에 입력하기 전에 정보를 압축하는 역할을 하는 것이 바로 비전 인코더이다. 물론 오디오 인코더도 있고, 이미지나 음성을 다시 생성하기 위한 이미지 디코더, 오디오 디코더도 존재한다.
흥미로운 건, AI 학계와 산업계 모두 멀티모달 AI 모델을 만들 때 검증된 인코더를 재사용하는 경우가 많다는 점이다. '인코더를 새로 만드는 것'보다, LLM 자체를 고도화하거나 학습/정렬 방법을 개선하는 쪽이 연구·개발의 중심이 된다. 새로운 자동차를 만든다고 할 때 타이어나 사이드 미러보다는 엔진에 신경을 쓰는 것과 마찬가지다.
그렇다면 이러한 인코더의 비중은 얼마나 될까? 일반적인 멀티모달 LLM에서 비전 인코더의 파라미터 수는 600M 즉 0.6B 정도이다. MLLM 전체가 30B 정도 되었을 때 이는 약 2% 정도에 해당하는 비율이다. 물론 모델 파라미터의 비율이 적다고 해당 모듈의 중요도가 떨어진다고 볼 순 없다.
본론으로 돌아와서 미국과 중국과 어깨를 나란히 할 독자적인 AI 기술을 확보하기 위해 우리는 무엇을 어떻게 해야 할까?
그저 남들이 한 것을 베껴 새로운 것처럼 포장하기만 한다면 누군가의 뒤통수만 보게 될 것이고, 그렇다고 세상과 단절한 채 우리만의 것을 찾는다면 갈라파고스 섬이 될 것이다. 활용할 것은 적절히 활용하면서 조금 더 미래를 내다보며 선제적으로 기술을 개발해야 하지 않을까?