일본의 Rhymes.ai에서 세계 최초 오픈소스 멀티모달 릴리즈
일본의 AI 스타트업 Rhymes AI는 업계의 주목을 끄는 대형 발표를 했습니다. 그들이 개발한 Aria는 전 세계에서 처음으로 공개된 오픈 소스 기반의 멀티모달 Mixture-of-Experts(MoE) 모델입니다. 기존 오픈소스 기반의 모델은 단순히 텍스트를 처리하는 모델이었지만, 텍스트, 이미지, 비디오, 코드 등 다양한 입력 형식을 다룰 수 있는 능력을 지닌 것이죠. Aria는 특히 GPT-4o mini, Gemini 1.5 Flash와 같은 상업적 모델들과 비교했을 때, 긴 비디오와 다수 페이지로 구성된 문서 처리에 있어 그 성능을 뛰어넘는다는 평가를 받고 있습니다.
Aria의 독창성은 그 구조에 있습니다. MoE(Mixture-of-Experts)는 기존의 Transformer 모델의 피드포워드 레이어를 여러 개의 전문가 네트워크로 대체한 방식입니다. 일반적인 AI 모델이 모든 파라미터를 활성화하여 데이터를 처리하는 반면, MoE 모델은 입력된 각 토큰마다 특정 전문가 네트워크만을 활성화합니다. 이로 인해 Aria는 처리 속도와 비용 측면에서 뛰어난 효율성을 발휘하게 됩니다. 일반적으로 알려져 있는 바로는 Mixtral 8x7B와 GPT-4도 이런 아키텍처를 기반으로 한다고 알려져 있죠.
Aria는 텍스트 토큰당 최대 3.5억 개, 비주얼 토큰당 최대 3.9억 개의 파라미터를 활성화하여 데이터를 처리하며, 전체 모델은 총 249억 개의 파라미터를 보유하고 있습니다. 이를 통해 Aria는 대규모의 입력 데이터를 효과적으로 처리할 수 있습니다. 또한 64,000 토큰까지의 긴 컨텍스트 윈도우를 지원하여 긴 텍스트나 비디오를 이해하고 분석하는 데 있어 매우 우수한 성능을 보여줍니다.
Aria는 네 단계의 학습 과정을 통해 그 강력한 성능을 얻게 되었습니다. 첫 번째 단계는 대규모의 텍스트 데이터를 기반으로 한 사전 학습, 두 번째는 멀티모달 데이터를 추가하여 더 다양한 입력을 처리할 수 있도록 학습, 세 번째는 긴 시퀀스를 다루기 위한 훈련, 마지막 단계는 실제 응용 환경에 맞춘 세밀한 미세 조정입니다. 이 모든 과정에서 Aria는 6.4조 개의 텍스트 토큰과 4천억 개의 멀티모달 토큰을 활용하여 강력한 언어 이해 능력과 멀티모달 입력 처리 능력을 갖추게 되었습니다.
Aria의 학습 데이터는 Common Crawl과 LAION 같은 대규모 공개 데이터셋을 포함하며, 일부는 합성된 데이터도 사용되었습니다. 이를 통해 Aria는 실생활에서 발생하는 다양한 유형의 데이터를 학습하고 처리하는 능력을 극대화할 수 있었습니다. 또한 멀티모달 네이티브(Multi Modal Native)로서 멀티 모달 및 언어 데이터의 혼합에 대해 만들어질 때부터 사전 학습이 되어 있는 장점이 있습니다.
Rhymes AI는 Aria의 소스 코드를 Apache 2.0 라이선스 하에 공개하였습니다. 이로 인해 Aria는 학술 연구는 물론 상업적 용도로도 자유롭게 활용할 수 있습니다. 특히, 연구자나 개발자들은 Rhymes AI가 제공하는 훈련 프레임워크를 통해, Aria를 자신의 데이터에 맞게 미세 조정하거나 새로운 기능을 추가할 수 있습니다. 이러한 오픈 소스 전략은 AI 연구 커뮤니티의 발전을 촉진하고, 더 많은 사람이 Aria의 강력한 기능을 활용할 수 있도록 돕는 중요한 한 걸음이 되었습니다.
멀티모달 기반의 Reasoning도 의미있게 동작합니다. 아래의 Financial Report에 대해 다음과 같은 Prompt를 실행시키면 정확하게 분석합니다.
□ Prompt : How does the company's profit margin change from year 2020 to 2021? What factors cause such changes? Answer step by step.
(회사의 2020년부터 2021년까지 영업이익은 어떻게 변했어요? 어떤 원인들이 있어요? 스텝바이스텝으로 답해주세요. - Magic Keyword를 넣었네요.)
순이익은 574억에서 946억 달러로 늘었고, 순익 증가와 매출 성장, 비용관리, 운영비용 등의 원인 분석까지 정확하게 계산하는 것을 알 수 있습니다. 다른 모델과 비교해서 수학적 계산 능력이 뛰어난 것도 놀랍습니다.
심지어 이런 1장짜리 문서가 아닌 여러 장으로 된 논문과 같이 긴 멀티모달 입력을 OCR로 진행하는 것에도 아무런 문제가 없이 출력을 보여줍니다. 멀티모달이니 만치 비디오 분할 및 장면 설명도 Gemini 처럼 실행하는 것이 가능합니다.
□ Prompt : Please split this video into scenes, providing start time, end time, a title and detailed descriptions for each scene.
( 이 비디오를 장면으로 분할하여 시작 시간, 종료 시간, 제목 및 각 장면에 대한 자세한 설명을 제공해주세요.)
Rhymes AI는 Aria의 성능을 더욱 향상시키기 위해 AMD와 협력하고 있습니다. AMD의 MI300X 하드웨어를 활용하여 Aria의 성능을 최적화하였으며, 이를 통해 BeaGo라는 소비자용 검색 애플리케이션도 선보였습니다. BeaGo는 텍스트 및 이미지 검색을 지원하며, AI 기반의 검색 결과와 함께 뉴스 요약 등을 제공하는 기능을 갖추고 있습니다. 아래 영상을 보시면 이 앱은 Gemini와 Perplexity와 검색 성능을 비교하고 있는데, 이 앱은 iOS와 Android에서 무료로 이용이 가능합니다.
Aria는 상용 모델들과 비교했을 때도 전혀 뒤처지지 않는 성능을 자랑합니다. 특히 멀티모달 입력 처리에서의 뛰어난 성능은 경쟁 모델들과의 비교에서 더욱 두드러집니다. 예를 들어, Aria는 Pixtral-12B나 Llama-3.2-11B 같은 모델들보다도 우수한 성과를 내며, GPT-4o mini와 비교했을 때는 긴 비디오와 문서 처리에서 탁월한 성능을 보였습니다.
또한 Aria는 멀티모달 입력에 있어서는 Gemini 1.5 Flash보다도 효율적입니다. 특히, 여러 페이지로 구성된 문서나 긴 동영상과 같은 복잡한 입력을 처리하는 데 있어, 적은 파라미터만을 활성화하여 보다 빠르고 비용 효율적인 분석을 할 수 있습니다.
단순히만 생각하면, Document OCR이나 이미지 인식처리를 위해 Upstage의 Document Analyzer 같은 기능을 개발하고 있는 업체들이 꽤나 많았을텐데요. (멀티모달 오픈소스 모델을 엄청 다들 기다려왔으니 말이죠. 더구나 아파치 2.0이라니 말이죠.) 이 모델을 이용하면 손쉽게 활용이 가능할 것이라는 생각이 들고, 그 다음을 넘어 생각하면 오픈소스도 멀티모달의 시대를 열었으니 더욱 춘추전국의 시대가 불타오르리라는 생각이 듭니다.
Rhymes의 주요 구성원은 구글AI 출신의 전문가들로 알려져 있으며, 초기 투자는 AMD를 비롯해서 3천만달러 정도의 규모로 알려져 있습니다.
- 참고 링크 : rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model
Aria : An Open Multimodal Native Mixture-of-Experts Model (arxiv.org)