카카오, 국내최초
전문가 혼합MoE언어모델 공개

경량화된 언어 모델

by 문영란

카카오

전문가 혼합(MoE, Mixture of Experts) 언어모델 ‘Kanana-1.5-15.7b-a3b’ 오픈소스로 공개


허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델‘Kanana-1.5-v-3b’와 전문가 혼합(MoE, Mixture of Experts) 언어모델 ‘Kanana-1.5-15.7b-a3b’를 오픈소스로 공개했다.


*허깅페이스: 미국인공지능 스타트업, 트랜스포머나 데이터셋 같은 머신러닝 라이브러리를 제공하는 세계 최대의 인공지능 플랫폼 중 하나임 (머신러닝계 깃허브)


‘Kanana-1.5-v-3b’는 텍스트 뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델로, Kanana 1.5는 ‘프롬 스크래치(From Scratch)’ 방식으로 개발됐다.

멀티모달 언어모델인 ‘Kanana-1.5-v-3b’는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행(instruction following) 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유한 것이 특징이다. 경량 모델임에도 이미지로 표현된 한국어와 영어 문서 이해 능력이 글로벌 멀티모달 언어모델 GPT-4o와 견줄 수 있을 정도로 뛰어나다.

카카오 이미지 .png



카카오는 인간 선호 반영 학습(Human Preference Alignment Training)과 지식 증류(Knowledge Distillation)를 통해 ‘Kanana-1.5-v-3b’의 성능을 극대화했다.

지식 증류는 고성능의 대형 모델(Teacher Model)로부터 비교적 작은 모델(Student Model)을 학습하는 방식이다.

대형 모델의 예측 확률 분포까지 학습에 반영함으로써 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술로, 이를 통해 상대적으로 경량화 된 모델 구조임에도 정확도나 언어 이해 등의 능력에서 대형 모델의 높은 성능에 근접한다.
‘Kanana-1.5-v-3b’경량 멀티모달 언어모델의 강점토대로 이미지 및 글자 인식, 동화 및 시 창작, 국내 문화유산 및 관광지 인식, 도표 이해, 수학 문제풀이 등 여러 분야에서 유연하게 활용할 수 있다. 예를 들어, 장소 사진과 함께 “이 사진이 촬영된 장소에 대해 간단히 설명해줘”라고 질문하면 “이 사진은 서울 청계천을 배경으로 하고 있습니다”와 같이 국내 지역에 대한 높은 인식력을 바탕으로 정확한 답변을 제공한다. 이미지 검색, 콘텐츠 분류 등 실시간성과 효율성이 요구되는 분야에서 효과적 사용이 가능하다.

카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 멀티모달 이해 능력, 사용자 지시 수행 능력, 추론능력을 갖추도록 발전시키는 데 주력하고 있다.

혁신적 MoE 모델 구조로 일반적인 ‘밀집(Dense)’ 모델과 차별화되는 MoE(Mixture of Experts) 구조의 언어모델을 오픈소스로 함께 공개했다.


‘MoE’는, 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식으로 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점이다. 이러한 장점 덕에 글로벌 시장에서는 AI 모델 개발 트렌드로 자리잡고 있다.

MoE 아키텍처를 적용한 ‘Kanana-1.5-15.7b-a3b’는 전체 15.7B의 파라미터 중 추론 시 약 3B 파라미터만 활성화되어 동작한다. 자사의 3B 규모의 모델 ‘Kanana-Nano-1.5-3B’에 ‘업사이클링(Upcycling)’ 방식을 적용해 개발했다.

업사이클링기존 다층 신경망(MLP, Multi-Layer Perceptron) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식으로, 모델을 처음부터 개발하는 방식에 비해 효율적이다. 활성화되는 파라미터가 3B에 불과하지만 성능은 ‘Kanana-1.5-8B’와 동등하거나 상회하는 수준을 기록했다.

카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있다.특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리해 활용도가 높다.

출처 : 인공지능신문(https://www.aitimes.kr)

keyword
매거진의 이전글하이브리드 양자 인공지능