인류가 다른 포유류와 달리 문명을 건설하고, 도구를 사용하고, 과학이라는 성과를 내놓았던 근본에는 인간만의, 타 개체와의 차별성이 큰 역할을 했다. 그 중 하나는 바로 '언어'이다. 텍스트로 소통하고 기록하며 지식을 축적하는 능력인 것이다. 이외에는 시각, 후각, 미각을 비롯한 다양한 감각과 기억을 융합해 세상을 인식하고 받아들이는 '지식 통합 능력'이 중요한 요소로 작용했다.
우리는 태어나서 '사과'를 먹으며 사과라는 단어가 머리에 각인되기 전에 이미 사과를 맛보고, 생김새가 어떠한지 인식하고, 사과의 새콤달콤한 맛, 촉감, 색깔, 크기 등을 알게 된다. 그리고 풋사과, 청사과, 멍든 사과까지 사과의 다양한 종류를 알게 된다. 그와 함께 '사과' 혹은 'Apple'이라는 언어, 즉 형이상학적 개념으로 뇌에 그 이미지를 저장하게 된다. 이렇게 다양한 감각과 기억을 통합하는 것이 인간의 특별한 역량이다.
여러 모달리티(Modalities)는 서로 다른 감각이나 유형의 정보를 의미한다. 예를 들어, 텍스트 데이터는 언어적인 정보를 담고 있고, 이미지는 시각적 정보를 제공하며, 음성은 청각적 정보를 전달한다. 멀티모달 AI는 이러한 다양한 정보를 종합적으로 이해하고 처리하여 보다 풍부하고 복합적인 작업을 수행할 수 있는 AI이다.
2023년 오픈API의 챗GPT가 등장하며 세상의 작업하는 방식에 큰 변화를 주었고, Large Language Model, 즉 LLM이 트렌드로 급부상하게 되었다. 그러나 2024년부터는 '대형언어모델(LLM)'에 이어 '대형멀티모달모델(LMM)'이라는 용어가 보편화될 것으로 보인다. 기존에는 '멀티모달 LLM'으로 불렀으나, 최근 미국의 일부 빅테크 기업과 매체가 기존 모델과의 차별화를 위해 LMM이라는 새 용어를 밀고 있다.
멀티모달 AI는 텍스트, 이미지, 음성, 비디오 등 여러 가지 유형의 데이터 또는 정보를 함께 활용하여 인공 지능 시스템을 구축하는 접근 방식을 가진다. 멀티모달 AI는 이러한 다양한 데이터를 조합하여 더 풍부하고 유용한 결과를 도출하고자 하는 목적으로 사용된다.
GPT-4 비전(GPT-4V)는 사용자가 업로드한 이미지를 바탕으로 챗GPT와 대화할 수 있는 멀티모달 기능이다.
무료 버전의 GPT는 LLM으로써, 사용자와 텍스트로 대화하지만, GPT-4 비전에서는 챗GPT가 이미지를 인식하고 이에 대해 설명할 수 있다.
이미지를 생성하고, 종이에 적은 수식을 옮겨적고, 새로운 툴의 활용 방법을 인터페이스 캡처본으로 물어보고, 종이에 그린 이미지로 프론트엔드를 구축할 수 있다는 챗 GPT4는 대표적인 멀티모달 AI로 출시되어 유료 구독을 통해 사용되고 있다. 특히 오픈AI가 비전(vision) 모델을 포함한 ‘GPT-4 터보’의 API를 정식 공개하며 개발에 있어 텍스트와 이미지를 활용한 멀티모달 기능 사용이 쉬워져 개발자들에게 높은 인기를 누리고 있다.
‘GPT-4V’의 V는 비전(vison)의 첫 글자를 의미하며 20개의 언어를 감지할 수 있다. 사람들이 이미지나 음성을 올리고 물으면 답하는 식이다. 예를 들어 다양한 인물의 얼굴이 담긴 사진을 보여주면 기쁨, 화남, 슬픔, 실망 등의 감정으로 구분해 알려준다. ‘존맛탱’이라는 신조어까지도 ‘맛있는 음식’이라고 설명했다. 손글씨로 쓴 일본어도 정확하게 해석했다. 스토쿠 게임을 이용한 추리도 가능하다. 김밥을 만드는 과정을 담은 이미지를 5개를 제시하고 순서대로 나열하라고 하자 문제없이 김밥 만드는 순서를 나열하기도 했다. 단순한 이미지를 넘어 그래프, 도형, 표, 컴퓨터단층촬영(CT)까지도 인식해 분석했다. CT 사진을 보고 질병을 진단하기도 한다. X-RAY를 보고 골절을 진단하였고, CT를 보고 폐 염증이나 감염을 진단했다. 유행하는 밈을 보고도 정확히 이해한다. 침대에 누워 있는 개구리 이미지와 문구를 보고 미루고 싶어 하는 사람의 욕망을 나타낸 것이라고 설명했다.
이외에도 오픈 소스로 공개된 라바 1.5와 구글의 제미나이가 LMM 모델 경쟁력을 갖추기 위해 노력하고 있다.
LMM은 다양한 유형의 데이터 입력 또는 양식을 이해하고 처리하도록 설계되었고, '다양한 유형'에는 텍스트, 이미지, 오디오, 비디오 등이 포함된다. LMM의 핵심은 다양한 데이터 형식을 통합해 동시에 이해한다는 것이다. 반면 LLM은 텍스트 데이터 처리와 생성에 특화되어 있고, 대규모 텍스트 데이터에 훈련되어 있기에 다양한 맥락에서 인간 언어를 이해하고 생성하는 시스템이 본질이다. 그러나 비텍스트 데이터를 처리하지 않는다.
대형 멀티모달 모델(LMM)의 경우, 다음과 같은 데이터 양식을 지닌다.
1) 텍스트
책, 기사, 웹페이지, 소설 등 모든 형태의 서면 콘텐츠를 포함한다. 모델은 번역, 요약, 질문 답변과 같은 자연어 처리 작업을 포함해 텍스트 콘텐츠를 이해하고 해석하고 생성할 수 있다.
2) 이미지
시각적 데이터를 분석하고 생성할 수 있다. 여기에는 사진, 일러스트레이션, 기타 그래픽 표현의 내용과 맥락을 이해하는 것이 포함된다. 이미지 분류, 객체 감지, 텍스트 설명을 기반으로 한 이미지 생성 작업도 이 범주에 속한다.
3) 오디오
녹음, 음악, 음성 언어가 포함된다. 모델은 음성, 음악, 주변 소리, 기타 청각 입력을 인식하도록 훈련될 수 있다. 음성을 기록하고, 음성 명령을 이해하고, 합성 음성이나 음악을 생성할 수도 있다.
4) 비디오
시각적 요소와 청각적 요소를 결합한 비디오 처리에는 움직이는 이미지와 그에 수반되는 소리를 이해하는 작업이 포함된다. 여기에는 비디오 콘텐츠 분석, 비디오의 동작이나 이벤트 인식, 비디오 클립 생성이 포함될 수 있다.
LMM은 다양한 유형의 데이터에서 비롯된 정보를 이해하고 통합하는 작업에 유용하게 활용될 수 있다. 텍스트, 첨부 사진, 관련 비디오 클립을 분석해 포괄적으로 이해하고 답변을 생성한다. LMM 응용 프로그램은 기사 작성, 언어 번역, 질문에 답변, 문서 요약, 텍스트 기반 콘텐츠 생성 등 텍스트와 관련된 작업을 중심으로 이루어진다.
1) 데이터 수집과 준비
LLM은 주로 텍스트 데이터에 중점을 둔다. 책, 웹사이트, 기타 서면 소스에서 다양하고 폭이 넓은 텍스트 모음을 수집한다. 반면 LMM은 텍스트 데이터 외에도 이미지, 오디오, 비디오, 감각 데이터와 같은 기타 데이터 유형도 필요하다. 다양한 형식과 양식을 포함하여 데이터를 수집하므로 LMM에서는 데이터 주석과 정규화가 높은 중요성을 가진다.
2) 모델 아키텍처 설계
LLM은 인간의 언어를 이해하고 생성하는 데 초점을 맞추어 일반적으로 순차 데이터(텍스트) 처리에 적합한 변환기와 같은 아키텍처를 사용한다. LMM의 아키텍처는 다양한 유형의 데이터 입력을 통합해야 하기 때문에 더 복잡하다. 여기에는 이미지용 CNN, RNN 또는 텍스트용 변환기와 같은 신경망 유형과 이러한 양식을 효과적으로 융합하는 메커니즘이 포함되는 경우가 많다.
3) 사전 훈련
LLM의 사전 훈련에는 큰 텍스트 말뭉치 사용이 포함된다. 모델이 문장에서 누락된 단어를 예측하는 마스크 언어 모델링과 같은 기술이 일반적이다. LMM의 사전 훈련은 더욱 다양한 형태를 지니고 있으며, 모델은 텍스트를 이미지와 연관시키거나 비디오의 시퀀스를 이해하는 방법을 학습할 수 있다.
4) 미세 조정
LLM은 전문화된 텍스트 데이터 세트를 사용하여, 질문 답변이나 번역 등 특정한 작업에 맞게 미세 조정을 한다. LMM에서는 각 데이터 양식에 대한 전문 데이터 세트도 필요하지만, 모델이 '교차 모드 관계'를 학습하기 위한 데이터 세트 역시 중요성을 가진다.
5) 평가 및 반복
LLM의 평가 지표는 유창함, 일관성, 관련성과 같은 언어 이해와 생성 작업에 중점을 둔다. LMM은 여러 도메인에 능숙해야 하므로 더 넓은 범위의 측정 항목을 기준으로 평가된다. 여기에는 이미지 인식 정확도, 오디오 처리 품질, 여러 양식에 걸쳐 정보를 통합하는 모델의 능력이 포함된다.
한국에서는 빅테크 기업인 네이버가 자사 검색 서비스에 멀티모달 인공지능(AI) 기술 도입을 확대하고 나서면서 차별화된 검색 환경 구축에 속도를 내고 있다. 스마트렌즈를 통해 멀티모달 기능을 선보인 후, 문서검색, 쇼핑검색, 서치 GPT 등 검색 전반으로 도입을 확대하고 있다.
먼저 네이버는 스마트렌즈에 '+검색어 추가' 기능을 적용했고, 유저가 이미지를 촬영한 후 텍스트를 추가로 입력해 구체화된 정보를 찾을 수 있는 환경을 제공한다. 예를 들어, 특정 신발을 찾고 싶다면 먼저 이미지를 검색한 이후, 텍스트로 색, 디자인, 소재 등의 추가 검색어를 더해가며 검색 결과를 좁혀가는 방식이다.
이뿐 아니라, 네이버는 ‘하이퍼클로바X’가 텍스트뿐 아니라 음성 이미지 코딩까지 생성하는 멀티모달로 본격 진화할 것임을 선언했다. 성낙호 네이버 클라우드 하이퍼스케일(Hyperscale) AI 기술총괄은 2024년 3월 “조만간 클로바X에 눈이 생기고 귀가 생길 것”이라고 강조하며 “현재 심혈을 기울이고 있는 것은 멀티모달로 확장”이라며 “이와 함께 클로바X의 토대인 초거대AI 하이퍼클로바X를 업데이트하고 있다”고 설명했다. 이에 추후 구글, MS 등 해외 빅테크 기업과 경쟁하는 국내 멀티모달 AI 서비스를 기대해 볼 수 있을 것으로 예상한다.
참고 자료
https://www.mk.co.kr/news/it/10955454
https://www.samsungsds.com/kr/insights/multi-modal-ai.html
https://www.aitimes.com/news/articleView.html?idxno=158700
https://www.gttkorea.com/news/articleView.html?idxno=8274
작성자 : ITS 26기 양성은