멀티모달 모델(Multimodal Model)이란 이야기를 들어보셨나요?
초기 AI 연구는 주로 자연어 처리 및 텍스트 생성에 집중되었고, 그것만 해도 대단하다
"질문하면 답변 다해줘" "내 말을 알아먹어!"
이런 느낌으로 대단하다 칭송받았으나, 최근의 대규모 언어 모델(LLM)과 딥러닝 알고리즘의 발전은 단일 데이터 소스로부터 벗어나 다양한 센서와 입력 장치에서 발생하는 데이터를 효과적으로 융합하는 방향으로 발전하고 있죠.
이에 따라, 텍스트, 이미지, 오디오, 비디오 등 서로 다른 특성을 지닌 다중 데이터 모달리티를 동시에 고려하고 통합하여 학습하는 AI 멀티모달 기술을 많은 AI서비스에서 도입하고 있고, 신규 AI출시 시 멀티모달을 지원하냐 안 하냐는 질문이 나올 정도로 핵심적인 기능으로 평가받고 있습니다.
멀티모달을 활용한 모델이 대중화되고, 여러 데이터를 동시에 처리가 가능해짐에 따라, 학습은 각 모달리티가 지니는 고유한 정보뿐 아니라, 이들 간의 상호 연관성과 시너지 효과를 모형화할 수 있다는 점에서 엄청난 이점을 보였는데요, 이렇게 말하면 좀 어렵죠? 잠깐 예시를 들어보자면 아래와 같습니다.
영상 데이터를 통한 객체 인식과 텍스트 데이터를 통한 설명 간의 관계를 동시에 학습함으로써, 보다 정교하고 상황에 맞는 해석을 가능하게 합니다. 이러한 융합 접근 방식은 공통 임베딩 공간(common embedding space)의 구축, 크로스 모달 어텐션(cross-modal attention) 메커니즘, 그리고 다중 스트림 네트워크(multistream networks) 등 다양한 알고리즘적 기법을 통해 구현되고 있으며, 이는 최근의 학계와 산업계에서 활발히 연구되고 있는 주제입니다.
말은 어렵지만 결론만 놓고 말하면 최근 업데이트된 대화가능한 GPT나 O3 O1에서 지원하는 PDF 읽는 기능 광학 문자 인식(OCR)을 기반으로 한 활용 등 인공지능의 활용성을 대폭 키워주는 것이 가능하다는 점이 무척이나 매력적이죠 오늘은 이 멀티모달에 대해 한번 이야기해 보시죠
멀티모달 AI란, Baltrušaitis et al. (2019)의 "Multimodal Machine Learning: A Survey and Taxonomy"에서 나온 정의를 많이 사용되는데
"Multimodal machine learning is the field of machine learning that concerns itself with information coming from multiple modalities. It aims to use these modalities to create more robust and effective systems that are able to perform tasks that would be difficult or impossible to solve using just a single modality."
국문으로 말하자면
텍스트, 이미지, 오디오, 비디오 등 서로 다른 특성을 지닌 다양한 데이터 모달리티를 동시에 처리하고 통합함으로써, 단일 모달리티 기반 시스템이 제공할 수 없는 풍부한 정보와 정밀한 분석 결과를 도출하는 기술을 의미합니다.
이와 같이 번역할 수 있습니다. 조금 더 직관적으로 말하면
텍스트 이미지 오디오 비디오를 활용할 수 있는 AI로 이해하시면 됩니다.
조금 기술적인 이야기를 해봅시다 멀티모달을 이해하기 위해서는 아래와 같은 기술들이 적용되는데 기본적인 개념들만 조금 다루고 가보죠
특성 추출 (Feature Extraction)
각 모달리티에서 유의미한 정보를 추출하기 위해, 서로 다른 신경망 아키텍처(CNN, RNN, Transformer 등)가 사용되는 기술입니다. 예를 들어, 이미지 데이터는 CNN을 통해 공간적 특징을, 텍스트 데이터는 Transformer 기반 모델을 통해 문맥 정보를 추출하는 것이죠
조금 복잡해 보이지만 단순하게 말하면 언어를 벡터공간에 표현한 것처럼 그림도 벡터공간에 표현한다. 이렇게 이해하시면 됩니다.
공통 임베딩 공간 (Common Embedding Space)
추출된 다차원 특징들은 서로 다른 모달리티 간의 비교와 결합을 용이하게 하기 위해, 동일한 임베딩 공간으로 투영됩니다. 이 과정은 텍스트와 이미지, 또는 오디오와 비디오 데이터 간의 의미적 연관성을 학습하고 강화하는 역할
이전에 우리가 행렬화를 시킨 녀석을 이미지와 텍스트를 동일한 임베딩 공간에 매핑하여, 이미지 내 객체와 관련 설명 간의 관계를 효과적으로 학습하는 것이죠
융합 (Fusion) 메커니즘
이제이걸 이해하려면 합성시켜야겠죠? 이합성 시키는 방식도 2가지로 나누어집니다.
먼저 하면 Early Fusion 나중에 하면 Late Fusion으로요
Early Fusion
초기 단계에서 각 모달리티의 데이터를 결합하여 단일 네트워크에 입력함으로써, 데이터 간의 상호작용을 조기에 학습합니다. 이 방식은 모달리티 간 상호 보완적 정보를 최대한 활용할 수 있으나, 데이터 차원의 이질성이 문제로 작용할 수 있습니다.
Late Fusion
각 모달리티별로 별도의 모델을 구성한 후, 최종 예측 단계에서 결과를 결합하는 방식입니다. 이 접근법은 각 모달리티의 특성을 독립적으로 보존할 수 있는 장점이 있으나, 모달 간 상호작용을 충분히 반영하지 못할 수 있습니다.
물린 우리의 공학자들은 여기서 멈추지 않고
Joint Fusion이란 기술을 활용해 두 개의 모달리티 데이터를 동시에 학습시키지 않고 내가 원하는 모델의 깊이에서 모달리티를 병합할 수 있는 유연성을 두가 학습 시키는 방식도 있습니다.
하나의 모달리티로 모델학습을 진행하다가 모델학습의 마지막 레이어 전에 다른 모달리티와 융합하는 방법으로, 이 과정을 end-to-end learning이라고도 하는 것이죠
자 이제 본격적인 메인터넌스로 가봅시다, 현대 인공지능 시스템은 급격한 발전과 함께 점차 다양한 데이터 소스를 통합하여 처리해야 할 필요성이 대두되고 있습니다. 개인 에이전트의 시대로 오면서 단순하게 문자열을 처리하는 것이 아닌 특화된 AI가 대두되면서 이는 더더욱 강조되고 있는 부분이죠
멀티모달 AI 기술은 이러한 필요에 부응하여, 단일 모달리티 기반 시스템이 가진 한계를 극복하고 있는 겁니다 한번 봐보시죠
전통적인 AI 시스템은 주로 한 가지 데이터 유형에 초점을 맞춰 개발되었습니다. 예를 들어, 자연어 처리 분야에서는 텍스트만을 분석하여 언어 모델을 구축하고, 이미지 인식 분야에서는 CNN 기반의 모델로 시각적 정보를 처리했습니다. 문제는 이런 방식으로 활용하는데 한계에 도달한 것이죠 문제가 뭐였을까요?
결론부터 말씀드리면 이제 AI를 만드는 시대에서 현실적인 활용을 하는 시대로 온 겁니다.
현실 세계의 문제는 보통 다양한 데이터 소스가 상호작용하는 복합적 특성을 지니고 있고, 이를 활용하기 위해서는 기본적으로 복잡한 미분방정식을 필요합니다. 심지어 데이터를 측정하는 데 있어 단일 모달리티 기반 시스템은 전체 상황을 인식하는데 제한이 있죠
거기에 노이즈에 취약하고 특정 상황이나 문제에 대해 제한된 정보만을 제공할 수 있는 문제도 지적받았죠
예를 들어볼까요? 만약 자율주행에 AI를 활용하는 데 있어, 여러 개의 센서를 통합해야만 하고 심지어 이를 판단하고 또 이를 정리해서 순간적으로 판단해야 합니다. 각 센서에서 모달리티는 고유의 정보를 제공하며, 서로 보완적인 역할이 가능해지는 것이죠.
자율주행 차량에서는 카메라 영상과 라이다 센서 데이터가 결합되어 주변 환경의 입체적 인식과 장애물 검출에 큰 시너지를 발휘하고 인식하는 데 있어 단일 모델보다 훨씬 난도가 낮아지게 됩니다.
심지어 멀티모달 시스템은 공통 임베딩 공간이나 융합 메커니즘을 통해 각 모달리티의 특징을 효과적으로 결합하기에, 복잡한 패턴과 상호작용을 보다 정밀하게 모델링할 수 있게 하며, 이를 통해 더욱 세밀한 문제 해결과 예측이 가능해지는 것이죠
결국 AI를 좀 더 적용하기 위해서 멀티모달 모델은 반드시 활용해야 할 기술이기도 합니다. 그래서 이걸 지금 왜 설명하냐고요? 사실 멀티모달의 대세는 몇년전이었던건 사실입니다.
하지만 이번주에 다룰 2025년 대세 로보틱스 AI에 대한 이야기를 다뤄보기 위한 사전지식 느낌으로 읽어부시면 감사 하겠습니다. 이 부분을 이해해야 로보틱스 AI나 고급 AI기술에 대해서 논할수 있기에 내일 한번 실제 활용한 부분을 다뤄보겠습니다.