이제는 다들 알다시피, LLM은 텍스트 생성, 번역, 요약, 질의응답 등 다양한 작업을 수행할 수 있어서 여러 분야에서 활용되고 있습니다. 그러나 LLM에도 다양한 종류가 있다는 사실, 알고 계셨나요? 오늘은 그중에서도 싱글모달(Single-modal)과 멀티모달(Multimodal)의 차이점과 멀티모달의 추구하는 방향성에 대해 쉽게 설명해 드리려고 합니다.
싱글모달 LLM은 말 그대로 하나의 데이터 유형만을 처리하는 모델입니다. 일반적으로는 텍스트 데이터를 입력받고 텍스트로 결과를 출력하는 방식이 가장 흔합니다. 예를 들어, 텍스트 입력을 받아서 텍스트 응답을 생성하는 ChatGPT 3.5가 싱글모달 LLM의 대표적인 예입니다.
반면에 멀티모달 LLM은 여러 가지 데이터 유형을 동시에 처리할 수 있는 모델입니다. 텍스트뿐만 아니라 이미지, 비디오, 오디오 같은 다양한 입력을 이해하고, 이에 대한 반응을 생성할 수 있는 것이 특징입니다.
예를 들어, 여러분이 어떤 사진을 AI에게 보여주면서 이 사진이 무엇인지 설명해 달라고 요청할 수 있다면, 그 AI는 멀티모달 LLM일 가능성이 높습니다. 이 모델은 이미지를 분석하고, 그에 맞는 텍스트로 설명을 제공할 수 있습니다.
아래는 싱글모달과 멀티모달의 간단 비교표입니다.
AI 기술이 발전하면서, 우리는 싱글모달에서 멀티모달로 점차 발전하는 모델들을 접하고 있습니다. 이는 마치 인간의 능력이 확장되는 것처럼, AI도 더 많은 종류의 데이터를 처리하고 다양한 방식으로 소통할 수 있는 방향으로 나아가고 있다는 것을 보여줍니다.
이제는 단순히 텍스트를 처리하는 것을 넘어, 시각, 청각 등 다양한 감각을 활용하는 멀티모달 LLM이 실생활에 더 큰 변화를 가져올 것입니다.
몇 년 전만 해도 멀티모달리티는 AI 분야에서 꿈 같은 개념이었습니다. 즉, 사람처럼 여러 감각을 동시에 처리하는 AI를 만드는 것이 매우 어려웠다는 뜻입니다. 그러나 오늘날에는 필수가 되었습니다. 모든 주요 AI 회사들이 이 기술을 발전시키기 위해 열심히 노력하고 있습니다.
지금은 AI가 단순히 텍스트만 처리하는 것이 아니라, 이미지나 소리(오디오), 동영상(비디오) 같은 여러 데이터를 동시에 처리할 수 있어야 한다는 요구가 커졌습니다. 그래서 AI 모델이 여러 감각을 처리하고 이해하는 능력을 개발하는 것이 중요한 목표가 되었습니다.
AI 전문가들은, 인간처럼 모든 능력(시각, 청각, 촉각, 후각, 미각 + @) 을 AI에게 복제할 필요는 없다고 생각합니다. 그러나 사람의 뇌가 다양한 정보를 멀티모달리티로 처리하는 방식은 무시할 수 없다고 보고 있습니다. 그래서 AI도 사람처럼 여러 감각을 동시에 처리할 수 있도록 발전시키고 있는 것입니다.
현재나와 있는 멀티모달의 예를 들면,
GPT-4o: 이 모델은 텍스트와 이미지를 동시에 처리할 수 있습니다. 예를 들어, 사진을 보여주고 이 사진에 대해 질문하면, AI가 사진을 분석하고 텍스트로 설명해 줄 수 있습니다.
Gemini 1.5: 이 모델은 텍스트, 이미지, 오디오, 비디오까지 다양한 데이터를 받아들여 분석할 수 있습니다. 예를 들어, 영상을 보고 이 영상에 대해 설명하는 텍스트를 생성하는 것이 가능합니다.
멀티모달리티의 미래는 어디로 향하고 있을까요? AI가 앞으로 더 많은 감각을 처리할 수 있게 될 것인지, 그리고 GPT-5 같은 차세대 AI 모델들은 어떤 새로운 기능을 가지고 있을까요?
그런데, 인간의 감각은 5가지뿐일까요? 어떤 새로운 기능이 있을지 유추해보려면, 이것부터 정의하는 게 좋을 거 같습니다. 사람들은 흔히 인간에게 다섯 가지 감각(시각, 청각, 촉각, 후각, 미각)이 있다고 생각합니다. 그래서 AI가 이 다섯 가지 감각을 모두 처리할 수 있게 된다면, 그것이 끝이라고 저자는 생각했습니다.
하지만, 아래 글은 그런 생각이 사실이 아니라고 말하고 있습니다. (사실 이 글을 읽고 좀 충격받았습니다.)
https://www.newscientist.com/article/mg18524841-600-senses-special-doors-of-perception/
이 글에서는 인간에게는 더 많은 감각이 있다고 합니다. (* 최소 21개 감각)
실제로 인간은 다섯 가지 이상의 감각을 가지고 있습니다. 예를 들어, 균형 감각(몸이 기울어지지 않게 중심을 잡는 능력)이나 온도 감각(추운지 더운지 느끼는 것) 같은 것들이 있습니다. 이 감각들은 우리가 일상에서 느끼고 있지만 다섯 가지 감각에 포함되지 않는 중요한 요소들이죠.
그렇다면 GPT-5와 같은 차세대 AI는 인간이 가진 다양한 감각을 넘어 더 많은 정보를 처리할 수 있게 될까요? 이 질문은 AI의 발전 방향을 고민하게 만듭니다. 추측하자면, 미래의 AI는 단순히 텍스트, 이미지, 소리를 처리하는 것을 넘어, 더 많은 종류의 데이터를 이해하고 활용할 수 있게 될 것입니다.
다시 말해서, 인간의 감각이 다섯 가지로 끝나는 것이 아니듯이, AI도 계속해서 더 많은 감각과 정보를 처리할 수 있는 방향으로 발전할 가능성이 높을 거 같습니다.
여기서 끝내면 아쉽죠. 좀 더 진행볼까요. 그러면, 더 많은 감각과 정보를 가져오기 위해서, 어떻게 해야 될까요? 정답은 인간과 더 닮아가면 됩니다. OpenAI 의 횡보를 보면, 그 정답의 가능성을 살짝 유추해볼 수 있습니다.
OpenAI 가 Figure라는 회사와의 파트너십 (2024.04) 을 통해 OpenAI가 로봇공학 분야에 관심이 있다는 것을 알 수 있습니다.
기사 : https://www.aitimes.com/news/articleView.html?idxno=160225
데모 : https://x.com/coreylynch/status/1767927194163331345
여기서 중요한 포인트는 AI가 단순히 눈(시각)과 귀(청각) 같은 감각만 처리하는 것이 아니라, 촉각, 고유 감각(자신의 몸 상태를 인지하는 능력), 그리고 운동 시스템(걷거나 손을 움직이는 것)까지도 포함해야 한다는 점입니다. 즉, AI가 로봇처럼 움직이거나 물건을 조작하는 능력을 포함하는 것이 중요하다는 것입니다.
멀티모달은 AI가 여러 종류의 감각을 동시에 처리할 수 있는 능력을 말하는데, 로봇을 통하여서 이를 확보할 수 있습니다. 즉, 로봇은 다양한 감각(시각, 촉각, 고유 감각)과 운동 기능(걷기, 물건 잡기 등)을 동시에 활용해야 하므로, 멀티모달 AI와 로봇과의 접목은 필연적(必然的) 입니다.
AI는 처음에 인간 뇌를 모방한 퍼셉트론 개념에서 출발해, 딥러닝과 현재는 대형 언어 모델(LLM)을 통해 발전하고 있습니다. 지금까지는 주로 시각과 청각에 집중했지만, 앞으로는 AI가 인간의 5대 감각(시각, 청각, 촉각, 후각, 미각)을 모두 처리할 수 있게 될 것입니다. 그 이후에는 AI가 신체적 역할까지 모방하여, 사람처럼 움직이거나 물건을 다루는 능력을 갖추게 될 것입니다. 결국 AI는 단순히 정보 처리에 그치지 않고, 인간의 감각과 신체 역할까지 포함하는 범위로 확장될 전망입니다. (머나먼 미래 이야기이지만요 ^^)