멀티모달 AI, 멀티모달 인공지능이라는 용어를 들어보신 적이 있는지 모르겠습니다
멀티(multi)라는 건 여러 개, 모달(modal)은 형식을 뜻하는 단어이니, ‘다중 형식 인공지능’ 이렇게 번역을 하기도 합니다. 이게 어떤 의미가 있냐고 하면, 많은 분들한테 최근 관심을 받는 ChatGPT, 미드저니 등 생성형 인공지능을 LLM 모델이라고 하잖아요. Large Language Model (초거대 언어 모델)이라고 보통 얘기를 하는데, 이런 인공지능을 사용하려면 프롬프트(prompt)라고 해서 창에다가 일종의 명령문을 텍스트로 입력하면 인공지능이 그 명령어를 받아들여서 부탁한 거를 수행하는 거죠. 그러다보니 입력창에 텍스트를 어떻게 입력하느냐 하는게 굉장히 중요하게 대두가 됐죠. 어떤 단어를 어떤 형식으로 입력하는냐에 따라 인공지능이 창작해내는 결과물이 완전히 다르게 나오는 것을 사람들이 경험하게 됐거든요. 그래서 텍스트를 입력하는 능력, 노하우 이런 부분이 강조되다 보니까 이것을 전문적으로 하는 직업이 탄생하게 됩니다. 프롬프트 엔지니어(prompt engineer)라고요.
그리고 프롬프트 엔지니어링 관련 책들이 출간되어 인기를 끌고 있기도 합니다. 이런 책들에서는 프롬프트 형식이 있으니까 거기에 원하는 단어 한두 개 키워드만 바꿔서 넣으면
인공지능이 굉장히 정확한 결과물을 내준다라고 하면서 다양한 예제를 제공해 줍니다. 마치 인공지능이라는 기기를 잘 다루는 방법을 매뉴얼화해서 판매하는 것과 비슷한 것이죠.
그런데 멀티모달이라는 건 무슨 의미냐?
우리가 텍스트로만 입력하는 게 아니라 내가 말로도 이렇게 이렇게 해줘 라고 하면 인공지능이 그걸 알아듣고 결과물을 만들어 줄 수 있고, 내가 그림을 입력을 할 수도 있다는 겁니다. 사진을 입력한 다음에 “이 사진을 어떤 식으로 바꿔줘” 이렇게 하면 이거는 텍스트와 이미지 두 가지 형식이 명령문에 들어간 거죠. 이처럼 텍스트뿐 아니라 오디오, 비디오 등 여러가지 형식의 정보들을 모두 사용해서 인공지능과 소통할 수 있게 되는 걸 ‘멀티모달 인공지능’이라고 하는 겁니다.
지금 ChatGPT 혁명이라고까지 부를 정도로 많은 분들이 인공지능의 엄청난 잠재력을 알게 됐지만 텍스트로만 명령어를 입력하는 방식은 대중적으로 보면 여전히 아직도 어려운 방식이라는 겁니다. 그래서 더 인공지능이 대중화 되기 위해서는 우리가 말하듯이 음성으로 얘기를 하고 아니면 필요할 때는 사진도 보여주고 영상도 보여주고, 카메라로 뭘 찍어서도 보여주기도 하고, 이렇게 여러가지 방식으로 인공지능과 커뮤니케이션이 되야만 진정한 인공지능의 대중화가 이루어질 수 있다고 해서 멀티모달 AI가 중요하게 얘기되고 있습니다.
여러가지 방식으로 인공지능과 소통을 하게 되는 것은 콘텐츠 창작에서도 굉장히 중요한 역할을 하게 될것으로 예상됩니다. ChatGPT로 블로그에 올릴 글을 쓴다든지, 미드저니로 사진을 만들어낸다든지 할 때, 지금은 프롬프트 창에다가 단어를 입력해서 인공지능에게 명령을 합니다. 이 방식이 일반 사용자들도 그나마 쉽게 인공지능을 접해볼 수 있어서 큰 반향을 일으키게 된 것이죠. 그런데 숙련된 사람이 아니라면 사실 자신이 원하는 결과물을 제대로 만들어내는 것이 여전히 어려운 것이 사실입니다. 물론 과거에 인공지능 전문가들이나 가능했던 일들을 ChatGPT라는 대화형 인공지능으로 장벽을 많이 없앴지만, 누구나 쉽게 활용하기에는 여전히 어려운 점이 많이 있죠. 그래서 지금보다 더 쉽게 누구나 인공지능을 활용하는 대중화 시대를 위한 개발이 필요하다고 생각하고 ‘멀티모달’ 인공지능을 많은 기업에서 투자를 하고 있습니다.
인공지능의 발달로 개인이 모든 걸 다 할 수 있는 시대가 다가오고 있습니다. ‘슈퍼 개인’이라는 용어가 이런 현상을 표현하면서 최근 사용되고 있구요. 능력이 뛰어난 개인이 인공지능을 잘 활용할 수가 있다고 하면 엄청난 결과물을 만들어낼 수 있다는 얘기들을 많이 하고 그런 사회가 실제로 되어가고 있습니다 멀티모달 AI로 누구나 쉽게 인공지능을 활용하는 세상이 된다면, 이제 인공지능은 마치 스마트폰처럼 개개인이 손쉽게 사용하는 도구로 자리를 잡게 될 것입니다. 스마트폰으로 사진과 영상을 찍어 올리고 글과 음성을 업로드 하는 것처럼 인공지능은 모두의 개인 도구가 진화해 가는 중입니다.