LMM의 가능성과 한계

LMM; Large Multimodal Models(대형 다기능 모형)

by Nous

얼마 전까지만 해도 Gemini, ChatGPT, Claude, Grok, Deepseek을 대표하는 단어는 LLM(Large Language Model)이었다. 이제는 이 단어가 꽤나 부적합해졌다. LLM으로 불리던 모델들에 그림 그리기, 영상 만들기 등 여러 기능이 추가되었기 때문이다.


이제는 이들을 LMM(Large Multimodal Models)이라 불러야 적합해 보인다. Gemini만 해도 그 안에 Veo, Nano Bananas 등 추가 기능이 붙는다. 그림도 그리고, 영상도 만든다. 이제 더 이상 언어(Language)만을 다루는 도구가 아니다.


현재 LMM은 엄청난 가능성을 보여주는 중이다. ChatGPT가 처음 나왔을 때처럼 사람들은 LMM을 보고 놀란다. 특히 최근에는 LMM이 만들어내는 영상들이 화제다. LMM을 가지고 만든 영상을 편집하여 작품을 만들어내기도 한다. 큰돈을 들여야 제작이 가능했던 영상들이 이제 몇만 원에서 몇십만 원 구독료만 내면 제작 가능해졌다. 확실히 엄청난 변혁이다.


영화 애호가로서 이런 현상에 큰 관심이 가지 않을 수 없었다. 그래서 화제가 되는 LMM으로 만든 영상들을 살펴보았다. 놀라웠다. 키보드로 묘사만 잘하면 수준급 영상이 뚝딱 만들어졌다. Gemini로 직접 영상을 만들어보기도 하였다. 격세지감이 느껴졌다. 그렇게 잠시 동안 LMM이 만든 영상들에 푹 빠졌다.


조금 시간이 지나자 한계성들도 보였다. 우선, 아직은 롱 테이크(long take)가 불가능했다. 8초, 10초 정도가 한계처럼 보였다. 그 8초, 10초도 영화 영상을 관찰할 때와 같은 기준으로 객관적으로 평가한다면 한계점이 꽤나 보였다. 'LMM으로 만든 영상'이라는 꼬리표를 뗀다면 경쟁력이 크게 떨어질 듯 보였다.


그 뒤에 든 생각은 '이 LMM이 인간 기준에 맞춘 완성도에 다다를 수 있을까?'였다. LMM 영상은 이제 시작단계다. 시작단계치고는 매우 놀라운 능력을 LMM은 보여줬다. 이는 ChatGPT가 처음 나왔을 때와 같은 상황이다. Open AI사가 내놓은 ChatGPT는 단번에 세계 최고 스타급 관심을 끌어모았다. 그전 세대 채팅봇들과는 확연히 다른 수준을 ChatGPT는 보여줬다. 그 뒤로 새 LLM들이 줄줄이 탄생했고, 각축전을 벌였다.


초반에는 관련 지식을 꽤나 많이 갖춘 사람들만이 LLM의 한계를 알아챘다. 요즘에는 일반 사람들도 꽤나 그 한계를 많이 깨닫는다. 경우에 따라서 이 도구들이 내뱉는 결과가 얼마나 부정확한지, 또 때로는 얼마나 어이없는 부분에서 오류를 일으키는지를 이제는 꽤 많은 사람들이 경험을 통해 알게 되었다. LLM은 여전히 유용하고 강력한 도구로 성장을 계속하는 중이지만, 그 불완전성과 미신뢰성 역시 계속하여 발견되는 중이다.


LMM도 마찬가지 아닐까 싶다. 아마 LMM이 수행 가능한 작업 종류는 계속해서 늘어날 것이다. 지금은 영상과 음악 생성 등이 주된 활동이지만 앞으로는 가상 콘서트나 현대 무용극 등, 영상으로 녹화되는 다양한 활동들도 LMM을 통해 가능하게 될지도 모른다.


다만 그 마감, 즉 완성도 수준이 어느 정도에 다다를지는 의문이다. 이는 LMM이 무능해서가 아니다. 이는 '완성도'라는 개념 자체가 매우 인간 중심적인 취향이기 때문에 드는 의문이다.


완성도는 아주 인간적인 개념이다. 인간적인 경험치가 쌓이면서 만들어진 개념이다. 완성도에 대해서는 인간들 사이에서도 의견이 분분한 경우가 많으며, 느끼지 못하는 경우도 대다수다. 한때 드라마나 영화의 촬영 및 연출 실수, 즉 '옥에 티'를 잡아내어 방송하는 프로그램이 있었다. 정말 극소수를 제외하고는 알아채기 힘든 티들이었다. 그 티들이 눈에 들어온 사람들은 완성도에 대한 결점을 느꼈겠지만, 대다수는 그렇지 않았을 것이다. 하지만 분명한 건 그 방송 결과 그 작품들, 결과물들은 '옥에 티'가 남겨진 것이 되었다.


이렇게 인간 중심적이며 상대적이고 경험적인 완성도 문제를 LMM이 해결을 할 날이 과연 올까? 나는 회의적이다. 우선, LMM들이 학습을 하는 발판이 되는 기반 자료들 자체가 한계가 크다. 아마도 LMM은 엄청나게 많은 영상을 학습하고 그들을 바탕으로 추상화작업을 할 것이다. 불행히도, 역사상 인간이 만든 영상 중 티가 없는 영상은 많지 않다. 게다가 그 '티가 없다'는 판단도 엄청나게 취향을 타는 판단이다. 또한 인간은 영상을 만들 때 그 목적에 따라 제작 미덕을 각기 다른 데에 두기도 한다. 이것을 LLM적으로 일반화하는 일이 과연 가능할까? 혹은 어느 정도는 인간이 개입해서 학습을 시킨다고 보자. 그 학습을 누가 시킬까? 작품 완성도를 알아보는 작업은 인간들 가운데서도 어느 정도 경험과 소질이 필요한 분야이다. 게다가 시대성이라는 변수까지도 지닌다. 인간이 개입한들 무슨 교육을 어떻게 시킬 수 있을까.


아마도 최선은 LMM이 마감 직전까지 작업을 하고 마감 작업은 인간이 하는 형태일 것이다. 이러한 일은 LLM을 쓸 때에도 빈번히 일어난다. 제아무리 LLM을 적극적으로 활용하는 사람이라해도 LLM이 던진 결과물을 그대로 최종 결과물로 삼지는 않는다. LLM으로 코딩을 시켰더라도 결국 인간이 그 실행성과 오류가능성을 살펴보아야 하고, 번역을 시켰어도 검수를 해야 한다. LLM 입장에서는 오류가 아닌지 몰라도 인간이 봤을 때에는 오류인 경우가 너무 많기 때문이다. LLM은 현재 마감 직전까지 작업을 기존보다 훨씬 빠르게 해 주는 데에 큰 도움을 주는 것이지, 마감까지 완벽한 결과물을 내어놓지는 못한다. LMM도 마찬가지 경우가 아닐까 싶다.


다만 LMM은 LLM보다 마감을 하기가 어렵다. LLM은 자연어든 코드든 결과를 언어로 주기 때문에 우리가 그것을 읽어내고 이해하고 그 오류와 불완정성을 검토하기가 가능하다. 하지만 LMM이 던져주는 결과물은 언어가 아니다. 그림이거나, 음악이거나, 영상이다. 그것도 레이어 정보나 색상 정보나 트랙 정보가 따로 담기지 않은 결과물이다. 손을 대고 싶어도 어떻게 손을 대어야 할지가 막막하다.


따라서 현재 LMM에게는 제작 과정에 관한 정보를 내어놓는 기능이 추가로 필요하다. 다만 이것이 기술적으로 어느 정도까지 가능할지 모르겠다. 현재로서는 원하지 않는 영상이 나오면 마음에 들 때까지 프롬프트(prompt)를 변경하면서 가다듬는 정도만 가능하다. 하지만 그 정도로는 작품을 완성을 하기는 힘들다.

매거진의 이전글ASI(인공초지능)에 대한 상상과 초기계