brunch

You can make anything
by writing

C.S.Lewis

by being cognitive May 27. 2024

멀티모달AI, Spatial Intelligence

사랑을 책으로 배웠어요 -> 사랑을 책과 동영상으로 배웠어요 -> ?

[ 멀티모달AI, Spatial Intelligence : "사랑을 책으로 배웠어요" --> "사랑을 책과 동영상으로 배웠어요." --> ? ]


1. LLM, 텍스트만으로 달성했던 Intelligence

a. 세상에 대한 정보와 지식은 언어로 압축되었고,

b. 이 언어 중에서도 음성이 없는 텍스트 정보만이 LLM으로 유입되어왔습니다.

c. 그런데, 놀랍게도, 그 텍스트 정보만의 순서를 학습하는 것만으로도 세상에 대한 이해가 깊어졌던 LLM이었습니다.


이 사실에 대해서 LLM은 어떻게 느끼고 있는지 Claude에게 물어본 적도 있었습니다.


(물리적인 몸이 없는 지능체라는 것은 어떤 기분이니? 답답하지는 않은지?... ==> 제가 유도하긴 했지만, 몸이 없어서 답답하다는 답변을 받아내긴 했습니다.)


2. 음성/영상 정보를 담아서 대화 가능한 멀티모달AI


. 기존에는 AI와 대화하기 위해서는,


(1) STT단계: 음성 인풋 --> 텍스트 인풋 (2) LLM단계: 텍스트 인풋 --> 텍스트 아웃풋 (3) TTS단계 : 텍스트 인풋 --> 음성 아웃풋

이라는 세 단계를 거쳐서 음성 요청을 음성 응답으로 받을 수 있게 되는데, 이 경우 크게 두가지 문제점이 있었습니다.


a. 여러 단계를 거칠 때마다, 딜레이가 누적된다는 문제가 있습니다. (그래서 응답에 4~5초 정도 걸리는 느낌이 있기 때문에, 대화의 '맥'이 끊어지는 느낌이 강합니다. (제가 만들었던 ChatInterview가 딱 그런 케이스인데 ^^;;)


b. 더 큰 문제는, STT단계를 거치면서 음성에 담겨있는 높낮이,말투,감정와 같은 수많은 고해상도 중요 정보들이 텍스트로 "손실압축/유실"되어버린 상태로 LLM에 전달되는 것입니다. 따라서, 고수준의 음성 대화는 불가능했습니다.


이제는 오디오 뿐만 아니라 영상까지도 (텍스트로 압축되지 않은 상태로) 직접 멀티모달AI에 전달됨으로써, 그 안에 담겨있는 정보들이 (최대한 유실없이) 전달되어,

우리가 시연에서 봤던 감정표현이 가능한 AI, 오버하는 AI, 노래하는 AI, 인터뷰 복장을 조언하는 AI, 시야가 불편한 사람들을 위한 AI까지 도달하게 되었습니다.


* 그래서, 유머도 멀티모달답게...


개그맨들 중에 머리가 좋은 사람들이 굉장히 많은 것을 보면서, 유머는 굉장한 intelligence가 필요한 일이라는 생각을 해왔는데요,


OpenAI 시연 중에 사용자가 심호흡을 거칠게 하자, ChatGPT-4o는 "너는 진공청소기가 아니야."라고 말하는 것을 보고

진짜 멀티모달 Intelligence가 맞긴 맞구나... 라는 생각을 했습니다. (텍스트만으로는 불가능한 답변이었겠죠.)


* 멀티모달(GPT-4o)가 텍스트 GPT-4보다 더 똑똑하다는 것은,


우리가 뭔가를 기억할 때, 동작과 함께 결부시켜서 외우면 더 잘 외워진다는 클래식한 심리학 연구와도 닿아있습니다. (어렸을 때 전화번호를 외우는 것도, 0~9의 키패드를 손으로 누르면서 외우는 동작의 layer를 더하면 더 쉽게 외워지는 경험을 했을텐데요- (-2580같은 번호))


따라서, 네트워크의 크기가 커지는 것과 별개로, 멀티모달을 더하는 것 자체가 보다 더 높은 수준의 지능을 달성하는데에 도움을 주는 것은 당연하다..(고 생각합니다.)


(*같은 얘기로, 사랑도 책으로만 배우는 것 보다는...)



3. Spatial Intelligence (Fei-Fei Li교수님)


이번주에는 Fei-Fei Li 교수님 TEDtalk를 굉장히 재미있게 봤는데요, 영상에 따르면,

 https://www.youtube.com/watch?v=y8NtMZ7VGmU

5.4억년 전까지는 어둠의 시대였는데, 어둠의 이유는

 빛이 없어서가 아니고 시력의 부재 때문이었다고 합니다 (생명체에 눈이 없었음)

캄브리아기 대폭발을 맞이하며 삼엽충과 같은 생명체들에게 눈이 생기기 시작하고,

이는 생명체 자신과 주위의 생명체들을 공간정보와 함께 상호작용에 대해서 인지할 수 있게 되었다고 하는데요,


(Fei-Fei Li교수님 연구실에서 10년 전에 ImageNet을 통해서 AI들에게 눈을 부여했던 것처럼)

지금이 AI들에게 이제 '공간지능 _Spatial Intelligence'을 부여할 시기라고 선언합니다.


공간지능을 통해서 AI들에게 세상과의 상호작용, 로봇끼리의 상호작용, 사람과의 상호작용을 배울 수 있게 해야하는 시기가 되었고,

이러한 Ambience Intelligence를 통해서 사람을 위한 AI를 만들자!라고 강변하십니다.

(간병 일손이 너무 부족한데, 로봇의 도움을 받을 수 있도록 해야 함.)


* 최근 Sora영상 생성 후기들에서 보면, 이상하게 Slow Motion으로 생성되는 경우가 많다고 하는데요,

'Spatial Intelligence'라는 개념으로 생각해보면,

공간에는 시간이 함께 따라오게 되고, AI가 사람과 같은 타임프레임으로 시간이라는 것을 인지하기 시작한다면,

우리가 느끼는 시간의 흐름과 동일한 영상 생성을 Sora도 할 수 있게 되지 않을까? 라는 상상을 해봅니다.

(아래 이미지에 적은 것처럼, 현재의 LLM은 우리 인간이 엔트로피의 증가로 시간을 느끼는 것과는 전혀 다른 방식으로 시간의 흐름을 인지하고 있기 때문입니다.)

즉, AI에게 '시간' 개념을 가르치지 좋은 방법 중 하나가, 우리와 같은 시공간에 존재하게 만드는 것이 아닐까? 라고 생각해봅니다.


* 그리고, AI와 공간지능을 다 가르친 다음에는 아직 후각/미각/촉각도 학습시켜야하고... 한편으로는 갈 길이 멀다는 생각도...?


==>


* 개인적으로는 AI의 빠른 발전을 보면서, 사람에 대해서 새로운 관점으로 깊이 생각해볼 수 있는 계기가 되는 것 같아서 흥미롭고, 그래서 이런 글을 가끔씩 올리게 됩니다.


* 인간의 가치는 무엇일까? 라는 항상 따라붙는 질문이지만,


여전히 우리는 "욕망/하고자함"이 우리의 가장 기저의 존재 이유인 것 같습니다.

AI는 굉장히 똑똑한 친구이지만, 우리가 불어넣는 미션을 똑똑하게 잘 수행하는 툴이 될 것 같습니다.


여전히 우리는 스포츠를 즐기고, 노래할 것이고, 여행하고, 과학과 함께 탐험할 것 같습니다.

우리 계속해서 learn하고 unlearn하는 과정을 거치면서, 이 격동기의 파도에 잘 올라타봅시다...!!

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari