brunch

You can make anything
by writing

C.S.Lewis

by being cognitive May 27. 2024

LLM 중심의 멀티모달 외 ('23.11월)

언어로 압축하거나, 언어는 압축이거나

2022.11월에 ChatGPT가 대중에 공개된 이후 AI 대생성시대가 열렸습니다. 이후로 워낙 빠른 발전 속도로 인해 그 트렌드에 올라타기는 커녕 그 트렌드를 읽는 것 조차 버거운 하루하루인 것도 사실입니다만,

저는 최근 AI를 거울삼아 우리 인간에 대한 이해가 보다 깊어지고 있는 경험이 소중하다고 느낍니다. 

이에 그동안 느꼈던 그리고 앞으로 느낄/경험할 감정들을 기록해놓기 위해, 과거 페이스북에 남겨놨던 노트들을 정리해두고자 합니다. 


#'23.11월 글 옮깁니다.


AI 관련된 최근 두어달간의 상념을 최대한 정리해봅니다. (하지만 잘 정리된 것 같지는 않습니다;;)


1. 우선, LLM 중심의 Multi-modal (최근 LMM 이라 불리우는)에 대한 unpopular opinion으로 글을 시작하고자 합니다.


ChatGPT에 Vision(눈)을 붙이는 업데이트가 최근에 있었기에, 그 가능성을 탐색하는 과정에서 무수한 가능성이 당연히 발견되었지만, 몇가지 잊으면 안 될 것 같은 한계가 보여서, (쉿, 우리끼리만) 짚고 넘어가고자 합니다.


https://arxiv.org/pdf/2310.19773.pdf 이 논문에서 ChatGPT가 그림을 이해하기 때문에 가능한 수많은 놀라운 예시들을 쏟아냈는데요,


ChatGPT에 Vision을 붙인다는 것의 의미는, 결국 이미지를 "언어로 압축"한다는 한계가 있다는 것을 알게 되어서 아래 캡처와 같은 trick 예시를 기록으로 남겨놓습니다.


위 논문의 원래 예시에서는 아래 그림에 보이는 것과 같은 (g)의 예시가 없고 ChatGPT는 (c)라는 정답을 원래는 잘 찾아냈습니다. 그런데, 제가 그림판으로 함정 질문 (g)를 추가로 그려서 ChatGPT에게 물어봤더니, ChatGPT는 우리가 보기에는 명확히 다른 (c)와 (g)의 모양도 모두 "star" 모양이라면서 '언어로 이미지를 압축'해버리기 때문에, 사람이라면 당연히 (c)라고 추론하겠지만, ChatGPT는 (g)가 정답이라고 추론해버리는 아쉬운 결과를 확인할 수 있었습니다. (물론 프롬프트를 잘 만들었다면 c라는 답변을 다시 낼 수 있었겠지만...)


(이미 다들 알고 계신 것처럼 ^^;) 저도 최근 ChatGPT가 촉발한 수많은 대변혁에 누구보다도 가슴뛰는 사람 중 하나인데요... ChatGPT가 산수를 잘 해결하지 못하는 것에도 실망하지 않던 제가, 이 결과에 약간은 실망했고 상념에 잠겼습니다. 


LLM언어모델을 중심으로 Multi-modal (텍스트, 시각, 청각, 이런 정보 하나하나를 mode라고 부르고 있어서, 텍스트 외에 다른 mode가 붙으면 multi-modal이라는 표현을 쓰게 됩니다.)을 달성하는 것에 한계가 있을 수도 있지 않을까...? (뭐, 대기업 걱정만큼 쓸데없는게 없다지만...;;)



2. 여기에 이어서, 지난주에 제 관점에서는 엄청난 TED talk가 지나갔는데, 생각보다 제 타임라인에서는 이 또한 unpopular하게 지나가는 것 같았습니다. 


https://www.youtube.com/watch?v=fLMZAHyrpyo


Wolfram|Alpha로 많이 알려진 Dr. Stephen Wolfram 님의 우주, AI, 그 모든 것에 대한 영상인데요, 영상의 밀도가 굉장히 높아서 10번은 넘게 되돌려보고, 관련 영상을 또 찾아보고, 마침 최근에 박해선님이 번역하신 "스티븐 울프럼의 챗GPT강의"라는 책을 구매했기에, 책도 함께 보면서 이해를 보다 깊이 할 수 있었습니다.


문장 하나하나가 쉽지는 않았는데, 머리를 때리는 몇가지 말씀들을 제 나름대로 해석해보면,


- 몇천억개의 신경망으로 이렇게 언어를 잘 구사하는 ChatGPT의 성취는 굉장히 놀랍긴 한데, "언어"를 통한 지능이라는 것도 사실은 이 정도 크기면 된다는 것을 밝혀낸 것으로 볼 수도 있다. (예상보다 저차원이라는 뉘앙스)


+ 사실은 '언어' 자체가 이미 세상을 압축한 것이기 때문에 ("나무"라는 단어에 수많은 잎들과 뿌리가 펼쳐진 모양 등의 디테일들이 이미 압축되어있죠), 이미 압축된 언어를 사용하면서 지능을 구현하는 것은 의외로 저차원일 수도 있겠다는 생각에 저도 동의가 되었습니다. (에스키모의 언어에서는 '눈'을 설명하는 표현의 해상도가 다른 언어보다 훨씬 고해상도라는 등의 내용으로 볼 때에도, 각 언어별로 영역별로 다른 해상도를 갖고 있고, 그만큼의 압축 강도가 제각각임을 생각해볼 수 있습니다.)


- 내(울프럼 박사님)가 40년 넘게 연구해봤는데, 이제 결론을 내릴 수 있겠음. Computation은 우주를 설명하는 방식 중 하나가 아니고, Computation이 곧 우주임. (... huh...? @.@?!)


- 이 세상을 구성하는 것이 atom이라고 생각하는 것처럼, 나(울프럼 박사님) 또한 Ruliad(룰리애드라는 신조어로 저라면 규칙 결정체? 규칙 집합체? 규칙 전개체? 이런 느낌으로 번역할 수 있을 것 같습니다) 라는 우주 computation의 최소 단위를 제시해왔음. 이 Ruliad에는 computational irreducibility라는 최소의 연산 필요량이 존재하는데, 이것은 LLM이 압축할 수 없는 영역임. (그 예시로 Cellular Automata라는 것을 제시하시는데, 최소한의 규칙으로 fractal을 만들어내는 것을 말씀하십니다.)


- 그런데, 그동안 지동설과 같은 과학의 발전에서 꾸준히 인간을 주변으로 밀어내던 것과 달리, 이와 같은 Ruliad가 거쳐야 하는 최소의 연산 필요량이라는 것을 구현하는 과정에서 뜻밖의 '인간 중심성'이 발견됨. 우리와 같은 Observer의 역할을 통해 computation이 하나하나 선택되어져 나가기 때문. (정확히는 이해 못했지만, 양자역학에서 많이 얘기되어온 관찰자의 역할에 대한 얘기랑 닿아있는 것 같습니다.) 


- 나 (울프럼 박사님)는 이제 computational language를 완성했다 (@.@;) Mathematica는 이제 Wolfram Language라고 이름을 바꿨음. (나는 이와 같이 우주의 본질을 탐색하는 초고해상도 언어를 만들었는데, 어딜 인간의 언어를 조금 하는 ChatGPT 따위가...라는게 좀 더 박사님 속내 같긴 한데...)


- 여튼, 말이 제법 잘 통하는 LLM이 나왔으니까, 이제 사람은 AI와 함께 무엇을 하면 좋을까? 이제 LLM+Wolfram Language를 통해 수많은 계산은 더욱더 자동화되었음. 인류가 Voyager 와 함께 우주를 탐험하는 것처럼, LLM과 함께 우리는 Computation을 통해 우주의 본질을 탐색해나가자.


==> 즉, 인간은 '어떻게'에 대해서는 이제 노력을 그만하고, "무엇"을 할 것인가에 더욱더 집중하자.


3. (저도 위의 얘기를 저 나름대로 이해했다 싶으면서도 이게 과학인가, 철학인가, 종교인가 싶은 복잡한 얘기여서, 무슨 얘기를 옮겨적은건가 싶기도 합니다...만,)


울프럼 박사님의 맺은 결론 중에 인간은 "무엇"을 할 것인지를 정해야 한다는 말씀이 굉장히 와닿았는데요,


이번주 OpenAI DevDay 얘기로 연결해보겠습니다.


- 많은 매체에서 이미 다룬 것처럼, GPT Builder라는 것을 통해 no code로 어려운 개발없이 수많은 챗봇을 '자연어로' 누구나 만들 수 있는 시대가 되었습니다. 저도 http://nmnm.ai 라는 NMNM (No Muscle, No Mercy)라는 motivational coach를 30분만에 개발 없이 만들었습니다;


- 개발을 통해서 새로운 경험들을 더 넣고 싶은 사람들은 Vision API, Whisper API, Dall-E API, Assistant API로 더더욱 멋진 서비스를 만들어줘, 하지만, 이제 기초적인 Chatbot은 그냥 GPTs에서 조련사가 되어서 편하게 만들어라-라고 얘기하고 있네요. (그래서, 저의 소중했던 ChatMBTI 앱도... 간단하게 요런 수준으로 GPTs 구현 가능...;; https://chat.openai.com/g/g-RnkrN00iJ-chatmbti  ) 


- 물론 많은 매체에서 지적하는 것처럼, 이는 흡사, AI가 일자리를 없앤다는게 이번에 확실히 보여줄게- (그러니까 빨리 UBI_기본소득 도입하자?)라는 느낌도 굉장히 강했습니다. Assistant API의 Thread가 langchain의 핵심 기능을 대체하고, Assistant API의 Knowledge 기능이 ChatPDF, RAG, Pinecone을 대체하고... 휴...;;


- 잠깐 아찔한 얘기로 샜지만, 울프럼 박사님과 마찬가지로 샘 알트먼도 우리에게 똑같이 묻는 것 같습니다: "어떻게"는 우리가 알아서 할테니까, 인간은 "무엇"을 하고 싶은지 결정해.


4. 저도 이런 생각들에 조금 더 숟가락 얹으면서 이제 최근 상념들을 정리해보려고 합니다. 사피엔스의 저자 유발 하라리도 책을 마무리하면서 '우리는 무엇을 원하기를 원하는가'라는 질문을 남긴 바 있습니다.


저도 수많은 자동화가 불러오는 무력감 앞에 우리가 쓰러지지 않기를 바랍니다. 우리가 우주에서 차지하는 가장 중요한 가치는 '무엇을 원하는 순수한 욕망'이라고 저도 생각하기 때문입니다.


약간 작은 단위에서 표현하자면, 이제는 모두의 스타트업이랄까요? 개발의 성역은 점점 낮아지고, 누구나 하고 싶은 아이디어를 마음껏 발휘함으로써...


굉장한 신념을 가진 사람들만 해낼 수 있었던 스타트업이라는 어려운 일도, 이제는 모두의 소소한 스타트업이라는 낮은 진입장벽으로 바뀌어갈 수도 있겠습니다. (그렇다면 소수의 대박 스타트업의 시대에서 대량의 소박한(?) 스타트업들로 바뀌어가게 될까요?)


각자의 원하는 그 무엇을 하나씩 꺼내서 성취해나가주세요..


5. 이 모든게 Computation일 뿐인가...라는 생각이 때로는 허무하면서 때로는 역설적으로 위안이 됩니다. 모두들 항상 건강하시기를 바랍니다. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari