AI 가 말합니다 "거시기하구먼"

AI가 배우는 '그 거시기'의 미학, "Textual Inversion"

by 일등박사
"아따, 자네 그 '거시기'는 잘 챙겨놨는가?"


"그럼, 아까 '거시기'해서 저 '거시기'에다 잘 둬부렀지."



'거시기', 문장 속의 카멜레온

한국 사람, 특히 전라도 정서를 아는 사람이라면 이 대화가 완벽하게 해석된다. 주어, 목적어, 서술어가 모두 '거시기'로 대체되었지만, 화자와 청자 사이에 공유된 맥락(Context)이 있다면 이 단어는 세상 그 어떤 명사보다 정확한 지칭어가 된다.


영어권에도 이런 단어들이 있다. 이름이 기억나지 않거나 굳이 설명하기 복잡할 때 쓰는 'Whatchamacallit(왓쳐매콜잇)'이나 'Thingamajig(띵거매직)', 'Doohickey(두히키)' 같은 단어들이다. 비단 영어뿐만이 아니다. 독일어의 'Dingsbums(딩스붐스)', 스페인어의 'Coso(코소)', 일본어의 'Are(아레, あれ)', 중국어의 'Neige(네이거, 那个)'처럼 세계 각국의 언어에는 복잡한 대상을 한마디로 압축해 버리는 단어들이 존재한다. 이처럼 우리의 언어들에서 복잡한 대상을 한마디로 압축해 버리는 단어가 존재한다. 즉, 이 만능 단어들은 단순히 사전적인 의미를 갖는 것이 아니다. 문맥에 따라 그 의미가 변화하며 저장되고, 이후 대화 속에서 다시 문맥을 읽어내어 본래의 뜻을 유추해 내는 '문장 속의 카멜레온'인 것이다!


최근, 최첨단 AI 연구에서도 이 '거시기'의 철학을 차용한 기술이 등장했다. 바로 Nvidia와 이스라엘의 텔아비브 대학이 공동 연구를 통해 발표한 논문 <An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion>이다.


thingy.jpg



AI에게도 '거시기'가 필요하다

우리는 'Stable Diffusion'이나 'DALL-E' 같은 이미지 생성 AI에게 그림을 그려달라고 할 때 말(Text)을 건넨다. "고양이 그려줘"라고 하면 AI는 세상에 존재하는 수억 장의 고양이 이미지를 학습한 평균적인 고양이를 그려준다.


하지만 내가 원하는 것이 '내 책상 위에 있는, 귀가 조금 찢어지고 꼬질꼬질하지만 내가 세상에서 제일 아끼는 그 곰 인형'이라면 어떨까? 아무리 "귀가 찢어지고 낡은 갈색곰 인형"이라고 묘사해도, AI는 내 인형의 그 미묘한 느낌을 완벽하게 재현하지 못한다. AI에게 내 인형은 세상에 없는 데이터이기 때문이다. 그렇다고 내 인형을 가르치기 위해 거대 모델 전체를 다시 학습시키는 건 배보다 배꼽이 더 큰 일이다. 여기서 연구진은 기막힌 아이디어를 낸다.


"우리가 복잡한 대상을 '거시기'라고 퉁치듯이, AI에게도 이 인형을 지칭하는 '거시기' 같은 단어를 하나 만들어주자!"


thingy2.jpg S* 에 우리가 생각하는 '거시기'의 개념을 저장한다.



텍스트 반전(Textual Inversion): S* 는 거시기다

이 논문의 핵심 기술인 'Textual Inversion(텍스트 반전)'은 거대 모델을 새로 학습시키지 않는다. 대신 AI가 이해하는 단어 사전(Embedding space)에 새로운 단어 하나를 슬쩍 끼워 넣는다. 논문에서는 이를 S*이라고 표현한다.


과정은 이렇다.

thing3.jpg AI의 텍스트 사전에 S*(거시기)를 하나 추가한다. 자명종이 이번 거시기이다!

사용자가 자신의 곰 인형 사진 3~5장을 AI에게 보여준다.

그리고 이렇게 말한다. "이 사진 속 물건을 이제부터 S*(거시기)라고 부르자."

AI는 이 사진들을 가장 잘 설명할 수 있는 텍스트 좌표(Vector)를 찾아내어 S*라는 단어에 할당한다.


이제 마법이 시작된다. 사용자가 "달 표면 위에 있는 S*(거시기)를 그려줘"라고 입력하면, AI는 그저 그런 곰 인형이 아니라, 아까 학습한 '내 꼬질꼬질한 곰 인형'을 달 표면 위에 그려낸다. 피카소 화풍으로 그려달라고 해도, 내 인형의 정체성을 유지한 채 그려준다.

우리가 "그 거시기 좀 줘봐"라고 했을 때 상대방이 찰떡같이 알아듣는 것처럼, AI에게 S*이라는 임의의 단어(Pseudo-word)가 나만의 고유한 객체를 불러오는 호출 부호가 된 것이다.


언어의 경제성, AI로 이어지다 : "팀장 하실 분?"


티에라델푸에고 제도의 야간어(Yaghan)에는 '마밀라피나타파이(Mamihlapinatapai)'라는 단어가 있다고 다. 기네스북에 '가장 뜻이 긴 단어'이자 '가장 번역하기 어려운 단어'로 등재된 이 단어의 뜻은 다음과 같다.

"서로에게 꼭 필요한 일이지만 굳이 내가 하고 싶지는 않은 일에 대해, 상대방이 자원해 주기를 바라며 두 사람 사이에서 조용하면서도 긴급하게 오가는 미묘한 눈빛."

이 복잡 미묘한 심리 상태를 설명하려면 숨이 차다. 하지만 한국의 인터넷 커뮤니티에서는 이 난해한 단어를 단 6글자로 완벽하게 번역해 냈다.

"팀장 하실 분?"


조별 과제 시간, 정적 속에 오가는 그 눈빛. 더 이상의 구구절절한 설명은 필요 없다. 한국인이라면 누구나 그 순간의 공기와 압력을 단번에 이해한다. 이것이 바로 언어의 위대함, '경제성'이다. 방대한 맥락과 감정을 하나의 단어, 하나의 상황 속에 압축해 버리는 능력이다. Textual Inversion 연구는 AI에게 바로 이 고도의 인간적 소통 방식을 이식했다. 이 방법을 통해 이제 우리는 긴 설명을 생략하고 AI에게 사진 몇 장을 툭 던져주며 선언한다. "AI야, 이 복잡한 맥락을 앞으로 그냥 '거시기(S*)'라고 부르자. 알았지?"

아주 효율적이고, 경제적이며, 어찌 보면 한국적인 소통이다.


이제 입력창에 S*을 입력하면 AI가 이렇게 대답할 차례다.

"아따, 걱정 마쇼. 찰떡같이 그려 불라니까."


thing4.jpg 왼쪽 1행의 이미지로 거시기를 학습하고 우측 4열의 이미지를 만들어낸다!


작가의 이전글AI도 연습장이 필요해!!