황금(Text)과 비트코인(Image)을 달러(공통차원)로 환전하는 법
"길동이는 황금 1kg을 가지고 있습니다.
영수는 비트코인 1개를 가지고 있네요.
자, 누가 더 부자일까요?"
이 질문에 바로 대답하기란 불가능하다. 무게 단위인 'kg'과 가상 화폐 단위인 'BTC'는 서로 다른 차원의 물질이기 때문이다. 비교를 하려면 이 둘을 모두가 동의하는 공통의 척도, 즉 달러($)로 환산해야 한다. 황금 1kg을 시세에 맞춰 달러로 바꾸고, 비트코인도 달러로 바꿨을 때 비로소 우리는 두 자산의 가치를 동일한 수직선 위에 놓고 비교할 수 있다.
이 '공통의 척도'로서 달러의 위상은 하루아침에 만들어진 것이 아니다. 2차 대전 종전 직전인 1944년, 44개국 대표들이 모여 미 달러를 금에 고정시키고 다른 국가의 통화를 달러에 연동시킨 브레튼우즈 체제(Bretton Woods system)가 출범하면서 달러는 명실상부한 세계 경제의 기준점이 되었다. 이후 1970년대 초 금 태환이 정지되며 위기를 맞았지만, 미국은 사우디아라비아와의 협약을 통해 전 세계에서 가장 중요한 원자재인 원유의 결제를 오직 달러로만 하도록 강제하는 '페트로 달러(Petrodollar)' 시스템을 구축했다. 금이라는 실물 가치에서 원유라는 필수 에너지로 기반을 옮겨가며 기축통화로서의 패권을 공고히 한 것이다. 즉, 강력한 국제적 합의와 시스템이 서로 다른 가치들을 연결하는 흔들리지 않는 '표준'을 만들어냈다.
근 몇 년간 AI는 각자의 영역에서 눈부신 발전을 이뤘다. 텍스트 분야에서는 BERT나 GPT 같은 모델이 등장했다. 이들은 인간의 언어를 컴퓨터가 이해할 수 있는 숫자 뭉치(임베딩 벡터)로 변환하였고 GPU의 높은 연산력을 바탕으로 우리가 언어를 이해하듯, 숫자뭉치를 통해 언어를 이해해 냈다.
이미지 분야에서도 AlexNet부터 CNN, 최근의 ViT(Vision Transformer)까지, 사진 속의 특징을 뽑아내어 수치화하는 기술이 정점에 달했다. 이들 역시 이미지를 RGB(Red, Green, Blue)의 3차원 숫자로 전환한 뒤 컴퓨터가 이해할 수 있는 숫자 뭉치(임베딩 벡터)로 변환하며 이미지의 의미를 분석해 왔다.
문제는 여기서 발생한다. 언어 모델이 만든 '강아지'라는 단어의 숫자뭉치(임베딩 벡터)와, 비전 모델이 만든 '강아지 사진'의 숫자뭉치는 서로 호환되지 않았다. '네발 달린, 늑대와 유사한 포유류로 인간에 사랑을 받는 귀여운 동물이 뭘까'라고 물으면 AI는 그것이 '강아지'임을 이해했고, 여러 강아지 이미지를 보여주면 또 다른 강아지 이미지와 같은 동물인 것을 인지할 수 있었지만, '강아지'라는 단어와 '강아지 이미지'를 연결시킬 수 없었던 것이다.
AI 기술의 역사에서도 오랫동안 이 '환전'이, 다시 말해 '표준을 만드는 일'이 무척이나 어려웠다. 오늘의 주제인 CLIP 모델이 등장하기 전에도 이 둘을 연결하려는 시도는 꾸준히 있었다. 하지만 당시의 접근법은 진정한 의미의 '동등한 교환'이라기보다는 일방적인 '번역'이나 '억지 춘향'식 끼워 맞추기에 가까웠다. 가령 초기의 모델들은 CNN(합성곱 신경망)을 통해 이미지에서 시각적 특징을 추출한 뒤, 이를 (LSTM 같은) 언어 모델의 시작점으로 밀어 넣어 텍스트를 생성하게 했다. 이는 이미지가 텍스트를 뱉어내기 위한 재료로 소모되는 단방향적인 구조였다. 또 다른 시도로는 이미 잘 구축된 텍스트 분석 차원(예: Word2Vec이나 GloVe)에 이미지의 특징 벡터를 강제로 투영(projection) 시키거나 매핑하려는 연구들도 있었다.
하지만 이는 마치 그리스 신화 속 '프로크루스테스의 침대(Procrustes' Bed)'와 다를 바 없었다. 아티카의 강도 프로크루스테스는 나그네를 자신의 침대에 눕혀놓고, 키가 침대보다 크면 다리를 잘라내고 작으면 몸을 억지로 늘려 죽였다. 초기 연구들도 마찬가지였다. 태생부터 텍스트의 문맥만을 학습하기 위해 만들어진 비좁은 공간에 복잡하고 다차원적인 시각 정보를 억지로 구겨 넣으려다 보니, 마치 잘려나간 다리처럼 막대한 정보의 손실이 발생했고 두 모달리티(양식) 간의 정교한 정렬(Alignment)은 불가능했다.
2021년, OpenAI는 이 난제를 해결하기 위해 CLIP(Contrastive Language-Image Pre-training)이라는 모델을 발표한다. CLIP의 목표는 단순했다. "황금(Text)과 비트코인(Image)을 똑같은 수직선인 달러(공통 벡터)에서 비교하자!"
이를 위해 CLIP은 **대조 학습(Contrastive Learning)**이라는 훈련 방식을 도입했다. 방법은 다음과 같다.
1. 인터넷에서 4억 개의 {이미지, 설명}의 쌍을 긁어온다.
2. 이미지, 텍스트를 각각 임의의 숫자뭉치로 전환할 수 있는 변환기(인코더)를 만든다.
3. 이젠, {이미지, 설명}가 쌍일 경우 이미지와 텍스트의 숫자뭉치를 같은 값을 만들도록 변환기를 학습시킨다.
4. 한편, {이미지, 설명}이 쌍이 아닐 경우에는 이미지와 텍스트의 숫자뭉치를 다른 값을 만들도록 변환기를 학습시킨다. (이와 같이 단순히 쌍인경우만 하는 것이 아니라 아닌 경우도 추가했기에 CLIP의 C 인 contrastive, 대조학습이 된다)
이 과정을 끊임없이 반복했다. 여기서 놀라운 일이 벌어졌다. '강아지'라는 글자를 입력해서 나온 벡터 값과, 실제 강아지 사진을 넣어서 나온 벡터 값이 동일한 차원의 좌표 공간에서 거의 같은 위치에 찍히기 시작한 것이다. 이제 AI에게는 텍스트와 이미지의 숫자뭉치가 더 이상 다른 차원에 존재하는 것이 아니었다. 그저 같은 의미를 지닌, 같은 차원의 숫자일 뿐이었다. CLIP 덕분에 이제 텍스트와 이미지는 같은 차원에 존재하게 되었다. 황금을 달러로 바꾸고 비트코인을 달러로 바꾸듯, AI는 어떤 형태의 데이터가 들어와도 공통된 의미 공간(Embedding Space)에서 자유롭게 다룰 수 있게 된 것이다.
이 '호환성'은 AI 연구의 물줄기를 완전히 바꿨다. 우리가 "우주 비행사가 말을 타고 있는 사진 그려줘"라고 입력하면 그림을 뚝딱 만들어내는 DALL-E나 Stable Diffusion 같은 초창기 생성형 AI들도, 사실 내부를 들여다보면 텍스트와 이미지가 얼마나 일치하는지 끊임없이 계산해 주는 CLIP이라는 냉철한 심판관이 있었기에 탄생할 수 있었다. 그리고 이 거대한 통합의 흐름에는 '소리(Audio)'도 예외가 아니다. 원리는 놀라울 정도로 동일하다. 텍스트(황금)와 이미지(비트코인)가 '달러'라는 공통 벡터로 환전되었듯, 세상의 모든 소리―새의 지저귐, 파도 소리, 사람의 목소리―역시 AI가 이해할 수 있는 고유한 벡터 값으로 변환되어 이 공용 공간에 합류한다. 연구자들은 CLIP이 했던 것과 똑같은 방식(대조 학습)으로, 수많은 {오디오 클립, 텍스트 설명} 쌍을 AI에게 학습시켰다. "멍멍" 하는 소리의 파형 정보를 인코딩하여, '짖고 있는 개'라는 텍스트 벡터와 같은 공간에 위치하도록 서로 잡아당긴 것이다.(CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION) 이제 AI의 외환 시장에는 황금, 비트코인뿐만 아니라 '음원'이라는 새로운 통화까지 달러로 자유롭게 환전되기 시작했다. 덕분에 우리는 "비 오는 날 카페에서 듣기 좋은 재즈 음악 만들어줘"라는 텍스트 한 줄로 음악을 생성하거나(Suno, Udio 등), 유튜브 영상의 소리만 듣고도 그에 맞는 장면을 이미지로 검색해 내는 마법 같은 일을 경험하게 되었다.
나아가 최근 등장한 구글의 제미나이(Gemini)나 OpenAI의 모델들은 아예 태생부터 텍스트, 이미지, 오디오, 비디오를 동시에 보고 들으며 자란 '모태 멀티모달'로 진화하고 있다. 바야흐로 시각과 언어를 넘어 청각까지, AI의 오감이 하나의 뇌 안에서 자유롭게 통하는 진정한 '멀티모달 지능'의 시대가 활짝 열린 것이다.
- 참고 : CLIP 공식 블로그 - https://openai.com/index/clip/
- 참고 : CLIP 논문 - https://arxiv.org/abs/2103.00020