경고: 학문적으로 AI의 추론 능력에 대한 내용은 아닙니다
요즘 머리를 써야하는 고통이 느껴질때마다 도피하는 곳은 이메일이나 SNS가 아니라 바로 키보드다. 쇼팽 Etude No. 3 를 연습 중인데 느려서 만만해 보이는 것이 한 줄 진도에 한 달이 걸리고 있다. 배움의 고통 속에 도파민을 뿜어내는 것은 바로 "피아노가 이런 소리까지 낼 수가 있는지 몰랐지?" 라는 쇼팽의 속삭임이다. 이는 두 가지 증상으로 이어지는데, 하나는 다음 코드에 눈보다 손가락이 먼저 가는 것이다. 화성에 무지한지라 암보와 반주에 잼병이지만, 정제된 멜로디는 필연에 가까워 다음 음이 절로 눌려지는 신기를 체험하고 있다. 또 하나는 연습을 멈추기가 참 힘들다는 것이다. 조금이라도 틀리면 걸작에 때묻힌 것처럼 왜 그렇게 자괴감이 드는지. 그러다 보니 열 번이고 스무 번이고 반복을 하게 된다.
고작 공기의 떨림이 무엇이길래 고등 동물의 온갖 감정을 조종하는 것인지. 여기서 마법을 부리는 것은 화음, 다시 말해 음의 조합 방식이다 [1]. 음의 높낮이는 특정 키들로 이산화되고 이들의 조합은 특정한 규칙을 이루어 오묘한 색깔을 내뿜는다 (엄밀히 한 키가 한 음이 아니라고는 한다). 게다가 화음은 시간에 따라 펼쳐지며 우리에게 온간 느낌들을 불러 일으키는데 작곡에 있어서 하나의 가이드 역할을 하고 있다. 그리고 그 디자인 공간은 무한에 가까워 인류의 시작부터 지금 이 순간까지 시시각각으로 새로운 음악을 탄생시키고 있다.
음악에 파동이 있다면 미술에는 빛이 있다. 우리는 가시광선 스펙트럼으로부터 몇 가지 핵심 색을 규정했다. 이들의 조합은 -- 음악과 같이 드라마틱하진 않을지라도 -- 우리의 감정을 특정 세계로 이끈다. 티파니 블루, 정육점의 빨강, 빛바랜 빈티지, 특정 정당이나 스포츠팀 색깔은 거의 즉각적인 반응을 불러 일으킨다. 특히 음이 모여 화음을 만들어내는 것처럼 여러 색의 배색은 어울림을 만드는데, 근대 철학자, 미학자들은 배색에 특별한 수학적 규칙이 있는 것으로 보았다. 예를 들어, 원색을 원형으로 배치(색상환)해 놓고 특졍한 내접 도형을 만드는 조합들--지름 (보색), 정삼각형, 이등변삼각형, 정사각형--이 하모니를 이룬다고 하였다.
이러한 규칙이 아예 말이 안 되는 건 아니었다. 보색 계열 매칭 같은, 우리 눈의 생리학적 특징에 근거한 정말 특별해 보이는 관계도 있었으니까. 하지만 점차 조물주가 감춰 둔 숨겨둔 법칙을 찾는 싸움은 변덕스러운 인간의 취향을 파악하는 문제로 변질(?)되었다. 각종 설문조사로부터 나온 데이터를 수학공식에 끼워맞추는 노력이 이어졌는데, 아직 배색 사전이라는 것들이 서점의 자리 한 켠을 차지하는 것을 보면, 어떤 통합이론은 요원한 것으로 보인다. 그런데 뭔가 수상한 기운이 돌지 않는지. "데이터가 있는가 내가 너를 알려주마"라는 인공지능의 속삭임이다.
Generative AI의 본격적인 서막을 알린 건 Ian Goodfellow가 고안한 Generative Adversarial Network (GAN)라는 모델이다. 이 모델은 두 개의 싸우는 (Adversarial) 딥러닝 네트워크, 바로 생성자(Generator)와 판별자(Discriminator)로 이루어져 있다. 그가 적용한 문제는 얼굴 합성으로서, 우리의 할 일은 단지 많은 얼굴 사진을 준비하는 것이다. 이후 생성자는 무작위 noise로부터 가짜 얼굴을 생성하고, 판별자는 생성자가 만든 가짜 얼굴과 우리가 준비한 진짜 얼굴 사진을 비교하며 구별한다. 둘 다 틀릴 때마다 혼나게(?) 되는데, 기가 막히게도 이러한 세팅은 각각 최선의 위조 제작자와 감별사로 만들게 된다. 물론 제로섬 게임이므로, 반반씩 이기는 경우가 최상의 최종 상태이다. 여기에 감춰진 주요 요인 하나가 컴퓨팅 시간인데, 우리가 알다시피 이것이 Nvidia를 세계 시총 1위 기업을 만들었다. 그리고 인텔과 삼성은 망..
Goodfellow의 위대함은 (내 생각에는) 단연코 생성자에 있다. 숫자와 컴퓨팅에 통달한 마스터는 '싸움'을 화두로 '패턴 인식'의 문제를 '샘플 생성'이라는 인공지능의 패러다임의 전환을 가져왔다. 엄청난 데이터들을 분류하거나 비교하는 오랜 관행을 단숨에 뛰어 넘어 '만드는' 녀석까지 탄생시킨 것. 저차원의 noise를 받아들여 거의 무에서 유를 생성하는 생성자를 처음 보고 이걸 도대체 어떻게 이해해야 하는지 한참을 읽고 또 읽었던 기억이 새롭다. 뒤 이은 연구자들은 이 noise를 변화사키면서 생성된 얼굴의 어떤 부분이 어떻게 변화하는지를 관찰했는데 이는 마치 사람의 형질이 DNA에 어떻게 암호화되어 있는지를 밝혀내는 것과 같다. 이제 noise는 특정 도메인의 design space를 압축한 파라미터 공간이 되었으니, 이를 latent space라고 하기도 한다. 이 아름다운 이론은 그러나 그 권좌를 채 누리기도 전에 끌려 내려갔는데 diffusion이라는 또 다른 미친 아이디어가 등장했기 때문이다.
이 와중에 더 큰 충격을 위한 에너지가 텍스트 분야에서 쌓이고 있었으니, 바로 Large Language Models (LLMs)이다. 그 시작은 소박하기 그지 없었는데, 핵심 아이디어는 우리의 텍스트는 어떤 패턴을 가지고 반복되므로 이를 수치화해서 잘 학습하면 유용한 작업에 활용할 수 있다는 거다. 다만 문장의 길이가 가변적인지라 단어를 encoding하거나 정답에 가깝도록 훈련시키는 과정도 좀 까다롭다. 먼저 가장 기본적인 모델(RNN)은 긴 input도 잘 encoding하도록 채널이 다중화되었고 (LSTM), 메모리 효율이 개선되었으며 (GRU), 번역을 위한 encoder-decoder 구조가 대세가 되면서 (seq2seq), context vector를 넘어 decoder가 원본까지 선택적으로 참조하게 되고 (Attention), 결국은 attention으로 encoding과 decoding까지 해결하게 되었다 (Transformer). 뒤이어 fine-tuning과 단어 이해 문제가 전면에 등장하면서 Google (BERT)와 OpenAI (GPT)의 대형화 경쟁으로 이어진 현재 OpenAI가 압도적 퍼포먼스를 자랑하고 있다.
다시 배색의 문제로 돌아가 보기로 하자. 배색은 GAN으로도, LLM으로도 볼 수 있는데 GAN으로 본다면 마치 전체 컬러 조합 공간에서 어울림이 좋은 특정 조합들만의 특징이 있다는 뜻이고 LLM으로 본다면 색들의 시퀀스가 마치 자연어 언어의 그것과 같이 규칙과 자유로움을 가지고 변한다는 뜻이다. LLM으로 시도한 결과는 기존 배색에 덧붙이는 새로운 색을 모두 '검정'으로 예측했는데 이유로는 exposure bias (인공지능 모델이 inference할 때 훈련에 없는 데이터가 나오면 정신줄을 놔버리는 현상)이라고 논문 draft에 다가 얼버무렸다. 모르긴 몰라도 문장을 이루는 단어의 수 보다 배색의 숫자 색깔 수가 훨씬 적어서 그랬을게다. 이런 면에서 보다 확률에 근거한 GAN에 혹하게 되는데, 아닌 게 아니라 LLM을 훈련시킬 때 GAN을 활용하려는 노력이 꽤 오래 된 문제였다. 다만 text 공간이 이미지처럼 continuous (연속적인) 공간으로 표현이 어려운 까닭에 난제로 남아 있었다. 이의 해결은 Reinforcement Learning (RL), 강화학습이라는 또 다른 미친 아이디어로 풀렸는데, 그 증명은 여백이 모자라 적지 못하는...건 아니고 엄청난 citation 수를 자랑하는 논문으로 남아있다 [4].
어쨌든, 우리는 인터넷의 데이터 10만개와, 10개 책 스캔 + 샘플링을 통해 1만개 데이터를 추가하고 이를 GAN+LLM+RL (seqGAN이라고 한다) 모델에다가 훈련시켰다. 이를 주도한 이는 교수가 된 본인의 제자 중 하나로서, 그의 제자가 데이터 수집을 주도하였다니 역시 대학원생은 위대하다. 그 결과를 아래 나타내었는데 어떠한지? 그냥 생성도 하고, 기존 색에다가 덧붙이기도 하고, 게다가 판정까지 할 수도 있다.
더 중요한 문제는 과연 이 녀석이 인간의 자리를 넘보냐는 것이다. 즉, chatGPT에서 일어나는 일들이 (그게 무엇이건지 간에) 색채 공간에서도 벌어지는 것이냐는 문제다. 과연 우리가 보지 못했던, 아름다운 조합이 눈앞에 펼쳐졌던가! 결론적으로 말해서, 아직 적어도 이런 훈련된 모델들은 주어진 데이터의 한계를 넘지 못했다. input 데이터에 비해서 살짝 다양한 색상 (hue) 조합을 보여주긴 했지만, 그 전체적인 분포로 보았을 때에는 크게 다르지 않았던 것. 사실 모델의 역할이 바로 그런 것 -- 주어진 데이터의 확률 분포를 충실히 재현하는 작업 -- 아니겠냐는 목소리는, 나에게 강한 현타를 날렸다 (아래). 맨 처음 그림에서 보았던, 색상환 내에서 삼각형, 사각형, 오각형을 그리면서 색상 조합의 상위 규칙을 찾던, 매우 '인간적'인 일 -- 이걸 추론이라 할 수 있을지 모르겠으나 -- 은 역시나 일어나지 않았다. 그런 면에서 얼굴 생성은 왜 그렇게 특별하게 다가 왔을까? 그 확률 공간의 차원이 엄청나기도 하거니와 또 조물주의 창조하는 능력를 원하는 인류의 욕망 때문아닐까? 그러한 잘 알려진 분포 내 샘플링에서 무슨 의미를 찾을 수 있을까?
우리 시대의 진정한 예술가들은 확률 분포의 높은 확률의 답을 토해내는 생성형 AI가 과연 인간 지식의 확장에 무슨 영향이 있냐고 사자후를 토한다 [5]. 그럼에도 나조차도 시시각각 현란하게 사람 속을 꿰뚫는 말을 예쁘게 해 대는 chatGPT의 대답에, 그리고 가장 인지적으로 난이도 높은 작업을 척척 해내는 모습에 - 예를 들어, 커버레터를 쓰는 - 지갑을 활짝 열고 말았다. 심지어는 추론이라는 문제를 정복하기 위해 밤낮없이 연구가 진행되고 있다고 하니, 앞으로 올 그것은 이미 온 그것보다 훨씬 더 충격이 셀 것임은 자명한 사실이다. 와중에 더 우울한 것은 이러한 변화에 연구자 개인이 아무 것도 할 수 있는게 없다는 것이다. 이전의 학계란 것이 문제와 씨름하는 천재들의 아름다운 일기토를 보는 것과 같았다면, 이제 우리는 높은 벽으로 둘러싸인 엄청난 투자로 만든 공장에서 우리를 잡아 먹는, 어쩌면 완전히 멸망시켜버릴 괴물의 등장을 하염없이 기다리고만 있는 신세가 되어 버렸다. 혹시 인류 역사 속에서 이렇게 우리가 생존+의미를 찾아 헤매던 적이 있었나 싶다. 우리의 아이들은 과연 어떤 세상에서 살게 될 것인가.
참고문헌
배경이미지: 괴테가 그린 색상환
[1] https://www.youtube.com/watch?v=3tuQrKWLCKc
[2] MATSUDA, Y. 1995. Color Design. Asakura Shoten.
[3] 그래픽 디자인 분야에서 GAN의 활용 방안 및 영향 연구
[4] SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
[5] 테드 창 https://www.hani.co.kr/arti/economy/it/1147113.html