공간 닫힘 문제: 인간 vs AI
어제 수업 끝나고 교실을 나와 오피스로 복귀하다가 복도 구석진 휴게실에 앉아 있는 학생들의 대화를 우연히 엿들었다.
A: 아.. 자꾸 프롬프트 바꿔도 마음에 드는 이미지가 안 나와.
B: 그니까 이렇게 입력해야 한다고.
A: 아니 그렇게 했는데도 안 된다고. 이거 3.5 버전이어서 그런가?
B: 끌로드로 해봤지?
A: 어제 보여줬잖아.
B: 이상하네. 그냥 대충 지금까지 나온 이미지 조합해서 적당한 거로 만들자. 시간 없으니까.
아마 이 학생들은 어떤 조별 과제를 하는데 적절한 이미지를 만들기 위해 생성형 AI를 쓰고 있는 모양이었다. 여러 버전을 써봤는데 마음에 드는 이미지가 안 나온 모양.
사실 이런 고민은 많은 사람들이 겪는다. 2022년 말에 세상에 나온 이후, 이제 chatGPT 류의 생성형 AI는 꽤나 사람들의 삶 속에 많이 스며들었고, 심지어 초등학생들도 이리저리 잘 활용하는 모습을 보곤 하는데, 사실 생성된 데이터의 품질에 대해서는 각 사용자의 목적이나 층위에 따라 만족도가 천차만별인 것 같다.
생성형 AI는 대부분 이미 인터넷에 공개된 디지털 형식의 다양한 데이터를 대량으로 오랜 시간 동안 GPU 서버에서 엄청난 전력을 소모하며 학습한 결과물에서 효율적인 추론 알고리즘을 통해 실시간으로 토큰을 생성하는 방식을 따른다. 거칠게 이야기하면 수천 억 개 이상의 파라미터로 구성된 비선형 함수에 적절한 인풋이 들어가면 적절한 아웃풋이 빠르게 나오는 일종의 상자를 만든 셈이다. 그렇지만 더 거칠게 이야기하자면 이는 마치 아래 그림에 보인 것 같이 CIE 색공간에서 새로운 색을 찾는 것과 비슷한 맥락이다.
CIE 색공간은 가시광 spectrum에서 생성될 수 있는 모든 종류의 color를 일종의 color vector (X, Y)로 수치화하여 매핑한 공간이다. 여기서 이야기하는 color coordinate X와 Y는 일종의 행렬 변환을 거쳐 우리에게 친숙한 0-255 스케일의 R, G, B 벡터로 변환된다. 물론 이렇게 변환된 discrete space의 R, G, B 벡터는 조합의 경우의 수가 많다고는 해도, 어쨌든 유한한 경우의 수이므로 이론상 존재할 수 있는 무한한 색을 전부 찾아주는 것은 아니다. 이렇게 형성된 색공간에서 1996년부터 표준으로 쓰이고 있는 sRGB (색 채널당 8비트 integer)가 차지하는 영역은 의외로 좁다 (첨부 그림 참조). sRGB가 놓친 영역은 1998년에 Adobe가 cyan과 green 영역을 보강하면서 조금 더 확장되었다. 가장 최신까지 포함한다면 국제전기통신연합(IUT)이 2014년에 표준으로 제정한 BT.2020 칼라맵이 있는데, 이는 해상도가 더 올라간 디스플레이를 타깃으로 한다. 그렇지만 그 어떤 칼라맵이 와도 태양광 스펙트럼에서 이론적으로 구성될 수 있는 색공간 전체를 커버하지는 못한다.
만약 기존의 함수가 아닌, 다양한 비선형 함수, 혹은 심지어 새로운 색좌표를 도입하여 기존의 칼라맵에서 커버할 수 없었던 새로운 색을 찾아낸다고 가정해 보자. 당연히 이 새로운 색은 아마 사람들에게 처음에는 놀라운 정보로 인식될 수도 있을 것이다. 기존의 표준 체계 밖에 있는 정보이기 때문이다. 그렇지만 엄밀히 이야기하면 그렇게 새롭게 찾아낸 색도 결국 이론적으로는 가능한 모든 색이 있는 어떠한 '닫힌 공간'에서 단 한 뼘도 벗어난 것은 아니다. 정보를 구성할 수 있는 독립된 변수가 정해져 있고, 이들의 범위도 정해져 있다면, 이들이 만들어낼 수 있는 최대의 convex 한 닫힌 공간의 한계도 정해져 있는 것일 것이므로, 그 영역 내부에서 생성될 수 있는 정보도 결국 한계가 있다는 것. 이 임의의 추상적인 공간이 convex 하다고 추측하는 것은 만약 concave 했거나, 특이점이 있었다면 애초에 공간 내에서의 정보의 처리에 연관되는 어떤 종류의 수학적 연산을 닫힌 군에서 정의할 수 없을 것으로 생각되기 때문이다.
음악은 어떤가? 결국 화성 리듬의 공간에서 생성될 수 있는 정보들도 일종의 멜로디맵 안에서 추출되는 것이라고 생각해 보면, 이론적인 convex 공간이 있을 것이고, 그 안에서 인간은 지난 수천, 수만 년 동안 다양한 멜로디를 캐왔을 뿐이다. 음색이라는 차원을 더한다고 하더라도, 그것은 결국 phase와 frequency로 환원되며 wavelet이든 Fourier든, decomposition 성분들이 입력치로 들어가 어떤 종류의 함수를 통해 생성되는 (결정되는) 신호들일뿐이다. 그러한 함수 역시 음악을 구성하는 어떤 convex 한 닫힌 공간에서만 정의될 뿐이다.
이러한 상황을 고려하면, 생성형 AI들이 탐색하는 공간이라는 것도 역시 칼라맵의 convex 닫힌 공간에서 벗어나지 못하는 것이 아닐까? 더구나 수천억, 심지어 수조 개 이상의 파라미터로 무장한 강력한 학습을 자랑하는 파운데이션 AI라고 해도, 결국 그 학습 데이터 자체도 이미 어떤 종류의 닫힌 공간에서 정의된 데이터들 아닐까? 그렇다면 그 공간에서 닫힌 연산을 통해 모종의 함수를 거쳐 생성되는 데이터 역시 이론적으로 존재할 수 있는 거의 무한에 가까운 (그렇지만 여전히 유한한) 데이터의 집합에서 비롯된 것이 아닐까?
앞서 대화를 나누었던 두 학생들은 자신들의 프롬프트에 대해 chatGPT가 생성하는 이미지가 마음에 들지 않았지만, 아마 거의 무한번에 가깝게 다양한 프롬프팅을 시도하면 꽤 이상에 근접하는 결과물을 얻을 수 있을지도 모른다. 그렇지만 그 과정이 얼마나 걸릴지, 얼마나 많은 에너지를 소모하게 될지는 예상하기 어렵다. 대략적인 추세선을 그릴 수는 있지만, 아마도 long-tail을 가지며 느리게 근접하게 될 것이다. 그렇게 애써서 이상에 가까운 결과물을 얻었다고 해도, 그것은 수학적으로는 다른 공간에서 가져온 전혀 새로운 결과물은 아니다. CIE 색공간에서 사람들이 define 하지 못 했던 새로운 색을 찾아온다도 해서, 그 색이 완전히 무에서 창조된 것은 아닌 것과 같은 맥락이다.
그러면 이런 생각을 할 수 있을까? 애초에 인간이 문명을 만들고, 그 문명을 존속시키기 위해 다양한 정보의 전달 수단을 만들고 (그것이 문자이든, 수학이든, 예술이든), 그 수단으로 새로운 정보를 창조하고 생성해 온 모든 것이, 사실 어딘가에 존재할 거의 무한에 가까운 (그러나 역시 유한한) convex closed space에서 하나씩 곶감 빼오듯 빼오는 것이라는 생각 말이다. chatGPT 류의 생성형 AI는 인간이 그렇게 지금까지 축적한 다양한 종류의 데이터들을, 주로 디지털 형식으로 변환하여 '학습'하고, 인간이라면 탐색하는데 몇 천, 몇 만 년 이상이 걸렸을지도 모르는 광대한 공간에서 어쨌든 brute force가 되었든, 학습된 추론이 되었든, 무지막지한 비선형 다차원 함수가 되었든, 여러 방법을 동원하여, 새로운 (그러나 사실은 새롭지 않은) 데이터들을 더 빠르게 탐색하고 있는 것은 아닐까?
그렇다면 관건은 이것이다. 다시 색공간의 비유로 돌아가, 앞으로 계속 발전할 AI는 단순히 인간이 define 한 sRGB 같은 방식을 초월하여 자신만의 색공간 definition을 만들어 이론적인 모든 색공간을 탐색하게 될 것인가? 아니면 인간이 축적한 데이터, 즉, 색공간으로 비유하자면 sRGB 같은 공간을 define 하는 파라미터 등, 을 기반으로 그 공간 안에서 아직 못 찾은 정보를 찾을 것인가? 아니면 아예 그러한 색공간이라는 개념을 초월하여 전혀 다른 개념의 공간을 창안할 것인가?
예를 들어 우리에게 익숙한 색공간은 재차 강조컨대 가시광 스펙트럼 대역이다. 그렇지만 AI에게 있어 이 공간은 그저 전자기파의 파장 영역 중, 인간의 눈에 있는 원추세포가 감지할 수 있는 특정한 영역의 좁은 파장 공간일 뿐이다. 만약 AI가 이러한 생물학적 제한 조건을 무시한 채, 단파장은 X-ray까지, 장파장은 라디오파까지 확장한다면, 엄청나게 넓은, 그렇지만 인간은 아마 감지할 수 없는 '색'공간을 만들 수도 있을 것이다. 이 공간에서 AI는 정말이지 듣지도 보지도 못한 새로운 정보들을 가지고 올 수도 있을 것이다. 아마 X-ray 영역이나 라디오파 영역에서 인간이 스스로 감지할 수 있는 '이미지'를 만든 역사는 없기에, 이제부터 나오는 것들은 아마도 전부 AI가 학습 없이 만들어낸 것일 수도 있다. 이러한 경우, 인간은 이것이 AI가 '창조'한 것인지, 혹은 인간이 define 하지 않은 어떤 새로운 공간에서 AI가 고도의 계산을 통해 그저 적절하게 조합한 결과물인지 구분하기는 어려울 것이다.
색공간의 범위가 단파장과 장파장으로 넓게 확장된다고 해도, 결국 그 공간의 핵심 variable은 전자기파의 wavelength일 뿐이다. 즉, 또 하나의 공간이 생성된 것이 아니라, 우리가 익숙하던 공간이 더 넓게 확장되었을 뿐이라는 것이다. AI 입장에서도 인간이 전혀 감지할 수 없는 UV 대역의 이미지를 만들었다고 해도, 그것은 인간에게나 새로운 정보일 뿐, 수학적 관점에서는 전혀 새로운 정보가 아닐 수도 있다는 것이다. 더 넓어진 파장 대역에서는 더 다양한 그래서 무한에 가까운 (그러나 여전히 유한한) 조합이 탄생할 것이고, 더 가속화된 알고리즘으로 무장한 AI는 더 빠르게 더 다양한 정보들을 생성하고 우리와 공유할 수 있을지도 모른다. 그것을 인간이 향유할 수 있는지는 별로 중요하게 생각하지 않은 채 말이다.
이렇게 이야기하면 결국 인간의 창의성이라는 것도 부질없는 개념처럼 보인다. 물론 반드시 그렇게만은 볼 수 없다고 주장하는 사람들도 있을 것이다. 창의성이라는 것이 측정 혹은 연산 가능한 정보로만 이루어졌다는 보장이 없다는 주장도 있을 것이다. 그렇지만 결국 인간의 두뇌에서 이루어지는 창의적인 활동도 인간 두뇌에 집적된 신경세포들의 네트워크에서 이온 전위 차이의 공간 이동 속도에 의해 제한된 다양한 생화학적 정보들의 처리에 의해 나오는 것들일 뿐이다. 만약 인간의 창의성이 이러한 기계적인 방식을 넘어, 무엇인가 측정이 불가능하고 연산이 불가능한 방식에 의거한 것이라면, 그것을 AI가 흉내내기는 어려울 것이다. 이럴 경우 AI가 온갖 공간에서 새로운 정보를 빠르게 만들어내더라도, 인간이 시도하는 전혀 다른 공간에서의 창의적 활동을 대체하기는 어렵다고도 볼 수 있을 것이다. 별로 영양가도 없는 논의를 더 길게 이어갈 필요는 없고, 이 논의를 마무리하기 위해 간단한 경우의 수를 생각해 보자.
Case 1. 인간의 창의적 정보 처리에 의한 활동 (예술, 수학, 과학 포함)이 어떤 종류의 convex closed 공간에 국한되어 있지 않음, 그러나 AI는 인간이 이미 탐색한 공간에서만 연산이 가능함.
->이럴 경우, AI는 그저 편리하고 재미있는 그리고 일상의 업무를 대신해 줄 수 있는 수준의 자동화 시스템의 프레임 정도로 수렴할 것이다. 그리고 창의적 활동은 인간이 계속 주도하게 될 것이다.
Case 2. 인간의 창의적 정보 처리에 의한 활동이 어떤 종류의 convex closed 공간에 제한되어 있음. AI도 인간이 이미 탐색한 공간에서만 연산이 가능함.
->이럴 경우, Case 1과 비슷하지만, 인간과 AI의 창의성에 관한 '지능'은 서로 빠르게 수렴하게 될 것이다.
Case 3. 인간의 창의적 정보 처리에 의한 활동 (예술, 수학, 과학 포함)이 어떤 종류의 convex closed 공간에 제한되어 있음. 그러나 AI는 인간이 이미 탐색한 공간에 연연하지 않고 새로운 공간 탐색이 가능함.
->이럴 경우, 흔히 이야기하는 AGI가 나올 것이고, 인간은 더 이상 창의적 활동을 스스로 영위하지 못할 것이다. AI는 인간에게 더 이상 자신의 창의적 정보 처리 활동을 설득하거나 설명하려 하지 않을 것이다.
Case 4. 인간의 창의적 정보 처리에 의한 활동 (예술, 수학, 과학 포함)이 어떤 종류의 convex closed 공간에 국한되어 있지 않음. AI도 인간이 이미 탐색한 공간에 연연하지 않고 새로운 공간 탐색이 가능함.
->아마 제일 이해하기 난해한 경우이지 않을까. 두 경쟁 종이 창의적 활동을 영위하기 위해 새로운 공간으로의 탐색을 지속할 때, 그 새로운 공간은 반드시 같을 필요가 없다. 오히려 다를 가능성이 더 높다. 그렇다면 그렇게 서로 다른 공간에서의 창의적 활동을 영위하는 두 경쟁 종이 공존할 수 있을까? 두 종이 공존함으로써 얻는 이득이 한 종이 다른 한 종을 제거함으로써 얻을 수 있는 독점적 이득보다 작다면 결국 두 종은 공존하기 어려울 것이다. 이는 전쟁일 수도 있고, 한 종이 다른 곳으로 아예 이주해 버리는 결말이 될 수도 있다. 설사 두 종이 찾은 새로운 공간이 오버랩이 되는 상황이라고 해도 결말은 크게 다르지 않다. 특히 이렇게 오버랩이 되는 경우라면, 그 공간을 먼저 다 탐색하는 쪽은 당연히 연산 성능에서 더 우위를 가져갈 AI가 될 것이다. 이럴 경우 마치 먹잇감이 제한된 야생에서 먹이를 놓고 경쟁하는 포식자들이 서로 경쟁하다가 우위에서 밀린 한 종이 멸종하는 결말로 가게 된다.
어떤 케이스가 진실에 가까울지는 나는 잘 모른다. 그렇지만 모두가 AGI 시대의 도래를 예견할 때, 이러한 레벨에서 생각하는 것도 필요하지 않을까? 지금은 chatGPT가 만든 이미지에 불만을 터뜨리는 정도, 혹은 그냥 시간이 없어서 그렇게 대충 만든 이미지로 만족해 버리는 정도에서 타협이 될 수 있을지 모르지만, 위 케이스에서 3 혹은 4번 케이스로 가게 되는 경우에는 이런 불만이나 타협마저도 사치스러운 행위였다고 추억이나 곱씹게 될지 모를 일이다.