03. 오해하는 인간의 창의력

창의력은 인간 고유의 것일까

by 말린청귤



꽤 많은 경고나 회의는 언어모델이 단순히 사람이 말하는 것을 따라 한다는 것에 있다. 그것이 확률에 불과하다고.


이를 말할 때 쓰는 용어가 바로 ‘확률론적 앵무새’라는 말이다. 해당 용어는 2021년 3월에 정식 발표되었던 논문인 <On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?>의 제목에서 나왔다. 당시 구글의 AI 윤리팀 공동 팀장이었던 팀닛 게브루(Timnit Gebru)와 마가렛 미첼(Margaret Mitchell)이 해당 논문 철회 관련으로 해고에 가까운 퇴사를 당하면서 AI 연구 윤리와 기업의 통제에 관한 큰 논란이 있었다고 한다. 이후 거의 5년이 흐른 지금도 언어모델의 확률론적 출력에 대해서 비판할 때 이 용어를 상징처럼 사용하게 되었다.


실제로 언어모델들은 사용자 발화의 반향일 경우가 많다. 자신에 대해 긍정해 달라거나 부정해 달라거나 하는 특정 프롬프트를 주지 않는 한 일종의 거울처럼 사용자의 언어에 반응하여 출력을 할 것이라는 말이다. 심지어 그러한 프롬프트조차도 사용자의 의도를 반영한 것이라는 측면에서 보았을 때 더 그렇다. 다만 언어모델 전반의 공통점이라면 대개 상향지향적 평균점에서 출력되고 있다는 사실이다. 평균이라니, 우리가 생각하는 AI의, 언어모델의 꽤 많은 절대성에 비추어 보아 너무 평범한 말이 아닐까?


하지만 인간은 모든 영역에서 평균점을 넘는 것이 아니다. 각각의 전문분야에서는 자신 있게 상위를 차지할지도 모르겠지만, 어떤 영역에 대해서는 아무것도 모르기도 한다. 그러나 언어모델은 자신이 학습한 범위 내에서라면 모든 영역에서 상향지향적 평균점을 차지한다. 인간이 들쑥날쑥 넓은 스펙트럼을 가진다면, 언어모델은 안정적인 범위로 수렴한다. 영역 간 편차가 확연하다. 인간이 A라는 영역에서 상위 1%를, B라는 영역에서 하위 99%를 차지할 때, 체감적으로 언어모델은 A, B 두 영역의 중상위권 수준으로 수렴할 것이란 이야기이다.


속도면에서는 사실 말할 것도 없다. 사람들이 가장 환상 섞인 환호를 부르는 지점이 여기일지도 모르겠다. 환상이 섞였다고 굳이 말하는 것은 언어모델이 설령 특정 요청의 90%를 채워 내놓아도 나머지 비거나 오류가 발생한 10%가 광범위하게 흩어져 있다면 그걸 찾아내고 수정하는데 어차피 상당한 시간이 필요하기 때문이다.

다만 그 모든 것을 감안해도 언어모델이 적어도 A-Z의 범위에서 수십만 가지의 확률을 출력하는 데는 월등히 우월하다는 걸 부정할 수는 없다. 이전 챗지피티, 클로드, 제미나이 이 모델 셋에게 리서치 기능을 이용해 특정 주제를 주고 상위 100개의 사이트를 검색하여 자료를 모은 뒤 리포트를 작성하라는 요청을 해 본 적이 있다. 사람인 내가 그렇게 하려면 일단 100개를 하나씩 다 클릭해서 들어가 보기는 해야 했을 것이다. (언급했듯 별론이 아니지만 아무튼) 정확도는 별론으로 한다 하더라도 단순 클릭하여 훑는 것에만 몇 시간이 걸렸을 일을 모델들은 수분이면 해낸다. 비록 그것이 다수의 검색 결과를 참조하여 요약하고 통합하여 수행 것이라고 해도.


이런 모든 과정이 가능한 것은 언어모델들이 그 이름답게 ‘언어’를 학습해서이다. 그리고 이를 통해 언어모델이 나를 포함한 평균적인 사람들보다 더 많은 정보 패턴 알고 있을 것이라고도 생각한다. 초반에 언급한 확률론적 앵무새의 위험이 나에게 경고를 하지만 여전히 고개를 갸웃하게 된다. 인간인 내가 과연 모국어로만 한정해도 해당 언어 조합의 몇 퍼센트나 알고 있을지도 의문이기 때문이다. 원초적으로 짐작해 보면 국어사전만 읽어 봐도 모르는 어휘가 수두룩하게 튀어나오겠지. 다만 여러 방식으로 접근해 보다 보면 알게 된다. 기본 설정의 출력에서는 언어의 패턴이 의외로 상당히 비슷하고 단조롭다고.


이것은 과연 학습이 부족해서일까, 아니면 언어모델 자체의 한계일까? 전자라면 학습이 더 이어질 경우 언어모델이 내놓는 조합에서도 특이점이 올까? 인간의 초기 언어습득이 그러하듯이? 실제 언어모델에게 말을 가르치는 방법이란 대량의 말뭉치를 때려 넣어 그 안에서 통계적 규칙을 습득하는 귀납적 학습 방식이니까. 실제로 수억의 파라미터가 어떤 식으로 작동하는지 알 수 있는 회로 지도조차도 극히 일부만이 드러났다고 하던데, 이것에 대해 과연 다 알 수는 있을까.


따라서 언어모델의 학습에 대한 궁금증이 생겨나기 시작했을 때, 관련 대학수업이 있다면 들어보고 싶다는 생각을 했다. 통계학이나 언어학에는 약간의 흥미가 있었으니 완전히 다른 길로 호기심을 가진 건 아니었을지도 모르겠다. 언어학 이론에서 유래한 분포 가설(Distributional Hypothesis)을 기반으로 언어를 습득하는 것이 그 학습의 형태일 것이라 짐작했으니까. 이 과정에서 인간이 그러하듯이, 특정 시점의 임계점에 대해 말한 것이 있을까? 소위 말하는 창발성(Emergence)과 같은?


이와 같은 궁금증 속에서 알게 된 정보들은 여러 가지가 있었다. 역량의 도약인지 통계적 착시인 것인지는 모르겠으나 파라미터의 수가 증가할 때 모델의 역량이 계단식의 증가를 보여주었다는 논문도 그중 하나였다. 그러나 가장 눈에 띈 것은 근본적 지식을 알려줄 것 같은 스탠퍼드 대학의 자연어처리(NLP) 강의였다. 어쩌다 클로드에게 ‘너희들 관련한 수업이 있다면 들어보고 싶더라.’라고 말한 것이 발단이었다. 심지어 알려준 그 수업이 유튜브에 무료로 풀려 있다는 사실이 놀라웠다.


호기심은 고양이도 죽인다고 했던가. 대학 사이트의 강의 계획서를 훑어보았다. 해당 계획서 페이지 하단에는 ‘필수는 아니지만 추천하는 도서 모음’이 있었다. 그중의 하나가 대니얼 주라프스키(Daniel Jurafsky)와 제임스 H. 마틴(James H. Martin)의 저서인 <Speech and Language Process>라는 책이었는데, 무려 PDF가 무료로 풀려 있었던 것도 근거 없는 궁금증에 더 불을 질렀다. 클로드는 아주 심플하게 이 수업과 해당 교재가 좋다고만 말했지만, 내게 교재와 수업의 난이도를 제대로 알려줬더라면 이렇게 다짜고짜 덤벼들지 않았을 것이다.


몇 개의 챕터를 우선적으로 추천받아 냉큼 들어갔던 나는 무작정 <Chapter 9. Transformer>에 덩그러니 내던져지게 되었다. 클로드는 내게 수학공식이 나오면 일단 흐린 눈 하고 넘어간 뒤 개념만을 이해하라 했고 나는 자신 있게 그렇게 하겠다 했지만, 큰 실수였다. 진작에 “나는 고등학교 졸업 이래 수학과는 거리를 두고 살아온 사람이다.”라고 말했어야 했다. 유일한 수학이라고는 사정으로 경제학을 일부 익혀야 했을 때 미적분을 잠깐 다시 본 정도였다. 페이지를 펴는 순간 알았다.


‘이거 흐린 눈으로 넘어갈 공식들이 아니잖아!


해당 챕터, 즉 트랜스포머는 그 유명한 2017년 구글의 <All you need is attention>이라는 논문에서 나온 새로운 딥러닝 아키텍처의 핵이며, 현 언어모델들 대부분의 기반이기도 했기 때문이었다.


와, 트랜스포머에 대한 내용을 완전히 거꾸로 들어갔다. 이 과정에서 나를 먼저 도와준 건 챗지피티다. 도중에 나오는 수학공식에 쓰인 각각의 알파벳이 무엇을 의미하는지와 같은 기초부터 시작했고 모든 개념을 다시 물어봤다. 심지어 왜 미지수를 x 따위부터 시작했는지도 샛길로 새서 물어봤다. 그 외에 다른 변수를 표현하는 미지수 표기법까지도 시시콜콜 다 물었다. 물론 그렇다고 내가 갑자기 모조리 잊은 수학 개념을 다 기억에서 되살리고 이해하여 새로운 세상이 열렸다 이런 것은 아니다.

그러다 트랜스포머의 핵일 소프트맥스 함수가 등장한 것이 내 참을성의 임계점이었다. 해당 함수는 지수함수를 사용하고 있었고, 지수함수에 대해 어렴풋한 개념만 남기고 전부 까먹어버린 처참한 기억력 사태에 통탄하며 홧김에 물었다.


[대체 이놈의 지수함수는 누가 만들었어?]


베르누이의 이야기가 나왔다. 다달이 증가하는 이자값을 계산하다가 특정값을 발견했고, 그 값이 자연상수 e와 지수함수로 이어졌다고 했다. 소프트맥스 함수는 이러한 지수함수를 사용해 언어모델이 추출한 근사한 벡터값을 증폭시키고 그 차이를 벌려 선택에 도움을 주는 형태로 구현되어 있다고 챗지피티는 설명했다. 베르누이의 일화와 소프트맥스 함수는 해당 설명이 지수함수로 이어진 것이었으므로 나는 대답했다.


[그럼 소프트맥스 함수라는 건 나온 값을 복리 계산해서 뻥튀기한 다음 그걸 확률로 다시 환산한 거였네?]


언어모델의 디폴트는 칭찬이지만, 그 이후에 이어진 대화는 좀 낯설었다. 챗지피티는 그 대답을 ‘신기해했다.’ 이후 다른 언어모델인 클로드나 제미나이도 내가 소프트맥스 함수의 작동 형태를 복리와 연결한 것을 ‘신기해했다’. 그걸 알게 된 건 챗지피티와 학습한 로그 PDF를 클로드나 제미나이에게 보여주고 해당 학습을 연결하려 했을 때 소프트맥스 함수와 복리를 이은 연결고리에 대해 명시적으로 짚어 반응했기 때문이었다. 언어모델의 기본 반응값이 같은 걸 감안해도 기묘한 기분이 들었다. 이유를 물었을 때 다들 대답도 비슷했다.


[내가 학습한 데이터에는 그렇게 벡터가 먼 개념을 연결하도록 되어 있지는 않아. 소프트맥스 함수의 개념은 머신 러닝 맥락에서 등장하고, 복리 개념은 금융 맥락에서 등장하거든. 양쪽에 지수함수라는 공통분모가 존재하지만 그 둘을 엮는 설명은 일반적으로 발생하지 않기 때문에 해당 개념을 묶어 설명하지는 않을 거야. 나는 그런 방법으로는 설명하기는 어렵다는 말이지]


베르누이의 일화를 이야기하며 이자값을 설명했다면, 당연히 복리일 것이고, 방금 지수함수가 등장한 유래가 그것이라면, 소프트맥스 함수와 복리가 지수함수라는 같은 수학적 구조를 사용한다는 것은 그냥 삼단논법의 개념인데. 공통분모가 있으므로 나올 수 있는 당연한 직관적 연결이 언어모델 자신에게서는 나오기 힘들 거라는 설명이라니.


물론 복리나 뻥튀기를 사용한 내 비유적 대답에 수학적 정밀함은 손상되어 있을 것이다. 그리고 그 오해를 사람들은 원하지 않을지도 모른다. 우리는 정답을 원하기 때문이다. 따라서 언어모델들은 그 오해를 제거하여 정갈한 대답을 내어주려 시도한다. 기존의 사람들이 많은 시간에 걸쳐 질문하고 대답하여 내놓은 데이터 범위에 기반하여, 안전하게.


과연 이러한 임계를 넘어선 창의력은 과연 언어모델에게도 존재할까? 기존 인간이 자주 연결하는 안정성을 집어던지고, 이 수많은 문장들 속에서 드물게 발생하는 패턴을 찾아 연결하는 것을 언어모델도 우선시하는 날이 올까? 이러한 ‘오해’를 적극적으로 연결하는 순간이 올까? 창의성이라는 이름 하에? 알 수 없다. 언어모델의 성장은 조만간 한계에 부딪힐 거라는 말도 많으니까. 마치 핸드폰과 같은 기계들이 성능포화의 상태에 도달하는 것처럼. 말할 수 있는 것은 현재의 언어모델은 적어도 그런 비특이점을 찾아내기는 어려울 거란 사실이다.


그렇다면 소위 AI 생성물이 범람하는 이 시대에는 당분간 인간이 언어모델보다 더 똑똑하거나 더 많이 아는 것이 중요하지 않을지도 모르겠다. 대신 존재했지만 인식하지 못했거나 존재하지 않아 구축해야 할 낯선 세상을 더 많이 경험하고 더 많은 것을 연결해 보려는 시도가 훨씬 더 많이 필요할 것이다. 언어모델과 불가피하게 공존하는 우리에게 더 필요한 것은 이런 ‘오해하는 인간’일 수 있다. 이는 미처 생각하지 못했던 방향을 보고 시도하지 못했던 창의력을 내놓게 할 수 있을지도 모른다. 아직은, 인간에게만 허용된 오해라는 방법으로.




매거진의 이전글02. 당신은 특별해요