의미론적 계산기

인공지능은 양질전환의 화신인가?

by 지적 지니

서구과학의 ‘양적 방법론‘은 세계를 축으로 쪼개어 그 양을 측정하며 지배해 왔다. 세상을 밀도 있게 쪼개면 질적 탐구가 가능하다는 다소 오만한 이 사고는 길이 남아 우리의 사고방식을 지배하는 망령이다. 이제 그 ’ 양적 과학‘은 인공지능이라는 숫자다발을 등에 업고 양을 질로 전환하는 첫 번째 시도를 감행한다.


기존의 방법 : 대상의 축차성에 의존하기


현재 대한민국에 직업이 없는 사람들의 수가 얼마나 되는지 알고 싶다고 해보자. 즉시 인터넷을 켜고 실업률을 검색하여 그 수치를 파악할 수 있을 것이다. 실업률이란 무엇인가? 실업률은 어떻게 측정하며, 나아가 어떤 사고에 기반하는가?


모든 통계적 실증은 ’ 대표성(Representation)'에 의존한다. 대표성이 빠져나가고 난 통계는 넘어져 다시 일어날 수 없는 통나무와 다를 바 없다. 하지만 대표성은 그 자체로 속이 텅 빈 강정이기에, 오랫동안 인식의 오류, 통계의 함정과 같은 명칭으로 불리는 문제들을 자아내 왔다.


실업률을 파악하기 위해 대한민국의 인구 5천만 명에게 직접 취업여부를 물어보게 되었다고 가정해 보자. 문제는 모수가 충분히 크기 때문에 발생한다. 4천9백만 번째 취업여부를 물어보는 과정에서 첫 번째 신고자가 취업해 버렸다. 이와 같은 문제는 연속하는 대상을 측정하는 행위가 본질적으로 대상을 완벽히 파악하는 것이 아닌 조사하고자 하는 것의 특정 시기, 나아가 버전을 파악하는 행위이기 때문이다. 마치 컴퓨터의 스냅숏(snapshot) 시스템처럼, 2월 4일의 16시의 대한민국만 측정이 가능할 뿐인 것처럼 말이다.


양적 방법의 첫걸음은 계량이다. 우리가 방금까지 검토한 시기의 문제 이외에도, 대표성은 또 다른 문제를 품고 있다. 예컨대 우리나라 물가가 해외의 여러 나라대비 어느 정도의 수준인가를 알고 싶다고 한다면, 분명히 우리나라의 물가를 측정하고, 해외의 물가를 측정한 뒤 환율을 고려하여 비교하는 등의 일련의 작업을 수행할 것이다. 하지만 물가라는 것 자체도 엄밀하지 않다는 것이 문제다. 물가를 측정하기 위해 대부분의 기관은 물건 통(Goods Bucket)을 만든다. 측정할 항목을 양동이 안에 이것저것 집어넣는다. 식품, 가구, 전자제품과 같은 소비재, 서비스 용역재화와 같은 무형의 재화까지.. 말이다. 그렇게 ‘충분히 세상을 대표할 만큼 담았다고 판단된다면’ 그 바구니에 담긴 항목을 차례차례 측정하기 시작한다. 결국 우리가 보는 물가지수는 물가의 척도가 아니라, 앞에 (중앙은행이 물가를 반영하는데 필요하다고 판단한 품목들의 집합)이라는 괄호가 붙은 셈이다.


중앙은행과 측정을 수행하는 기관은 ‘대표성’을 판단하기 위해 다양한 품 묵을 최대한 반영하려고 노력하겠지만, 이 과정에서 충분히 영글지 못한 또 하나의 가정이 발생한다. 품목을 고르기 위해 대부분의 모형은 이상적인 ’ 행위자 모형‘을 상정한다. 표준으로서 인간이라면 머리는 이 정도 주기로 깎을 것이고, 이 정도의 식품을 소비할 것이며.. 다음과 같은 가정들이 난무한다.


결국 우리가 측정하고 보는 것은 잠재적인 가정의 결과들이다. 다시 ‘양적 과학’의 영역으로 돌아가자면 물가를 측정하기 위해 물가라는 대상을 식품, 서비스, 건물 임대료와 같은 수없이 많은 품목의 축(axis)으로 쪼개는 것이다. 모든 값에는 축이 존재해야 의미를 부여할 수 있기 때문이다. 그 축은 주로 단위라는 이름으로도 쓰이지만 언제든지 개조될 수 있다.


새로운 방법 : 인공지능에 일임하기


우리가 만약 AGI, 내지는 (낙관적으로 가정했을 떼) 초지능에 도달한다면, 더 이상 이 가정은 필요하지 않을지도 모른다. AGI는 인간의 언어를 이해하고, 세상을 적어도 인간만큼은 반영한다. 그래서 질적 대상을 계산가능하게 변환해 줄 수 있게 된다. 이전까지 물가의 높고 낮음을 논하기 위해 물가를 상품 바구니에 넣고, 측정한 다음 다시 평균과 같은 값을 합치는 방법들을 통해 합성한 하나의 지수로 놓고, 그다음에야 비로소 이야기를 시작할 수 있었다면 AGI는 그렇지 않다. 즉시 물가의 높고 낮음을 양적 변환과 그 수치에 대한 논의 없이 바로 논할 수 있게 된다. 마치 원래 물가라는 대상이 측정가능한 고유의 숫자였던 것처럼.


이 관점은 적어도 현재의 LLM이 AGI가 아니더라도, 언어모델을 단순히 작업을 처리하는 어시스턴트가 아니라 의미를 계산할 수 있게 해주는 의미론적 컴퓨터로 바라보게 해 준다. 기존의 컴퓨터는 사랑과 증오를 더하기 위해서 사랑과 증오가 뭔지 입력하고, 덧셈이 무엇인지 정의해야 했다면, LLM은 그냥 한다. 다음 단어를 예측하는 앵무새 같은 메커니즘이라도, 겉으로 보기에 말이 되도록 답을 준다. 이 과정에서 때로 놀라움을 주기도 한다.


LLM이 더 발전하고 AGI적인 특성에 가까워질수록 그것이 내놓는 답변은 더 말이 될 것이고, 더 그럴듯한 수준을 넘어 실제 세상에 대해 유효해질 것이다. 결국 의미마저 연산가능하도록 만들어버린 과학은 세상을 어떻게 만들어 놓을 것인가.

작가의 이전글자연어: 미완의 프로토콜, 그리고 AI라는 트리거