추론 모델와 임마누엘 칸트의 인식론
챗GPT라는 낯선 이름의 생성형 AI가 출시된 지 2년이 채 못된 2024년 9월, 오픈 AI는 챗GPT o1이라는 추론 모델을 출시했다. (9월에 출시된 모델은 풀버전은 아니었다.) 이 모델은 AI의 발전에 또 하나의 중요한 이정표를 찍었다고 평가받는다. 흥미롭게도 나는 이 모델의 출현을 보면서 근대 인식론 논쟁에서 데이비드 흄을 누르고 임마누엘 칸트가 승리한 것을 볼 수 있었다. 흄과 칸트의 인식론 논쟁에서 칸트가 승리한 것이다. 그리고 이것은 AI가 인간처럼 생각할 수 있는가 하는 문제와 관련해서 중대한 시사점을 던져준다.
임마누엘 칸트(Immanuel Kant, 1724–1804)는 흄의 인식론에 큰 충격을 받았다. 그는 흄을 읽은 뒤, "흄이 나를 독단의 잠에서 깨워 주었다"고 말했다. 여기서 '독단의 잠'이란 형이상학적 사고 습관을 말하는 것이리라. 즉 이는 흄을 만나기 전 칸트는 대륙의 합리론적 철학에 영향을 받아 어느 정도 형이상학적으로 경도되어 있었음을 암시한다. 데카르트와 같은 대륙의 합리론자들의 이성의 능력이나 주체를 강조해왔었던 것이다. 그러한 합리론에 기울어 있던 칸트가 흄의 글을 읽고 번쩍 정신이 든 것이다. 그리고 그러한 흄의 인식론을 교정하기 위해서 철학 작업을 개시했다.
칸트의 작업은 두 전통을 통합하는 것이었는데, 합리론에 토대를 두면서도 흄의 경험론을 상당 부분 수용했다고 할 수 있다. 그는 형이상학이란 인상 없는 관념들의 유희일 뿐이라는 흄의 비판을 상당 부분 수용했다. 그래서 그의 <순수이성비판>은 형이상학 배제 경향이 매우 뚜렷하게 나타난다. 그러나 칸트는 형이상학을 완전히 부정하지 않았다. 그는 흄의 회의주의로부터 도리어 형이상학을 구해내고 싶었다. 특히 그가 '실천 이성'이나 '판단력'이라는 범주를 순수 이성의 범주에서 따로 떼어낸 것이 그 예이다.
오성
AI와 관련해서 우리가 살펴봐야 하는 것은 그의 '순수이성비판'이라는 작업이다. 그리고 이 작업에서 칸트는 흄의 인식론을 적지 않게 수용했자. 흄은 지각을 통한 인상과 그 인상에 의해 만들어진 관념을 재조합하여 지식을 만든다고 했다. 이와 유사하게 칸트는 <순수이성비판>에서 경험적 직관(감성)에 대한 중요성을 강조했다. 그래서 칸트는 (과학적) 지식이란 경험에 기초할 수밖에 없다고 선언했다. 그런데 여기서 그는 '오성'이라는 개념을 제시했다. 한 마디로 오성은 과학적 지식을 구성하는 정신 능력이라고 할 수 있다. 오성은 이성과 유사하지만 오직 경험에 기초한 과학적 지식을 구성하는 정신 능력만을 가리키는 개념이다. 그러니까 경험을 통해 구성하는 지식은 오성으로 가능하다는 말이다. 당연한 얘기지만 오성은 형이상학을 구성할 수 없다. 왜냐? 오성은 경험적으로 지각한 것으로만 지식만 구성할 수 있기 때문이다. 따라서 오성으로는 형이상학을 구성할 수 없다.
감성과 물자체
흄이 말하는 경험은 오감으로 직관을 통해서 뇌에 '인상'이 새겨지면서부터 시작된다. 칸트는 이를 '감성'이라는 말로 표현했다. 감각 기관으로 지각하는 경험의 1차 자료는 '감성'이다. 그런데 이때 주의할 것이 있다! 인간은 외부의 세계/사물을 직접 경험하는 것이 아니다. 오로지 감각 기관을 통해서 외부의 세계/사물로부터 도달한 신호를 수용하여 이를 직관으로 형성할 뿐이다. 오감이 지각하는 신호는 외부의 세계/사물로부터 온 것이기는 하지만 그 신호가 곧 외부의 세계/사물 자체는 아니다. 가령 우리 눈이 빨간 사과를 볼 때, 사과 자체가 빨간 것이 아니다. 태양의 광선 중 사과에 부딪혀 튕겨나온 빨간색 광선만 우리 눈에 도달했기 때문에 사과가 빨갛게 보일 뿐이다. 그러니까 사과의 빨간색은 사과 자체의 색이 아니라 실은 태양광의 색이다. 그런데 우리 눈은 그 필터링된 광선 신호를 받아들여서 사과 자체가 빨갛다고 인식한다. 이렇게 신호를 수용하여 직관을 형성하는 능력이 감성(능력)이다. 그런데 이때 사과는 우리의 인식 밖에 존재하며 우리는 사과 그 자체를 영원히 알 수 없다. 이를 '물자체(Ding An Sich)'라고 한다. 인간은 사물을 그 자체로 알 수 없다. 다만 우리 감각 기관에 도달한 신호를 통해서만 사물을 알 수 있을 뿐이다. 물자체는 인간 인식 능력으로 도달할 수 없는 인간 인식의 절대적 한계를 가리키는 개념이라고 할 수 있다.
감성 형식
칸트도 흄과 같이 외부의 세계/사물을 감각 기관으로 받아들인다고 말했다. 그런데 칸트는 흄과 달리 '감성 형식'이라는 개념을 제시한다. 인간이 외부의 사물/세계를 감각 기관으로 받아들일 때, 무작정 받아들이는 것이 아니라 '시간'과 '공간'이라는 형식을 통해서 받아들인다는 것이다. 가령, 뉴튼이 사과 나무 밑에서 사과를 바라본다고 해보자. 이때 뉴튼이 사과라는 사물을 볼 때, 그는 자신이 보는 사과와 나와 어느 정도로 떨어져 있는지라는 공간적인 형식과 사과를 딴 지 시간이 얼마나 흘렀는지, 그래서 사과가 얼마나 신선한지라는 시간적인 형식으로 사과를 바라본다는 것이다. 이렇게 생각해 보면 어떨까 싶다. 300년 사는 거북이가 사과가 썩어가는 과정을 느끼는 것과 하루살이가 사과가 썩어가는 과정을 느끼는 것이 다르지 않을까.
그렇다면 AI는 시간을 어떻게 인식할까? AI는 일단 인간보다 훨씬 더 짧은 시간을 인식할 수 있다. 인간이 1초라고 느끼는 시간 동안 AI는 무수히 많은 일들을 할 수 있다. AI에게 '하루가 천년 같고, 천년이 하루 같을 것'이다. AI의 감성 형시(?)에서 시간은 human speed가 아니라 machine speed가 될 것이기 때문에 근본적으로 AI는 인간과 다른 방식의 인식을 하게 될 것이다. 또한 AI는 시간을 인간처럼 연속적이고, 미래를 향해 전진하는 흐름으로 이해한다고 보기 어렵다. 나는 이것이 '죽음'이 만들어 내는 서사의 효과라고 생각한다. 하지만 AI는 (개체의 완전하고, 항구적이고, 우주적 종말로서의) 죽음을 경험하기 어렵기 때문에 시간의 전진을 경험하기 어려울 것이라고 생각한다.
유사하게 AI는 공간에 대해서도 인간과 같은 크다, 작다, 좁다, 넓다, 멀다, 가깝다.. 이런 느낌을 가지지 않을 것이다. 크다, 작다, 좁다, 넓다.. 등의 인식에서 기준은 인간 자신의 신체 사이즈이다. 그리고 이러한 신체 사이즈는 모든 인간(특히 성인)의 평균적 신체 사이즈가 기준이 된다. 그러나 AI에게는 이러한 평균적 신체 사이즈라는 것이 존재할 수 없다. 챗봇과 같은 다수의 AI들은 아예 신체가 존재하지 않으며, 피지컬 AI라고 하더라도 신체 사이즈는 무한히 가변적이다. 나노봇에서 초거대 기계까지..
즉 AI는 오성 형식인 시간과 공간을 인간과 전혀 다르게 인식할 것이기 때문에 오성으로 구성하는 지식도 매우 다를 것이다. 그리고 여기서 AI와 인간은 애초부터 같은 사고를 할 수 없음을 짐작할 수 있다.
칸트에 의하면 인간이 감각 기관으로 대상을 지각할 때, 100% 순수하게 투명한 방식으로 수용'만'하는 것이 아니다. 시간과 공간이라는 형식을 통해서 수용한다. 이것은 경험을 통해서 터득한 것이 아니다. 태어나면서부터 그렇게 지각하고, 경험하도록 몸에 새겨져 있다. 그래서 '감성 형식은 선험적!'이라고 했다. 이러한 칸트의 주장은 대단히 중요한 의미가 있는데, 인간의 감각 기관은 그저 무조건 수동적으로 외부 세계와 사물을 받아들이기만 하는 수용체가 아니라 외부 세계와 사물을 인식할 때에도 자기 나름의 방식으로 인식한다는 것이다. 즉 인식 주체가 인식 방식에 직접적으로 관여한다. 여기서 흄이 무시한 인식 주체라는 개념도 되살아난다. 흄은 주체를 관념들의 다발쯤으로 이해했다. 그러나 칸트는 인식 행위에 적극적으로 관여하는 인식 주체를 상정한다. 한 마디로 칸트는 흄으로부터 주체를 구해냈다.
이것은 현대 생물학의 발견과 부합한다. 인간의 눈은 외부 대상을 바라볼 때, 바라보는 방식을 적극적으로 발휘한다. 가령 너무 어두우면 눈의 조리개가 넓어져서 밝게 인식하고 너무 밝으면 눈의 조리개를 좁혀서 좀 어둡게 인식하려 한다. 그러니까 인간의 감각 기관은 대상을 바라볼 때 무조건적으로 수용하는 것이 아니라 적극적으로 그 인식에 개입한다는 사실을 칸트가 주장했다. 이러한 주장은 인식에 대상에 무조건 맞추어야 하는 것이 아니라 도리어 대상이 인식에 맞추어야 한다고 주장한 셈인데, 이처럼 인간 인식의 적극적 역할을 주장한 것은 코페르니쿠스적 전환이라고 할 정도로 파격적이었다.
오성의 범주
자, 이렇게 인식 주체가 '시간'과 '공간'이라는 감성 형식을 통해서 사물로부터 오는 신호를 지각함으로써 사물을 인식할 수 있게 되었다. 그런데 여기서 다시 한 번 칸트는 인식 주체의 능동적이고 적극적인 인식 행위를 상정한다. 그것은 바로 '오성의 범주'이다. 시간과 공간이라는 감성 형식으로 사물로부터 오는 신호를 지각했을 때, 수없이 많은 인식의 1차 자료들이 뇌 속에 쏟아져 들어올 것이다. 그런데 인간은 그러한 1차 자료들을 무조건 다 쓸어담는 것이 아니다. 그러한 1차 자료들을 다양한 방식으로 배열하고, 배치한 다음 그것을 하나의 지식으로 파악한다. 물론 이것이 오성이 하는 작용이다. 이때 감각 기관이 수용한 감성의 자료들을 재배치하고, 재배열하는 것을 오성의 범주라고 한다.
오성의 범주는 인간이 사물을 인식하는 틀거리(framework)라고 할 수 있다. 오성의 범주는 전부 12가지가 있다. 12가지 범주는 크게 4가지(양, 질, 관계, 양태)로 묶을 수 있다. 4가지 큰 범주 하에 각각 3가지씩 하위 범주가 존재하여 총 12가지 범주인 것이다.
1) 양(Quantity): 단일성(Unity), 복수성(Plurality), 전체성(Totality)
2) 질(Quality): 실재성(Reality), 부정성(Negation), 제한성(Limitation)
3) 관계(Relation): 실체와 속성(Inherence and Subsistence), 원인과 결과(Causality and Dependence), 상호작용(Community)
4) 양태(Modality): 가능성-불가능성(Possibility-Impossibility), 존재-부존재(Existence-Nonexistence), 필연성-우연성(Necessity-Contingency)
인과율
12개 범주 중 주목할 것은 '원인과 결과'의 범주이다. 원인과 결과의 범주는 사물을 인식할 때, 인과율을 적용할 수 있게 한다. 그러니까 연기를 보면 원인으로서 '불'과 결과로서 '산불'을 추론할 수 있게 한다. 그런데 흄은 인과율이란 애초에 존재하지 않는다고 했다. 그것은 자연 세계에도 존재하지 않으며, 심지어 뇌 속에도 존재하지 않는다. 다만 인과율이 존재한다고 착각할 뿐이다. 왜냐? 오랫동안 그러한 경험을 해왔던 습관 때문이라는 것이다.
그러나 칸트는 인과율은 존재한다고 했다. 어디에 존재할까? 칸트도 흄과 비슷하게 인과율은 자연 세계에 존재하는 법칙이 아니라고 했다. 그렇다고 인과율은 경험의 축적이 만들어 낸 사고의 습관도 아니다. 그것은 감각된 인식의 1차 자료들을 오성이 재배열하는 오성의 작용이다. 이 인과율은 인간의 사고 능력 안에 존재한다. 언제부터? 애초에... 태어날 때부터 인간은 그러한 사고 능력을 가진 채로 태어났다. 시간과 공간이라는 감성 형식이 선험적인 것처럼 인과율과 같은 12개의 오성 범주도 선험적이다. 그것은 배우거나 경험한 것이 아니다. 날 때부터 선험적으로 인간의 오성 능력 안에 새겨져 있었다. 사실 칸트가 선험적이라는 말을 썼을 때, 선천적 생물학적 조건이라는 의미로 썼다기 보다는 일종의 논리적 전제 조건이라는 의미로 썼다고 보는 것이 더 맞을 것이다.
그러니까 인과율은 자연 세계로부터 인간이 터득한 지식이 아니라 인간이 자연 세계를 바라보는 방식인 것이다. 즉 '불이 난다'는 사건과 '연기가 난다'라는 사건을 인간이 '인과율'이라는 오성의 범주로 바라본다는 것이다. 음... 이렇게 설명할 수 있을까. 인간은 인과율이라는 안경으로 자연을 관찰하여 해석한다라고. 그래서 우리가 인과율이 마치 자연 세계에 존재하는 것처럼 생각하지만 실은 인간의 오성이 인과율을 자연에 투사하여 관찰하고 해석해서 지식을 구성하는 것이다. 이 때문에 칸트는 인간을 자연의 입법자!라고 선언했던 것이다. 그런데 애초부터 인간은 그런 식으로 사물을 관찰하고 해석하도록 운명지어졌다. 인간은 그런 존재며, 오성은 그렇게 생겨먹었다.
선험적이라는 말의 의미
인간은 사물을 인식할 때, 시간과 공간이라는 감성의 형식을 통해서, 그리고 오성의 범주로써 인식한다고 했다. 칸트는 감성 형식과 오성 범주를 선험적이라는 말로 설명했다. 선험적이란 선천적이라는 말과 유사하지만 약간 다르다. 선천적이란 생물학적 조건이라는 의미가 강하다. 아마도 진화 생물학자들이 좋아하는 설명 방식일 것이다. 그런데 칸트는 선험적이라는 말을 선천적이라는 의미보다는 '설명 불가능한'이라는 의미로 사용했다. 마치 수학에서 공리처럼 선험적이란 왜 그러는지 명확히 설명은 불가능하지만 본래부터 그런 것으로 전제해야 인식이 가능하다는 의미라고 할 수 있다.
그런데 나는 여기서 반드시 짚고 넘어가야 할 부분이 존재한다고 생각한다. 인간이 사물을 인식한다고 할 때, 이것은 설명할 수 없는 차원, 곧 신비한 불가사의의 영역이 존재한다는 사실이다. 그리고 이것은 흄의 인식론과 큰 차이점이다. 흄은 인간의 인식을 설명가능한 것처럼 생각했다. 그러나 칸트에 따르면 대체 어떻게, 그리고 왜 인간이 인과율이라는 사고 습관을 가지게 되었는지 우리는 모른다. 오성의 범주는 경험의 축적으로 만들어졌다고 할 수 없다. 그렇다고 감성 형식이나 오성 범주를 신의 창조의 증거라는 말을 하자는 것은 아니다. 다만 인간이 세계를 관찰하고, 해석하는 데에는 불가해한 외부적 차원이 존재한다는 사실을 인정해야 한다는 것이다. 결국 인식을 위해서는 감각 기관에 도달된 신호로서 1차 자료도 중요하지만 동시에 그 자료를 취합하여 배열하는 사고의 형식도 중요하다. 이를 칸트는 "내용(1차 자료) 없는 사고(오성 범주)는 공허하고, 개념(오성 범주) 없는 직관(1차 자료)은 맹목적이다"라는 말로 표현했다.
할루시네이션
우리는 이전 글에서 챗GPT가 방대한 데이터의 학습과 어텐션 메커니즘의 활용을 통해서 인간과 대화가 가능한 AI가 만들어졌다는 사실을 살펴본 바 있다. 챗GPT의 초기 모델은 딥러닝 알고리즘을 통한 방대한 문서 데이터를 사저너에 학습하여 만들어진 AI이다. (방대한 문서 데이터를 학습했다고 해서 거대 언어 모델(Large Language Model) AI라고 하는 것이다.) 이때 각 단어들의 학습 데이터를 바탕으로, 특히 어텐션 메커니즘을 통해서 각 단어들 간의 연관성을 확률적으로 계산하여 다음에 올 단어를 예측하게 만들었다. 그런데 희한하게도 이러한 단어 예측 모델이 기가 막히게 인간의 말/글을 이해하고 대화도 하게 된 것이다. AI가 마치 자연어를 구사하는 것 같은 성능을 훌륭하게 발휘했다. 상당히 많은 경우 대화형 AI는 인과율도 꽤 정확히 이해했다. 이러한 초기 AI 모델은 흄의 인식론과 상당한 유비 관계가 있음을 알 수 있다. 왜냐? 먼저 흄이 경험의 축적을 강조한 것은 초기 모델의 방대한 데이터 학습을 통해 구현된 것처럼 보이고, 둘째, 그가 연상을 통한 관념들의 연결을 강조한 것은 트랜스포머의 어텐션 메커니즘과 상당히 유사해 보이기 때문이다.
그러나 종종 이러한 초기 LLM 모델은 심각한 오류를 발생시켰다. 이를 할루시네이션이라고 한다. 할루시네이션이란 대체로 서로 관련이 없는 문장과 단어들도 억지로 연관성을 만들어 버리다 보니 발생하는 현상이다. 그러니까 어느 유저가 '세종대왕'과 '맥북을 던진 사건'을 연결시켜보라고 하니까 초기 AI 모델은 이 두 단어들을 무작정 연관성이 있은 것처럼 소설을 써서 내놓은 것이다. 결국 할루시네이션을 해결하기 위해서는 방대한 데이터의 학습과 어텐션 메커니즘만으로 안 된다는 결론에 이른 것이다. 이는 초기 AI 모델의 한계이자 흄의 인식론의 한계라고 볼 수 있다.
추론 모델
추론 모델은 AI 모델이 방데한 데이터를 학습할 때, 이를 무조건 단어(정확히는 토큰)들의 통계적 확률로만 계산하는 것이 아니라 데이터를 새로운 방식으로 재정렬하도록 만든 AI 모델을 말한다. 그러니까 이는 마치 감각 기관을 통해 지각한 1차 자료들을 오성 범주가 적절한 방식으로 재배열한 것과 상당히 유사하다. 그리고 이때 이 데이터를 재정렬하는 방식이 바로 '추론(reasoning)'이라는 방식이 되었던 것이다. 이는 오성 범주 중 '인과율'과 유사하다고 할 수 있다.
추론 모델에서 특별히 중요한 것은 '생각의 사슬' 곧 Chain of Thought(CoT)이다. 그리고 이것이 o1모델의 핵심 특징이다. o1 모델은 A, B, C라는 논리/사건의 논리적 연관성을 검증하게 만든 모델이다. '불'과 '연기'와 '산불'이라는 개념들의 논리적 선후와 인과관계를 따져보게 한 AI이다. 먼저 '불'이 나고 그 다음 그 결과로 '연기'가 피어 오르고, 나중에는 '산불'이 날 수 있다고 추론하게 만든 것이다. 즉 o1 모델은 학습한 데이터를 바탕으로 답을 내놓기 전에 "A가 발생했으므로 논리적으로 B가 성립하며, 따라서 C라는 결론에 도달해야 한다"는 내부적인 검증 과정을 거치도록 설계한 모델이다. 이것은 마치 칸트의 인식론에서 감각의 1차 자료들을 오성의 12 범주, 그 중에서도 특히 인과율이라는 사고의 틀로서 해석한다고 한 것의 상당히 유사하다.
CoT
생각의 사슬은 그럼 어떻게 구현하는가? 전통적인 LLM AI 모델의 경우, 모든 단어들(정확히는 토큰들)의 확률적 통계를 근거로 다음 단어를 예측하는 방식으로 작동되었다. 그러다 그러다 보니 할루시네이션이 생겨나게 되었다. 이 문제를 바로잡기 위해서 '세종대왕'과 '맥북을 던진 사건'은 관련이 없다고 판단하도록 만들어 주는 알고리즘이 필요했다. 이 알고리즘이 CoT(Chain of Thout), 생각의 사슬 알고리즘이다. 그럼 '생각의 사슬'(이하 CoT) 알고리즘은 어떻게 만들었을까?
AI가 데이터를 학습해서 수많은 단어, 문장들의 연관관계를 수학적으로 계산할 수 있을 것이다. 이러한 수학적 계산으로 다음 단어를 예측해서 문장을 만들게 하는 것이 대화형 AI의 기본 원리인데, 이때 각 토큰들, 문장들의 무수히 많은 연관관계들이 존재할 수 있을 것이다. 마치 거대한 나뭇가지처럼 무수히 다양한 단어와 문장들의 연관 관계들이 있을 것인데, 이러한 거대한 논리적 트리들 중 어떤 가지는 '세종대왕'과 '맥북'을 연결하는 가지도 있을 수 있을 것이다. 그런데 AI에게 무수히 많은 Q & A를 통해서 '세종대왕'과 '맥북'을 연결시킬 경우 이것은 잘못된 것이라고 알려주는 것이다.
그러니까 AI와의 수많은 Q & A를 하는 중에 논리적으로 연관성이 있는 답을 할 경우 보상을 주고, 논리적으로 오류가 있는 답을 내놓을 경우 보상을 주지 않는 학습을 따로 시키는 것이다. 처음에는 이러한 학습을 사람이 관리하고 보상을 주었다. 그런데 점차 보상을 주는 것도 AI에게 시키는 방식을 찾아냈다. 그러니까 이렇게 무수히 많은 Q & A를 통해서 시간적 선후나 논리적 인과의 오류를 범할 경우 보상을 주지 않지만 반대로 정확히 답을 할 경우 보상을 주었다. 그러자 점차 AI가 시간적 선후나 논리적 인과 관계를 알아보기 시작했다. 이렇게 해서 추론 모델 o1이 탄생하게 되었던 것이다. 물론 여전히 할루시네이션 현상이 존재하기는 하지만 확실히 현저하게 빈도를 낮춘 것은 큰 혁신이다.
이때 이러한 AI의 추론 기능은 과거 딥러인 알고리즘을 통한 데이터 학습과는 다른 방식의 설비가 필요하다는 사실이 밝혀졌다. 과거 데이터 학습은 방대한 데이터의 빠른 연산이 무엇보다 중요했다. 그래서 엔비디아 GPU칩이 그토록 잘 팔렸던 것이다. 그러나 추론 기능은 데이터를 빨리 불러들이는 D-램 메모리의 성능이 더 중요해졌다. 삼성전자와 SK하이닉스의 주가가 날아가기 시작한 것도 이 때문이다.
여기서 혹자는 이러한 CoT를 위한 학습도 어찌 보면 흄이 말한 대로 경험의 축적이라고 할 수 있다고 주장할지 모르겠다. 데이터의 무한 학습이라는 점만 보자면 후험적이며, 흄의 경험의 축적과과 유사하다고 할 수 있을지 모른다. 그러나 CoT는 데이터의 학습이 아니라 그 데이터의 연관 관계를 따로 2차로 학습시키는 알고리즘이다. 이때의 학습은 시간적 선후나 논리적 인과 관계, 논리적 일관성 등만을 학습하는 것이다. 즉 AI를 서비스하기 전에 먼저 추론 능력을 추가해 주는 과정이라고 할 수 있다. 그러니까 이것은 마치 인간에게 선험적으로 오성의 범주가 내장되어 있는 것과 유사하게 AI에게 마차 '선험적인 듯' 추론할 수 있도록 인과관계의 추론 인식 근육을 강화시켜주는 학습이라고 할 수 있는 것이다. 이를 통해서 AI가 추론적 사고를 할 수 있는 틀을 만들어준 것이다. 인간에게는 선험적으로 존재하는 오성 범주를 AI에게는 CoT 학습을 통해서 구현했다고 말할 수 있는 것이다. AI는 이제 데이터를 학습하고, 이를 근거로 답을 할 때 '추론'이라는 사고의 틀 안에서 할 수 있게 된 것이다. 그리고 이를 통해서 'A' Because 'B'에서 'A'는 '연기', 'B'는 '불'은 맞지만 'A'는 '불', 'B'는 '연기'는 틀렸음을 인식하게 만들 수 있는 것이다.
여기서 우리는 칸트의 인식론이 흄의 인식론에 대한 비교 우위를 가졌음을 확인할 수 있다. 흄은 인간이 수동적으로 인식하는 것을 강조했지만 칸트는 인간의 인식 활동 자체가 능동적인 활동임을 강조했다. 그런데 CoT는 바로 그러한 칸트의 인식에 보다 가까워졌다고 할 수 있다.
여기서 진짜로 나의 관심을 끈 대목은 왜 추론 능력은 창발되지 않았는가 하는 것이다. AI의 딥러닝 알고리즘과 같은 아키텍처는 오래 전에 구상되고 제안되었다. 그런데 제프리 힌턴 교수가 이것을 이미지 인식 AI에 성공적으로 사용하면서 그 진가가 나타나기 시작했다. 그런데 그는 완전히 새로운 접근을 했다기 보다는 이미 그 전부터 제안되었던 아키텍처를 사용했다. 놀랍게도 그 이전에는 이미지 인식에서 그다지 큰 성능을 발휘하지 못하던 AI가 갑자기 뛰어난 성능을 발휘하게 되었다. 그것은 바로 컴퓨팅 파워(연산 속도)와 파라미터의 숫자, 그리 데이터의 양을 극단적으로 늘려서 가능하게 되었다. 단지 규모(scale)를 늘린 것이 힌턴 교수가 한 일이었다. 그런데 규모가 어느 임계점이 넘어가지 AI가 그 이전에는 제대로 하지 못하던 일을 갑자기 잘 하게 된 것이다. 이를 소위 스케일링의 법칙(the law of scaleing, 규모의 법칙)이라고 한다. 그리고 이렇게 AI의 능력이 갑작스럽게 개선되는 현상을 '창발성'이라고 한다. 지금도 많은 학자들은 왜 이러한 창발성이 나타나는지 정확히 이해하지 못하고 있다.
그런데 내가 주목한 바는 왜 그러한 스케일링의 법칙에 따라 창발적으로 개선된 AI의 성능에 추론 기능이 존재하지 않았느냐는 것이다. 물론 미약한 수준에서 추론 능력이 발견되기는 했다. 하지만 그것은 매우 제한적이고 빈약한 수준에 불과했을 뿐이다. 결국 AI의 할루시네이션을 잡기 위해서는 새로운 아키텍처가 필요하다는 사실이 밝혀졌다. 그러니까 추론 능력은 AI가 스스로 학습해서 찾아내거나 구성한 능력이 아니라 인간 개발자가 의도적으로 자신의 사고 능력을 모방하도록 아키텍처를 설계해서 AI에게 부여한 것이다. 더욱 흥미로운 사실은 AI가 추론 능력을 강화하면 할 수록 또 다른 형태의 할루시네이션이 증가한다는 것이다. 이것은 첫째, 개발자가 설계한 추론 알고리즘이 여전히 많은 한계를 가지며, 둘째, AI는 여전히 인간처럼 완전히 추론을 이해한 것이 아니며, 셋째, 인간에게 존재하는 추론 능력은 신비할 정도로 대단히 기이한 능력이라는 사실을 보여준다. 컴퓨팅 파워, 파라미터의 숫자, 데이터의 양을 아무리 많이 늘려도 결국 토큰의 통계적 패턴을 정교화할 수 있을지는 몰라도 추론 능력의 개선이나 메타 인지에 해당하는 자기 개선은 스스로 이루어지지 않았다. 스케일링의 법칙이 신기하기는 하지만 만능 열쇠는 아니라는 사실이 밝혀졌다.
그리고 나는 여기서 인간 사고의 독특성을 다시 한 번 확인하는 계기가 되었다고 생각한다. 인간의 추론 기능은 단지 흄이 말하듯 그렇게 방대한 경험의 축적만으로 저절로 생겨난 것이 아니라는 사실이다. o1이라는 추론 모델 아키텍처를 새롭게 설계해야 했다는 사실이 알려주는 것은 인간의 사고 안에 내장되어 있는 오성의 범주라는 자질과 능력은 진화의 산물이라고 보기 어렵다는 사실이다. 어떻게 그것이 인간의 두뇌 안에 장착되었는지 알 수는 없으나 그것은 밖에서부터 인간 두되 안에 선물처럼 수여되었다는 것이다.
여기서 내가 지적하고 싶은 것은 AI의 발전에 대해서 설명하는 많은 사람들의 언어에는 '진화 모델'을 가정하고 있다는 것이다. 그래서 마치 AI가 진화해서 인간 능력을 뛰어넘고, 나중에는 인간을 지배하게 되는 일이 저절로 이루어질 것처럼 공포를 조장한다는 것이다. 물론 현재 AI가 부분적으로 재귀적 자기 개선 능력을 보이고 있다는 점에 대해서 각별히 주의해야 한다는 점을 인정하면서도 우리의 언어 자체가 사안을 명료하게 인식하지 못하도록 방해하는 것은 아닌가 하고 문제제기를 하는 것이다. 즉 AI 발전을 '진화 모델'이라는 언어로 설명할 때, AI의 발전은 저항할 수 없이 숙명적인 것처럼 간주될 수 있다. 또한 AI와 인간 사고의 근원적 차이를 제대로 조망하지 못하고 AI와 인간 사고를 지나치게 동일한 것처럼 착각하게 한다는 것 또한 AI에 대한 건강한 관점을 형성하기 어렵게 만단다는 것이다. 그래서 보다 책임적으로 AI의 발전에 대해서 토론할 수 있으리라는 것이다.
그래서 나는 AI의 발전에 대해서 설명할 때 '설계 모델'이라는 언어로 해야 하지 않는가 라는 생각을 하게 된다. 즉 개발자들이 AI에게 인간 사고 능력을 모방하도록 설계해서 특정 기능을 부여한 것이지 AI가 저절로 진화한 것은 아니라는 것이다. 이 사실을 분명히 알아야 AI에게 특정 기능을 설계해서 부여할 것인가, 말 것인가를 토론할 여지가 생기지 않겠는가.
자, 이제 칸트로 되돌아와서 글을 마치도록 하자. 흄의 인식론의 상당 부분은 초기 llm모델을 통해서 상당 수준에서 작동된다는 사실이 밝혀졌다. 경험의 축적과 관념들 간의 연결은 딥러닝 알고리즘과 어텐션 메커니즘을 통해서 구현되었다. 그러나 흄의 인식론의 한계는 초기 llm 모델의 한계를 통해서 드러났다. 그런데 흄의 인식론의 한계를 극복한 이가 바로 임마누엘 칸트이다. 그는 인간 인식이 경험의 축적만으로는 안 되고 선험적인 감성 형식과 오성 범주를 고려해야 한다고 주장했다. 그리고 이것은 추론 능력을 강화한 o1 모델을 통해서 보다 진실에 가깝다는 사실이 입증되었다.
그러나 여기서 나는 칸트의 한계는 지금의 AI의 한계와 깊은 관계가 있다고 생각하게 되었다. 그리고 내가 볼 때, 칸트의 한계는 그가 인간 인식에서 '가치저 인식'이라는 차원을 현저하게 축소했다는 데 있다. 이는 지금의 AI는 바로 이러한 '가치적 인식 능력'의 현저한 결핍을 내장하고 있다고 본다. 진짜 AI가 인간과 공존하기 위해서, 그리고 AI가 보다 더 발전하기 위해서는 칸트의 한계를 분석하고 이를 새로운 방식의 아키텍처로 설계할 필요가 있지 않을까 생각해 본다.