AI와 이론, 귀납법과 연역법

by 정진

AI 대세가 확인된 노벨상


2024년에는 AI 연구자 다수가 노벨상을 수상했다. 일례로 AI 연구자이자 딥마인드의 CEO인 데미스 허사비스(Demis Hassabis)가 노벨 화학상을 받았다. 어떻게 보면 분야를 뛰어넘은 수상으로 노벨상 정도의 레벨에서도 AI를 이용한 연구가 대세임을 보여주는 사건인 듯 하다. 언어학에서도 이를 무시할 수 없다.


나의 학부 모교인 한국외대의 '영어학과'는 'ELLT(English Linguistics & Language Technology)학과'로 명칭을 바꾸고 교육과정을 개편했다. 언어 공학/기술이 학과명에 직접 등장했고 공학으로 학위를 마친 교수진도 대거 보유하게 되었다. 개인적으로 이 학과로 석사과정 진학을 고민하기도 했지만 나의 수학/프로그래밍 실력 부족과 이론적 접근에 대한 아쉬움으로 지원하지 않은 곳이기도 하다. (참고로 대학원은 아직 영어학과의 이름을 쓴다.)


ELLT학과는 (사실 영어학과 시절에도 그랬지만) 외대 내부에서도 상당히 유망하고 인기있는 학과이다. 최근에는 자연어처리(NLP)에 대한 전문성, 공학사 학위 수여 등을 어필 포인트로 하여 수험생들에게도 인지도가 높은 모양이다. 이를 하나의 사례로 보면 어학계에서 언어를 중심으로 컴퓨터공학적인 접근법을 대거 채택하여 공학적 솔루션을 만드는데 집중하는게 대세라고 생각할 수 있겠다.


이런 언어공학, 계량 및 전산언어학의 대두는 사실 매우 유망해 보인다. 언어 생활은 일상생활의 가장 큰 부분 중 하나이며 공학적 발전을 여기에 적용하지 못할 이유는 없다. 졸업생들의 취업에도, 실제 생활 개선에도 필요한 부분이다. 그리고 모교의 접근법이 인기를 얻어 명성이 올라간다면 개인적으로도 나쁠 것은 전혀 없다. 하지만 지금 생성문법을 공부하는 입장에서 약간 오묘한 기분이 들기도 한다. 다음과 같은 이유에서이다.



귀납법 vs 연역법


언어를 그 기능(function)에 따라 설명하려고 하는 접근법은 기능주의(functionalism)라 한다. 언어의 기능적인 측면을 하나하나 살펴보고 이를 종합하여 언어의 본질을 밝혀내려는 접근이다. 하지만 생물 언어학인 생성문법의 입장에서는 애초에 목적을 상정하고 개발, 제작된 도구와 다르게 언어는 자연 발생했다는 점을 고려하여 기능 위주의 접근에 보통 동의하지 않는다. 생명의 진화의 결과로 어떠한 기능이 나타날 수는 있지만 그렇다고 진화가 목적적으로 진행된다고 바로 결론지을 수 없기 때문이다.


따라서 생성문법은 언어를 하나의 인지체계라 보고 (물론 기능주의에서도 다루는) 실제 기능을 가능하게 하는 본질적 원리를 규명하려 한다. 즉, 언어 현상 자체가 아니라 현상을 가능하게 하는 그 원리와 기제에 집중한다.


그렇다면 개별 언어의 언어 현상은 중요하지 않은가? 그렇지 않다. 생성문법은 연역적(deductive) 접근을 통해 언어의 모델을 구성하는데, 여기에 언어 현상은 해당 모델의 타당성을 검증할 수 있는 중요한 임상적 증거로 작용한다. 여기서 모델(모형)이란 이론(theory)을 말하는데 이론은 현재 나타나는 현상에 대한 설명은 물론 당장 주어지지 않은 데이터에 대한 타당한 예측 또한 담고 있다. 촘스키와 촘스키 계열의 언어학자들은 언어학의 이러한 모델을 물리학 모델과 유사하다 말하곤 한다. 소립자에 대한 물리학 이론이 관측된 적 없는 현상을 예측하듯, 적절한 언어학 이론은 어떤 현상을 예측하고 충분히 설명할 수 있어야 한다는 입장이다.


이러한 입장의 대비는 개별 사례를 보고 일반화하는 귀납적(inductive) 접근법과 가설 설정, 모델/모형 구축 이후 설명의 예측을 시도하는 연역적(deductive) 접근법의 대비로 정리할 수 있다. 생성문법에서는 전체 언어 모형의 온전한 원리를 밝히려 노력하며, 이를 개별 언어 현상의 증거를 통해 검증한다. 그러니까 본질적으로 연역적이다. 코퍼스 언어학 등 계량 언어학적 연구는 대다수 귀납적 접근을 사용한다는 측면에서 생성문법의 접근과 아주 다르고 연역법을 지지하는 입장에서 보면 불완전한 측면이 있다. 갑자기 평균에서 아주 벗어나는 사례에 설명 전체가 흔들릴 수 있기 때문이다.


그런데 AI의 성능 향상과 데이터의 양적 폭발은 약간 다른 가능성을 보여준다. 혹시 아주 대량의 데이터를 귀납적으로 처리하면 진실에 가까워지는게 아닐까? 원리적으로는 아닐 것 같다. 하지만 적어도 아주 근사한 예측치를 낸다면 어떻게 될까? 물론 실용적으로는 두 접근법을 대립하는 것으로 볼 필요는 없다고 생각한다. 연역법과 귀납법을 모두 활용해서 진실에 더 가까워 질 수 있을 것이다. 다만 귀납법의 한계를 극복하는 듯 한 인상이 들어 약간 놀라울 뿐이다.

keyword
작가의 이전글아무도 연구 안 할 것 같은 언어현상