자연어처리(NLP)는 왜 어려울까?
지난시간까지 튜링 테스트와 중국어 방 실험을 통해 기계가 생각할 수 있는지 알아보았습니다. 튜링 테스트를 통해 살펴보았듯이 기계는 우리 인간으로 하여금 스스로가 생각할 수 있다고 믿게 만들만큼 교묘하고 정교해졌습니다. 그러나 중국어 방 실험을 통해 살펴본대로 기계는 아직 우리 인간이 세상을 인식하는 것 처럼 오감을 가지고 세계를 경험하거나 이해하지는 못합니다.
그렇다면 사람처럼 의식이나 자아를 가지지 못하는 GPT-4.0를 비롯한 초거대언어모델(LLM)은 어떻게 사람처럼 자연스러운 문장으로 인간과 대화할 수 있는 것일까요? 그 비밀은 자연어처리(NLP) 기술에 있습니다. 인공지능은 데이터와 활용 목적에 따라 이미지 처리(image processing), 시계열 분석(time series analysis), 자연어처리(natural language processing, NLP) 등 다양한 분야로 나뉩니다. 그중에서도 자연어처리는 사람의 말과 완전히 다른 방식으로 세상을 바라보는 컴퓨터가 사람의 언어를 보다 잘 이해하고 생성해내기 위한 방법들을 연구하는 인공지능의 한 분야라고 할 수 있습니다.
자연어처리라는 분야 자체가 생소하게 느껴지시는 분들도 많을 겁니다. 2010년대 중반 딥러닝(deep learning) 기술의 발전으로 인공지능 분야의 해빙기가 찾아왔을 때에도, 2016년 알파고와 이세돌의 세기의 대결이 회자되며 강화학습(reinforcement learning)이 주목받았을 때에도 자연어처리 분야는 사람들을 놀라게 할만한 뚜렷한 성과를 내지 못하고 있었기 때문이죠.
2022년이 되어서야 챗GPT의 등장으로 자연어처리라는 분야가 세상에 알려지게 되었습니다. 이처럼 성과가 늦었던 이유는 숫자나 이미지와 같이 다양한 데이터를 다루는 인공지능의 여러 영역 중에서도 인간의 언어를 다루는 자연어처리가 유독 어렵기 때문입니다.
자연어처리는 왜 어려울까요? 흔히 알려진 사실은 우리 인간의 언어가 깔끔하게 정리된 수치형 정형 데이터가 아니라 수많은 예외로 가득한 패턴화 하기 어려운 비정형 데이터(unstructured data)이기 때문이라는 것입니다. 어떤 데이터든지 패턴화하고 정해진 규칙에 따라 받아들이는데 익숙한 컴퓨터의 입장에서 인간의 언어는 배우기 정말 까다롭게 느껴질 것입니다. 이처럼 인간의 언어는 애매모호합니다.
그러나 저는 자연어처리가 진짜 어려운 이유에 대해 한번쯤깊히 생각해볼 필요가 있다고 생각합니다. 난해한 이미지까지 감쪽같히 이해하고 생성해내는 인공지능이 인간의 언어를 처리하기 힘들어하는 이유가 단순히 모호함과 복잡한 패턴 때문일까요? 저는 인공지능 언어습득의 본질에 대해 우리보다 앞서 인간 언어의 난해함에 대해 깊게 생각했던 언어학자와 철학자들의 생각에서 그 답의 실마리를 찾을 수 있었습니다. 변형생성문법 이론의 창시자이자 21세기 최고의 언어학자중 한명으로 꼽히는 노암 촘스키(Noam Chomsky), 그리고 행동주의를 주장했던 스키너(Skinner) 등 여러 언어학자 및 철학자들의 상반된 주장을 살펴보며 인간의 언어가 얼마나 독특하고 기괴한지 알아보았습니다.
생각하는 기계에서 말하는 기계로
언어 철학자 비트겐슈타인은 “내 언어의 한계는 내 세계의 한계다.”라고 말했습니다. 인간은 스스로 언어화 할 수 있는 만큼 세상을 인식할 수 있다는 것이지요. 우리는 ‘바다’라는 단어를 통해 우리 눈앞에 펼쳐진 풍경을 개념화하고 인식합니다. ‘슬픔’이나 ‘기쁨’과 같은 단어도 마찬가지입니다. 언어가 없다면 우리는 느껴지는 감정을 정리하고 표현할 수 없는 것은 물론이고 제대로 인식하는 것조차 어려울 것입니다. 즉 인간에게 언어를 구사한다는 사실은 곧 생각한다는 사실을 의미하기도 합니다.
한편 “언어는 생각의 감옥이다.”라고 주장하는 사람들도 있습니다. 한정된 언어는 우리의 무한한 사고를 제한해버릴 수도 있다는 것이지요. 우리는 도저히 말로 표현하지 못하는 감정을 느끼기도 합니다. 세계 여러 나라의 언어에는 문화권에 따라 어느 곳에서는 전혀 존재하지 않는 개념을 가리키는 단어가 또 다른 곳에서는 널리 쓰이기도 합니다. 이처럼 언어는 우리의 무한한 사고를 다 담아내지 못합니다.
이처럼 인간에게 있어서 언어는 사고활동과 뗄래야 뗄 수 없는 중요하고 밀접한 관계에 있습니다. 우리는 앞장의 튜링 테스트와 중국어 방 사고실험을 통해 기계가 생각할 수 있는 가능성이 충분히 존재한다는 사실을 살펴보았습니다. 다시 한번 앨런 튜링의 말처럼 기계가 생각할 수 있다고 가정한다면, 기계가 언어를 구사하는 것도 무리는 아닐 것입니다.
언어습득은 생각하는 기계가 말하는 기계로 거듭나기 위해서 꼭 통과해야 할 관문입니다. 하지만 인간의 언어와 컴퓨터는 상극입니다. 앞서 살펴보았던 것처럼 인간 언어는 불완전하고 규칙적이지 않아서 모든 것에서 패턴과 규칙을 찾아내고자 하는 컴퓨터에게 인간의 언어를 배우는 것은 매우 어려운 일입니다. 그런데 인간의 언어속에서 패턴과 규칙을 찾아내는 일은 컴퓨터 뿐만 아니라 인간이 아닌 모든 존재에게 어려운 것인지도 모릅니다. 어쩌면 언어는 인간만 배우고 구사할 수 있는 것일지도 모른다고 주장하는 사람이 있습니다.
이해를 돕기위해 언어 습득의 주체를 잠시 컴퓨터에서 동물로 바꾸어 혹성탈출의 세계로 떠나보겠습니다. 동물 역시 사람의 언어를 배우는 것이 어려운 것은 매한가지 입니다. 아무리 똑똑한 영장류 동물이라도 사람처럼 문장을 사용해 의사소통을 하지는 못합니다. 인간의 언어가 너무 난해해서 일까요? 인간의 언어는 진화의 산물이며 오로지 인간만이 구사할 수 있다고 주장했던 사람이 있습니다. 바로 현대 언어학의 아버지로 불리는 노엄 촘스키(Noam Chomsky)입니다.