폐기원고 시리즈
촘스키는 현대 언어학의 아버지로 불리는 위대한 학자입니다. 그 영향력이 어느 정도냐면, 플라톤이나 소크라테스를 포함하여 인류 역사상 모든 학자들을 통산하여도 촘스키의 피인용 수[1]가 상위 10위 안에 들어갈 것으로 추정된다고 하네요. 즉, 촘스키는 살아있는 사람 중에서 가장 강력한 학자입니다. 그만큼 촘스키가 언어학계 행사하는 영향력 또한 막강합니다.
그런데 GPT를 비롯한 거대 언어 모델(Large Language Model, LLM)은 촘스키의 주장을 뿌리부터 흔드는 반례로 작용합니다.
예를 들면, 촘스키는 <언어 습득 이론>에서 인간의 유전자에는 언어를 습득하는 독특한 기능이 숨어 있으며, 이를 관장하는 뇌 영역이 존재한다고 주장합니다. 또한 인간의 뇌 속에서는 문법의 보편적인 설계도가 들어 있기 때문에 외부로부터 언어와 관련된 자극을 적게 입력받아도 언어를 습득할 수 있다고 주장합니다.
반면 거대 언어 모델은 베이즈 확률론(Bayesian Probability)을 기반으로 언어를 습득합니다. GPT를 비롯한 딥러닝 기반 인공지능은 문법 체계에 대한 어떠한 정보도 입력받지 않고, 영한사전이나 한영사전 같은 <단어의 의미를 기록한 문서>를 전혀 제공받지 않은 상태에서 언어를 습득합니다. 그러므로 챗GPT의 능력은 촘스키의 이론으로는 설명할 수 없습니다. 따라서, 촘스키의 이론이 맞다면 챗GPT는 세상에 존재할 수 없어야 합니다.
그래서일까요? 촘스키는 여러 차례 언론사와의 인터뷰와 기고를 통해 챗GPT를 사이비 과학이라며 맹렬하게 비난하고 있습니다. 촘스키의 주장은 다음과 같습니다.
(1) 챗GPT는 첨단기술 표절 기계이다
(2) 인공지능과 달리 인간 뇌는 창조성, 정교성, 복잡성을 갖고 있다
(3) 챗GPT와 달리 인간은 놀라울 정도로 적은 정보로도 작동한다
(4) 챗GPT는 언어, 인지, 인간의 이해와 관련해 아무런 가치가 없다
언어학 대가의 입장이므로 존중해 드리는 것이 바람직하겠으나, 잠시만 생각해 봐도 반박할 수 있는 논리가 무궁무진합니다.
(1)의 경우, 결국 표절은 사람이 하는 것이지 도구가 문제가 아니라는 점으로 반박할 수 있겠습니다. 예를 들면, 저자의 1인인 병현은 불과 2주 전 중국의 연구소와 대학들로부터 논문을 표절당했습니다. 이들은 원본 논문의 그림들을 교묘하게 훔쳐 가 약간만 수정하여 제출하였으며, 심지어 병현의 논문에 수록된 여러 문장을 그대로 복사하여 수록하기까지 했습니다.
이번 표절 과정에서는 챗GPT가 전혀 사용되지 않았습니다. 인공지능이 없어도 표절할 사람은 결국 어떤 식으로든 표절을 합니다. 차라리 챗GPT의 보급과 발맞추어 표절을 자동으로 잡아주는 AI기술이 보급될 수 있다면 오히려 표절에 대한 우려는 줄어들지도 모릅니다.
(2)의 경우, 정교성과 복잡성은 알파고 선에서 반박할 수 있지 않을까요? 아울러 인지뇌과학에서는 뇌의 작동원리를 베이즈 확률 계산기로 해설하고 있습니다. 각각의 뇌세포들이 하는 역할은 베이즈 확률 계산이며, 이들이 구조적으로 섬세하게 만나면서 놀라운 인지능력을 갖게 된다고요.
화가들도 다른 작품들을 공부하며 표현 기법을 익히고, 이를 통하여 스스로의 사상을 표현해낸다는 점을 생각해 보면 대량의 이미지로부터 표현의 패턴을 분석해 그림을 그려내는 AI의 작품 생성 과정과 그 원리가 일정부분 유사하다고 볼 수 있을 것입니다. 이때 창조성은 패턴의 재조합 과정과 예측 오류(prediction error) 등으로 설명할 수 있습니다. 예측 오류가 창조성의 원인이 될 수 있는 이유는, 통계적으로는 실수에 가까울 수 있는 새로운 판단이 현실 세계에서는 유용하게 작동할 수도 있기 때문입니다.
(3)의 경우, 인간이 적은 정보로 작동한다는 전제 자체가 잘못된 것일 수도 있겠습니다. 출생 직후부터 인간은 온 몸으로 다양한 정보를 습득하고 받아들이며 성장합니다. 자유자재로 언어를 구사할 수 있을 정도로 성장한 어린이가, 과연 살면서 지금까지 받아들인 정보의 양이 적다고 할 수 있을까요?
게다가 챗GPT의 근간이 된 GPT는 한 번 언어구조를 습득한 뒤에는 추가로 데이터를 학습하지 않고서도 다양한 업무를 잘 수행할 수 있습니다. 이를 제로 샷 러닝(zero shot learning)[2]이라고 부릅니다. 극소량의 데이터를 학습하여 작업 수행 역량을 확보하는 기법은 퓨 샷 러닝(few-shot learning)[3]이라고 부르고요. 제로 샷 러닝이나 퓨 샷 러닝은 모두 GPT의 특장점이기도 한데요, 어쩌면 인간보다도 더 적은 정보로도 AI가 제대로 작동할 수 있음을 보여 주는 사례일지도 모릅니다.
(4)의 경우, 이 책의 존재 자체가 반례가 될 것입니다. 이 책에서 소개하는 기법들을 활용한다면 여러분들은 챗GPT의 도움을 받아 영어에 대한 더 깊은 이해를 달성할 수 있으며, 이를 통해 여러분의 인지 능력 자체의 성장과 실력 향상을 경험하게 될 것이니까요.
그렇다고 하여 챗GPT가 현대 언어학과 완전히 대치되는 개념은 아닙니다. 오히려 기능주의 언어학(functional linguistics) 학계의 주장들에는 챗GPT의 등장으로 인하여 더욱 큰 힘이 실리게 되었습니다. 기능주의 언어학은 크게 다음 세 가지를 주장합니다.
(1) 언어의 구조와 형태는 의사소통이라는 기능을 수행하는 데 최적화된 형태로 진화했다
(2) 언어는 다양한 상황과 맥락에 따라 변화하며, 언어 구조와 형태에까지 영향을 끼친다
(3) 언어의 본질은 의미 전달이며, 언어의 형태와 구조는 의미 전달을 위한 도구다
챗GPT는 대규모 언어 데이터로부터 언어의 구조를 습득한 인공지능이며, 챗GPT의 학습 과정에서 별도의 문법적 지식이나 언어의 기능에 대한 교육은 진행되지 않습니다. 하지만 챗GPT는 <언어>라는 시스템을 이해한 것 만으로도 정보 제공, 질의 응답, 요약, 감정 표현 등 다양한 언어적 기능을 수행할 수 있으므로 이는 언어가 기능을 위한 도구라는 (1)을 뒷받침합니다.
아울러 챗GPT는 사용자가 부여한 예시 상황이나 문화적 환경을 고려하여, 상황 변화에 따라 적절한 언어 활용 방식의 변화를 구현해낼 수 있습니다. 여러분께서 다양한 상황을 부여하며 그 상황에 어울리는 문장을 작문하라 요구하면, 그에 맞춰 말투가 계속해서 바뀌는 것을 볼 수 있습니다. 이는 언어의 구조가 맥락과 상황에 따라 변화한다는 (2)를 뒷받침합니다.
마지막으로, (3)은 챗GPT보다 훨씬 오래 전에 발표된 Seq2Seq(2014년)[4] 선에서 증명되었습니다. 딥러닝 언어 모델은 인코더(encoder)라는 구조물을 활용하여 입력받은 문장을 한 개의 벡터[5]로 변환합니다. 이 벡터는 잠재 공간(latent space)이라는 이름의 가상의 공간 속의 한 개의 점입니다.
즉, 인공지능 세계에서 문장 하나가 가진 의미는 점 하나로 변환이 가능하다는 뜻입니다.
Seq2Seq은 영어로 입력받은 문장을 점 하나로 압축하고, 이 점을 디코더(decoder)라는 도구로 해독하면서 원문을 불어로 번역하는 과정을 선보였습니다. 언어란 하나의 고유한 의미를 전달하기 위한 도구일 뿐이라는 주장을 뒷받침하는 결과입니다.
따라서 챗GPT를 언어 학습에 사용하는 것은 촘스키 관점에서는 이해할 수 없는 일이지만, 기능주의적 측면에서는 매우 바람직하고 효율적인 방법이 될 수 있다고 이해할 수 있겠습니다.
이 책에서는 언어의 기능적 역할, 사용 중심적 접근, 상황에 따른 언어 변화, 의미 중심적 접근 등 기능주의적 측면에 입각하여 챗GPT의 활용 방안을 소개합니다. 최근 일부 전자책 등에서 소개하는 방법론들과 달리, 학술적인 근거가 있는 활용 방안을 고민하고 연구해 봤다는 뜻입니다.
언어 습득의 원리에 대한, 증명조차 어려운 가설은 내려놓고 실용적인 관점에서 여러분의 영어 실력을 급격히 성장시켜 드릴 수 있는 방법들을 알려드릴 것입니다.
[1] 다른 학자가 이 학자의 이론을 다른 논문에서 인용한 회수
[2] Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
[3] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
[4] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems 27 (2014).
[5] 여러 개의 숫자를 일렬로 묶어놓은 것
<챗GPT 영어공부법> 책에 넣으려다 너무 본격적이라는 피드백에 빼기로 한 글입니다.