스키너(Skinner)의 행동주의로 알아보는 인공지능의 언어습득
지난 시간에 살펴보았듯 촘스키와 생득주의 언어학자들은 언어습득장치(LAD)와 보편문법 개념을 통해 인간의 선천적인 언어습득 능력을 강조하며 오직 인간만이 언어를 배울 수 있다고 주장했습니다. 반면에 미국의 행동주의 심리학자 스키너(Skinner)로 대표되는 행동주의(behavioralism)를 주장했던 사람들은 언어를 배우는데 있어서 선천적인 능력이 아닌 학습이라는 행위가 언어습득에 훨씬 중요하다고 생각했으며 보상(reinforcement)을 통해 얼마든지 언어능력을 강화시킬 수 있다고 생각했습니다.
행동주의는 동물이나 인공지능 역시 언어학습자가 될 수 있는 가능성을 활짝 열어 두었습니다. 행동주의 언어학은 아마 언어습득에 관해 우리가 가지고 있는 상식에 가까우며 직관적으로 받아들이기 쉬운 언어 학습 이론일 것입니다. 행동주의 언어학자들은 인간의 행동은 환경적 자극으로 촉발되며, 그 행동에 대한 보상에 의해 강화된다고 주장했습니다. 행동주의 언어학자들은 인간이 언어를 배우는 과정은 철저히 후천적이며 행동(action)과 그에 대한 보상(reward)이라는 과정을 통해 이루어진다고 믿었습니다.
예를 들어 아기들은 ‘아빠’ 혹은 ‘엄마’라는 말을 처음으로 내뱉는 행동을 함으로써 부모의 관심과 애정이라는 보상을 얻게 됩니다. 이러한 과정을 반복하면서 갓난아기들은 언어를 배우기 위한 습관을 형성할 수 있지요. 이처럼 행동과 보상을 통해 기본적인 문법구조와 문장의 형태 그리고 단어를 배운다는 것이 행동주의 언어학의 핵심입니다.
인공지능이 언어를 배우는 여러가지 방법 중 하나로 강화학습(reinforcement learning)이라는 것이 있습니다. 강화학습은 기계학습(machine learning)의 대표적인 분야로, 훈련을 시키고자 하는 에이전트(agent)가 특정 환경에서 행동 하고, 그에 따른 보상에 의해 특정 능력을 강화하는 방식으로 작동합니다. 강화학습은 행동심리학에서 얻은 영감을 토대로 발전해 왔으며, 그 자체로 인간의 학습 과정을 컴퓨터에 구현해 놓은 것이라고 보아도 무방하죠. 즉 우리는 이미 행동주의 심리학을 통해 인공지능을 강화하고 있습니다.
챗GPT의 사람같이 자연스럽고 정교한 문장구사능력 역시 이 강화학습의 도움이 없었다면 불가능했을 것입니다. 챗GPT는 GPT-3.5라는 초거대언어모델(LLM)에 기반한 모델로 약 1750억개의 매개변수를 통해 인터넷 상에 존재하는 방대한 양의 학습 데이터를 학습한 초거대 언어모델입니다. 그러나 방대한 양의 학습 데이터만으로는 사람처럼 자연스러운 문장을 생성해내기 어렵습니다.
전통적인 강화학습의 개념과는 조금 다르지만, 챗GPT 역시 인간 피드백에 의한 강화학습(reinforcement learning from human feedback, RLHF)라는 훈련 방법을 통해 좀 더 자연스러운 문장을 구사할 수 있게 되었습니다. RLHF는 간단히 말해 언어 모델에 여러 사용자들의 입력을 주고, 보상모델(reward model)과 함께 상호 작용하면서 강화학습을 시키는 일종의 강화학습 방식입니다. 이러한 방식을 통해 챗GPT는 사람들이 좀 더 자연스럽게 느끼는 문장이 무엇인지 학습할 수 있게 된 것입니다.
촘스키가 언어학습의 대상을 인간으로 한정시킨 반면, 스키너를 비롯한 행동주의 심리학자들은 사람만을 언어 학습의 대상으로 한정짓지 않았습니다. 여러분은 어떻게 생각하시나요? 어찌되었든 우리는 행동주의 심리학자들의 주장 덕분에 인간의 언어는 사람의 전유물이 아닐지도 모른다는 사실을 알게되었습니다. 그런데 언어 습득의 대상에 대해 논의하다보니 궁금증이 하나 생깁니다. 인간은 도대체 무슨 목적을 가지고 왜 말을 하게 된 것일까요? 다음시간에는 언어의 목적에 대해 생각해보고 '어떻게'가 아닌 '왜'라는 질문에 집중해 보도록 하겠습니다.