자연어처리(NLP) AI 기술은 나온지 꽤 됐지만 최근들어 기술 발전이 두드러지는 것 같다.
리카이푸가 쓴 AI2041을 보니 나름 그럴 만한 이유가 있다. 그동안 NLP는 지도학습 기반 AI에 의존했는데, 사용자 입장에서 만족할 만한 결과물을 내놓기가 쉽지 않았다. 그런데 지도학습을 넘어 자기지도학습이 나오면서 자연서 처리 분야에서 혁신이 급물살을 타고 있다는게 저자 설명이다.
지도라는 단어는 인공지능이 학습할 때 각 훈련 입력값에 대해 올바른 출력값이 주어져야 한다는 뜻이다. 인공지능은 한쌍의 분류된 데이터인 입력값과 올바른 출력값을 받는다. 그런후 특정 입력값에 해당하는 올바른 출력값을 제시하는 방법을 배운다. 인공지능이 고양이 사진을 인식한 예를 기억하는가? 지도학습 방식의 딥러닝은 인공지능이 고양이라는 단어를 제시하는 법을 배우는 훈련 과정이다. 인공지능이 자연어를 배우도록 지도학습을 적용하려면 우선 특정 목적에 맞게 분류된 데이터세트가 있어야 한다.
지난 수년 동안 이해 수준의 NLP 응용 프로그램 개발은 협소한 특정 분야에 수많은 시간과 비용을 기꺼이 투자할 의향이 있을 때만 가능했다. 이러한 한계로 인해 인공지능이 인간 수준으로 언어를 이해하고 처리하는 단계로 나아간다는 원대한 비전을 달성하기가 어려웠다. 그런데 최근에 자기지도학습이라는 단순하면서도 우아한 새로운 접근법이 출현했다. 자기지도학습 방식에서는 방대한 데이터 분류 작업이 필요하지 않기 때문에 앞서 언급된 문제를 극복할 수 있다. 이 접근법은 시퀀스 투 시퀀스라고 불린다. 스퀀스 투 시퀀스는 순환신경망을 사용해 문장을 학습하는 기법으로 인공지능은 시퀀스로 이루어진 대화의 말뭉치를 학습함으로서 선행 발화가 후행 발화로 변환되는 확률을 계산해 대화를 생성해 낸다. 지메일의 스마트 완성 기능이나 구글 검색의 자동 완성 기능이 바로 그 예다.
구글이 개발해 공개한 트랜스포머는 NLP 기술이 도약하는 또 하나의 계기가 된다.
2017년에는 구글 연구진이 트랜스포머라는 새로운 자기지도학습 방식의 딥러닝 모델을 소개했다. 이 모델에서 인공지능은 문장 속 단어들의 관계를 추적해 맥락과 의미를 학습한다. 이 모델은 인공지능이 대량의 텍스트를 바탕으로 훈련될 경우 과거에 있었던 중요하고 의미상 관련 있는 무엇이든 선별젹으로 기억하는 어텐션 메커니즘이 가능하다는 것을 보여준다. 이 메커니즘 덕분에 인공지능은 입력된 문장의 맥락을 훨씬 더 정교하게 파악해 출력값을 내보낸다.
CNN이나 RNN에 비해 한층 강화된 딥러닝 모델인 트랜스포머는 처음부터 스스로 언어를 가르칠 수 있다. 용언 활용이나 문법과 같이 인간이 정한 규칙 대신 스스로 만든 규칙과 개념에 의존한다. 이러한 규칙과 개념은 방대한 데이터에서 자동으로 수집한 것으로 거대한 인공신경망에 내장된다. 트랜스포머에 제공하는 데이터 역시 인간에 의한 분류 작업을 하지 않아도 된다. 충분한 자연어 데이터와 처리 능력을 갖춘 트랜스포머는 자기지도학습 방식의 딥러닝을 통해서 입력값과 출력값 사이의 데이터에서 훨신 더 많은 것을 탐지할 수 있다.
저자에 따르면 구글의 트랜스포머의 뒤를 이은 것은 GPT-3 모델이다. GPT(Generative Pre-trained Transformer) 트랜스포머의 기술의 연장선상에 있다. 저자가 책을 쓴 시점에 GPT-4가 나오지 않은 시점이지만, 큰틀에서 오픈AI GPT 시리즈가 가는 방향은 충분히 예상해 볼 수 있다.
지금까지 가장 뛰어난 자연어처리 기반 인공지능이라 할 수 있는 이 확장 버전은 상상할 수 있는 거의 모든 개념을 포함할 만큼 거대한 모델로부터 언어 분석을 학습한 거대한 시퀀스 투 스퀀스 엔진이다. 세계에서 가장 강력한 슈퍼컴퓨터 가운데 하나를 이용하는 GPT-3는 45테라바이트가 넘는 텍스트를 가지고 학습했다. 45테라바이트는 사람 한명이 다 읽으려면 50만번을 되풀이해서 살아야할 만큼 어마어마한 양이다. 게다가 GPT-3의 능력은 기하급수적으로 빠르게 강화되고 있다.
GPT-3는 특정 산업, 분야, 영역 등에 특화된 언어인 도메인 특화 언어(DSL)을 사용하는 NLP 등 협소한 분야에 툭화되었던 이전 모델과 달리 모든 분야의 다양한 과업들을 수행할 수 있다. 시를 짓고, 철학적인 사색을 하고, 기사를 작성하고, 기술 매뉴얼을 제작하고 또는 특정 작가 스타일을 흉내 내서 글을 쓸 수도 있다.
GPT-3의 능력은 매우 다양해서 거대한 신경망에 DSL을 추가 제공하면 재빨리 해당 분야에 맞게 조정해 사용하는 전이 학습도 할 수 있다. 이때 해당 분야에 대한 소량의 데이터만 추가하면 되는데, 이는 GPT-3가 사전 학습에서 사용했던 거대한 데이터 세트를 활용할 수 있기 때문이다. GPT-3의 이러한 전이학습 능력은 아이가 처음에 매일의 일상적인 대화에서 유창해 진후 나중에 시, 역사, 프로그래밍과 같이 좀더 특화된 언어 영역으로 넘어가는 것에 비유할 수 있다.
GPT-3 역시 부작용에서 자유롭지 않다.
물론 GPT-3도 나름의 단점이 있다. 사실 출력값의 엄청난 에시들 중 대부분은 말도 안되는 출력 값이 꽤 많이 포함된 수많은 시험 결과 중에서 선정된 것이다.우리 인간은 우리가 무엇을 알고 무엇을 모르는지 잘 안다. 하지만 GPT-3는 그렇지 않다. 이 결함 때문에 일종의 가짜뉴스를 만들어낼 수도 있다. GPT-3는 인과관계 추론, 추상적 사고, 설명식 문장, 의도적 창의성 부분에서도 취약하다. 또 인간에게서 나온 데이터를 너무 많이 학습하기 때문에 안타깝게도 인간의 편향, 편견과 악의까지도 흡수하게 되는 치명적 약점이 있다.