'텍스트 없이'훈련하는 Textless NLP
2021년 9월 9일, Facebook AI에서 '텍스트' 없이, 'ASR(Automatic Speech Recognition)'도 없이, 단지 'Raw Audio'로만 언어 모델을 학습시키는 연구를 공개했습니다.
모두 잘 알고 계시듯이, 지난 몇 년간 BERT, RoBERTa, GPT-3 등 '텍스트' 기반의 대형 언어 모델이 속속 등장했고 매우 인상적인 성과를 보여주고 있습니다. 주어진 입력 문장에 이어질 단어들을 아주 그럴듯하게 생성해 내는 훈련을 성공적으로 해 냄으로써, 이 모델들은 수많은 자연어 처리 애플리케이션에 사용되고 있는데요. 몇 가지만 살펴보더라도 Sentiment Analysis (감성 분석), Translation (번역), Text Summarization (텍스트 요약) 등이 있죠.
그러나, 이런 모델의 한계라면, 우선은 매우 대규모의 텍스트 데이터셋이 있는 언어들에 대해서만 훈련과 활용이 가능하다는 점이 있겠습니다. 영어를 위시로 한 서구권의 대표적 언어, 그리고 CJK (China, Japan, Korea) 등 아시아권의 대표적 언어들은 데이터셋의 규모 측면에서 큰 이슈가 없겠지만, 그 외 잘 알려지지 않은 많은 '토착어'는 - 인공지능 기술을 활용하여 토착어를 보존하고 계승하려는 노력과는 별개로 - 그 데이터셋의 규모가 충분하지 못한 경우가 많습니다.
(논쟁적이기는 하지만) 더 근본적인 한계는 '텍스트' 데이터가 가지고 있는 내재적인 문제에서 옵니다. 우리가 '텍스트', '언어', '언어활동' 이런 여러 가지 개념을 혼용하고 있기는 하지만, 구체적으로 들여다보면 이 모두는 매우 다른 개념이죠. '텍스트'는 '언어'의 한 단면이고, 인간의 '언어활동'과 관련된 많은 정보를 담고 있기는 하지만 그 자체를 총체적으로 대변하지 못합니다. 따라서, '텍스트'를 통해 훈련된 인공지능 모델이 학습하게 되는 'Representation'도 인간이 가지고 있는 그것과는 분명히 큰 차이가 있겠죠.
이번에 Facebook이 공개한 GSLM (Generative Spoken Language Model)은 '레이블'이나 '텍스트' 없이 '원시 오디오 (Raw Audio)'만으로 언어 모델을 훈련합니다. 대량의 텍스트를 확보하기 어려운 언어들에 대해서도 적용할 수 있겠고, 대량의 데이터가 있는 언어라 하더라도 오디오만으로 훈련을 하고 오디오를 직접적인 입출력으로 활용할 수 있다는 것만으로 이미 수많은 애플리케이션을 상상할 수 있습니다. 생각해 보면, 우리가 말을 할 때와 그 말을 텍스트로 옮겼을 때, 그 사이에 상실되는 수많은 정보가 있다는 것을 금방 알 수 있죠. 카카오톡방에서 대화를 주고받을 때, 실제 만나서 얼굴을 보고 이야기를 하는 것보다 때로는 설명을 더 해야 하거나 오해하는 경우가 있는 것처럼요. 이런 정보들이 아마도 Facebook의 GSLM과 같은 방식으로 만들어낸 애플리케이션이라면 잘 보존하고 재현해 낼 수 있겠고, 훨씬 더 광범위하고도 복잡한 뉘앙스나 표현을 가능하게 할 겁니다. 현재 '텍스트' 데이터 중심으로 구조가 만들어져 있는 자연어 처리 시스템의 생태계에도 영향이 있을 것 같습니다.
베이스라인 GSLM 모델은 Encoder (스피치 오디오를 사운드 유닛으로 변환), LM (Language Model: 다음 사운드 유닛을 예측하도록 훈련된 모델), Decoder (사운드를 스피치로 변환)의 세 컴포넌트로 구성되어 있고, 금번 Facebook AI에서 발표한 모델의 경우 6,000 시간의 원시 오디오로 훈련되었다고 합니다. 자세한 내용과 Performance에 대해서는 여기를 참조하시면 됩니다.
이제 시작일 뿐이기 때문에, 페이스북의 이 새로운 모델이 어떻게 확산되고 어떤 영향을 미칠지는 시간이 지나면서 더 자세히 알게 되겠지만, 이미 트위터 등에서 여러 연구자들이 의견을 교환하고 있습니다.
Yoav Goldberg 교수가 "(언어의 이해 관점에서는 어떤 의미가 있는지 모르겠지만) 충분한 양의 데이터로 훈련한 신경망이 *아주* 복잡한 분포를 생각보다도 잘 학습한다는 것을 발견한 또 하나의 사례"라고 이야기할 만큼, 놀라운 또 하나의 실험이자 발견인 것만은 분명한 듯합니다. 6,000시간의 원시 오디오 데이터라면 250일 정도의 데이터로, 그렇게 엄청난 양인 것 같지도 않은 느낌이고, 페이스북 AI에서 앞으로 할 연구 방향 중 하나로 밝힌 것처럼, 이 모델이 약간의 레이블 데이터와 결합해서 Pretrained Model로서 잘 작동한다면, 자연어 처리 시스템의 생태계에도 큰 영향이 있을 것으로 보입니다.
그렇지만, 결국 텍스트냐 음성이냐의 차이가 있을 뿐, 근본적으로는 2011년 RNN 기반의 언어 모델과 큰 차이가 없다는 의견들도 있습니다. CMU의 Graham Neubig 교수는 (Yoav 교수 트윗의 스레드에서) "스피치 데이터만을 사용해서 학습한 신경망 모델이 일관적이고 잘 어울리는 단어들을 생성해 낸다는 점에서 인상적이기는 하지만, '의미'적인 측면에서는, 이렇게 생성된 내용의 일관성은 2011년 RNNLM과 큰 차이가 없다고 본다"라고 하고 있습니다.
개인적으로도, 이 모델이 당장 'AGI'스러운 뭔가로 발전해 나갈 것으로 보지도 않고, '자연어의 이해(Understanding)'에 가까운 무언가라고 생각하지는 않습니다. 그렇지만, 어쨌든 우리에게 '축복이자 굴레'였던 '텍스트'를 벗어난 새로운 시도임에는 분명해 보입니다. 앞으로 이 모델을 기반으로 어떤 새로운 응용이 가능할지 기대됩니다.