기계는 인간의 감정을 다채롭게 표현할 수 있을까
총 세 편의 글에 걸쳐서, "Toward Dimensional Emotion Detection from Categorical Emotion Annotations" (https://arxiv.org/abs/1911.02499)에 대한 프로젝트 진행 배경 및 동기, 과정 및 결과를 소개합니다. 연구에 도움을 주신 공저자 분들께 감사의 말씀을 드립니다. 첫 번째 글에서는, 논문에 들어갈 수 없었던 프로젝트 진행 배경과 동기에 대해서 다룹니다.
인간은 평생에 걸쳐 다양한 감정을 느끼며 살아갑니다. 감정은 다양한 심리적 현상의 결과이자 원인이 될 수 있기 때문에, 오랫동안 많은 심리학자들의 연구 대상이었습니다. 특히, 전통적인 심리학에서는 인간의 기본 감정(basic emotion)을 수 가지로 정의합니다. 기본 감정이란 인간이 사용하는 언어 혹은 속해있는 문화권 등에 상관 없이, 사람에게 유전적으로 내재된 감정의 종류가 있다는 말입니다. 저명한 심리학자인 폴 에크만(Paul Ekman)은 인간에게 이러한 기본 감정이 6가지가 존재한다고 했는데, 그것은 행복, 슬픔, 공포, 분노, 놀람, 혐오입니다. 또 다른 과학자들은 인간의 감정을 그보다 적게, 혹은 많게 정의하기도 합니다. 로버트 플루치크(Robert Plutchik)는 좀 더 나아가, 이러한 기본 감정들이 어느 정도 연속선 상에 있으며, 기본 감정 간의 사이에 존재하는 감정을 조금 더 구체적인 언어로 표현했습니다. 아래 그림에서 볼 수 있듯이, "정서의 바퀴(Wheel of Emotion)"라 불리는 이 그림에는 즐거움(joy), 신뢰(trust), 두려움(fear), 놀람(suprise), 슬픔(sadness), 싫어함(disgust), 화남(anger), 바람(anticipation)는 주요 감정들 사이에 사랑, 낙관주의, 공격성, 거부 등의 다양한 감정들이 있을 수 있다고 주장했습니다.
하지만 생각해보면, 우리가 일상생활에서 느끼는 감정은 이보다 조금 더 복잡한 듯 보입니다. 지나쳐간 과거의 행복했던, 혹은 괴로웠던 추억을 돌이켜볼 때 느낄 수 있는 다양하고 복잡한 감정은 앞서 언급되었던 단순한 방식으로, 이론적으로 정의된 분절된 감정(categorical emotion)으로는 아마 정확하게 표현하기 어려울 것입니다. 구체적 경험 속에 녹아들어간 다채로운 감정을 구체적이고 세밀하게 표현하려면, 몇 가지의 감정 단어만으로는 다소 부족해 보입니다.
이런 점은 <인사이드 아웃> 에도 잘 표현되어 있습니다. 조이와 그 친구들은 주인공 라일리의 기본 감정을 대변합니다. 이 친구들은 고유의 색을 갖고 있고, 라일리의 기억에 한 가지 색을 입힙니다. 그러다가 후반부에 라일리는 자신이 좌절해서 슬퍼하고 있을 때, 가족들의 위로를 받고 안정을 되찾았던 기억을 떠올리며, 슬픔과 행복을 동시에 느낄 수 있다는 걸 깨닫게 됩니다. 언제나 행복(조이)이 절대적으로 옳은 감정일 수는 없으며, 다양한 감정을 연속적이고 복합적으로 받아들이는 법을 이해하게 되면서 라일리는 조금씩 성장해갑니다.
이처럼 인간의 감정은 기본 감정만으로 표현되기 어려운 복합적인 존재입니다. 그렇기 때문에 인간의 감정을 분절된 유목이 아닌 연속적인 공간 상에서 이해하려는 시도가 등장하게 됩니다. 아래 그림은 이러한 대표적인 시도를 보여주는데, 감정을 Valence - Arousal - Dominance 공간의 3차원 연속적인 공간 상에서 표현할 수 있다고 가정하고 기본 감정을 이 공간에 투영한 것입니다. Valence는 감정이 어느 정도로 유쾌한지 혹은 불쾌한지, Arousal은 감정으로 인해서 얼마나 신체적인 흥분 상태가 되었는지, Dominance는 감정으로 인해 얼마나 통제력을 잃는지를 나타냅니다. 예를 들면, 분노는 Valence 상에서 낮은 값을 갖고 (불쾌), Arousal 상에서 높은 값을 갖고 (흥분), Dominance 상에서 중간 값을 가집니다. (적당한 수준의 통제) 반면, 행복은 높은 Valence, 낮은 Arousal, 낮은 Dominance 값을 갖게 됩니다.
이러한 가정을 바탕으로 세워진 모델을 기반으로 감정을 체계적으로 모델링 한다면, 조금 더 인간의 감정을 구체적이고 세밀하게 표현할 수 있는 가능성이 생깁니다. 이는 인간의 감정을 이해하는데 중요한 역할을 할 뿐만 아니라, 심리치료의 영역에서 생각보다 매우 중요한 영역을 차지합니다. 많은 사람들은 대부분 감정 표현에 서툴게 마련인데, 다양한 상황에서 자신의 감정을 잘 인지하고 세밀하게 표현하는 것은 그 자체로 치료적 효과가 있다고 알려져 있을 뿐만 아니라(affect labeling), 자신이 어떤 상황에서 정확하게 어떤 감정을 느꼈는지 정확하게 알 수 있다면 자신의 감정 반응과 상황을 받아들이는 태도를 이해하고, 그러한 반응이 어디서 기인하는지 살펴봄으로써 자기 자신을 스스로 잘 이해할 수 있는 발판을 마련할 수 있게 될 것입니다.
그럼에도 불구하고 감정을 위와 같은 연속적인 모델을 기반으로 세밀하게 이해하는 것은 인간에게도 매우 어려운 일일 뿐만 아니라, 기계에게도 어려운 일입니다. 전통적인 자연어처리 분야에서는 최근까지도 텍스트에서 감정을 파악하는 문제를 단순 분류(Classification) 문제로 다루었으며, 감정을 연속적인 모델(Valence-Arousal-Dominance, VAD)에 기반하여 이해하려는 시도는 거의 없었습니다. 즉, 주어진 텍스트를 미리 정해진 기본 감정 {기쁨, 행복, 슬픔, 분노, 공포, 놀람} 등으로 매핑하는 모델을 학습하고자 하는 분류 문제(Classification)로 정의하는 것이 대다수였습니다. 이 방식의 문제는, 감정 인식 문제를 풀기 위해서 분류기를 학습하면, 학습 이후에는 모델이 주어진 감정 단어 말고는 다른 단어를 활용하여 감정을 표현할 수 없다는 근본적인 한계에 부딪히게 됩니다. 즉, 기계에게 아무리 기쁘고 감동적인 텍스트를 준다 한들, 감정 표현에 있어서 기계는 "기쁨" 그 이상을 벗어날 수 없게 됩니다. 이런 방식으로는 모델을 아무리 잘 학습시켜서 정확도가 100퍼센트에 가까운 모델을 만들었다고 한들, 사람이 보기에 너무나 당연하고 단순한 감정 표현밖에 할 수 없기 때문에, 모델을 심리치료의 영역에 접목하고자 할 때 실용성이 크게 떨어지게 됩니다.
따라서, 자연스럽운 AI 기반 감정 인식 모델 개발은, 감정 인식을 연속선 상에서 해보자는 방향으로 나아가게 됩니다. 하지만 세상 모든 일이 그렇듯이, 이러한 시도가 많이 이루어지지 않은 것은 나름의 이유가 있습니다. 주어진 텍스트에 대해서 VAD가 매핑된 기계학습용 데이터를 구축하는 것은 매우 고난이도 작업이기 때문입니다. 자신의 감정을 세밀하게 파악하고 그것을 기반으로, 데이터셋 안에 있는 텍스트에 대해 각각 V, A, D 차원의 점수를 정확하게 태깅하는 것은 매우 어려운 일입니다. 주어진 텍스트를 VAD 공간상에 매핑하려는 시도가 아예 없었던 것은 아니지만, 이러한 데이터는 영어에 대해서만 극히 일부 존재하며, 한국어를 포함한 다른 언어에 대해서는 제대로 VAD 정보가 태깅된 텍스트 데이터는 찾아보기 어렵습니다.
이와 같은 문제 인식에 기반하여, 이 프로젝트는 VAD가 태깅된 텍스트 데이터 없이 VAD 정보를 예측할 수 있는 감정 인식 모델을 개발하는 것에 도전합니다. 즉, 어떤 텍스트 데이터에 매우 세밀한 연속적인 감정 정보(VAD, continuous emtion)가 태깅되어 있지 않아도, 상대적으로 구하기 쉬운 기본 감정(basic, categorical emotion)만이 태깅된 데이터를 활용해서, 세밀한 감정을 예측하고자 합니다. 기계에게 10개 언저리의 단순한 기본 감정만을 효과적으로 가르쳐서, 학습을 다 하고 난 다음에는 사람만큼, 혹은 그보다 더 세밀한 감정 표현이 가능한 모델을 만들고자 합니다.
(논문 내용 및 방법론 소개는 다음 글에서 이어집니다.)