AI의 '공감 연기'와 인간의 '진짜 공감' 사이
새로운 AI 모델이 나올 때마다 하나의 뛰어난 기능처럼 소개되는 것이 바로 사용자의 감정에 공감하고, 민감하게 반응하는 사용성이다. 게다가 상담이나 코칭 등 인간을 직접 대하는 작업 환경에 즉시 투입 가능하다며 많은 실험과 실제 사업 모델들의 등장을 어렵지 않게 찾아볼 수 있다.
하지만 한편으론 여러 사례들을 보면서 궁금했다. AI가 실제로 내 감정을 알고 공감하는 것인지, 아니면 그저 방대한 데이터 패턴 안에서 공감하는 연기를 잘하고 있는 것인지. 그간 살펴봤던 몇몇 연구들을 통해 텍스트 안에 담긴 미묘한 감정을 잡아내는 능력은 오히려 AI 등장 이전의 전용 모델들이 더 나았다는 사실을 접했던 터라, 조금 더 깊게 살펴봐야겠다는 생각이 들었다.
"Only ChatGPT gets me: An Empirical Analysis of GPT versus other Large Language Models for Emotion Detection in Text” 연구는 최신 LLM(GPT-3.5, GPT-4, Llama, Gemini 등)들이 인간의 텍스트에서 감정을 얼마나 정확하게 탐지해 내는지 실험했다. 연구진은 구글이 만든 'GoEmotions'라는 데이터셋을 활용해 기쁨, 슬픔, 분노, 혐오, 놀람 등 총 27개의 세분화된 감정과 중립을 포함해 감정에 대한 디테일한 분류 여부를 점검했다.
실험 결과, 현재 가장 똑똑하다고 평가받는 GPT-4o조차도 감정 탐지 성능(Macro F1 score)이 약 31% 수준에 머물렀다. 반면, 2020년경에 Google이 GoEmotions 최초 발표 당시 개발된 감정 분석 특화 모델(BERT)은 52%가 넘는 성능을 보였다. 즉, AI를 활용해 에크만 시대의 큰 단위의 감정을 캐치해 내고, 그럴싸한 위로의 말을 건네는 것은 발전했을지 몰라도, 심연의 복잡다단한 감정을 정확하게 짚어내는 능력은 거대 언어 모델이 등장하기 이전보다 오히려 못하다는 것을 밝혀지적한 것이다. 또한 이 부분은 3단계에 걸쳐 프롬프트를 정교하게 깎아도 격차가 메워지지 않는 결과를 보였다.
이 지점에서 예전에 참여했던 비폭력대화(NVC) 프로그램이 떠올랐다. 당시 55개의 감정으로 세밀하게 분류된 감정 카드를 활용해, 순간순간 내가 느끼는 감정을 정확한 언어로 포착하는 연습을 했다. "기분 나빠"라고 뭉뚱그리는 대신, 이것이 '서운함'인지, '당혹감'인지, 혹은 '무력감'인지를 명확히 짚어내는 것이 소통과 치유의 핵심이었기 때문이다.
공감은 상대방의 감정을 정확하게 인지하는 것에서 시작된다. 하지만 이번 연구 결과가 시사하듯, 현재의 AI는 겉으로 보이는 문장은 유려하게 생성할지 몰라도, 그 밑바닥에 깔린 '진짜 감정의 이름'을 맞히는 데는 서툰 면이 있다. 28개의 분류(GoEmotions)조차 제대로 소화하지 못하는 모델이, 55개의 감정 카드(NVC)가 오가는 인간의 섬세한 내면을 온전히 다룰 수 있을까.
물론 연구에서 비교 검증한 여러 LLM 중에서는 GPT 모델이 다른 LLM 대비 그나마 가장 나은 성능을 보여주긴 했다. 하지만 그것이 곧 AI가 인간의 감정을 잘 이해함을 뜻하는 것은 아니다. 우리는 이제 AI를 활용해 '할 수 있는 것'과, AI가 인간에게 도움이 되는 방향으로 '잘 해내는 것'에 대한 명확히 구분이 필요해 보인다.
Only ChatGPT gets me: An Empirical Analysis of GPT versus other Large Language Models for Emotion Detection in Text
Lecourt, F., Croitoru, M., & Todorov, K. (2025, May). 'Only ChatGPT gets me': An Empirical Analysis of GPT versus other Large Language Models for Emotion Detection in Text. In Companion Proceedings of the ACM on Web Conference 2025 (pp. 2603-2611).
이 연구는 GoEmotions 데이터셋을 사용하여 GPT, Llama, Gemini 등 다양한 대규모 언어 모델(LLM)의 텍스트 감정 탐지 능력을 평가하고, 이를 최신(SOTA) BERT 모델과 비교한다.
실험 결과, GPT 모델(특히 GPT-4o)이 다른 LLM보다 우수한 성능을 보였으나, 여전히 감정 탐지에 특화된 BERT 모델의 성능에는 미치지 못한다는 것을 확인했다.
프롬프트 엔지니어링을 통해 LLM의 성능을 향상시킬 수 있음을 입증했으나, 사전(Dictionary)을 이용한 후처리 방식은 오히려 성능을 저하시키는 것으로 나타났다.
인공지능 기술이 인간과 컴퓨터 상호작용(HCI)을 향상시키기 위해서는 텍스트 상호작용에서 표현되는 인간의 감정을 정확하게 식별하고 이해하는 능력이 필수적이다.
따라서 저자는 다양한 LLM이 텍스트에서 인간의 감정을 얼마나 효과적으로 탐지하고 분류할 수 있는지 평가하고, 이를 최신 감정 탐지 모델과 비교하여 감정 분석 시스템으로서의 유효성을 측정하고자 했다.
대규모 언어 모델 (Large Language Models, LLMs): GPT, Llama, Mistral, Gemini 등 텍스트 생성 및 이해를 위해 훈련된 모델들.
감정 탐지 (Emotion Detection): 텍스트에서 단순한 긍/부정을 넘어 미묘한 감정 상태를 파악하는 작업.
프롬프트 엔지니어링 (Prompt Engineering): 모델의 응답 정확도를 높이기 위해 입력 지시문을 최적화하는 기법.
GoEmotions 데이터셋: 27개의 세분화된 감정 카테고리와 중립을 포함하는 58,000개의 Reddit 댓글로 구성된 데이터셋.
기존 연구(Kocon et al.)에서 수행된 ChatGPT의 감정 탐지 성능 결과를 재현하여 베이스라인을 확인했다.
GoEmotions 데이터셋과 Macro F1 점수를 평가지표로 사용하여 GPT-3.5, GPT-4o, Llama, Gemini, Mistral, Phi-3 등 다양한 LLM의 성능을 비교 분석했다.
모델의 성능을 극대화하기 위해 다양한 프롬프트 변형을 실험하는 프롬프트 엔지니어링 과정을 거쳤으며, 유효하지 않은 응답을 처리하기 위해 사전(Dictionary) 기반의 후처리 방식도 테스트했다.
GPT 계열 모델이 전반적으로 가장 우수한 성능을 보였으며, 그중 GPT-4o가 가장 높은 점수를 기록했다.
하지만 모든 LLM은 감정 탐지에 특화된 SOTA BERT 모델보다는 낮은 성능을 보였다.
프롬프트 엔지니어링은 성능 향상에 크게 기여했으나, 사전을 이용해 오답을 수정하려는 시도는 정확도(Precision)를 떨어뜨려 전체적인 성능(F1 score) 저하를 초래했다.
1.1. 연구 배경과 필요성
인공지능 기술, 특히 ChatGPT와 같은 대화형 에이전트의 등장은 인간과 기계가 상호작용하는 방식을 근본적으로 변화시켰다. 이러한 에이전트들은 고객 서비스부터 개인 비서 업무에 이르기까지 다양한 분야에서 중요한 역할을 수행하고 있다. 그러나 이러한 기술적 진보는 AI 커뮤니티에 다음과 같은 새로운 과제를 안겨주었다.
기계가 인간의 감정적 표현을 포착하고 상호 연관시킬 수 있는가?
기계 스스로 감정과 공감적 행동을 표현할 수 있는가?
정신 건강, 고객 지원, 사회적 상호작용과 같은 맥락에서 공감과 감정적 이해는 필수적인 요소이다. 따라서 인공지능 기술이 사용자에게 더 반응적이고 섬세하게 다가가기 위해서는 감정의 뉘앙스를 이해하는 능력이 요구된다.
1.2. 연구 목표 및 범위
이 연구는 텍스트를 통해 인간의 감정을 탐지하고 이해하는 대규모 언어 모델(LLM)의 능력을 실증적으로 분석하는 것을 목표로 한다. 구체적인 연구의 방향성은 다음과 같다.
다양한 모델 평가: GPT와 Llama를 포함하여 Gemini, Mistral, Phi-3 등 신흥 모델들의 감정 탐지 및 반응 능력을 정밀하게 평가한다.
GPT 아키텍처 집중: 역사상 가장 빠르게 성장한 애플리케이션인 ChatGPT의 기반이 되는 GPT 아키텍처에 특별한 비중을 둔다.
개선 방향 모색: 평가 결과를 바탕으로 대화형 에이전트가 더 공감적이고 사용자 요구에 적합하게 발전할 수 있는 개선점을 식별한다.
1.3. 핵심 연구 질문과 방법론
본 연구의 방법론은 "다양한 대규모 언어 모델이 최신(SOTA) 감정 탐지 모델과 비교하여 텍스트에서 인간의 감정을 얼마나 효과적으로 탐지하고 분류하는가?"라는 질문에 답하도록 설계되었다. 이를 위해 객관적인 평가지표인 Macro F1 점수를 사용하여 모델 간의 성능을 비교한다.
이러한 접근은 심리학적 감정 모델과 전산학적 통찰을 통합하는 학제 간 관점을 채택하며, 궁극적으로 인공지능이 인간의 언어를 더 미묘하게 이해해야 하는 다양한 분야에 응용될 수 있는 길을 열어준다.
2.1. 감정 관련 용어의 정의 및 구분
심리학 및 신경과학적 관점에서 혼동하기 쉬운 감정 관련 용어들을 다음과 같이 정의한다.
이모션(Emotion): 유기체에 특별한 의미를 지닌 내외부적 사건에 대한 이산적이고 일관된 반응이며, 단기적으로 지속된다.
무드(Mood): 이모션에 비해 강도는 약하지만 더 오랫동안 지속되는 확산된 정동 상태이다.
필링(Feeling): 이모션에 대한 개인적이고 주관적인 표현이며, 이모션과 마찬가지로 단기적인 지속 시간을 갖는다.
어펙트(Affect): 이모션, 필링, 무드를 모두 아우르는 가장 포괄적인 용어이다.
2.2. 감정 모델의 분류
감정 모델은 구조적 특성에 따라 크게 두 가지 유형으로 구분된다.
범주형(Categorical) 모델: 감정을 명확히 구분되는 몇 가지 이산적인 상태(Discrete states)로 정의한다.
차원적(Dimensional) 모델: 감정을 이산적인 상태가 아닌 연속적인 차원(예: 쾌/불쾌, 강도 등) 상에 위치시킨다.
2.3. 주요 심리학적 감정 모델 상세
1) 에크만(Ekman) 모델
이 모델은 1970년 뉴기니 원주민을 대상으로 한 연구를 통해 정립되었다. 에크만은 모든 인간 문화에서 공통적으로 발견되고 얼굴 표정으로 식별 가능한 '기본 감정'이 존재한다고 보았다. 이 모델은 기쁨, 슬픔, 분노, 공포, 놀람, 혐오라는 6가지 보편적 감정을 정의하며, 컴퓨터 과학 연구에서 가장 널리 사용되는 모델이다.
2) 톰킨스(Tomkins) 모델
톰킨스는 서로 다른 얼굴 표정으로 식별되는 8가지 기본 어펙트(Affect)를 제안했다. 이 모델의 특징은 각 감정을 '낮은 강도 - 높은 강도'의 쌍으로 표현한다는 점이다. 톰킨스는 어펙트가 인지 상태와 결합하여 감정의 색채와 형태를 결정한다고 설명한다. 8가지 어펙트 쌍은 다음과 같다.
관심 - 흥미 (Interest - Excitement)
즐거움 - 기쁨 (Pleasure - Joy)
놀람 (Surprise)
고통 - 번뇌 (Distress - Anguish)
공포 - 테러 (Fear - Terror)
수치 - 굴욕 (Shame - Humiliation)
경멸 - 혐오 (Contempt - Disgust)
분노 - 격분 (Anger - Rage)
3) 뢰브하임(Lövheim) 모델
톰킨스의 연구를 기반으로 개발된 이 모델은 감정을 3차원 입방체(Cube) 구조로 표현한다. 입방체의 각 모서리는 톰킨스가 정의한 8가지 어펙트에 해당한다.
이 모델의 핵심은 감정의 위치가 세 가지 모노아민 신경전달물질의 수치에 의해 결정된다는 점이다. 세 가지 축은 각각 도파민(Dopamine), 세로토닌(Serotonin), 노르아드레날린(Noradrenaline)을 나타낸다. 예를 들어, '분노-격분' 감정은 도파민과 노르아드레날린 수치가 높고 세로토닌 수치가 낮을 때 형성된다고 설명하여 심리학적 감정을 신경생물학적 요소와 직접 연결한다.
4) 플루치크(Plutchik) 모델
플루치크 모델은 진화론적 관점에서 감정을 생물학적 생존 기능과 연결한다. 이 모델은 공포, 분노, 기쁨, 슬픔, 수용(신뢰), 혐오, 기대, 놀람의 8가지 기본 감정을 제시한다. 이 모델은 휠(Wheel) 또는 원뿔 형태의 3D 구조로 표현된다. 중심에 가까울수록 감정의 강도가 세지고 색상이 진해지는 특징이 있다. 또한 서로 마주 보는 감정은 상호 보완적(예: 기쁨과 슬픔)이며, 이들이 결합하면 회색과 같은 중립 상태가 된다고 설명한다.
2.4. 모델 간 비교 및 데이터셋 적용
이러한 심리학적 모델들은 컴퓨터 과학에서 데이터셋의 주석(Annotation) 체계를 만드는 분류법(Taxonomy)으로 활용된다. 모델 적용 시 고려해야 할 사항은 다음과 같다.
공통 감정: 기쁨, 분노, 공포, 혐오, 놀람 등 5가지 감정은 대부분의 모델에서 공통적으로 정의된다.
슬픔의 표현: 슬픔은 에크만과 플루치크 모델에는 명시되어 있으나, 톰킨스와 뢰브하임 모델에서는 '고통(Distress)'이라는 용어로 표현된다.
전산학적 한계: 범주형 모델(에크만 등)은 텍스트 분류 작업에 적합하지만, 차원적 모델(뢰브하임, 플루치크)을 사용하여 데이터셋을 구축할 때는 연속적인 값을 이산적인 카테고리로 변환해야 하므로 정보 손실이 발생한다.
3.1. GoEmotions 데이터셋
Google이 개발한 GoEmotions는 58,000개의 Reddit 댓글로 구성된 데이터셋이다. 27개의 감정 카테고리와 1개의 중립(Neutral) 카테고리를 포함하여 인간의 감정을 매우 세밀하고 미묘하게 포괄한다는 특징이 있다. 데이터는 2005년부터 2019년까지 수집되었으며, 비속어를 줄이고 텍스트 길이를 제한하며 감정의 균형을 맞추는 필터링 과정을 거쳤다.
감정 분류 체계는 반복적인 정제 과정을 통해 확립되었다. 초기 56개 카테고리에서 감지하기 어렵거나 일치도가 낮은 카테고리를 제거하고, 데이터에서 자주 발견되는 카테고리를 추가했다. 그 결과 12개의 긍정적 감정, 11개의 부정적 감정, 4개의 양가적 감정으로 구성되었다. 이 데이터셋은 94%의 예시에서 최소 두 명 이상의 주석자가 동의할 정도로 높은 주석 정확도를 보인다.
3.2. 기타 주요 데이터셋
GoEmotions 외에도 연구 목적과 데이터 소스에 따라 다양한 데이터셋이 활용된다.
CARER: 트윗을 기반으로 하며 GoEmotions보다 덜 세분화된 데이터셋이다. 플루치크(Plutchik) 모델과 동일한 8개의 감정 라벨(기쁨, 놀람, 기대, 공포, 분노, 신뢰, 혐오, 슬픔)을 사용하며, 각 텍스트는 하나의 감정 라벨과 연관된다.
WRIME 및 GoodNewsEveryone: WRIME은 다양한 소셜 네트워크 텍스트로 구성되며 플루치크 모델의 라벨을 공유한다. GoodNewsEveryone은 뉴스 헤드라인을 데이터로 사용하며, 죄책감, 사랑, 비관, 낙관, 자부심, 수치심 등의 라벨을 추가하고 놀람을 긍정과 부정으로 세분화했다.
ISEAR: 가장 오래되고 많이 인용되는 데이터셋으로 37개국의 설문조사 데이터를 기반으로 한다. 에크만(Ekman)의 연구를 바탕으로 하되 '놀람'을 '수치심'과 '죄책감'으로 대체하여 구성했다. 이는 감정 반응 패턴의 보편성과 문화적 차이를 입증하기 위해 설계되었다.
3.3. 데이터셋 간 비교
플루치크나 에크만 모델을 기반으로 한 데이터셋들과 GoEmotions는 기쁨(Joy), 분노(Anger), 공포(Fear), 슬픔(Sadness), 혐오(Disgust)를 공통적으로 공유한다. 반면, ISEAR 데이터셋은 다른 모델들과 달리 '놀람(Surprise)'이 포함되지 않는다는 차이점이 있다.
4.1. 트랜스포머 아키텍처의 등장과 분류
Vaswani 등이 도입한 트랜스포머 모델은 순환 신경망(RNN)이나 장단기 메모리(LSTM)와 같은 기존 접근 방식의 한계를 극복하며 NLP 분야에 혁명을 일으켰다. 이 아키텍처는 뛰어난 성능을 바탕으로 텍스트 및 오디오 처리 등 다양한 분야에서 최첨단 기술(SOTA)로 자리 잡았다. 트랜스포머는 크게 GPT와 같은 대규모 언어 모델과 BERT와 같은 분류기의 기반이 되며, 이들은 감정 탐지 작업에도 널리 활용된다.
GPT (Generative Pre-trained Transformer): OpenAI가 개발한 자기 회귀(auto-regressive) 모델이다. 이 아키텍처는 이전에 생성된 단어를 기반으로 다음 단어를 예측하며 순차적으로 텍스트를 생성한다. ChatGPT는 GPT-3.5 모델을 기반으로 하는 대화형 에이전트이다.
BERT (Bidirectional Encoder Representations from Transformers): 인코더 모델의 대표적인 예로, 언어를 생성하기보다 이해하고 분석하도록 설계되었다. 텍스트 분류, 독해, 감성 분석과 같은 작업에서 탁월한 성능을 보인다.
4.2. 기타 LLM (Other LLMs)
본 연구에서는 GPT 외에도 감정 탐지 능력을 평가하기 위해 다음과 같은 다양한 최신 LLM들을 조사한다.
Llama: Meta가 배포한 오픈 소스 모델로, 계산 효율성이 높고 미세 조정(fine-tuning)이 용이하도록 설계되었다.
Mistral / Mixtral: Mistral AI가 도입한 모델들이다. Mistral은 빠른 추론 속도를 유지하면서 여러 벤치마크에서 Llama 2를 능가한다. Mixtral은 희소 전문가 혼합(SMOE) 방식을 사용하여 추론 단계마다 적은 수의 파라미터만 활성화하면서도 거대한 파라미터 공간에 효과적으로 접근하여 GPT-3.5와 경쟁한다.
Gemma / Gemini: Google이 개발한 모델들이다. Gemma는 다국어 이해와 접근성을 위해 설계된 오픈 소스 모델이다. Gemini는 복잡한 벤치마크에서 탁월한 성능을 발휘하도록 설계된 멀티모달 LLM으로, GPT-4와 같은 고성능 모델의 강력한 경쟁자이다.
Phi-3: Microsoft가 개발한 소형 언어 모델(SLM)이다. 상대적으로 크기가 작음에도 불구하고 Mixtral이나 GPT-3.5와 같은 더 큰 모델들과 경쟁할 수 있는 최고 수준의 성능을 목표로 설계되었다.
5.1. 감정 탐지 (Emotion Detection)
자연어 처리(NLP) 문제는 기호적 접근과 통계적 접근으로 나뉘며, 트랜스포머 모델과 LLM은 통계적 접근 방식을 따른다. 단순한 긍정, 부정, 중립을 분류하는 전통적인 감성 분석(Sentiment Analysis)과 달리, 감정 탐지(Emotion Detection, ED)는 텍스트에서 더 미묘하고 구체적인 정동 상태를 포착한다. 이는 AI가 문맥을 파악하고 공감적인 반응을 할 수 있는 기반이 된다.
5.2. Chat-GPT와 감정 탐지
기존 연구(Kocon et al.)에서는 ChatGPT를 분류기로 활용하여 GoEmotions 데이터셋에 대한 성능을 평가했다. 이때 평가 지표로는 Macro F1 점수가 사용되었다. 이는 데이터셋 내 감정 클래스 간의 불균형 문제를 해결하기 위해 채택된 것으로, 각 클래스의 F1 점수(정밀도와 재현율의 조화 평균)를 산술 평균하여 다수 클래스에 편향되지 않은 균형 잡힌 평가를 제공한다.
5.3. 결과 재현 (Reproduction of Results)
저자는 선행 연구의 결과를 검증하기 위해 최신(SOTA) 모델인 BERT와 GPT-3.5-Turbo의 성능을 비교했다. 평가를 위해 GoEmotions의 테스트 데이터셋을 사용했으며, 주요 지표는 다음과 같다.
ChatGPT 및 SOTA Macro F1 점수: 각 모델의 전반적인 성능을 나타낸다.
차이(Difference) 및 손실(Loss): 두 모델 간 성능 격차와 SOTA 대비 ChatGPT의 성능 하락 폭을 의미한다.
난이도(Difficulty): SOTA 모델의 성능을 기준으로 해당 과제의 본질적인 어려움을 반영한다.
실험 결과, ChatGPT는 모든 테스트 문맥에서 SOTA 모델 대비 50% 이상의 성능 손실을 보였다. 이는 뛰어난 텍스트 생성 능력에도 불구하고, 감정 탐지 전용 모델에 비해 분류 성능은 현저히 낮음을 시사한다.
5.4. 평가 설정 및 방법론
ChatGPT의 성능을 개선하고 타 모델과 비교하기 위해 연구는 다음 세 단계로 진행되었다.
프롬프트 엔지니어링: 모델이 최적의 답변을 내도록 지시문을 정교화하여 Macro F1 점수를 극대화한다.
모델 간 비교: 최적화된 프롬프트를 동일하게 적용하여 다른 LLM들과 성능을 비교한다.
사전(Dictionary) 활용: 유효하지 않은 응답을 사후 처리하여 결과의 견고성을 테스트한다.
5.5. 프롬프트 엔지니어링
GPT의 성능을 최적화하기 위해 네 가지 프롬프트 변형을 실험했다.
기본 프롬프트: 텍스트가 유발하는 하나의 감정을 선택하도록 단순 요청한다.
변형 1: 데이터셋의 주석과 일치하도록 탐지해야 할 감정의 개수를 변수로 추가한다.
변형 2: 모호성을 줄이기 위해 정확한 감정의 수를 나열하도록 강조한다.
변형 3 (최종): 응답 형식에 대한 명시적인 예시를 제공하고, 정해진 감정 목록 내에서만 선택하도록 구체적인 가이드를 포함한다.
실험 결과, 구체적인 예시와 제약 조건을 포함한 변형 3 프롬프트가 가장 높은 Macro F1 점수를 기록했다.
5.6. 다른 LLM과의 비교
최적화된 프롬프트를 사용하여 GPT-3.5-Turbo를 포함한 다양한 LLM의 성능을 비교 분석했다.
GPT 계열: GPT-4o가 GPT-3.5-Turbo보다 소폭 향상된 성능을 보이며 전체 비교 모델 중 가장 우수한 결과를 기록했다.
Llama 계열: Llama-3-70b는 GPT 모델에 근접한 성능을 보였으나, 경량화된 Llama-2-7b나 Llama-3-8b는 성능이 떨어져 모델의 크기와 감정 탐지 능력 간의 상관관계를 보여주었다.
Google 계열: Gemini와 Gemma 모델들은 견고한 성능을 보였으나 GPT 모델을 능가하지는 못했다.
기타: Mistral과 Mixtral은 상대적으로 낮은 경쟁력을 보였으며, 소형 언어 모델(SLM)인 Phi-3는 크기 대비 우수한 성능을 입증했다.
결과적으로 GPT 모델군이 가장 우수했으며, Llama와 Google 모델이 그 뒤를 이었다. 다만, 현재의 평가지표는 예측된 감정과 실제 감정 사이의 의미론적 유사성을 반영하지 못하고 모든 오류를 동일하게 처리한다는 한계가 있다.
5.7. 사전(Dictionary) 사용
모델이 허용된 감정 목록 외의 단어로 응답할 경우, SpaCy 라이브러리를 활용해 의미적으로 가장 유사한 유효 감정 라벨로 변환하는 방식을 테스트했다. 그러나 이 방식은 재현율(Recall)을 일부 향상시켰음에도 불구하고, 정밀도(Precision)와 전체적인 Macro F1 점수를 감소시켰다. 이는 모호한 응답들이 '중립'이 아닌 엉뚱한 감정으로 매핑되면서 오답(False Positive)이 증가했기 때문이다. 따라서 사전 기반의 자동 교정은 성능 향상에 효과적이지 않은 것으로 결론지었다.
이 연구는 대규모 언어 모델(LLM)의 감정 탐지 능력에 대한 통찰을 제공하지만, 주로 GoEmotions라는 단일 데이터셋에 의존했다는 점에서 일반화에 한계를 가진다. 연구 결과의 타당성을 더 폭넓게 입증하기 위해서는 향후 연구에서 다양한 구조를 가진 데이터셋을 탐색해야 한다. 또한, 서로 다른 주석(Annotation) 체계와 문화적 맥락 속에서도 모델이 견고하게 작동하는지 검증할 필요가 있다.
7.1. 연구 결론
GoEmotions 데이터셋을 사용한 통계적 접근 방식을 통해 분석한 결과, ChatGPT를 비롯한 LLM들은 뛰어난 텍스트 생성 능력에도 불구하고 감정 탐지 성능은 전문화된 모델(BERT 등)에 미치지 못했다. 그러나 프롬프트 엔지니어링 기술을 적용함으로써 성능을 크게 향상시킬 수 있음을 확인했으며, 이는 모델의 응답을 더 정확하게 유도하는 데 있어 미세한 지침이 중요함을 시사한다. 비록 LLM이 아직 전문 분류기를 능가하지는 못하지만, 이 비교 연구의 결과는 향후 성능 개선을 위한 가치 있는 기초를 제공한다.
7.2. 향후 연구 방향
이 연구는 LLM의 감정 탐지 강점과 약점을 조명했으며, 향후 AI가 인간의 감정에 더 공감적으로 반응하도록 돕기 위해 다음과 같은 연구를 계획하고 있다.
새로운 평가 지표 도입: 예측된 감정과 실제 감정 사이의 의미론적 근접성을 고려하여, 정답에 가까운 예측에는 보상을 주고 거리가 먼 예측에는 페널티를 부여하는 평가 방식을 개발할 것이다.
전용 대화 말뭉치 구축: 언어적, 감정적 뉘앙스에 대한 모델의 적응성을 보다 정밀하게 테스트하기 위해 감정 탐지에 특화된 대화 말뭉치(Corpus)를 구축할 것이다.
통계적 검증 강화: 모델 간 관찰된 성능 차이가 무작위적인 우연에 의한 것이 아님을 보장하기 위해 엄격한 통계적 검증을 수행할 것이다.