LLM 시대의 감정 분류, 파인튜닝은 여전히 필수일까?

감성 분석의 선택지, 4개의 바구니인가, 43개의 정밀함인가

by Kay

아무래도 업이 업인지라 AI 기술에 촉을 세우고는 있지만, 굳이 따지자면 꽤나 보수적인 접근을 취하는 편이다. 그래서인지 기술의 화려함보다는 기존의 접근 방식들이 갖는 본질적인 의미들이 더 눈에 들어오곤 한다. 특히 인간의 감정을 다루는 영역에 있어서라면, 내가 쌓아온 경험이 아직은 유효해 보이기도 하고, 이를 AI와 어떤 식으로 접목할 것인지에 대해 나만의 생각을 조금씩 발전시켜 보고 있다.


하지만 하루만 잊고 살아도 AI 관련 오픈채팅방에서 몇 천 개의 대화가 지나가 버리는, 그야말로 하루하루가 새로운 이 시기에 아무리 보수적인 관점을 유지하려 해도 LLM 그 자체의 성능이 기존 방식을 압도한다는 연구가 없을 리 없다. 아니나 다를까, 스페인 연구진이 발표한 “Emotion Classification Using Large Language Models: A Comparison of Fine-Tuning and Prompting” 연구는 실험을 통해 이 부분을 다루고 있다.


해당 연구는 도메인 특화 데이터로 재학습시킨 소규모 모델(T5-Base)과 별도의 학습 없이 지시어만 사용하는 거대 모델(GPT-3.5, 4o-mini, 4.5)의 감정 탐지 성능을 비교하였다. 연구진은 SemEval-2018 및 TweetEval 데이터셋을 활용해 영어와 스페인어 트윗에서 분노, 기쁨, 낙관, 슬픔의 4가지 감정을 분류하는 실험을 진행했으며, 모델의 파라미터가 방대해짐에 따라 도메인 전용 미세 조정(Fine-tuning)이 여전히 필요한지를 검증하고자 했다.


실험 결과, 영어 데이터셋에서는 여전히 미세 조정된 모델이 약 2.25% 높은 성능을 보이며 근소하게 우세했으나, 두 방식 간의 격차는 과거에 비해 현저히 줄어들었다. 특히 스페인어 데이터셋에서는 최신 GPT 모델들이 미세 조정된 모델의 성능을 앞지르는 결과가 나타났는데, 이는 언어적 특성에 따라 막대한 시간과 비용이 드는 재학습 과정이 이제는 무의미할 수도 있음을 시사한다.


다만 조금은 비판적인 관점에서 연구 내용을 바라보자면, 공들여 여러 모델을 적용해 진행한 실험 과정을 거쳤지만 연구진이 선정한 감정을 4가지 클래스로 구분한 과제는 얼핏 생각해도 난이도가 그리 높지 않다. 게다가 4가지 감정으로 추려냈기에 감정 간 중첩되는 영역이 많이 사라진 상태로 MECE(Mutually Exclusive, Collectively Exhaustive) 해졌기에, 요즘의 LLM 모델이라면 크게 어렵지 않게 성공해 낼 작업이라 생각된다.


이 연구가 부족하다는 뜻이 아니라 결국 중요한 것은 파인튜닝이나 LLM을 활용한 제로샷 분석에 앞서, '어떤 목적으로 무엇을 살펴볼 것인가'에 달려있다는 것이다. 분석 이후 활용이라는 목적성을 따져봤을 때, 연구진이 택한 4개의 바구니에 나눠 담는 것만으로 충분하다면 공들여 재학습 과정을 거칠 것도 없이 기존 모델에 약간의 API 비용 정도만 지불하는 것으로도 충분한 세상이다.


하지만 보다 정확한 접근을 위해 GoEmotions의 27개 내지 KOTE 수준의 43개와 같이 세세한 구분이 정말로 필요하다면, 비용과 시간을 들여서라도 험난한 파인튜닝의 길을 마다하지 않고 걸어야 할 필요도 있다. LLM의 성능 발전으로 편하자면 한없이 편해질 수도 있겠지만, 기술 발전에 따른 편리한 접근이 반드시 최선의 결과를 뜻하지는 않을 수 있다. 우리가 하고자 하는 바를 보다 명확히 정의하는 본질적인 고민이 더 중요해지는 시점이다.




Emotion Classification Using Large Language Models: A Comparison of Fine-Tuning and Prompting


Guerrero-San-Martín, A., González-Viñas, W., & Pablo-Sánchez, C. (2025, December). Emotion Classification Using Large Language Models: A Comparison of Fine-Tuning and Prompting. CEUR Workshop Proceedings.


1. 이 연구를 3줄로 요약하면?

대규모 언어 모델(LLM)의 제로샷 프롬프팅(Zero-shot Prompting)과 소규모 모델의 미세 조정(Fine-tuning) 간 감정 분류 성능을 비교한 연구이다.

영어와 스페인어 데이터셋을 활용해 분석한 결과, 여전히 미세 조정된 모델이 우세한 경우도 있으나 그 격차가 점차 줄어들고 있음을 확인했다.

특정 언어나 복잡도가 낮은 작업에서는 거대 모델의 제로샷 성능이 미세 조정 모델을 앞지르기도 하여, 추가 학습 비용의 효용성에 의문을 제기한다.


2. 저자는 왜 이 연구를 진행했는가?

LLM이 인간과의 상호작용에서 감정을 얼마나 정확하게 감지하고 이해하는지 평가하기 위함이다. 특히 모델 파라미터가 방대해짐에 따라 특정 도메인을 위한 추가적인 미세 조정 학습이 여전히 필수적인지, 아니면 거대 모델의 범용적인 성능으로 대체 가능한지 확인하고자 했다.


3. 이 연구에서 중요하게 다뤄진 개념은?

감정 프로필(Emotional Profiles): 에크만(Ekman)의 6대 기본 감정, OCC 모델의 22개 범주, 러셀(Russell)의 차원 모델(Valence-Activation) 등 감정을 정의하는 체계이다.

미세 조정(Fine-tuning): 사전 학습된 모델을 특정 작업이나 데이터셋에 맞춰 조정하는 전이 학습(Transfer Learning) 기법이다.

제로샷 프롬프팅(Zero-shot Prompting): 모델에게 별도의 학습 예시를 제공하지 않고 지시어만으로 작업을 수행하게 하는 방식이다.


4. 저자는 어떤 방법을 사용했는가?

T5-Base 모델을 미세 조정하여 기준 모델로 설정하고, GPT-3.5-Turbo, GPT-4o-mini, GPT-4.5 모델을 제로샷 방식으로 비교 실험했다. SemEval-2018 및 TweetEval 데이터셋의 영어와 스페인어 트윗 데이터를 활용하여 분노(Anger), 기쁨(Joy), 낙관(Optimism), 슬픔(Sadness)의 4개 감정을 분류하고 Macro F1 점수로 성능을 측정했다.


5. 연구의 결과는?

영어 데이터셋에서는 미세 조정된 T5 모델이 여전히 가장 높은 성능을 보였으나, 스페인어 데이터셋에서는 GPT-4o-mini와 GPT-4.5가 T5를 능가했다. 결과적으로 모델이 발전함에 따라 미세 조정에 소요되는 시간과 컴퓨팅 비용 대비 얻는 성능 이득이 점차 줄어들고 있음을 보여준다.




1. Introduction (서론)


인간과 대규모 언어 모델(LLM) 간의 상호작용이 일상화되면서, 모델이 인간의 감정을 정확히 감지하고 이해하는지 평가하는 일이 중요해졌다. 특히 감정 인식 기술은 다음과 같은 이유로 현대 AI 시스템의 핵심적인 요소로 작용한다.

감정 감지는 상호작용의 정밀도와 자연스러움을 향상시킨다.

인간의 감정과 행동의 복잡성을 존중하고 적절하게 응답하는 시스템 개발에 기여한다.

고객 서비스, 교육, 가상 비서 등 실질적인 서비스 분야에서 사회적 뉘앙스를 해석하는 데 필수적이다.

감정은 인간이 환경 변화에 대응하기 위해 사용하는 필수적인 적응 기제이다. 이미 방대한 파라미터를 가진 사전 학습 모델이 존재하는 상황에서, 특정 도메인을 위해 모델을 다시 미세 조정(Fine-tuning)하는 작업이 과연 추가적인 시간과 비용을 들일만큼 가치가 있는지 확인하는 것이 본 연구의 주요 과제이다. 이러한 논의는 이후 감정을 정의하고 분류하는 다양한 체계인 감정 프로필 개념으로 연결된다.



2. Emotional Profiles (감정 프로필)


감정과 기분의 정의 및 구분

감정(Emotion)은 행동을 유도하는 충동을 뜻하는 라틴어 'emovere'에서 유래하며, 내부 또는 외부 자극에 대한 일차적인 심리생리학적 반응으로 정의된다. 이는 대개 즉각적이고 강렬하며 짧은 시간 동안 지속되는 특성을 갖는다.

반면 기분(Feelings)은 감정에 대한 주관적이고 의식적인 해석을 의미한다. 기분은 과거의 경험, 신념, 생각의 영향을 받기 때문에 감정보다 강도는 낮지만 더 오래 지속되는 경향이 있다. 본질적으로 기분은 감정과 생각의 합산 결과이며, 개인이 자신의 감정을 의식적으로 인지할 때 감정은 기분으로 변모한다.


감정 프로필의 분류 체계

인간의 감정을 해석하고 모델링하는 방식은 크게 두 가지 유형으로 구분된다.

이산적 또는 범주적(Discrete or Categorical) 모델: 감정을 서로 내재적인 관계가 없는 독립적인 클래스들로 분류한다.

차원적(Dimensional) 모델: 감정들이 서로 연결되어 있다고 간주하며, 각 감정을 다차원 공간 내에서 특정 특성에 영향을 받는 하나의 점으로 표현한다.


이산적 감정 모델의 주요 사례

이산적 모델의 대표적인 예로는 에크만(Ekman)의 모델이 있다. 그는 얼굴 표정을 기반으로 분노, 혐오, 공포, 즐거움, 슬픔, 놀람의 6가지 기본 감정을 정의한다.

또 다른 주요 모델인 OCC 모델(Ortony, Clore, and Collins)은 인지적 접근 방식을 취한다. 이 모델은 개인이 자신의 목표, 신념, 가치관에 따라 사건, 대리인, 사물을 어떻게 해석하는지에 기초하여 감정을 22개 범주로 세분화한다.


다차원 감정 모델의 주요 사례

다차원 모델 중 플루칙(Plutchik)의 모델은 감정 상태 간의 유사성을 강조한다. 그는 8가지 기본 감정(분노, 혐오, 공포, 즐거움, 슬픔, 놀람, 기대, 신뢰)이 서로 다른 강도로 결합되어 이차적 또는 삼차적 감정을 형성할 수 있다고 설명한다.

러셀(Russell)의 서컴플렉스(Circumplex) 모델은 쾌락적 가치(Valence)와 활성화(Activation)라는 두 가지 변수를 사용하여 감정을 측정한다. 가치는 감정 경험의 긍정 또는 부정 정도를 나타내고, 활성화는 감정이 경험되는 강도의 범위를 나타낸다. 이를 좌표계로 구성하면 감정들이 원형으로 분포하는 형태를 띠게 된다.



3. Emotional Datasets (감정 데이터셋)


SemEval-2018 및 TweetEval

SemEval-2018은 감정 분석 연구의 기초가 되는 데이터셋으로, 엑스(X, 구 트위터)에서 수집한 22,000개의 트윗으로 구성된다.

언어 및 분류: 영어(49%), 스페인어(31%), 아랍어(20%)의 세 가지 언어를 포함하며, 11개의 감정 라벨과 중립 라벨로 분류한다.

구축 방법: 전체 데이터의 5%는 수동으로 분류하여 골든 데이터셋(Golden Dataset)을 만들고, 나머지는 크라우드소싱과 심층 학습(CNN, LSTM, GRU) 및 전통적인 기계 학습(SVM) 모델을 활용하여 분류한다.

TweetEval: SemEval-2018에서 파생된 데이터셋으로, 영어 트윗만을 대상으로 한다. 분노, 슬픔, 낙관, 기쁨의 4가지 기본 감정을 단일 라벨로 분류하며, 학습 세트에 최소 300개 이상의 사례가 있는 감정만을 포함한다.


대화 및 커뮤니티 기반 데이터셋

텍스트뿐만 아니라 대화의 맥락이나 다양한 온라인 커뮤니티의 특성을 반영한 데이터셋들도 존재한다.

MELD: TV 시리즈 '프렌즈(Friends)'의 대화를 바탕으로 구축되었으며, 1,400여 개의 대화에서 추출한 13,000개의 발화문을 담고 있다. 에크만의 6대 감정과 중립 범주를 포함하며 텍스트, 오디오, 비디오의 멀티모달(Multimodal) 정보를 제공한다.

GoEmotions: 2005년부터 2019년까지의 레딧(Reddit) 메시지 58,000개를 포함한다. 27개의 세분화된 감정 범주와 중립 라벨로 구성되며, 세 명의 검토자가 수동으로 분류 작업을 수행하여 데이터의 신뢰도를 높였다.


합성 데이터셋: EXTES

EXTES는 인간의 노동력을 줄이기 위해 인공지능을 활용해 생성된 합성 데이터셋(Synthetically Generated Dataset)의 사례이다.

생성 프로세스: 감정 지원 시나리오를 바탕으로 대화 전략을 통합하여 초안을 작성한다.

모델 활용: GPT-3.5-Turbo 모델을 사용하여 대화 세트를 확장 생성한 후, 최종적으로 인간이 수정하는 반복 과정을 거쳐 대규모 데이터를 확보한다.

이러한 다양한 데이터셋 중 본 연구는 스페인어와 영어를 모두 지원하고 감정 분류 체계가 명확한 SemEval-2018과 TweetEval을 실험 도구로 선택한다.



4. Experimental setting (실험 설정)


실험을 위해 연구진은 감정 탐지 작업에서 연구 커뮤니티가 널리 채택하고 있는 SemEval-2018 데이터셋을 선택하였다. 이 데이터셋은 스페인어와 영어를 모두 포함하며, 감정 간의 상호 의존성을 배제하기 위해 단순화된 이산형 프로필 기반의 분류 체계를 사용한다.


감정 선정 및 데이터 구성

인간의 감정 프로필을 적절히 대변하기 위해 분노(Anger), 기쁨(Joy), 낙관(Optimism), 슬픔(Sadness)이라는 네 가지 기본 감정을 선정하였다. 영어 메시지의 경우 SemEval-2018에서 파생된 TweetEval 서브셋을 사용하였으며, 스페인어 데이터셋 역시 동일한 전제 조건에 따라 필터링하여 구축하였다.


비교 실험 방법론

본 연구의 핵심은 미세 조정(Fine-tuning)된 소규모 언어 모델(SLM)이 제로샷 프롬프팅(Zero-shot Prompting)을 사용하는 거대 언어 모델(LLM)과 비교하여 어느 정도의 성능 우위를 점하는지 확인하는 것이다. 실험에 사용된 모델과 설정은 다음과 같다.

T5-Base (T5): 데이터셋을 통해 직접 미세 조정된 모델이다. Adam 옵티마이저를 사용하였으며 학습률은 1e-4, 배치 크기는 4, 학습 에포크(Epoch)는 3으로 설정하였다.

GPT-3.5-Turbo (3.5): 0125 버전을 사용하여 제로샷 구성을 적용하였다.

GPT-4o-mini (4o): 2024년 7월에 출시된 모델을 포함하여 더 발전된 버전의 성능을 탐색하였다.

GPT-4.5 (4.5): 가장 최신 성능을 확인하기 위해 예비 버전(Preliminary version)을 실험에 포함하였다.


언어별 데이터셋 처리

영어 데이터셋은 5,052개의 트윗을 학습(64%), 테스트(28%), 검증(8%) 세트로 나누어 평가를 진행하였다. 스페인어 데이터셋의 경우 직역으로 인한 잠재적 편향을 고려하여 두 가지 방식으로 준비하였다. 하나는 GPT-4o 모델을 사용하여 영어 TweetEval을 스페인어로 번역한 데이터이며, 다른 하나는 7,000개의 트윗으로 구성된 네이티브 스페인어 SemEval-2018 서브셋(학습 50%, 테스트 40%, 검증 10%)이다.

평가 지표로는 서로 다른 랜덤 시드(Random seed)를 사용하여 세 번 실행한 결과의 평균 매크로 F1 점수(Macro F1 score)를 사용하였다.



5. Evaluation (평가)


전체 성능 비교 (Macro F1 Score)

실험 결과는 이전 연구들의 보고와 일치하는 경향을 보이며, 랜덤 시드(Random seed) 사용에 따른 미세한 편차만이 관찰된다. 전반적인 성능은 데이터셋의 언어와 모델의 학습 방식에 따라 뚜렷한 차이를 나타낸다.

영어 데이터셋 (TweetEval in English): 미세 조정된 T5 모델이 79.77로 가장 높은 성능을 기록한다. GPT-4.5(78.10)와 비교했을 때 T5가 약 2.25% 더 효율적이며, 영어 환경에서는 특정 도메인에 맞춘 추가 학습이 여전히 유효함을 보여준다.

스페인어 데이터셋 (TweetEval in Spanish): 거대 언어 모델(GPT) 군이 미세 조정된 T5(63.96)를 큰 폭으로 앞지른다. 특히 GPT-4.5는 78.37을 기록하여 스페인어 환경에서는 범용 거대 모델이 더 효과적임을 입증한다.

네이티브 스페인어 데이터셋 (Native Spanish SemEval-2018): 번역된 데이터가 아닌 실제 스페인어 트윗에서도 GPT 모델들의 우세가 지속된다. GPT-4o-mini가 71.92로 가장 높은 점수를 획득하며, T5(51.61)와의 성능 격차를 명확히 한다.


감정별 탐지 효율성 분석

감정의 종류에 따라 모델이 강점을 보이는 영역이 다르게 나타난다.

영어 환경 분석: 소규모 미세 조정 모델(T5)은 기쁨(Joy)과 낙관(Optimism) 감정을 감지하는 데 더 효과적이다. 반면 거대 언어 모델들은 슬픔(Sadness)과 분노(Anger)를 식별하는 데 있어 더 높은 효율성을 보이나, 최신 버전으로 갈수록 분노 감지 효율이 소폭 하락하는 현상도 관찰된다.

스페인어 환경 분석: GPT 모델들이 네 가지 감정 모든 범주에서 T5 모델의 성능을 상회한다. 최신 모델일수록 낙관(Optimism) 감지 능력은 향상되는 추세이나, 기쁨(Joy)을 감지하는 능력은 이전 버전에 비해 다소 감소하는 특징을 보인다.


오류 분석 (Error Analysis)

라벨 불일치가 발생하는 주요 원인은 감정의 모호성(Ambiguity)과 문맥 정보의 부족으로 분석된다.

반어법 및 역설: "#Ironico", "#ironia"와 같은 해시태그가 포함된 트윗에서 모델은 문장의 표면적 의미에 집중하여 분노(Anger)를 기쁨(Joy)으로 오분류하는 경향이 있다.

비유적 표현: "눈에 Hybrid Theory(앨범명)가 들어갔다"와 같이 슬픔을 간접적으로 표현한 문장을 모델이 기쁨으로 해석하는 등, 텍스트 이면의 정서를 파악하는 데 한계를 보이기도 한다.



6. Conclusion and Future Work (결론 및 향후 연구)


연구 요약 및 주요 발견

본 연구는 감정 프로필과 감정 탐지를 위한 코퍼스를 검토하고, 미세 조정된 T5-Base 모델과 제로샷 프롬프팅을 적용한 최신 GPT 모델들의 성능을 비교하였다. 연구 결과, 대규모 생성형 모델을 활용한 프롬프팅 방식이 감정 분류 작업에서 점차 높은 정확도를 보여주고 있음을 확인하였다.

특히 도메인 특화 미세 조정 모델과 거대 언어 모델 간의 성능 격차는 지속적으로 줄어들고 있다. 이러한 경향은 모델의 파라미터가 방대해짐에 따라 특정 분야를 위한 별도의 재학습 필요성이 낮아지고 있음을 시사한다.


언어별 및 감정별 성능 분석

데이터셋의 언어에 따라 미세 조정의 효용성에 대한 결론이 다르게 도출되었다.

스페인어 데이터셋: 대규모 모델들이 스페인어 전용 미세 조정 모델보다 더 나은 정확도를 보여준다. 특히 최신 GPT 버전은 미세 조정 모델과 비교하여 모든 감정 범주에서 향상된 탐지 능력을 입증하였다. 이에 따라 스페인어 환경에서는 모델 미세 조정에 시간을 할애하는 것이 불필요한 것으로 판단된다.

영어 데이터셋: 전반적인 성능은 우수하지만, 기쁨(Joy) 감정을 감지하는 영역에서는 여전히 개선의 여지가 남아 있다. 영어 환경에서 전체적인 효율성을 극대화하기 위해서는 해당 감정에 대한 탐지 정교화가 추가로 필요하다.


향후 연구 방향

연구진은 이번 분석을 바탕으로 연구의 범위를 더욱 역동적인 환경으로 확장할 계획이다. 현재의 단발성 트윗 분석을 넘어, 맥락 정보가 풍부한 턴 기반 대화(Turn-based conversation) 도메인에서 모델의 성능을 평가함으로써 실시간 상호작용 설정에서의 유효성을 검증하고자 한다.