AI, 인간보다 더 인간 같은 감정 주석가가 되다

비용은 낮추고 품질은 높이는 LLM 기반 고효율 데이터 정제법

by Kay

연이어 LLM을 활용해서 감정을 살펴보는 것이 기대만 못하다는 결론의 연구들을 살펴보긴 했지만, AI와 함께 지내온 지난 3년가량의 시간에 비추어 보건데 분명 전체 도메인 분야를 기준으로 보자면 AI는 이미 나의 역량의 평균보다는 말도 안 되게 높은 수준에 도달해 있음을 느낀다. 또한 그 격차는 앞으로도 점점 더 벌어질 것이 당연하고 그래야만 한다고 생각한다. 그렇다면 분명 나의 도메인 바운더리 안에 있는 감정의 영역에서도 분명 AI의 역할이 있을 것 같다는 생각이 들었다. 그리고 Michigan 대학교 연구진이 수행한 “From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs” 연구는 그에 대한 힌트를 제공하고 있다.


본 연구는 감정 인식 모델 훈련의 핵심인 인간 주석 데이터가 가진 품질과 비용의 한계를 극복하기 위해 LLM의 자동화 및 지원 가능성을 탐구한다. 연구진은 GPT-4의 성능을 지도 학습 모델 및 인간 주석과 비교하기 위해 ISEAR, SemEval, GoEmotions, Emobank 등 4개의 데이터셋을 활용하였다. 자동 지표상으로는 GPT-4가 기존 지도 학습 모델과 유사한 성능을 보였으나, 실제 인간 평가자가 주석의 정확도를 직접 비교한 결과 모든 데이터셋에 걸쳐 인간의 주석보다 GPT-4의 주석을 더 선호하는 일관된 경향이 나타났다. 이는 기존의 수치적 지표가 LLM의 실제 감정 이해 능력을 과소평가하고 있을 수 있음을 시사한다.


또한, 연구팀은 GPT-4를 주석 필터링 공정에 도입하여 모델 학습 효율을 개선할 수 있음을 입증하였다. 인간 주석과 GPT-4 주석이 일치하는 고품질 데이터만을 선별하여 학습시킨 결과, 전체 데이터의 45% 미만인 정제된 데이터만으로도 전체 데이터를 학습시킨 모델보다 더 뛰어난 성능을 얻을 수 있었다. 결과적으로 GPT-4는 모호하거나 품질이 낮은 인간 주석을 식별하고 필터링함으로써 더 깨끗하고 효율적인 학습 데이터셋을 구축하는 '품질 체커'로서의 강력한 잠재력을 보여주었다.


사실 에필로그처럼 글을 적고는 있지만, AI 주석가로서의 역할은 이미 가장 잘할 것으로 기대하고 있었고, 재작년에 진행한 프로젝트를 통해 직접 확인한 역할이기도 하다. tHReshold 커뮤니티 멤버들에게 매번 강조해 온 내용이지만, 그저 편할 생각으로 AI에게 모든 것을 턴키(Turnkey)로 맡겨서는 결과물의 품질을 결코 보장할 수 없다. Human in the Loop 관점에서 작업의 단계를 나누고, 나보다 더 잘할 수 있는 영역, 그래서 내가 해서는 안 되는 영역을 잘 선별해서 AI에게 명확한 역할을 부여하려는 노력이 감성 분석의 영역에서도 매우 중요해 보인다.




From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs


Niu, M., Jaiswal, M., & Provost, E. M. (2024). From text to emotion: Unveiling the emotion annotation capabilities of llms. arXiv preprint arXiv:2408.17026.


1. 이 연구를 3줄로 요약하면?

본 연구는 감정 주석(emotion annotation) 작업에서 GPT-4의 성능을 지도 학습 모델 및 인간과 비교하여 포괄적으로 평가한다.

전통적인 자동 평가 지표가 GPT-4의 능력을 과소평가할 수 있음을 발견했으며, 인간 평가자들은 다수의 데이터셋에서 인간의 주석보다 GPT-4의 주석을 더 선호하는 경향을 보였다.

또한 GPT-4를 활용한 주석 필터링이 모델 학습 효율성을 개선할 수 있음을 입증하며, 감정 인식 분야에서 대규모 언어 모델(LLM)의 활용 가능성을 제시한다.


2. 저자는 왜 이 연구를 진행했는가?

감정 인식 모델 학습을 위한 기존의 인간 주석 방식은 주석가의 주관성, 데이터의 다양성 및 품질 관리의 어려움, 그리고 높은 시간과 비용 문제라는 한계를 가지고 있기 때문이다.


3. 이 연구에서 중요하게 다뤄진 개념은?

감정 주석(Emotion Annotation): 텍스트나 음성에서 감정을 식별하고 라벨을 부여하는 작업이다.

범주적 라벨(Categorical labels): 기본 감정 이론에 기반하여 미리 정의된 감정 클래스 중 하나 이상을 할당하는 방식이다.

차원적 라벨(Dimensional labels): 감정의 긍정성과 강도를 반영하기 위해 원자가(valence) 및 각성(arousal)과 같은 연속적인 척도로 평가하는 방식이다.

제로샷 성능(Zero-shot performance): 별도의 추가 학습 없이 모델의 사전 지식만으로 작업을 수행하는 능력이다.


4. 저자는 어떤 방법을 사용했는가?

ISEAR, SemEval, GoEmotions, Emobank 등 4개의 데이터셋에서 샘플을 추출하여 GPT-4 주석을 생성하고, 이를 인간 주석 및 미세 조정된 BERT 모델과 비교했다.

자동 지표(UAR, Macro-F1, PCC, MAE) 평가와 더불어, 인간 평가자가 주석의 정확도를 직접 비교 선택하는 인간 평가(Human Evaluation) 실험을 수행했다.


5. 연구의 결과는?

자동 지표상으로 GPT-4는 지도 학습 모델과 유사한 성능을 보였으나, 실제 인간 평가에서는 모든 데이터셋에 걸쳐 인간 주석보다 GPT-4의 주석이 더 정확하다고 선호되었다.

특히 GPT-4는 고정된 범주를 선택하는 방식보다 자유롭게 감정을 기술할 때 더 높은 평가를 받았으며, 주석 품질 체커로서 부적절한 데이터를 걸러내어 소형 모델의 학습 효율을 높이는 데 효과적임을 입증했다.




1. 서론 (Introduction)


감정 인식 연구의 발전과 주석 작업의 중요성

언어로부터 인간의 감정을 이해하는 것은 컴퓨터가 인간과 유사하게 상호작용하는 시스템을 구축하는 데 있어 핵심적인 요소이다. 초기 단어 수준의 분석부터 정교한 신경망 모델에 이르기까지 이 분야는 비약적으로 발전해 왔으며, 현재 많은 모델이 다양한 인간의 감정을 인식하는 능력을 갖추고 있다. 이러한 감정 인식 모델의 훈련은 대부분 인간이 주석을 단 데이터셋에 의존해 왔다.


기존 인간 주석 방식의 한계와 도전 과제

감정 주석 작업은 감정 자체가 지닌 풍부함, 모호함, 그리고 주관적인 특성으로 인해 매우 까다로운 작업이다. 연구자들은 다음과 같은 여러 문제에 직면한다.

라벨링 체계 설정의 어려움: 특정 라벨링 체계를 뒷받침할 감정 이론을 선택해야 한다.

주석 과정의 복잡성: 주관적인 해석과 품질 문제를 해결하기 위해 샘플당 여러 명의 주석가가 필요하며, 최종 라벨을 결정하기 위해 다수결이나 평균 등의 집계 방법이 사용된다.

비용과 시간: 현대의 대규모 데이터셋을 구축하는 데 있어 수많은 주석가를 고용하는 과정은 막대한 비용과 시간을 소모하게 한다.

품질 관리: 라벨 공간이 복잡해질수록 데이터의 품질을 일정하게 유지하기가 더욱 어려워진다.


감정 이론의 주요 분류

주석 작업에 활용되는 감정 이론은 크게 두 가지로 나뉜다.

기본 감정 이론 (Basic emotion theory): 각 샘플에 미리 정의된 하나 또는 그 이상의 감정 클래스를 할당하는 범주적 라벨 (Categorical labels) 방식이다.

감정 원형 모델 이론 (Emotion circumplex theory): 긍정성(Valence)이나 강도(Arousal)와 같은 연속적인 척도를 사용하여 감정의 상태를 평가하는 차원적 라벨 (Dimensional labels) 방식이다.


대규모 언어 모델(LLM)의 잠재력과 연구의 목적

최근 대규모 언어 모델 (LLMs)은 제로샷 (Zero-shot) 또는 퓨샷 (Few-shot) 프롬프팅을 통해 상식적인 추론 능력을 보여주며 기존 지도 학습 모델에 필적하거나 이를 능가하는 성과를 내고 있다. 특히 LLM은 인간의 감정을 이해하고 정서적인 콘텐츠에 적절히 반응하는 능력을 갖추고 있어 감정 주석 작업을 돕는 도구로서 주목받고 있다.

본 연구는 GPT-4가 제로샷 방식으로 감정 주석을 수행할 수 있는 잠재력을 종합적으로 평가한다. 연구팀은 GPT-4의 성능을 기존 지도 학습 모델과 비교하는 데 그치지 않고, GPT-4와 인간의 지각 차이가 실제 평가자들에게 어떻게 인식되는지 분석한다. 또한 라벨 형식(범주적 vs 차원적)이 성능에 미치는 영향을 살펴보고, GPT-4를 기존 주석의 품질 검사기로 활용하여 보다 효율적인 훈련 데이터셋을 선별할 수 있는 가능성을 탐색한다.



2. 관련 연구 (Related Work)


대규모 언어 모델(LLM)의 정서적 능력

대규모 언어 모델(LLM)은 상당한 수준의 정서적 지능을 갖추고 있는 것으로 평가받는다. 기존 연구들에 따르면 LLM은 다음과 같은 능력을 보유하고 있다.

주어진 상황에 대한 평가(appraisal)를 도출한다.

대화 내에서 감정 및 그 원인을 식별한다.

사용자에게 정서적인 지지(emotional support)를 제공한다.

그러나 복잡한 감정 추론 과제에 있어서는 여전히 최첨단 LLM과 인간의 성능 사이에 주목할 만한 격차가 존재한다는 벤치마크 결과가 일관되게 나타난다. 또한 기존의 평가 지표들이 인간의 주석을 절대적인 정답으로 간주하여 모델을 평가하기 때문에, 이러한 방식이 편향되어 모델의 실제 효과를 과소평가할 수 있다는 점이 지적된다.


데이터 주석자로서의 LLM 활용

LLM은 다양한 언어 이해 작업에서 뛰어난 역량을 보여주지만, 높은 운영 비용과 에지(edge) 장치 배포의 어려움 때문에 실시간 사용보다는 주석 도구로서의 역할이 강조되고 있다. 특히 성능이 뛰어나면서도 크기가 작은 모델(compact models)을 훈련하기 위해 LLM을 주석 과정에 도입하여 데이터를 보강하려는 노력이 이어지고 있다. LLM은 특히 라벨 세트가 제한적이고 명확하게 정의된 작업에서 우수한 성능을 발휘하며, 샘플 주석 및 데이터 생성 작업에서 그 잠재력을 인정받고 있다.


프롬프트 기법과 모델의 민감도

LLM은 프롬프트의 형식과 단어 선택에 매우 민감하게 반응하므로, 성공적인 활용을 위해서는 적절한 프롬프트를 구성하는 것이 핵심적인 요소가 된다. 프롬프트 방식은 크게 빈칸 채우기 형태인 클로즈 프롬프트(cloze prompts)와 모델이 주어진 내용을 확장하여 답변하는 접두사 프롬프트(prefix prompts)로 나뉜다. 본 연구는 GPT-4의 생성 능력을 고려하여 접두사 프롬프트를 채택한다. 연구팀은 정교한 프롬프트 엔지니어링 기법의 효율성을 탐구하기보다는, 일반적으로 효과적이라고 알려진 관행을 따르며 최소한의 수정을 가한 프롬프트를 활용한다.



3. 데이터 (Data)


데이터셋 선정 개요

연구에서는 다양한 감정 표현 방식과 텍스트 도메인을 분석하기 위해 네 가지 공개 감정 인식 데이터셋을 사용한다. 각 데이터셋의 방대한 양을 고려하여, GPT-4 주석 생성과 분석을 위해 각 데이터셋에서 500개씩 총 2,000개의 샘플을 선별하여 활용한다.


분석에 사용된 데이터셋별 특성

ISEAR (International Survey on Emotion Antecedents and Reactions): 심리학 연구를 통해 수집된 데이터로, 기쁨, 공포, 분노, 슬픔, 혐오, 수치심, 죄책감 등 7가지 기본 감정에 대한 1인칭 보고서 형태의 텍스트 7,600개로 구성된다. 이 중 500개 샘플을 무작위로 추출하여 사용한다.

SemEval 2017 Task 4: 트위터에서 수집된 텍스트로, 11개의 감정 클래스 중 하나 이상의 라벨이 부여되어 있다. 데이터의 불균형이 심하기 때문에, 보다 다양한 감정 라벨을 분석에 포함하고자 로그 역 빈도 가중치(log inverse frequency weighting)를 적용하여 500개를 추출한다. 여러 감정이 포함된 샘플의 경우 가장 희귀한 라벨을 기준으로 가중치를 결정한다.

GoEmotions: Reddit 댓글에서 추출된 58,000개의 샘플을 포함하며, 세밀한 감정 탐색을 위해 설계되었다. 감탄, 후회, 감사 등 27개의 감정 카테고리와 '중립' 옵션을 포함한다. 마찬가지로 라벨 불균형을 해소하기 위해 로그 역 빈도 가중치를 적용하여 500개를 선정한다.

Emobank: 뉴스, 블로그 등 다양한 장르의 영어 문장 10,000개로 구성된다. 감정을 차원적으로 접근하는 VAD(Valence-Arousal-Dominance) 모델을 따르며 5점 척도로 주석이 달려 있다. 본 연구에서는 가장 널리 사용되는 '원자가(Valence)'에 집중하며, GPT-4의 관점과 일치시키기 위해 독자(reader)의 주석을 활용한다. 감정적 내용이 강한 샘플을 포함하기 위해 중립 점수(3점)에서의 로그 편차를 기준으로 가중치를 부여한다.



4. 방법론 (Methods)


4.1. GPT-4 프롬프팅 기법

연구팀은 각 감정 분류 데이터셋에 대해 두 가지 세트의 GPT-4 주석을 수집한다. 첫 번째는 미리 정의된 감정 클래스 중에서 선택하는 방식이며, 두 번째는 모델이 감정 설명자(descriptors)를 자유롭게 생성하도록 하는 방식이다.

지시 기반 프롬프팅: 인간 주석가에게 제공된 것과 유사한 지침을 GPT-4에 제공하는 방식을 사용한다.

페르소나 설정: 프롬프트 서두에 "당신은 감성 지능이 높고 공감 능력이 뛰어난 에이전트입니다"라는 페르소나를 설정하여 성능을 높인다.

다중 라벨 및 회귀 설정: 다중 라벨 데이터셋(GoEmotions, SemEval)의 경우 텍스트에서 표현된 모든 감정을 식별하고 쉼표로 구분하여 답변하도록 요청한다. 차원적 데이터셋(Emobank)의 경우 1에서 5 사이의 정수 값으로 원자가를 응답하도록 설계한다.


4.2. 자동 평가 지표

GPT-4의 성능은 두 가지 측면에서 평가된다. 첫째는 인간 주석과의 일치도이며, 둘째는 GPT-4의 주석을 훈련 데이터로 사용하여 BERT와 같은 소형 모델을 훈련시켰을 때의 성능 향상 잠재력이다.

분류 지표: 모델이 각 클래스를 균형 있게 식별하는지 측정하는 비가중 평균 재현율(UAR)과 정밀도 및 재현율의 균형을 평가하는 Macro-F1 점수를 사용한다.

회귀 지표: 선형 상관관계의 강도와 방향을 측정하는 피어슨 상관계수(PCC)와 평균 오차의 크기를 나타내는 평균 절대 오차(MAE)를 활용한다.


4.3. 지도 학습 모델: 미세 조정된 BERT

GPT-4와 비교할 지도 학습 기준점(Baseline)으로 각 데이터셋의 전체 훈련 세트에서 미세 조정된 BERT 모델을 구축한다.

모델 구성: 1억 1천만 개의 파라미터를 가진 'bert-base-uncased' 모델을 기반으로 하며, 그 위에 선형 레이어를 추가하여 전체 모델을 미세 조정한다.

학습 설정: AdamW 최적화 도구와 1e-5의 학습률을 사용한다. 분류 작업에는 교차 엔트로피 계열의 손실 함수를, 회귀 작업에는 평균 제곱 오차(MSE) 손실 함수를 적용한다.

최적화: 검증 세트에서 최고의 성능을 보이는 모델을 테스트에 사용하며, 회귀 작업의 경우 수렴을 위해 더 많은 에포크(30 epoch)를 학습시킨다.


4.4. 인간 평가 설계

인간 주석에도 오류가 포함될 수 있다는 점을 고려하여, GPT-4와 기존 인간 주석가가 서로 동의하지 않는 샘플을 대상으로 별도의 인간 평가를 수행한다.

평가자 구성: 대학생 4명을 평가자로 모집하여 주석의 출처를 밝히지 않은 상태에서 더 정확한 주석을 선택하게 한다.

분류 평가 방식: 두 주석원이 서로 완전히 다른 라벨을 부여한 샘플을 무작위로 섞어 제시하며, 각 샘플은 두 명의 평가자가 교차 검증한다.

회귀 평가 방식: 수치상의 미세한 차이를 판별하기 어려운 점을 고려하여, 두 주석원이 상대적인 순위를 서로 다르게 매긴 샘플 쌍을 찾아 어떤 샘플의 원자가가 더 높은지 판단하게 하는 상대적 평가 체계를 도입한다.



5. 결과 (Results)


5.1. GPT-4 제로샷 성능 (Zero-shot Performance)

인간 주석과의 일치도 및 혼동 양상

GPT-4와 인간 주석 간의 불일치를 분석한 결과, GPT-4는 대부분의 샘플에서 인간 주석과 잘 일치하는 모습을 보인다. 특히 긍정적 감정과 부정적 감정 사이의 혼동은 매우 드물게 나타나며, 혼동이 발생하는 경우에도 주로 유사한 감정들 사이에서 발생한다. 다만 감정 인식에 있어 비대칭적인 차이가 관찰되는데, 예를 들어 GPT-4는 인간이 죄책감으로 인식한 것보다 수치심을 더 많이 감지하는 경향이 있다.


수치적 성능 비교 및 인간 평가 결과

자동 평가 지표를 기준으로 했을 때, GPT-4는 기존 지도 학습 모델인 BERT와 유사한 수준의 성능을 기록한다. 7개 클래스로 구성된 ISEAR 데이터셋에서는 GPT-4가 BERT보다 우수한 성능을 보였으나, 라벨이 더 많고 복잡한 SemEval과 GoEmotions 데이터셋에서는 다소 도전적인 과제임을 확인하였다. 그러나 실제 인간 평가자들이 참여한 실험 결과는 다음과 같은 다른 양상을 보여준다.

인간 주석보다 GPT-4 선호: 모든 데이터셋에 걸쳐 인간 평가자들은 기존 인간 주석보다 GPT-4가 부여한 라벨을 일관되게 더 정확하다고 판단하였다(ISEAR 62.3%, SemEval 68.2%, GoEmotions 71.1%).

자유 생성 주석의 우수성: 미리 정의된 카테고리를 선택하는 방식보다 GPT-4가 자유롭게 감정을 기술하게 했을 때 인간 평가자들의 선호도가 더욱 높게 나타났다.

라벨 공간의 영향: 클래스 수가 적은 데이터셋일수록 자유 생성 주석에 대한 선호도가 높았으며, 이는 정확한 주석을 위해 풍부한 라벨 공간이 필요함을 시사한다.


차원적 라벨(회귀) 성능

Emobank 데이터셋을 활용한 원자가(Valence) 예측에서 GPT-4는 피어슨 상관계수(PCC) 0.764를 기록하며 상대적인 감정의 강도를 식별하는 데 탁월한 능력을 보였다. 비록 평균 절대 오차(MAE)는 BERT보다 높게 나타났으나, 이는 GPT-4가 정수값으로 응답하는 특성과 인간 주석의 높은 중앙 집중성 때문으로 분석된다. 실제 인간 평가에서도 56%의 사례에서 원래의 인간 주석보다 GPT-4의 평가가 더 적절하다는 결과가 도출되었다.


5.2. 모델 훈련에 미치는 영향 (Impact on Model Training)

훈련 데이터로서의 가치 분석

GPT-4가 생성한 주석이 실제 모델 학습에 기여할 수 있는지 확인하기 위해 GoEmotions 데이터셋을 활용한 실험을 진행하였다. 모델들은 자신이 훈련받은 주석 유형과 동일한 테스트 세트에서 가장 좋은 성적을 거두었으며, 이는 인간 주석과 GPT-4 주석 사이에 체계적인 차이가 존재함을 의미한다.


데이터 필터링을 통한 효율성 증대

인간 주석과 GPT-4 주석이 서로 일치하는 샘플만 추출한 '필터링된 데이터셋(Human-F)'을 활용한 훈련 결과는 다음과 같다.

고품질 데이터 선별: 인간 평가자들이 명확하게 선호도를 밝힌 '최종 검증 세트(Adjudicated test set)'에서 GPT-4 주석으로 훈련된 모델은 인간 주석으로 학습된 모델을 큰 폭으로 앞질렀다(0.524 vs 0.392).

학습 효율성 입증: 필터링된 데이터셋은 전체 데이터의 45% 크기에 불과하지만, 이를 통해 학습한 모델이 전체 인간 주석 데이터를 학습한 모델보다 최종 검증 세트에서 더 높은 정확도를 기록하였다.

노이즈 제거: 이는 GPT-4가 모호하거나 품질이 낮은 인간 주석을 식별하고 필터링함으로써 보다 효율적인 훈련 세트 구축을 도울 수 있음을 보여준다.



6. 논의, 한계 및 결론 (Discussion, Limitations and Conclusion)


연구 결과의 종합 및 LLM의 잠재력

본 연구는 GPT-4의 감정 인식 능력을 평가하였으며, 제로샷(Zero-shot) 성능이 지도 학습 모델과 대등한 수준임을 확인하였다. 특히 인간 평가 실험을 통해 GPT-4의 주석이 기존 인간의 주석보다 평가자들에게 더 선호된다는 점을 입증하였다. GPT-4는 감정 분류 작업에서 광범위한 선택지를 처리하는 데 뛰어난 역량을 보였으며, GPT-4 주석으로 훈련된 모델이 최종 검증 데이터셋에서 더 나은 예측 성능을 기록하였다. 이러한 결과들은 감정 인식 분야에서 대규모 언어 모델(LLM)이 활용될 수 있는 큰 잠재력을 시사한다.


인간 주석보다 GPT-4가 선호되는 이유

인간 평가자들이 GPT-4의 주석을 더 정확하다고 판단한 데에는 다음과 같은 요인들이 기여했을 것으로 분석된다.

인간의 인지적 한계: 감정 라벨 공간이 복잡해질수록 인간 주석가는 높은 인지 부하를 느끼게 되며, 이는 주석 오류나 품질 저하로 이어질 가능성이 크다.

주관성 및 모호성: 감정 주석은 본질적으로 주관적이며 모호한 특성을 지닌다. 주석가들 사이의 관점 차이나 주석 과정에서의 다양성 부족이 결과에 영향을 줄 수 있다.

데이터 품질 관리: 인간 주석 과정에서 발생할 수 있는 실수를 LLM이 보다 일관된 논리로 보완하거나 필터링할 수 있는 가능성을 보여준다.


향후 연구 방향 및 시사점

본 연구의 결과는 기존의 평가 관행에 대해 중요한 질문을 던진다. LLM이 인간 수준의 성능에 도달하거나 이를 넘어서기 시작함에 따라, 수집된 인간 주석을 절대적인 정답으로 간주하는 전통적인 '정답(Ground truth)' 개념을 재고할 필요가 있다. 연구팀은 변화하는 기술 환경에 맞춰 LLM의 성능을 보다 정확하게 측정할 수 있는 새로운 평가 지표와 방법론을 탐색해야 한다고 강조한다.