미세 감정 탐지 모델 성능 향상을 위한 실전 가이드
그간의 학습에 비추어 보건대, 내 데이터를 활용해 입맛대로 결과를 보고 싶다면 결코 AI를 있는 그대로 활용하는 접근으로는 안되고 이것저것 바꿔볼 필요가 있다. 요즘은 많이 편해졌다 싶기도 하지만, 원하는 결과를 얻기 위해 모델을 다듬고 데이터를 만지는 과정은 여전히 결코 단순한 작업이 아니다. 바야흐로 거대 언어 모델(LLM)의 시대가 오면 이러한 노가다성 노력이 무의미해진 것은 아닐까 내심 기대했으나, “Large Language Models on Fine-grained Emotion Detection Dataset with Data Augmentation and Transfer Learning” 연구는 여전히 인간의 정교한 설계와 실험이 핵심이라는 것을 보여준다.
본 연구는 27개의 미세한 감정 범주와 중립을 포함하는 GoEmotions 데이터셋의 분류 성능을 극대화하기 위한 실험적 여정을 다룬다. GoEmotions는 58,000개의 주석이 달린 대규모 데이터셋임에도 불구하고, '감탄'과 같은 다수 범주는 15,000개가 넘는 반면 '비탄' 같은 소수 범주는 1,000개 미만인 심각한 데이터 불균형 문제를 안고 있다. 이러한 불균형은 소수 범주의 예측 성능을 현저히 떨어뜨리는 원인이 된다. 연구진은 이를 해결하기 위해 최신 모델인 RoBERTa와 거대 언어 모델인 GPT-4를 도입하고, 데이터 증강 및 전이 학습을 결합한 다각도의 실험을 설계하였다.
실험 결과, 가장 효과적인 전략은 정교한 데이터 설계에 있었다. '비탄(grief)', '자부심(pride)', '안도(relief)' 등 성능이 저조한 소수 범주에 대해 ProtAugment 기법으로 데이터를 증강하고, 유사한 감정 도메인인 CARER 데이터셋으로 전이 학습을 병행했을 때 성능이 가장 유의미하게 향상되었다. 반면, 기대를 모았던 GPT-4는 제로샷(Zero-shot) 설정에서 존재하지 않는 레이블을 만들어내는 환각(Hallucination), 너무 많은 레이블을 부여하는 과잉 레이블링(Over-labelling), 문맥을 자의적으로 해석하는 과잉 해석(Over-interpretation) 문제를 드러내며 미세 조정된 전통적 모델보다 훨씬 낮은 성능(Accuracy 34.91%)을 기록하였다.
이것저것 바꿔가며 수많은 실험의 수레바퀴를 돌리는 일은 매우 고된 작업이었을 것이다. 하지만 이 연구는 그 과정을 따박따박 잘 정리한 것으로 아티클이라기보다 실험 결과 보고서 같은 느낌을 주었다. (혹시 클로드코드나 안티그래비티 이후에 실험할 걸 이라고 후회하고 있지는 않으려나...)
모델보다 중요한 것은 데이터의 질과 설계이다. 모델의 파라미터가 비약적으로 커진 LLM 시대에도, 특정 도메인에서 '입맛대로' 정교한 결과를 얻으려면 데이터 증강과 전이 학습 같은 고전적이지만 강력한 기법이 여전히 필수적이다.
LLM은 만능열쇠가 아니다. GPT-4와 같은 거대 모델조차 미세한 감정 분류 작업에서는 인간이 정밀하게 설계한 미세 조정(Fine-tuning) 모델의 성능을 따라잡지 못했다.
바라는 바가 비슷한 느낌의 뭉툭한 결과물이 아니라면, 내 데이터를 활용해 입맛대로 결과를 보고 싶다면 결코 AI를 있는 그대로 활용하는 것만으로는 안 된다는 것을 다시 한번 느낀다. 끊임없이 의심하고, 실험하고, 최적의 조합을 찾아가는 과정 자체가 AI 시대의 마스터피스를 위한 핵심임을 다시 한번 떠올려본다.
Wang, K., Jing, Z., Su, Y., & Han, Y. (2024). Large language models on fine-grained emotion detection dataset with data augmentation and transfer learning. arXiv preprint arXiv:2403.06108.
본 연구는 미세 감정 탐지 데이터셋인 GoEmotions의 분류 성능을 높이기 위해 데이터 증강 및 전이 학습 기법을 탐구한다.
소수 범주에 대한 데이터 증강과 CARER 데이터셋을 활용한 전이 학습이 모델의 성능을 유의미하게 향상시킴을 입증한다.
GPT-4와 같은 현대 거대 언어 모델(LLM)의 제로샷(Zero-shot) 성능을 평가했으나, 환각 및 과잉 해석 문제로 인해 미세 조정된 BERT 모델보다 낮은 성능을 보였다.
텍스트 내 미세한 감정을 탐지하는 것은 자연어 처리(NLP) 분야의 복잡한 과제이며 실무적 활용도가 높으나, 충분히 크고 잘 주석된 데이터셋이 부족하다는 한계가 있다. 또한, 4년 전 발표된 GoEmotions의 벤치마크 모델인 BERT 이후 등장한 RoBERTa나 GPT-4와 같은 최신 모델들의 성능을 검증하고, 데이터 불균형 문제를 해결하여 분류 성능을 최대한 끌어올리기 위해 연구를 진행했다.
GoEmotions: 27개의 감정 카테고리와 중립(Neutral)으로 구성된 58k개의 Reddit 댓글 데이터셋이다.
데이터 증강(Data Augmentation): 데이터 불균형을 해결하기 위해 DDA, BERT 임베딩, ProtAugment 기법을 사용한다.
전이 학습(Transfer Learning): 유사한 도메인의 CARER 데이터셋으로 사전 학습 후 타겟 데이터셋에 적용하는 방식이다.
거대 언어 모델(LLMs): GPT-4와 같은 모델의 감정 탐지 능력을 미세 조정된 모델과 비교한다.
먼저 기존 GoEmotions의 BERT 베이스라인 결과를 재현하고 RoBERTa와의 성능을 비교했다. 이후 데이터 불균형 문제를 해결하기 위해 소수 범주(Grief, Pride, Nervousness, Relief)를 대상으로 세 가지 데이터 증강 기법을 적용했다. 또한 CARER 데이터셋을 활용한 전이 학습을 수행하고, 마지막으로 GPT-4를 이용해 1,000개의 데이터 포인트를 제로샷 설정으로 테스트하여 성능을 분석했다.
실험 결과, RoBERTa는 예상과 달리 BERT보다 낮은 성능을 보였으나, 소수 범주에 대한 데이터 증강(특히 ProtAugment)과 CARER 데이터셋을 통한 전이 학습은 성능 향상에 기여했다. GPT-4는 제로샷 설정에서 환각(Hallucination), 과잉 레이블링(Over-labelling), 과잉 해석(Over-interpretation) 문제로 인해 기존 미세 조정 모델들보다 현저히 낮은 성능을 기록했다.
최근 자연어 처리(NLP) 분야에서 거대 언어 모델(LLM)이 막대한 관심을 받고 있는 가운데, 텍스트 내에 숨겨진 미세한 감정을 감지하는 작업은 수많은 실질적 활용 사례를 가진 복잡한 과제로 부상하고 있다.
감정 탐지의 주요 과제와 GoEmotions 데이터셋
텍스트 감정 탐지 분야의 가장 큰 장애물은 충분한 규모의 주석이 달린 데이터셋이 부족하다는 점이다. 이러한 문제를 해결하기 위해 Demszky 등은 58,000개의 영문 레딧(Reddit) 댓글을 27개의 감정 범주와 중립(Neutral)으로 분류한 GoEmotions 데이터셋을 구축하였다. 이는 수동으로 주석이 달린 감정 탐지 데이터셋 중 가장 큰 규모에 해당한다.
기존 연구팀은 이 데이터셋의 잠재력을 보여주기 위해 BERT 모델을 미세 조정(Fine-tuning)하여 전이 학습(Transfer Learning)의 강력한 베이스라인으로 제시한 바 있다.
연구의 시작과 재현 실험 결과
본 연구팀은 초기 실험을 통해 원본 논문의 결과를 심층적으로 분석하고 재현하였다. 여기에는 GoEmotions 데이터셋에 대한 BERT 모델의 미세 조정과, 이를 다른 분류 체계를 가진 감정 데이터셋에 적용하는 전이 학습 기술이 포함된다.
재현 성능: 28개 레이블 분류 작업에서 0.49의 매크로 평균 F1 점수(macro-average F1 score)를 달성하였다.
기존 연구와의 비교: 이는 원본 논문에서 보고된 최고 결과인 0.46보다 소폭 개선된 수치이다.
연구의 목적
연구팀은 재현 성능의 향상에도 불구하고 GoEmotions 데이터셋의 분류 성능을 개선할 여지가 여전히 많이 남아 있다고 판단한다. 핵심 목표는 다양한 방법론을 활용하여 미세 감정 탐지 데이터셋인 GoEmotions의 분류 성능을 가능한 한 최대한으로 높이는 것이다.
GoEmotions와 감정 분류 체계
본 연구의 토대는 텍스트 콘텐츠 내 감정 분류의 선구적 프레임워크인 GoEmotions에 기인한다. GoEmotions는 27개의 감정 범주와 1개의 중립 범주를 포함하여 총 28개의 뚜렷한 감정 카테고리를 식별하는 포괄적인 분류 체계를 갖추고 있다. 이 프레임워크는 감성 분석(Sentiment Analysis)을 강화하고, 특히 간결한 소셜 미디어 포스트 맥락에서 인간 감정의 광범위한 스펙트럼을 해석하는 데 중요한 역할을 한다.
SODA 데이터셋과 대화 에이전트
연구팀은 사회적 대화 시스템 분야의 독특한 데이터셋인 SODA(Social Dialogues)로부터 통찰을 얻었다. SODA는 사전 학습된 언어 모델의 사회적 기반 대화와 Atomic 10x 지식 그래프(Knowledge Graph)의 맥락적 지식을 통합하여 150만 개의 대화를 합성한 결과물이다.
이러한 통합 방식은 대화 에이전트 훈련의 주요 과제인 다양성, 규모, 품질 문제를 해결하며, 기존의 인간 저자 코퍼스보다 일관성, 구체성, 자연스러움 측면에서 우수한 성능을 보여준다. SODA의 기여는 더욱 실제적이고 일관성 있는 대화 에이전트를 개발하는 데 핵심적인 역할을 한다.
예측 불확실성(Predictive Uncertainty)과 CUE 프레임워크
최근 거대 언어 모델(LLMs)의 예측 불확실성(Predictive Uncertainty)에 관한 연구가 활발히 진행되고 있으며, 이는 모델의 신뢰성을 높이는 데 필수적이다. 불확실성은 다음과 같은 두 가지 유형으로 구분된다.
우연적 불확실성(Aleatoric Uncertainty): 데이터 자체에 내재된 무작위성에서 기인한다.
인식론적 불확실성(Epistemic Uncertainty): 불완전한 데이터 지식에서 비롯된다.
이러한 불확실성을 해결하기 위해 제안된 CUE(Contextual Uncertainty Elimination) 프레임워크는 변이형 오토인코더(Variational Auto-encoder)를 활용하여 잠재 텍스트 표현을 수정한다.
CUE는 단순히 영향력 있는 입력 토큰을 식별하는 것을 넘어, 텍스트 표현을 재보정하여 LLM 기반 텍스트 분류기의 불확실성을 해석하는 새로운 시각을 제공한다. 이는 모델의 투명성을 높이고 효과적인 불확실성 완화 전략을 수립하는 데 중대한 진전을 의미한다.
GoEmotions 데이터셋의 주요 한계점
GoEmotions 데이터셋은 58,000개의 레딧 댓글을 27개의 감정 카테고리와 중립으로 분류한 대규모 데이터셋이지만, 연구팀은 다음과 같은 세 가지 한계점을 식별하였다.
감정 카테고리의 불균형한 분포: 데이터셋 내 감정 범주가 자연적으로 매우 불균형하게 분포되어 있다. '감탄(admiration)', '승인(approval)', '성가심(annoyance)' 등 주요 범주는 1만 개 이상의 예시를 보유한 반면, '자부심(pride)', '안도(relief)', '비탄(grief)'과 같은 소수 범주는 1,000개 미만이다. 이러한 10배 이상의 샘플 수 차이는 모델이 소수 범주를 학습하는 데 부정적인 영향을 미치며, 실제로 기존 연구에서 '비탄' 카테고리는 모든 평가 지표에서 0점을 기록하기도 하였다.
데이터 및 주석의 편향성: 데이터가 영어권 레딧 커뮤니티에 국한되어 있고, 주석 작업이 모두 인도인 영어 화자에 의해 수행되었다. 이는 특정 문화권이나 플랫폼에 편향된 결과를 초래할 수 있으며, 글로벌한 다양성을 충분히 대표하지 못한다는 한계가 있다.
전통적 언어 모델에 대한 의존: GoEmotions의 원본 연구는 4년 전에 발표되었기에 BERT와 같은 전통적인 언어 모델에 의존하고 있다. GPT-4나 Llama와 같은 현대적인 거대 언어 모델(LLM)이 미세한 감정을 이해하고 해석하는 성능에 대한 탐구가 부족한 상태이다.
연구 가설
RoBERTa와 같은 최첨단 모델은 GoEmotions 데이터셋에서 BERT보다 우수한 성능을 보일 것이다.
데이터 증강(Data Augmentation) 기법을 적용하면 분류 성능이 향상될 것이다.
유사한 도메인을 가졌으나 분류 체계가 다른 데이터셋을 활용한 전이 학습은 성능을 더욱 개선할 것이다.
GPT-4나 Llama와 같은 현대적 LLM은 제로샷(Zero-shot) 설정에서도 전통적인 미세 조정 모델보다 뛰어난 성능을 보일 것이다.
실험 설계
재현 실험: 원본 논문의 실험을 재현하여 벤치마크 성능을 확보하고 실험 환경의 정확성을 검증한다.
모델 비교: RoBERTa 모델을 미세 조정하여 BERT 벤치마크와 성능을 비교한다.
데이터 증강 적용: 미세 조정을 수행하기 전, 원래의 훈련 데이터셋에 세 가지 데이터 증강 기술을 적용하여 성능 변화를 관찰한다.
심화 전이 학습: 먼저 CARER 데이터셋으로 모델을 학습시킨 후, 증강된 GoEmotions 데이터셋으로 다시 미세 조정을 수행하여 성능을 비교한다.
현대적 LLM 테스트: GPT-4와 Llama를 GoEmotions의 하위 집합에서 테스트하여 전통적인 모델들과 성능을 비교한다.
4.1 GoEmotions에 대한 BERT 미세 조정 (Fine-tuning BERT on GoEmotions)
연구팀은 먼저 기존 GoEmotions 논문의 실험을 재현하여 모델의 성능 기준점(Benchmark)을 확립하였다.
분류 체계(Taxonomy) 설정: 세 가지 계층 구조를 사용한다. 27개 감정과 중립을 포함한 원본(Original) 체계, 상관관계 기반의 그룹화(Grouped) 체계(3개 카테고리 + 중립), 그리고 6개 그룹으로 매핑한 에크만(Ekman) 체계이다.
모델 및 학습 설정: bert-base-cased 모델을 사용하며, 배치 크기 16, 학습률 5e-5, AdamW 옵티마이저 등 원본 논문과 동일한 하이퍼파라미터를 유지한다.
재현 결과: 원본 체계에서 매크로 F1 점수 0.51을 달성하여 기존 논문의 점수(0.46) 보다 높은 성능을 보였다. 그룹화 체계에서는 0.69, 에크만 체계에서는 0.62의 F1 점수를 기록하였다.
4.2 전이 학습 실험 (Transfer Learning Experiment)
GoEmotions 데이터셋이 다양한 도메인과 분류 체계에서 견고한 베이스라인이 될 수 있는지 검증하기 위해 ISEAR 데이터셋을 활용한 재현 실험을 수행하였다.
실험 방식: 훈련 세트 크기를 100개에서 전체의 80%까지 변화시키며 모델을 학습시킨다.
결과 분석: 연구팀의 재현 실험에서는 마이크로 F1 점수가 약 90%에 도달하여, 원본 논문이 기록한 약 60%보다 훨씬 높은 성능 향상을 보였다.
4.3 분석 및 통찰 (Analysis and Insights)
초기 실험 결과를 바탕으로 데이터셋의 특성과 개선 방향에 대한 통찰을 도출하였다.
소수 범주 성능 향상: 원본 연구에서 모든 지표가 0이었던 '비탄(grief)' 범주에서 0.46의 F1 점수를 기록하였다. 이는 더 많은 학습 에폭(Epoch)을 적용한 결과로 분석된다.
데이터 불균형 문제: '감탄(admiration)' 범주는 15,000개 이상의 데이터를 보유해 0.67의 F1 점수를 보인 반면, '안도(relief)' 범주는 1,000개 미만의 데이터로 인해 0.32의 낮은 성능을 보였다.
4.4 미세 조정된 RoBERTa가 더 강력한 베이스라인인가? (Is Fine-tuned RoBERTa A Stronger Baseline?)
연구팀은 RoBERTa 모델이 BERT보다 우수할 것이라는 첫 번째 가설을 검증하였으나, 실험 결과는 가설과 상반되었다. 동일한 설정에서 BERT가 RoBERTa보다 높은 F1 점수를 기록하였으며, 이는 특정 작업의 데이터 분포가 특정 모델에 더 적합할 수 있음을 시사한다. 이에 따라 연구팀은 이후 실험의 베이스라인 모델을 BERT로 수정하였다.
4.5 데이터 증강 (Data Augmentation)
데이터 불균형 문제를 해결하기 위해 세 가지 증강 기법(DDA, BERT 임베딩, ProtAugment)을 적용하였다.
전체 증강의 한계: 훈련 세트 전체를 5배로 증강했을 때 F1 점수가 0.44로 하락하였다. 이는 다수 범주의 데이터도 함께 늘어나 데이터 불균형의 척도인 표준 편차가 급증했기 때문이다.
소수 범주 타겟 증강: '비탄', '자부심', '신경과민', '안도' 등 성능이 낮은 소수 범주만 선별적으로 증강했을 때 성능이 개선되었다.
최적 기법: ProtAugment를 사용한 모델이 0.52의 매크로 F1 점수를 기록하며 가장 우수한 성능을 보였다.
4.6 전이 학습 (Transfer Learning - CARER)
추가적인 성능 향상을 위해 원거리 지도 학습으로 구축된 CARER 데이터셋을 활용한 전이 학습을 수행하였다.
절차: 먼저 CARER 데이터셋으로 BERT 모델을 선행 학습시킨 후, 증강된 GoEmotions 데이터셋으로 2차 미세 조정을 진행한다.
결과: CARER-BERT 모델에 ProtAugment 증강 데이터를 사용했을 때 F1 점수가 0.518까지 상승하며 전이 학습의 효과를 입증하였다.
4.7 GoEmotions에서의 현대 거대 언어 모델 (Modern Large Language Models on GoEmotions)
가장 최신 모델인 GPT-4의 제로샷 성능을 미세 조정된 모델들과 비교 분석하였다.
실험 설정: 1,000개의 데이터 포인트를 대상으로 28개 카테고리를 분류하도록 프롬프트를 구성하였다.
결과: GPT-4의 accuracy는 34.91%에 그쳤으며, F1 점수는 12.54%로 미세 조정된 BERT(51.9%)에 비해 현저히 낮았다. 이는 복잡한 다중 레이블 분류 작업에서 최신 LLM의 한계를 보여준다.
5.1 데이터 증강 분석 (Data Augmentation Analysis)
연구팀은 원본 학습 세트로 훈련된 BERT와 ProtAugment 기법이 적용된 학습 세트로 훈련된 BERT의 카테고리별 F1 점수를 비교하여 데이터 증강의 효과를 분석하였다.
전반적인 성능 향상: 매크로 평균 F1 점수가 0.46에서 0.52로 개선되었다. 이는 증강 프로세스가 모든 범주에 걸쳐 모델의 감정 분류 능력을 전반적으로 향상시켰음을 의미한다.
학습의 일관성 확보: F1 점수의 표준편차가 0.19에서 0.17로 감소하였다. 이는 증강을 통해 모델이 특정 범주에 치우치지 않고 여러 감정 카테고리에 대해 더 일관되게 학습했음을 시사한다.
카테고리별 개선 사항: 총 28개 클래스 중 23개 클래스에서 F1 점수가 향상되었다. 특히 직접 증강을 수행한 '비탄(grief)', '자부심(pride)', '신경과민(nervousness)', '안도(relief)' 범주에서 유의미한 성능 향상이 관찰되었다.
성능 저하 사례: '성가심(annoyance)', '실망(disappointment)', '욕구(desire)', '불만(disapproval)', '중립(neutral)' 등 일부 카테고리에서는 성능이 하락하였다. 이는 증강된 데이터가 특정 감정에 대해 소음(noise)을 유발했거나, 증강으로도 해결되지 않은 데이터 불균형 문제가 여전히 존재함을 나타낸다.
5.2 전이 학습 분석 (Transfer Learning Analysis)
CARER 데이터셋을 전이 학습에 도입한 결과, 모델의 분류 성능이 유의미하게 개선되는 여러 통찰을 얻었다.
CARER 통합의 효과: 일반적인 BERT 모델에 비해 CARER로 선행 학습된 CARER-BERT 모델은 통계적으로 유의미한 0.9%의 F1 점수 향상을 기록하였다.
타겟 증강과의 시너지: 성능이 낮은 카테고리를 대상으로 데이터 증강을 병행했을 때, CARER-BERT는 F1 점수가 4%까지 급등하는 놀라운 성과를 보였다.
최적의 조합: 여러 증강 방법 중 PROT 기법이 가장 효과적이었으며, PROT로 증강된 데이터셋에서 CARER-BERT가 일반 BERT보다 근소하게 우수한 성능을 보여 전이 학습의 긍정적인 영향을 확인하였다.
5.3 현대 LLM 분석 (Modern LLMs on GoEmotions Analysis)
제로샷 설정에서 GPT-4의 성능이 미세 조정된 모델들보다 현저히 낮게 나타난 원인을 세 가지 핵심 문제로 요약하였다.
환각 (Hallucination): GPT-4가 지정된 28개 범주에 포함되지 않는 감정 레이블을 생성하는 문제가 발생하였다. 예를 들어, 특정 문장에 대해 지정된 카테고리에 없는 '정보 제공(informative)'과 같은 레이블을 임의로 부여한 사례가 1,000개 중 89개에 달했다.
과잉 레이블링 (Over-labelling): 원본 데이터셋은 다중 레이블 비중이 낮음에도 불구하고, GPT-4는 거의 모든 문장에 2개 이상의 레이블을 부여하는 경향을 보였다. 1,000개 데이터 포인트 중 812개에서 정답보다 많은 레이블을 예측하였으며, 이는 정밀도와 재현율을 동시에 떨어뜨리는 결과를 초래하였다.
과잉 해석 (Over-interpretation): 문장의 의미를 지나치게 확대 해석하여 오류를 범했다. 평범한 제안이나 중립적인 문장을 '욕구(desire)'나 '낙관(optimism)'으로 분류하는 등 문맥의 표면적 의미를 넘어선 자의적 해석이 관찰되었다.
연구의 주요 성과와 기여
본 연구는 미세한 감정 분류 데이터셋인 GoEmotions의 분류 성능을 높이기 위한 탐색적 여정을 성공적으로 마무리하였다. 세심한 실험을 통해 데이터 증강(Data Augmentation)과 전이 학습(Transfer Learning)이 텍스트 내 감정 탐지 능력을 개선하는 매우 유효한 전략임을 검증하였다.
전이 학습의 효용성: CARER 데이터셋을 통합하여 전이 학습을 수행한 결과, 여러 실험 설정에서 F1 점수가 유의미하게 향상되는 성과를 거두었다.
데이터 증강의 위력: 특히 성능이 저조한 소수 범주에 집중하여 데이터를 증강하는 방식은 데이터셋의 균형을 맞추고 모델의 정확도를 높이는 강력한 도구임을 입증하였다.
최적의 전략 식별: 다양한 증강 기법 중 ProtAugment(PROT) 기반의 증강 데이터셋이 가장 우수한 성능을 보였으며, 이는 모델의 분류 결과를 개선하는 데 있어 타 기법보다 우월한 전략임을 확인하였다.
실험을 통한 통찰과 교훈
연구 과정에서 가설 검증을 통해 머신러닝 작업이 데이터셋의 특성에 얼마나 민감하게 반응하는지에 대한 중요한 통찰을 얻었다.
모델 선택의 특수성: 초기에 가설로 세웠던 RoBERTa 모델의 우월성은 실현되지 않았으며, 이는 일반적인 성능 지표보다 특정 작업에 최적화된 모델 선택과 구성이 중요하다는 점을 시사한다.
증강의 정교함: 데이터 증강이 성능을 끌어올릴 수 있는 것은 분명하지만, 기존의 데이터 불균형을 악화시키지 않기 위해서는 매우 정교하고 세밀한 적용이 필요함을 확인하였다.
현대 LLM의 한계 식별: GPT-4를 감정 분류에 적용했을 때 발생하는 세 가지 핵심적인 문제인 환각(Hallucination), 과잉 레이블링(Over-labelling), 과잉 해석(Over-interpretation)을 식별하여 현대적 모델의 한계를 명확히 규명하였다.
향후 연구 방향
본 연구의 결과는 GoEmotions 데이터셋을 넘어 자연어 처리(NLP) 분야 전반의 감정 탐지에 대한 이해를 넓히는 데 기여한다. 향후 연구는 다음과 같은 두 가지 방향으로 전개될 수 있다.
전략의 확장 적용: 본 연구에서 검증된 데이터 증강 및 전이 학습 전략을 다른 NLP 작업과 데이터셋에 적용하여, 더 견고하고 정확하며 공정한 머신러닝 모델을 개발할 수 있다.
서베이 논문 발간: 현재 거대 언어 모델(LLM) 중심의 트렌드에 비해 감정 탐지 도메인에 대한 연구 관심도가 상대적으로 낮다는 점에 주목한다. 따라서 이 분야의 다양한 방법론과 데이터셋별 성능을 종합적으로 분석하고 소개하는 서베이 논문(Survey paper)을 출판하여 연구자들에게 실질적인 도움을 주고자 한다.