AI는 어떻게 인간의 인지 부하를 해결하는가?

고품질 감정 데이터셋 구축을 위한 필승 전략

by Kay

LMS 시스템 안에 ABSA 모델을 적용하기 위한 프로젝트를 수행했던 적이 있다. 허깅페이스에 있는 감성분석 모델을 파인튜닝하기 위해 약 13만 개가량 되는 기존 설문 응답 데이터를 객관식 설문 문항과 매칭시키고, 나아가 긍/부정 여부까지 재학습을 위한 라벨링을 진행했다. 서울 소재 상위권 대학 학부생 7명의 도움을 받아 무한대로 간식을 제공하며, 꼬박 일주일간 진행했던 꽤나 큰 작업이었다.


고작 5개밖에 되지 않는 레이블 중 다중 선택하는 과업이었음에도 초반 하루 이틀가량은 주석자 간 해석의 차이로 인해 매 한 시간마다 지난 시간 작업 도중 헷갈렸던 결과물을 열어두고 함께 분류하는 워크숍 방식으로 품질을 맞췄던 기억이 있다. 지난번 정리했던 Michigan 대학 연구진의 후속 연구인 “Rethinking Emotion Annotations in the Era of Large Language Models” 연구를 읽고 나니 자연스레 그때의 기억이 떠오른다.


이 연구는 감정 주석 작업의 주관성과 고비용 문제를 해결하기 위해 GPT-4와 같은 대형 언어 모델(LLM)을 어노테이션 파이프라인에 통합하는 혁신적인 방법을 제시한다. 연구진은 ISEAR, SemEval, GoEmotions 등 다양한 레이블 복잡도를 가진 데이터셋을 활용해 GPT-4의 제로샷 성능을 인간과 비교했다. 놀랍게도 인간 평가자들은 전체의 62%에서 인간의 레이블보다 GPT-4의 결과가 더 정확하거나 선호된다고 응답했다. 특히 감정 범주가 28개에 달하는 GoEmotions처럼 레이블 공간이 커질수록 인간은 인지 부하로 인해 실수가 잦아지는 반면, GPT-4는 세밀한 감정 구분을 일관되게 수행하며 더 강력한 성능을 보여주었다.


나아가 연구진은 인간과 LLM이 협력할 수 있는 두 가지 실전적인 전략을 제안한다. 첫째는 '사전 필터링(Pre-filtering)'으로, LLM이 인간 어노테이터에게 보여줄 후보 레이블을 미리 좁혀주는 방식이다. 이를 통해 인간이 검토해야 할 선택지를 70% 이상 줄이면서도 핵심 정보를 90% 이상 보존하여 작업 효율과 일치도를 획기적으로 높였다. 둘째는 '사후 필터링(Post-filtering)'으로, 인간과 LLM의 레이블이 일치하지 않는 샘플을 저품질로 간주해 제거하는 품질 체크 기법이다. 이 방식으로 정제된 데이터는 원래 크기의 40% 수준임에도 불구하고, 이를 통해 학습된 BERT 모델은 전체 데이터를 썼을 때보다 더 높은 정확도를 기록하며 데이터 정제의 힘을 입증했다.


무척이나 흥미로운 내용인 데다가 반드시 적용해 봐야겠다는 생각이 드는 실전적인 연구라 기쁜 마음으로 줄 쳐가며 읽을 수 있었다. 나의 프로젝트 중 라벨링 작업은 LLM 이전에 진행한 것이긴 하지만, 돌이켜보면 그야말로 무식해서 용감했었고, 결과적으로 운이 좋았던 것 같다는 말 밖에는 딱히 다른 표현이 떠오르지 않는다. 당시 매 시간 워크숍을 진행하며 머리를 맞댔던 과정은 사실 이 연구가 말하는 인간의 인지 부하와의 사투였던 것도 같다. 만약 그때 지금처럼 다양한 AI 도구가 있어 사전 필터링만이라도 해줬더라면, 어렵게 섭외한 학생들이 훨씬 덜 고생하고도 더 정교한 ABSA 모델을 만들 수 있지 않았을까도 싶지만 그래도 맨땅에 헤딩했던 경험이 있어 이 연구의 접근 방식과 결과가 더욱 와닿았던 것 같기도 하다.




Rethinking Emotion Annotations in the Era of Large Language Models


Niu, M., El-Tawil, Y., Romana, A., & Provost, E. M. (2025). Rethinking emotion annotations in the era of large language models. IEEE Transactions on Affective Computing.


1. 이 연구를 3줄로 요약하면?

대형 언어 모델(LLM), 특히 GPT-4가 감정 어노테이션(Annotation) 작업에서 인간보다 높은 선호도를 얻거나 대등한 성능을 보임을 입증한다.

인간의 주관성과 인지 부하 문제를 해결하기 위해 GPT-4를 어노테이션 파이프라인의 사전 필터(레이블 제한) 및 사후 필터(품질 체크)로 활용하는 방안을 제안한다.

LLM이 인간의 관점을 완전히 대체하기보다는, 인간과 협업하여 감정 데이터의 품질과 구축 효율성을 높이는 도구로서의 잠재력을 강조한다.


2. 저자는 왜 이 연구를 진행했는가?

감정 인식 시스템 구축을 위한 인간의 어노테이션 작업은 비용이 많이 들고, 감정의 주관적인 특성상 일치도가 낮으며 품질 관리가 어렵다는 고질적인 문제가 있다. 최근 LLM이 다양한 언어 이해 작업에서 뛰어난 성능을 보임에 따라, 이를 감정 어노테이션 과정에 통합하여 기존의 한계를 극복하고 새로운 어노테이션 관행을 제시하고자 연구를 수행하였다.


3. 이 연구에서 중요하게 다뤄진 개념은?

감정 인식(Emotion Recognition): 텍스트에 표현된 감정을 분류하고 해석하는 기술이다.

제로샷 어노테이션(Zero-shot Annotation): 별도의 추가 학습 없이 프롬프트만으로 모델이 레이블을 생성하는 방식이다.

인지 부하(Cognitive Load): 어노테이터가 많은 선택지 중에서 레이블을 고를 때 겪는 정신적 부담이다.

사전/사후 필터링(Pre/Post-filtering): 어노테이션 효율을 높이기 위해 레이블 후보를 미리 좁히거나, 결과물 중 저품질 샘플을 걸러내는 전략이다.


4. 저자는 어떤 방법을 사용했는가?

GPT-4를 활용하여 세 가지 주요 데이터셋(ISEAR, SemEval, GoEmotions)에 대해 제로샷 감정 분류를 수행하였다. 이후 인간 평가자들을 모집하여 GPT-4의 결과와 기존 인간 어노테이터의 결과를 블라인드 테스트 방식으로 비교 평가하였다. 또한, GPT-4를 레이블 후보 추천 도구로 사용하는 실험과, 인간 레이블의 오류를 검출하는 품질 관리 도구로 사용하여 하위 모델(BERT 등)의 성능 변화를 측정하는 실험을 병행하였다.


5. 연구의 결과는?

인간 평가자들은 전체의 62%에서 인간의 레이블보다 GPT-4의 레이블을 더 선호하거나 정확하다고 평가하였으며, 특히 감정 범주가 복잡할수록 GPT-4의 우위가 두드러졌다. GPT-4를 활용한 사전 필터링은 인간 어노테이터의 인지 부하와 작업 시간을 줄이면서도 높은 일치도를 이끌어냈고, 사후 필터링을 통해 정제된 데이터로 학습한 소형 모델은 전체 데이터를 사용했을 때보다 더 높은 성능과 효율성을 보였다.




1. 서론 (Introduction)


인간의 감정을 인식하고 해석하며 이에 적절히 대응할 수 있는 시스템을 개발하는 것은 교육, 의료 등 다양한 인간 중심 인공지능(AI) 분야에서 핵심적인 역할을 수행한다. 최근 딥러닝 기술의 발전으로 감정 인식 성능이 비약적으로 향상되었으나, 이러한 시스템은 여전히 인간이 어노테이션(Annotation)한 감정 레이블에 크게 의존하고 있다.


기존 인간 어노테이션의 한계

감정의 본질적인 모호성과 주관성으로 인해 인간을 통한 레이블링 작업은 다음과 같은 여러 가지 난제에 직면해 있다.

높은 비용: 데이터 구축에 막대한 시간과 자원이 소모된다.

낮은 신뢰성: 어노테이터 간의 일치도가 낮게 나타나는 경우가 많으며, 연구 설계의 미세한 변화에도 결과가 민감하게 달라진다.

품질 관리의 어려움: 개인의 경험이나 인구통계학적 요인에 따라 감정 지각이 달라지므로, 실제 오류와 정당한 지각 차이를 구분하기 어렵다.


LLM의 등장과 연구의 목적

최근 대형 언어 모델(LLM)은 자연어 이해 분야에서 뛰어난 성능을 보이며 감정 분석 및 어노테이션의 유망한 도구로 부상하였다. 본 연구는 GPT-4를 중심으로 감정 어노테이션의 복잡성을 분석하고, LLM이 기존의 문제를 어떻게 해결할 수 있는지 탐구한다. 특히, 자동화된 메트릭보다는 인간의 관점에서 LLM의 성능을 재평가하고, 이를 어노테이션 파이프라인에 효과적으로 통합하는 방법을 모색한다.


연구의 주요 기여

본 논문은 감정 어노테이션 분야에 다음과 같은 세 가지 주요 기여를 한다.

체계적 성능 평가: 다양한 레이블 복잡성을 가진 데이터셋에서 GPT-4의 제로샷 어노테이션 능력을 평가하고, 인간 평가자가 기존의 인간 레이블보다 GPT-4의 결과를 더 선호하는 경향이 있음을 확인한다.

레이블 공간 영향 분석: 레이블 공간의 크기가 어노테이션 품질에 미치는 영향을 분석하여, 세밀한 감정 범주를 처리하는 데 있어 GPT-4가 가진 강점을 규명한다.

혁신적인 통합 전략 제안: GPT-4를 사전 필터(레이블 추천) 및 사후 필터(품질 체크)로 활용하는 두 가지 새로운 전략을 제안하고, 이를 통해 어노테이션의 일치도와 효율성을 높일 수 있음을 입증한다.



2. 관련 연구 (Related Work)


감정 인식 시스템을 구축하기 위해서는 감정을 정의하는 방식과 이를 수집하는 과정에서의 한계, 그리고 최근 부상한 대형 언어 모델(LLM)의 능력을 이해하는 것이 필수적이다.


2.1. 감정 레이블 공간 (A. Emotion Label Spaces)

감정을 수치화하고 분류하기 위해 주로 사용되는 프레임워크는 크게 두 가지 범주로 나뉜다.

범주형 레이블 공간 (Categorical Label Spaces): 감정을 기쁨, 슬픔 등 사전에 정의된 하나 이상의 범주로 표현한다. 에크만(Ekman)의 6가지 기본 감정 이론을 따르거나, 특정 데이터셋의 목적에 맞춰 수치나 종류를 조정하여 사용한다.

차원형 레이블 공간 (Dimensional Label Spaces): 감정을 긍정-부정(Valence)이나 흥분-차분(Activation)과 같은 연속적인 축을 따라 개념화한다.

레이블 세트를 선택할 때는 이론적 근거를 따르거나 사전 연구를 통해 목표 데이터에 가장 적합한 집합을 결정한다. 예를 들어, GoEmotions 데이터셋은 반복적인 정제 과정을 거쳐 27개의 감정 클래스를 확정하여 세밀한 분류를 시도하였다.


2.2. 인간 어노테이션 획득의 난제 (B. Challenges in Obtaining Human Annotations)

고품질의 신뢰할 수 있는 인간 감정 레이블을 얻는 것은 매우 어려운 작업이다. 감정 작업은 본질적으로 주관적이기 때문에 어노테이터 간의 일치도가 낮게 나타나는 것이 일반적이다.

인구통계학적 요인: 성별, 연령, 인종 등의 요소가 감정 지각에 상당한 영향을 미치며, 어노테이터의 다양성이 부족할 경우 편향된 모델이 생성될 위험이 있다.

설계 선택의 영향: 레이블 공간이 커질수록 더 정확한 묘사가 가능하지만, 어노테이터 간의 일치도는 낮아지고 인지적 피로도가 증가한다.

맥락과 주의력: 맥락 정보의 유무나 샘플의 제시 순서에 따라 판단이 달라지며, 크라우드소싱 플랫폼에서는 참여자의 주의력 부족으로 인한 품질 저하 문제도 빈번하게 발생한다.

이러한 모호성 때문에 어노테이션의 품질을 평가하는 것도 쉽지 않다. 단순히 높은 일치도가 반드시 의미 있는 레이블을 보장하는 것은 아니며, 기존의 '정답(Golden Label)' 자체가 오류를 포함하고 있을 가능성도 존재한다.


2.3. LLM의 감정적 능력 (C. Emotional Capability of LLMs)

최근의 대형 언어 모델은 대화 상호작용을 통해 감정을 인식하고 원인을 분석하며 공감을 표현하는 등 감정적 지능을 보여주고 있다.

제로샷 성능: RoBERTa와 같은 오픈소스 모델부터 GPT-4, Gemini와 같은 상업적 모델에 이르기까지 별도의 학습 없이도 합리적인 감정 인식 성능을 보여준다.

평가 기준에 따른 차이: 인간의 어노테이션을 절대적인 정답으로 삼는 자동 평가에서는 LLM이 소형 지도학습 모델보다 열세인 것으로 나타나기도 한다. 그러나 인간 평가자를 참여시킨 연구에서는 LLM이 인간보다 더 나은 성능을 보인다는 긍정적인 결과가 보고되기도 한다.

레이블 공간 크기의 영향: 초기 결과들에 따르면 LLM이 레이블 공간이 클수록 성능이 떨어진다는 지적이 있으나, 이는 적절한 프롬프팅 기법을 통해 완화될 수 있는 문제인지에 대해 추가적인 탐구가 필요하다.

이러한 LLM의 능력은 기존 인간 중심의 어노테이션 방식이 가진 비용과 신뢰성 문제를 보완할 수 있는 새로운 가능성을 제시한다.



3. 데이터셋 (Datasets)


본 연구에서는 감정 인식 모델을 평가하기 위해 도메인, 주제, 감정 클래스의 세분화 정도가 서로 다른 세 가지 영어 감정 분류 데이터셋을 사용한다.


주요 사용 데이터셋 목록

ISEAR (International Survey on Emotion Antecedents and Reactions): 27개국의 참가자들이 작성한 7,000개 이상의 자기 보고형 감정 경험 설명을 담고 있다. 분노(Anger), 혐오(Disgust), 공포(Fear), 죄책감(Guilt), 기쁨(Joy), 슬픔(Sadness), 수치심(Shame)의 7개 카테고리로 구성되며, 데이터를 60%의 훈련셋, 20%의 개발셋, 20%의 테스트셋으로 무작위 분할하여 사용한다.

SemEval 2018 Task 1 (SemEval): 국제 의미 평가 워크숍에서 공개된 다국어 감정 분석 과제의 일부로, 본 연구에서는 트위터(Twitter) 데이터를 다루는 영어 서브 태스크(E-c)를 활용한다. 각 트윗은 크라우드소싱을 통해 11개 감정 클래스 중 0개에서 여러 개로 어노테이션 된 멀티레이블 데이터이며, 공식적으로 제공된 훈련/개발/테스트 분할을 그대로 유지한다.

GoEmotions: 약 58,000개의 영어 레딧(Reddit) 댓글로 구성된 대규모 멀티레이블 데이터셋이다. 중립(Neutral)을 포함한 28개의 세분화된 감정 범주를 제공하며, 레이블의 다양성이 풍부하여 미세한 감정 분류 연구에 적합하다. 연구에서는 공개된 훈련/개발/테스트 분할 데이터가 사용된다.

각 데이터셋은 소셜 미디어(트윗, 레딧)부터 개인적인 수기(자기 보고서)까지 다양한 텍스트 형식을 포함하고 있어, 모델의 일반화 능력을 폭넓게 검증할 수 있는 환경을 제공한다.



4. GPT-4의 감정 어노테이션 능력 (GPT-4's Emotion Annotation Capability)


4.1. GPT-4 프롬프팅 및 설정 (A. GPT-4 Prompting)

GPT-4의 성능을 측정하기 위해 Microsoft Azure API의 gpt-4-1106-preview 모델을 사용한다.

페르소나 설정: GPT-4에 "감정 지능이 있고 공감 능력이 뛰어난 에이전트"라는 페르소나를 부여하여 인간 어노테이터와 유사한 관점을 갖도록 유도한다.

지침 및 형식: 시스템 프롬프트를 통해 제공된 감정 목록에서만 레이블을 선택하도록 지시하며, 결괏값은 규칙 기반 파싱이 가능한 특정 형식을 따르도록 한다.

샘플 정제: GPT-4의 콘텐츠 정책에 의해 거부된 유해 하거나 민감한 샘플(ISEAR 3.7%, Semeval 4.5%, GoEmotions 2.6%)은 분석 대상에서 제외한다.


4.2. 인간 평가 설계 (Human Evaluation Study)

절대적인 정답이 없는 감정 레이블의 특성을 고려하여, 기존 어노테이터와 구별되는 별도의 '평가자' 그룹을 모집하여 블라인드 테스트를 실시한다.

샘플 선정: 각 데이터셋에서 500개씩 총 1,500개의 샘플을 추출하며, 불균형한 레이블 분포를 보정하기 위해 가중치 샘플링을 적용한다. 이 중 인간과 GPT-4의 레이블이 서로 다른 990개 샘플을 최종 평가 대상으로 삼는다.

평가 항목: 평가자에게 텍스트와 함께 출처를 가린 두 가지 옵션(인간 레이블, GPT-4 레이블)을 제시하고 다음 세 가지를 질문한다.
. 감정적 모호성: 문장의 감정을 자신 있게 설명할 수 있는가?
. 인지된 정확도: 각 옵션이 작성자의 감정을 얼마나 정확하게 반영하는가? (7점 리커트 척도)
. 선호도: 둘 중 하나를 선택해야 한다면 어느 쪽에 더 동의하는가?


4.3. 레이블 분포와 불일치 분석 (C. Label Distributions and Agreement Analysis)

혼동 행렬(Confusion Matrices)을 통해 분석한 결과, GPT-4의 어노테이션은 전반적으로 인간의 판단과 일치하는 경향을 보인다.

유사 감정 간 혼동: 기쁨과 같은 긍정적 감정과 분노와 같은 부정적 감정 사이의 혼동은 드물며, 주로 분노-혐오와 같은 유사한 부정적 감정 사이에서 불일치가 발생한다.

비대칭적 불일치: 특정 데이터셋(ISEAR)에서는 인간이 분노로 본 것을 GPT-4가 슬픔으로 판단하는 경우가 많으나, 다른 데이터셋(GoEmotions)에서는 그 반대의 양상이 나타나는 등 데이터셋별 비대칭성이 관찰된다.

관점의 차이: 이러한 결과는 GPT-4와 인간 사이에 체계적인 관점 차이가 존재하며, 이는 데이터셋의 특성이나 감정 카테고리에 따라 가변적임을 시사한다.


4.4. 인간 평가 결과 (D. Human Evaluation Results)

인간 평가자들의 투표 결과, GPT-4의 어노테이션이 인간의 레이블보다 더 높은 선호도와 정확도를 얻었다.

선호도 우세: 전체 샘플의 62%에서 평가자들은 GPT-4의 레이블을 선호하였으며, 59명의 평가자 중 약 90%가 개인별 통계에서도 GPT-4의 결과를 더 많이 선택하였다.

정확도 등급: 인간 어노테이터의 레이블은 정확도 3점 이하의 부정적 평가를 받은 비율이 24.3%인 반면, GPT-4는 15.1%에 그쳤다. 반면 '매우 정확함(7점)'을 받은 비율은 GPT-4가 훨씬 높았다.

레이블 공간의 영향: 감정 범주가 27개로 가장 많은 GoEmotions에서 GPT-4에 대한 선호도가 가장 높게 나타났다. 이는 레이블 공간이 복잡할수록 인간은 인지 부하로 인해 실수를 저지르기 쉬운 반면, GPT-4는 세밀한 구분을 더 효과적으로 수행함을 보여준다.

취약점 분석: LIWC를 활용한 분석 결과, 언급(Mentions), 전치사, 미래 지향적 단어, 의문문이 많이 포함된 텍스트에서는 GPT-4에 대한 선호도가 낮아지는 경향이 확인되었다. 이는 모델이 텍스트 외부의 사회적 단서나 시간적 구조를 이해하는 데 여전히 어려움이 있음을 시사한다.



5. GPT-4 보조 감정 어노테이션의 타당성 (Feasibility of GPT-4 Aided Emotion Annotation)


5.1. 레이블 수준의 사전 필터링 (Pre-Filtering, Label-Level)

레이블 공간이 커질수록 감정의 다양성은 보존되지만 인간 어노테이터의 인지 부하(Cognitive Load)가 증가한다. 이를 해결하기 위해 인간에게 레이블을 제시하기 전, GPT-4가 가능성이 낮은 레이블을 동적으로 제거하는 방식을 제안한다.

필터링 방식: GPT-4에게 감정 목록을 하나씩 검토하며 해당 감정이 텍스트에 존재할 가능성이 있는지 '예/아니요'로 응답하게 한다. 이때 위양성(False Positive)보다 위음성(False Negative, 실제 감정을 놓치는 것)을 방지하기 위해 조금이라도 확신이 없으면 '예'를 선택하도록 유도한다.

실험 설계: 동일한 샘플에 대해 소규모 레이블 세트(11개), 대규모 레이블 세트(30개), 그리고 GPT-4로 사전 필터링된 세트라는 세 가지 환경을 구축하여 어노테이터 그룹 간 성능을 비교한다.

인지 부하 및 효율성: 사전 필터링을 적용한 경우, 대규모 레이블 세트를 그대로 사용할 때보다 작업 시간이 샘플당 약 25초에서 17초로 단축되었으며, 어노테이터가 느끼는 정신적 요구 사항(Mental Demand)도 유의미하게 감소하였다.

레이블 신뢰성 및 커버리지: 사전 필터링 환경에서의 어노테이터 간 일치도(Jaccard Index)는 대규모 세트보다 높았으며, 인간이 대규모 세트에서 선택한 레이블의 90.19%를 사전 필터링 세트가 포함하고 있어 낮은 위음성률을 입증하였다.


5.2. 샘플 수준의 사후 필터링 (Post-Filtering, Sample-Level)

이미 구축된 데이터셋의 품질을 높이기 위해 GPT-4를 사후 품질 검사기(Quality Checker)로 활용하는 방안을 탐구한다.

필터링 메커니즘: 인간이 부여한 레이블과 GPT-4가 예측한 레이블을 비교한다. 두 소스가 완전히 불일치하는 샘플(단일 레이블의 경우 서로 다른 레이블, 멀티레이블의 경우 겹치는 레이블 없음)을 저품질로 판단하여 데이터셋에서 제거한다.

모델 학습 결과: GoEmotions 데이터셋에 이 방식을 적용하여 전체 데이터의 약 40% 수준인 16,592개 샘플로 정제된 세트를 구축하였다. 이 데이터로 BERT와 DistilBERT 모델을 학습시킨 결과, 전체 데이터를 사용하여 학습했을 때보다 테스트셋에서 더 높은 성능(F1 스코어 및 UAR)을 기록하였다.

데이터 효율성: 무작위로 샘플 수를 줄인 실험군보다 사후 필터링된 데이터셋의 성능이 압도적으로 높았다. 이는 GPT-4가 주석 오류가 포함된 샘플을 효과적으로 식별하여 모델 학습의 효율성과 결과물의 정확도를 동시에 개선할 수 있음을 의미한다.



6. 논의 (Discussion)


GPT-4 성능의 재해석과 평가 방식의 전환

GPT-4의 예측은 전반적으로 인간이 작성한 레이블과 높은 일치도를 보이지만, 인간 평가자를 통한 직접 비교 연구에서는 오히려 기존 인간 레이블보다 GPT-4의 결과가 더 선호되는 흥미로운 결과가 나타났다. 이는 단순히 기존 인간 레이블을 정답(Ground Truth)으로 간주하고 모델을 벤치마킹하는 전통적인 평가 방식이 대형 언어 모델(LLM)의 실제 능력을 과소평가하거나 오해의 소지가 있는 결과를 낼 수 있음을 시사한다. 따라서 감정 인식 작업에서 LLM을 평가할 때는 인간 중심의 다각적인 평가 지표가 수반되어야 한다.


레이블 공간 복잡성과 어노테이션 품질의 관계

감정 레이블 공간의 크기는 어노테이션의 품질과 인간의 작업 수행 능력에 서로 상반된 영향을 미친다.

정교한 묘사의 이점: 레이블 공간이 클수록 감정의 미묘한 차이를 더 상세하게 묘사할 수 있어 인간 평가자들에게 더 정확하다는 인상을 준다.

인지적 부담의 한계: 반면 레이블 공간이 넓어질수록 인간 어노테이터가 느끼는 인지 부하는 증가하며, 이는 집중력 저하나 실수로 이어져 레이블의 신뢰성을 떨어뜨리는 원인이 된다.

LLM의 강점: GPT-4는 적절한 프롬프팅이 주어질 경우 대규모 레이블 체계에서도 인지 부하의 영향을 받지 않고 세밀한 감정 카테고리를 효과적으로 처리하는 능력을 보여준다.


인간과 LLM의 협업 모델 및 위험 요소

GPT-4가 어노테이션 보조 도구로서 강력한 잠재력을 지녔음에도 불구하고, 인간 어노테이터를 완전히 모델로 대체하는 것에는 신중한 접근이 필요하다.

관점의 다양성 보존: 인간과 GPT-4 사이에는 체계적인 관점 차이가 존재하며, 모델에만 전적으로 의존할 경우 인간이 자연스럽게 제공하는 맥락 민감적인 판단이나 감정 해석의 다양성이 좁아질 위험이 있다.

체계적 오류의 가능성: 모델 특유의 편향이나 예측 불가능한 불안정성이 존재하므로 인간의 감독 없이 자동화된 어노테이션만을 사용하는 것은 위험할 수 있다.


제안된 통합 전략의 효용성

인간의 통찰력과 LLM의 효율성을 결합하기 위해 제안된 두 가지 필터링 전략은 실질적인 성과를 입증하였다. 사전 필터링은 레이블 옵션을 70% 이상 줄여 인간의 인지 부하를 획기적으로 낮추면서도 핵심적인 레이블 정보를 90% 이상 보존하였다. 또한 사후 필터링을 통해 정제된 데이터셋은 학습 데이터의 양이 대폭 줄어들었음에도 불구하고 이를 통해 학습된 소형 모델의 성능이 오히려 개선되는 결과를 낳아, 데이터 구축의 효율성과 모델의 정확도를 동시에 확보할 수 있음을 보여주었다.



7. 한계점 및 향후 연구 (Limitations and Future Work)


분석 및 평가의 한계

연구 과정에서 나타난 분석적 한계와 향후 개선 방향은 다음과 같다.

감정의 다차원적 특성: 감정은 주관적이고 문화적이며 맥락적인 차원을 포함하는 풍부한 주제이다. 본 연구는 이러한 복잡한 요인들이 어노테이션에 미치는 영향을 완벽하게 통제하거나 분석하지 못하였다.

오류 사례 분석 부족: 혼동 행렬을 통한 통계적 분석 외에, GPT-4가 인간의 어노테이션과 다르게 판단한 구체적인 실패 사례들을 체계적으로 분석하지 않았다. 모델이 왜 특정 맥락에서 오답을 내는지 이해하는 작업은 향후 연구에서 중요하게 다루어져야 한다.

방법론의 초기 단계성: 제안된 사전 및 사후 필터링 방법은 모델의 보조 능력을 보여주는 예비적인 입증일 뿐이며, 이를 확고한 솔루션으로 보기에는 추가적인 정교화 작업이 필요하다.


사회적 및 기술적 위험 요소

LLM을 실제 환경에 배포하기 전에 반드시 고려해야 할 위험 요소들이 지적되었다.

편향 및 공정성 문제: LLM은 훈련 데이터에 포함된 사회적 편향을 반영하거나 증폭시킬 위험이 있다. 본 연구에서는 편향이나 공정성 이슈를 실증적으로 검증하지 않았으므로, 의료나 정신 건강과 같은 민감한 도메인에 적용하기 전에는 이에 대한 엄격한 검토가 필요하다.

프롬프트 민감성: 모델의 성능이 프롬프트 기술이나 하이퍼파라미터 설정에 매우 민감하게 반응한다는 점을 인정하며, 더 안정적인 성능을 보장할 수 있는 프롬프트 최적화 연구가 병행되어야 한다.


작업 범위의 확장

본 연구는 주로 감정 분류(Classification) 작업에 집중하였으나, 다른 형태의 감정 표현에 대한 연구 필요성도 확인되었다.

차원형 어노테이션의 과제: 차원형(Dimensional) 감정 어노테이션 실험에서 GPT-4는 감정의 상대적 강도를 비교하는 데는 능숙했으나, 출력값의 절대적인 수치나 분포를 보정(Calibration)하는 데는 어려움을 보였다.

미래 연구 방향: 차원형 모델이 점차 인기를 얻고 있는 추세에 맞춰, 언어적 기준점(Language Anchors)을 활용하여 LLM이 차원 척도를 더 정확히 이해하도록 돕는 연구가 필요하다.

이러한 논의는 LLM 기반 어노테이션이 단순히 기술적인 성능을 넘어 윤리적, 방법론적 정교함이 수반되어야 함을 시사한다.



8. 결론 (Conclusion)


연구 요약 및 시사점

감정 어노테이션 연구의 설계 과정에서 직면하는 복잡성과 여러 가지 도전 과제를 분석하며, 다음과 같은 결론을 도출한다.

LLM의 잠재력 확인: GPT-4는 감정 분류 작업에서 인간의 지각과 높은 일치도를 보일 뿐만 아니라, 특정 조건에서는 인간 레이블보다 더 높은 평가를 받는 등 어노테이션 도구로서의 뛰어난 성능을 입증하였다.

설계 선택의 재고: LLM의 등장으로 인해 기존의 감정 레이블링 방식에 변화가 필요함을 시사한다. 특히 모델의 능력을 고려하여 레이블 공간의 크기나 데이터 정제 방식을 새롭게 설계해야 한다.

평가 지표의 변화: 기존의 기계적인 자동 평가 메트릭에서 벗어나, 인간의 관점과 지각을 더 정확하게 반영할 수 있는 새로운 평가 기준이 마련되어야 함을 강조한다.


미래 어노테이션 방향성

LLM은 인간의 역할을 완전히 대체하기보다는 인간의 어노테이션 노력을 지원하고 보완하는 도구로서 강력한 유망성을 가진다. 제안된 사전/사후 필터링 전략은 이러한 협력 모델의 구체적인 사례를 보여주며, 향후 더 효율적이고 신뢰할 수 있는 감정 데이터셋 구축을 위한 새로운 표준이 될 수 있음을 시사한다.