감성 분석의 현실 점검: AI가 잘하는 것과 아직 못하는 것
AI 기술이 이렇게나 빠르게 발전하는데, 감정을 물고 늘어지는 게 맞나 싶은 생각이 들 때가 있다. 몇 년째 사용을 해오는 동안 점점 더 대충 말해도 찰떡같이 내 말을 알아듣는 듯한 느낌을 받다 보니, 어쩌면 깜빡이는 커서 너머로 언어뿐만 아니라 그 안에 담긴 내 감정 역시 잘 알아차리고 있는 건 아닐까 싶기도 하다. 그래서 LLM 등장 이전과 이후, 과연 AI의 감성 분석 성능은 어떻게 달라졌는지 다룬 연구가 있어 궁금한 마음에 찾아봤다.
"Sentiment Analysis in the Era of Large Language Models: A Reality Check" 연구에서는 ChatGPT 같은 최신 LLM들이 감성 분석(Sentiment Analysis)이라는 과제를 얼마나 잘 수행하는지, 기존의 감성분석 전문 모델과 비교하며 현실 점검을 시도했다. 연구 내용을 요약하자면 결과는 아래와 같다.
첫째, '단순한 감정'은 기 막히게 잘 맞춘다. 긍정인지 부정인지 가려내는 기본적인 감성 분류(Sentiment Classification) 작업에서 LLM은 별도의 학습 없이도(Zero-shot) 기존에 데이터를 풀로 학습시킨 모델만큼이나 훌륭한 성능을 보여줬다. 내 말이 긍정적인지 부정적인지 파악하는 눈치는 이미 상당한 수준이라는 것이다.
둘째, 하지만 '복잡하고 섬세한 분석'은 아직이다. 문장 속에서 특정 속성(Aspect)에 대한 감정만 쏙 뽑아내거나(ABSA), 뉘앙스가 복잡한 주관적 텍스트를 다각도로 분석하는 과제(MAST)에서는 여전히 특정 도메인에 특화된 작은 모델(SLM)들이 LLM보다 더 똑똑했다. 구조화된 정보를 뽑아내거나 깊은 이해가 필요한 영역에서는 거대 모델도 헤매고 있다는 것이다.
셋째, 그럼에도 불구하고 데이터가 부족할 땐 LLM이 답이다. 학습시킬 데이터가 거의 없는 상황(Few-shot)에서는 LLM이 압도적으로 유리했다. 가르쳐준 게 별로 없어도 문맥을 통해 배우는 능력이 탁월하기 때문이다.
'열 길 물속은 알아도 한 길 사람 속은 모른다'는 옛말이 떠올랐다. 결국 이 연구는 AI가 겉으로 드러나는 긍/부정은 잘 파악하지만, 그 안에 숨겨진 구조적이고 세밀한 감정선까지 완벽히 이해하기엔 아직 한계가 있음을 보여준다. 내 기분이 지금 좋은지 나쁜지 정도야 AI도 어렵지 않게 알아차리겠지만, 내 속에 내가 너무도 많은 것처럼 인간은 매 순간 단순히 하나의 감정만 느끼는 간단한 존재들이 아니다. 복잡하게 얽힌 속마음과 미묘한 뉘앙스, 그 안에 담긴 진짜 의도까지 파악해야 한다면, 그래도 아직은 AI를 활용한 딸깍 만으로는 부족한 것 같기도 하다.
Zhang, W., Deng, Y., Liu, B., Pan, S., & Bing, L. (2024, June). Sentiment analysis in the era of large language models: A reality check. In Findings of the Association for Computational Linguistics: NAACL 2024 (pp. 3881-3906).
대규모 언어 모델(LLMs)은 간단한 감성 분류 작업에서는 우수한 성능을 보이지만, 구조화된 정보나 깊은 이해가 필요한 복잡한 작업에서는 도메인 특화 모델(SLMs)에 비해 성능이 떨어진다.
데이터가 제한된 퓨샷(Few-shot) 학습 환경에서는 LLMs가 SLMs보다 훨씬 뛰어난 성능을 발휘하여 데이터 부족 상황에서의 잠재력을 입증했다.
기존 평가 방식의 한계를 지적하며, LLMs의 능력을 보다 현실적이고 포괄적으로 평가하기 위한 새로운 벤치마크인 'SENTIEVAL'을 제안한다.
최근 LLMs의 등장으로 감성 분석(SA) 분야에 대한 잠재력이 커졌으나, 다양한 감성 분석 작업에 LLMs를 어느 정도까지 활용할 수 있는지는 불분명했다.
기존 연구들은 특정 작업에 국한되거나 서로 다른 모델과 설정을 사용하여 LLMs의 진정한 역량을 파악하기 어려웠기에, 이에 대한 포괄적인 현실 점검(Reality Check)을 수행하고자 했다.
대규모 언어 모델(Large Language Models, LLMs): ChatGPT, Flan-T5 등 방대한 데이터로 훈련된 언어 모델.
소규모 언어 모델(Small Language Models, SLMs): 특정 도메인 데이터로 훈련된 T5와 같은 상대적으로 작은 모델.
감성 분류(Sentiment Classification, SC): 텍스트의 감성 극성(긍정/부정 등)을 분류하는 작업.
속성 기반 감성 분석(Aspect-based Sentiment Analysis, ABSA): 세부적인 속성 수준에서 감성 정보를 분석하는 작업.
주관적 텍스트의 다면 분석(Multifaceted Analysis of Subjective Texts, MAST): 혐오 발언 탐지, 반어법 등 특정 감성 현상에 초점을 맞춘 분석.
SENTIEVAL: 다양한 프롬프트와 작업 지침을 포함하여 LLMs를 보다 포괄적으로 평가하기 위해 제안된 새로운 벤치마크.
13개의 감성 분석 작업과 26개의 데이터셋을 포괄적으로 조사하여 SC, ABSA, MAST의 세 가지 유형으로 분류했다.
Flan-T5, ChatGPT 등의 LLMs와 도메인 특화 데이터로 학습된 T5(SLM)의 성능을 제로샷(Zero-shot) 및 퓨샷(Few-shot) 환경에서 비교 평가했다.
프롬프트 설계에 따른 모델의 민감도를 분석하고, 이를 보완하기 위해 자연어 지침을 활용한 SENTIEVAL 벤치마크를 구축하여 재평가를 수행했다.
LLMs는 간단한 감성 분류(SC) 작업에서는 전체 데이터로 학습된 SLMs와 대등한 성능을 보였으나, 구조화된 출력이 필요한 ABSA나 복잡한 MAST 작업에서는 성능이 뒤처졌다.
그러나 학습 데이터가 적은 퓨샷 환경에서는 LLMs가 일관되게 SLMs를 능가하여, 리소스가 부족한 상황에서의 이점을 보여주었다.
새로 제안된 SENTIEVAL 벤치마크를 통한 재평가 결과, ChatGPT가 다양한 지침 이해 능력에서 강점을 보였으나, 여전히 복잡한 작업에서는 개선의 여지가 있음이 드러났다.
감성 분석의 중요성과 LLMs의 부상
감성 분석은 사람들의 의견, 감정, 정서 등을 계산적인 방법으로 연구하는 자연어 처리의 오랜 연구 분야이다. 이 분야는 제품 리뷰 분석이나 소셜 미디어 게시물 분석과 같은 광범위한 산업적 응용 가능성으로 인해 학계와 산업계 모두에서 큰 관심을 받아왔다. 또한 인간의 주관적인 느낌을 깊이 있게 이해하는 것은 인공 일반 지능(AGI)을 개발하는 데 있어 중요한 단계로 여겨진다.
최근 몇 년간 대규모 언어 모델(LLMs)은 다양한 NLP 작업에서 인상적인 성능을 입증했다. 이들은 도메인 내(in-domain) 지도 학습 없이도 제로샷(zero-shot) 또는 퓨샷(few-shot) 인컨텍스트 학습(in-context learning) 방식으로 작업을 수행하며 강력한 성능을 보여준다.
기존 연구의 한계와 연구의 목적
LLMs를 감성 분석에 적용하려는 초기 시도들이 있었으나, 기존 연구들은 특정 작업에 국한되거나 서로 다른 모델, 데이터셋, 실험 설정을 사용하여 LLMs가 감성 분석 문제에 어느 정도까지 활용될 수 있는지 불분명한 상태이다. 이러한 맥락에서 본 연구는 대규모 언어 모델 시대의 감성 분석 현황에 대한 '현실 점검(reality check)'을 수행하는 것을 목표로 한다. 구체적으로 다음과 같은 연구 질문에 답하고자 한다.
다양한 감성 분석 문제의 현재 성숙도는 어느 정도인가?
도메인 특화 데이터로 훈련된 소규모 전문 모델(SLMs)과 비교했을 때, 대규모 모델은 제로샷 및 퓨샷 설정에서 어떤 성능을 보이는가?
현재의 감성 분석 평가 관행은 LLMs 시대의 모델을 평가하기에 여전히 적합한가?
연구 방법 및 주요 발견
이를 위해 연구진은 전통적인 감성 분류(SC)부터 속성 기반 감성 분석(ABSA), 주관적 텍스트의 다면 분석(MAST)에 이르기까지 13개 감성 분석 작업과 26개 데이터셋에 대한 체계적인 검토를 수행했다. 비교를 위해 오픈소스 모델인 Flan-T5, Flan-UL2와 GPT-3.5 시리즈(ChatGPT, InstructGPT)를 LLMs로 선정하고, 도메인 데이터로 훈련된 소규모 언어 모델(SLMs)인 T5를 기준점으로 설정했다.
이러한 포괄적인 조사를 통해 도출된 주요 통찰은 다음과 같다.
제로샷 성능의 우수성: LLMs는 제로샷 설정에서 이미 강력한 감성 분석 능력을 보여준다. 감성 분류와 같은 간단한 작업에서는 전체 데이터로 학습된 SLMs와 대등한 성능을 발휘한다.
복잡한 작업에서의 한계: 구조화된 감성 정보가 필요한 ABSA 작업이나 특정 감성 현상에 대한 깊은 이해가 요구되는 MAST 작업 등 복잡한 과제에서는 LLMs가 도메인 데이터로 학습된 SLMs에 비해 뒤처진다. 또한 복잡한 입력 및 출력 형식이 요구될 때 프롬프트 설계에 민감하게 반응한다.
퓨샷 학습에서의 강점: 데이터가 제한된 퓨샷 설정에서는 인컨텍스트 학습을 수행하는 LLMs가 동일한 양의 데이터로 훈련된 SLMs보다 모든 유형의 작업에서 일관되게 우수한 성능을 보인다. 이는 주석 자원이 부족한 상황에서 LLMs의 활용이 유리함을 시사한다.
새로운 평가 벤치마크 제안
연구 과정에서 저자들은 특정 작업이나 데이터셋에만 치중하거나 일관되지 않은 프롬프트를 사용하는 등 기존 평가 관행의 한계를 확인했다. 이러한 관행은 LLMs의 감성 분석 능력을 정확하게 평가하기에 부족하다. 따라서 본 연구에서는 모델을 보다 포괄적이고 현실적으로 평가하기 위해 새로운 벤치마크인 SENTIEVAL을 제안한다.
감성 분석 (Sentiment Analysis)
감성 분석은 초기 연구 이후 자연어 처리(NLP) 분야에서 지속적으로 활발하게 연구되어 온 영역이다. 이러한 지속적인 관심은 인간의 주관적인 감정과 의견을 이해하는 것이 인간 수준의 지능을 달성하는 데 중요하기 때문이다. 또한 고객 리뷰 분석이나 소셜 미디어 의견 분석과 같이 실질적인 응용 분야가 넓다는 점도 주요한 이유이다.
감성 분석은 다음과 같은 광범위한 작업들을 포괄한다.
감성 분류(Sentiment Classification): 주어진 텍스트의 전반적인 감성 극성(긍정 또는 부정)을 결정하는 작업이다.
속성 기반 감성 분석(Aspect-based Sentiment Analysis, ABSA): 텍스트 내에서 세부적인 속성 수준의 감성을 분석하는 작업이다.
주관적 텍스트의 다면 분석(Multifaceted Analysis of Subjective Texts, MAST): 단순한 긍/부정을 넘어 혐오 발언 탐지나 반어법 탐지 등 다양한 주관적 감정 상태를 분석하는 작업이다.
이러한 다양한 작업들은 언어에 내재된 감정을 전체적으로 이해하는 데 기여한다.
대규모 언어 모델 (Large Language Models)
최근 GPT-3, PaLM, Flan-UL2, LLaMA, ChatGPT와 같은 대규모 언어 모델의 개발은 괄목할 만한 발전을 이루었다. 이에 따라 감성 분석 작업에 LLMs를 적용하려는 초기 시도들이 등장하고 있다.
기존 연구들에서 관찰된 LLMs의 감성 분석 능력은 다음과 같다.
제로샷 성능: LLMs의 제로샷 성능은 미세 조정된(fine-tuned) BERT 모델과 유사한 수준을 보인다.
다양한 시나리오 처리: ChatGPT는 극성 변화, 오픈 도메인 시나리오, 감성 추론 문제 등을 처리하는 능력을 보여주었다.
감정적 대화 능력: ChatGPT는 감정적인 반응을 생성하는 데 있어 유망한 결과를 나타낸다.
약한 레이블 생성: LLMs를 활용해 약한 레이블(weak labels)을 생성하고 이를 통해 작은 학생 모델(student model)을 미세 조정할 경우, 기존의 지도 학습 모델과 대등한 성능을 낼 수 있다.
그러나 이러한 기존 시도들은 범위가 특정 작업에 한정되거나 서로 다른 데이터셋과 실험 설계를 사용한다는 한계가 있다. 따라서 감성 분석 전반에 걸친 LLMs의 진정한 역량은 아직 불분명한 상태이다.
3.1. 감성 분류 (Sentiment Classification)
감성 분류(SC)는 주어진 텍스트에 대해 미리 정의된 감성 클래스(예: 긍정, 부정, 중립)를 할당하는 작업이다. 감성을 분석하는 세밀함의 수준에 따라 다음과 같이 세 가지 하위 작업으로 나뉜다.
문서 수준(Document-level) SC: 영화 리뷰나 비즈니스 리뷰와 같은 전체 문서의 감성을 분류한다. IMDb, Yelp-2, Yelp-5 데이터셋이 이에 해당한다.
문장 수준(Sentence-level) SC: 문장 단위로 감성을 분석하며, 다양한 유형의 의견 텍스트를 다룬다. MR, SST2, SST5, Twitter 데이터셋이 포함된다.
속성 수준(Aspect-level) SC: 특정 속성이나 엔티티에 대한 감성을 식별하는 데 초점을 맞춘다. 노트북(Lap14) 및 레스토랑(Rest14) 리뷰 데이터셋이 사용된다.
이러한 SC 작업들의 평가 지표로는 정확도(Accuracy) 점수를 사용한다.
3.2. 속성 기반 감성 분석 (Aspect-based Sentiment Analysis)
속성 기반 감성 분석(ABSA)은 더 세밀한 속성 수준에서 사람들의 감성을 분석하는 과정을 의미한다. 이는 속성 용어, 속성 카테고리, 의견, 감성 극성 등 다양한 감성 요소를 분석하는 것을 포함한다. 본 연구에서는 여러 감성 요소를 공동으로 추출하는 다음 세 가지 복합 ABSA 작업에 집중한다.
통합 속성 기반 감성 분석(UABSA): 속성과 해당 감성 극성을 동시에 추출하는 작업이다. SemEval-2014, 2015, 2016의 데이터셋을 사용하여 평가한다.
속성 감성 트리플렛 추출(ASTE): UABSA 작업에 더해 의견 용어(opinion terms)까지 추출하여, 특정 속성에 대한 감성의 근거를 제공한다. 속성, 의견, 감성의 세 가지 요소를 추출하는 것을 목표로 한다.
속성 감성 쿼드러플 예측(ASQP): 카테고리, 속성, 의견, 감성의 네 가지 요소로 구성된 쿼드러플을 예측하여 완전한 속성 수준의 감성 구조를 제공한다.
평가 지표로는 Micro-F1 점수를 사용하며, 예측된 튜플의 모든 감성 요소가 정답과 정확히 일치하는 경우에만 정답으로 간주한다.
3.3. 주관적 텍스트의 다면 분석 (Multifaceted Analysis of Subjective Text)
주관적 텍스트의 다면 분석(MAST)은 텍스트에 반영된 인간의 주관적 감정의 다양한 측면을 다루는 작업이다. 이는 단순히 긍정이나 부정의 감정을 식별하는 것을 넘어, 더 넓은 범위의 정서적 상태를 인식하고 이해하는 데 중점을 둔다. 조사를 위해 다음과 같은 다양한 데이터셋을 채택한다.
암시적 감성 분석: 직접적으로 드러나지 않은 감성을 분석한다.
혐오 발언 탐지: 이민자나 여성 등 특정 대상에 대한 혐오 표현을 탐지한다(HatEval).
반어법 탐지: 텍스트에 포함된 반어적 표현을 식별한다(Irony18).
모욕적 언어 식별: 공격적이거나 모욕적인 언어 사용을 가려낸다(OffensEval).
스탠스 탐지: 특정 주제에 대한 입장을 파악한다(Stance16).
비교 의견 마이닝: 대상 간의 비교 의견을 분석한다(CS19).
감정 인식: 분노, 기쁨, 슬픔 등 구체적인 감정을 인식한다(TweetEval).
각 작업의 평가를 위해 이전 연구들에서 가장 보편적으로 사용된 지표들을 각각 활용한다.
4.1. 모델 (Models)
연구진은 실험을 위해 대규모 언어 모델(LLMs)과 소규모 언어 모델(SLMs)을 각각 선정하여 비교 분석을 수행한다.
대규모 언어 모델 (LLMs): 오픈소스 모델인 Flan-T5(13B)와 Flan-UL2(20B), 그리고 OpenAI의 GPT-3.5 계열인 ChatGPT(gpt-3.5-turbo)와 InstructGPT(text-davinci-003, 175B)를 채택한다.
소규모 언어 모델 (SLMs): 비교를 위한 기준 모델로 T5-large(770M)를 사용한다. T5는 모든 감성 분석 작업을 통일된 텍스트-투-텍스트(text-to-text) 형식으로 처리할 수 있어, 작업별로 별도 설계를 하지 않고도 LLMs와 일관되고 공정한 비교가 가능하다. SLMs는 각 데이터셋의 도메인 특화 데이터로 학습(Fine-tuning)하여 평가한다.
SLMs 학습 시에는 전체 훈련 데이터를 사용하는 설정과 퓨샷(Few-shot) 설정을 나누어 진행하며, 안정적인 비교를 위해 3회 실행 후 평균 결과를 보고한다.
4.2. 프롬프팅 전략 (Prompting Strategy)
LLMs는 의미적으로 유사한 프롬프트라 하더라도 그 설계에 따라 매우 다른 응답을 내놓을 수 있으며, 모델마다 선호하는 프롬프트 형식이 다르다. 따라서 본 연구에서는 특정 모델에 최적화된 복잡한 프롬프트 대신, 모든 데이터셋과 모델에 적용할 수 있는 단순하고 명확하며 일관된 프롬프트를 설계하여 모델의 일반적인 성능을 평가한다.
프롬프트는 다음과 같은 핵심 요소로만 구성된다.
작업 이름 (Task Name): 수행해야 할 특정 작업의 명칭을 명시한다.
작업 정의 (Task Definition): 작업의 정의와 주석 가이드라인을 기반으로 작성하며, 모델이 선택해야 할 레이블 옵션(Label Space)을 포함한다.
출력 형식 (Output Format): 모델이 생성해야 할 출력의 구조를 정의하여, 응답을 원하는 형식으로 디코딩할 수 있도록 한다.
퓨샷 학습(Few-shot Learning) 설정에서는 위의 기본 구조에 더해, 각 클래스별로 k개의 예제(입력과 정답 레이블)가 포함된 '데모(demonstration)' 부분을 추가하여 모델에 제공한다.
5.1. 제로샷 결과 (Zero-shot Results)
실험 결과, LLMs는 도메인 특화 훈련 없이도 특정 작업에서 놀라운 성능을 보였으나, 작업의 복잡도에 따라 성능 차이가 뚜렷하게 나타났다.
간단한 작업에서의 강력한 성능: 이진 감성 분류(SC)나 간단한 MAST 작업에서 LLMs(특히 ChatGPT)는 전체 데이터로 미세 조정된 T5(SLM) 모델과 대등한 성능을 발휘한다. ChatGPT는 SC 작업에서 T5 성능의 97%, MAST 작업에서는 85% 수준에 도달했다. 또한 상대적으로 크기가 작은 Flan-UL2도 대규모 모델과 유사하거나 더 나은 성능을 보이기도 했다.
복잡하고 구조화된 작업에서의 한계: 구조화된 감성 정보 추출이 필요한 ABSA 작업에서는 LLMs가 여전히 SLMs에 뒤처진다. Flan-T5나 Flan-UL2는 지시된 출력 형식을 따르지 못해 의미 있는 예측을 생성하지 못했으며, ChatGPT나 text-003 또한 미세 조정된 T5 모델 성능의 절반 수준(약 54%)에 머물렀다.
감성 분석 작업의 성숙도: 실험 결과는 이진 감성 분류와 같은 간단한 작업들은 이미 성숙 단계에 도달하여 LLMs로 충분히 해결 가능함을 시사한다. 따라서 향후 연구의 초점은 LLMs가 여전히 어려움을 겪는 복잡한 과제로 이동해야 한다.
5.2. 프롬프트 설계에 대한 민감도 분석 (Analysis of Sensitivity on Prompt Design)
LLMs의 성능이 프롬프트 설계에 따라 어떻게 달라지는지 확인하기 위해, GPT-4를 활용해 작업별로 5개의 서로 다른 프롬프트를 생성하고 ChatGPT로 테스트를 진행했다.
작업 유형에 따른 민감도 차이: 감성 분류(SC)와 같이 단순한 작업에서는 프롬프트 변화에 따른 성능 변동이 크지 않았다. 반면, 구조화되고 세밀한 출력을 요구하는 ABSA 작업에서는 프롬프트 설계에 따라 성능이 크게 달라지는 높은 민감도를 보였다.
특정 단어에 대한 반응: 단순한 작업이라 하더라도 모델은 특정 단어에 민감하게 반응했다. 예를 들어 "analyze(분석하라)"라는 단어가 포함될 경우, 단순히 레이블만 출력하라는 지시가 있어도 모델이 불필요한 설명을 덧붙이는 경향이 있어 성능 평가에 영향을 주었다.
5.3. 퓨샷 결과 (Few-shot Results)
데이터가 제한된 상황에서의 성능을 비교하기 위해 1-shot, 5-shot, 10-shot 설정에서 실험을 수행했다. 이때 LLMs에는 인컨텍스트 학습(In-context Learning)을, SLMs에는 해당 데이터만을 이용한 학습을 적용했다.
LLMs의 퓨샷 학습 우위: 모든 퓨샷 설정에서 LLMs가 SLMs(T5)를 일관되게 앞섰다. 특히 구조화된 출력이 필요한 ABSA 작업에서 SLMs는 제한된 데이터로 패턴을 학습하는 데 어려움을 겪은 반면, LLMs는 훨씬 뛰어난 성능을 보였다.
데이터 효율성: T5가 ChatGPT의 제로샷 성능과 비슷한 수준에 도달하려면 10-shot 설정보다 5~10배 더 많은 데이터가 필요한 것으로 나타났다. 이는 데이터가 부족한 환경에서 LLMs가 SLMs보다 훨씬 효율적인 선택지임을 의미한다.
샷(Shot) 수 증가에 따른 영향:
. SLMs: 예제 수가 늘어날수록 성능이 지속적으로 향상되었다.
. LLMs: 작업의 난이도에 따라 효과가 달랐다. ABSA와 같이 복잡한 작업에서는 예제 추가가 성능 향상에 크게 기여했으나, SC와 같은 쉬운 작업에서는 이득이 미미했다. 심지어 MAST 작업에서는 추가된 예제가 오히려 편향(bias)을 유발하여 성능을 떨어뜨리는 경우도 관찰되었다.
6.1. 감성 분석 역량 평가에 대한 재고 (Rethinking SA Capability Evaluation)
연구진은 실험 과정에서 확인한 기존 감성 분석 평가 방식의 세 가지 주요 문제점을 지적한다.
포괄적 평가의 부재: 대부분의 평가는 특정 작업이나 데이터셋에 국한되어 있어, 모델의 전반적인 감성 분석 능력을 파악하기 어렵다. 특정 분류 작업에 능숙하다고 해서 혐오 발언 탐지와 같은 다른 영역의 성능까지 보장하지는 않는다.
자연스러운 상호작용의 결여: 기존 방식은 단순한 '텍스트-레이블' 매핑 학습에 집중되어 있다. 그러나 실제 환경에서 사용자는 다양한 스타일의 자연어로 모델에 지시를 내리므로, 이러한 현실적인 사용 사례를 반영한 평가가 필요하다.
프롬프트 설계에 대한 민감성: 프롬프트의 미세한 차이가 성능에 큰 영향을 미치며, 연구마다 서로 다른 프롬프트를 사용할 경우 모델 간의 공정한 비교가 불가능해진다. 이는 평가의 신뢰성을 저해하는 요인이 된다.
6.2. SENTIEVAL: 구축 (SENTIEVAL: Construction)
이러한 문제들을 해결하기 위해 제안된 SENTIEVAL 벤치마크는 다음과 같은 특징을 갖는다.
경계 없는 통합 평가: 개별 감성 분석 작업의 경계를 허물고 하나의 통합된 벤치마크를 구축하여, 모델의 특정 측면이 아닌 종합적인 숙련도를 평가한다.
다양한 자연어 지침 활용: 단순한 레이블 예측이 아니라, 실제 사용자가 모델과 상호작용하는 것처럼 다양한 스타일의 자연어 지침(Instruction)을 사용하여 테스트한다.
고정된 프롬프트 풀(Pool) 사용: 프롬프트 변동에 따른 불확실성을 줄이고 안정적인 비교를 위해, 각 작업당 10개의 고정된 프롬프트(GPT-4 생성 5개 + 수동 작성 5개)를 마련한다.
평가 시에는 각 데이터 샘플마다 10개의 프롬프트 중 하나를 무작위로 선택하여 적용하며, 퓨샷(Few-shot) 예제의 포함 여부도 50% 확률로 무작위 결정한다. 최종적으로 SENTIEVAL은 총 12,224개의 데이터 샘플로 구성된다.
6.3. SENTIEVAL: 재평가 (SENTIEVAL: Re-evaluate)
구축된 SENTIEVAL 벤치마크를 사용하여 모델들을 재평가한 결과, 이전 실험과는 다른 양상이 관찰되었다.
모델 간 성능 격차 확대: 단순 작업에서는 유사한 성능을 보였던 모델들(예: Flan-UL2와 ChatGPT)이 SENTIEVAL 환경에서는 큰 성능 차이를 보였다. 이는 SENTIEVAL이 다양한 스타일의 지침을 이해하고 요구된 형식을 엄격히 준수하는 능력을 요구하기 때문이다.
ChatGPT의 강점 확인: ChatGPT는 다양한 프롬프트 디자인에 대한 적응력과 강력한 지시 이행(Instruction-following) 능력을 바탕으로 높은 기준점을 수립했다.
여전한 개선 필요성: 새로운 벤치마크에서도 복잡한 작업(ABSA, MAST)에 대해서는 여전히 성능 개선의 여지가 많음이 확인되었다.
연구의 요약 및 핵심 결과
본 연구는 다양한 감성 분석 작업에 대해 대규모 언어 모델(LLMs)을 체계적으로 평가함으로써, 감성 분석 문제에 대한 모델의 역량을 심도 있게 파악하고자 했다. 실험 결과를 통해 밝혀진 주요 사실은 다음과 같다.
작업 난이도에 따른 성능 차이: LLMs는 제로샷 설정에서 간단한 작업 수행에는 상당히 능숙하지만, 복잡한 작업을 처리하는 데에는 여전히 어려움을 겪는다.
데이터 희소 상황에서의 잠재력: 퓨샷 학습 환경에서는 LLMs가 소규모 언어 모델(SLMs)을 일관되게 능가하는 성능을 보여주며, 이는 주석 자원이 부족한 시나리오에서 LLMs가 효과적인 대안이 될 수 있음을 시사한다.
연구의 의의
이 연구는 단순히 모델의 성능을 비교하는 데 그치지 않고, 기존의 감성 분석 평가 관행이 가진 한계를 명확히 지적했다는 점에서 의의가 있다. 더 나아가 이러한 한계를 극복하기 위해 보다 포괄적이고 현실적인 평가 도구인 SENTIEVAL 벤치마크를 제안함으로써, 향후 감성 분석 연구가 나아가야 할 방향을 제시했다.