AI는 우리 조직의 공기까지 읽어낼 수 있을까?

ChatGPT의 감성분석 능력과 우리가 채워야 할 빈칸

by Kay

감성분석에 관심을 갖게 된 처음을 돌이켜 보면, 십수 년 간 정량 스코어를 가지고 평균이 높고 낮고만 살펴보다가 텍스트 안에서 그런 분석이 가능하다는 것을 알았을 때의 그 신기함이 생생하다. LLM(거대언어모델)이라는 것은 상상도 못 하던 시절이어서 그랬을 뿐, 지금의 기술 발전에 비추어 생각해 보면 사실 아무것도 아닌 단순한 긍부정 분류 결과에 기반한 것이었지만, 그땐 그게 참 신기하고 좋았다.


하지만 '분석을 위한 분석'을 어느 정도하고 보니 이내 더욱 정교하고 의미 있는 형태로 조직 안의 감정을 다뤄보고 싶다는 갈증이 생겨났고, 그렇게 하이에나처럼 더 나은 방법을 찾아 어슬렁거리는 걸음을 아직까지 걷고 있는 듯하다. 거기에 덧붙여 이제는 AI 기술까지 마주한 상황에서 양손에 어떤 도구를 손에 쥐고 어떤 길을 걸어야 할지, 스스로 이런저런 방법들을 구상하며 고민을 거듭하고 있다.


그러던 중 마주한 “Is ChatGPT a Good Sentiment Analyzer? A Preliminary Study” 연구는 마치 내 마음을 읽기라도 한 듯, AI가 과연 특정 도메인을 넘어선 '범용 감성분석기(Universal Sentiment Analyzer)'로서 기능할 수 있는지를 진지하게 다루고 있다. 이 연구는 ChatGPT가 텍스트에 담긴 의견, 감성, 정서를 얼마나 잘 이해하는지 확인하기 위해 7가지의 대표적인 감성 분석 과업(감성 분류, 속성 기반 분석, 감정 원인 추출 등)을 수행하고, 이를 기존의 특화된 모델(Fine-tuned BERT 및 SOTA)과 비교했다. 연구 결과는 다음과 같다.


기본은 훌륭하나, 최고는 아니다 (Zero-shot vs SOTA): 별도의 학습 없이도 ChatGPT는 기본적인 감성 분류에서 미세 조정된 BERT와 대등한 성능을 보여주었다. 하지만 특정 도메인에 특화되어 설계된 최고 성능 모델(SOTA)에는 미치지 못했으며, 전문적인 영역일수록 그 격차가 확인되었다.

정교한 정보 추출의 한계 (Extraction Task): 문장의 전체적인 뉘앙스를 파악하는 데는 강점이 있었으나, '속성 기반 감성 분석(E2E-ABSA)'이나 '비교 요소 추출(CEE)'과 같이 텍스트 내에서 정확한 정보를 핀셋처럼 뽑아내야 하는 고차원 작업에서는 전용 모델보다 정확도가 현저히 떨어지는 모습을 보였다.

완벽하지 않은 정답률 (Accuracy vs Human Eval): 흥미로운 점은 기계적인 정답 매칭 점수는 낮았지만, 사람이 들여다봤을 때의 답변은 꽤 합리적이었다는 것이다. 이는 AI가 문맥은 이해하고 있으나, 우리가 원하는 정확한 규격이나 형식에 맞춰 답을 내놓는 '통제된 분석'에는 아직 약점이 있음을 시사한다.


연구자의 자세로 정교함의 렌즈를 갖추고 또 다른 관련 연구들을 살펴볼 필요가 있겠으나, 고민을 더욱 뾰족하게 가져갈 필요가 있겠다는 생각이 든다. 처음의 신기함과 마찬가지로 그저 그런 결과를 바라고 AI에게 "해 줘"라고만 한다면, 조직의 감정이고 나발이고 현재의 LLM 그 자체로도 기능은 차고 넘치는 상황이다. 심지어 모델의 성능은 시간이 갈수록 당연히 더 좋아질 것이 분명하다.


그렇다면 결국 중요한 것은 그다음이다. 조직개발 관점에서 아직까지 AI는 조직의 맥락이라는 높은 장벽을 완전히 넘지 못했다. AI가 보편적인 감성은 읽어낼지언정, 조직 안의 고유한 이야기나 미묘한 공기까지 완벽하게 해석하기란 여전히 쉽지 않아 보인다. AI보다 나은 형태로 조직의 감정을 들여다보고 다루는 것은 철저히 실무의 영역이다. 단순히 기술에 의존하는 것을 넘어, 이 기술을 활용해 어떻게 실무적으로 명확한 가치를 창출할 것인지 그 활용 방식을 고민하고 설계하는 것이 필요하다.




Is ChatGPT a Good Sentiment Analyzer? A Preliminary Study


Wang, Z., Xie, Q., Feng, Y., Ding, Z., Yang, Z., & Xia, R. (2023). Is ChatGPT a good sentiment analyzer? A preliminary study. arXiv preprint arXiv:2304.04339.


1. 이 연구를 3줄로 요약하면?

이 연구는 ChatGPT가 범용 감성 분석기(Universal Sentiment Analyzer)로서 기능할 수 있는지 확인하기 위해 7개 과업과 17개 데이터셋을 통해 성능을 평가한다.

표준 평가, 극성 전환(Polarity Shift), 오픈 도메인 설정 등 다양한 환경에서 미세 조정된 BERT 및 SOTA 모델과 비교 분석을 수행한다.

실험 결과, ChatGPT는 제로샷 설정에서 우수한 성능과 일반화 능력을 보였으나, 일부 특정 도메인이나 정보 추출 과업에서는 한계를 보임을 확인하였다.


2. 저자는 왜 이 연구를 진행했는가?

ChatGPT가 대화형 AI로서 주목받고 있으나, 감성 분석(Sentiment Analysis) 분야에서 구체적인 능력의 경계와 한계(Capability Boundaries)가 어디인지, 즉 어디서 잘하고 어디서 실패하는지 명확히 밝혀지지 않았기 때문이다.

저자들은 ChatGPT가 특정 도메인이나 데이터셋에 국한되지 않고 범용적인 감성 분석기로 활용될 수 있는지 검증하고자 한다.


3. 이 연구에서 중요하게 다뤄진 개념은?

감성 분석(Sentiment Analysis): 텍스트에 포함된 의견, 감정, 정서를 파악하는 기술.

제로샷/퓨샷 학습(Zero-shot/Few-shot Learning): 모델에 별도의 학습 없이 지시문만 주거나(Zero-shot), 소수의 예시만을 제공하여(Few-shot) 과업을 수행하게 하는 방식.

극성 전환(Polarity Shift): 부정(Negation)이나 추측(Speculation) 등으로 인해 텍스트의 감성 극성이 변화하는 현상.

오픈 도메인 평가(Open Domain Evaluation): 학습하지 않은 새로운 도메인의 데이터에 대해 모델이 얼마나 잘 일반화되는지 평가하는 것.


4. 저자는 어떤 방법을 사용했는가?

7가지 대표적인 감성 분석 과업(SC, ABSC, E2E-ABSA, CSI, CEE, ECE, ECPE)과 17개 벤치마크 데이터셋을 활용하여 ChatGPT의 성능을 평가하였다.

미세 조정된 BERT 및 각 과업의 SOTA(State-of-the-Art) 모델과 비교하였으며, 제로샷, 퓨샷, CoT(Chain-of-Thought), 자가 일관성(Self-Consistency) 등 다양한 프롬프팅 기법을 적용하여 성능 변화를 분석하였다.

정량적 지표 외에 인간 평가(Human Evaluation)를 병행하여, 정확한 매칭(Exact-match) 평가의 한계를 보완하고 실제 성능을 분석하였다.


5. 연구의 결과는?

ChatGPT는 제로샷 설정에서 미세 조정된 BERT와 대등한 수준의 감성 분류 능력을 보였으며, 특히 부정이나 추측이 포함된 극성 전환 및 오픈 도메인 환경에서 BERT보다 강인한 성능을 입증하였다.

E2E-ABSA와 같은 정교한 추출 과업에서는 데이터셋의 주석 표준과 정확히 일치하지 않는 경향이 있어 정량적 점수는 낮았으나, 인간 평가를 통해 실제 예측이 상당히 합리적임을 확인하였다.

프롬프팅 기법 중 퓨샷은 전반적인 성능을 향상시켰으나, CoT는 감성 분석 과업에서 오히려 성능을 저하시키는 경향을 보였으며, 자가 일관성 기법은 성능 향상에 기여하였다.




1. 서론 (Introduction)


최근 대규모 언어 모델(LLM)은 다양한 NLP 과업에서 놀라운 제로샷(Zero-shot) 능력을 입증하며 NLP 커뮤니티에 큰 영향을 미치고 있다. 그중 ChatGPT는 유창한 대화 능력과 코딩, 수학 문제 해결 등 다양한 기능을 통해 대중의 큰 관심을 받고 있다.

그러나 ChatGPT의 성공에도 불구하고 그 능력의 경계, 즉 어떤 영역에서 우수한 성능을 보이고 어떤 영역에서 실패하는지에 대해서는 알려진 바가 적다. 이에 따라 저자는 ChatGPT가 텍스트 내의 의견, 감성, 정서를 이해하는 '범용 감성 분석기(Universal Sentiment Analyzer)'로서 기능할 수 있는지 확인하고자 한다.

이 질문에 답하기 위해 저자는 7개의 대표적인 감성 분석 과업과 17개의 벤치마크 데이터셋을 활용하여 예비 평가를 수행한다. 평가는 다음 세 가지 설정으로 진행된다.

표준 평가(Standard Evaluation): 일반적인 감성 분석 성능 측정

극성 전환 평가(Polarity Shift Evaluation): 부정(Negation)이나 추측(Speculation) 등이 포함된 문장의 극성 변화 처리 능력 평가

오픈 도메인 평가(Open Domain Evaluation): 학습하지 않은 도메인에 대한 일반화 능력 평가

비교 대상으로는 미세 조정된(Fine-tuned) BERT와 각 과업의 최신 SOTA(State-of-the-Art) 모델을 선정하였다. 또한, 모델의 능력을 최대한 이끌어내기 위해 생각의 사슬(Chain-of-Thought) 및 자가 일관성(Self-Consistency)과 같은 고급 프롬프팅 기법도 적용하여 실험을 진행한다.


이 연구의 주요 발견은 다음과 같다.

ChatGPT는 감성 분류 과업에서 인상적인 제로샷 성능을 보이며 미세 조정된 BERT와 대등한 수준을 기록하지만, 완전 지도 학습된 SOTA 모델보다는 다소 뒤처진다.

감성 정보 추출 과업(E2E-ABSA, CEE)에서는 정확도가 다소 떨어지는데, 이는 모델의 예측이 데이터셋의 주석 형식과 엄격하게 일치하지 않기 때문이다. 그러나 인간 평가를 통해 분석한 결과 실제 예측 내용은 합리적인 것으로 나타났다.

감성 분석의 난제인 극성 전환 현상(부정 및 추측)을 다룰 때, ChatGPT는 미세 조정된 BERT보다 더 정확한 예측을 수행한다.

특정 도메인에 특화된 모델이 새로운 도메인에서 성능이 저하되는 것과 달리, ChatGPT는 전반적으로 강력한 오픈 도메인 감성 분석 능력을 입증한다.

퓨샷(Few-shot) 프롬프팅은 성능을 크게 향상시키지만, CoT 기법은 이 과업에서 성능 향상에 기여하지 못한다. 반면 자가 일관성 기법은 신뢰할 수 있는 성능 개선을 보여준다.

종합하면, 각 도메인이나 데이터셋에 특화된 시스템을 별도로 학습시키는 기존 방식과 비교할 때, ChatGPT는 이미 보편적이고 훌륭한 감성 분석기로서 기능할 수 있음을 시사한다.



2. 배경 및 관련 연구 (Background and Related Work)


2.1 대규모 언어 모델 (Large Language Models)

GPT-3의 등장과 함께 대규모 언어 모델(LLM)이 주목받게 되었다. 이들은 거대한 모델 파라미터를 보유하고 있으며, 막대한 계산 비용을 들여 대량의 비정형 데이터를 학습한다. 대표적인 모델로는 Gopher, LaMDA, PaLM, LLaMA, GPT-4 등이 있다.

이러한 모델들은 간단한 작업 지시문(instruction)만 주어지면 별도의 학습 과정 없이 새로운 과업에 적응할 수 있는 능력을 갖추고 있다. 또한, 지시문과 함께 몇 가지 시연 예시를 제공하면 예측이 더 정확해지고 제어가 용이해지는데, 이를 인컨텍스트 러닝(In-context Learning)이라고 한다.

최근 OpenAI는 GPT-3.5를 기반으로 인간 피드백을 통한 강화 학습(RLHF)을 적용하여 미세 조정한 챗봇인 ChatGPT를 출시하였다. 이후 연구자들은 ChatGPT의 능력과 한계를 탐구하기 위해 다양한 벤치마크에서 평가를 진행하고 있다. 본 연구는 이러한 흐름 속에서 ChatGPT가 좋은 감성 분석기가 될 수 있는지에 대해 엄격하고 포괄적인 평가를 수행하는 것을 목표로 한다.


2.2 감성 분석 (Sentiment Analysis)

감성 분석은 텍스트 내에서 사람들의 의견, 감성, 정서를 식별하는 것을 목표로 하며, 딥러닝의 도움을 받아 빠르게 발전하고 있다. 본 연구에서는 감성 분석과 관련된 수많은 과업 중 다음 4가지 대표적인 범주에 집중한다.

감성 분류 (Sentiment Classification, SC): 주어진 텍스트(문장 등)의 전반적인 감성 극성이 긍정인지 부정인지를 식별하는 과업이다.

속성 기반 감성 분류 (Aspect-Based Sentiment Classification, ABSC): 리뷰 내에 명시된 특정 속성(Aspect) 용어가 주어졌을 때, 해당 속성에 대한 감성 극성을 결정하는 과업이다.

엔드투엔드 속성 기반 감성 분석 (End-to-End Aspect-Based Sentiment Analysis, E2E-ABSA): 주어진 텍스트에서 속성 용어(Aspect term)를 추출하는 동시에, 해당 속성에 대한 감성 극성을 함께 예측하는 과업이다.

비교 문장 식별 (Comparative Sentences Identification, CSI): 주어진 텍스트가 제품 간의 비교를 포함하고 있는지(비교 문장인지) 여부를 식별하는 과업이다.

비교 요소 추출 (Comparative Element Extraction, CEE: 비교 문장에서 비교의 주체(Subject), 객체(Object), 비교 속성(Aspect), 비교 유형(Type) 등으로 구성된 튜플을 추출하는 과업이다.

감정 원인 추출 (Emotion Cause Extraction, ECE): 문서 내에서 특정 감정 절(Emotion clause)이 주어졌을 때, 그 감정을 유발한 원인 절(Cause clause)을 추출하는 과업이다.

감정-원인 쌍 추출 (Emotion-Cause Pair Extraction, ECPE): 감정 절과 원인 절을 사전에 주지 않고, 텍스트 내에서 잠재적인 감정 절과 그에 해당하는 원인 절의 쌍(Pair)을 모두 추출하는 과업이다.

또한, 본 연구는 감성 분석 시스템 구축에 있어 필수적인 두 가지 어려운 문제에 주목한다.

첫째는 극성 전환 (Polarity Shift)이다. 이는 시간, 문맥, 또는 다른 텍스트와의 관계에 따라 텍스트의 감성 극성(긍정 또는 부정)이 변화하는 언어적 현상을 말한다. 부정(negation)이나 추측(speculation) 등이 이에 해당하며, 이를 이해하는 것은 정확한 시스템 구축에 필수적이다.

둘째는 오픈 도메인 (Open-domain) 이슈이다. 기존 시스템은 특정 도메인에 편향되는 경향이 있으나, 오픈 도메인 감성 분석은 도메인에 관계없이 텍스트의 일반적인 감성을 이해하는 것을 목표로 한다. 본 연구는 ChatGPT가 이러한 난제들을 해결할 수 있는지 검증한다.



3. 평가 (Evaluation)


3.1 설정 (Setup)

비교 대상 시스템으로 각 과업의 최신 SOTA 모델과 미세 조정된 BERT를 활용한다. SOTA 모델은 과업별 특화된 설계를 가지므로, 일반적인 기준점으로 미세 조정된 BERT의 결과를 함께 제시하여 참조한다. 각 과업에 맞게 BERT의 입력과 출력 방식을 조정하여 베이스라인을 구축한다. 예를 들어, SC는 [CLS] 토큰을 사용하고, ABSC는 리뷰와 속성 용어를 [SEP] 토큰으로 연결하여 입력한다.

ChatGPT 활용 시에는 gpt-3.5-turbo-0301 버전을 사용하며, 일관된 결과를 위해 온도를 0으로 설정한다. 각 과업에 대한 지시문(instruction)은 ChatGPT가 직접 생성하게 하여 능력을 이끌어내며, 기본적으로 제로샷(Zero-shot) 설정을 적용한다. ChatGPT의 응답이 일정한 패턴을 따르지 않는 경우 수동으로 관찰하여 기록한다.

평가 지표로는 감성 분류 과업(SC, ABSC)에는 정확도(Accuracy)와 Macro-F1 점수를 사용한다. CSI는 정확도를, 요소 추출이 포함된 과업(E2E-ABSA, CEE)은 튜플의 모든 요소가 정답과 일치해야 하는 Micro-F1 점수를 사용한다. ECE와 ECPE는 각각 원인 절과 감정-원인 쌍의 F1 점수를 계산한다.


3.2 표준 평가 (Standard Evaluation)

ChatGPT의 성능을 7개 과업과 17개 벤치마크 데이터셋에서 평가한다. 데이터셋으로는 SST-2(SC), SemEval 2014(ABSA), Camera(CSI, CEE), Emotion Cause Dataset(ECE, ECPE) 등을 활용한다.

실험 결과, ChatGPT는 감성 분류 과업에서 미세 조정된 BERT와 대등한 수준의 경쟁력 있는 성능을 보였으나, 지도 학습된 SOTA 모델에는 미치지 못하였다. E2E-ABSA에서는 BERT보다 성능이 낮았으며, 도메인에 따라 편차가 존재했다. 특히 14-Laptop 도메인과 같이 전문 용어가 많은 경우 성능이 저조했다.

비교 의견 마이닝 과업에서 ChatGPT는 CSI에 대해 합리적인 성능을 보였으나, CEE에서는 매우 낮은 성능을 기록하였다. 반면 감정 분석(ECA)에서는 문서 전체를 이해하고 원인을 파악하는 능력을 보여주며, BERT보다 높은 성능을 기록하기도 했다.

추가적으로 수행한 인간 평가(Human Evaluation)는 다음과 같은 사실을 밝혀냈다.

E2E-ABSA와 CEE의 낮은 정량적 성능에도 불구하고, ChatGPT의 예측은 실제로는 상당히 합리적이었다.

ChatGPT는 정답 데이터셋에 주석 처리되지 않은 합리적인 속성-감성 쌍을 생성하거나, 정답과 의미는 같지만 표현 방식이 다른 경우(의역)가 많았다.

이러한 요소를 고려하여 사람이 직접 평가한 결과, ChatGPT의 성능은 E2E-ABSA에서 평균 19%, CEE에서 42% 향상되었으며, 이는 기존 베이스라인과 SOTA를 상회하는 수치이다.


3.3 극성 전환 평가 (Polarity Shift Evaluation)

감성 분석의 견고성을 평가하기 위해 부정(Negation)과 추측(Speculation)이 포함된 문장에 대한 처리 능력을 검증한다. 이를 위해 SST-2 데이터셋에서 해당 언어 현상이 포함된 부분집합을 추출하고, ABSC 작업을 위한 별도 데이터셋을 활용하여 실험을 진행한다.

실험 결과, ChatGPT는 극성 전환 시나리오에서 미세 조정된 BERT보다 더 강인한(robust) 성능을 보인다. 미세 조정된 BERT는 이러한 분포 외(OOD) 평가 상황에서 성능 저하를 겪는 반면, ChatGPT는 특히 ABSC 과업에서 BERT보다 평균 정확도가 10% 더 높게 나타났다. 또한, 부정보다 추측 현상을 처리하는 것이 더 어려운 과제임이 확인되었다.


3.4 오픈 도메인 평가 (Open Domain Evaluation)

특정 도메인에 국한되지 않는 일반화 능력을 평가하기 위해 10개의 다양한 도메인(레스토랑, 노트북, 기기, 서비스, 도서, 의류, 호텔, 트위터, 금융, 의료) 데이터셋을 활용하여 ABSC와 E2E-ABSA 과업을 수행한다.

실험 결과, ChatGPT는 학습하지 않은 도메인에 대해서도 강력한 오픈 도메인 감성 분석 능력을 입증하였다. 구체적으로 ChatGPT는 10개 중 7개 도메인에서 다중 도메인으로 미세 조정된 BERT의 성능과 대등하거나 이를 능가하였다. 이는 ChatGPT가 별도의 학습 없이도 도메인 일반화 성능이 뛰어남을 보여준다.

그러나 트위터, 금융, 의료(METS-CoV)와 같은 특정 도메인에서는 성능이 다소 제한적이었다. 이는 해당 도메인이 소셜 미디어 특성을 가지거나 전문적인 지식을 요구하기 때문인 것으로 분석된다. 인간 평가를 통해 재분석한 결과에서는 여전히 오픈 도메인 설정에서 BERT보다 우수한 성능을 보이는 것으로 나타났다.



4. 고급 프롬프팅 기법 (Advanced Prompting Techniques)


ChatGPT가 일부 과업과 도메인에서 미세 조정된 소규모 언어 모델(BERT 등)에 비해 여전히 성능이 뒤처지는 한계를 보임에 따라, 저자는 ABSA 과업을 테스트베드로 삼아 고급 프롬프팅 기법을 통해 ChatGPT의 잠재력을 추가로 이끌어내고자 한다.


4.1 퓨샷 프롬프팅 (Few-shot Prompting)

훈련 데이터셋에서 무작위로 소수의 예시를 선택하여 목표 입력과 함께 연결해 제공하는 인컨텍스트 러닝(In-context Learning) 방식을 적용한다.

1, 3, 9, 27개의 예시(shot)를 사용하여 실험을 수행하며, 예시 샘플링에 따른 분산을 줄이기 위해 3개의 무작위 시드를 적용하여 평균 성능을 보고한다.

실험 결과, 퓨샷 프롬프팅은 과업과 도메인 전반에 걸쳐 성능을 유의미하게 향상시킨다.

특히 ABSC 과업에서는 27개의 예시를 사용했을 때 미세 조정된 BERT를 능가하는 경우도 관찰되었으나, 여전히 SOTA 모델에는 미치지 못한다.


4.2 생각의 사슬 및 자가 일관성 (Chain-of-Thought & Self-Consistency)

퓨샷 프롬프팅이 ABSC 성능을 개선했음에도 불구하고, E2E-ABSA 과업의 성능은 여전히 미세 조정된 BERT에 비해 크게 뒤처진다. 이를 해결하기 위해 더 진보된 기법인 수동 퓨샷 생각의 사슬(CoT)과 자가 일관성 기법을 시도한다.

생각의 사슬(CoT): 표준 퓨샷 프롬프팅에 추론 과정을 추가하였으나, 예상과 달리 이득을 가져오지 못하고 오히려 성능이 눈에 띄게 하락하는 결과를 보였다. 이는 과업의 특성에 따라 CoT의 효과가 달라질 수 있음을 시사한다.

자가 일관성(Self-Consistency): 다양하게 샘플링된 출력값들을 다수결로 통합하는 이 기법은 CoT 적용 여부와 관계없이 퓨샷 프롬프팅의 성능을 확실하게 개선한다.

비록 자가 일관성 기법이 추론 비용을 증가시키지만 효과적임을 입증하였다. 그러나 최종 성능은 여전히 미세 조정된 BERT보다 낮게 나타났다.



5. 결론 (Conclusion)


이 연구에서는 다양한 테스트 세트와 평가 시나리오를 통해 ChatGPT를 평가하고 미세 조정된 BERT와 성능을 비교하여 감성 분석 과업에서의 능력 경계를 탐색한다.

ChatGPT는 제로샷 설정에서 감성 분류, 비교 의견 마이닝, 감정 원인 분석 등에서 훌륭한 능력을 보여주며, 특정 도메인에서는 레이블 데이터로 학습된 모델이나 SOTA 모델과 대등한 성능을 발휘하기도 한다. 특히 미세 조정된 BERT와 비교할 때, 극성 전환 문제를 더 효과적으로 처리하고 오픈 도메인 시나리오에서 우수한 성능을 보인다. 또한 다양한 프롬프팅 기법 실험을 통해 이러한 기법들이 감성 분석 과업에서 효과적임을 검증하였다.


한계점 (Limitations)

이 연구가 가지는 주요 한계점은 다음과 같다.

데이터 유출 (Data Leakage): ChatGPT와 같은 폐쇄형 모델의 경우, 대규모 비지도 사전 학습 과정에서 테스트 데이터가 포함되었는지 확인하기 어렵다. 그러나 본 연구에서는 의료나 소셜 미디어와 같은 특정 도메인에서 ChatGPT의 성능 부족을 발견함으로써 그 한계를 확인하였다.

프롬프트 설계 (Prompt Design): 광범위한 프롬프트 엔지니어링을 수행하지 않았기에 더 나은 성능을 낼 수 있는 프롬프트가 존재할 수 있다. 그러나 일반 사용자가 정교한 설계를 하지 않는 점을 고려할 때, 임의의 프롬프트에서도 견고한 성능을 보이는 것이 모델의 능력을 더 잘 입증한다고 본다.

제한된 평가 (Limited Evaluation): 주로 ChatGPT에 집중하여 평가를 진행하였으며, 다른 강력한 모델들에 대한 평가는 API 접근성이나 컴퓨팅 자원의 제약으로 인해 제한적으로 이루어졌다.

이러한 한계를 바탕으로 향후 연구 방향으로는 실제 시나리오를 반영한 새로운 벤치마크 개발, LLM이 취약한 모습을 보이는 암시적(Implicit) 감성 분석 연구, 그리고 특정 도메인 성능 향상을 위한 도메인 특화 훈련 등을 제안한다.