감성분석 연구로 본 적정 기술과 AI 오케스트레이션의 중요성
HR Analytics 커뮤니티 활동 초기에 신규 합류한 멤버들의 눈높이를 높이고자 HR 데이터를 감성분석 했던 사례를 공유하곤 한다. LLM 등장 이전에 진행한 분석들이라 시대적으로 뒤쳐진 것이 아닌가 하는 생각이 들기도 하고, 아직 데이터 분석 경험은 없지만 소위 AI 좀 써봤다 하는 몇몇 멤버들로부터 AI로 할 수 있을 것도 같다는 질문 같은 피드백을 받기도 한다.
그렇다면 LLM이라는 게임체인저의 등장으로 기존의 분석 방법은 모두 무의미한 것이 되었을까?
최근 읽은 “Improving sentiment analysis in tourism through LLM-enhanced irony detection” 연구에서 진행한 트립어드바이저 리뷰에 대한 감성분석 결과는 이러한 질문에 대한 훌륭한 답이 된다. 이 연구는 관광 리뷰에서 흔히 나타나는 '반어법(Irony)'이 기존 감성 분석 모델의 정확도를 떨어뜨리는 문제에 주목한다. 예를 들어 "쓰레기와 조화를 이루는 아름다운 해변"과 같은 리뷰는 표면적으로는 긍정 단어를 쓰지만 실제로는 부정적인 의미를 담고 있는데, 기존 모델은 이를 긍정으로 오분류하곤 했다.
저자들은 이 문제를 해결하기 위해 LLM을 단순한 분류기로 사용하는 대신, TSI(Text Sentiment classification model incorporating Irony knowledge)라는 BERT 기반의 하이브리드 모델을 제안한다. 여기서 LLM은 모델이 학습할 반어적 리뷰 데이터가 부족하다는 점을 해결하기 위해 '데이터 증강(Data Augmentation)' 도구로만 활용되었다. 즉, LLM에게 고품질의 반어적 리뷰를 생성하게 시키고, 실제 분석은 도메인 지식과 전이 학습으로 무장한 더 가볍고 빠른 모델에게 맡긴 것이다.
누군가는 그래봐야 BERT라고 생각할 수도 있겠지만 이 방식은 GPT-4를 포함한 최신 LLM 및 딥러닝 모델들보다 더 높은 정확도(92%)를 기록했을 뿐만 아니라, 특히 반어적 표현에 숨겨진 부정 감정을 식별하는 데 탁월한 성능을 보였다. 또한, 실제 서비스 적용 시 리뷰당 0.5초 수준의 빠른 처리 속도를 보장하며 비용 효율성 측면에서도 우위를 점했다.
과거 교육만족도 설문 중 정성의견에 대한 감성분석을 할 때도 정확히 같은 일이 있었다. 일반적인 감성분석 모델들의 경우 인터넷상의 '야생의 데이터'를 활용해 학습했기에 긍부정 감정이 적나라하게 드러나있다. 반면, 교육장 내에서의 부정 감정은 매우 완곡한 표현을 활용해 “~~ 했으면 좋겠습니다.” 같은 형태를 띠고 있었고, 기존 모델은 이를 긍정으로 분류하는 문제가 있었다.
당시 이러한 문제를 해결하고자 별도의 긍부정 라벨링을 통해 조직 맥락을 담아 기존 모델을 파인튜닝했고, 그 결과 모델 성능을 대폭 향상시킬 수 있었다. 이번 논문의 저자들이 관광 도메인의 특수성을 반영하기 위해 별도의 도메인 키워드 가중치를 조정하고 반어법 지식을 전이 학습시킨 것과 맥락을 같이 한다.
물론 LLM의 등장으로 이 정도 이진 분류는 LLM이 큰 어려움 없이 해낼지도 모른다. 프롬프트만 잘 짜거나 파인튜닝을 한다면 성능 또한 훌륭할 것이다. 그러나 LLM의 거대한 파라미터와 비용을 감안했을 때, 상시 진행되어야 할 대량의 텍스트 분석 작업에 API를 써서 LLM을 직접 활용한다는 것은 비용과 속도 측면에서 '닭 잡는 일에 소 잡는 칼'을 쓰는 격이라는 생각이다.
(돈이 많이 있어 본 적이 없어서 이런 비유가 맞는지는 모르겠지만) 단지 과시하려는 것이 아니라면 걸어서 3분 거리 슈퍼마켓을 가기 위해 반드시 람보르기니를 예열하고 운전해서 가야 할 필요는 없다. 건강과 효율을 위해서라도 걸어 다니는 편이 낫다. 반면 저자들의 방식처럼 창의성이 필요한 데이터 생성 단계에는 람보르기니(LLM)를 쓰고, 빠르고 정확해야 하는 분류 단계에는 튼튼한 운동화(BERT 기반 모델)를 신는 것은 매우 훌륭한 선택지가 될 것 같다.
결국 LLM 시대에 필요한 것은 기존 기술의 폐기나 새로운 기술의 과시가 아니라, AI 기술 특성에 대한 이해를 바탕으로 적재적소에 기술을 배치하고 조율하는 오케스트레이션(Orchestration) 역량이다.
Liu, W., Wu, L., & Zhao, H. (2026). Improving sentiment analysis in tourism through LLM-enhanced irony detection. Tourism Management, 112, 105272.
기존 감성 분석 모델이 관광 리뷰 내의 반어적 표현(표면은 긍정이나 속뜻은 부정인 경우)을 제대로 탐지하지 못하는 한계를 극복하기 위한 연구이다.
LLM을 활용한 데이터 증강, 전이 학습(Transfer Learning), 도메인 특화 지식을 결합한 새로운 프레임워크인 TSI(Text Sentiment classification model incorporating Irony knowledge)를 제안한다.
실험 결과, TSI 모델은 기존 딥러닝 및 LLM 기반 모델보다 전반적인 감성 분류 정확도가 높았으며, 특히 반어적 리뷰의 부정 감성을 식별하는 데 탁월한 성능을 보였다.
TripAdvisor와 같은 플랫폼에서 사용자 리뷰는 서비스 평가의 핵심 지표이지만, 기존 분석 도구는 "쓰레기와 조화를 이루는 아름다운 해변"과 같은 반어적 표현을 긍정으로 오분류하는 경우가 많다.
이러한 오분류는 서비스 제공자가 고객의 불만을 정확히 파악하는 것을 방해하므로, 반어법을 효과적으로 감지할 수 있는 정교한 모델이 필요했다.
또한, 관광 도메인에는 반어법이 포함된 학습 데이터가 부족하여(Data Scarcity) 모델 훈련에 어려움이 있었다.
반어법 탐지 (Irony Detection): 문맥과 모순되는 표현을 통해 숨겨진 감정을 찾아내는 기술이다.
TSI 모델: 저자들이 제안한 모델로, 도메인 지식 강화, 텍스트 어텐션, 반어법 인식 전이 학습, 감성 분류 모듈로 구성된다.
LLM 기반 데이터 증강 (LLM-based Data Augmentation): 데이터 불균형 해소를 위해 GPT-4나 Qwen-Max 같은 LLM을 사용하여 반어적 리뷰 데이터를 인위적으로 생성하는 기법이다.
데이터 구축: Yelp와 TripAdvisor의 리뷰 데이터 외에, 기존 반어법 코퍼스(Sarcasm Corpus V2)를 활용하고, LLM(Qwen-Max)을 이용해 3,000개의 반어적 부정 리뷰를 추가로 생성하여 학습 데이터를 보강했다.
모델 설계: BERT 임베딩에 관광 도메인 키워드 가중치를 부여하고, 일반 반어법 데이터셋으로 사전 학습된 DNN 모델의 지식을 전이(Transfer Learning)하여 관광 리뷰 분석에 적용했다.
검증: Naive Bayes, TextCNN, BERT, GPT-4 등 7가지 베이스라인 모델과 성능을 비교하고, 소거 연구(Ablation Study)를 통해 각 모듈의 효과를 검증했다.
제안된 TSI 모델은 정확도(Accuracy) 92% 이상, F1-score 94% 이상을 기록하며 모든 베이스라인 모델을 능가했다.
특히 부정 예측 값(NPV) 지표에서 가장 높은 성능을 보여, 반어적 표현에 숨겨진 부정적 감정을 식별하는 데 매우 효과적임이 입증되었다.
사례 연구(Case Study)를 통해, 기존 모델(TextCNN)이 긍정으로 잘못 판단한 반어적 리뷰를 TSI 모델은 정확하게 부정으로 분류함을 확인했다.
관광 경험에서의 감정과 온라인 리뷰의 중요성
관광 경험은 여행 전부터 여행 후까지 감정적인 요인에 깊이 영향을 받는다. 특히 부정적인 감정 경험은 만족도와 고객 충성도를 낮추는 결과를 초래한다. 소셜 미디어와 온라인 리뷰 사이트가 확장됨에 따라 사용자가 생성한 콘텐츠(UGC)는 서비스 품질과 관광객 만족도를 평가하는 핵심 자원으로 부상했다. 사용자는 이러한 플랫폼에서 자신의 경험과 통찰을 공유하며, 이는 다른 관광객과 기업 모두에게 가치 있는 정보를 제공한다.
반어적 표현의 증가와 기존 분석의 한계
최근 온라인 리뷰에서 소비자의 감정을 우회적으로 표현하는 반어적(Ironic) 표현이 증가하고 있다. 반어법은 상황적 맥락과 문자적 의미 사이에 불일치가 존재할 때 발생하며, 온라인 리뷰의 최대 8.5%에서 나타난다. 관광 리뷰 텍스트에서의 반어법은 "표면적으로는 긍정적인 감정을 전달하지만 의도된 의미는 부정적인 경우, 또는 그 반대의 경우"로 정의된다.
기존의 감성 분석 도구는 표면적으로 드러난 긍정적인 단어에 집중하기 때문에 반어법을 인식하지 못하고 감정을 잘못 판단하는 경우가 많다.
예를 들어, 쓰레기가 가득한 해변을 두고 "아름다운 풍경이 쓰레기와 조화롭게 어우러진다"라고 표현할 경우, 기계는 이를 긍정적인 리뷰로 오분류한다.
이러한 오분류는 플랫폼과 서비스 제공자가 정확한 피드백을 얻고 문제를 해결하는 것을 방해한다.
이러한 문제는 기존 알고리즘이 일반적인 언어 모델 변환에만 초점을 맞히고 있어 미묘한 내포적 의미를 파악하는 능력이 부족하기 때문에 발생한다. 또한, 관광 분야에 특화된 지식, 특히 반어법과 관련된 맥락 정보가 충분히 통합되지 않았다는 한계가 있다.
TSI 모델 제안 및 연구의 핵심 관점
이러한 문제를 해결하기 위해 저자는 반어법 지식을 통합한 새로운 텍스트 감성 분류 모델인 TSI(Text Sentiment classification model incorporating Irony knowledge)를 제안한다. 이 모델은 대규모 언어 모델(LLM)을 활용한 데이터 증강, 도메인 특화 반어법 패턴, 문맥 인식 감성 모델링을 통합하여 관광 리뷰의 감성 탐지 정확도를 높이도록 설계되었다.
이 접근 방식은 다음 세 가지 관점(Views)을 기반으로 설계되었다.
V1: 반어적 리뷰 데이터의 희소성 문제를 해결함으로써 알고리즘의 반어법 인지 능력을 향상시킬 수 있다.
V2: 공개된 도메인에서 사용 가능한 반어법 지식을 활용하면 모델의 탐지 능력을 강화할 수 있다.
V3: 관광 분야의 지식을 활용하면 여행 리뷰 분석에 최적화된 모델을 설계하는 데 도움이 된다.
연구의 방법론적 단계와 기여
제안된 방법론은 크게 세 단계로 구성된다. 첫째, 데이터 부족 문제를 해결하기 위해 LLM을 사용하여 반어적 여행 리뷰를 생성하고 데이터를 증강한다. 둘째, 반어적 표현의 패턴 유사성을 고려하여 타 도메인의 반어법 지식을 관광 분야로 전이(Transfer Learning)하고 관광 도메인 키워드 가중치를 조정한다. 셋째, 다양한 실험을 통해 모델의 정확성과 실용성을 평가한다.
이 연구는 다음과 같은 세 가지 측면에서 기여한다.
강력한 프레임워크 제안: 반어적 관광 리뷰의 미묘한 복잡성을 해결하여 보다 신뢰할 수 있는 감성 분석 프레임워크를 제공한다.
실무적 시사점 제공: 단순한 평점을 넘어 리뷰 내용에 담긴 복잡한 감정을 정확히 파악하게 함으로써, 기업이 고객 경험을 깊이 이해하고 서비스를 개선하도록 돕는다.
새로운 데이터셋 공개: 반어적 여행 리뷰를 연구할 수 있는 새로운 데이터셋을 공개하여 후속 연구의 기반을 마련한다.
2.1. 관광 분야의 감성 분석 (Sentiment analysis in tourism)
관광 연구 데이터로서의 사용자 생성 콘텐츠(UGC)
온라인 여행 플랫폼에서 생성되는 사용자 생성 콘텐츠(UGC)는 여행자의 경험, 감정, 의사결정 과정을 포착할 수 있는 관광 연구의 주요 데이터 원천이다. 관광 관련 텍스트에서 감정을 정확하게 추출하고 해석하는 것은 관광객의 행동을 이해하고 관광 산업의 지속 가능한 발전을 촉진하는 데 필수적이다.
감성 분석의 활용 범위와 영향력
최근 연구들은 감성 분석이 목적지 이미지 구축과 브랜드 홍보를 지원할 뿐만 아니라, 여행자의 의사결정과 만족도에도 중요한 영향을 미친다는 것을 입증했다. 구체적인 활용 사례는 다음과 같다.
수요 예측 및 인식 평가: 사용자 리뷰의 감성 분석을 통합하여 관광 수요 예측 모델을 개선하거나, 특정 관광지에 대한 관광객의 인식을 평가한다.
수용력 및 비즈니스 성과 예측: 감성 신호를 통해 목적지의 수용 능력을 평가하거나, 레스토랑의 생존 가능성과 같은 비즈니스 성과를 예측한다.
선호도 파악 및 추천 시스템: 호텔에 대한 고객의 선호도를 파악하고, 추천 시스템 개발을 지원하며, 관광 부문의 재무 성과를 예측하는 데 활용된다.
이처럼 리뷰의 감성은 고객 평점 및 만족도와 밀접하게 연관되어 있어 전략적 의사결정에 실질적인 중요성을 가진다. 하지만 대부분의 기존 연구는 전반적인 감성 신호에만 집중하는 경향이 있어, 분류 정확도를 떨어뜨릴 수 있는 반어법과 같은 미묘한 언어적 표현을 간과한다는 한계가 있다.
2.2. 감성 분석 방법론 (Methodology of sentiment analysis)
감성 분석 기법의 발전 과정
관광 분야의 감성 분석 방법론은 자연어 처리(NLP) 기술의 광범위한 발전 흐름을 따르고 있다. 초기 연구는 감성 어휘 사전과 기본적인 머신러닝 분류기에 의존했다. Naïve Bayes, LightGBM, SVM과 같은 알고리즘이 초기에는 성과를 거두었으나, 노동 집약적인 특성 공학(feature engineering)에 의존해야 한다는 한계가 있었다.
딥러닝 모델의 도입과 한계
이후 CNN, BERT, Transformer, TextCNN, Bi-LSTM 등 딥러닝 아키텍처가 등장하면서 감성 분류의 정확도가 크게 향상되었다. 이러한 모델들은 자동화된 특성 추출과 강력한 문맥 모델링을 가능하게 하여, 특히 길고 복잡한 리뷰를 분석하는 데 효과적이다. 그러나 이러한 모델들 역시 반어법과 같은 정교한 언어 현상을 처리할 때는 성능이 저하된다는 문제점이 있다.
전이 학습과 도메인 지식의 통합
도메인 간의 이질성을 해결하고 모델의 일반화 성능을 높이기 위해 전이 학습(Transfer Learning)이 유망한 전략으로 부상했다. 최근 연구에서는 감성 분석뿐만 아니라 반어법 탐지와 같은 관련 작업에도 전이 학습을 적용하고 있다. 그럼에도 불구하고, 관광 텍스트 분석에서 도메인 특화 지식의 통합과 반어법에 대한 명시적인 처리는 여전히 충분히 연구되지 않은 영역이다.
이러한 한계를 극복하기 위해 본 연구는 전이 학습과 도메인 특화 지식을 통합하는 새로운 접근 방식을 제안한다. 이는 감성 극성 분류의 정확도를 높일 뿐만 아니라 관광 텍스트 분석에서의 문맥 이해의 깊이를 향상시키는 것을 목표로 한다.
3.1. TSI 모델 (TSI model)
TSI 모델의 개요 및 구성
저자가 제안한 TSI 모델은 관광 리뷰 데이터를 효과적으로 분석하기 위해 설계되었으며, 공개된 도메인 지식, BERT의 사전 학습된 지식, 그리고 자가 어텐션(Self-attention) 구조의 장점을 통합한다. 이 모델은 전체 리뷰의 의미 정보를 포괄적으로 포착하며, 다음과 같은 네 가지 핵심 모듈로 구성된다.
모듈 1: 관광 도메인 강화 모듈 (Tourism Domain Enhancement Module)
이 모듈은 여행 리뷰 분석에 특화된 모델을 설계하기 위해 BERT 임베딩과 관광 분야의 도메인 지식(관련 키워드 집합)을 통합하여 특징을 구축한다.
먼저, BERT 모델을 사용하여 입력된 리뷰 텍스트를 임베딩 벡터로 변환한다. BERT는 양방향 트랜스포머 아키텍처를 통해 문맥 정보를 효과적으로 포착하고 텍스트 이해도를 높인다.
이후 관광 도메인 지식을 강화하기 위해 도메인 키워드 목록에 있는 각 키워드의 임베딩 가중치를 조정한다. 이때 하이퍼파라미터 p를 사용하여 해당 키워드의 가중치를 원래 값의 (1+p) 배로 증폭시킨다.
도메인 키워드 목록은 두 가지 소스에서 구성된다. 하나는 프롬프트 엔지니어링을 통해 GPT-4가 생성한 'LLM 도메인 키워드'이며, 다른 하나는 TF-IDF 방식을 통해 데이터셋에서 추출한 상위 100개의 고빈도 '리뷰 키워드'이다.
모듈 2: 텍스트 어텐션 연산 모듈 (Textual Attention Computing Module)
이 모듈에서는 자가 어텐션(Self-attention) 메커니즘을 활용하여 리뷰 텍스트의 단어별 중요도를 계산한다. 각 단어의 임베딩 벡터에 선형 변환을 적용하여 쿼리(Q), 키(K), 값(V)을 생성하고, 이를 통해 어텐션 점수를 산출한다.
자가 어텐션 메커니즘은 문장 내 단어의 위치와 관계없이 단어 간의 관계를 포착할 수 있게 한다.
모델은 중요한 특징에 집중하고 덜 관련된 정보를 억제함으로써, 텍스트 내의 미묘한 감정 변화와 문맥적 관계를 더 잘 파악하게 된다.
모듈 3: 반어법 인식 전이 학습 모듈 (Irony-Aware Transfer Learning Module)
반어적 표현에 담긴 감정을 정확히 탐지하기 위해 외부의 감성 지식을 활용한다. 구체적으로, 일반적인 반어법 데이터셋(소스 도메인)에서 훈련된 심층 신경망(DNN) 모델을 관광 리뷰 데이터셋(타겟 도메인)에 적응시키는 전이 학습(Transfer Learning)을 수행한다.
소스 도메인인 반어법 데이터셋으로 DNN 모델을 사전 학습시켜 모델 파라미터를 최적화한다.
학습된 파라미터를 사용하여 타겟 도메인 모델을 초기화한 후, 관광 리뷰 데이터셋을 통해 미세 조정(Fine-tuning)을 거친다.
이 과정을 통해 모델은 반어법에 대한 일반적인 지식을 관광 리뷰 분석으로 전이시켜, 기존 감성 분석 기술로는 식별하기 어려운 반어적 감정을 효과적으로 탐지한다.
모듈 4: 감성 분류 모듈 (Sentiment Classification Module)
감성 분류 모듈에서는 모듈 2와 모듈 3에서 추출한 특징 표현을 결합(Concatenation)하여 최종적인 감성을 판단한다.
결합된 특징은 과적합을 방지하기 위해 드롭아웃(Dropout) 층을 거친 후, 선형 층(Linear layer)과 시그모이드(Sigmoid) 활성화 함수를 통과한다.
최종 출력값은 0과 1 사이의 값으로 나타나며, 1에 가까우면 긍정, 0에 가까우면 부정 감정으로 분류한다.
3.2. 제안하는 전체 프레임워크 (The proposed overall framework)
이 연구는 데이터 준비, 데이터 처리 및 모델 개발, 모델 평가의 3단계로 구성된 전체 프레임워크를 따른다.
1단계: 데이터 준비 (Data Preparation)
모델 학습과 검증을 위해 네 가지 데이터셋을 준비한다.
공공 데이터셋: 반어법 탐지를 위한 소스 도메인 데이터로 'Sarcasm Corpus V2'를 사용하고, 관광 분야 감성 분석을 위해 'TripAdvisor Reviews'와 'Yelp Restaurant Reviews'를 활용한다.
LLM 반어법 데이터셋 (LLM Irony Dataset): 관광 데이터 내 반어적 리뷰의 희소성 문제를 해결하기 위해 LLM을 사용하여 데이터를 증강한다. 기존 리뷰에서 선별한 반어적 문장(Seed Sample)을 프롬프트 템플릿에 넣어 Qwen-Max 모델이 새로운 반어적 부정 리뷰를 생성하도록 했다. 이를 통해 3,000개의 고품질 반어적 리뷰를 확보했다.
2단계: 데이터 처리 및 모델 준비 (Data Processing and Model Preparation)
수집된 데이터는 감성 극성 라벨링과 전처리 과정을 거친다.
라벨링: 평점 4~5점은 긍정(1), 1~3점은 부정(0)으로 분류한다. 특히 평점 3점은 서비스가 고객에게 큰 만족을 주지 못한 평범한 상태로 간주하여 보수적으로 부정 범주에 포함시킨다.
전처리: 숫자 제거, 불필요한 공백 및 구두점 삭제, 불용어(Stopwords) 제거, 소문자 변환, 토큰화(Tokenization) 과정을 수행하여 데이터의 품질을 높인다.
데이터 분할: 전처리된 데이터는 훈련, 검증, 테스트 세트로 나누어 모델 훈련 및 튜닝에 사용한다.
3단계: 모델 평가 (Model Evaluation)
모델의 성능을 검증하기 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-스코어(F1-score), 부정 예측 값(NPV) 등 5가지 지표를 사용한다. 또한, Naive Bayes, LightGBM, TextCNN, Bi-LSTM, BERT, GPT-4 등 다양한 베이스라인 모델과 성능을 비교하여 TSI 모델의 유효성을 평가한다.
4.1. 실험 설정 (Experimental setup)
연구 질문 및 실험 환경
본 연구는 데이터 희소성 해결, 모델 성능 향상, 외부 지식 활용 효과 등을 검증하기 위해 네 가지 연구 질문(RQ1~RQ4)을 설정하고 실험을 진행한다. 실험은 Nvidia 4090 GPU 환경에서 수행되었으며, 데이터셋은 훈련(60%), 검증(20%), 테스트(20%) 비율로 분할하여 사용한다.
비교 모델 및 평가 지표
제안된 TSI 모델의 성능을 입증하기 위해 총 7가지의 베이스라인 모델과 비교 실험을 수행한다.
전통적 머신러닝 모델: Naive Bayes, LightGBM
딥러닝 모델: TextCNN, Bi-LSTM, W2C_RNN
사전 학습된 언어 모델: BERT, GPT-4
모델의 성능 평가는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-스코어(F1-score)를 사용하며, 특히 부정적인 리뷰를 정확히 걸러내는 능력을 확인하기 위해 부정 예측 값(NPV)을 주요 지표로 활용한다.
4.2. 실험 결과 및 분석 (Experiment results and analysis)
LLM을 활용한 데이터 증강 효과 (RQ1)
반어적 리뷰의 희소성 문제를 해결하기 위해 LLM을 활용한 데이터 증강 방식을 비교 분석한다.
GPT를 이용한 직접 생성 방식은 결과물이 반복적이고 문맥적 풍부함이 부족한 경향을 보인다.
반면, Qwen-Max 모델에 무작위 샘플링(Random Sampling)을 적용한 방식은 미묘한 세부 사항이 포함된 다양하고 현실적인 반어적 리뷰를 생성하는 데 훨씬 효과적이다.
결과적으로 Qwen-Max를 통해 생성된 데이터가 반어적 표현의 다양성을 넓히고 모델의 감성 인식 능력을 향상시키는 데 기여한다.
소거 연구를 통한 모듈별 기여도 검증 (RQ3, RQ4)
TSI 모델의 각 모듈이 성능에 미치는 영향을 파악하기 위해 단계적 검증 및 소거 연구(Ablation Study)를 수행한다.
TSI-KT: 반어법 전이 학습과 관광 도메인 강화 모듈을 모두 제거한 모델
TSI-T: 반어법 전이 학습 모듈만 제거한 모델
TSI: 모든 모듈이 포함된 전체 모델
실험 결과, 모든 지표에서 TSI > TSI-T > TSI-KT 순으로 성능이 높게 나타난다. 이는 관광 도메인 지식이 특징 추출 능력을 강화하고, 반어법 전이 학습이 내재된 반어적 패턴을 포착하는 데 필수적임을 시사한다.
감성 분류 성능 비교 (RQ2)
Yelp와 TripAdvisor 데이터셋에서 TSI 모델은 모든 베이스라인 모델보다 우수한 성능을 보인다.
TSI 모델은 두 데이터셋 모두에서 92% 이상의 정확도와 94% 이상의 F1-스코어를 기록한다.
이는 기존의 강력한 모델인 BERT나 GPT-4보다 높은 수치이며, 통계적 검증(t-test)을 통해 성능 향상이 유의미함을 확인한다.
반어법 지식을 제외한 TSI-T 모델도 두 번째로 높은 성능을 보여, 관광 도메인 지식 통합 자체만으로도 상당한 효과가 있음을 증명한다.
부정 감성 식별 능력 (NPV 분석)
반어적 표현에 숨겨진 부정적 감정을 얼마나 잘 식별하는지 평가하기 위해 NPV 지표를 분석한다.
TSI 모델은 세 가지 데이터셋(Yelp, TripAdvisor, LLM Irony Dataset) 모두에서 가장 높은 NPV를 기록한다.
특히 LLM Irony Dataset에서의 압도적인 성능은 TSI 모델이 반어법이 포함된 복잡한 부정 감정을 식별하는 데 탁월함을 보여준다.
반면, TextCNN이나 Bi-LSTM과 같은 기존 모델은 반어적 표현을 제대로 처리하지 못해 NPV 점수가 상대적으로 낮게 나타난다.
4.3. 매개변수 민감도 및 추가 분석 (Parameter sensitivity analysis & Further exploration)
매개변수 민감도 분석
도메인 키워드의 가중치 파라미터 p가 모델 성능에 미치는 영향을 분석한다.
p값이 증가함에 따라 성능이 초기에는 상승하다가 특정 지점을 지나면 하락하는 경향을 보인다.
이는 최적의 가중치 범위가 존재함을 의미하며, 데이터셋과 모델 특성에 따라 적절한 p값을 튜닝하는 것이 중요함을 시사한다.
세밀한 분류(Fine-grained classification) 탐색
긍정/부정의 이진 분류를 넘어 긍정/중립/부정의 3단계 분류를 시도한다.
TSI 모델은 여전히 가장 높은 정확도를 보이지만, 중립 리뷰 데이터의 부족으로 인해 정밀도와 재현율은 다소 낮게 나타난다.
따라서 현재 데이터 환경에서는 이진 분류가 더 적합하지만, TSI 모델이 세밀한 라벨링 환경에서도 견고함을 유지한다는 것을 확인한다.
4.4. 사례 연구 (Case study)
실제 리뷰에 대한 모델 예측 비교
실제 반어적 리뷰 4건과 일반 리뷰 1건을 대상으로 TextCNN과 TSI 모델의 예측 결과를 비교한다.
TextCNN: "Pathetic waiting management(한심한 대기 관리)"와 같은 부정적 표현이 있음에도 불구하고, 문장 내의 긍정적 단어에 현혹되어 반어적 리뷰를 모두 '긍정'으로 오분류한다. 또한 일부 긍정 리뷰를 부정으로 잘못 판단하기도 한다.
TSI: 반어적 표현에 담긴 부정적 의도를 정확하게 포착하여 모든 리뷰의 감성을 올바르게 분류한다. 특히 긍정적 어휘가 많이 사용된 문장에서도 숨겨진 부정 감정을 성공적으로 탐지한다.
본 연구는 관광 리뷰의 감성 분석, 특히 반어적 맥락 내의 부정적 감정을 탐지하는 혁신적인 방법을 제안한다. 관광 도메인 지식과 반어법 인식 전이 학습을 통합하여 기존 기술로는 포착하기 어려운 내포된 감정 신호를 효과적으로 감지하도록 설계되었다.
실험 결과, 제안된 TSI 모델은 92% 이상의 정확도와 94% 이상의 F1-스코어를 기록하며 그 효과를 입증했다. 또한 부정 예측 값(NPV) 지표 분석과 사례 연구를 통해 반어적 표현에 숨겨진 부정 감정을 식별하는 데 있어 기존 모델보다 탁월한 성능을 보임을 확인했다.
5.1. 이론적 시사점 (Theoretical implications)
대부분의 기존 연구는 온라인 리뷰의 명시적인 감정 표현에만 집중하여 반어법의 미묘한 특성을 간과해 왔다. 본 연구는 이러한 한계를 해결하고 다음과 같은 이론적 기여를 제공한다.
일반적인 여행 리뷰와 반어적 리뷰를 구별할 수 있는 정교한 모델을 제안하여, 온라인 리뷰 내 반어법과 부정적 감정 간의 상호작용에 대한 통찰력을 심화한다.
관광 도메인 내 반어법 데이터 부족 문제를 해결하기 위해 LLM을 활용한 샘플 증강을 시도하고, 반어적 여행 리뷰가 포함된 새로운 데이터셋을 공개하여 후속 연구의 기반을 마련한다.
감성 탐지와 반어법 간의 교차점을 연구함으로써, 텍스트 마이닝과 머신러닝 기술을 복잡한 감정 표현이 필요한 다양한 도메인으로 확장할 수 있는 가능성을 열어준다.
5.2. 관리적 시사점 (Managerial implications)
제안된 모델은 일반적인 리뷰뿐만 아니라 반어적 리뷰의 부정 감정을 정확히 파악함으로써 관광 산업에 실질적인 관리적 시사점을 제공한다. 스마트 관광 플랫폼은 이 모델을 클라우드 기반 API로 통합하여 사용자 리뷰를 실시간으로 분석할 수 있으며, 구체적인 활용 방안은 다음과 같다.
플랫폼 통합 및 사용자 경험 개선: 호텔이나 항공편 페이지에 "부정적 리뷰의 22%가 반어법을 포함할 수 있음"과 같은 경고 태그를 표시하거나, 감성 강도에 따른 필터링 기능을 제공하여 고객의 의사결정을 돕는다.
정밀 마케팅 전략 수립: 수하물 지연과 같은 부정적 경험을 반어적으로 표현한 리뷰를 감지하면, 자동으로 관련 보상(예: 수하물 요금 할인 쿠폰)을 제공하는 등 타겟팅된 프로모션을 진행하여 전환율을 높인다.
리스크 관리 및 조기 경보: "식중독 애호가를 위한 완벽한 선택"과 같은 고위험 반어적 리뷰를 즉시 식별하여 고객 서비스 팀에 경보를 보내고, 자동화된 보상 제안을 생성함으로써 고객 불만을 신속하게 해결한다.
5.3. 한계점 및 향후 연구 (Limitations and future research)
이 연구는 유의미한 성과를 거두었으나 몇 가지 한계점이 존재하며, 이는 향후 연구를 위한 새로운 방향을 제시한다.
언어적 제약: 영어 리뷰 데이터만을 사용했기 때문에 다른 언어나 문화적 환경에 대한 적용이 제한된다. 향후 연구에서는 다국어 데이터를 포함하여 모델의 글로벌 적응성을 높여야 한다.
데이터 모달리티의 한계: 텍스트 데이터만을 사용하여 훈련되었으므로 이모티콘이나 이미지와 같은 비텍스트 요소를 고려하지 못했다. 텍스트와 시각적 모델(예: CLIP, 이모티콘 임베딩)을 통합하면 내포된 감정 탐지 성능을 더욱 향상시킬 수 있다.
도메인 특화 반어법의 미비: 일반 도메인의 반어법 코퍼스를 전이 학습에 사용했기 때문에, 관광 분야 특유의 반어적 표현을 일부 놓칠 수 있다. 향후 사용자 수준의 데이터를 활용하여 개인화된 반어법 탐지 시스템을 구축하면 대응 효율성을 높일 수 있을 것이다.