감성분석을 넘어 '원인'을 찾아내는 멀티모달 AI

그 때 그 순간, 말투가 문제였을까 표정이 문제였을까

by Kay

텍스트 안의 감정을 다룬다는 것에는 치명적인 맹점이 있다. 사실 내가 감정에 관심을 갖고 살펴보는 이유이자 진짜로 궁금한 것은 조직 내에 그러한 감정을 불러일으킨 원인인 반면 기존의 분석 방식은 그 원인을 블랙박스로 둔 채, 결과로 나타난 감정으로부터 앞뒤 상황을 막연히 유추해야 한다는 점이다. 만약 나의 어떤 구체적인 말과 행동이 상대방의 어떤 감정 반응으로 연결되는지 그 인과관계를 확인해 볼 수 있다면 어떨까.


'NUS-Emo at SemEval-2024 Task 3' 연구는 이러한 문제의식을 다루고 있다. 이 연구는 대화 속에서 단순히 감정을 분류하는 것을 넘어, 그 감정을 촉발시킨 구체적인 발화나 사건을 '쌍(Pair)'으로 추출하는 MECPE-Cat(Multimodal Emotion-Cause Pair Extraction with Emotion Category) 과제를 해결하기 위한 시스템을 제안한다.


저자들은 ChatGLM이라는 대규모 언어 모델(LLM)을 백본으로 삼아, 텍스트뿐만 아니라 비디오와 오디오 데이터를 통합적으로 분석하는 방식을 취한다. 특히 과제를 감정 인식(ERC)과 원인 추출(ECPE)의 두 단계로 분해하고, ImageBind와 GPT-4V를 활용해 모델이 직접 '보고 들을 수 없는' 영상 속 정보를 텍스트로 변환하여 학습시킨다. 그 결과, 리더보드 2위를 기록하며 대화의 맥락과 감정 원인을 정교하게 짚어낼 수 있음을 증명했다.


물론 이 연구의 방식을 실제 조직 현장에 당장 적용하기에는 현실적인 한계가 분명하다. 구성원의 일거수일투족을 말뿐만 아니라 행동과 표정까지 데이터로 수집해야 한다는 점은 심각한 개인정보 침해 우려를 낳기 때문이다. 사실상 빅브라더식 감시가 될 수 있다는 점에서 일상의 모든 장면을 멀티모달로 수집하는 접근은 적어도 한동안(어쩌면 영원히) 엄두도 못 낼 일이다.


하지만 관점을 살짝 비틀어보면 이 기술은 '안전하게 통제된 환경'에서 엄청난 잠재력을 발휘할 수 있다. 대표적인 시나리오가 바로 코칭 또는 리더십 교육의 롤플레잉(Role-playing) 세션이다. 사전 고지된 교육 상황에서 리더의 롤플레잉 영상을 분석한다면, 기존의 주관적 코칭과는 차원이 다른 피드백이 가능해진다. "리더님의 3번 발화 직후 상대방의 표정에서 '당혹감'이 감지되었습니다. 텍스트는 격려였으나 차가운 음조가 부정적 감정의 원인(Cause)으로 분석됩니다"와 같이 구체적인 '트리거'를 짚어줄 수 있다.


리더 본인은 칭찬이라고 생각했지만, 인공지능이 분석한 시각적 신호(표정, 시선 처리)가 상반된 결과를 가리킬 때 그 괴리를 수치로 확인시켜 줄 수 있다. 이는 리더가 자신의 대화 습관과 비언어적 태도가 구성원에게 어떤 감정적 타격을 주는지 스스로 깨닫게 하는 강력한 거울이 된다.


결국 이 연구에서 제안하는 기술의 핵심은 감정과 원인을 연결하는 논리 구조를 학습한다는 데 있다. 비록 일상 업무 전체를 추적할 수는 없어도, 핵심적인 대화 상황(성과 면담, 갈등 조정 등)을 시뮬레이션하고 이를 멀티모달로 분석하는 것만으로도 리더십의 질적 성장을 돕는 파트너가 될 수 있을 것이다.




NUS-Emo at SemEval-2024 Task 3: Instruction-Tuning LLM for Multimodal Emotion-Cause Analysis in Conversations


Luo, M., Zhang, H., Wu, S., Li, B., Han, H., & Fei, H. (2024). NUS-Emo at SemEval-2024 Task 3: Instruction-Tuning LLM for Multimodal Emotion-Cause Analysis in Conversations. arXiv preprint arXiv:2501.17261.


1. 이 연구를 3줄로 요약하면?

본 연구는 SemEval-2024 Task 3의 멀티모달 감정-원인 분석(Multimodal Emotion-Cause Analysis) 과제를 해결하기 위한 시스템을 제안한다. 대규모 언어 모델(LLM)에 감정-원인 인식 명령어 튜닝(emotion-cause-aware instruction-tuning)을 적용하여 대화 내 감정과 그 원인을 추출한다. 최종적으로 34.71%의 가중 평균 F1 점수를 달성하여 리더보드 2위를 기록하였다.


2. 저자는 왜 이 연구를 진행했는가?

감정 원인 분석은 인간 커뮤니케이션과 의사결정의 핵심 요소이며, 텍스트만으로는 감정 표현의 복잡성을 완전히 포착할 수 없다. 감정과 그 원인은 텍스트, 오디오, 비디오 등 다양한 모달리티를 통해 전달되기 때문에, 멀티모달 환경에서의 감정-원인 쌍 추출 과제를 해결하고자 본 연구를 수행하였다.


3. 이 연구에서 중요하게 다뤄진 개념은?

MECPE-Cat (Multimodal Emotion-Cause Pair Extraction with Emotion Category): 멀티모달 환경에서 감정-원인 쌍을 감정 범주와 함께 추출하는 과제이다.

ERC (Emotion Recognition in Conversation): 대화 내 감정 인식 과제이다.

ECPE (Emotion-Cause Pair Extraction): 감정-원인 쌍 추출 과제이다.

Instruction-tuning: LLM을 특정 과제에 맞게 명령어 기반으로 미세조정하는 기법이다.

LoRA (Low-Rank Adaptation): 파라미터 효율적 미세조정 기법이다.


4. 저자는 어떤 방법을 사용했는가?

저자는 먼저 파일럿 스터디를 통해 여러 LLM 중 ChatGLM을 백본 모델로 선정하였다. 과제를 ERC와 ECPE 두 단계로 분해하고, ImageBind를 활용하여 멀티모달 정보를 인코딩하였다. 감정-원인 인식 명령어 템플릿을 설계하여 LLM을 튜닝하였으며, LoRA 기법을 적용하여 파라미터 효율적으로 학습을 수행하였다.


5. 연구의 결과는?

최종 시스템은 가중 평균 F1 점수 34.71%를 달성하여 MECPE-Cat 리더보드에서 2위를 기록하였다. 실험 결과, 과제 분해, 명령어 템플릿 설계, 데이터 증강, 그리고 멀티모달 정보 통합이 모두 성능 향상에 기여함을 확인하였다.




1. 서론 (Introduction)


감정 원인 분석의 중요성

감정 원인 분석(Emotion Cause Analysis)은 인간 커뮤니케이션과 의사결정의 핵심 요소이다. 이 분석을 통해 감정에 대한 더 깊고 세밀한 이해가 가능해진다. Poria et al. (2021)이 텍스트 대화에서의 감정 원인 분석을 도입한 이후, 대화 내 감정 역학을 이해하는 연구가 발전해 왔다.


멀티모달 접근의 필요성

텍스트 분석만으로는 인간 감정 표현의 복잡성을 완전히 포착할 수 없다. 감정과 그 원인은 텍스트, 오디오, 비디오 등 다양한 모달리티의 조합을 통해 전달된다. SemEval-2024 Task 3의 subtask 2인 MECPE-Cat은 영어 대화를 대상으로 멀티모달 영역에서의 감정 원인 분석을 수행한다. 이 과제는 Wang et al. (2021)의 연구에서 영감을 받았으며, 텍스트, 오디오, 비디오를 포함한 여러 모달리티에서 감정과 그에 해당하는 원인을 공동으로 추출하고, 각 감정-원인 쌍에 대한 감정 범주를 식별하는 것을 목표로 한다.


본 연구의 접근 방식

본 연구에서는 다양한 자연어 처리 과제에서 뛰어난 성능을 보이는 LLM을 활용한다. 구체적으로 GPT-3, Flan-T5, GLM 등의 모델을 검토하였다. 본 연구에서 적용한 주요 기법은 다음과 같다.

LoRA를 이용한 파라미터 효율적 미세조정: 최소한의 계산 비용으로 LLM의 성능을 향상시킨다.

감정-원인 인식 프롬프트 기반 학습: LLM이 맥락에 적합한 출력을 생성하도록 유도한다.

명령어 튜닝(Instruction-tuning): 명시적 지시에 대한 모델의 응답을 개선하여 감정과 그에 해당하는 인과적 근거를 더 정확하게 인식할 수 있도록 한다.


연구 결과 및 기여

본 연구에서는 제로샷 성능이 가장 우수한 ChatGLM을 MECPE-Cat 과제의 최적 LLM으로 선정하였다. 세심하게 설계된 프롬프트를 통해 ChatGLM을 명령어 튜닝하여 과제 특화 정확도를 향상시켰다. 최종적으로 subtask 2 공식 테스트셋에서 가중 평균 34.71% F1 점수를 달성하여 2위를 기록하였다. 본 논문에서는 모델과 방법론의 현재 한계점과 향후 연구 방향도 논의하며, 관련 연구를 촉진하기 위해 코드와 리소스를 공개한다.



2. 배경 (Background)


2.1 과제 및 데이터셋 설명 (Task and Dataset Description)

SemEval-2024 Task 3은 멀티모달 대화 감정-원인 데이터셋인 ECF(Emotion-Cause-in-Friends)를 기반으로 한다. ECF는 멀티모달 데이터셋 MELD를 데이터 소스로 선택하고, 주어진 감정 주석에 해당하는 원인을 추가로 주석한 데이터셋이다. ECF 데이터셋은 9,794개의 감정-원인 쌍을 포함하며 세 가지 모달리티(텍스트, 오디오, 비디오)를 다룬다.

Subtask 2는 주어진 대화에서 세 가지 모달리티 하에 모든 감정-원인 쌍을 추출하는 것이다. 각 쌍은 다음 요소를 포함한다.

감정 발화(emotion utterance)와 해당 감정 범주(emotion category)

원인 발화(cause utterance)

예를 들어, (U3_Joy, U2)는 발화 3에서 화자의 기쁨(joy) 감정이 발화 2의 원인에 의해 촉발되었음을 의미한다.

논문의 Figure 1은 실제 예시를 보여준다. 해당 대화에서 총 6개의 발화 수준 감정-원인 쌍을 추출해야 한다. Chandler의 기쁨 감정(U4)은 자신과 Monica가 화해했다는 객관적 원인(U2)과 Monica의 주관적 의견(U3)에 의해 촉발되어 (U4_joy, U2)와 (U4_joy, U3) 쌍을 형성한다. Phoebe의 혐오 감정(U5)은 Monica와 Chandler가 자신 앞에서 키스하는 객관적 사건에 의해 촉발되며, 이는 주로 U5의 시각 모달리티에 반영되어 (U5_disgust, U5) 쌍을 형성한다.


2.2 관련 연구 (Related Work)

텍스트 및 대화 맥락에서의 ECPE 탐구는 특정 과제 설정에 맞춰 다양한 방법론으로 접근되어 왔다.

Cheng et al. (2023): ECPE 과제를 2단계 기계 독해(MRC) 과제로 재구성하였다.

Zheng et al. (2023): ECPE 과제를 대화에서의 감정-원인 4중 추출(ECQED)로 확장하여 감정-원인 발화 쌍과 그 유형을 탐지하는 데 초점을 맞추었다. 이를 위해 이종 그래프(heterogeneous graph)와 병렬 그리드 태깅 스킴(parallel grid tagging scheme)을 활용하는 모델을 제시하였다.

Wang et al. (2021): MECPE-Cat 과제의 벤치마크를 설정하고 두 가지 예비 베이스라인 시스템을 도입하였다. 원인과 감정의 위치에서 내재된 패턴을 활용하는 휴리스틱 접근법과, 뉴스 기사용 ECPE 방법론을 멀티모달 데이터에 적용한 딥러닝 전략인 MECPE-2steps를 제시하였다.

이러한 선행 연구들의 다양한 방법론을 종합하면, MECPE-Cat 과제를 효과적으로 해결하기 위해서는 다음 요소들이 필요하다.

대화 내용에 대한 깊은 이해

대화 감정의 정확한 식별

감정-원인 쌍의 추출

멀티모달 정보의 통합

본 연구는 다양한 지표에서 LLM이 보여준 강력한 성능에 동기부여를 받아, 이 복잡한 과제를 해결하기 위해 LLM을 활용하기로 하였다. 철저한 모델 평가와 광범위한 프롬프트 테스트를 통해 선택한 접근 방식의 실용성, 우수성, 적응성을 입증하였다.



3. 방법론 (Methodology)


3.1 LLM 선정을 위한 파일럿 스터디 (Pilot Study for LLM Selection)

현재 OPT-IML, GPT-3, Flan-T5, GLM 등 다양한 LLM이 존재한다. 최적의 성능을 보이면서 특정 과제에 가장 적합한 모델을 선정하기 위해 파일럿 스터디를 수행하였다. 제로샷 테스트 실험에서 다음 모델들을 평가하였다.

OPT-IML-30B

Instruct-GPT-175B (GPT-3.5의 고급 버전)

Flan-T5-xxl (11B)

ChatGLM3-6B

각 모델의 특정 튜닝 스타일에 맞는 맞춤형 명령어를 설계하였으며, 단일 명령어 세트가 모든 모델에 효과적이지 않음을 인식하였다. 또한 각 모델로부터 정확한 응답을 확보하기 위해 명령어에 예상 출력 레이블을 포함하였다.

제로샷 성능 평가 결과(Figure 2), ChatGLM3-6B가 가중 평균 F1 점수 0.2805로 가장 높은 성능을 보였고, Flan-T5-xxl(0.2447), ChatGLM2-6B(0.2268), Instruct-GPT-175B(0.2097), OPT-IML-30B(0.1631) 순이었다. ChatGLM은 혁신적 기능이나 고급 훈련 방법론이 아닌, 평가 대상 모델들 중 뛰어난 제로샷 성능이라는 경험적 증거를 기반으로 최종 선정되었다.


3.2 멀티모달 특징 인코딩 (Multimodal Feature Encoding)

본 과제의 입력은 시각 정보를 포함한 멀티모달 신호를 포함하므로, 비텍스트 모달 정보를 완전히 활용하는 것이 필수적이다. 그러나 LLM 백본은 비텍스트 모달 신호의 직접적인 포함을 기본적으로 지원하지 않는다. 이를 해결하기 위해 ImageBind를 사용하여 멀티모달 입력 정보를 인코딩하였다. ImageBind는 강력한 멀티모달 정렬 능력과 시각 인식 능력을 갖추고 있다. 멀티모달 표현을 다른 텍스트 임베딩과 연결한 후 LLM에 입력한다.


3.3 LLM 튜닝을 위한 감정-원인 인식 명령어 구성 (Constructing Emotion-Cause-aware Instructions for LLM Tuning)

프레임워크 워크플로우

제안된 프레임워크의 워크플로우는 다음과 같은 단계로 구성된다.

먼저 ERC(대화 내 감정 인식) 과제로 모델을 미세조정한다.

예측된 감정 레이블을 각 발화에 통합하여 ECPE 과제 실행을 준비한다.

감정 태그가 레이블 된 데이터로 미세조정된 모델을 사용하여 MECPE-Cat 과제에 대한 추론을 수행하고, 초기 감정-원인 쌍 세트를 산출한다.

이러한 예비 결과를 원래 훈련 데이터셋에 재통합하여 2차 미세조정을 수행하고, 최종 감정-원인 쌍 세트를 산출한다.


명령어 템플릿 설계

감정-원인 쌍 식별에 대한 인식을 향상시키고 과제의 내재적 복잡성과 잠재적 혼란을 완화하기 위해, 감정-원인 인식 명령어를 생성하는 템플릿을 설계하였다. 명령어 템플릿은 다음 요소들을 포함한다.

과제 정의(Task Definition): 감정 분석 및 감정 원인 식별 전문가로서의 역할을 정의하고, 여러 화자의 발화와 각 발화에 해당하는 감정 레이블이 포함된 대화가 주어질 때 타겟 발화의 감정을 유발한 후보 발화의 인덱스를 식별하는 과제를 명시한다.

입력 대화(Input conversation): 감정 레이블이 붙은 발화들의 목록이다.

후보 발화(Candidate utterances): 원인으로 고려될 후보 발화들이다.

타겟 발화(Target utterance): 감정 원인을 찾아야 할 대상 발화이다.

질문(Question): 타겟 발화의 감정-원인 인덱스를 묻는 질문이다.

이 구조화된 접근법은 모델에게 과제의 복잡성을 단순화할 뿐만 아니라, 모델의 처리 능력을 대화에서 감정-원인 쌍을 정확히 식별하는 요구사항에 맞춘다.



4. 실험 (Experiments)


4.1 구현 (Implementation)

ChatGLM 모델은 1e-4의 학습률로 미세조정되었으며, LoRA 설정으로 rank 8, alpha 32, dropout 0.1을 적용하였다. 훈련은 최대 명령어 길이 2048 토큰, 출력 길이 128 토큰으로 수행되었다. 배치 크기 1과 단일 gradient accumulation step을 사용하여 2 에폭 동안 훈련하였다. 이 파라미터들은 모델 성능 최적화를 위해 신중하게 선정되었다.


4.2 템플릿 설계 평가 (Evaluating Template Designing)

LLM 튜닝을 위한 명령어 데이터셋을 구성할 때, 데이터셋의 각 대화를 고정 템플릿에 임베딩하여 훈련 샘플로 체계적으로 변환하였다. 데이터 소스는 공식 제공된 ECF 데이터셋이며, 13,619개의 발화를 포함한다. 이에 따라 총 13,619개의 템플릿을 구성하였다.

설계한 명령어의 각 부분이 기여하는 바를 확인하기 위해 ablation study를 수행하였다. 세 가지 변형을 도출하였다.

Only Task Definition: 제로샷 패러다임에 비해 더 상세하고 정확한 과제 설명을 제공한다.

Task + Example: 실제 대화에서 예상 결과를 명확히 보여주는 시연 예시를 제공하여 모델에게 과제 실행을 위한 실용적 참조를 제공한다.

Task + Example + Candidate utterances: '후보 발화'를 도입하여 과제를 단순화한다. 모델이 전체 대화가 아닌 문장별로 감정-원인 쌍을 분석하고, 선행 내용에서 감정의 구체적 원인을 찾아낼 수 있도록 한다.


4.3 LLM 명령어 튜닝 (Instruction-tuning LLM)

ChatGLM에 대해 세심한 미세조정 프로세스를 채택하였다. 학습률 1e-4는 빠른 수렴과 과적합 없이 적응하는 모델 능력 간의 균형을 목표로 설정되었다. LoRA 기법을 rank 8, alpha 32로 적용하여 모델 크기의 비대화 없이 과제 적응 파라미터를 도입하였으며, dropout 0.1로 과적합을 방지하였다.

모델은 최대 시퀀스 길이 2048 토큰으로 입력을 처리하여 과제에 필요한 맥락 깊이를 수용하였고, 출력은 128 토큰으로 제한하여 간결하고 관련성 있는 응답 생성에 집중하였다. 배치 크기와 gradient accumulation steps 모두 1로 설정하여 계산 자원에 맞추면서 효과적인 역전파를 보장하였다. 이 구성은 다양한 설정에 대한 신중한 평가 후 선택되었다.

실험은 NVIDIA A800-SXM GPU (80GB VRAM)의 강력한 계산 능력을 활용하였다. 미세조정 프로세스는 Hugging Face Transformers 프레임워크에서 파생된 커스텀 스크립트를 사용하여 수행되었으며, 이 프레임워크는 트랜스포머 모델에 대한 광범위한 지원과 설정과의 원활한 통합을 제공한다.

4.4 과제 분해 (Task Decomposition)

MECPE-Cat 과제를 ERC와 ECPE 단계로 분해하여 복잡성을 전략적으로 완화하였다. 이 분해는 두 가지 이점을 제공한다.

과제를 더 명확하고 집중된 구성 요소로 정제하여 모델의 이해와 실행을 더 직관적으로 만든다.

ERC 단계에서 얻은 감정 레이블을 ECPE 단계에서 활용하여 감정-원인 쌍을 더 정확하게 찾아낼 수 있는 모델 능력을 향상시킨다.


방법

세 가지 설정에서 가중 평균 F1 점수의 점진적 향상이 나타났다. 이는 모델에게 과제 복잡성을 단순화하고 맥락적 감정 레이블로 ECPE 단계를 풍부화하여 감정-원인 쌍 추출을 최적화하는 접근 방식의 이중 이점을 입증한다.


4.5 데이터 증강 (Data Augmentation)

훈련 데이터셋에 trial 데이터를 추가하면 모델 정확도가 크게 향상됨을 발견하였다.

Train + Trial 설정에서 높은 가중 평균 F1 점수 0.3416을 달성하였다. 추가로 ECPE 과제에 대한 모델의 추론 결과를 훈련 데이터셋에 다시 통합하여 추가 미세조정을 수행하는 기법을 적용하였다. 이 반복적 미세조정 전략(Iterative Train)으로 테스트 데이터 성능이 추가로 향상되었다. 이러한 향상은 훈련 데이터셋 확장뿐만 아니라 모델 자체의 출력을 활용하여 정확도를 개선하는 것의 효과를 입증한다.


4.6 멀티모달 통합 (Multimodal Integration)

멀티모달 정보가 모델 성능에 미치는 영향을 평가하기 위해 GPT-4V를 활용하여 텍스트 외 모달리티에서 인사이트를 추출하는 방법론적 접근을 채택하였다. 구체적으로, GPT-4V에서 파생된 "타겟 발화의 비디오 설명(video description of target utterance)"을 명령어 템플릿에 추가 정보로 포함하여 모델을 안내하였다.



5. 결론 (Conclusion)


본 연구에서는 MECPE-Cat(Multimodal Emotion-Cause Pair Extraction with Emotion Category) 과제를 해결하기 위해 LLM을 탐구하였다. 파일럿 스터디를 통해 최적의 과제 성능을 달성하는 데 도움이 되는 LLM으로 ChatGLM을 선정하였다. 백본인 ChatGLM은 텍스트 대화를 수신하고, ImageBind 비전 인코더를 통해 멀티모달 정보도 인식한다. 마지막으로 LLM 업데이트를 위한 감정-원인 인식 명령어 튜닝 메커니즘을 고안하여 감정과 해당하는 인과적 근거에 대한 인식을 향상시켰다. 최종 시스템은 가중 평균 F1 점수 34.71%를 달성하여 MECPE-Cat 리더보드에서 2위를 차지하였다.

매거진의 이전글AI의 한계를 극복하는 고전적이지만 강력한 노가다의 힘