brunch

You can make anything
by writing

C.S.Lewis

by Kay Feb 28. 2024

사람의 감정이 어떻게 긍정과 부정만으로 나뉠 수 있죠?

논문 소개 : User Guide for KOTE

학위논문부터 감성분석 모델 및 시스템 개발까지 어쩌다 보니 업무 장면에서 수집된 비정형 텍스트 데이터를 다루는 분석 프로젝트를 연이어하게 되면서 자연스레 텍스트 데이터에 대한 관심이 커졌다. 그리고 남들은 텍스트 데이터를 가지고 어떤 분석을 하고 있는지 찾아보게 되었다. 그 과정에서 가장 기본적으로는 빈도수를 활용한 워드클라우드가 있고, LDA(Latent Dirichlet Allocation)를 활용한 토픽 모델링이나 네트워크 분석 등의 방법을 활용하고 있다는 것을 알게 되었다.


토픽 모델링은 텍스트 문서의 숨겨진 주제 구조를 발견하기 위한 과정 또는 기법으로 LDA는 이러한 토픽 모델링을 수행하기 위한 대표적인 알고리즘 중 하나이다. LDA 외에도 Non-negative Matrix Factorization(NMF), Latent Semantic Analysis(LSA) 등이 있다.
네트워크 분석(Network Analysis)은 객체(노드)들과 그 객체들 간의 관계(에지)를 분석하는 기법으로 텍스트 분석에서 네트워크 분석을 활용하면 단어나 구(phrase), 문서 간의 관계 등 복잡한 관계를 시각화하고 분석할 수 있다.

  

사실 기존에도 워드클라우드 정도의 분석은 즐겨 사용하고 있었으나 흥미롭지만 분석 결과가 주는 인사이트는 부족하다는 생각을 가지고 있던 중에 기존 데이터를 활용해서 다른 분석을 해봐야겠다는 생각을 하게 되었다. 이러한 생각으로 출강하는 강사 및 지도교수님과 말씀을 나누던 중 앞서 언급한 기법들을 활용하더라도 텍스트 분석은 결국 그 자체로 인사이트를 발견하기에 제약사항이 있고, 결과적으로는 다시 raw data를 살펴보게 된다는 이야기를 듣게 되었다. 게다가 토픽모델링과 네트워크 분석의 경우 텍스트 데이터를 분석하는 측면에서 전통적인 접근방식이기는 하나 감성분석에 활용한 BERT 대비 이전의 분석 기법이기는 해서 기왕이면 새로운 뭔가가 없을까 하는 생각을 하게 되었다.


(이 글을 통해 텍스트 데이터 분석에 대해 알아가는 누군가를 위해 오해의 소지가 있을까 싶어 사족을 달자면, 토픽 모델링과 네트워크 분석은 BERT와 같은 최신 딥러닝 기법과 비교했을 때 이전의 방법으로 간주될 수 있으나 그 자체로 충분히 유용한 분석 도구이다. 또한 각각의 분석 방법들은 서로 다른 관점과 강점을 제공하기에 하나의 방법이 다른 방법을 대체한다기보다는, 각각의 방법이 특정 상황과 목적에 따라 선택되어야 한다.)


아무튼 내 입장에서는 기존 분석 방법 적용 이전에 새로운 뭔가가 없을까 하는 마음으로 여기저기를 기웃거리던 중 외부의 저명한 강사분들을 모시고 비정기적으로 시행되는 팀 학습회에 HR Trend 강의를 위해 방문하신 이중학 교수님의 강의를 듣게 되었다. 교수님께서는 HR 관련 해외 컨퍼런스에서 다뤄진 다양한 주제를 정리해서 2시간가량 전달해 주셨는데 그중 지나가는 얘기처럼 새로운 분석 기법 한 가지를 2~3분가량 소개해 주셨다.


물론 교수님의 명성에 걸맞게 특강의 모든 내용은 인사이트가 가득했지만 당시의 나는 먹이를 찾아 헤매던 하이에나 모드였기에 그중에서도 그 2~3분 내용에 가장 귀를 기울이게 되었다. 당시 소개해 주신 모델의 이름은 KOTE이고, 서울대학교 심리학과 계량심리랩실에서 개발한 것으로 텍스트 문장 안에 담긴 43개 감정을 분류해 주는 것이었다.


유레카!!

그렇지 않아도 기존 감성분석 프로젝트를 수행하면서 ‘참가자 반응이 꼭 긍정이나 부정만 있는 건 아니고 사실 중립적일 수도 있을 텐데’ 하는 생각을 품고 있었기에 이 모델을 반드시 적용해 보겠다는 생각으로 구글링을 통해 그들의 논문을 찾아볼 수 있었다. 앞으로 더욱 공들여 정리하고자 하는 다양한 분석 및 프로젝트의 내용은 이 논문에 소개된 감성분석 모델을 활용하여 진행되었기에 공유 측면에서 미리 정리해 본다.






User Guide for KOTE: Korean Online Comments Emotions Dataset

(https://arxiv.org/abs/2205.05300)



1. 논문 내용 요약


이 논문에서는 43개의 감정 레이블 또는 1개의 특수 레이블 (NO EMOTION)에 대해 수동으로 레이블을 붙인 50,000개의 한국 온라인 댓글로 구성된 대규모 컬렉션인 KOTE 데이터세트를 소개합니다.

단어 임베딩 공간에 표현된 한국인의 감정 개념에 대한 클러스터 분석을 통해 KOTE 데이터셋 내 43개 감정의 감정 분류 체계를 수립했습니다.

논문에서는 KOTE 데이터셋의 개발 과정을 논의하고 코퍼스 내 사회적 차별에 대한 미세 조정 및 분석 결과에 대한 통찰력을 제공합니다.



2. 논문에서 활용한 데이터셋


KOTE 데이터셋은 43개의 감정 레이블 또는 1개의 특수 레이블 (감정 없음)에 대해 수동으로 레이블이 지정된 50,000개의 한국어 온라인 댓글로 구성됩니다.

데이터셋에는 광범위한 감정이 포함되며, 댓글에는 43개의 특정 감정 레이블이 할당되어 있습니다.

이러한 감정 레이블은 단어 임베딩 공간에 표현된 한국 감정 개념의 클러스터 분석을 통해 설정되었습니다.

KOTE 데이터셋의 목적은 단순히 긍정적이거나 부정적인 감정에 그치지 않고 감정에 대해 수동으로 레이블이 지정된 한국 온라인 댓글의 포괄적인 컬렉션을 제공하는 것입니다.

이 데이터세트는 텍스트의 감정적 의미를 보다 철저하게 조사하여 기존 감정 분석의 한계를 극복하는 것을 목표로 합니다.

KOTE 데이터셋은 한국어 온라인 댓글에 표현된 감정을 포괄적이고 상세하게 분류하여 텍스트 분석에서 감정적 측면을 보다 미묘하게 이해할 수 있도록 합니다.

여러 감정 레이블이 포함된 대규모 데이터 세트를 사용할 수 있게 되면 한국어 텍스트 데이터에서 보다 정확한 감정 분석과 감정 이해가 가능해집니다

데이터셋은 한국 온라인 댓글의 감정을 연구하는 데 관심이 있는 연구자에게 유용한 자료이며 감정 분석, 사회적 차별 분석 등 다양한 응용에 활용할 수 있습니다.



3. 감정 라벨 종류



4. 모델 활용 장면 예시


Huggingface 상에서 확인한 모델 활용 예시



사실 이후 프로젝트를 진행하면서 모델의 원리를 보다 제대로 이해한 상태로 활용하고자 서울대 계량심리랩실을 방문, 논문의 저자들과 수차례 미팅을 진행하기도 했기에 모델 개발의 비하인드(?)에 해당하는 내용에 대해서도 하고 싶은 말들이 있지만 이 부분은 이후 포스팅들을 통해 다뤄질 프로젝트 내용을 작성하면서 정리하도록 하겠다.


작가의 이전글 데이터 분석, 통계와 수학이 정말 중요할까

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari