KOME: 세부 분류를 위한 한국어 도덕감정 데이터셋
월 단위로 진행 중인 LG그룹의 HR Analytics 커뮤니티에서 새로운 정보를 접했다. 멤버들로부터 접한 내용이면 더욱 좋았겠으나 멘토이신 이중학 교수님의 소개로 KOTE에 이어 KOME라는 모델도 있더라 하는 정보를 입수하였다. 감성분석 매니아(?)로서 놓치고 지날 수 없어, 교수님께서 말씀하시는 그 순간 강의장 뒤편에 앉아 빠른 검색을 통해 정보를 찾았다. 세상이 참 많이 바뀐 것이, 과거 같았으면 분명 구글링을 했다고 적었겠지만 이번엔 Perplexity를 통해 검색했고, 한 번에 정확한 내용을 찾아낼 수 있었다. 하지만...
DBpia에서 찾았더니 1,000원을 내란다. 고유가 시대에 기름 1리터도 넣을 수 없는 정말 얼마 안 되는 돈이지만 허투루 쓰고 싶지 않았다. 그래서 KOTE 모델을 접했던 당시의 좋았던 기억을 되살려 연구자 본인에게 직접 연락하는 방법을 택했고, 불과 13분 만에 친절한 회신과 함께 아티클 및 모델 활용 방법에 대한 정보를 공유받을 수 있었다. 이 또한 연구자의 도덕적 감정에서 기인한 것이 아니었을까?
소중한 정보를 알게 되었으니 지식의 업데이트 측면에서 정리를 남겨본다.
(https://openreview.net/forum?id=b3AoAk60mL)
이 연구는 도덕적 감정이 정치적 참여에 미치는 영향을 분석합니다. 도덕적 감정은 특정 사건이나 상황을 도덕적 기준으로 판단할 때 느끼는 감정으로, 정치적 행동에 중요한 영향을 미칠 수 있습니다. 도덕적 감정이 정치적 참여를 유발하거나 억제하는 메커니즘을 이해하는 데 중요한 통찰을 제공합니다. 연구 결과는 도덕적 감정이 정치적 행동에 어떻게 영향을 미치는지를 밝히고, 도덕적 감정을 활용하는 방법을 제시할 수 있습니다. 또한, 인공지능을 활용한 감정 분석의 가능성을 제시합니다.
2.1 도덕적 감정과 정치적 담론 (Moral Emotion and Political Discourse)
- 도덕적 감정은 정치적 메시지에서 중요한 역할을 하며, 사람들의 정치적 견해와 행동에 영향을 미칩니다.
- 도덕적 감정은 정치적 참여를 촉진하는 중요한 요소로 작용합니다. (ex. 분노는 사람들이 불의에 대해 강하게 항의하게 만들고, 연민은 도움이 필요한 사람들을 위한 행동을 촉진합니다.)
- 도덕적 감정은 정치적 메시지의 전달과 해석에서 중요한 역할을 합니다.
2.2 도덕적 감정 감지 (Moral Emotion Detection)
- 도덕적 감정은 네 가지 유형 : 다른 사람을 비난하는 감정(other-condemning), 다른 사람을 칭찬하는 감정(other-praising), 다른 사람의 고통에 대한 감정(other-suffering), 자기 인식 감정(self-conscious).
- 도덕적 감정 감지 방법 :
1) 어휘 기반 접근법 : 어휘 목록을 사용하여 텍스트에서 도덕적 감정을 추출하는 방법입니다. 이는 특정 단어나 구문이 도덕적 감정을 나타내는지 식별합니다.
2) 단어 임베딩 접근법 : 단어 간의 의미적 유사성을 기반으로 텍스트에서 도덕적 감정을 감지합니다. 이는 단어의 문맥적 사용을 고려하여 감정을 분류합니다.
3) Transformer 모델 : 연구에서는 Transformer 기반 모델을 사용하여 도덕적 감정을 감지합니다. 이 모델은 대규모 텍스트 데이터를 학습하여 감정을 분류하며, 어휘 기반 또는 단어 임베딩 접근법보다 더 높은 정확도를 제공합니다.
2.3 대형 언어 모델을 사용한 데이터 주석 (Data Annotation Using LLMs)
- GPT-3.5와 같은 대형 언어 모델은 대규모 데이터에서 패턴을 학습하여 텍스트 생성 및 분석을 수행할 수 있습니다. 이 모델은 인간이 작성한 텍스트와 유사한 수준의 이해와 응답을 제공할 수 있습니다.
- GPT-3.5를 사용한 주석의 효율성과 정확성을 평가하기 위해, 주석된 데이터의 정확도를 인간 주석자와 비교합니다.
3.1 데이터 준비 (Data Preparation)
- 한국 정부 아카이브와 영국 정부 및 의회 청원 웹사이트에서 청원 데이터를 수집했습니다. (한국 - 459,447개의 청원서와 161,856,648개의 서명 / 영국 - 41,292개의 청원서와 47,554,399개의 서명)
- 청원 제목과 내용을 정제 후 Kiwi와 PySBD 라이브러리를 사용해 문장을 토큰화하고, 짧은 문장을 제거했습니다. 결과적으로 한국 청원 데이터에서 4,705,292개의 문장, 영국 청원 데이터에서 210,304개의 문장을 얻었습니다.
3.2 인간 주석 (Human Annotation)
- Field et al. (2022)의 방법을 따라, 한국과 영국 청원 데이터에서 각각 약 700개의 문장을 선택했습니다. 각국의 원어민 5명씩 주석 작업을 수행했으며, 주석자들은 도덕적 감정 정의에 대한 가이드라인을 제공받고, 여러 감정 범주를 선택할 수 있도록 했습니다. 감정이 모호한 경우 '구별하기 어려움(Hard to tell)' 옵션을 선택할 수 있도록 했습니다. 다섯 명의 주석자 중 세 명 이상이 동일한 감정을 선택한 문장만 최종 라벨로 간주하고, 합의에 이르지 못한 문장은 제외했습니다.
- 최종적으로 한국과 영국 각각 640개의 문장이 주석 됐습니다.
- 주석자 간 일치도는 Cohen’s kappa, Fleiss’ kappa, Krippendorff’s alpha로 측정했습니다. 한국 데이터셋은 평균적으로 더 높은 일치도를 보였습니다.
3.3 대형 언어 모델 기반 주석 (LLM-based Annotation)
- 미세 조정된 GPT-3.5 모델을 사용해 자동 주석을 수행했습니다. 먼저, 청원 문장을 입력 데이터로 제공하고, GPT-3.5가 각 문장에서 도덕적 감정을 분노, 연민, 죄책감 등으로 분류하고, 각 감정의 강도로 평가합니다.
- 주석 작업은 두 가지 주요 방법을 사용했습니다. 첫 번째는 몇 개의 샘플을 포함한 프롬프트를 통해 모델이 학습하는 in-context learning입니다. 두 번째는 대규모 학습 데이터셋을 사용해 모델의 가중치 파라미터를 업데이트하는 미세 조정(fine-tuning)입니다. 실험 결과, 미세 조정된 모델이 모든 설정에서 in-context learning 모델보다 일관되게 높은 성능을 보였습니다. 미세 조정된 GPT-3.5 모델은 인간 주석자와 유사한 성능을 보였습니다.
- 인간 주석에 비해 기계 주석은 비용이 훨씬 적게 들며, 특히 미세 조정된 GPT-3.5 모델은 인간 주석자와 유사한 수준의 정확도를 보였습니다.
3.4 데이터셋 설명 (Dataset Description)
- 미세 조정된 GPT-3.5로 라벨링 하기 위해 청원 문장을 선별했습니다. 각 문장이 최소한 하나의 서명과 공유를 포함하는지 확인하고, 문장의 길이를 균형 있게 분포시키기 위해 NLTK 단어 토크나이저를 사용해 3~30개의 토큰으로 구성된 문장을 선택했습니다. 이를 통해 각 감정 라벨마다 5,000개의 문장을 추출하고, 최종적으로 49,930개의 한국어 문장과 49,896개의 영어 문장으로 구성된 데이터셋을 만들었습니다.
- 도덕적 감정 라벨의 분포를 분석한 결과, 비난(other-condemning) 감정이 가장 많이 나타났습니다. 기타 감정의 분포도는 칭찬(other-praising)과 자기 인식(self-conscious) 감정이 상대적으로 적게 나타났습니다.
4.1 도덕적 감정 측정 (Moral Emotion Measurement)
- 연구는 Transformer 기반 모델을 사용해 도덕적 감정을 분류했습니다. 주요 모델로는 BERT, RoBERTa, ELECTRA가 사용되었으며, 각 모델은 도덕적 감정 데이터셋으로 미세 조정되었습니다. ELECTRA 모델이 가장 높은 성능을 보였습니다. (한국어 모델 - F1 = 0.8914, 정확도 = 0.8559 /
영어 모델 - F1 = 0.7523, 정확도 = 0.6971)
- 각 청원 문장의 도덕적 감정 점수는 가중치 앙상블 모델을 사용해 계산되었습니다. 감정 점수는 0에서 1까지의 값으로 예측되었고, 평균값이 최종 점수가 되었습니다.
4.2 회귀 모델 사양 (Regression Model Specification)
- 두 가지 종속 변수(서명 수와 소셜 미디어 공유 수)를 설정하고, 음의 이항 회귀를 사용해 도덕적 감정이 정치적 참여에 미치는 영향을 평가했습니다.
- 독립 변수는 네 가지 도덕적 감정과 중립 감정이고, 통제 변수는 텍스트 길이, URL 포함 여부, 시간 정보(연도, 월, 요일 효과 포함)였습니다.
4.3 회귀 결과 (Regression Result)
- 다른 사람의 고통(Other-suffering) : 서명 수와 소셜 미디어 공유 수 모두에서 긍정적인 영향을 미쳤습니다.
- 자기 인식(Self-conscious) : 두 가지 참여 형태 모두에서 부정적인 영향을 미쳤습니다.
- 다른 사람 비난(Other-condemning) : 서명 수에서는 부정적, 소셜 미디어 공유 수에서는 긍정적 영향을 보였습니다.
- 다른 사람 칭찬(Other-praising) : 서명 수에서는 부정적, 한국에서는 소셜 미디어 공유 수에 긍정적, 영국에서는 부정적 영향을 미쳤습니다.
5.1 사회과학적 함의 (Implications for Social Science)
- 도덕적 감정이 정치적 참여를 어떻게 촉진하거나 저해하는지 보여줍니다. 예를 들어, 분노는 행동을 촉진하고, 연민은 협력과 공감을 강화할 수 있습니다.
- 한국과 영국의 비교를 통해 도덕적 감정의 문화적 차이를 분석합니다. 각 문화의 사회적 규범과 가치가 감정의 표현과 수용에 영향을 미칩니다.
5.2 인공지능 커뮤니티에 대한 함의 (Implications for AI Community)
- 대형 언어 모델을 통한 데이터 주석의 효율성과 정확성을 입증합니다. 이는 감정 분석에 인공지능을 활용할 가능성을 보여줍니다.
- 미세 조정 기법과 앙상블 방법이 높은 성능을 보여, 모델 성능 개선 연구에 유용할 수 있습니다.
- 기계 주석이 인간 주석보다 비용이 적게 들면서 유사한 정확도를 보여, 대규모 데이터셋 주석에 유용합니다.
이 연구팀 또한 나처럼 KOTE 모델 사용 경험이 있었던 것 같다. 아니, 무조건 있다. 이미 그들의 Github 안에 KOTE에 대한 언급 및 비교가 들어있기 때문이다. 아무튼 KOTE와는 다른, 도덕 감정 이론(Moral Emotion Theory)에 기반한 접근이었고, 모델을 만드는 과정에 LLM을 활용했다는 점에서도 확실히 차별화된 부분이 있다.
일단은 무턱대고 가지고 있는 HR 데이터에 한 번 적용부터 해봐야겠다. 그리고 결과 해석이나 제대로 된 활용을 위해 연구자들과 다시 한번 이야기를 나눠봐야겠다는 생각이 든다. 이번에도 그들이 도덕적 감정으로 도움을 줄 것이라 믿으며...