혐오 발언 분류 모델 토이 프로젝트를 소개합니다

May 24. 2021

양기창, 장원준, WarNik Chow 세 사람이 팀을 꾸려서 진행하는 NLP 연구 프로젝트 홍보를 담당하고 있는 사만다라고 합니다.

오늘은 혐오 발언을 분류하는 토이 프로젝트를 하나 소개해보고자 합니다. >> https://bit.ly/3ucOL9p

링크를 클릭하면, 한국어 혐오 발화 데이터셋인 BEEP!으로 대학교 관련 커뮤니티에서 생성된 각종 텍스트를 사전학습한 언어 모델 SoongsilBERT를 학습시켜서 만든 혐오 발언 분류 모델인 SoongsilBERT:BEEP!의 성능을 확인하는 데모가 준비돼 있습니다. 입력창에 문장을 입력하면 일반 글/공격 발언/차별 발언 셋 중 하나로 분류한 결과가 출력됩니다.

아쉽게도 일부 문장을 분류한 결과가 적절하지 않을 수도 있습니다. 사람마다 혐오와 차별을 받아들이는 정도와 기준에 큰 편차가 있고, 문장이 생성된 시점과 혐오와 차별 여부를 판단하는 시점이 달라서, 근래에 새롭게 만들어진 혐오 표현을 제대로 걸러내지 못하기 때문입니다. 결과적으로, 소수의 작업자가 레이블을 단 데이터셋은 특정 문화권의 사회 현상과 시대상을 제대로 반영하지 못하는 한계를 지니게 됩니다.

올바른 학습은 물론, 학습 모델의 객관적인 성능 평가 어렵겠다고 판단한 세 사람은 불특정 다수가 참여해 테스트 데이터셋을 만드는 방법을 제안했습니다. 실험 결과, 새롭게 제안한 방법론을 활용해 구축한 데이터로 모델을 평가했을 때 더 적절한 평가가 가능하다는 점을 발견할 수 있었습니다.

관련 연구 논문은 다음 주 초 아카이브 공개는 물론, 연구 내용을 상세히 소개하는 한글 콘텐츠를 순차적으로 공개할 예정입니다. 앞으로 많은 관심과 애정 부탁드립니다. 데모 관련해서 궁금한 게 있으시면 편하게 연락해주세요. 감사합니다. :)

keyword

매거진의 이전글[후기] EMNLP 2020 게재된 다국어 번역 논문[후기] 텍스트 스타일을 바꾸는 딥러닝 기술매거진의 다음글