안녕하세요, 카카오엔터프라이즈의 사만다입니다.
오늘은 지난해 COLING에 어셉된 연구 논문을 하나 소개하고자 합니다. 논문 제목은 "Reference and Document Aware Semantic Score"로, 텍스트 요약 모델의 성능 평가를 위한 새로운 척도인 RDASS를 제안한 내용을 담고 있습니다.
선별된 양질의 정보에 대한 사용자 요구가 점차 늘어나면서, 이를 충족하기 위한 다양한 큐레이션 서비스가 전보다 더 크게 주목받고 있습니다. 하지만 새롭게 생성되는 콘텐츠의 양은 사람이 통제할 수 없을 정도로 매우 방대합니다. 대단히 많은 문서를 빠르고 효과적으로 처리하기 위한 목적으로 본문의 핵심 내용을 자동으로 요약해주는 기술의 중요성이 점차 강조되는 건 바로 이 때문입니다.
텍스트 요약 모델의 작동 방식은 크게 2가지로 나눠볼 수 있습니다. 1)문서에서 뽑은 단어를 조합해 문장을 생성하는 추출요약(extraction)과 2)의미가 바뀌지 않은 선에서 문서에서 쓰이지 않은 단어 또는 표현을 이용해 문장을 만들어내는 생성요약(abstraction), 이렇게 말이죠.
더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는 성능 평가 척도가 모델의 성능을 제대로 평가하지 못한다는 거죠. 이를 해결하기 위해 카카오엔터프라이즈가 카카오, 고려대학교, 한신대학교가 팀을 꾸리고 관련 주제로 연구를 하게 됐습니다.
성능 평가 척도가 모델의 성능을 제대로 평가하지 못한다는 거죠. 이 문제를 해결하기 위해 카카오엔터프라이즈가 카카오, 고려대학교, 한신대학교와 연구팀을 꾸리고 관련 주제로 연구를 하게 됐습니다.
연구팀은 보편적으로 사용되는 기존의 평가 척도인 ROGUE가 가진 한계를 극복하는 방향으로 실험을 설계했습니다. 그 결과, 의미적 유사도는 높으나 형태학적 유사도가 낮은 문장을 생성하는 모델의 성능이 낮다고 판단하는 문제를 해결하기 위해 정답 문장과 생성 문장의 유사도, 문서와 생성 문장 간의 유사도를 모두 참고하면서도, 방대한 유의어 사전을 따로 구축할 필요가 없는 새로운 평가 척도인 RDASS를 고안할 수 있었습니다.
논문 제 1저자이자, 카카오 소속의 이동엽 연구원을 만나 기존 성능 평가 척도인 ROUGE의 한계와 새롭게 제안한 RDASS의 계산 과정, RDASS의 타당성을 검증하는 실험 결과에 관한 이야기를 들어봤습니다. 한국어 요약 모델의 성능을 비교하는 실험 결과가 많이 없기에, 많은 분들에게 한국어 관련 연구 내용을 널리 공유드리고자 반 년전에 발행된 논문임에도 불구하고 그 내용을 최대한 잘 담아보려고 노력했습니다. 재미있게 읽어주세요 :)
https://kakaoenterprise.github.io/deepdive/210729