기술 너머, 읽는 당신을 보호하다

HateBuffer: 혐오 발언 자동화에서 사용자 경험 설계로의 전환

by KAIST ICLAB
image5.png

온라인 플랫폼이 일상적 소통의 중심으로 자리 잡으면서, 특정 개인이나 집단을 인종·종교·성별·성적 지향·장애와 같은 정체성에 근거해 공격하거나 차별하는 혐오 발언(Hate Speech)은 더 이상 예외적인 문제가 아니라 플랫폼 안에 내재된 상시적 문제가 되었습니다. 오늘날 소셜 미디어와 뉴스 플랫폼에는 매일 방대한 양의 사용자 생성 콘텐츠가 쏟아지고 있으며, 그중 상당수는 노골적인 모욕뿐 아니라 맥락 속에 숨은 방식으로 타인의 정체성을 침해하고 있습니다.


겉으로 보기에 이런 콘텐츠는 AI가 알아서 걸러낼 것처럼 보입니다. 하지만 현실은 다릅니다. X의 2024년 투명성 보고서에 따르면, 혐오 발언으로 신고된 게시물 가운데 자동으로 처리된 비율은 0.25%에 불과했습니다. 다시 말해, 대부분의 게시물은 여전히 사람이 직접 읽고 판단해야 합니다. 기술이 아무리 발전해도, 누군가는 그 말을 끝까지 마주해야 한다는 뜻입니다.


왜 콘텐츠 모더레이터의 경험이 문제인가


문제는 이 과정에서 콘텐츠 모더레이터의 정신적 부담은 가중되고 있다는 점입니다. 반복적으로 공격적이고 혐오적인 언어에 노출되는 경험은 단순한 불쾌감을 넘어, 감정 소진, 피로, 불안, 심지어 외상 후 스트레스(PTSD)와 같은 장기적 문제로 이어질 수 있습니다.

기존의 자동화 기술은 혐오 발언을 얼마나 잘 분류할 것인가에 집중해 왔지만, 인간이 그 콘텐츠를 어떻게 경험하는지에 대해서는 상대적으로 무관심했습니다. 이 지점에서 관점의 전환이 필요합니다. 혐오 발언을 얼마나 잘 걸러내는가보다, 그 과정을 누가 어떤 상태로 수행하는지가 더 중요할 수 있습니다.


시스템의 정확도보다, 사용자가 마주하는 방식


HCI(인간-컴퓨터 상호작용) 관점에서 보면, 시스템의 정확도만으로는 사용자의 경험을 설명할 수는 없습니다. 특히 감정적 부담이 핵심인 작업에서는, 시스템이 무엇을 보여주고 무엇을 숨기는지가 사용자 경험에 결정적인 영향을 미칩니다. 이미 이미지·비디오 콘텐츠 조절 분야에서는 블러링, 그레이스케일, 단계적 노출과 같은 기법을 통해 시각적 자극을 완화하려는 시도가 있었습니다. 이는 모든 정보를 즉시 노출하는 것이 항상 최선은 아니라는 인식에 기반합니다.

그러나 텍스트 기반 혐오 발언의 문제는 다릅니다. 이 경우 상처를 남기는 것은 시각적 자극이 아니라, 의미 그 자체입니다. 문장을 읽는 순간 발생하는 해석과 추론, 그리고 그에 수반되는 정서적 반응은 단순히 표현의 수위를 낮춘다고 사라지지 않습니다.

이러한 맥락에서 핵심 질문은 더 이상 혐오 발언을 정확하게 판별할 수 있는가가 아니라, 그 판단을 위해 사람이 어떤 형태의 텍스트를 마주하게 할 것인가로 옮겨갑니다. HateBuffer는 바로 이 질문에서 출발하였습니다.


HateBuffer: 삭제하지 않고, 완충한다


HateBuffer는 혐오 발언을 탐지하거나 제거하는 도구가 아닙니다. 대신, 혐오 발언이 사용자에게 도달하는 과정 자체를 다시 설계합니다. 텍스트를 그대로 노출하거나 완전히 숨기는 이분법 대신, 의미가 전달되기까지의 속도와 강도를 조절하는 완충(buffer)을 삽입합니다. 이를 통해 모더레이터가 조금 더 통제된 상태에서 판단을 내릴 수 있도록 돕습니다.


이를 위해 HateBuffer는 네 가지 상호작용적 변형을 제공합니다.

image3.png

첫째, 타겟 익명화(Target Anonymization)입니다. 혐오 발언의 공격 대상이 되는 집단이나 정체성을 가려서 표시함으로써, 특정 집단을 향한 공격을 직접적으로 체감하지 않도록 합니다. 이는 공격 대상이 자신의 정체성과 겹칠 때 발생하는 정서적 충격을 완화하기 위한 장치입니다.


둘째, 공격적 표현 완화(Paraphrasing Offensive Expressions)입니다. 노골적인 모욕이나 공격적 단어를 의미는 유지한 채 덜 공격적인 표현으로 바꿔 제시합니다. 이는 텍스트를 통한 감정 전염(emotional contagion)을 줄이고, 혐오 표현이 기억에 강하게 각인되는 것을 막기 위한 시도입니다.


셋째와 넷째는 위 도표 (b)와 (c) 에 해당하는 선택적 공개(Revealing Target / Revealing Original) 기능입니다. 모더레이터가 필요하다고 판단할 경우, 클릭을 통해 원래의 공격 대상이나 원문 표현을 확인할 수 있습니다. 모든 정보를 일괄적으로 숨기는 대신, 언제 무엇을 확인할지에 대한 통제권을 사용자에게 되돌려주는 구조입니다.


실험 결과: 줄어든 혐오감, 그러나 그대로인 감정 소진


image2.png

연구진은 80명의 참가자를 대상으로, 가상의 뉴스 플랫폼에서 혐오 발언을 직접 판단하는 모더레이션 실험을 진행했습니다. 참가자들은 총 100개의 댓글을 검토하며, 각 댓글이 얼마나 혐오적인지 평가하고(delete/keep) 처리 결정을 내려야 했습니다. HateBuffer는 이 과정에서 일부 그룹에만 적용되었습니다.


정량적 결과는 직관적인 결과를 보였습니다. 먼저, 인지적 판단 수준에서는 분명한 변화가 나타났습니다. HateBuffer를 사용한 참가자들은 동일한 혐오 발언을 덜 혐오스럽게 인식했습니다. 이는 인지된 혐오 강도(perceived hate severity)를 묻는 5점 척도에서 유의미하게 낮은 점수로 확인되었습니다.

즉, 타겟 익명화와 표현 완화를 거친 텍스트는, 참가자들에게 덜 공격적으로 해석되었습니다.


또한 중요한 점은, 이러한 수정에도 불구하고 모더레이션 정확도는 손상되지 않았다는 것입니다. 참가자들이 혐오 발언을 삭제해야 할지 판단하는 정확도는 모든 조건에서 유사했으며, 오히려 표현 완화(paraphrasing)와 선택적 공개(revealing)를 포함한 조건에서는 재현율(recall)이 소폭 증가했습니다. 이는 HateBuffer가 혐오 표현의 수위를 낮추면서도, 판단에 필요한 맥락 정보는 유지했음을 시사합니다.

image1.png

그러나 정서적 상태를 직접 측정하는 지표에서는 다른 결과가 나타났습니다. 연구진은 감정 변화를 측정하기 위해 SPANE(Scale of Positive and Negative Experience)을 사용했습니다. SPANE은 ‘즐거움, 행복감’과 같은 긍정 감정과 ‘불쾌함, 슬픔’과 같은 부정 감정을 각각 묻고, 두 값의 차이(SPANE_B)를 통해 현재의 정서적 균형을 수치화하는 척도입니다.

또한 피로도 측정을 위해 MFSI(Multidimensional Fatigue Symptom Inventory)를 사용했는데, 이는 정서적·정신적 피로와 활력(vigor)을 함께 고려해 전반적인 피로 상태를 평가합니다.


이 두 지표 모두에서, HateBuffer를 사용했는지 여부와 관계없이 모든 그룹에서 실험 후 부정적 감정은 증가하고 피로는 누적되었습니다. 다시 말해, HateBuffer는 혐오 발언을 덜 혐오적으로 느끼게 만들었지만, 짧은 시간 내에 측정 가능한 감정 소진 자체를 즉각적으로 줄이지는 못했습니다.


숫자로는 보이지 않았던 효과

image4.png

하지만, 정성적 인터뷰에서는 조금 다른 이야기가 나옵니다. 많은 참가자들은 HateBuffer를 감정을 차단하는 장치라기보다, 혐오 발언을 마주할 준비를 할 수 있게 해주는 완충 지대로 받아들였습니다. 특히 선택적 공개 기능은, 원문을 바로 읽는 대신 클릭이라는 단계를 거치게 함으로써 노출의 속도를 늦추는 ‘긍정적 마찰(positive friction)’로 작동했습니다. 이는 자동적으로 반응하기보다, 스스로 준비하고 선택하게 만드는 장치였습니다.


또 하나 중요한 질적 발견은 정상화(normalization)에 대한 우려였습니다. 반복적으로 혐오 발언을 접하다 보면, 그 논조와 관점이 비판 없이 내면화될 수 있습니다. 실제로 통제 그룹의 일부 참가자들은, 자신이 동의하지 않던 주장조차 계속 읽다 보니 “혹시 정말 그런가?”라는 생각이 들었다고 말했습니다. 반면 HateBuffer를 사용한 참가자들은, 타겟 익명화와 표현 완화를 통해 이러한 인지적·정서적 동조를 차단할 수 있었다고 평가했습니다.


즉, HateBuffer의 효과는 감정을 즉각적으로 줄이는 데 있다기보다, 장기적으로 혐오 발언에 익숙해지거나 물들지 않도록 거리를 만들어주는 데 있었습니다. 이는 SPANE이나 MFSI 같은 순간적 상태 척도로는 충분히 포착되기 어려운 변화이지만, 콘텐츠 모더레이션이라는 반복적 노동의 맥락에서는 중요한 차이를 만들어냅니다.


덜 보여주는 AI, 그러나 더 책임 있는 AI


HateBuffer 연구는 AI가 인간을 돕는 방식에 대해 중요한 질문을 던집니다. 모든 정보를 즉시, 완전하게 제공하는 것이 과연 효율일까요? 아니면 판단을 수행하는 사람의 상태를 고려해, 노출의 속도와 강도를 조절하는 것이 더 지속 가능한 설계일까요?


실험 결과는 이 질문에 단순한 답을 주지 않습니다. HateBuffer는 모더레이터의 감정 소진을 즉각적으로 줄이지는 못했습니다. 그러나 동시에, 동일한 혐오 발언을 덜 공격적으로 인식하게 만들었고, 판단의 정확도를 해치지 않으면서도, 반복적 노출 속에서 혐오와 편향이 정상화되는 과정을 완충했습니다. 숫자로는 포착되지 않았지만, 참가자들은 이 시스템이 계속해서 이 일을 수행할 수 있을 것 같은 감각을 만들어주었다고 말합니다.


이 연구는 혐오 발언을 ‘없애는 문제’에서 한 걸음 물러나, 사람이 그것을 어떻게 다루게 되는가라는 문제로 시선을 옮깁니다. 자동화의 목표를 처리 속도나 분류 정확도에만 두는 대신, 판단을 수행하는 인간의 정신적 지속 가능성을 설계 목표로 포함시켜야 한다는 점을 분명히 합니다.


더 똑똑한 AI보다, 덜 상처 주는 AI.

HateBuffer는 그 방향을 향한 하나의 실험적 제안입니다.


출처

Park, Subin, et al. "HateBuffer: Safeguarding Content Moderators' Mental Well-Being through Hate Speech Content Modification." Proceedings of the ACM on Human-Computer Interaction 9.7 (2025): 1-39.



저자 정보

안녕하세요, KAIST 전산학부 석사 과정 우지훈(jihoon9809@kaist.ac.kr)입니다.
현재 ICLab에서 이의진 교수님 지도 아래 연구를 수행하고 있습니다.
저는 인간과 컴퓨터 상호작용을 바탕으로, 자동화 모델 개발에 관심을 가지고 있습니다!


keyword
작가의 이전글CS374 Fall'25 Project Gallery