페이스북 대나무숲 페이지에 대한 텍스트 마이닝 분석
인터넷 공간에서의 남녀 갈등이 심각하다는 생각이 든다. 특정 커뮤니티에서 행해지는 상대방 성별에 대한 비판과 혐오는 최근 들어 사회에서 일어나는 큰 사건들을 구심점으로 하여 인터넷상의 많은 논쟁들을 점하고 있는데, 이 정도면 이전까지 성별 갈등에 대해 큰 관심이 없던 사람들도 올해 들어서는 소위 "남혐", "여혐"이라는 단어들을 한 번쯤은 들어봤을 것 같다는 생각이 든다. 특히 지난 5월 일어난 강남역 지하철 살인사건은 이러한 논쟁에 불을 지핀 계기였는데, 다음의 그래프를 통해서도 확연하게 드러나는 바이다.
인터넷에서 격화되고 있는 남녀 간의 혐오 전쟁은 사실과 정황들에 근거한 주장들과 감정적이고 여론몰이 성격이 강한 주장들이 혼재되어 진행되고 있기 때문에 여러 의견들을 어떻게 이해하고 받아들여야 할지 참 어려운 면이 존재한다. 그래서 일단 주관적으로 해석될 수 있는 부분은 제쳐두고, "이러한 갈등은 어떠한 주제를 둘러싸고 있는 것인가?"에 대해서 인터넷 상의 글들을 수집하여 한번 파악해 볼 수 있을 것 같다는 생각을 갖게 되었다. 그래서 학교에서 함께 공부하는 친구들과 텍스트 마이닝을 이용해 해당 주제에 대해 한번 알아보기로 했다.
먼저 성별 혐오와 관련된 내용의 글들을 인터넷에서 수집하기로 결정했다. 언어가 너무 격화되어 있는 "일베", "메갈리아" 같은 사이트의 글보다는 보다 객관적인 입장에서 이러한 문제들에 대해 논의되는 데이터 소스를 찾고 싶었다. 그러던 중 최근 대학 학보의 기능인 사회문제 공론화 기능을 어느 정도 담당해가고 있다고 평가받는 각 대학들의 페이스북 대나무숲 페이지에 시선이 가게 되었다.
20대 초 중반 연령대의 의견으로 데이터가 편향될 것 같다는 우려가 있었지만 대학생들은 인터넷 상에서 활동이 가장 활발한 연령층이기도 하고 목적 자체가 성별 혐오에 대한 시시비비를 가리는 것이 아니라 관련 주제들에 대한 탐색이었기 때문에 결국 대학의 대나무숲에 있는 글들을 스크래핑하여 텍스트 마이닝을 진행하기로 결정했다. 그리고 많은 대학들이 대나무숲 페이지가 있었지만 좋아요 수가 많은 대학 5개만 선정하여 데이터를 수집하였다.
우선 5개 대학의 16년 1월부터 7월까지의 데이터를 R로 스크래핑하여 분석을 시작했다. 수집된 약 15000개의 글을 다시 "남혐", "여혐", "메갈", "일베" 등의 20개 키워드를 포함한 성별 간 혐오 관련 주제로 보이는 글로 간추려 보니 322개의 글이 최종적으로 분석 대상이 되었다.
우선 알아보고 싶었던 것은 대학생들의 이러한 주제들에 대한 관심도였다. 따라서 성별 혐오 관련 주제글과 이를 포함한 모든 글의 "좋아요"와 "공유" 수를 평균 내어 비교해 보았다. 확실히 해당 주제들에 대해 대학생들이 더 많이 반응하고 있는 것을 확인할 수 있었다.
다음으로는 주제들에 대한 상대적인 관심도 차이를 확인해보기 위해 단어 수를 카운팅 하여 워드 클라우드로 시각화해 보았다. 이를 위해 R에서 사용할 수 있는 한국어 자연어 처리 패키지인 KoNLP를 이용하여 전체 글에서 명사들만 추출하였다. 자연어 처리에 앞서 페이스 북 글과 주제들에 맞는 단어장 추가와 불용어 처리 등의 전처리 과정이 수행되었다. 이렇게 추출된 명사들의 개수를 카운팅 하여 그 비중에 따라 워드클라우드를 만들어보니 다음과 같은 그림이 나왔다.
여자, 남자와 같이 상대방의 성별을 가리키는 단어들이 가장 빈번히 출현하는 것을 볼 수 있었고 그 뒤를 이어 혐오, 사회, 사건, 문제 같은 단어들이 보였다. 이는 "남혐", "여혐"이라는 주제들이 사회적 측면의 문제로 인식되어 공론화되고 있다는 것을 추측해 볼 수 있는 부분이다. 그리고 아무래도 강남역 사건의 여파 때문인지 강남역, 피해자, 가해자 등 관련 단어들이 많이 언급되는 것을 볼 수 있었다.
다음으로 토픽 모델링을 통해 성별 혐오와 관련된 내용의 글들을 몇 가지 주제들로 축약해 보려는 시도를 했다. LDA 토픽 모델링 알고리즘을 사용하여 계산하였고 R패키지인 LDAvis를 활용하여 시각화하였다. 총 8개의 주제로 나타냈을 때 주제 간의 경계가 가장 명확하여 최종적으로 8개의 주제로 전체 글들을 표현하였다. 다음 그림에서 왼쪽의 원들의 크기를 보면 전체 글에서 해당 주제의 비중을 확인할 수 있고 오른쪽의 단어들은 가장 많이 출현한 30개의 단어들을 나열한 것이다.
(자세한 시각화 결과는 첨부파일로 첨부하였으니 관심이 있으신 분들은 다운로드하여서 보실 수 있습니다)
8개의 주제에 포함된 단어들을 가지고 이 8개 주제들을 요약해보자면 다음과 같다:
주제 1(강남역): 여자, 남자, 혐오, 사건, 사회, 문제, 피해자, 범죄, 여혐, 가해자, 강남역, 약자 등 강남역 사건에 대한 학생들의 생각들이 많이 포스팅되는 것을 알 수 있다.
주제 2 (페미니즘): 여자, 남자, 페미니즘, 문제, 사회, 주장, 페미니스트, 차별, 대한민국, 논리, 군대, 평등, 인권 등 여성 권리와 이와 관련된 논리적 주장들에 대한 글들이 두 번째로 큰 비중을 차지했다.
주제 3 (연애): 친구, 남자, 여자, 집, 사랑, 성희롱, 기분, 연애, 외모 등 연애나 이성문제와 관련된 주제들이 포스팅되었다.
주제 4 (일베, 메갈): 일베, 메갈리아, 발언, 표현, 논란, 학생, 시위 등 "남혐"과 "여혐"의 양 극단에 있는 사이트에 대한 주제들이 논의되었다.
주제 5 (카카오톡 성희롱): 단톡, 사건, 내용, 카톡, 화, 성희롱, 학생, 학교 등의 내용이 포함된 주제였는데 이는 아무래도 데이터에 고려대의 페이스북 페이지가 포함되다 보니 더욱 명확한 하나의 주제로 인식된 것 같았다.
주제 6 (남자들 걱정): 군대, 문제, 돈, 이공계, 노력, 결혼, 인생 등 남자 학생들의 미래에 대한 불안을 반영한 주제였다.
주제 7 (성범죄): 성범죄, 피해자, 처벌, 성폭행, 판단, 원칙, 사례, 진실, 고소, 성매매, 박유천 등 여성에 대한 성범죄와 관련된 주제였다.
주제 8 (사회 불만): 문제, 우리, 자유, 대한민국, 정의, 꿈, 본질, 언론, 나라, 정치, 세월호 등 청년들의 나라에 대한 걱정과 관련된 주제였다.
위 8개의 주제를 통해 대나무숲 페이지의 여론을 분석해 보았을 때 성별 간 혐오 현상에 있어서 가장 큰 비중을 차지하는 것은 아무래도 여성에 대한 폭력, 성범죄 등 안전에 대한 불안감과 관련된 내용들이었다. 그리고 눈에 띄는 또 다른 주제로는 남성들의 군대와 관련된 내용이 있었다.
마지막으로는 문맥적 정보를 더 살려서 이해하기 위해 단어들 간의 연관관계를 알아보았다. "남자", "여자", "혐오", "여혐", "남혐" 등 토픽 모델에서 빈번하게 출현하고 토픽을 형성하는데 가장 큰 영향을 준 단어들을 중심으로 연관분석을 진행하였다. 그리고 이 결과를 네트워크 분석 방법을 통해 나타내어보았다. 서로 강력한 연관관계가 있는 단어들만을 추려내다보니 다음과 같은 결과가 나왔는데, 전체 네트워크를 한 번에 표현하기에는 시각적으로 이해가 힘들어서 특정 단어를 중심으로 몇 개의 부분으로 나누어 나타내어 보았다. (R패키지인 arules와 네트워크 시각화 툴인 UCI net을 이용하였다)
위의 네트워크 1은 "일베", "메갈리아", "페미니즘", "성차별"을 중심 단어로 한 단어들 간의 네트워크이다. 단어들 간에 관계가 형성된다는 것은 인터넷 상의 글에서 어떤 단어가 출현했을 때 다른 단어들이 필연적으로 같이 출연하는 것을 말한다. "인터넷", "왜곡"이라는 단어는 "일베", "페미니즘"과 모두 관계가 있는데 이들 단어들이 자주 함께 쓰인다는 것을 확인할 수 있다.
위 네트워크는 "남혐", "여혐", "혐오"를 중심으로 한 네트워크이다. 세 단어들 사이에 위치한, 공통적인 단어들을 한번 살펴보면 페이스북 페이지 상에서 어떤 식으로 글이 전개되는지 대략적으로 유추해 볼 수 있다. 해석은 독자들에게 맡기도록 하겠다.
"눈에 보이고 의사가 고칠 수 있는 상처보다, 보이지 않는 상처가 훨씬 아픕니다. 남에게 모멸감을 주는 것은 쓸데없이 잔인한 운명으로 고통받게 만드는 것이라는 걸 나는 알았습니다."
차별을 위해 평생 싸운 넬슨 만델라 대통령의 명언으로 이 글을 마무리하고자 한다. 최근 들어 각종 사회적 불안으로 인해 혐오라는 감정이 만연한 우리 사회가 빨리 치유될 수 있기를 바라며, 분노에 빠진 사람들이 그 어떤 논리가 되었건 건에 "남을 상쳐주는 것이 과연 나에게 도움이 되는 것인가?"를 한번 생각해 봤으면 좋겠다.