SNS와 코로나 대응, 구글검색의 젠더권력
사회혁신이 뭘까 혼자 열심히 고민해보았지만, 강의에서는 수리사회학적 접근을 요구했다. 즉 데이터 분석을 하라는 이야기다. 내가 보기에는 (나름 흥미로운?) 탁상공론 같지만 교수님은 데이터 연구를 사회혁신이라 부를 만큼 상당한 자부심을 갖고 계신 모양이다. 어쨌든 그런 맥락에서 프로젝트를 진행하게 되었다.
몇 가지 수리사회학적 아이디어를 제시할 텐데, 내가 이야기할 주제 대부분이 학부생 수준에서는 진행하기 어려움을 미리 밝혀두고 싶다. 규모가 너무 크고, 복잡하고 지저분한 데이터가 많기 때문이다. 아이디어를 기록하는 차원에서 적는 글이다.
코로나19를 사회학적으로 분석하는 일도 연구 가치가 크다. 이제 G7에 대한 이야기까지 나올 정도로, 한국의 대응은 훌륭했다. 아마 코로나에 가장 슬기롭게 맞선 나라가 한국이 아닐까. 우리나라만큼 확진자 동선 및 감염 경로를 꼼꼼히 파악하고, 투명하게 모든 정보를 공개한 나라는 드물다.
한국의 성취 요인에는 여러 가지가 있겠지만, 모든 국민에게 평등한 의료 혜택을 제공하는 공공의료 시스템도 빼놓을 수 없다. 코로나는 아직 백신도 없고 전염성도 높아서 민간 병원에서는 돌보기 어렵다. 국민에게 원활한 검진 및 치료 서비스를 제공한 배경에는, 대규모의 (어쩌면 독보적인 수준의) 공공의료 시스템이 있었다. 이러한 맥락에서, ‘공공의료 시스템이 잘 발달해 있을수록 코로나에 대한 대처를 잘 해냈다.’라는 가설을 세워볼 만하다.
공공의료 시스템의 구체적 수치로는 전체 국민 대비 공공 병원 및 병상 수, 또는 정부 차원의 공공의료 지출을 이용해볼 수 있다. 코로나에 대한 대처는 전체 국민 대비 코로나 확진자 또는 사망자 수로 놓을 수 있다. 아마 코로나 시국이 종료되면 이에 관한 다양한 연구가 나오리라 생각한다.
이번엔 빅데이터라는 테마와 조금 더 관련된 연구다. 코로나의 대처에는 국가적 정책 외에, 높은 수준의 시민의식도 큰 기여를 했다. 사회적 거리두기나 마스크 쓰기를 비롯한 캠페인에 얼마나 많은 시민이 동참했는가.
외국과 비교해보면 이는 더욱 두드러진다. 영국 유명 축구클럽의 모 축구선수는 코로나가 전자기술 기업의 음모라고 주장했다.* 독일에서 퍼지는 코로나 음모론에 관한 기사도 읽어봤고, 유럽에는 코로나에 대한 과학적 정보에서 소외된 사람들이 적잖이 존재하는 모양이다.** 또 미국이나 프랑스, 스페인 등에서 외출 금지령을 피해 마지막 휴가를 즐겼다는 기사도 기억난다.***
필자는 우리 국민의 훌륭한 대처에 선진적 IT 기술이 주요했다고 본다. 정부의 캠페인이 많은 국민에게 확산되었기 때문이다. TV나 신문처럼 비교적 전통적인 매체부터 인터넷 뉴스나 SNS에 이르기까지 다양한 경로로 정부의 메시지가 전달되었다. 그 결과 코로나 관련 건강 정보에서 소외된 이들이 그만큼 적었다.
필자는 빅데이터에 관한 테마로서 인스타/페북/트위터(+카톡?) 등의 SNS 플랫폼에 주목해본다. #코로나/#사회적_거리두기/#마스크 등 다양한 태그를 걸고 올바른 대처법이 전파된 양상을 연구해보는 것이다. 한국에서는 해시태그 #코로나를 걸고 어떤 맥락의 게시물이 올라왔는가? 어떤 경위로 정부의 캠페인 및 메시지가 국민들에게 전달되었는지 토픽 모델링****을 통해 분석해보는 일도 흥미롭겠다.
해외에서는 어땠는지와 비교해볼 수도 있다. 필자의 추측이지만, 해외에서 득세한 코로나 음모론도 #코로나와 관련한 SNS 게시물들에서 가시적인 흐름으로 나타날 것이라고 본다. 코로나 유행에도 나들이를 즐긴 사람들이 한국에서보다 훨씬 많을 것이라고도 생각한다. (아니라면 그 나름대로 흥미로울 것이다.) 토픽 모델링 또는 (페이스북/인스타의) 위치태그 기반 분석으로 연구해볼 수 있는 주제다.
*신새얼, “로브렌, SNS 통해 ‘코로나19 음모론’ 동조...논란 점화”, 인터풋볼, 2020.05.05
http://interfootball.heraldcorp.com/news/articleView.html?idxno=382011
**Hans Pfeifer, Philipp Reichert, “Verschwörungstheorien: die andere Pandemie”, Deutsche Welle, 2020.04.28
https://www.dw.com/de/verschw%C3%B6rungstheorien-die-andere-pandemie/l-53269270
***백나리, “여전히 북적이는 플로리다 해변…'사회적 거리두기' 무색”, 연합뉴스, 2020.03.20.
https://www.yna.co.kr/view/AKR20200320003800071
강유빈, “이 와중에 파티ㆍ모임 갖는 청년들…코로나가 불러온 세대갈등”, 한국일보, 2020.03.20
https://www.hankookilbo.com/News/Read/202003191713015662
****
토픽 모델링이란, 문서의 의미를 수학적으로 해석하기 위한 통계적 기법이다. 문서를 몇 개의 토픽으로 분류한 뒤, 각 토픽이 어떤 키워드를 담고 있는지 분석한다. 즉 문서별 토픽의 분포와, 토픽별 키워드의 분포를 알아낸다. 이 두 목표를 위해 토픽 모델은 확률분포를 사용해 분석한다. 이 문서에서 특정 주제(토픽)가 출현하는 확률, 그 토픽과 관련해 특정 단어가 쓰일 확률을 분석한다.
이를 통해 문서가 어떤 주제를 가지며, 어떤 단어를 어떤 주제/맥락에서 사용하는지를 파악할 수 있다. #코로나 해시태그를 건 게시물을 분석한다면, 사용자가 코로나라는 단어를 어떤 맥락에서 활용하는지, 그리고 코로나와 관련해 어떤 의미의 글을 올리는지 알 수 있다.
필자도 유튜브를 즐겨 본다. 그런데 유튜브 영상 밑에 있는 댓글을 읽다 보면, 눈살이 찌푸려지는 성차별적 댓글을 심심찮게 발견할 수 있다. 요 몇 년 동안 페미니즘이 힘을 받았건 어쨌건 간에 아직도 너무나 많은 여성혐오적 댓글을 마주치게 된다. 어떻게 극복할지는 훨씬 어려운 문제지만, 일단 상황의 심각성을 인식하는 데에 빅데이터는 도움을 줄 수 있다.
중국 정부의 검열에 관한 연구를 참고하고자 한다. (G King et al, 2014) 해당 연구에서는 1100만 개의 게시물이 중국 정부에 관해 가진 태도를 분석했다. 소규모 데이터를 직접 라벨링한 후 그것을 인공지능에 지도학습시키고, 나머지 데이터를 분석시키게끔 만들었다.
마찬가지로 수십~수백만 개의 동영상으부터 (무작위 백 개 정도?) 댓글을 추출하고, 그중 소규모를 추출하여 직접 라벨링해본다. 여성혐오적/젠더중립적(gender neutral) 또는 젠더와 무관/남성혐오적(이 단어에는 논쟁의 여지가 있고, 필자는 이 단어에 동의하지는 않는다) 정도로 라벨링 한 후, 나머지는 인공지능에게 맡겨볼 수 있겠다. 여성혐오로 오염된 인터넷 공론장의 현실이 명확한 수치로 나타날 것이라 추측한다.
구글 검색어로 코로나의 추이를 예상해본다. 물론 많은 전문 데이터 과학자들이 시도하고 있을 것이다.
앞서 구글에 ‘길거리’를 검색하면 나오는 결과에 대해 이야기했던 적이 있다. 길거리, 일반인, 조수석, 호불호 등의 검색결과를 입력하면, 여성의 신체를 남성의 시각에서 평가하고 희롱하는 글이 대거 호출된다. 구글 검색 알고리즘이 기억하는 남성 사용자의 문제, 그리고 알고리즘이 호출하는 사용자의 문제를 살펴보았다.
구글 검색의 결과 이미지들에 딸린 제목들을 토픽 모델링으로 분석하여, 앞서 언급한 일상적 용어가 남성의 관음증적 문화라는 맥락에서 재의미화되는 양상을 파악할 수 있다. 여성의 신체와 관련된, 그리고 남성의 시선에서 구축된 맥락에서 검색어가 활용되고 있다면, 토픽 모델링 결과는 그 현상을 상징적으로 표현할 수 있다.
그리고 방금 언급한 검색어를 입력했을 때, 검색 결과 상단에는 여성의 신체를 담은 사진이 많지만, 스크롤을 내릴수록 실제 검색어와 의미상의 관련이 있는 이미지 비중이 조금씩 높아지는 경향을 확인할 수 있다.
만약 검색 결과 상단만 토픽 모델링한 결과와, 스크롤을 좀 내려서 더 방대한 검색결과를 토픽 모델링한 결과 사이에 유의미한 차이가 있다면, 구글 검색엔진이 남성과 여성을 차별적으로 호출하고 있다고 해석할 수 있다. 필자가 선택한 주제이므로 다음 글에서 보다 자세히 다루어보겠다.
*서규석, 김태권, 권오성, 진명선, “쓰레기+네이버+하태경 젠더 갈등의 은밀한 카르텔?”, 한겨레, 2019.03.04