brunch

You can make anything
by writing

C.S.Lewis

by Viel Liebe Jul 08. 2020

#8 연구주제 설정/중간보고서

구글검색의 젠더권력

*실제로 제출한 보고서라서 경어체로 작성되었습니다.


탐구 주제 설정


 강의에서 다룬 알고리즘과 관련하여, 저는 우리의 현실에 존재하는 유해한 알고리즘을 찾아보았습니다. 《대량살상 수학무기》에 등장하는 사례들은 모두 미국의 사례들이었기 때문입니다. 이런저런 논문을 탐색하던 중, 「한국여성의 인권에 대해 알고 싶으면, 구글에서 ‘길거리’를 검색해보라: 알고리즘을 통해 '대중들' 사이의 적대를 가시화하기」*라는 제목의 논문을 읽게 되었습니다.


우리나라 구글에서만 ‘길거리’라는 키워드가 길거리 여성을 대상으로 한 불법촬영물들로 이어지는 현상은, 한국 사회의 젠더권력을 드러내는 꽤나 유명한 사례입니다. 여성에게는 일상적인 삶을 향유하는 공간이, 상당수 남성에게는 여성의 신체를 자신들의 관음증적 시선에서 주조하는 이질적인 의미를 가짐을 드러내기 때문입니다.


또한 이 현상은 ‘길거리’ 검색결과의 상단에 ‘길거리 OO녀’ 등으로 길거리 여성의 몸매를 희롱하고 품평하는 남성집단의 문화가 존재하며, 그것이 구글 검색결과의 상단에 나타날 정도로 큰 양과 지속성을 지님을 시사합니다.

 

논문에서는 이 상황을 바라보는 두 가지 시각을 분류합니다. 하나는 문제를 구글의 검색 정책에서 비롯되었다고 보는 관점입니다. 음란물 유통을 제대로 단속하지 못하고, ‘길거리’라는 단어가 지닌 의미론적 결과를 도출하지 못하는 알고리즘의 내적 문제에 주목합니다. 많은 언론이 ‘길거리’ 문제를 바라볼 때 알고리즘의 내적 문제에 초점을 맞추고 있습니다.


‘미디어오늘’의 기사에서는, 한국 이용자의 작은 규모로 충분한 피드백을 받지 못하며 국내법의 규제에서도 벗어나 있는 구글 검색엔진의 한계를 지적합니다.** ‘한국경제’에서도 검색 필터링 기능을 제대로 마련하지 않은 구글과, 관련 법규를 정비하지 않는 정부를 비판합니다.***


이 관점에서 문제가 되는 것은, 의미론적으로 무관한 검색결과를 도출하는 알고리즘적 오류와, 음란물 유통을 방치하는 구글의 필터링 정책입니다. 논문에서는 이 관점의 타당성도 인정하지만, 대안적인 시각을 제시합니다. 그것은 ‘알고리즘적 상상’에 입각해 문제에 접근하는 것입니다.


 알고리즘적 상상이란 “알고리즘의 작동에 대해 대중들이 경험, 지각, 상상하는 방식”을 말합니다. 이 용어는 알고리즘이 그 사용자와 적극적으로 상호작용함을 전제로 합니다. 이러한 관점에서, 알고리즘은 통계적 분석을 통해 사용자가 특정 단어를 어떠한 언어적 문화적 맥락에서 활용하는지를 ‘기억’합니다.


나아가 알고리즘은 특정한 대중을 ‘호출’합니다. 이는 알고리즘이 개인보다 큰 단위에서 사용자와 상호작용하기 때문입니다. 알고리즘은 나이, 성별, 정치성향 등 다양한 기준으로 사용자 전체를 인구학적 집단으로 쪼갠 뒤, 각 사용자가 속한 인구학적 집단의 특성에 맞는 검색정보로 사용자를 안내합니다.


 (구글) 알고리즘이 사용자를 기억하고 호출한다는 알고리즘적 상상에 비추어 볼 때, 우리는 현상에 대한 새로운 문제를 두 가지 발견할 수 있습니다. 첫째는 알고리즘이 ‘기억’한 사용자가 길거리 불법촬영물에 흥미가 있는 사용자였다는 점입니다. 길거리의 의미 대신 순전히 수학적인 분석을 통해 길거리의 활용 맥락을 분석한 결과, 상당수의 사용자는 지속적으로 ‘길거리’라는 키워드를 통해 불법촬영물을 소비해왔습니다.


둘째는 ‘길거리’라는 검색어에서 구글이 ‘호출’하는 대중이 여성이 아닌 남성이라는 점입니다. 여성의 신체를 대상화하고, 관음증적 시선으로 주조하는 수많은 이미지를 유통하고 소비하는 주체가 여성이라고 보기는 어렵습니다. 하지만 논문 저자의 사례를 포함하여, 구글은 성별 구분 없이 ‘길거리’라는 키워드를 불법촬영물로 안내하고 있습니다.


이 지점에서 왜 구글은 ‘길거리’라는 검색어에 있어 여성을 호출하지 않을까 하는 질문을 얻게 됩니다. 논문은 첫 번째 문제와 관련하여, 알고리즘의 오류 이전부터 존재하는 남초 집단의 가부장적 문화를 개선할 것을 촉구하고 있습니다. 이는 아주 타당한 주장이지만, 저는 이 강의의 취지에 맞게 수리사회학적 접근을 시도해보고자 했습니다.


탐구 방식


질문 1

저는 일상적 용어가 여성의 신체를 대상화하는 이미지로 연결되는 몇 가지 검색어를 바탕으로 조사를 하기로 결정했습니다. ‘길거리’ 이외에도 ‘조수석’, ‘일반인’, ‘호불호’라는 일상적인 용어가 이에 해당합니다. 저는 토픽 모델링 기법을 활용해보고자 합니다.

토픽 모델링(Topic Modeling)

문서의 의미를 수학적으로 해석하기 위한 통계적 기법이다. 문서를 몇 개의 토픽으로 분류한 뒤, 각 토픽이 어떤 키워드를 담고 있는지 분석한다. 즉 문서별 토픽의 분포와, 토픽별 키워드의 분포를 알아낸다. 이 두 목표를 위해 토픽 모델은 확률분포를 사용해 분석한다. 이 문서에서 특정 주제(토픽)가 출현하는 확률, 그 토픽과 관련해 특정 단어가 쓰일 확률을 분석한다.

특정한 일상어를 중심으로 비정상적인 담론이 형성되고 있다면, 토픽 모델링은 이를 밝히는 데에 도움을 줄 것입니다. 조금 더 구체적으로 말하자면, 저는 구글 이미지에 나오는 각 이미지의 제목을 분석할 계획입니다.

 

빨간 펜으로 표시했듯이 각 이미지에는 제목이 달려 있습니다. 제목에서 확인할 수 있듯, 해당 이미지는 길거리와 의미론적으로 긴밀한 이미지가 아니라, 길거리 여성을 불법적으로 촬영하고 남성중심적 시선으로 재구성한 이미지입니다. 각 이미지들의 제목을 모아 토픽 모델링을 실행해볼 수 있다면 의미있는 결과를 도출할 수 있을 것이라 생각합니다. 유의미한 결과를 얻는다면, 그것은 구글이 ‘기억’하는 남성의 인터넷 문화를 반영한 결과일 것입니다.


질문2

한편 구글이 ‘호출’하는 대중에 관한 문제가 남아있습니다. 제가 말한 검색어들로 검색해보면, 이미지 결과의 상단에는 여성의 신체를 드러내는 이미지가 대다수지만, 스크롤을 내려 결과의 개수를 늘릴수록 그런 이미지의 비중이 줄어드는 다소간의 경향성을 확인할 수 있습니다. 진짜 길거리와 조수석 등에 관한 이미지가 도출되는 것입니다.


토픽 모델링의 실행 규모를 조정함으로써 비교분석해볼 수 있는 대목이라고 생각합니다. 규모에 따라 담론의 분포 양상에 차이가 생긴다면, 이는 구글이 남성중심적 시선의 이미지를 검색결과 상단에 배치함으로써 젠더차별적으로 사용자 대중을 호출하고 있다는 의미일 것입니다. ‘길거리’와 관련된 여러 이미지들 가운데 남성적 시각에 입각한 이미지를 우선적으로 제공했기 때문입니다. ‘합리적’ 알고리즘에 입각했다 하더라도 이러한 결과가 도출되는 현상 자체가 문제적입니다.


질문3

여기에서 더 나아가 구글 검색 알고리즘을 들여다봄으로써 왜 구글이 불법촬영 게시물을 우선적으로 제시하는지 분석하는 일도 의미있겠지만, 이는 조금 어려운 주제라고 생각합니다. 구글 검색 알고리즘은 여러 메커니즘이 얽혀있지만, 기본적으로 PageRank 시스템을 채용한다고 하여 일단 공부해보는 중입니다.




*이지은, 「한국여성의 인권에 대해 알고 싶으면, 구글에서 ‘길거리’를 검색해보라: 알고리즘을 통해 '대중들' 사이의 적대를 가시화하기」, 미디어, 젠더 & 문화 35(1), 한국여성커뮤니케이션학회, 2020


**곽보아, “‘길거리’로 검색하면 노출 여성 뜨는 구글, 왜?”, 미디어오늘, 2015.06.29.

http://www.mediatoday.co.kr/news/articleView.html?idxno=123822


***김주완, “길거리 몰카 사진 넘치는데… 눈감은 구글, 방치하는 정부”, 한국경제, 2018.05.28.

https://www.hankyung.com/it/article/2018052824411


참고(특히 질문3) - 사피야 우모자 노플, 《구글은 어떻게 여성을 차별하는가》, 노윤기 옮김, 한스미디어, 2019


매거진의 이전글 #7 연구 주제 브레인스토밍
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari