brunch

You can make anything
by writing

C.S.Lewis

by 더굿북 Jul 11. 2018

02. 구글 데이터는 누가 당선될지 알고 있다.

<모두 거짓말을 한다>



구글 데이터는 누가 실제로 투표를 하러 나올지 알고 있다. 투표를 하지 않을 사람 절반 이상이 선거 직전의 설문조사에서는 투표를 할 예정이라고 말해서 투표율 예측을 왜곡한다. 반면, 선거 전 몇 주에 걸쳐 ‘투표하는 법’, ‘투표 장소’가 구글에서 얼마나 검색됐는지 살펴보면 어떤 지역의 투표율이 높을지를 정확하게 예측할 수 있다.

사람들이 누구에게 투표할지에 관한 정보까지 얻을 수 있다. 정말로 검색을 바탕으로 사람들이 어떤 후보에게 투표할지를 예측할 수 있을까? 단순히 어떤 후보를 자주 검색하는지를 조사하는 것은 아니다. 많은 사람들이 자신이 좋아하는 후보를 검색하긴 하지만, 싫어하는 후보도 많이 검색한다.



로스앤젤레스 캘리포니아대학교의 금융학 교수인 스튜어트 가브리엘(Stuart Gabriel)과 나는 사람들이 투표를 계획하는 방식에서 놀라운 단서를 발견했다. 선거와 관련된 검색 대부분에는 후보자 두 명의 이름이들어 있다. 도널드 트럼프와 힐러리 클린턴(Hillary Clinton)이 맞붙은 2016년 선거에서 어떤 사람들은 ‘트럼프 클린턴 여론조사’를 검색했고 어떤 사람들은 ‘클린턴 트럼프 토론’의 주요 부분을 찾아봤다. 사실 ‘트럼프’가 들어간 검색의 12퍼센트에는 ‘클린턴’이라는 단어가 포함돼 있었다. 마찬가지로 ‘클린턴’이 들어간 검색의 25퍼센트 이상에 ‘트럼프’라는 단어가 들어 있었다.

우리는 일견 중립적으로 보이는 이런 검색이 개인이 어떤 후보를 지지하는지에 관한 단서를 줄 수 있음을 발견했다.

어떻게 그럴 수 있을까? 중요한 것은 후보의 이름이 등장하는 순서이다. 우리의 연구 결과는 사람들이 두 후보의 이름을 포함한 검색어를 입력할 때 자신들이 지지하는 후보를 앞에 두는 경향이 유의미하게 강하다는 것을 보여준다.

앞선 세 번의 선거에서 검색어에 더 많이 먼저 등장한 후보가 더 많은 표를 획득했다. 더 흥미로운 것은 이러한 검색 순서가 특정 주가 어느 후보에게 유리한 방향으로 움직일지를 예견한다는 점이다.

후보자가 검색되는 순서는 여론조사가 놓칠 수 있는 정보도 담고 있는 듯하다. 오바마와 공화당의 미트 롬니(Mitt Romney)가 대결한 2012년 선거에서 뛰어난 통계학자이자 저널리스트인 네이트 실버(Nate Silver)는 50개 주의 선거 결과를 모두 정확하게 예측했다. 그렇지만 우리가 확인한 바에 따르면 검색을 할 때 롬니를 오바마보다 가장 자주 앞세웠던 주에서는 롬니가 실버의 예측보다 더 좋은 성과를 올렸다. 오바마를 롬니보다 앞세운 경우가 가장 많았던 주에서는 실버의 예상보다 오바마가 롬니를 큰 격차로 따돌렸다.

이 지표가 여론조사가 놓친 정보를 담을 수 있는 이유는 유권자들이 스스로에게 거짓말을 하거나 여론조사 요원에게 자신의 진짜 선호를 드러내지 않기 때문이다. 아직 투표할 후보를 결정하지 않았다고 말했지만 지속적으로 ‘롬니 오바마 여론조사’, ‘롬니 오바마 토론’, ‘롬니 오바마 선거’를 검색하고 있던 사람들은 내내 롬니에게 투표할 작정이었던 것이다.

그렇다면 구글이 트럼프의 승리도 예견했을까? 구글 데이터로 선거 결과를 예측하는 최선의 방법을 알아내려면 아직 해야 할 연구가 많고 많은 연구자의 참여가 필요하다. 이 방법은 새로운 과학이며 이런 종류의 데이터가 존재하는 선거도 이제 겨우 몇 번 치러졌을 뿐이다. 나는 선거 결과를 예측하는 데 도움을 주는 도구로서 여론조사를 퇴출시킬 수 있다고 주장할 정도에는 이르지 못했다. 어쩌면 결코 그런 정도까지는 이르지 못할 수도 있다.

하지만 인터넷 곳곳에는 트럼프가 여론조사 예상보다 선전하리라는 징조가 있었다. 흑인 대다수는 투표에 참여해서 트럼프에 반대표를 던질 것이라고 여론조사에 답했다. 하지만 흑인 비율이 높은 지역에서 투표 정보를 구글에 검색해본 빈도는 현저히 낮았다. 선거 당일 클린턴은 흑인의 낮은 투표율 때문에 타격을 받았다.

결정을 미루고 있다는 유권자들이 트럼프 쪽으로 기울고 있었다는 신호도 보였다. 가브리엘과 나는 클린턴의 승리가 점쳐지던 중서부의 주요 주에서 ‘트럼프 클린턴’이 ‘클린턴 트럼프’보다 많이 검색됐다는 사실을 발견했다. 실제로 트럼프는 이 지역에서 여론조사 결과보다 훨씬 좋은 성과를 올렸고, 이는 그의 당선에 큰 역할을 했다.

우선 예비선거에서부터 트럼프가 성공적인 후보자였음을 입증할 수 있는 가장 큰 단서가 있었는데, 이는 바로 내가 오바마 연구에서 밝혀냈던 은밀한 인종주의였다. 구글 검색은 전문가들이 수년 동안 놓치고 있던, 유의미한 숫자의 미국인들 사이에 존재하는 악의와 혐오를 드러내줬다. 검색 데이터는 우리가 여론조사에 의지하는 학자들과 저널리스트들이 생각하는 사회와 매우 다른 사회에서 살고 있다는 것을 드러냈다. 검색 데이터는 후보자가 표현해주기 바라는 고약하고, 무섭고, 광범위하게 퍼진 분노를 그대로 보여줬다.

사람들은 자주 거짓말을 한다. 다른 사람에게는 물론 자신에게도 한다. 2008년 설문조사에서 미국인들은 더 이상 선거에 관심이 없다고 말했다. 8년 후 그들은 도널드 트럼프를 대통령으로 뽑았다. 트럼프는 ‘흑인이 백인 미국인 살인 대부분에 책임이 있다’는 사실도 아닌 주장을 리트윗하고, 집회 중에 BLM(Black Lives Matter: 흑인의 목숨도 소중하다는 뜻으로 아프리카계 미국인을 향한 폭력과 제도적 인종주의에 반대하는 사회운동) 시위자들에게 폭력을 휘두른 지지자들을 옹호하고, KKK전 지도자의 지지를 즉각 거부하지 못하고 망설였는데 말이다.

예비선거 초기에 네이트 실버는 사실상 트럼프는 당선될 가능성이 없다고 주장했다. 예비선거가 진행되면서 트럼프가 광범위한 지지를 받고 있음이 점점 명확해지자 실버는 무슨 일이 벌어지고 있는지 파악하기 위해 데이터를 확인하기로 했다. 어째서 트럼프가 이렇게 선전할 수 있는 것일까?

실버는 트럼프가 좋은 성적을 올리고 있는 지역이 이상한 지도를 그리고 있음을 발견했다. 트럼프는 남부는 물론이고 북동부와 산업 지대인 중서부에서도 선전했다. 서부에서는 현저하게 나쁜 성적표를 받았다. 실버는 이런 상황을 설명해주는 변수를 찾아야 했다. 실업률일까? 종교일까? 총기 소유권일까? 이민자 비율일까? 오바마에 대한 반대일까?

실버는 공화당 예비선거에서 도널드 트럼프의 지지와 가장 연관성이 높은 한 가지 요소가 내가 4년 전에 발견했던 기준이라는 것을 알아차렸다. 트럼프의 지지율이 높은 지역은 ‘깜둥이’라는 구글 검색이 가장 많았던 지역이었다.

매거진의 이전글 01. 검색어에는 인간의 욕망이 드러난다.
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari