구글트렌드 가지고 놀기.
미국 대선이 불과 내일(11/3)로 다가왔다.
- 트럼프의 예측 불가능한 정치 행보
- 바이든의 건조한 행보
- 코로나라는 시대적 이슈
- 그리고 늘 그렇듯 미국의 독특한 선거제도
이런 여러 이슈가 맞물리며
어느 때보다 전 세계의 주목을 받고는 있지만
대선 주자가 그리 매력적이지 않은 탓인지
아니면 코로나로 많이 지친탓인지
대중들의 시선은 여느 때와 다르게 차분하다.
그럼에도,
미국 대선이 빅데이터와는 떼려야 뗄 수 없는 이슈인만큼
'구글트렌드'로 살펴 본 몇 가지를 재미삼아 나누고자 한다.
(https://trends.google.co.kr/trends/?geo=KR)
먼저,
어떠한 현상 분석에 '검색'데이터를 이용하고자 한다면, 두 가지에 주목해 볼 필요가 있다.
첫 번째는, 당연히 검색 추이를 통한 흐름을 보아야 할 것이고 /
두 번째는, 다양한 검색어 중 유의미한 몇 가지를 선별해야 한다.
나는 특히 두 번째가 중요하다고 생각되는데,
검색에서는 모든 키워드가 동일한 결과값을 가지지 않기 때문이다.
그러니까 어떤 검색어로 보는지에 따라 전망이나 예측이 달라질 수 있는데,
예를들면, 단순히 두 후보의 이름만으로 검색하는 것보다
이름이 들어간 어떤 키워드가 더 지지 성향을 잘 드러낼 수 있다는 의미이다.
그냥 트럼프보다, '코로나 걸린 트럼프?' '트럼프의 코로나 정책?'같은 검색어가
어쩌면 트럼프의 당락에 더 설명력이 높을수도 있다.
(물론 여기서는 그런 키워드로 보지 않을거지만.)
그럼, 아래 몇 가지만 짚어보자.
https://trends.google.co.kr/trends/story/US_cu_b4fsy3IBAADxzM_en
[ 최근 7일 기준 ]
두 후보의 '이름'만으로,
미국 전 지역 내 최근 일주일 동안의 구글 검색 추이를 보면 트럼프 검색량이 꾸준히 높다.
그런데 한 가지 주목할 것은, 11월에 접어들면서 트럼프 검색량이 증가하는 반면,
바이든의 검색량은 추세를 유지하고 있다는 것인데..
이것이 트럼프에 대한 관심인지, 비난인지는 알 수 없지만 약간의 Signal 로 해석 가능한 부분이 있다.
[ 최근 30일 기준 ]
[ 최근 7일 기준 ]
[ 최근 30일 기준 ]
"000 polls today"라는 검색어는 말 그대로 오늘 해당 후보의 지지율이 어떤지를 체크하려는 목적이다.
이 검색어를 선정한 것은 단순히 이름만 검색하는 것 대비 데이터를 좀 더 변별해 주기 때문이며
선거가 다가올수록 여러가지 변화를 보여주기 때문이다.
미국 50개 주를 기준으로 한 검색어 별 색상 분포만 봐도 차이가 좀 느껴지지 않은가?
(서두에 거론했던 이름만 검색할 경우에는, Trump를 검색한 비중이 높아 온통 빨간색이다.)
<Trump>
<Biden>
앞서의 polls today에 전치사인 "In"을 붙인 경우와 정관사인 "The"까지 붙인 경우를
후보 각각으로 비교해 보았다.
무슨 차이가 있을까?
예상이며 경우에 따라 억측일 수도 있으나, 검색창에 또박또박 문법을 지키는 경우는 흔치 않다.
미국도 우리나라와 비슷하다면 말이다.
우리나라로 치면 '오늘 트럼프 지지율" 이라는 것과 "오늘의 트럼프 지지율"이라는 미미한 차이다.
그럼에도 혹시 내 예상이 맞다면, 이 부분으로 학력수준과 연령대를 짐작할 수도 있다.
(물론 억측일 수 있다. ㅋㅋ)
어쩃든 두 후보의 차이는 꽤 선명하다.
트럼프의 경우 polls today라고 검색한 비율이 타 키워드 대비 많고 일정한 반면,
바이든의 지표는 그 사이가 약간이지만 좁고 많이 흔들리는 경향이 보인다.
이 지표는 무엇을 설명할 수 있을까? 각자 풀어보시길.
그 외 다른 키워드도 많다. "News Today" 같은 키워드도 있고,
"Trump Stock" 같은 키워드도 있다.
여기서 자세하게 풀지는 못하겠지만, 키워드 별로 보다보면,
어쩌면, 꽤 괜찮은 차이를 읽어낼 수 있을지도 모른다.
이렇게 공개된 자료를 가지고 시장을 읽어내는 건 누구나 가능하다.
많은 돈을 들여 '데이터'를 학문적으로 공부하지 않더라도
관심이 있다면, 그리고 관점이 있다면 못할 일이 아니다.
다만, 몇 가지 데이터 해석에 주의가 필요하다.
1. 우리는 전체 키워드 중에 일부를 선택하는 게 아니다.
우리는 전체 키워드를 알 수 없다. 그러니 다양한 관점에서의 공부와 해석이 필요하다.
2. 많이들 알겠지만 미국은 '선거인단'제도이다.
우리나라처럼 직선제인 경우에는 선거 전날까지 민심을 읽는 게 중요하겠지만
미국은 검색 데이터를 아무리 보더라도 선거인단의 의견이 어떻게 바뀌는지까지 짚어낼 수 없다.
3. 구글트렌드로는 검색어별 연령대나 성별을 알 수 없다.
데이터가 디테일할 수 없다는 것이다.
지금까지 한 이야기들은 모두 심층 분석이 이뤄지지 않은 '가설'에 입각한 자료들입니다.
혹시 '혼돈'이나 '오해' 없으시길 바랄게요 ^^
이 자료는 빅데이터에 대해 조금 쉽게 다가가실 수 있게 하기 위함일 뿐입니다.
2016년 구글트렌드는 트럼프의 대선을 예측했다며 호들갑을 떨었다.
물론 좋은 시도였고 꽤 설명력이 높았다.
그들이 밝혀낸 바에 따르면, (사실 구글이 밝힌 건 아니다.)
오바마 대선 당시에도 흑인을 비하하는 'nigger'라는 키워드가 많이 검색되었다고 한다.
그리고 트럼프가 당선될 때의 지역별 표심과 인종차별을 검색하는 지역별 검색량이
꽤 일치했다고 한다.
그렇다고 빅데이터가 여론조사보다 나은 데이터라고 할 수 있을까?
통계로 보면 여론조사가 틀린 대선은 힐러리를 포함해 총 5번 밖에 안 된다고 한다.
빅데이터는? 그에 비하면 단 한 번에 불과하다.
두 데이터는 융합되어야 할 상생의 관계지, 경쟁의 관계가 되어서는 안된다.
앞으로 많은 선례와 연구가 필요한 일이기 때문에 짐짓 특정 데이터만 옹호해서는 안 될 것이다.
영상은 위에 내용보다 짧게 담았지만,
아직 못 보신 분이 있다면, 혹시 설명이 미흡하셨다면 클릭!
https://www.youtube.com/watch?v=fTDvt6vqV1E