빅데이터를 전세계에 알린, 두 사람

오바마와 트럼프

by Maven

이제부터는 다음의 두가지 질문에 대해서 답해보려 한다.

- 빅데이터는 언제부터 대중적으로 이름을 알리기 시작했을까?

- 빅데이터와 4차 산업혁명 중 어떤 키워드가 더 먼저 대중에게 알려졌을까?


4차 산업혁명은, 뒤에 더 자세하게 얘기하겠지만, 2016년 6월 스위스에서 열린 다보스 포럼 (Davos Forum)에서 당시 의장이었던 클라우스 슈밥(Klaus Schwab)에 의해 이슈가 되기 시작했다고 알려져 있다. [참고로 다보스 포럼은 스위스 '다보스'라는 지역에서 매년 열리는 세계경제포럼이다.]


그런데 빅데이터는 그 이전인 2013년 초부터 국내 뿐 아니라 전세계적으로 이슈화되기 시작했다.

그래서 지금부터는 빅데이터 역사에서 중요했던 ‘2013년 초’라는 시기를 기준으로 얘기해보려 한다.


빅데이터가 세상의 주목을 받는데 가장 큰 영향을 미친 인물을 뽑으라면, 나는 지체없이 미국의 두 대통령, ‘버락 오바마’(이하 오바마)와 ‘도널드 트럼프’(이하 트럼프)를 꼽는다.


오바마 대통령은 미국의 44대 대통령으로 연임에 성공하면서 2009년부터 2016년까지 재임했다.


2013년은 오바마가 재선에 성공한 시기였는데 이때 시행한 빅데이터 기반의 ‘과학적’ 선거 전략이 전세계적으로 주목을 받았다. 오바마는 대선을 승리로 이끌기 위해 당시 선거판에서 이름만으로도 생소한 테크놀로지팀과 데이터분석팀을 꾸리고 방대한 유권자 데이터를 분석하기 시작했으며, 심지어 선거용 웹사이트를 여러 버전으로 만들어 어떤 이미지를 노출했을 때 사람들이 많이 방문하고, 또 길게 머물렀는지를 테스트하고 반영하기도 했다. 지금 온라인 광고 시장에서 흔히 사용되는 A/B테스트다.


지금 들으면 그게 그렇게 대단한가 싶지만 2013년이었다는 것을 감안해보자.

미국에서조차 아이폰이 등장한지 5~6년 정도가 흘렀을 때였고, 페이스북이 인스타그램을 인수하던 시절이었다. 아이폰이 등장하고 선풍적인 인기를 끌었다고는 하지만 오바마의 휴대폰은 블랙베리였으며, 페이스북이 인스타그램을 인수할 만큼 거대해졌지만 소비자들이 남긴 글자나 이미지들을 분석하는 것과는 별개의 문제다.


놀라운 것이 하나 더 있다. 오바마 대선 캠프에서 수석분석관을 맡았던 인물은 당시 29세였던 '다니엘 와그너'였다고 한다. 그가 누구인지, 그 이후로 어떻게 되었는지는 별로 중요하지 않다. 그의 당시 나이가 불과 29세였다는 게 중요하다. 당시 데이터 분석 전문가가 꽤 귀했다는 의미다. 그래서 오바마는 빅데이터 대통령이라고 불리게 되었으며, 그의 빅데이터 선거 전략에 대해서는 시중에도 잘 정리해 놓은 책들이 있으니 관심이 있다면 한번쯤 읽어보기를 추천 드린다.


그렇다면, 이 당시 우리나라는 어땠을까? 개인적으로는 내가 컨설팅 회사에서 빅데이터 회사로 이직했던 시기가 2013년, 딱 이 때였다. 당시에도 이미 우리나라에는 여러 빅데이터 분석 회사들이 있었지만 지금처럼 대중의 환대를 받던 시기는 아니었다. 심지어 빅데이터 회사에 오래 다녔던 사람들도 퇴사하면서 이제 “텍스트 데이터는 빅데이터가 아니다”, “빅데이터는 좋은 결과를 낼 수 없다”는 평가들을 했다. 지금보면 아직 시작도 안 하던 시기였는데 말이다. 이런 얘기들을 들으면 마치 비트코인이 몇 만원 하던 시절의 얘기 같지 않은가?


어쨌든 내가 유사 업종으로의 이직을 뒤로하고 빅데이터 회사로 이직을 한다고 했을 때 주변에서의 반응이 그렇게 호의적이지는 않았던 것 같다. 애써 던지는 공감이 “그래, 한 번쯤 경험해 볼만은 하겠다”는 정도였으니까. 빅데이터 분야에서도 마찬가지였다. 인생 첫 이직을 위한 면접이었는데 우리 업계는 기존이 달라서 기존에 받던 연봉을 깍을 수밖에 없다는 말을 들을 정도였다. 물론 난 개의치 않았다. 돈이 중요한 시절의 내가 아니었으니까.


개인적인 경험담 말고 사회적 분위기를 좀 더 얘기해보자면, 2013년 당시는 우리나라에도 18대 대통령이 탄생한 시기였다. 대한민국 첫 여성 대통령인 박근혜 대통령은 세계적인 추세에 발맞춰 빅데이터에 대한 관심을 보였고 산업 차원에서 활성화시킬 것을 강조했으며, 이러한 정부의 적극적인 추진에 따라 대기업을 중심으로 새로운 빅데이터에 대해 관심을 보였다. 그 이후로 빅데이터 산업이 순탄하게 성장했냐고 하면 그것까지는 아니었지만, 어쨌든 빅데이터라는 새로운 ‘원유’를 접하는 계기로는 충분했던 시기였다.



다음으로 빅데이터 역사에서 중요한 역할을 한 인물은 미국의 45대 대통령인 트럼프였다.


트럼프 대통령은 오바마 대통령의 뒤를 이어 2017년부터 2021년까지 단 4년 동안만 재임했는데, 본인의 의지와 상관없이 빅데이터의 영향력을 전세계에 입증시킨 역할을 했다. 빅데이터만 거의 유일하게 트럼프의 당선을 예측했던 것이다. 무작위로 전화를 걸거나 우편을 통해 유권자의 반응을 살폈던 여론조사에 대한 신뢰가 드디어 흔들리는 순간이었다.


거의 모든 여론조사에서 오바마 대통령에 뒤를 이을 45대 대통령으로 예측된 후보는 트럼프가 아닌 힐러리 클린턴(이하 힐러리)이었다. 당시 발표된 어느 조사에서 힐러리에 대한 지지율은 46%, 트럼프에 대한 지지율은 43%였다. 하지만 최종 결과는 힐러리 215표, 트럼프 264표였다.


세상 모두가 놀라고 있을 이 시점에, “빅데이터는 이미 트럼프의 당선을 알고 있었다”고 외치며 등장한 이가 있었는데, 당시 하버드 대학교에서 경제학 박사과정 중이던 ‘세스 스티븐스 다비도위츠(Seth Stephens-Davidowitz)/(이하 세스)’였다. 더 놀라운 것은 그가 트럼프의 당선을 예측한데 사용한 데이터는 누구나 접근 가능한 ‘구글트렌드’였다는 것이다.


구글트렌드는 구글에서 제공하고 있는 서비스로 사람들이 구글에서 어떤 키워드들을 검색하는지, 해당 키워드의 기간별 검색 추이는 어떤지 등을 개략적으로 살펴볼 수 있다. 예를들면 구글트렌드 사이트로 접속해서 검색창에 ‘Obama’와 ‘Trump’를 입력하고 확인 버튼을 누르면 최근 몇 달 동안 두 키워드의 검색량이 어떻게 변화했는지 쉽게 알 수 있다.


그렇다면, 누구나 접근할 수 있는 서비스라면서 어떻게 세스만 트럼프의 당선을 예측할 수 있었을까.


첫 번째 이유는, 다른 사람들이 관심을 갖지 않는 데이터였기 때문이었다. 여론조사의 지지율을 믿고 있던 유권자들은 굳이 사람들이 검색하는 내용을 알고 싶어하지 않거나, 알 필요가 없다고 생각했을 것이다. 혹은 질문에 대한 대답과 검색하는 행동이 항상 일치한다고 생각했기 때문일수도 있다.


두 번째 이유는, 세스는 남들과 달리, 검색되는 키워드의 종류에 주목했다. 사람들이 검색창에 힐러리를 검색하거나 트럼프를 검색하는 것도 물론 중요하지만, 그 이외 다른 어떤 단어들을 검색하는지를 파악해 여론조사에서 보여지지 않는 민심(民心)이 어디로 향하는지를 캐치한 것이다.


세스가 주목했던 단어는 “NIGGER”, 우리말로 검색하면 “깜둥이”라고 번역될 수 있는(우리나라 말로 해석이 이따위여서 정말 죄송하지만..) 흑인에 대한 엄청난 비하 단어이다. 사람들이 이 단어를 검색하는 것이 과연 트럼프의 당선과 무슨 연관이 있을까. 이 키워드는 트럼프에 대한 호감의 증거가 아닌, 직전의 오바마 대통령에 대한 비호감의 증거였다.


오바마 대통령은 다들 알다시피 미국의 첫 흑인 대통령이다. 물론 여전히 흑인에 대해 부정적인 인식을 갖고 있는 유권자도 있을 것이나, 내 생각에 오바마 대통령이 당선되었던 시기에는 그 반감을 공공연히 드러낼 수 없었던 분위기였던 것 같다. 세계 경찰국가, 경제 1위 국가의 위상에 이제는 인종에 상관없이 대통령도 탄생시킬 수 있는 포용력과 선진 문화를 전세계에 알리고 싶어했을 테니까.


독일 사회학자 ‘엘리자베스 노엘레-노이만(Elisabeth Noelle-Neumann)’이 1974년에 제시한 『침묵의 나선 이론』(The spiral of silence theory)에서는, 사람들은 언론 기사를 통해 발표된 내용이 사실은 소수의 의견일 수 있음에도, 다수에 속하고 싶은 마음 때문에 개인적인 의견이 다를지라도 표출하기보다는 침묵을 선택한다고 했다. 대중적으로 공표된 의견과 내 의견이 달라도 튀고 싶지 않기 때문에 말하지 않을 수 있으며, 혹은 여론에 반기를 들만큼 내 의견이 논리적으로 완전하지 않다고 느끼기 때문에 소극적인 태도를 취할수도 있다. 어쩌면 언론 기사에 오히려 맹점이 있을수도 있고, 논리적으로 탄탄하지 않은 의견이라도 지지를 받을수도 있을텐데 말이다. 싫은 건 그냥 싫은거지, 무슨 이유가 필요한가.


오바마 대통령이 집권하는 동안 일부 노동자들 역시 표출보다는 침묵을 선택했지만, 내심 오바마의 정책이 아주 못마땅했나 보다. 그의 정책에 대한 미움은 급기야 그의 피부색, 인종에 대한 미움으로 전이되어 다시금 활활 타올랐을 것이고, 여전히 “흑인이어서 싫다”는 말은 공공연하게 못하지만, 구글에 검색을 하는 행동으로 불만을 표시했던 것이다.


물론 오바마 대통령에 이어 경쟁을 벌이고 있던 힐러리와 트럼프는 모두 흑인이 아니다. 그런데 왜 인터넷에 흑인 비하 단어를 검색한 유권자들의 표가 트럼프를 향했을까. 오바마 정책에 반대하는 목소리를 가진 공화당 후보였다는 것, 그리고 오바마 대통령에 불만을 가진 산업계 노동 유권자층을 대변해 공격적이고 거친 목소리를 냈다는 것이 주효했다.


이렇게 질문에는 대답하지 못하고 집에서 몰래 검색을 통해 자신의 의사를 표현하던 이들을 가리켜 신조어가 생겨났다. “Shy Trump”. 트럼프를 지지한다는 사실을 숨기는 유권자들이다.


2013년, 빅데이터로 민심을 세세하게 읽어내며 재선에 성공한 오바마 대통령과 민주당은, 4년 뒤 빅데이터에 무릎을 꿇게 되는 아이러니한 상황을 맞았다. 데이터 분석팀까지 꾸리며 마이크로 타겟팅(Micro Targeting)을 지향했던 오바마의 성공을 보며 일각에서는, 기존의 정치 판도가 바뀌었다며, 당분간 공화당이 집권하기는 어려울 것이라는 분석도 있었다. 오바마를 당선시켰던 빅데이터는 4년 동안 일취월장했는데, 빅데이터로 당선했던 오바마는 그 흐름을 쫓아가지 못했나보다.


트럼프 당선을 예측했던 '세스'는 이후 구글로 자리를 옮겼고 구글에서는 그에게 ‘Data Scientist’라는 새로운 직함을 만들어준다. 이게 우리가 요즘 얘기하는 데이터 사이언스, 데이터 사이언티스트의 거의 시초다.


아주 오랫동안 데이터는 ‘통계’였는데, 이제는 ‘과학’이 된 것이다.

세스 스티븐스 다비도위츠는 이러한 분석 관점에 기반해 <모두 거짓말을 한다(Everybody Lies)>라는 책을 냈다. 빅데이터에 대해 궁금한 독자들이라면 읽어보기를 추천드린다.

keyword
매거진의 이전글지긋지긋한 빅데이터 아는 척하기