brunch

매거진 신간연재ㅣ경제 경영 사회 교육

라이킷 2 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 더굿북 May 25. 2018

02. 빅데이터조차 날려버린 트럼프

<예측, 일단 의심하라>

빅데이터 분석가들은 2015년 영국의 선거 때처럼 미국 대통령 당선자를 예측하려다 기가 한풀 꺾였다. 일부 예외는 있었지만 그들이 매스컴에 분명하게 제시한 메시지인즉 ‘힐러리 클린턴이 제45대 미국 대통령이 된다’였다. 그런데 영국 총선 때와 마찬가지로 그들에겐 계속 놀랄 일만 남아 있었다. 빅데이터를 동원한 예측에 제대로 ‘한 방 먹인’ 반발 세력의 기세가 대단해지기 전까지는 도널드 트럼프 본인도 아예 승리 연설을 하러 행사장 무대에 나타날 엄두도 내지 않았다.

《네이키드퓨처》 저자 패트릭 터커는 “빅데이터가 선거 예측에 도움이 안 된다면 우리와 이해관계가 있는 국

가들의 민중 봉기나 테러 공격을 예측하는 데에 빅데이터를 어느 정도로 믿어야 할 것인가?”하고 물었다.

영국총선, 브렉시트, 2008년 금융위기, 도널드 트럼프 등의 경우와 같이 세간의 이목을 확실하게 끄는 예측들이 완전히 빗나가는 일들이 자꾸만 생겨난다. 그러니 빅데이터의 시절도 이제 손으로 꼽을 만큼밖에 남지 않은 건가? 마치 1937년 힌덴부르크 비행선 대참사로 말미암아 비행선 시대가 막을 내렸던 것처럼 빅데이터도 실패한 첨단기술인가?

빅데이터 대량 고속처리가 아무리 초인적인 분석력을 가졌다고 해도 반드시 사람의 손을 거쳐야 한다. 빅데이터를 만들기까지 컴퓨터 알고리즘은 여러 가지 데이터를 수집한다. 탐욕스럽기 짝이 없는 알고리즘들의 먹잇감이 바로 데이터인 것이다. 그런데 어떤 종류의 데이터를 수집할지를 결정하는 존재는 결국 인간이다. 게다가 컴퓨터 알고리즘을 개발하는 존재도 인간인 것이다. 알고리즘 창시자인 우리들의 의식이나 무의식을 통해서 생긴 편견과 추측, 이 모두가 빅데이터의 알고리즘에 그대로 반영된다. 게다가 차트와 수치들을 해석하고 의미를 부여하는 존재 또한 우리 인간들이다.

한때 나는 대학교 수학과에서 학생들을 가르친 적이 있었다. 냉철하기 짝이 없는 수학과 동료들 중 일부는 나의 연구분야가 인간의 판단력이 예측 작업에서 차지하는 역할인 것을 매우 탐탁지 않게 여겼다. “분명히 해두는데요. 그 어떤 것도 수학적으로 예측 가능하고 또 그래야만 합니다”라고 언급한 동료 교수는 세상을 둘로 쪼개, 이른바 수학의 세상과 주먹구구인 세상으로 나누어 생각하는 사람이었다. 분명히 그는 내가 후자에 속한다고 여겼으리라. 하지만 아무리 수학이 정교하다고 해도 이것만으로는 올바른 예측이 불가능하다. 즉, 예측에는 반드시 사람이 개입하여 그의 개인적 판단에 입각해서 예측의 제반사항들을 결정할 수밖에 없다.

선거 예측 분석가들은 어떤 여론조사 방식을 활용할지 결정한 후, 이 방식에 응답할 사람들이 과연 유권자를 대표하는 소임을 제대로 다할 수 있을지 스스로 판단해야 한다. 유권자에게 누구를 찍을지 질문했을 때 그가 정직하게 대답하고 있는지도 판단해야 한다. 분석가들은 알고리즘을 짤 때, 사회관계망 활동과 인터넷 검색활동 혹은 신문 등을 위시한 다양한 정보들을 어느 정도의 비중으로 참고할 것인지 결정해야 한다.예전의 투표 패턴을 얼마나 참작할지도 정해야 한다. 무엇보다도 선거 예측 분석가들은 덩치는 어마어마하게 큰데도 일언반구 아무 말도 하지 않는 매트릭스를 일일이 평가하고 그 뜻을 헤아려서 마침내 투표 행태 예측에 의미심장한 내용을 담아내야 한다.

트럼프가 대선에 성공하자 선거 예측 분석가들의 입장이 곤란해졌다. 그들 자신의 편향성이 대선 전 과정에 영향을 미치는 바람에 보기 좋게 골탕 먹었기 때문이다. 특히 여론조사란 유권자들의 의도를 어느 한 시점에서만 평가하는 단발성 시도에 불과한데도 너무 많은 비중을 차지했다. 여론조사 결과를 그래프로 작성해보면 마치 사람의 심장 박동이 취침 시와 운동 시에 사뭇 달라지듯이 때때로 변덕스럽게 바뀐다는 사실을 확인할 수 있다.

여론조사원들의 설문을 받아준 사람들이 반드시 투표소에 나와 투표권을 행사하는 사람들을 대표하지는 않기 때문에 여론조사는 한계가 있다. 미국 대선 여론조사에서 대학 교육을 받지 않은 백인들 중에 도널드 트럼프를 지지하는 사람들을 표본 대상으로 너무 적게 포함시켰다는 주장이 제기되었다. 만면에 미소를 머금은 조사원이 방문하자 입장이 난처해진 사람들은 트럼프같이 말썽 많은 후보에게 투표할 생각이라거나 혹은 여자 대통령은 절대 반대라는 속내를 순순히 드러내지는 못했다. 유권자들 스스로가 마음의 빗장을 풀고 정치적 견해를 솔직히 드러낸 대상은 여론조사원들이 아니라 소셜미디어였다.

다음은 당시의 데이터 해석 내용이다. 만약 분석가를 제외한 나머지 거의 모든 사람들이 힐러리 클린턴이 승리하리라고 여길 경우 분석가는 데이터를 대할 때 그들과 같은 시각으로 바라볼 가능성이 높았다. 다음은 어느 예측 전문가의 말이다. “세간의 평가와 여론조사 결과가 힐러리 클린턴의 우승이 확실하다고 하자 결국 이에 휘둘렸습니다. 민주당과 공화당 양당이 초접전 경합을 벌이는 주들 대부분과 플로리다에서 트럼프가 클린턴을 제쳤음이 데이터 상으로 나타났는데도 이를 완전히 무시했습니다. 엄청난 실수를 저질렀던 거죠.”

문제의 핵심은 빅데이터 자체가 아니라 인간이 이것과 어떻게 관련되느냐이다. 빅데이터를 주축으로 한 예측의 시대에 사망선고를 내리는 것은 시기상조다. 빅데이터는 여러모로 새로운 현상이다. 지금으로서는 빅데이터 기술력 활용의 질을 향상시키는 노력이 필요할 따름이다. 그리고 사람들은 최근에 실망스런 일들을 잇따라 겪으면서 많은 교훈을 얻었을 것이다. 또한 트럼프에 대한 예측들이 다 빗나간 것은 아니었다. 네이트 실버의 예측 모델은 클린턴의 승리가 거의 확실하다고 했지만 대선 닷새 전에는 트럼프가 대통령 당선자가 될 확률이 3분의 1 가량 된다고 예측 내용을 변경하기도 했다.

keyword

더굿북

http://www.thegoodbook.co.kr

구독자 6,280

매거진의 이전글 01. 예측은 틀린다. 00. <징둥닷컴 이야기> 연재 예고 매거진의 다음글

작품 선택

키워드 선택 0 / 3 0

댓글여부

댓글 쓰기 허용 afliean

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari