brunch

You can make anything
by writing

C.S.Lewis

by 채자까 Mar 03. 2019

빅데이터는 우리들의 속마음을 알고 있다

빅데이터가 갖고 있는 엄청난 힘

지난 2016년 미국 대선에서 도널드 트럼프가 당선될 것이라 생각한 사람은 많지 않았다. 각종 여론조사 기관에서 조사한 바에 따르면 트럼프의 낙선은 기정 사실이었다. 그런데 대선 결과는 정반대였다. 많은 사람들이 힐러리 클린턴을 지지한다고 말했지만 속으로는, 실제 행동으로는 도널드 트럼프를 지지한 것이었다. 하지만 도널드 트럼프가 이길 것이라는 증거가 어딘가에 있었다. 바로 인터넷 속이었다. <모두 거짓말을 한다>의 저자 세스 스티븐즈 다비도위츠는 구글에서 인종차별적 검색을 한 사람들이 트럼프를 지지했다는 증거를 찾아냈다. 많은 미국인들은 인종차별을 하지 않는 것처럼 행동했지만, 남들 몰래 인종차별과 관련된 검색을 하고 있었다.


인간은 그 자체로 데이터 과학자이다. 인간은 경험을 통해 학습하고, 경험을 바탕으로 직관적인 판단을 내린다. 그런데 이 직관은 때때로 틀리기도 한다. 우리가 세상을 바라볼 때 직관만으로, 즉 우리가 들은 것과 본 것만으로 세상을 판단하면 틀리는 경우가 많을 것이다. 그 이유는 바로 우리의 경험이 충분히 많지 않기 때문이다. 그래서 경험이라는 스몰 데이터도 중요하지만 더 많은 다양한 데이터인 빅데이터가 필요하다.



빅데이터가 갖는 힘은 크게 네 가지가 있다. 첫 째, 새로운 유형의 데이터를 제공한다. 둘 째, 솔직한 데이터를 제공한다. 셋 째, 작은 집단도 클로즈업해서 볼 수 있다. 넷 째, 상관관계 뿐만 아니라 인과관계까지 확인할 수 있는 인과적 실험이 가능하다.


어떤 유형의 데이터를 사용하느냐에 따라 좋은 결과물을 얻을 수도 있고 그렇지 않을 수도 있다. 검색엔진의 대표주자인 구글은 기존의 검색엔진이 사용하는 데이터와 다른 데이터를 사용함으로써 현재의 위치에 오를 수 있었다. 다른 검색엔진은 사용자가 검색한 문구가 가장 많이 들어가는 웹사이트를 보여줬다. 단순히 검색어로만 웹사이트를 검색하는 것의 최대 단점은 검색어와 상관 없는 내용의 웹페이지에 검색어가 많이 숨어있을 경우 해당 사이트가 검색되는 것이다. 반면 구글은 링크된 웹페이지를 기반으로 검색을 했다. 단순히 수집한 데이터의 양이 많다고 해서 반드시 도움이 되는 것은 아니다.


다양한 유형의 데이터 종류에는 신체 데이터, 단어 데이터, 사진 데이터 등이 있다. 경주마의 성적을 예측하는 데에 말의 좌심실 크기를 이용한다. 사람들이 사용하는 단어를 바탕으로 감정 상태를 분석한다. 때로는 사용하는 단어에 따라 정치적 성향이 나뉘기도 한다. 프레미스라는 회사는 경제 성과를 파악하기 위해 슈퍼마켓에 얼마나 많은 사람들이 줄 서있는지, 사과가 얼마인지 사진을 찍어서 분석했다. 이렇듯 데이터로 사용할 수 있는 것은 무궁무진하다. 모든 것이 데이터가 될 수 있다.


 우리는 누구나 거짓말을 한다. "당신은 이번 달에 몇 권의 책을 읽었나요?"라고 물어본다면 책을 펴 본 적조차 없으면서 "한 권은 읽었죠."라고 대답할 것이다. 그리고 이것은 익명성이 보장되는 설문조사에서도 마찬가지일 것이다. 아래와 같은 질문에 어떻게 답변할 것인가?


시험에서 부정행위를 한 적이 있습니까?

누군가를 죽이는 상상을 한 적이 있습니까?


아마 대부분의 사람들은 "아니오"라고 답할 것이다. 한 번이라도 시험에서 부정행위를 했고, 누군가를 죽이는 상상을 했지만 말이다. 설문조사로는 사람들의 진실한 생각을 얻을 수 없다. 그런데 디지털 세계에서는 자신들의 속마음과 욕망을 털어 놓는다. 구글 검색과 포르노 검색을 자세히 살펴보면 남들에게 들켜서는 안 될 법한 생각을 디지털 세계에다가는 털어 놓는다. 겉으로 드러내기 힘든 생각을 인터넷에서는 걱정없이 검색할 수 있다. 우리의 비밀을 인터넷이 모두 알고 있다는 사실에 암울할지도 모른다. 하지만 이러한 '디지털 자백약'이라는 특성 때문에 어려움에 처한 사람들을 더 민감하게 알아차릴 수 있다. 가정폭력을 당하는 아이들이 쉽사리 신고를 하지 못한다고 하더라도 디지털 데이터를 통해 아이들이 고통받고 있는 사실을 알아낼 수 있다. 즉, 빅데이터를 잘 활용하면 드러나지 않는 생각을 들여다 볼 수 있다.


빅데이터는 데이터 세트의 작은 부분을 클로즈업해서 자세히 들여다 볼 수 있다. 데이터를 통해 인간의 행동을 이해할 수 있다. 어떤 남성이 특정 야구팀의 팬이 되는 이유를 데이터를 이용해 들여다보면 남성이 여덟 살 소년이었을 때 해당 야구팀이 우승을 할 경우 그 야구팀의 팬이 될 확률이 가장 컸다. 올림픽 하키 결승전 동안 사람들의 물 소비 패턴을 분석하면 경기가 시작하면 물 소비량이 급감하고, 경기가 종료되면 물 소비량이 급증한다. 사람들이 하키 경기에 집중하다가 쉬는 시간이 되면 화장실을 가기 때문이다. 폭력적인 영화가 범죄를 유발시킨다고 생각하지만 폭력적인 영화가 흥행한 주말에는 오히려 범죄율이 떨어졌다. 왜냐하면 실제로 범죄와 밀접한 관련이 있는 것은 알코올이기 때문이었다. 영화관에서는 술을 팔지 않기 때문에 범죄율이 올라가지 않았다. 데이터를 클로즈업하면 사람들이 어떻게 움직이는지 상상할 수 있다.


데이터를 기반으로 상관관계를 쉽게 밝혀낼 수 있다. 하지만 인과관계는 그렇지 않다. 하루 적정량의 음주습관과 건강은 꽤나 상관관계가 있다고 한다. 그러나 이 사실이 적정량의 음주가 건강하게 만드는지, 아니면 건강한 사람이 매일 적정량의 음주를 하는지를 알려주지는 못한다. 인과관계를 더 명확히 할 수 있는 방법은 무작위 대조 실험이다. 디지털 세상에서는 이 실험을 정말 쉽게 할 수 있다. 이것을 'A/B 테스트'라고 부른다. A와 B 중에 뭐가 더 나은지를 보는 실험이다. 그 예로 구글에서 광고 글에 대해 다양한 실험을 해 본 결과 화살표가 들어가 있는 광고글의 수익률이 가장 높았다. 페이스북 같은 회사는 하루에도 1,000개의 A/B 테스트를 진행한다고 한다. 


통제실험 말고도 자연실험이 있다. 이미 일어난 사건에 대해서 통찰을 얻을 수도 있다. 복권에 당첨된 사람은 단기적으로는 행복하지 않을지라도 장기적으로 행복해진다. 그 이웃은 오히려 불행해진다. 부유해진 이웃에 대한 질투심과 허영심으로 무리해서 사치품을 구입하기 때문이다. 실험을 바탕으로 얻은 이러한 결과들은 우리의 의사결정에 많은 도움을 줄 것이다. 어떤 요소가 결과에 영향을 미치는지, 그렇지 않은지를 판단할 수 있기 때문이다.



이렇게 빅데이터의 장점을 살펴보았는데, 빅데이터를 사용할 때에도 조심해야 할 점이 있다. 차원의 저주라고 하는 것이다. 변수가 너무나 많으면 그 중에 하나는 어떤 현상과 상관관계를 띌 수 있다는 것이다. 나심 탈레브의 책에서 봤던 내용인데, 엄청나게 많은 수의 원숭이가 타자기를 두드리다보면 그 중에 한 마리는 우연히 셰익스피어의 '햄릿'을 완성시킨다. 그럼 그 원숭이는 타고난 작가였던걸까? 비슷한 문제가 빅데이터를 활용할 때에도 자주 등장한다고 한다. (그러한 이유에서 빅데이터로 주가를 예측하는 것은 어렵다고 한다.)


기업이 빅데이터를 더 많이, 잘 활용하게 될수록 우리는 더 많이 삥 뜯기게 될 것이다. 데이터를 활용해 인간의 행동을 이해하고, 어떨 때 돈을 더 많이 쓰게 하는지, 어떻게 하면 수익을 극대화할지를 알아낼 수 있다. 카지노는 데이터를 활용해서 사람들이 어느정도까지 돈을 잃어야 가까운 시일 내에 다시 카지노를 찾을지를 알아냈다.


<모두 거짓말을 한다>를 통해서 빅데이터가 갖는 힘과 부정적인 면을 함께 살펴봤다. 책의 제목처럼 빅데이터를 활용하면 우리가 모두 거짓말을 하고 있다는 사실을 알 수 있게 되었고, 그 내면에 인간의 욕망이 무엇이 있는지, 무슨 생각을 하는지를 빅데이터를 이용해 알 수 있다는 사실을 배웠다. 특히 우리의 직관은 데이터로 밝혀낸 결과와 다른 경우가 많다는 것 또한 알게 되었다. 적절한 데이터를 수집하고 그 데이터를 이용해 세상을 이해하는 능력이 필요하다고 생각된다. 가장 재미 있었던 부분은 마지막 결론이다. 결론을 인용하면서 이 글을 끝마치고자 한다.


따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서, 사람들이 하는 말이 아니라 사람들이 실제로 하는 행동에 따라서 말이다. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸 것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극히 소수니까 (모두 거짓말을 한다, p.324)




함께 읽고 함께 성장해요! 제 글이 도움이 되셨다면 '라이킷'과 '구독하기'를 눌러주세요! '댓글', '라이킷', '구독하기'는 채자까에게 큰 힘이 된답니다!

작가의 이전글 한 분야의 고수가 되어야 한다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari