2019.08.26에 읽고 적었던 모두 거짓말을 한다
모두 거짓말을 한다 (세스 스티븐스 다비도위츠)
2019년 08월 26일
Dalian, China 가는 중
나는 언제나 거짓말을 한다. 직장동료, 상사, 가족, 친구, 심지어 나 스스로에게도.. 그래서 이 책의 제목을 보자마자 흥미로웠다. 왜 우리들은 거짓말을 하는 것일까? 거짓말에 상처 받기도 하고 안도하기도 한다. 나의 가치 중에 ‘분쟁으로 가지 않기’는 최우선으로 손꼽히는 가치 중에 하나이다. 그래서 거짓말을 한다. 거짓말로 감추는 진실이 나비효과를 불러일으킬까? 고작 별일 아닌 거 같은데? 그래서 이 책을 빨리 읽고 싶었다.
빅데이터를 통해서 사람들이 거짓말을 하고 있다는 것을 알 수 있을까? “원한다면 누구나 거대한 건초 더미 속에서 바늘을 찾을 수 있음을 보여주는 것이다.”그렇다! 사람들의 인터넷 검색으로 얻은 빅데이터는 우리들은 누구에게나, 심지어 자신에게도 거짓말을 한다는 사실이다.
“모두 입을 모아 도널드 트럼프 같은 사람은 대통령이 될 수 없다고 말했다.” 그런데 다들 알고 있지 않는가? 도널드 트럼프가 미국 대통령이라는 것을! 다들 거짓말을 했던 것일까?? 당시 여론 분석 전문가 대부분은 트럼프가 패배할 것이라고 예측했다. 대부분의 사람들은 여론조사 시, ‘클린턴’ 지지 선언을 했거나 ‘아직 결정을 못했다.’고 답하였다.
하지만 빅데이터의 예상은 적중하였다. ‘인종차별적 검색률’이 높은 지역과 ‘공화당 예비선거에서 도널드 트럼프 지지율’이 높은 지역이 같았다. 즉, 오바마 대통령 시절 얻은 ‘인종차별적 검색’ 빅데이터를 통해 “흑인이 백인 미국인 살인 대부분에 책임이 있다”와 같은 인종 차별적 주장을 많이 한 트럼프의 당선이 예측 가능했던 것이다.
“누구나 거짓말을 한다.” 특히나, 설문조사를 시행하면 사람들은 거짓으로 답하고 싶은 유혹을 느낀다. 그리고 거짓말을 한다. 멀쩡하게 보이기 위해서 말이다. 이러한 성향을 “사회적 바람 직성 편향”이라고 부른다. 이로 인해 사람들은 자신이 평균 이상이라고 말하며, 낯선 사람에게 좋은 인상을 주고 싶어 하는 강한 욕구를 느낀다. 이렇게 상당한 오류를 낳는 설문조사 방법에는 사람들이 진실을 말할 ‘유인(incentive)’이 없기 때문이라고 한다.
하지만 빅데이터는 ‘거짓말 탐지기’ 기능을 한다. (책에서는 ‘데이터 자백약’이라 표현한다.)
특정한 온라인 소스는 사람들로 하여금 다른 곳에서는 인정하지 않는 것을 인정하게 한다. 빅데이터는 디지털 자백약으로서 기능한다.
그 이유는 다양하다. 온라인이라는 공간에서 혼자서 여러 가지를 검색한다. 또한 설문조사와 달리 관리자가 없다. 특히나 온라인 검색이 가지는 커다란 이점은 ‘유인’이다. 설문조사에서는 사실대로 말할 필요가 없다. 하지만 구글에는 묻고 싶은 것, 알고 싶은 것을 검색하고, 사실대로 물어볼 강력한 유인이 있다. 그래서 데이터 과학자들은 구글 검색 빅데이터를 통해 항상! 누구나! 거짓말을 한다고 강력하게 주장할 수 있을 것이다.
디지털 자백약은 대체로 세상이 우리 생각보다 좋지 못하다는 것을 보여줄 것이다.
우울하고 충격적인 사실이 많다. 하지만 디지털 자백약의 혜택으로부터 우리의 삶을 개선할 수 있는 방법 또한 있다. “첫째, 불안에 잠기고 당혹스러운 행동을 하는 게 나 혼자만은 아니라는 사실을 알고 안도할 수 있다.” 나처럼 남들도 다 부족한 부분이 많다. 그러니 창피하다고 질문을 못 할 이유가 없다. 다 생각하는 게 거기서 거기다.
“디지털 자백약의 두 번째 혜택은 이를 통해 어려움에 처한 사람들을 민감하게 알아차릴 수 있다는 점이다.” 사람들의 검색을 통해서 아동학대가 더 많이 일어나는 지역을 알아낼 수도 있다. 마지막 혜택은 “문제에서 해답으로 우리를 이끌어주는 능력이다.” 빅데이터를 통해 다양한 상관관계와 인과관계를 도출하여 “세상에 끔찍한 사고방식이 퍼지는 것을 줄이는 길을 찾을 수 있다.”
데이터가 많으면 많을수록 좋다. 하지만 차원의 저주에 걸릴 수 있다. “새로운 데이터 세트는 대체로 종래의 데이터 소스에 비해 기하급수적으로 많은 변수를 제공하기 때문이다. 빅데이터 소스를 이용해서 시장을 예측한다고 주장하는 많은 사람이 이 저주에 걸려 있다.”
인디애나대학교와 맨체스터대학교의 컴퓨터 과학자들은 사람들의 트윗을 근거로 그 날의 감정과 다우존스 산업평균지수의 상관관계를 분석했다. 하지만 그들은 너무 많은 것을 실험했다. “임의로 충분히 많은 것을 실험하다 보면 통계적으로 유의미한 결과가 하나는 나오게 마련이다. 그들은 많은 감정을 실험했다.... 그러고 이 모든 변수로 단 몇 개월간의 다우존스 등락을 설명했다.”
나는 빅데이터의 개념도 모른다. 말로만 들었을 뿐이다. '요즘 빅데이터는 알아야 해~', '4차 혁명에는 빅데이터를 모르면 안 돼~'라는 말을 종종 들었다. 이 책을 읽으면서도 정확하게 개념을 성립하지 못하였다. 하지만 설문조사에는 거짓이 많았다는 것, 지금은 구글 검색과 같은 빅데이터를 통해 더욱 진실한 데어터 베이스를 구축할 수 있다는 것을 알게 되었다. 사람들이 ‘왜 거짓말을 하는지’를 생각하다 보면 상관관계와 인과관계의 옳고 그름을 정확에 가깝게 구분할 수 있을 것 같다. 우선 내가 왜 거짓말을 하고 있는지, 그 상황을 면밀히 살펴봐야겠다.