brunch

You can make anything
by writing

C.S.Lewis

by 히말 Nov 19. 2021

거짓말 탐지기, 통계

[책을 읽고]  세스 다비도위츠, <모두 거짓말을 한다>

사람들은 거짓말을 하고, SNS에서 허풍과 과장을 일 삼지만, 검색할 때는 그러지 않는다. 


설문 조사에 따르면, 미국 여성들은 연간 50회 섹스를 하고 콘돔 사용률은 16%라고 한다. 이성애자인 미국 여성이 1.5억 명밖에 안 된다고 해도, 1.5억 * 50 * .16 = 12억 개의 콘돔이 1년에 소비되어야 한다. 남자들의 주장에 따르면 1년에 소비되는 콘돔의 수는 16억 개다. 실제로 매년 판매되는 콘돔은 6억 개도 되지 않는다. 남녀 모두 섹스 횟수를 과장하는데, 남성이 더 심한 것이다.


지난 1년간 섹스를 하지 않았다고 대답한 65세 이하 남성은 1%에 불과하다. 그러나 이 또한 거짓이다. '섹스 없는 결혼생활'은 '불행한 결혼생활'보다 3.5배, '사랑 없는 결혼생활'보다 8배 더 검색됐다.


'깜둥이'라는 단어를 입에 올리는 것은 금기지만, 검색창에서 미국인들은 '깜둥이'를 '편두통'이나 '경제학자'만큼 많이 검색한다. '깜둥이'와 함께 제일 많이 검색한 단어는 '농담'이었다. 도대체 이들은 누구와의 대화에서 '깜둥이 농담'을 써먹으려 한 것일까? 헐리웃 영화에 나오는 주인공 백인 남자의 베프는 거의 언제나 흑인 남자인데 말이다. 최근에 본 영화, <프리가이>에서도 그랬다.



저자의 연구에 따르면, 2016년 공화당 예비선거에서 트럼프 지지율과 가장 강력한 상관관계를 보인 것은 해당 지역 내에서 '깜둥이'가 검색된 횟수였다.


인구집단에 대해 함께 검색하는 단어를 보자. 흑인은 무례하고, 유대인과 이슬람교도, 그리고 게이는 사악하다. 아시아인은 못생겼고, 기독교인은 멍청하다. 검색어 5위권 내에 '테러리스트'가 있는 집단은 이슬람교도뿐이다. 



빅데이터로 뭘 할까


신경망 인공지능의 대표주자 중  하나인 RNN은 흔히 '감성분석'에 사용된다. 네이버 영화평을 입력하면, 영화평이 영화에 대해 긍정적인지 부정적인지를 판별하는 것이다. 이런 게 무슨 소용이 있겠냐고 생각할 수 있겠지만, 영화평 수백만 건을 분석하고자 한다면 사람이 전부 다 읽을 수는 없는 일 아닌가.


그런데 실제로 코딩을 해보면, 집 컴퓨터 수준에서 RNN 감성 분석은 정확도가 90% 이하에 그친다. 이래서는 쓸모가 있다고 말하기 어렵다. 그런데 이 책을 읽다 보니 어떤 사람이 텍스트 감성 분석을 통해 '국민 행복지수'라는 걸 만들었다는 이야기가 나왔다. 즉, 사람들이 인터넷에 쓴 글들을 감성 분석해서 총점을 매긴다는 이야기다.


꽤 괜찮은 아이디어로 보이지만, 저자는 곧 이것이 좋은 생각이 아니라고 말한다. 사람들이 인터넷 공간에 쓴 글이라면 대개 SNS에 쓴 글일 텐데, SNS야말로 거짓이 판치는 공간이다. <신경끄기의 기술>의 저자가 밝히듯, SNS 공간에 사는 사람들은 나와는 차원이 다른 별세계에 산다.


뜻밖의 사실도 있다. SNS 분석 결과에 따르면, 사람들은 부정적인 기사보다 긍정적인 기사에 더욱 공감을 표한다. '피 냄새가 나는 기사는 팔린다(If it bleeds, it leads.)'라는 기자들의 통념에 어긋나는 관찰 결과다.



거짓과 진실


SNS 포스팅, '좋아요' 클릭 수, 그리고 데이트 프로필에는 거짓말이 횡행한다. 반면, 검색, 조회수, 클릭수, 그리고 결제 통계에는 거짓이 개입될 여지가 적다. 저자는 이들 통계를 '디지털 자백약'이라 부른다. 문제는 이것이다. 디지털 자백약이 보여주는 세상은 암울하기 짝이 없는데, 과연 이런 걸 우리가 굳이 알아야 할까? 모르는 게 약 아닐까 하는 생각이 드는 것이다.


그러나 진실은 유용하다. 첫째, 불안한 것이 나뿐이 아니라는 사실에 안도할 수 있다. 둘째, 어려움에 처한 사람들을 탐지할 수 있다. 셋째, 문제를 알아야 해답을 찾을 수 있다. 저자는 세 번째 쓸모를 가장 강조하는데, 결국 진실은 그 자체로 유용하다는 말에 다름 아니다. 우리는 알고 싶은 것이다.



많은 데이터만으로도 좋다


빅데이터의 특징 중 첫 번째는 그냥 양이 많다는 것이다. 다시 말하면, 빅데이터는 쪼개 봐도 될 정도로 크다. 그래서 부분 집합에 대해서도 여전히 통계적으로 유효한 설명을 할 수 있다.


예를 들면 폭력적인 영화가 상영되는 주말에는 폭력 범죄율이 크게 떨어진다. 폭력적인 영화가 폭력을 불러온다는 미디어의 주장과 다른 결과다. 그러나 가만히 생각해 보면 당연한 이야기이기도 하다. 폭력적인 성향을 가진 사람들은 폭력적인 영화를 보려고 영화관에 있을 것이고, 따라서 그들이 그 시간에 폭력 범죄를 저지를 가능성은 낮아진다.


많은 사람들이 경제학자, 사회학자, 심리학자는 진정한 과학자가 아니며, 의미가 모호한 전문용어를 늘어 놓으며 종신 교수직을 얻는 안이한 사람들이라고 생각한다. 그러나 저자에 따르면, 빅데이터의 도래로 이것이 바뀔 수 있다. 이들은 빅데이터에서 자신의 관심영역을 확대해 통계 검증을 할 수 있다. 겨우 50명의 대학원생들을 대상으로 안이한 '실험'을 하는 대신, 훨씬 더 방대한 디지털 데이터를 통해 훨씬 정확한 연구를 할 수 있다.


저자는 <괴짜경제학>을 읽고 영감을 받아 빅데이터를 뒤지게 되었고, 결국 이 책을 쓰게 되었다고 한다. 저자는 이 책이 다른 사람들을 같은 길로 이끌게 되기를 희망한다고 말한다. 그렇게 해서 경제학과 사회학은 더 나은 주장을 할 수 있게 될 것이다. 꼭 그렇게 되기를 나도 희망한다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari