빅데이터가 보기에, 인간은 <모두 거짓말을 한다>
읽은 책이 내 머릿속에 남아 있는 유효기간은 대체로 한 달 정도다. 만든 책이야 5번 이상 읽게 되니 조금 더 오래 남아 있지만, 대개 한 번씩만 읽는 독서용 책은 한 달을 넘기기 어렵다. (그래서 브런치를 해야겠다 싶기도 했다. 이 긴 리뷰를 쓰려면 한 번 정도는 다시 훑어봐야 하니까.) <모두 거짓말을 한다>는 여름휴가 갔다와서 읽은 책인데 일이 바쁘다고 리뷰를 미뤘더니 다 까먹... 어쩔 수 없이 며칠에 걸쳐 다시 읽었는데, 다행히 페이지를 펼치면 내용이 얼추 기억났다. 메시지는 물론이고 그냥 자체로 엄청 재미있는 책이기 때문.
<여기에 당신의 욕망이 보인다>를 시작으로 빅데이터를 매개로 한 책을 몇 권 만들 기회가 있었다. 한국의 대표적인 데이터분석가로 손꼽히는 송길영 저자의 <상상하지 말라>도 그렇고, 시리즈로 내는 <트렌드 노트>도 빅데이터가 기반이다. 빅데이터의 매력은 숫자 자체가 아니라 거기서 사람들이 실제로 어떻게 행동하는지 읽어내는 데에서 나온다. 요컨대 읽는 사람의 시각과 이해도가 중요하다. 그런 면에서 이 책은 어떤 이야기를 하나 하는 막연한 호기심과 괜한 친근감(?)에 집어들었는데, 또 새로운 시각을 접할 수 있었다.
이 책에서 말하는 빅데이터의 힘은 크게 4가지다.
새로운 유형의 데이터 제공 : 프로이트라면 군침을 삼킬 빅데이터가 지금은 아주 많다. 불과 20년 전에도 없었던 새로운 데이터다.
솔직한 데이터 제공 : 인종주의, 성차별 등 온갖 민감한 사안에 대해 빅데이터는 솔직한 데이터를 제공한다. (내 생각에 이건 저자가 ‘구글검색’ 데이터를 활용해서 더 그런 것 같다. 검색창에 거짓말하고 허세 부리는 사람은 없을 테니.)
작은 집단도 클로즈업해서 볼 수 있다 : 화소가 큰 이미지는 확대해도 잘 보이듯이, 데이터가 워낙 방대하고 촘촘하기 때문에 국가 단위뿐 아니라 더 작은 집단에 대한 데이터, 지난 1년이 아니라 지난 주말 3시간 동안의 데이터를 구할 수 있다. 범죄예방, 질병예방 등에 실제로 효과적인 데이터는 이렇게 ‘클로즈업’한 데이터다.
인과적 실험의 실행 가능성 : 흔히 인풋과 아웃풋 간의 상관관계는 알아도 인과관계까지 밝히기는 어려운데(제품이 잘 팔린 데 광고투여의 효과가 몇 퍼센트나 기여했는지 아는 분?), 빅데이터를 활용하면 인과관계를 밝힐 수 있다. 흔히 말하는 A/B테스트도 그중 하나다.
1.2번은 빅데이터의 효용으로 익히 알려진 내용이라 처음엔 ‘음, 그렇지’ 하며 읽었는데 소개되는 주옥같은 사례들은 그 자체로 우리가 사는 문명사회에 대해 다시 생각하게 한다. 예컨대 포르노사이트에서 남성들이 검색하는 100대 검색어 중에 16개가 근친상간을 주제로 한 것이라고 한다. 포르노사이트에 들어가는 사람들이 애저녁에 그런 부류라고 치부하기에는, 구글검색에도 이런 검색어가 많다는 데 충격이 있다. 프로이트가 탐낼 만한 데이터가 아닌가.
선거기간 동안 인종혐오 검색이 많은 주에서는 오바마가 예상보다 저조한 득표를 얻었다고 한다. 물론 누구도 오바마가 흑인이어서 싫다는 말은 하지 않았지만(그러니 예상득표가 높게 나왔겠지), 구글창에는 진심을 넣고 있었다는 것이다.
더 충격적인 것은 부모들이 구글창에 ‘우리 아들이 천재인가요?’를, ‘우리 딸이 뚱뚱한가요?’를 묻는다는 것이었다. 어릴 때에는 대개 여자아이가 말문이 빨리 트이고 발달도 빠른 편인데 아들의 영특함만 눈에 들어오고, 미국 남아의 비만율이 여아보다 높은데도 부모 눈에는 오직 딸이 뚱뚱해서 걱정인 것이다. 이런 편견을 자신이 갖고 있다고 생각할 부모는 아마 없겠지만, 구글은 진실을 자백하게 한다.
낙태를 어렵게 하는 법이 통과된 주에서는 자가낙태 검색이 월등하게 높다. 금융위기 시절 아동학대 신고건수가 늘지 않아 많은 이들이 안도했지만, 구글검색에는 ‘아빠(엄마)가 날 때려요’라는 글이 실업률만큼 빠르게 증가했다고 한다. 아동학대 신고 건수가 줄었던 것은 그 일을 처리할 사회복지사들도 구조조정됐기 때문이다. 이 온갖 반갑지 않은 진심과 진실에 입이 매우 썼다.
어찌됐든 흥미로운 책인 것은 분명하다. 쎈 사례들이 앞부분에 주로 포진해 있지만, 뒤로 간다고 내용이 힘을 잃지 않는다. 오히려 ‘이런 것도 된다고?’ 하며 구미 당기게 하는 얘기는 뒤에 더 많은 듯. 데이터를 클로즈업하면 내 도플갱어를 찾을 수도 있고(슬럼프인 선수를 방출시킬지 기다려줄지 애매할 때에는 과거에 이 선수와 데이터가 흡사한 도플갱어 선수를 찾아보면 된다. <머니볼>의 세계에서 한발 더 나아간!), 8세 때의 우승팀을 평생 응원하게 되고 18세 때 인기정치인이 속한 당을 평생 지지하게 된다는 소소한(?) 자료부터, 가난한 동네의 기대수명은 그 동네에 부자들이 얼마나 사는지에 따라 달라진다는(뉴욕 빈민이 디트로이트 빈민보다 오래 산다) 쩝쩝스런 결론도.
4장의 인과관계는 더 흥미롭다. 흔히 상관관계와 인과관계를 혼동하는 분석도 많고, 데이터 분석에서는 대개 상관관계를 밝히는 정도에 그치는 것 같았는데 여기서는 인과관계를 밝히는 데 과감히 도전한다. 예컨대 ‘명문학교가 개인의 성공에 중요한 영향을 미치는가?’ 같은 주제. 하버드와 펜실베이니아주립대학 졸업생들의 10년 후 연봉은 12만 3000달러대 8만 7800달러라고 한다. 학교와 연봉의 상관관계가 뚜렷하다. 그러나 이것이 인과관계를 암시하지는 않는다. 그 학교에 갔기 때문에 높은 연봉을 받는지는 설명하지 못한다는 것이다.
뉴욕에 스타이버선트 고등학교라는 명문공립학교가 있다고 한다. 부유하지 않은 아이들이 신분상승을 꿈꾸며 도전하는 곳이라 하는데, 경쟁이 하도 치열해 1점 차이로 떨어지는 사람들은 ‘그때 내가 붙었더라면 지금 이렇게 살지는 않을 텐데’ 하는 회한을 평생 갖기도 한다고 한다. 우리도 그런 사람 많을 거다. 그날 컨디션만 좋았으면!!! 지금 내가 요 모양 요 꼴로 살지는 않을 텐데, 하는 사람들. 그래서 실험을 해봤다고 한다. 1점 차이로 떨어진 사람과 커트라인에 걸쳐서 붙은 사람들. 실력이 고만고만한 이 사람들이 나중에 어떻게 됐을까.
놀라운 결과는 그들이 논문에 붙인 제목에서 명확하게 드러난다. 논문 제목은 <엘리트 환상>이었다. 스타이 효과? 그런 것은 전혀, 아예 존재하지 않았다. 커트라인에 가까운 학생들은 거의 비슷한 AP 점수와 SAT 점수를 받았으며, 입학한 대학의 순위도 거의 차이가 없었다.
연구자들은 스타이 학생들이 다른 학생들보다 인생에서 더 많은 성과를 올리는 이유는 좋은 학생이 스타이버선트에 입학하기 때문이라는 결론을 내렸다. 스타이는 당신이 더 높은 AP 점수를 받고, 더 높은 SAT 점수를 받고, 더 좋은 대학에 입학하게 만들어주는 ‘원인’이 아니다.
이 경제학자들은 이런 글을 남겼다. “입학시험을 위한 치열한 경쟁은 광범위한 학생들에게 제공되는 더 나은 교육으로 정당화되지 않는 것 같다.”
같은 방식의 다른 실험에서도 하버드에 붙었으나 펜실베이니아대학으로 진학한 사람들은 나중에 하버드 졸업생과 비슷한 수입을 올렸다고 한다. 애초에 학생의 재능이 원인이지, 학교가 원인이 아니라는 것이다. 그런데도 언론이나 책에서 성공한 하버드 졸업생만 많이 보여주고 성공한 펜실베이니아 졸업생은 많이 보여주지 않아서 잘못된 인과관계가 상식인 양 통용되는 듯하다. <정해진 미래>를 만들면서 아이에게 대학을 강요하는 게 어리석을 수 있겠다 싶었는데, 이 책에서 생각을 더 굳히게 된다. 학벌은 과정일 뿐.
물론 책에서 빅데이터 찬양만을 하는 것은 아니다. 얼마나 모여야 ‘빅’인가 하는 의문부터, 누군가 살인방법을 검색한다면 이를 파악하고 미리 그를 검거할 수 있는가 하는 것까지, 실제적이고 윤리적인 차원에서 풀어야 할 문제는 많다. 그러나 분명한 것은, 어찌됐든 데이터는 빅이 됐고, 그걸 어떻게 다루느냐에 따라 세상이 다르게 움직일 거라는 것. <괴짜경제학>을 오마주하면서도 저자는 ‘레빗이 이름을 떨친 1990년대에는 이용할 데이터가 많지 않았고, 그는 데이터가 존재하는 중요한 문제를 대부분 외면했다’고 말한다. 하지만 오늘날은 인간으로 존재한다는 의미에 관한 각종 심오한 문제를 데이터를 기반으로 접근할 수 있다고 말한다. 데이터 분석의 미래를 낙관하며, 저자는 이렇게(까지) 단언한다.
차세대 킨제이는 분명 데이터 과학자일 것이다.
차세대 푸코는 데이터 과학자일 것이다.
차세대 마르크스는 데이터 과학자일 것이다.
차세대 소크(Salk)는 데이터 과학자일 것이다.
나 또한, 거창한 표현 정도로 느껴지는 ‘사회과학’이 데이터를 통해 답을 찾고 검증되고 반복 관찰할 수 있는 ‘진정한 과학’일 수 있다는 점에 저자의 주장에 수긍이 갔다. 누가 어떻게 쓰느냐의 문제일 뿐. 10여 년 전에 유행한 심리실험 책을 읽을 때 느꼈던 ‘사례 읽기’의 재미를 만끽한 즐거운 독서였다. 특히 난 에필로그가 인상적인 책을 좋아하는데, 그 점에서도 꽤 흡족하다 ㅋㅋ