by 세스 스티븐스 다비도워츠
"우리는 모두 거짓말을 한다 " 이는 우리 모두가 익숙하게 아는 명제다 .
하지만 통계가 거짓말을 한다고 생각하는 사람을 많지 않을 것이다 .
이책은 기존의 통계방식의 부정확함을 얘기함과 동시에 빅데이터의 필요성과 사용법에 대해 설명한다 .
모든 사람은 어떤 대상이나 사건을 보고 스스로의 판단하고 규정합니다 . 힌머리와 주름살이 많은 사람을 보고 나이가 많은 사람이겠구나 추측하기도 하고
외모를 보고 사람의 성격을 판단하기도 합니다 . 의사는 자신이 배운것을 바탕으로 환자의 병을 진단합니다 . 이런 판단들의 기준이 되는 것은 사람의 직관에 있습니다 .
저희들은 살아온면서 모은 경험과 학교에서 배운 지식 이라는 데이터를 통해 이러한 직관을 만들어 냅니다 . 이런한 직관은 훌륭한 판단을 내리는데 도움이 되기도 합니다 .
저희들은 알게모르게 데이터를 활용해서 판단을 내리고있었습니다 . 하지만 직관이 터무니 없는 결론을 내리기도 합니다 .
그이유는 한사람이 얻을 수 있는 데이터는 모든 것을 판단 하기에 턱없이 부족하고 한쪽으로 치우친 정보를 받는 경우가 많기 때문입니다 .
"트럼프는 대선에서질거야" "인종차별은 거의 없어졌어 " 미국인들의 설문조사를 바탕으로 한 말입니다. 미국인들을 대상으로 한 설문조사에서는 트럼프는 대통령이 될 수 없고 인종차별은 점차 사라져가는 걸로 보입니다 .
하지만 현실에서는 트럼프는 대통령이 됐고 인종차별로 일어나는 사건들은 줄어들지 않고 있습니다 . 왜 이런 결과가 나온걸까요?
그 이유는 설문조사가 거짓말을 하고 있기 때문입니다 . 사람들은 익명이 보장되는 설문조사에서도 자신의 속마음이 아닌 자신을 보여주고 싶은 대로 체크를 합니다 . 그래서 성생활과 인종차별 정신병진단 설문에서 자신을 정상인 처럼 보이게 합니다 .
그럼 사람들의 더 깊은 속내를 볼 수 있는 곳은 어디 일까요 ? 가장 많은 사람들이 이용하는 웹사이트 구글의 검색창입니다 . 설문조사로는 인종차별이 줄어들고 있다고 말했지만 niga라는 단어와 "흑인은 게으르다는 문장은 구글에서 계속해서 검색되고 있습니다 . 트럼프의 지지자들은 인종차별 발언을 서슴치 않는 트럼프를 대놓고 지지 할 수 없었고 설문조사에서도 드러나지 않았습니다 .
하지만 트럼프를 가장 지지한 지역에서 흑인차별을 암시하는 단어의 검색빈도가 높은 것을 볼 수 있습니다 .
구글의 검색창에는 인종차별 외에도 통계와는 다른 진실을 보여줍니다 . 미국의 대침체 기간에 실업률이 아동학대에 영향을 미칠 것 이라는 걱정이 있었습니다 . 아동보호 서비스 기관은 학대사건이 줄고 있다고 보고했습니다 .
하지만 구글데이터에서는 "아빠가 나를 때려요 " 같이 아동학대를 암시하는 단어가 급증했습니다 . 뿐만 아니라 '아동학대'나 '아동방임' 같은 단어의 사용빈도가 증가하고 아동사망률이 급증했지만 기존의 통계방식은 이를 보여주지 못했습니다 .
위의 예시들을 통해 저희는 빅데이터가 왜 필요한지 알 수 있었습니다 . 그럼 구글의 빅데이터만 있으면 정확하게 측정하고 예측하는 것이 가능 할것 같다는 생각이 듭니다.
이런 빅데이터를 주식시장에 적용시켜 돈을 벌 수 있을 까요? 실제로는 그렇지 않습니다 . 주식시장에 영향을 미치는 수많은 요소중에서 빅데이터를 통해 상관관계가 있어 보이는 데이터를 찾아 낼 수 도 있습니다 .
하지만 이 상관관계를 이용해서 주식에 투자한다면 손해를 면치못할것입니다 . 주식의 가격은 한가지 요소의 상관관계로 움직이는 것이 아닙니다 , 수 많은 요소들이 가격에 영향을 미치게 됩니다 .
가격에 영향을 미치는 모든 요소들의 상관관계를 분석하는 불가능하고 얼마나 많은 요소들이 가격에 영향을 미치는 지도 알지 못합니다 .
이뿐만 아니라 어떤 검색어가 어떤 결과를 보여주는 인과관계라기보다 간접적으로 암시하는 상관관계라고 볼 수 있습니다 .
빅데이터는 기존의 통계기준을 완전히 대체하는 것이 아니라 서로 상호보안 하는 관계가 되어야 할 것 입니다 .
이책을 통해서 나에게는 생소했던 '빅데이터'의 필요성과 사용하는 방법 그리고 한계를 알 수 있었다 .
책의 각 챕터마다 nba 선수의 성공가능성이나 , 경마장에서 말을 골라내는 법 등 흥미로운 예시들 덕분에 어려울 수 있는 내용을 쉽게 이해할 수 있었다 .
이책을 읽은 이후 구글 트렌드에 들어가서 어려가지 것들의 검색하며 나만의 상관관계를 만들어 보기도 했다 .
물론 저자가 말한것처럼 빅데이터의 한계가 있기때문에 이 상관관계를 굳건히 믿지는 않는다 ㅎㅎ
빅데이터에 대해서 기본적인 것을 재미있게 배우고 싶다면 이책을 추천한다