빅데이터의 함정
아무리 익명이라 해도, 자신에게 불리한 속마음을 드러내는 설문조사에 과연 사실대로 답하는 사람이 얼마나 될까요?
삶의 시간이 늘어날수록 한 가지 공통적인 견해가 고착화 되어가는것을 알 수가 있습니다.
인간의 가식은, 말 그대로 혀를 내두를 정도라는 것이 그것이죠.
대개 진실은 추하고, 치사하며, 때로는 사악하기까지 하다는 것을 인정하는 일이 결코 쉽지는 않습니다.
나름대로 쌓아온 개인적인 데이터에 따르면,
스스로를 판단하는 사람들(대부분은 긍정적으로 평가한다)의 말은 그 평가를 뒷받침하는 일정 기간의 일관된 행위가 수반되지 않는 한 별로 믿을 것이 못 된다는 것입니다.
인터넷의 발달로 급속도로 축적되는 검색 데이터는
인간이 감추고 싶어 했던 민낯을 고스란히 드러내 줍니다.
겉으로는 그럴듯하게 꾸며 놓은 SNS 속 모습과
무의식이 투영된 검색 기록 사이의 괴리는 때로는 섬뜩할 정도죠.
수많은 거짓말은 인간의 본성을 이해하는 데 혼선을 가져왔음이 분명해 보입니다.
거짓된 설문조사는 결국 거짓된 이론들을 낳았고,
그 진위를 확인할 수 있는 방법은 오랫동안 마땅치 않았습니다.
이를테면, 이 책에서 언급하는 킨제이나 프로이트가 주장한 성(性)에 대한 이론들이 그렇다고 볼 수 있습니다.
저자는 빅데이터가 이러한 이론들을 검증할 수 있는 새로운 게이트가 될 수 있다고 말합니다.
그리고 그 주장과 실험 결과는 충분히 설득력을 지니고 있다고 느꼈습니다.
사람들은 밥 먹듯이 거짓말을 하지만, 어딘가에는 진실을 흘리고 다니기도 합니다.
과거에는 무심코 내뱉는 말, 혹은 일기장, 책 사이사이에 써넣은 짧은 낙서들에 그것이 담겨 있었죠.
하지만 어쩌다가 마음속을 튀어나온 그 비밀스러운 데이터들 만이라도 한데 모으기란 불가능했습니다.
하지만, 기술의 발달은 마음속에 가두어 둔 이런 비밀스러운 데이터까지 한 곳에 집약시키도록 사람들을 강력하게 유도하는 시스템을 만들어냈습니다.
이것은 경제학자 스콧 갤러웨이가 책 '초 예측 부의 미래(2020)'에서 구글을 신(神)에 비유한 이유이기도 합니다.
인터넷 검색은 몇 날 며칠을 기도해도 얻을 수 없었던 답을 딜레이 없이 즉각 내놓았다.
-스콧 갤러웨이(초 예측 부의 미래)-
이제 사람들은 더 이상 자신의 속마음을 다른 곳에 몰래 적어두거나 공중화장실 벽에 갈겨놓지 않습니다.
그들은 검색창에 가족을 죽이고 싶다고, 동성애를 하고 싶다고, 강간을 하고 싶다고, 혹은 당하고 싶다고, 흑인이 싫다고, 이슬람 XXX라고, 시집 잘 간 친구가 짜증 난다고 검색하고 남편이 모유를 먹여달라고 하는 게, 여자들 생식기에서 냄새가 나는 게, 섹스가 너무 하고 싶은 게, 정상이냐고 묻기 시작했죠.
물론 저자는 불안과 초초함을 바탕으로 한 다양하고도 특별한 문제들에 대해 일반화를 시키기엔 무리가 있다는 것을 상기시키고 있습니다.
하지만 전 세계적으로 이런 데이터들이 쌓여갈 때 어떤 것은 인간을 이해하는데 중요한 단서가 될 수도 있다는 것은 틀린 말이 아닐 것입니다.
무엇보다 더 확실한 것은 더 나은(솔직한) 데이터 세트를 얻음으로써 더 나은 데이터 포인트(데이터로 발견한 중요한 결과)를 발견할 수 있게 된다는 것입니다.
이는 저자가 내세우는 빅데이터가 가지는 4가지 힘 중에서 품질 부분에 해당하는 솔직한 데이터의 유입에 관한 것이기도 하고 책의 제목에 대한 주석이기도 합니다.
나머지 세 가지 힘은 다음과 같습니다.
1. 사진 데이터와 같은 새롭고 다양한 데이터의 유입으로 인한 다각화 분석이 가능하다.
2. 기존의 작은 데이터 세트로는 할 수 없었던 거대한 빅데이터 속에 담긴 작은 집단의 데이터 확대 분석이 가능하다.
3. 기존의 많은 비용과 시간을 들여야만 가능했던 인과적 실험이 빅데이터를 통해 급진적으로 개선되어 빠르게 사람의 심리와 행동을 예측함으로써 경제적 사회적 정치적 이익을 얻을 수 있다.
이러한 주장들에 대해서는 주로 일반적인 인간의 직감에 반(反)하는 빅데이터 결과들을 보여줌으로써 신뢰를 확보합니다.
그리고 마지막 한 챕터를 빅데이터의 권력 유착이 가져올 위험성을 경고하는 데이터 윤리 문제에 할애하여 빅데이터에 대해 자칫 한쪽으로 치우쳐 보일 수 있는 견해의 균형을 맞추면서 마무리를 짓고 있습니다.
이 같은 구성은 독자들로 하여금 객관적 시선을 상기시키게 만들면서도 저자의 주장에 대한 설득력을 유지하게 합니다.
분명히 이 책의 자료들은 신빙성이 있고 저자의 빅데이터에 대한 큰 기대는 출간된 지 7년이 지난 2025년 오늘, 그보다 더 큰 파급력을 가지고 AI산업의 핵심 분야로 자리 잡고 있습니다.
하지만 아무리 통계와 숫자가 가지는 객관성에 기댄 글이라 하더라도 글에는 저자의 성향이 담겨있고 긴 글에는 확실히 담겨있기 마련입니다.
따라서 이 진보적 성향을 저자는 데이터를 가지고 정치적 사회적 편견을 유도하기도 합니다.
그러자 위키피디아 등재에 대한 강력한 예측 변수가 하나 드러났다.
이민자 비율이다.
해당 지역에 외국에서 태어난 주민의 비율이 높을수록 그곳에서 태어난 어린이가 주목할 만한 성공을 거두는 비율이 높아진다.
(보고 있나, 트럼프!)
-본문-
이 문장만 보더라도 저자는 트럼프에 대해 강한 반감을 가지고 있음을 알 수 있습니다.
이점은 책 초반부터 인종 문제 등으로 몇 차례 어필되고 있기도 합니다.
문제는 그 점을 교묘히 객관화하기 위해 데이터와 숫자를 이용하고 있다는 것입니다.
위의 문장은 어떤 지역에서 성공한 사람들을 배출하는가의 데이터 분석 결과 중 하나입니다.
트럼프가 이민자들이 문제를 일으킨다는 반(反)이민자 발언을 한 것에 대한 잘못을 지적하기 위해, 실제로는 이민자의 유입이 그 지역의 우수한 인재 양성에 도움이 된다는 객관적인 데이터를 제공하면서, 공개적인 저서 수준에서 아주 강하게 비난하고 있습니다.
하지만 여기에는 함정이 있습니다.
트럼프가 문제 삼은 이민자는 대부분 ‘불법’ 이민자 이기 때문이죠.
따라서 저자는 좀 더 정확한 ‘불법’ 이민자에 관한 데이터를 제공해야만 하지만 예상해 보건대 그것은 저자의 견해를 뒷받침해주지 못할 것입니다.
저자는 대부분 이해하고 수긍할 만한 빅데이터의 결과들을 보여주지만 그 속에 자신의 견해를 뒷받침하도록 하는 몇 가지 편협한 결과를 제공한다고 봅니다.(정치적 성향의 분리와 비분리 분포나 유명 대학 졸업과 수입의 관계 등)
이는 의식하지 않으면 9가지 진실(객관성)의 적당한 위치에 1가지 핵심적인 거짓(주관성)을 끼워 넣음으로써 10가지 모두에 강한 신뢰(객관성)를 얻는 것과 비슷한 효과를 가져옵니다.
자신의 주관적 견해를 객관화시키기 위해 빅데이터의 조건이나 결과를 선택적으로 이용하는 것은 또 하나의 거짓말을 낳는 것입니다.
빅데이터의 부작용을 설명하는 것으로 순작용과의 균형을 유지할 수는 있지만,
그것이 저자의 견해에 대한 객관성마저 보장해 주지는 않습니다.
'모두 거짓말을 한다'라는 제목에는 저자도 포함되어 있다는 것을 기억할 필요가 있습니다.
물론 친절하게도 저자는 에필로그를 통해 독자들이 이 사실을 잊지 않도록 상기시켜 줍니다.
모두 거짓말을 한다.
(자신을 포함한) 어떤 화자든 신뢰할 수 없다.
-본문-