독서노트 #61 < 모두 거짓말을 한다 >
최고의 데이터 과학은 사실 놀랄 만큼 직관적이다.
무엇이 데이터 과학을 직관적으로 만들까? 데이터 과학의 본질은 패턴을 알아차리고 하나의 변수가 다른 변수에 어떤 영향을 줄지 예측하는 데 있다. 사실 사람들은 늘 이런 일을 하며 산다.
- p43
이 책 <모두 거짓말을 한다>는 제목부터 엄청난 궁금증을 유발한다. 우리가 거짓말을 한다고? 무슨 거짓말?
저자 세스 스티븐스 다비도위츠는 하버드대학교 경제학과 박사과정에 있으면서 특정 검색어의 추세를 보여주는 '구글 트렌드'를 연구하다가, 겉으로 드러나는 양상과는 전혀 다르게 실제 사람들의 심리가 드러나는 검색어의 이면을 발견했다고 한다. 저자의 연구 성과가 세계적인 학술지에 실렸고, 구글은 저자를 데이터 과학자로 채용했다고 한다. 이 책은 구글 트렌드로 밝혀낸 사람들의 내면의 욕망을 보여준다.
데이터 과학자의 목표는 세상을 이해하는 것이다. 직관과 어긋나는 결과를 얻으면 우리는 데이터 과학을 이용해서 세상이 겉으로 보이는 것과 왜 다른지 설명한다.
- p55
사람들은 알게 모르게 자신을 둘러싸고 일어나는 일들에 대해, 그리고 자신의 성향과 주변 사람들에 관해 어떠한 데이터들을 인지하고 분석하고 예측하는 일들을 자연스럽게 한다. 하지만 데이터 과학자는 일반 개인과 다르다. 개인은 개인의 삶으로 시야가 좁혀진 관점이지만, 데이터 과학자는 더 큰 그림을 찾고자 세상의 겉과 속이 어떻게 달리 보이는지 그 이면을 설명하기 위해 분석한다.
엄청난 데이터 더미가 있다고 해서 식견이 자동으로 만들어지지는 않는다. 데이터의 크기 그 자체는 과대평가되고 있다. 그렇다면 빅데이터가 왜 그렇게 큰 힘을 갖는 것일까? 왜 빅데이터가 우리 자신을 보는 방법에 혁명을 일으킨다는 것일까? 나는 빅데이터가 그것만의 독특한 네 가지 힘을 갖고 있다고 생각한다.
...
새로운 유형의 데이터 제공이 빅데이터의 첫 번째 힘이다.
솔직한 데이터 제공은 빅데이터의 두 번째 힘이다.
작은 집단도 클로즈업해서 볼 수 있는 것이 빅데이터의 세 번째 힘이다.
인과적 실험의 실행 가능성이 빅데이터의 네 번째 힘이다.
- p72
기존의 사회과학자들이나 연구자들은 데이터를 취득하는 방식부터가 새롭지 않다. 그러다 보니 구글 트렌드처럼 새로운 유형의 데이터를 발견하기 위해서는 전형적인 설문조사에서부터 벗어나야 할지 모른다. 또한, 저자가 발견한 것은 바로 인간 내면의 솔직함이다. 데이터를 분석하는 방법을 모르는 사람은, 최초에 데이터의 이면을 볼 수 있는 접근 자체를 생각해내기 어렵다. 데이터를 보더라도 유의미한 결과를 도출하기 위해 어디서부터 비교, 분석해야 하지 모를 수도 있다. 저자는 데이터와 늘 함께 했기 때문에 이러한 인사이트를 얻었을 것이다.
데이터 과학자들이 세이더의 기획에서 무엇을 배울 수 있을까?
우선, 가장 중요한 점은 어떤 분야에 혁신을 일으키기 위해 새로운 데이터를 이용하려 할 때는 기존의 방법이 형편없는 분야에 들어가는 것이 가장 좋다는 사실이다. ...
두 번째 교훈은 어떤 모델이 예측이 효과적인 이유에 관해서는 지나치게 많이 생각할 필요가 없다는 점이다. ... 예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지 알 필요는 없다.
- p91
세이더라는 사람이 경주마들의 말을 평가할 때 전통적인 방법이 아닌, 오로지 데이터에만 관심을 쏟아 남들과는 다른 성과를 낸 예시가 나왔다. 어떤 것을 예측하는 방식에 개선의 여지가 많은 분야일수록 새로운 데이터가 들어가기에 적합한 것에 동의한다. 나는 사실 데이터 과학에 관심이 많은 편이다. 어떤 업무를 할 때도 데이터 기반으로 과거와 현재를 파악하는 일, 그리고 미래를 예측하는 일을 좋아했다. 최근 스타트업에서의 경험에서도 기존 시스템이 데이터 분석을 일절 고려하지 않는 환경으로 구축되어 있어서 적지 않게 충격을 받았지만, 오히려 그 기회를 틈타 데이터를 분석하고 차근차근 설계했던 경험이 있다.
위에서 말하는 두 번째 교훈은 약간 충격적이었다. 예측에 어떤 것이 효과가 있는지만 알면 되고, 그 이유까지 알 필요가 없다는 것. 사실 데이터를 다루다 보면 이런 상황을 적지 않게 경험한다. 분명 A방식이 효과적인 것을 테스트 결과로 인지했는데, 그 이유를 찾을 수 없을 때 나의 궁금증은 거기서 끝나질 않았다. 그래서 늘 파고, 또 파게 되었다. 하지만 때때로 그 결과를 얻지 못할 때도 많았다.
구글에서 광고로 클릭하는 화살표 모양을 A/B 테스트한 후, 특정 이미지가 클릭률이 높다는 결과를 얻어 그것으로 바로 적용했다는 얘기를 예전에 들은 바 있다. 왜 그 이미지가 영향을 더 주는지는 파악할 필요가 없는 것이다. 그저 목적에 맞게 더 효과적인 방식을 빨리 택하는 것이 어쩌면 상황에 맞는 대처 일지 모른다.
모든 현상에 대해 그 원인을 다 분석하려고 애쓸 필요가 없다는 사실을(사실은 불가능할 지도 모른다는 사실을), 나는 이 책을 통해 머리를 다시 한번 얻어맞고 정신 차린 격이다.
인간이 만드는 가설은 즐거움을 줄 수도 스스로를 고문할 수도 있다. 저 남자 또는 저 여자에게 적극적으로 구애했더라면 내 인생은 어떻게 달라졌을까? 저 직업을 택했더라면? 저 학교에 갔더라면? 하지만 그랬더라면 어땠을까 하는 질문에는 답이 없다. 인생은 비디오 게임이 아니다. 원하는 결과를 얻을 때까지 계속 다른 시나리오로 게임을 다시 할 수 없다.
체코 태생의 작가 밀란 쿤데라는 그의 소설, <참을 수 없는 존재의 가벼움>에서 이에 관해 간결하면서도 함축적인 말을 남겼다. "인간의 삶은 단 한 번뿐이다. 우리가 내린 결정 중 어떤 것이 좋고 어떤 것이 나쁜지 결정할 수 없는 이유는 주어진 상황에서 한 가지 결정밖에 할 수 없기 때문이다. 우리에게는 여러 가지 결정을 비교할 수 있는 두 번째, 세 번째, 네 번째 삶이 없다."
- p267
<참을 수 없는 존재의 가벼움> 책은 등장인물들의 캐릭터와 그들 관계에 있어서 인간의 운명 그리고 삶에 대해 많은 생각을 하게 만드는 책이다. 우리는 '삶'을 두 번 살 수 없다. 설령 윤회사상을 믿는다 하더라도, 우리는 전생과 후생을 알 수 없기에 현생과 비교할 수도 없다. 인간의 삶은 단 한 번뿐이다. 하지만 종종 우리는 그러한 사실을 인지하지 못하고, 후회에 대한 가정을 많이 하곤 한다. 이랬더라면 달라졌을까, 저랬더라면 행복했을까. 저자의 말처럼 인생은 원하는 결과를 얻을 때까지 다른 시나리오로 다시 할 수 있는 게임이 아닌 것이다. 일어나지도 않은 일, 일어날 수도 없는 일에 대해 미련과 가정의 환상을 버리고, 현재에 집중하는 삶의 태도가 가장 중요하지 않을까 싶다.
이 책의 제목은 '모두 거짓말을 한다'이다. 여기서 내가 의미하는 바는 사람들이 자신의 모습을 더 낫게 보이게 하기 위해서 친구에게, 설문조사에, 스스로에게 거짓말을 한다는 것이다.
하지만 세상 역시 오해의 소지가 있는 불완전한 데이터를 제시하는 방법으로 우리에게 거짓말을 한다. 세상은 우리에게 많은 수의 성공한 하버드 졸업생을 보여주고 성공한 펜실베이니아 졸업생은 많이 보여주지 않는다. 그렇게 해서 우리는 하버드에 가는 것이 대단히 유리하다고 생각하게 된다.
- p274
SNS에 자신의 추한 모습을 자랑하는 사람은 없다. 성공한 사람들은 자신의 실패도 미화시킬 수 있는 기회를 갖게 된다. 개인뿐만 아니라 조직과 사회 역시 진짜 속내를 감추고, 보여주고 싶은 모습만 드러내는 것은 어쩌면 당연한 현상일지도 모른다.
항상 어떠한 정보를 얻거나 어떠한 현상의 결과를 직면하더라도, 그 이면을 보려는 열린 마음과 다양한 관점으로 생각할 수 있는 태도가 필요할 것 같다.
내가 판단하기에 최고의 결론은 표면 바로 밑에서 늘 맴돌고 있던 중요한 사실을 표면으로 부상시키는 것이다. 이 책의 요점은 사회과학이 진정한 과학이 되고 있다는 것이다. 이 새롭고 실제적인 과학은 우리의 삶을 향상시킬 준비를 하고 있다.
- p311
자연과학이 페니실린, 인공위성, 컴퓨터를 만들어 우리 삶을 바꾸기까지 시간이 걸렸다. 빅데이터가 사회과학과 행동과학을 우리가 사랑하고, 배우고, 사는 방식에 중요한 방향으로 이끌기까지는 시간이 걸릴 것이다. 하지만 나는 그러한 발전이 반드시 이뤄지리라고 생각한다.
- p319
저자는 빅데이터가 폭로하는 사실들을 바탕으로 하는 혁명이 일어날 것이라고 내다보고 있다. 특히 우리가 지금까지 알고 있는 물리학자, 화학자, 생물학자와 같은 자연과학자들만 과학자로서 인정받는 것이 아닌, 경제학자, 사회과학자, 심리학자들도 충분히 실제적인 과학의 형태로 우리의 삶을 발전시킬 것이라 믿고 있다.
이 책이 주장하는 바 중 하나는 빅데이터가 인도하는 길을 따르고 그에 따라 행동해야 한다는 것이다. 나는 독자들이 내가 쓴 모든 말에 잘 따라오고 뒤 내용을 앞 내용과 연결하는 패턴을 감지했기를 바란다. 하지만 내가 글을 가다듬기 위해 얼마나 노력을 했건, 대부분은 첫 50페이지를 읽고 몇 가지 요점을 받아들인 뒤에 일상으로 돌아가버릴 것이다.
따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서, 사람들이 하는 말이 아니라 사람들이 실제로 하는 행동에 따라서 말이다. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸 것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극히 소수니까.
- p324
이 책의 마지막 페이지 부분이다. 내가 이때껏 어느 책에서도 보지 못했던 패턴의 결말이다. 데이터 과학자답게, 이 책을 끝까지 보는 사람들이 적을 테니, 사람들이 하듯이 책을 여기서 마무리 짓고, 맥주를 한잔 하러 간다니 이 어찌 황당하고 웃기지 않을 수 있겠는가.
이 책은 데이터 분석과 사람의 심리, 그리고 마케팅과 관련된 미래 트렌드에 대해 관심이 많은 사람일수록 끝까지 읽었을 것 같다는 생각이 든다. 그리고 현상에 대한 이면에 궁금증이 많은 사람일수록 책의 마지막 페이지까지 갔을 확률이 높고, 그게 아니라면 책을 중간에 덮거나 이해 안 돼도 눈으로만 읽었을 가능성이 높을 것이다. 이런 분야에 관심이 없는 지인들이 읽는 패턴을 보니, 저자의 데이터 분석이 틀리지 않은 것 같다.
* 책 제목 : 모두 거짓말을 한다
* 저자 : 세스 스티븐스 다비도위츠
* 출판사 : 더퀘스트
* 출간일 : 2018년 6월 17일