brunch

You can make anything
by writing

C.S.Lewis

by 마냐 정혜승 Jul 29. 2018

<모두 거짓말을 한다> 데이터의 비밀과 진실

'기대 보다 영양가가 없다', '기대 대로 흥미로웠다'  
이 책에 대한 지인들 반응이 극과 극이었습니다. 그냥 넘어갈까 하다가 궁금하기는 했어요. 게다가 호평이든 혹평이든, 일단 주변에 많이 읽고들 있는거잖아요. 제 점수는요? 야박할 것까지 아니지만 그래도 열광하기는 어렵군요. 데이터를 해석하는 일 자체가 흥미로우니까 기본 점수 들어가고요. 이 데이터가 구글 검색만 기반으로 한다는게 한계입니다. 절반 읽는데 한 시간 좀 넘게 걸렸으니, 후다닥 읽을 수 있다던 L님의 얘기는 맞았어요.

"너무나 많은 기업이 데이터 속에서 헤매고 있다. 엄청난 규모의 정보를 가지고도 정작 중요한 식견은 찾지 못하고 있다".. 네, 여기에 동의합니다. 사실 구슬을 어떻게 꿰느냐, 그걸 어떻게 볼거냐 해석의 문제가 더 중요합니다.

"구글 검색이 귀중한 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문.. 구글에서는 섹스 없는 결혼생활, 정신건강 문제, 불안감, 흑인에 대한 적대감에 관해 다른 곳에서는 내놓기 힘든 정보를 공유한다".. 네. 음란한 상상 혹은 관심을 SNS에 올리지는 않죠. SNS 정보는 상당히 정제된 허영인 경우가 많습니다. 그렇다고 솔직하면 가치가 있나? 어딘가 물어보기 어려운 것만 골라 검색한다는 점에서 과잉 해석될 여지가 있습니다. 제 10가지 관심사 중 9개는 지인에게 묻든, 전문 사이트를 찾든,  나머지 1가지 비밀스러운 호기심을 구글에 묻는다고 해서, 1/10의 그 관심사를 과하게 중요하게 보면 안되잖아요. 저자도 "구글은 부적절한 생각이나 다른 사람과는 의논할 수 없다고 느끼는 생각 쪽으로 편향돼 있다"며 "그럼에도 불구하고 숨겨진 생각을 알아내려 한다면 도움이 된다"고 합니다. 그걸 과평가하는 오류를 경계할 수 밖에 없는데.. 책 홍보는 온통 그걸 내세운 느낌.

넉넉하지 않은 환경보다는 오히려 중산층에서 NBA 스타가 많이 배출된다는 분석은 선수들과 지역, 그 지역 가구 평균 소득 등을 조사한건데.. 상관관계와 인과관계를 다시 생각하게 됩니다. 그리고 설혹 관계가 있다 해도, 어느 정도의 변수인지. 다른 변수는 없었는지, 데이터 분석을 통한 일반화 우려는 없는건지.. 중산층에서 안정적으로 교육받으면 농구든, 뭐든.. 평균 숫자는 많을 수도 있겠죠? 혁신에 노출된 경험 덕분인지 대학가 출신들의 성공률 따지는 것도 마찬가지.

2015년 자가낙태를 찾는 구글 검색이 70만건, 낙태시술병원 검색은 340만건이라는 점은 유의미한 데이터. 옷걸이로 낙태하는 방법을 찾는 검색이 4000건. (오마이갓) .. 이런 데이터는 사회가 곪은 부분을 드러낸다는 점에서 의미가 있다고 봅니다...만, 이후 어떤 실행이 있는지 궁금.. 데이터에서 얻은 인사이트는 그 다음 시민사회의 이슈가 되거나, 정부 정책 개선으로 이어져야 하겠죠.. (미국내 낙태 논쟁 현황을 모르고 하는 소리입니다..)


오바마 전 대통령 연설에서 이슬람을 존중해야 한다고 역설 할 때 마다, 분노만 일으켰답니다. 그런데 구글 검색은 “이슬람계 미국인은 우리의 이웃, 우리의 스포츠 영웅입니다”라고 한 뒤, 이슬람 연관 검색어 1위가 테러리스트, 극단주의자, 난민이 아니라 ‘운동선수’가 됐다는 점을 보여줍니다. 그 다음 연설은 아량의 가치 대신 사람들의 호기심 자극형으로 이슬람을 언급했고, 악의와 분노 검색어 순위가 떨어졌다는데.. 영향을 미친 걸까요?


저자는 자신과 취향과 관심이 비슷한 도플갱어 트윗 계정 찾는 시도도 해봅니다. 불가능하지는 않죠. 의학적으로도 비슷한 ‘도플갱어’를 찾으면, 질병 치료에 도움이 될까요. 근데 취향과 관심사, 세계관이 정말 닮은 도플갱어를 찾으면 과연 좋을지 모르겠습니다. 소울메이트를 데이터로 찾을 수 있다니..


사람들이 어떤 걸 더 좋아하는지, 어떤 화면, 이미지, 슬로건에 더 반응하는지.. 그런 A/B 테스트를 페북은 하루 1000건 진행한다고요. 이 부분은, 저 역시 관심 있는데.. 실행이 참 어렵네요.. 국내 광고계가 이런 테스트를 하고는 있는지 궁금..


명문고 갔다고, 그 바로 아래 학교 간거나 별 차이는 없더라는 ‘엘리트 환상’도 데이터를 통해 확인된다는데, 사실 사람들이 경험한 몇 몇 사례를 통해 일반화하는 것보다야 나을텐데..


스스로 ‘데이터 주의자’라고 생각하고, 데이터를 통해 일하고 싶다는 생각을 한지 오래됐습니다. 이 책 덕분에 오랜만에 찾아본 2011년 리뷰입니다.


사실 데이터가 어떻게 활용되는지 이미 2010년 미국에서 나온 책입니다. 2018년에 이 책에서는 저것보다는 훨씬 더 사례가 많아야 하지 않나 싶기도 하고. 책의 저자가 데이터 학자이니까, 접근이 다르겠지만, 뒷 부분에서 언급되는 데이터와 윤리 대목도 2010년 고민에서 더 나아간 것으로 보이지는 않습니다. 실제로는 대용량 데이터를 제대로 분석해주는  AI 덕분에 확실히 달라지고 있을텐데요.


저자가 단 한 시간의 대화만으로도 매료됐던 로렌스 서머스에 대한 묘사는 흥미로운데, 월스트리트의 알고리즘 분석이 훨씬 더 치밀하고 정교할 것이라는 짐작만 기록할 뿐, 그 내용에 대한 연구 혹은 언급이 없는 것도 아쉽네요.


로렌스 서머스는 추천사에서 “‘괴짜경제학’보다 대단하다, ‘머니볼’보다 뛰어나다. 이 훌륭한 책은 빅데이터를 제대로만 다루면 어떻게 세상을 밝히고 움직일 수 있는지를 명쾌하게 보여준다”고 했군요.


저는 그 정도의 찬사를 드릴 수는 없고. 검색어에서 드러나는 속내들을 찬찬히, 앞으로도 더 깊이 끈질기게 봐야 한다는 것도 반반입니다. 포털 실검을 통해 우리는 검색어만의 한계를 이미 알고 있지 않나요. 때로 매우 정확하고, 때로 부질 없는 키워드들.. 무튼, 관심 두고 볼 일입니다.


결론적으로 평소 제 지론에 다시 도달합니다. ‘데이터’는 금맥입니다. 제대로 보고, 해보고 싶어요. 다만 (다들 한 마디씩 하는) ‘빅데이터’는 호들갑 분석이나 시도를 경계합니다. 데이터는 비밀을 드러내기도 하고, 절반의 진실을 보여주기도 하고, 때로 진실을 가리기도 할 겁니다. 잘 봐야죠.

매거진의 이전글 <뉴머러티>도마 위 당신의 모든 흔적들(2011.1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari