brunch

You can make anything
by writing

C.S.Lewis

by 밸류닥터 구자룡 Jan 21. 2022

사람들의 솔직한 생각을 어떻게 하면 읽을 수 있을까?

모두 거짓말을 한다

모두 거짓말을 한다 : 구글 트렌드로 밝혀낸 충격적인 인간의 욕망, 세스 스티븐스 다비도위츠 저, 이영래 역, 더퀘스트, 2018.

원서 : Everybody Lies


<훔치고 싶은 한 문장>   

디지털 데이터는 중요한, 심지어는 혁명적인 식견을 제공해주는 우리 시대의 현미경이자 망원경 인지도 모른다.

구글 검색이 그토록 귀중한 가장 큰 이유는 데이터가 많기기때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이다.

모든 것이 데이터다. 이 모든 새로운 데이터가 사람들의 거짓말을 꿰뚫어 볼 수 있다.


<리뷰>

데이터의 홍수 속에 살고 있으면서도 사실 실감을 하지 못하고 있다. 데이터를 이용하고 있지만 그게 데이터라고 생각을 하지 못하기 때문이다. 내가 알고 있든, 모르고 있든, 수많은 데이터를 사용하는 사람으로 또 데이터 분석가로 이 책을 읽으며 든 생각은 나를, 우리를 알기 위해서 다시 데이터에 집중해야겠다는 것이다. “데이터 분석의 미래는 밝다.”라고 하지 않는가. 모두가 거짓말을 하지만 그 속에 있는 누군가는 진실을 들여다본다. 내가 볼 수 있다면 얼마나 좋을까? 내가 볼 수 있으려면 어떻게 해야 할까? 데이터의 힘을 다시 느낀다. 이참에 프로그래밍 언어인 R과 Python을 다시 제대로 공부해서 진실을 들여다볼 수 있는 데이터 분석가가 되고 싶다. 앞으로 10년은 더 활용 가치가 있지 않을까?

이 책에서는 빅데이터가 힘을 갖는 이유를 네 가지로 설명한다. 첫째, 새로운 유형의 데이터 제공, 둘째, 솔직한 데이터 제공, 셋째, 작은 집단도 클로즈업해서 볼 수 있는 것, 넷째, 인과적 실험의 실행 가능성 등이다. 이런 빅데이터의 힘은 아직 제대로 구현이 안되고 있다고 생각한다. 이미 빅데이터 세상이지만 그 데이터를 제대로 수집하고 분석하고 활용하는 능력은 일정한 수준에 미치지 못하고 있기 때문이다. 이름하여 데이터 리터러시가 못 따라가고 있다고 생각된다. 이 책을 끝까지 읽는다면 데이터 리터러시 역량을 한 단계 업그레이드할 수 있을 것이다. 이 책의 마지막 부분에 저자는 끝까지 읽지 않는 사람들이 대부분이라는 이야기를 하면서 결론을 제시하지 않고 마무리한다. 아마도 끝까지 읽지 않을 거니까. 나 역시 몇 번 시도 끝에 이번에 완독을 했다. 그래서 앞부분은 여러 번 읽은 꼴이 되었다. 다 읽고 나니 완독 하기를 참 잘했다는 생각이 들었다.

빅데이터의 힘에 대해 예를 들어 하나 설명해본다. 인과적 실험, 즉 원인과 결과를 분석할 수 있는 자연 실험에 대해 언급하고 있는데 무작위 비교 시행, RCT, A/B 테스트 등 익숙하지 않은 이름이지만 빅데이터 세상에서는 너무나 쉽게 실험을 할 수 있다는 점을 지적하고 있다. 디지털 기반의 빅데이터 이기 때문에 자연스럽게 가능한 것이다. 만약 이것을 아날로그 방법으로 진행한다면 실험집단과 통제집단을 임의(무작위)로 나누고, 실험집단에 변경된 어떤 조치를 시행하고, 그 변화를 측정하여 통제집단과 비교하는 분석을 통해 어떤 원인이 결과에 영향을 미쳤는지를 파악하게 된다. 이 과정이 결코 간단하지 않다. 그런데 인터넷으로 웹사이트에 들어온 사용자들에게 기존의 디자인 A와 변경된 디자인 B를 무작위로 노출하고 전환 데이터를 수집하는 A/B테스트를 하면 간단하게 할 수 있다. 그리고 수집된 대량의 디지털 데이터를 바탕으로 바로 비교분석이 가능하다. 미국의 오바마 대통령 후보 시절 이 방법으로 선거자금 후원을 받았다. 페이스북은 하루에도 1천 여 건의 A/B테스트를 하고 있다고 한다. 이게 현실이다. 그런데 나는, 우리 회사는 어떤가? 실험방법 중에서도 가장 단순한 A/B테스트조차 잘 모르고 있다면 데이터 문맹을 탈출하기 위한 노력이 필요하다. 제대로 데이터와 데이터 분석을 공부해야 하지 않을까?

이 책에 계속 언급되고 있는 흥미로운 점 하나는 설문조사와 비교하는 내용이다. 저자는 “빅데이터가 좋은 효과를 발휘하려면 특별한 양념이 필요하다. 우리가 스몰데이터라고 부르는 소규모 설문조사와 인간의 판단이 그것이다.” 그리고 “페이스북처럼 눈부신 성공을 거둔 빅데이터 조직도 때로는 이 책에서 한참 폄하된 정보원인 ‘소규모’ 설문조사를 이용한다.”라고 한다. 빅데이터의 세상이지만 어떤 결과의 이유를 알기 위해서는 폄하된 정보원인 설문조사와 스몰데이터를 들여다봐야 한다는 점을 강조한 말이다.

이 책에서는 빅데이터가 거짓말하는 사람들의 진실을 알 수 있는 측면이 있기도 하지만 의도적으로 거짓말을 하기도 하는 특히 소셜미디어 빅데이터에 휘둘려서도 안된다 점을 제시하고 있다. 그리고 스몰데이터와 설문조사와 같은 방법도 여전히 유효한 도구이고 빅데이터와 상호 보완을 통해 사람들을 더 잘 이해할 수 있다는 점을 강조하고 있다. 전적으로 동의한다.


<기억하고 싶은 문장>

p.12. 매일같이 사람들이 웹을 돌아다니면서 남기는 디지털 발자국을 뒤좇는다. 사람들이 클릭하는 버튼이나 두드리는 키를 통해서 우리가 정말로 원하는 것이 무엇인지, 정말로 무슨 일을 할 것인지, 진짜 누구인지를 이해하려고 노력한다.

p.15. 사람들의 정보 검색 그 자체가 정보다.

p.24. 사람들은 자주 거짓말을 한다. 다른 사람에게는 물론 자신에게도 한다.

p.27. 솔직하게 말해 나는 구글 검색이 인간의 생각을 알아내기 위해 수집한 그 어떤 데이터 세트보다 중요하다고 확신한다.

p.30. 이제 새로운 디지털 데이터는 인간 사회에 우리가 볼 수 있다고 생각했던 것보다 많은 것이 들어 있음을 보여주고 있다. 디지털 데이터는 중요한, 심지어는 혁명적인 식견을 제공해주는 우리 시대의 현미경이자 망원경 인지도 모른다.

p.30. 나심 탈레브는 이렇게 말했다. "빅데이터에 정보가 없다고 말하는 것이 아니다. 거기에는 많은 정보가 있다. 문제는 바늘이 점점 커지는 건초 더미 속에 파묻혀 있다는 것이다."

p.35. 사실 영리한 빅데이터 기업들은 종종 데이터를 줄인다. 구글은 모든 데이터 중에서 작은 샘플링을 바탕으로 중요한 결정을 내린다. 데이터가 엄청나게 많아야 중요한 식견을 발견할 수 있는 것은 아니다. 필요한 것은 적절한 데이터다. 구글 검색이 그토록 귀중한 가장 큰 이유는 데이터가 많기 때문이 아니라 사람들이 솔직한 생각을 내놓기 때문이다.

p.35. 빅데이터에서 식견을 짜내려면 무엇보다 적절한 질문이 중요하다. 밤하늘 아무 곳에나 망원경을 향해 놓고 명왕성을 발견할 수는 없듯이 엄청난 데이터를 다운로드한다고 해서 인간 본성의 비밀을 발견할 수 있는 것은 아니다. 유망한 곳을 봐야 한다.

p.43. 좋은 데이터 과학은 생각만큼 복잡하지 않다는 점을 배웠다. 최고의 데이터 과학은 사실 놀랄 만큼 직관적이다.

p.43. 데이터 과학의 본질은 패턴을 알아차리고 하나의 변수가 다른 변수에 어떤 영향을 줄지 예측하는 데 있다. 사실 사람들은 늘 이런 일을 하며 산다.

p.50. 좋은 데이터 과학의 방법론은 직관적이지만, 그 결과는 직관에 반할 때가 많다. 데이터 과학은 자연적이고 직관적인 인간의 행위에 따라 패턴을 발견하고, 이해하는 과정을 거친다.

p.52. 좋은 데이터 과학자는 도움이 된다면 새로운 디지털 정보원들만큼이나 흥미로운 구식 정보원을 찾아보는 일을 마다하지 않는다. 적절한 답에 이르는 최선의 길은 이용 가능한 모든 데이터를 갖추는 것이기 때문이다.

p.55. 데이터 과학자의 목표는 세상을 이해하는 것이다. 직관과 어긋나는 결과를 얻으면 우리는 데이터 과학을 이용해서 세상이 겉으로 보이는 것과 왜 다른지를 설명한다.

p.72. 빅데이터가 왜 그렇게 큰 힘을 갖는 것일까? 왜 빅데이터가 우리 자신을 보는 방법에 혁명을 일으킨다는 것일까? 나는 빅데이터가 그것만의 독특한 네 가지 힘을 갖고 있다고 생각한다.   

새로운 유형의 데이터 제공이 빅데이터의 첫 번째 힘이다.

솔직한 데이터 제공이 빅데이터의 두 번째 힘이다.

작은 집단도 클로즈업해서 볼 수 있는 것이 빅데이터의 세 번째 힘이다.

인과적 실험의 실행 가능성이 빅데이터의 네 번째 힘이다.


p.81. 빅데이터 혁명은 점점 더 많은 데이터를 수집하는 것이 아니다. 적절한 데이터를 수집하는 것이다.

p.92. 예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지 알 필요는 없다.

p.93. 허리케인이 불어닥치기 전 월마트는 딸기 맛 팝타르트를 선반에 가득 채운다. 그 둘의 관계에 어떤 이유가 있는지는 중요하지 않다. 중요한 것은 관계 자체다.

p.127. 모든 것이 데이터다. 이 모든 새로운 데이터가 사람들의 거짓말을 꿰뚫어 볼 수 있다.

p.177. 설문조사와 마찬가지로, 소셜미디어에는 진실을 얘기할 유인이 없다. 오히려 설문조사보다 진실을 말할 유인이 더 적고, 자신을 보기 좋게 포장할 유인이 더 크다. 온라인에서 당신은 익명이 아니다. 당신은 타인의 환심을 사려하고 친구, 가족, 동료, 지인, 낯선 사람에게 당신이 어떤 사람이라고 이야기한다.

p.179. 페이스북은 친구들에게 내가 얼마나 괜찮게 사는지 자랑하는 ‘디지털 허풍약’이다.

p.200. 빅데이터는 데이터 세트의 작은 일부를 유효하게 클로즈업해서 그들이 어떤 사람인지에 대한 새로운 식견을 제공한다.

p.226. 연관성과 관련성은 소규모 설문조사나 전형적인 데이터 방식으로는 추적할 수 없다. 세상은 소규모 데이터가 감당하기에는 너무 복잡하고 다채롭다.

p.242. 빅데이터 시대에는 세상 전체가 실험실이다.

p.267. 인생은 비디오 게임이 아니다. 원하는 결과를 얻을 때까지 계속 다른 시나리오로 게임을 다시 할 수 없다.

p.267. 밀란 쿤테라는 그의 소설, <참을 수 없는 존재의 가벼움>에서 이에 관해 간결하면서도 함축적인 말을 남겼다. “인간의 삶은 단 한 번뿐이다. 우리가 내린 결정 중 어떤 것이 좋고 어떤 것이 나쁜지 결정할 수 없는 이유는 주어진 상황에서 한 가지 결정밖에 할 수 없기 때문이다. 우리에게는 여러 가지 결정을 비교할 수 있는 두 번째, 세 번째, 네 번째 삶이 없다.”

p.282. 빅데이터가 가진 한계, 즉 빅데이터로도 할 수 없는 것과 가끔은 빅데이터로도 하지 말아야 할 것이 있다.

p.292. 더 많은 빅데이터가 항상 정답은 아니다. 빅데이터가 좋은 효과를 발휘하려면 특별한 양념이 필요하다. 우리가 스몰데이터라고 부르는 소규모 설문조사와 인간의 판단이 그것이다.

p.292. 페이스북처럼 눈부신 성공을 거둔 빅데이터 조직도 때로는 이 책에서 한참 폄하된 정보원인 ‘소규모’ 설문조사를 이용한다.

p.294. 빅데이터는 인간이 세상을 이해하기 위해 수천 년 동안 개발해온 다른 모든 방법의 필요성을 없애지 않는다. 그들은 서로를 보완한다.

p.300. 데이터 혁명의 위험은 우리 삶의 점점 많은 부분이 정량화되면서 이러한 대리 판단이 우리 생활에 더 깊숙이 파고들어 권리를 침해할 수 있다는 데 있다.

p.320. 약간의 통계 기술과 강한 호기심, 넘치는 창의력이 있다면 데이터 분석의 길로 들어서 주길 바란다.

p.321. 데이터 분석의 미래는 밝다.


<함께 읽으면 좋은 문헌>   

괴짜 경제학 : 상식과 통념을 깨는 천재 경제학자의 세상 읽기, 스티븐 더브너, 스티븐 레빗 저, 안진환 역, 웅진지식하우스, 2007. (원제 : Freakonomics)

다크 데이터 : 보이지 않는 데이터가 세상을 지배한다, 데이비드 핸드 저, 노태복 역, 더퀘스트, 2021. (원제 : Dark Data : Why What You Don’t Know Matters)

신호와 소음 : 불확실성 시대, 미래를 포착하는 예측의 비밀, 네이트 실버 저, 이경식 역, 더퀘스트, 2021.




매거진의 이전글 데이터를 지배할 수 있을까? 할 수만 있다면...
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari