『새빨간 거짓말, 통계』 - 1

신사도 거짓말을 한다

Apr 7. 2024

프로덕트 매니저로서 데이터 리터리시가 중요함을 깨닫는 요즘이다. 내가 설계한 대로 데이터를 수집하고, 또 내가 분석한 대로 다음에 할 일을 정하기 때문에 중압감이 느껴진다. 조직원들을 데이터로 설득하면서도 “과연 내가 가져온 데이터가 맞을까?“ 싶은 순간이 자주 찾아온다.

이러한 때에 데이터넥스트레벨챌린지 3기를 모집한다 하여 기꺼이 참여하게 되었다. 선정된 도서도 마음에 들고, 같은 책을 읽고 나누는 회고도 기대가 된다.

대럴 허프, 『새빨간 거짓말, 통계』 (더불어 책, 2004)

제1장. 언제나 의심스러운 여론조사

21p. 수많은 광고를 통해 이를 닦지 않는 사람은 예의가 없는 사람이라고 세뇌를 받은 숙녀가 난생 처음 보는 사람에게 자신은 매일 규칙적으로 이를 닦지 않는다고 고백할 수 있을까? 따라서 이 통계숫자는 그저 이를 닦는 것에 관해 사람들이 어떤 대답을 하는지 알고 싶을 때나 의미가 있을지는 몰라도 칫솔로 앞니를 몇 번이나 닦는지 그 횟수에 대해서는 실제로 아무것도 말해주지 않는다.

22p. 통계에 있어서 가장 중요한 것은, 표본을 근거로 어떤 결과를 내릴 때 그 표본이 모집단 전체를 대표하는 것이라야 한다는 사실이다. 즉 왜곡의 원인이 되는 모든 것을 제거하고 난 표본이라야 한다는 것이다.

23p. 또 한 가지 꼭 알아두어야 할 일은, 표본이 왜곡되는 원인이 위에서처럼 뚜렷하게 눈에 보일 수도 있지만 때로는 분명하지 않을 수도 있다는 점이다. 즉, 왜곡의 원인이 무엇인지 명확히 밝힐 수 없는 경우에도 어디에선가 왜곡될 가능성이 있다면 얻어진 결과에 대해 어느 정도의 의심을 품어 보아야 한다는 것이다. 또 실제로도 그럴 가능성은 늘 존재하기 마련이다.

제2장. 평균은 하나가 아니다

37p. 나의 속임수는 상황에 따라 다른 종류의 평균값을 사용했다는 것이다. ‘평균’이란 단어의 의미가 매우 모호한 점을 이용한 것이다. 사실 이 속임수는 자주 이용되는 방법이기도 하다. 때로는 사용하는 사람 자신도 모르게 사용되기도 하지만 대중의 의견을 좌우하거나 영업 행위를 위한 광고 면을 장식하기 위해 의도적으로 악용되기도 한다. 평균값이라 하더라도 그것이 어떤 종류의 평균값인지 즉 산술평균값인지, 중앙값인지, 아니면 최빈값인지 이 중 어느 것을 말하는지 정확하게 알기 전에는 그 어떤 평균도 아무런 의미가 없으니까.

제3장. 작은 숫자를 생략하여 사기 치는 법

54p. 그렇다면 시행 횟수는 얼마나 커야 할까? 참으로 딱 떨어지는 답을 하기 어려운 질문이다. 즉 표본을 채택하게 되는 원래의 모집단이 얼마나 크고 또 얼마나 다양한가에 따라 그 답이 달라진다. 때로는 그 표본의 크기(표본을 구성하는 개체수)를 전혀 예상할 수 없는 경우도 있다.

54-55p. 누구나 쉽게 이해할 수 있는 유의판정법이란 것이 있으니까. 어떤 통계숫자가 우연에 의해 나온 것이 아니라 실제로 그 무엇 때문에 발생하였을 확률이 어느 정도인지를 보여주는 간단한 방법이다. 이 조그마한 숫자만으로는 당신이 이해하지 못할 것이라는 지레짐작으로 이것을 생략하기 일쑤이다. 그러나 물론 알려만 준다면 퍽이나 도움이 되는 숫자이다. (…생략…) 대부분의 경우 이 정도의 유의수준 즉 5% 정도이면 충분하다. 그러나 때로는 1%의 유의수준을 요구하는 경우도 있는데, 이는 드러난 통계값이 실제값과 같을 확률이 99%란 뜻이다.

55p. 조그마한 숫자라고 보통 생략하는 또 다른 종류의 숫자가 있다. 그러나 이 숫자를 생략함으로써 입는 손실은 치명적일 수 있다. 그것은 자료의 분표 범위나 평균값으로부터의 편차를 알려주는 숫자이다. 종종 평균값-산술평균값이건 중앙값이건 또는 이를 밝히건 밝히지 않건 간에-을 너무도 간단히 처리하여 별로 쓸모없기도 하려니와 오히려 해를 끼치는 경우가 있다. 선무당이 사람 잡는다고 하지 않은가?

61p. 문제는 ‘정상적인 것’을 ‘바람직한 것’과 혼동하는 데에서 사태가 더 악화되는 경우가 있다는 점이다. 게젤 박사는 단지 자신이 관찰한 것을 사실대로 말했을 뿐인데, 책이나 기사를 통해 이를 접한 부모들이 성장과정에서 하루나 한 달 정도 늦은 어린아기들을 열등하다고 착각하였기 때문에 사태가 악화된 것이다.

책을 읽는 내내, 지금껏 내가 무의식적으로 또는 의식적으로 해온 새빨간 거짓말이 있었음을 깨달았다. 가령 산술평균값보다 최빈값이 더 적확한 상황에서 산술평균값을 채택하고 ‘평균값’이라고 표현했다던지… 조그마한 숫자를 누락함으로써 내가 강조하고 싶은 데이터만 보게끔 만들었다던지… 어쩌면 실패한 실험이 되고 싶지 않아 의도를 담아 해석한 경우도 있었겠구나 하는 반성도 들었다. 책을 통해 스스로 객관화해볼 수 있는 좋은 기회를 가져보았다.

한편으로 ‘완벽하지만 느리게 도출한 결과’와 ‘부족하지만 빠르게 도출한 결과‘ 중 무엇이 더 나은지도 고민해보게 되었다. 내가 거짓말을 하게 된 원인을 생각해보면, 의도보다는 상황이었을지도 모른다는 생각이 들었다. 스타트업에서는 빠른 의사결정과 실행이 무엇보다 중요하지 않은가. 그러한 맥락에서 진행된 실험과 분석이, 사실은 조직에 도움이 되지 않았을 수도 있겠다는 자기반성의 시간이었다. 이 책을 여는 구절에 ’정직한 일반 사람들이 속아 넘어가지 않기 위한 안내서‘라는 말이 있었는데, 어쩌면 나에게는 ’팀원들을 속이지 않기 위한 양심 가이드‘가 아닐까 싶다.

#데이터리안 #데이터넥스트레벨챌린지 #데벨챌

keyword

『새빨간 거짓말, 통계』 - 2작가의 다음글