『새빨간 거짓말, 통계』 - 3

정확함이라는 향기를 뿌려 부정확함이라는 악취를 감춘다

by 나사장

제9장. 통계를 조작하는 법

163-164p. 기하평균이란 것은 산술평균과는 약간 다른 평균이지만, 산술평균과 마찬가지로 합법적인 평균값으로 때에 따라서는 매우 유용하게 여러 가지 사실을 제공하는 평균값이기도 하다. 기하평균을 구하는 방법으로는, 세 개의 수가 있는 경우에는 이들을 서로 곱한 수의 세제곱근을 구하면 되고, 네 개의 숫자의 경우에는 이들을 서로 곱한 수의 네제곱근, 또 두 개이면 제곱근을 구하면 된다.
164p. 통계의 기초는 수학이지만 그 실제 내용은 과학이면서 동시에 예술이기도 하다. 주어진 범위 내에서 여러 가지 조작이나 왜곡이 가능하기 때문이다. 따라서 통계학자들은 어떤 사실을 설명하기 위해서 주관적으로 판단하여 자신에게 알맞은 방법을 선택해야만 한다.


제10장. 통계의 속임수를 피하는 다섯 가지 열쇠

첫째 열쇠: 누가 발표했는가? 출처를 캐 봐야 한다.
고의적인 왜곡은 반드시 찾아내야만 한다. (…중략…) 고의가 아니라 하더라도 무의식적으로 사용된 왜곡도 찾아내야 한다. 이런 왜곡이 때로는 더 위험한 경우가 많다.
둘째 열쇠: 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
물론 통계에 문외한인 당신이 결과의 유의성을 조사해 본다든가, 표본의 적절성을 따져볼 수는 없었을 것이다. 그러나 발표된 여러 통계숫자에 대해서 조금만 생각해본다면 합리적으로 추론할 수 있는 사람을 납득시키기에 충분한 사례가 그리 많지 않다는 것을 깨닫게 될 것이다.
셋째 열쇠: 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
때로는 생략된 것이 바로 변화를 일으키는 원인이 되는 경우도 있다. 이것이 생략되어 있기 때문에 이 변화는 다른 원인, 그래서 더 바람직하기를 원하는 원인 때문에 발생한 것처럼 보이기도 한다.
넷째 열쇠: 내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
사람들의 이야기를 토대로 이끌어 낸 통계숫자에는 매우 이상한 결과가 나타나는 경우가 있다. 예를 들어, 국세청의 보고서에 의하면 34세나 36세가 된 사람의 수보다 35세가 된 사람의 수가 더 많은 것으로 되어 있다.
다섯째 열쇠: 상식적으로 말이 되는 이야기인가 살펴 봐야한다. 석연치 않은 부분은 조사해라.
증명되지도 않은 가정을 토대로 장황하게 이야기가 전개될 때 '상식적으로 말이 되는 이야기인가?'와 같은 질문은 통계숫자를 과대평가하지 않고 제대로 파악할 수 있게 해 주는 역할을 한다.
189p. 외삽법은 어떤 경향을 예측하는 상황에서 매우 유용한 방법이다. 그러나 이 경향 예측을 위해 만든 숫자나 도표를 볼 때에 항상 다음 사항을 염두에 둘 필요가 있다. 즉 현재까지의 추세가 사실일지는 몰라도 미래에 대한 경향은 어디까지나 추측 이외에 아무 것도 아니라는 점이다. 그리고 또 이 경향 예측 속에는 '다른 모든 상황이 변하지 않고', 또 '현재까지의 추세가 그냥 계속 된다' 라는 가정이 은연중에 내포되어 있다. 그런데 사실은 바로 이 '여러 다른 사항들'이 실제로는 변동하는 것이 다반사이고, 또 그렇지 않다면 인생이란 정말 따분하기 짝이 없었을 것이다.


팀 내에 정식으로 결과를 공유하기 전, 슬랙 채널을 통해 가볍게 중간 공유를 할 때가 있다. 당장 실험을 중단해야 하거나, 무언가 잘못되었을 때 빼고는 보통 좋은 소식만 전하는 편이다. 어차피 결과 공유 때 모든 내용을 공유할 건데 굳이 힘빠지는 얘기를 할 필요가 있을까? 팀원들의 사기를 높이고 싶었던, 나름대로 선의를 가진 행동이었다. 그런데 이게 정말 좋은 행동이었을까? 불손한 의도가 아니라면, 정식 공유가 아니라면 좋은 쪽으로만 편집해서 보여주는 게 '이정도는 괜찮아' 하고 넘어갈 수 있는 걸까?


나는 지금껏 내가 투명하다고 자부해왔다. 실험에 실패하면 실패한 대로, 많은 시간을 들여 분석했지만 별다른 인사이트를 얻지 못했다면 못한 대로 거리낌없이 공유해왔다. 오만하게도 다른 동료가 공유해준 결과를 보면서 너무 자기 좋을 대로 포장한다는 생각을 했던 적도 있다.


이런 나에게 이 책이, 정확히는 대럴 허프 씨가 '너는 지금 새빨간 거짓말을 하고 있어!'라며 꼬집는 것만 같았다. 마지막 장에서 거짓말을 간파하는 다섯 가지 팁을 알려주었는데, 이전에 보았던 가짜뉴스 거르는 법과 꽤나 비슷했다. 어쩌면 내가 '데이터'라는 포장지를 씌워 '가짜뉴스'를 퍼뜨리고 있던 게 아닐까? 책을 읽는 내내 자기성찰과 반성의 시간이었다. 적절한 시기에 좋은 책을 읽은 것 같아 감사한 마음이 들기도 했다. 미약하지만 책을 통해 얻은 인사이트와 소신을 굳건히 지켜나가는 PM이 되고 싶다.



#데이터리안 #데이터넥스트레벨챌린지 #데벨챌

작가의 이전글『새빨간 거짓말, 통계』 - 2