통계학을 37년 가르쳤다. 확률론, 회귀분석, 다변량 분석, 시계열. 학생들에게 수백 시간의 수업을 했다. 그런데 돌이켜보면, 정말 전하고 싶었던 것은 기법이 아니었다.
숫자 앞에서 잠깐 멈추는 것. 그것이 전부였다.
이 시리즈에서 매 편마다 하나씩 질문을 남겼다.
1편. 몇 번 검정했는가. 손가락 길이와 자녀 성비, 니콜라스 케이지와 익사 사고. 충분히 많이 찾으면 아무 관계 없는 변수에서도 인상적인 상관이 나온다. 숫자가 놀라울수록, 그 숫자가 나오기까지 몇 번의 시도가 있었는지를 먼저 물어야 한다.
2편. 빠져 있는 데이터는 무엇인가. 돌아온 폭격기에는 엔진 피탄 흔적이 없었다. 돌아오지 못한 폭격기에 답이 있었다. 샐리 클라크의 재판에서는 고려되지 않은 조건이, 챌린저호에서는 제외된 데이터 행이 결과를 갈랐다.
3편. 평균 뒤에 어떤 분포가 있는가. 평균 수심 1.2미터인 강에서 사람이 죽는다. 버클리 대학원은 학과별로 보면 차별이 없는데 전체로 보면 차별이 있었다. 실력 좋은 병원의 사망률이 더 높았다. 하나의 숫자가 구조를 숨긴다.
4편. 상관인가, 인과인가. 황새가 많은 곳에서 아기가 많이 태어난다. 아이스크림이 많이 팔리는 달에 익사 사고가 늘어난다. 상관에서 인과까지의 거리는, 뉴스 제목이 한 문장으로 건너뛰는 것보다 훨씬 멀다.
5편. 이 확률은 어느 방향인가. 대장암 환자의 23.5%가 변비를 경험했다. 그러나 변비 환자 중 대장암인 사람은 0.13%다. 같은 데이터에서 나온 두 숫자가 180배 차이 난다. 방향이 뒤집히면 결론이 뒤집힌다.
다섯 개의 질문은 각각 다른 함정을 가리키지만, 요구하는 것은 하나다. 숫자를 보는 순간 결론으로 달려가지 말고, 잠깐 멈추라는 것.
사람은 숫자를 만나면 즉시 이야기를 만든다. 이것은 인지적 본능이다. 패턴을 보면 원인을 찾고, 원인을 찾으면 결론을 내리고, 결론을 내리면 확신한다. 이 과정이 1초도 안 걸린다.
이 본능은 사바나에서는 유용했다. 풀이 흔들리면 포식자일 수 있고, 생각하기 전에 뛰어야 산다. 그런데 데이터 앞에서는 이 본능이 적이 된다. 패턴이 보이는 순간 "왜?"를 묻기 전에 "아하!"가 먼저 온다.
필요한 것은 그 사이에 3초를 끼워넣는 것이다.
"검지가 짧으면 딸을 낳는다"는 기사를 읽었을 때. 3초. 몇 가지를 검정했을까?
"A 병원 사망률이 B 병원보다 낮다"는 데이터를 봤을 때. 3초. 어떤 환자를 받는 병원인가?
"변비가 대장암 전조 증상"이라는 뉴스를 봤을 때. 3초. 이 확률은 어느 방향인가?
3초면 충분하다. 결론을 내리기 전에 질문 하나를 끼워넣는 것. 그 질문이 답을 바꾸지 않을 수도 있다. 하지만 답을 바꿀 때, 그 3초가 판결을 바꾸고, 정책을 바꾸고, 때로는 사람의 인생을 바꾼다.
이 시리즈에서 수식은 한 번만 썼다. 5편의 베이즈 정리. 나머지는 수식 없이 진행했다. 의도적이다.
숫자에 속지 않기 위해 필요한 것은 통계학 지식이 아니다. 통계학을 전공한 사람도 속는다. 자기 연구에서 p-hacking을 하면서 자각하지 못하는 연구자가 있고, 심슨의 역설을 가르치면서 자기 학과의 데이터에서는 평균만 보는 교수가 있다. 37년간 통계를 가르친 내가 그랬다. 지식은 함정을 알려주지만, 함정 앞에서 멈추게 하지는 못한다.
멈추게 하는 것은 태도다.
숫자가 결론이 아니라 질문의 시작이라는 감각. "이 숫자가 맞다면 왜?"라고 묻고, "이 숫자가 맞더라도 다른 해석은 없는가?"라고 다시 묻는 습관. 놀라운 결과 앞에서 감탄하기 전에 의심하는 버릇.
이것은 통계학과를 나와야 배울 수 있는 것이 아니다. 누구나 오늘부터 할 수 있다.
이 시리즈는 숫자의 함정을 다뤘다. 하지만 숫자 자체가 함정인 것은 아니다.
존 스노우는 콜레라 사망자의 주소를 지도 위에 찍어서, 세균학이 존재하기도 전에 수인성 전파를 증명했다. 에이브러햄 월드는 총알 자국이 없는 곳을 봄으로써 수천 명의 조종사를 살렸다. 나이팅게일은 사망 원인을 시각화해서 군병원 위생 개혁을 이끌어냈다.
함정에 빠지는 것과 힘을 쓰는 것의 차이는, 숫자 앞에서 멈추느냐 달려가느냐에 있다.
"정말?" 한마디. 그것이 데이터 리터러시의 전부이고, 그 3초가 숫자의 함정과 숫자의 힘을 가르는 경계다.