이 책은 데이터리터러시(데이터 문해력)에 필수적인 통계 왜곡을 피하고 통계를 올바르게 읽는 방법을 알려주는 책이다. 이 책은 선거 여론조사, 코로나19 방역, 국가 통계 등 다양한 주제를 다루고 있다. 이러한 주제들은 전문가의 영역뿐만 아니라, 우리 일상에서도 데이터 분석과 데이터 이해를 통해 안정적인 판단을 내려야 하는 중요한 분야다.
몇 가지 배운 부분을 요약해 본다.
1. 설문조사 디자인
선호도, 적합도, 지지도라는 세 가지 설문조사 의도가 있다. 각각은 감성적인 선택, 이성적인 선택, 실제 행동에 대한 선택을 묻는 것으로, 설문의 목적에 따라 다르게 사용할 수 있다. 내가 예쁘다고 생각하는 옷(선호도)과 내일 입을 옷을 사는 것(지지도)은 다른 선택이다. 설문을 할 때 질문자의 의도나 질문자가 생각하는 답을 유도하지 않는 설계가 중요한 것은 알고 있었는데, 선호도/적합도/지지도를 이해한다면 설문의 목적부터 정립하는데 도움 될 것이다.
2. 주의해야할 언론 보도 속 표현
주의해야 할 언론보도 속 표현, 출처: 《세상을 바로 보는 힘 통계 안목》
여론조사 결과를 보고할 때는 조사 대상 모집단을 정확하게 알리고, 오차 범위 안에 있는 경우에는 순위를 매기지 않고, 주관적 견해를 섞지 않고, 정수로 표현하는 것이 좋다.
예를 들면, “1인당 카카오톡 메시지 송수신이 하루 220개에 이른다”에서는 “카카오톡 이용자 1인당”이라는 설명이 추가되어야 한다.
“오차 범위 안에서 1, 2, 3위를 차지했다”는 “오차 범위 안에서 경합하고 있다”로 보도해야 한다.
일부러 표현을 생략했다고 생각하지 않는다. 업무에서도 이런 부분을 놓치면 오해나 실수가 될 수 있으니 주의해야 한다.
3. 상대적 위험 vs 절대적 위험
출처: 《세상을 바로 보는 힘 통계 안목》
백신의 예방 효과율을 상대적 위험 감소로만 표현하면 절대적 위험 감소보다 더 크게 보일 수 있다. 예를 들어, 백신을 접종하면 코로나19 감염률이 80%나 감소한다고 하면 매우 효과적인 것처럼 보이지만, 실제로는 절대적 위험 감소가 0.08%p에 불과한 계산일 수 있다(이미지 참고). 따라서 백신의 효과를 보고할 때는 상대적 위험 감소뿐만 아니라 절대적 위험 감소도 함께 알려주는 것이 좋다.
이 책은 통계학자가 아닌 저자가 쓴 것이라서 전문가가 봤을 때 용어나 이론에 오류가 일부 있다고 한다. 그럼에도 통계 지식이 적은 일반인들이 읽기에는 오해할만한 수준은 아닌 듯하다. 우리에게 친근한 사례가 쓰여 있기도 하니, 통계적 사고를 기르면서 통계적 착시를 피하는 방법을 배울 수 있을 것이다.