brunch

You can make anything
by writing

C.S.Lewis

by 와이작가 이윤정 Nov 03. 2023

데이터가 말하는 것과 숨기는 것 feat.코로나 발생률

평단지기독서2395일, 《우리는 왜 숫자에 속을까》

231103 오류의 위험이 도사리고 있음을 인식했다.

Oh, Yes! 오늘 성공! / 활력 넘쳤다! /감사합니다!

슈퍼 울트라 마스터 라이팅 코치 스테디셀러 작가 이윤정입니다.

오늘 행동은 성공일기로 미리 됐다 여기며 하루를 시작합니다.



<우리는 왜 숫자에 속을까> 책에서는 코로나 바이러스 통계 수치에 대한 이야기가 많이 나옵니다. 데이터의 데이터가 말하는 것과 숨기는 것에 대한 부분을 읽다 보니, 최근 코로나 확진자 수가 궁금해졌어요.


오늘 주제는 일상 건강으로 살짝 들어가 볼게요.


오랜만에 건강관리 측면에서 코로나 확진자수를 검색해 보니 11주 만에 늘었다고 나오는 기사들이 있네요. 감소폭 줄다 17% 폭증했다는 기사, 65세 이상 코로나 신 누적 접종률 20% 넘었다는 기사만 보고, 아, 코로나가 다시 늘어나고 있구나 생각할 수 있죠.





이 기사들의 원문 출처는 '질병관리청' 홈페이지에서 나온 데이터들입니다. 그럼 원문을 확인해 봐야겠죠?







출처: 질병관리청


요즘은 확진자수를 매일 보도하지는 않고, 주간 소식지로 바뀌었네요.  감시체계도 전수감시체계에서, 일부 감시기관내 양성자 표본감시 체계로 변경되었다고 해요. 통계 기준이 바뀌었으니, 데이터만 보고, 늘었다, 줄었다 판단하는데 오류가 있을 수 있다는 점 기억하면 좋겠죠?



원문





양성자 발생현황만 체크하고 있습니다. 무증상자나, 양성자더라도, 검사하지 않은 사람들도 있을 수 있다는 점





권역별 양성자 비중이 수도권 55.9%, 4829명이라는 점은 표본 감시 중에서 나온 비율이라는 점,


서울, 경기권 인구가 서울 경기만 23백만 명 기준으로 하면, 0.02%라는 점과 비교하면 작은 수치가 엄청나게 코끼리처럼 확대되어 보인다는 점! 무증상자, 검사하지 않은 사람들 포함한 기준으로 늘리면 수치가 확연히 줄어들죠?




















국내 주민등록 인구연령별 인구수 대비 비율을 측정해 보면 비율은 달라질 수 있겠죠?








이처럼 통계를 보고, 해석하는 기준, 보도하는 데이터에 따라 설명은 각양각색이 될 수 있습니다. 원문을 참고하면 어떨까 해요!


11월 기온이 28도가 나올 정도로 파도치는 기온입니다. 언제 바람이 쌩쌩 불고 추워질지 모르니, 항상 건강 챙기시고요!


4장_데이터가 말하는 것과 숨기는 것  

    데이터는 현실을 있는 그대로 반영하지 않고, 통계 모델도 실제와 연관성이 떨어질 수 있으므로 언제든 오류가 나타날 수 있다.  

    모든 데이터는 오류의 위험이 도사리고 있음을 인식해야 한다.   


데이터가 지식을 만들지는 않는다  

    데이터는 모두 불확실하다는 점을 알아야 한다. 데이터를 기반으로 하는 지수나 지표도 불확실하다.  

    상대 위험을 잘못 해석하는 전형적 오류를 발견한다.   

    숫자가 작으면 아주 작은 절대 수치의 차이도 상대적인 비율 차를 크게 만든다.  



작가의 이전글 조언 하나 해줄까? 응! 독자한테 딱 필요한 글쓰기
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari