통계의 미학 - 최제호
최근 Covid-19 바이러스로 인해 많은 사람들이 통계 해석에 관심이 커졌다. 대한민국의 지역별, 연령별 사망률부터 전 세계 동향까지 다양 뉴스가 매일 신문에 업데이트되고 있다. 2020년, 통계는 우리 생활에 자연스럽게 들어왔다.
2020년 9월 과학자들이 'Science'에 일종의 호소문을 올렸다. 미국의 경우, 정치적인 해석이 개입되어 전염 확산 방지가 어려워졌다고 판단했기 때문이었다. Covid-19 대처를 위해서는 과학적 의사결정이 필요하다고 생각했던 것이다.
통계적 해석은 연습이 필요하다. 아무리 좋은 데이터를 확보했다 하더라도, 그것에 대한 해석을 잘 못하게 되면, 엉뚱한 의사결정을 야기한다.
글에서 저자가 언급하는 몇 가지 주요점은 아래와 같다.
1. 자료의 수집에 유의하여야 한다. 통계 데이터 수집할 때 모은 표본이 대표성을 띠는지 반드시 확인해야 한다. 미 대통령 선거에서 여론조사와 실제 결과가 다르게 나오는 경우가 종종 있는데, 표본 선택이 잘 못 된 경우라고 할 수 있다.
2. 측정 방법이 정확해야 한다. 2006년 음주 측정 관련 소송이 있었다. 그 이유는 음주 측정기가 부정확해서 면허 취소받은 사람이 소송을 진행한 것이다. 결국 소송자는 기소유예 처분을 받게 되었다. 측정이 흔들리면 결과는 의미가 없어진다.
3. 평균의 함정을 유의해야 한다. 예를 들어, 1990년대, 고 정주영 회자의 자산이 3조라고 하자. 현대 계동사옥 근무자가 3000명이라고 하면, 현대 사옥의 근무자의 1인당 평균 자산은 (90년대 기준) 10억이 된다. 최근 부동산, 소득 수준 등 많은 사회 뉴스에 평균 수치가 나오는데, 해석에 주의를 필요로 한다.
4. 상관관계를 인과관계로 해석하면 잘못된 결론이 도출된다.
5. 마지막으로 데이터를 비교하는 기술적 방법이다.
두 데이터 그룹이 차이가 있는지 확인하기 위해서는 t-test를 진행할 수 있다. 귀무가설을 세우고, 검증을 세운 후 결괏값이 가설에 부합하는지 위반하는지 확인하여 결과를 해석한다.
분산분석을 통해서 결과 분석을 할 수 있다. 예를 들어, 서울 송파구에 부동산 정책을 실시하기 전후 영향도를 판단해야 한다고 가정해보자. i) 아파트별, 평수별 가격 결과를 정리하고, 정책 전후 ii) R 제곱 검정을 하고, iii) p 값이 0.05 미만이 되는지 확이 필요하다.
회귀분석은 연속된 데이터 해석에 좋다. 연속하는 데이터로 R 제곱 검증 및 p 값을 확인하여 결과를 분석한다.
데이터 분석은 스킬과 통찰력 모두 필요하다. 통찰력이 있어야 분석 결과에 대한 해석이 다능하기 때문이다
지속적으로 관심분야에 통계법 적용을 통해 실습을 해보는 것이 좋겠다.
#독서 #독서노트 #독서기록 #독서리뷰 #책스타그램 #북스타그램 #독서스타그램 #통계책 #통계의미학 #최제호