brunch

You can make anything
by writing

C.S.Lewis

by 박성원 Sep 18. 2021

벌거벗은 통계학 /독후감161

요즘 아이들의 성적표에는 등수도 없고 수우미양가도 없다.

물론 시험 결과인 점수와 과목 평균은 나와있다. 그리고, 표준편차가 있다!! 이게 왜 여기서?? 표준편차는 학생의 시험성적이 얼마나 평균에서 흩어져 있는지 나타내는 척도이다. 아이가 100점을 맞아와도 표준편차가 0이면 모든 반 학생들이 100점을 맞았다는 의미다. 그래도 물론 아이에게 100점 맞았다고 여전히 칭찬해 줄 필요는 있지만, 부모가 표준편차의 개념을 모른다면 반 학생들이 모두 100점을 맞았다는 사실을 몰랐을 것이다.




 우리 모두 평균이 무엇인지는 안다.

대한민국 성인 남성의 평균 신장이 175센티미터이고, 표준편차는 대략 8센티미터라고 한다(면). 성인 남성 대부분의 신장은 167센티미터(175-8)에서 183센티미터(175+8) 사이이다. 이제는 표준편차가 무엇인지 대략 감이 올 것이다.

생명에 직결된 혈액 검사 수치가 좀 더 표준편차를 ‘알아 두면 좋겠구나’ 하는 생각을 들게 한다. 의사가 나의 혈액 검사 수치가 134라고 알려준다. 나는 급히 인터넷을 검색해서 같은 연령대의 평균 수치는 122라는 것을 알아낸다. 내 수치가 12나 높다!! 오 마이 갓! 죽겠구나! 유언장을 써야 하나? 

 나는 병원에 다시 전화를 걸어 말기 환자를 간호하는 호스피스를 알아보려 했더니, 간호사는 그 검사 결과가 정상 범위에 들어간다고 말해준다. “혈액 검사 수치의 표준편차는 18입니다.” 내 혈액 수치는 평균보다 12나 높지만, 표준편차 범위 안에 들어간다. 살 수 있다!!

 시험성적, 성인 남자의 키나 혈액 검사 수치와 같은 데이터들은 정규분포 형태로 펼쳐진다.

일반적으로 분포된 데이터는 평균을 중심으로 종 모양의 좌우 대칭을 이루는 것이 정규분포이다. 평균을 중심으로 얼마나 넓게 흩어져있거나 멀리 퍼져있는 정도가 표준편차이다.


 ‘넷플릭스는 내가 좋아하는 영화를 어떻게 찾아낼까?’를 설명해주는 것도 통계이다.

여름 기온과 아이스크림 판매량 사이에는 양의 상관관계가 있다. 한쪽이 올라가면 다른 쪽도 올라간다. 키와 몸무게도 대체적으로 양의 상관관계를 가진다. 운동량과 몸무게의 관계는 운동을 많이 하는 사람일수록 몸무게가 덜 나가는 음의 상관관계를 확인할 수 있을 것이다. 시험 점수와 신발 사이즈의 상관관계는 0이다. 시험 점수와 신발 사이즈는 연관성이 없다는 뜻이다.

 넷플릭스가 어떻게 내 마음에 쏙 들어하는 영화를 추천하는지 기술적으로 알 수 없지만 (추천 알고리즘을 설명하는 문서가 92페이지에 달한다.) 통계에서 상관관계라는 개념을 활용하고 있다. 양의 상관관계처럼 내가 좋아하는 것을 계속 추천해주고, 음의 상관관계처럼 내가 싫어하는 것은 추천목록에서 멀어지게 하는 것이 상관관계의 핵심이다.


 저자가 극찬하는 표본 평균들이 정규분포를 이룬다는 중심 극한 정리 건너뛰고, 우리에게 좀 더 친근한 회귀분석(?!!)에 대해 이해하게 되면 우리는 신문기사에서 언급된 조사 데이터들을 얼마나 신뢰할 수 있는지 판단할 수 있다.

 가령, 임금 격차 중 직업의 생산성 차이로 인한 임금 격차는 얼마나 되고, 실제로 존재한다면 성차별에 의한 임금 격차는 얼마나 될까? 회귀분석을 사용하면 이 질문에 답할 수 있다. 사람의 키와 몸무게와는 다르게 차별을 직접 측정할 수는 없으므로 교육 수준, 실무경험, 직업군 등 전통적으로 임금을 설명해주는 요소들을 고려하는 것이다. 임금을 설명하는 데 일반적으로 사용되는 다른 요소들을 통제한 후에도 상당한 임금 격차가 존재한다면 차별을 원인으로 지목할 수 있다.

 데이터를 제공하는 참가자들의 각각의 교육 수준, 실무경험, 성별, 나이, 소득 등이 모두 다른데도 통계 프로그램은 어떻게 이런 요인을 통제할 수 있는 것일까? 이런 문제를 해결할 수 있도록 도와주는 통계 도구가 바로 회귀분석이다. 다른 변인變因을 통제한 상태에서 우리가 알고자 하는 어떤 변수와 결과 사이의 연관관계를 수치로 나타낼 수 있게 해 준다.




사칙연산만 배워도 사는데 크게 불편하진 않지만 통계 개념을 일상생활과 최대한 가깝게 결부시키면 조금은 더 넓게 내 앞에 맞닥친 상황을 이해할 수 있다. 적어도 아이가 들고 온 성적표는 정확하게 읽고 분석하고 싶었다.

매거진의 이전글 나는 내가 왜 살아야 하는지 몰랐습니다 /독후감160
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari