brunch

You can make anything
by writing

C.S.Lewis

by lunar Nov 15. 2021

[SA 3] 표준편차가 중요해? 응

스포츠에서도? 응. 통계는 표준편차의 마법

우리는 고등학교 때 아무런 반항심, 의구심도 없이, 한 치의 저항도 없이 표준편차를 구하는 공식을 외워댔다. 아직도 기억난다 그 공식이... 공부 꽤나 한다는 친구들은 표준편차가 뭘 의미하는지도 완벽하게 이해하고 있었다. 표준편차는 한 데이터 값들이 얼마나 퍼져있는지를 나타낸다. 아직도 기억나는 수학문제가 있다. 대학시절 과외와 학원강의를 통해 수천번을 학생들에게 가르쳤던 문제다. 각각의 데이터의 대략의 분포을 나타낸 그림들을 보여주고 어느 것이 표준편차가 가장 큰지 고르라는 문제이다. 



그런데 많은 학생들이 정말 중요한 부분을 놓치고 있었고, 지금도 놓치고 있으리라 생각된다. 표준편차는 통계에서 일종의 기준점으로 활용된다. 신뢰구간을 구하는 공식을 기억하는가? 거기에 표준편차가 들어간다는 걸 기억하는가? z-score (표준화 점수)를 기억하는가? 거기에도 표준편차가 들어간다. z-test, 당연히 들어간다. t-test (고등학교 때는 안배웠던듯..), 당연히 들어간다. 뭐 표준편차 안들어가는 곳이 없다. 


왜 그럴까?


통계는 기본적으로 estimate 을 하는 학문이다. 한국말로 추정이다. 추정. 추정! 추정한다는 게 무슨말인가? 밀 추, 정할 정, 미루어 생각하여 정한다란 뜻이란다 (한문 잘하는 친구한테 물어봤다). 아무튼 추정의 기본 전제가 무엇일까? 


바로바로, 답을 모른단 소리다. 웽? 


답을 모른다고? 맞다. 통계에서는 진짜 답을 모른다. 답을 알면 왜 추정을 하나 그냥 답을 구하지. 


온갖 여러가지 이유로 인해 답을 알 수 없을 때 우리는 통계를 사용하여 답에 가장 가까울 것이라고 추정되는 값을 찾아내는 거다. 본질적으로 추정을 하는 것이기 때문에 우리가 추정한 값의 신뢰성이 상당히 중요하다. 그러니까 신뢰구간 같은걸 구하는거다. 철학적인 소리는 그만하자. 아무튼 우리가 기억해야 할 것은 표준편차의 정의나 표준편차를 구하는 공식이 아니고 (공식은 Google에 있다) 표준편차의 진정한 의미이다 ("표준편차는 데이터들이 얼마나 퍼져있는가를 나타낸다"라는 것은 의미가 아니라 정의다). 여기서는 예를 들어 설명하는 것이 좋을 것 같다. 


과일은 클수록 맛있단다 (그냥 들은 얘기다). 여기 사과 과수원이 2개 있다고 하자. 한 과수원당 한해 5,000박스, 박스당 100개의 사과가 출하된다고 가정하자. 그럼 한해에 500,000개가 출하된다. 각 과수원에서 출하되는 사과 크기 (지름으로 하자)의 평균을 어떻게 구할 수 있을까? 50만개 다 하나하나 재면 된다. 하지만 당신이 smart 하다면 이런 짓은 하지 않을 것이다. 우리는 통계를 배웠으므로 random 하게 sample 을 추출할 것이다. 각 과수원당 10개씩 랜덤하게 골라냈다고 가정하자. 그랬더니 그 10개의 평균이 과수원 A와 B 모두 10cm로 측정되었다. 그러면 우리는 과수원 A 에서 출하된 500,000개 전체의 평균도 대략 10cm 일 것이라고 추정 (estimate) 할 수 있다. 동의하는가? 과수원 B 에서 출하된 500,000개 전체의 평균도 대략 10cm 일 것이다. 물론 10cm 보다 조금 작을 수도 있고 클 수도 있다. 10cm 는 답이 아닌 추정이니까. 시간 많으면 500,000개 다 재던가.


자 이제 표준편차를 고려해보자. 과수원 A 에서 랜덤하게 추출한 10개의 사과는 평균 지름이 10cm 라고 했다. 그런데 하나하나 살펴보니 각 사과의 지름이 2cm, 2cm, 3cm, 4cm, 5cm, 9cm, 10cm, 17cm, 21cm, 27cm 였다. 우리는 지성인이므로 쉽게 평균을 구할 수 있다. (2+2+3+4+5+9+10+17+21+27)/10 = 10. 반면 과수원 B에서 추출한 10개의 사과들은 각각의 지름이 9cm, 10cm, 10cm, 10cm, 10cm, 10cm, 10cm, 10cm, 10cm, 11cm 였다. 평균은? (9+10+10+10+10+10+10+10+10+11)/10 = 10으로 과수원 A 에서 추출한 사과 샘플과 같다. 


여기서 질문. 여전히 과수원 A에서 출하된 500,000개 전체 사과의 평균이 10cm 라고 추정할 수 있는가?


위 질문에 아니라고 대답했다면, 왜 아니라고 대답했는가? 솔직히 말하자. 우리는 우리도 모르는 사이에 표준편차의 개념을 정확히 이해하고 이를 이용해 위 질문에 대답했다. 심지어 표준편차를 1도 모르는 우리 할머니에게 이 문제를 물어봐도 아니라고 답할 것이다. 왜? 왜 그런가? 이건 그냥 상식이니까 그렇다. 저건 그냥 상식적으로 말이 안된다. 샘플로 랜덤하게 골라낸 사과들의 지름이 저렇게 차이가 많이 나는데 어떻게 500,000개 사과 전체 평균지름이 10cm 라고 추정할 수 있겠는가. 다시 한번 의문이 든다. 우리는 왜 통계를 어렵게 공부해야만 하는가? 왜 공식만 외우고 답만 찾고 있는가? 그런건 그냥 컴퓨터가 1초만에 계산해 주는데. 이건 그냥 상식적인거다. 어떤 데이터의 표준편차가 크면 그 데이터를 바탕으로 추정한 값의 신뢰성이 떨어진다.


Sport Analytics (스포츠 분석학)에 대한 글을 쓰고 있음을 잠시 망각했다... 다시 스포츠로 돌아가서 야구 얘기를 해보자. 야구선수 A는 타율이 .320 이다. 100번 타석에 서면 평균적으로 32번 안타 혹은 홈런을 친다. 야구선수 B도 타율이 .320이다. 100번 타석에 서면 평균적으로 32번 안타 혹은 홈런을 친다. 근데 A 선수는 상대 에이스 투수만 만나면 죽을 쑨다. 근데 또 양학 (양민학살)에는 천부적 소질을 타고났다. 상대 투수가 신인이거나 좀 성적이 안좋은 투수면 홈런을 마구 쳐댄다. B 선수는 기복이 없다. 에이스 투수를 만나도 100번중 25번정도는 안타나 홈런을 치고 좀 못하는 투수를 만나도 100번 중 40번정도를 친다. 당신이 감독이라면 누구를 기용하겠는가? 당신이 General Manager 라면 누구에게 더 높은 연봉을 제시할 것인가? 이 선수들이 FA로 풀렸을 때 누가 더 많은 돈을 받을 것인가?


표준편차를 수학공식으로만 공부하고 표준편차가 분포를 나타낸다는 정의만 알고 있다면 이 질문에 답할 수 없다. 표준편차가 가진 진정한 의미가 무엇인지 깨달아야 한다. 


위의 예에서 A 선수보다는 B 선수가 훨씬 나은 선수이고 .320 이라는 이 B 선수의 타율은 아주 신뢰성 있는 이 선수의 타격능력에 대한 지표이다. 누가 더 높은 연봉을 받을까? 당연히 B일 것이다. 프로스포츠 선수에게 Consistency (어떻게 번역해야할 지 모르겠다...)는 가장 중요한 덕목 중에 하나이다. 부상없이 꾸준하게 커리어 내내 매경기 30점을 넣을 수 있는 농구선수가 있다면, 연봉이 얼마나 될지 상상도 되지 않는다. 농구를 전공하신 내 스승님 한분은 르브론 제임스가 대단한 점이 바로 이것이라 말하셨다. 저 몸에 저 운동능력을 발휘하면서 부상당하지 않고 꾸준하게 저렇게 경기하는건 인간의 레벨이 아니라고. 그리고 스포츠에서 이 Consistency (꾸준함?)은 표준편차로 추정할 수 있다. 


왜 우리는 그렇게 공식만 외워댔을까...

작가의 이전글 [SA 2] 스포츠에서 라이벌이 중요한 이유
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari