brunch

You can make anything
by writing

C.S.Lewis

by lunar Nov 01. 2021

[SA 1] 통계가 스포츠를 만났을 때

Sport Analytics! 머니볼이 다가 아님.

"확통은 그냥 틀릴래!"


우리는 하루에도 무수히 많은 통계 분석 자료들을 접하면서도 "통계"라는 단어에 태생적 거부감을 가진다. 이건 아마도 (개인적인 생각이지만) 중학교 3학년 기말고사 시험범위에 확률과 통계가 포함되지 않았던 경우가 많았기 때문이 아닌가 싶다. 요새는 어떤지 모르겠네요... 이상하게도 (하지만 다들 당연스럽게 받아들인다), 고등학교 수학과정에서도 확률과 통계는 가장 마지막에 가서야 살짝 배우고 마는 무언가 이상한 분야였다. 내가 고3 때 자주 하던말이 있었다. "확통 (확률과 통계)는 그냥 틀릴래!"


하지만 여기서 나는 확언한다! 통계는 언제나 우리 곁에 있었고, 앞으로도 그럴 것이고, 우리가 이해해야할 수준의 통계는 사실 어렵지 않을 뿐더러, 우리는 이미 통계를 잘한다. 아주 약간의 예로도 우리가 통계 분석자료를 잘 활용한다는 사실을 깨달을 수 있다. 


우리는 야구를 보면서 항상 생각한다. "쟤는 왜 저렇게 돈을 많이 받는거야? 고작 2할 8푼 치면서!" 물론 연봉이 그들의 10분의 1도 되지 않는 우리들의 자조적인 외침일수도 있겠지만 이 한문장은 우리의 높은 통계 지식 수준을 드러내 준다. 


이미 우리는 저 타자가 10번 타석에 서면 약 2.8번 안타를 친다는 아주 중요한 통계 분석 결과를 인용하고 있다. 더군다나 우리는 우리 사회의 연봉 수준에 대한 대략적인 분포를 이해하고 있다. 대략 어느 정도 사회적 수준이 되어야 프로야구 선수 정도의 연봉을 받을 수 있는지 가늠하고 있다는 뜻이다. 우리는 야구 선수끼리 비교했을때도 10번 타석에 서서 2.8번 안타를 치는 타자가 어느 정도 연봉을 받는 것 이 적절한지도 경험적으로 추정하고 있다.


통계는 언제나 100% 확실하지 않다. 확실한 답을 알 수 있다면 통계가 필요하지도 않다. 우리는 그저 빠르고 간편하게 정보를 처리하고 싶고 통계는 이에 아주 유용한 도구이다. 다시 야구 선수를 예로 들면, 연봉이 10억인 타자가 왜 10억을 받을 가치가 있는지를 타율만 가지고 설명할 수는 없다. 타율보다 더 효율적인 측정 지표도 많을 뿐더러 프로야구 선수들은 실력 외에도 연봉에 영향을 미치는 요소들이 있을 수 있다 (외모가 뛰어나 인기가 많다든지 구단에 오랫동안 공헌해 온 상징적인 선수라든지 등등). 하지만 타율만큼 직관적으로 그리고 간편하게 한 타자의 능력을 표현해주는 수치도 없다. 2020 시즌 키움 히어로즈 이정후 선수의 타율은 8월 5일 기준 3할 6푼 9리이다. 10번 타석에 서면 약 3.7번 안타를 친다. LG 트윈스의 김현수 선수는 8월 5일 기준 3할 5푼 3리이다. 김현수 선수는 2018년 4년간 115억원에 FA계약을 맺었고, 이정후 선수의 현재 연봉은 3억 9천만원이다. 우리는 아주 쉽게 이정후 선수의 추후 FA 계약금액을 대략적으로 유추해볼 수 있다. KBO가 독점이 아니라면 아마 지금 당장 이정후 선수는 4년 150억 이상은 받지 않을까?


통계학에 Descriptive Statistics라는 용어가 있다. 흔히 기술(記述)통계학이라고 번역되는데 번역이 참 맘에 들지 않는다. 기록할 기, 펼 술, 즉 서술하다 묘사하다 뭐 이런 뜻인데 와닿지 않는다. 왠지 기술통계학이라고 하면 통계학과 박사 정도는 되야 이해할 수 있을 것 처럼 느껴진다. 사실은 그저 우리가 중학교 때 이미 마스터 한 평균, 중앙값, 최빈값, 분산, 표준편차 등을 의미한다.


우리는 이 간단한 통계 분석 자료만으로도 정말 재미있고 현실적으로 유의미한 분석들을 할 수 있다. 예를 들어, 테니스에서, 특히 남자 단식에서, 1st 서브의 중요성은 두번 말하면 입 아플 정도이다. 1st 서브가 얼마나 좋은지를 측정하기 위한 다양한 수치 중에 1st Serve Points Won 항목이 있다. 첫번째 서브를 넣은 후 그 해당 포인트를 승리했는가 여부를 알려준다 (서브가 강하고 정확할 수록 확률이 높아지겠지요?). 2020 시즌 (8월 5일 기준), 랭킹 1위 조코비치의 1st Serve Points Won 확률은 78%, 랭킹 2위 나달은 76%, 랭킹 3위 도미니크 팀은 76%, 랭킹 4위 페더러는 74%, 그리고 랭킹 5위 메드베데프는 74%이다.

소름 돋지 않는가?! 랭킹 순위와 1st Serve Points Won 이 거의 비슷하게 떨어진다! 이건 물론 우연의 일치일 수도 있다. 예외가 많다. 서브가 주특기인 선수들은 이 수치가 아주 높게 나오기 때문이다. 랭킹 6위 치치파스는 82% 다. 이 통계분석이 완벽하지 않음에도 불구하고 우리는 이 수치를 통해 아주 쉽게 "아 남자 단식 테니스에서는 서브가 정말 중요하구나" 하는 정보도 얻을 수 있고, 경기 결과를 예측해볼 수도 있고, 누가 더 좋은 선수인지 이 항목으로 비교해 볼 수도 있다. 얼마나 간편한가!


재미있는 통계분석으로 안 그래도 재미있는 스포츠를 더 재미있게 즐기고 싶다!


스포츠 분석학 (Sport Analytics)에서는 크게 Performance Analytics 와 Business Analytics 를 연구한다. 쉽게 말하면 어떻게 하면 이길까? & 어떻게 하면 이를 통해서 돈을 잘 벌까? 이렇게 두가지 분야를 연구한다고 생각하면 될 것 같다.

작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari