데이터 기술 발전이 의미하는 것은 무엇인가
농구를 잘 모르는 사람도 득점, 리바운드, 어시스트 정도는 들어봤을 거다. 이걸 스탯(stats)이라고 부른다. 선수가 경기에서 활약한 결과를 수치로 나타낸 것이다. 이외에도 블록, 스틸, 턴오버, 득실마진, 야투율 등의 스탯이 있으며, 각 팀과 선수들은 이 스탯이란 걸 기준으로 평가 받는다. 예를 들어 무한도전에 나왔던 스테판 커리는 현재 정규 시즌 평균 26.6 득점, 5.2 리바운드, 6.5 어시스트를 기록하고 있다. 이는 시즌 MVP 4순위에 해당한다.
이렇듯 스탯은 스테판 커리가 훌륭한 선수라는 걸 알려준다. 커리를 비롯한 다른 모든 NBA 선수의 상세 스탯은 nba.com을 통해 누구든 볼 수 있다. 다른 리그나 스포츠도 마찬가지로 공식 사이트를 통해 스탯 데이터를 제공한다. 그래서 문득 이런 생각이 든다. 스포츠의 세계는 모든 것이 명확하겠구나! 스탯으로 줄을 쫙 세워서 가장 훌륭한 선수와 가장 잘하는 팀을 알 수 있을 테니까 말이다.
하지만 꼭 그렇진 않다. NBA 커뮤니티 단골 소재는 “A 선수가 B 선수보다 잘하지 않나요?” 같은 글이다. 한 사람이 저렇게 판을 깔아놓으면 수많은 댓글이 다양한 스탯을 근거로 누가 더 뛰어난 선수라며 공방을 펼친다. 스탯만으로 그 선수의 모든 역량을 충분히 알 수 없어서 생기는 논란이다.
예를 들어 골밑 덩크로 2점슛만 던지며 50%의 야투율을 기록하는 A 선수, 외곽에서 3슛만 쏘며 40%의 야투율을 기록하는 B 선수가 있다고 치자. 야투율만 보면 A 선수가 더 효율적인 득점원 같지만 3점슛 성공률을 보정하면 그 반대가 된다. 50% 확률로 2점슛을 넣을 때 한 포제션 당 기대 득점은 1점(2x50)인데, 40% 확률로 3점슛을 넣을 때는 1.2점(3x40)이기 때문이다. 쉽게 말해 2점슛을 100번 던져서 50개 넣을 때보다 3점슛을 40번 넣을 때 점수가 더 높다는 뜻이다.
이는 단순히 몇개 던져서 몇개 넣었는지가 아니라 똑같은 기회가 주어질 때 누구의 득점이 더 높을지로 계산한 3점슛 보정 야투율(eFG%)을 볼 때 알 수 있는 점이다. 빠르게 3점슛을 던지며 높은 득점 효율을 추구하는 현대 농구에서 특히 중요하게 여기는 지표 중 하나다. 이 외에도 선수의 종합 효율을 측정하는 PER, 2점슛과 3점슛과 자유투 성공률을 종합한 TS%와 같은 2차 스탯이 있다. 1차 스탯을 수식에 맞춰 재가공한 수치라서 2차 스탯이라 부른다.
http://stats.nba.com/articles/dig-deeper-into-the-game-with-new-defensive-and-hustle-data/
얼마 전 NBA가 새로운 스탯 데이터를 제공한다는 뉴스가 나왔다. 선수의 박스아웃 수치, 온코드 매치업 실점 수치, 특정 전수 매치업 실점 수치까지 총 3가지다. 특히나 박스아웃 수치는 빅맨이 박스아웃만 하고 발 빠른 가드가 리바운드를 잡아 바로 속공으로 전개하는 현대 농구 트렌드에 맞춰 빅맨의 능력을 파악하기 위해서인 듯 싶다.
예를 들어 오클라호마시티 썬터의 센터 스티브 아담스는 올시즌 평균 9.1개의 리바운드를 기록해 전체 리바운드 순위 탑 10에도 들지 못하는데, 평균 박스아웃은 11.3개로 리그 전체 1위다. 이 팀은 포인트가드 포지션으로 평균 리바운드를 10개씩 잡아내는 괴물 러셀 웨스트브룩이 있다. 즉 NBA가 새롭게 제공하는 박스아웃 수치를 통해 러셀 웨스트브룩의 괴랄한 평균 리바운드가 사실 스티브 아담스의 궂은 일 덕이라는 걸 알 수 있다. 아담스는 정말.. 정말로 훌륭한 빅맨이다.
리그가 구체적인 데이터를 제공할수록 선수와 팀의 경기 전략은 발전한다. 빠른 3점슛 위주로 흘러가는 현대 농구 트렌드는 미들슛과 롱2의 득점 효율이 3점슛보다 낮다는 명백한 통계에 근거한 변화다. 이러한 변화는 전통적인 포지션 개념의 파괴를 낳고 있다. 3점슛이 없는 빅맨의 가치가 급락한 것이다. 농구는 센터 놀음이라는 것도 다 옛말이다. 이러한 트렌드는 룰 개편과 같은 급격한 변화가 없다면 유지될 전망이다. 데이터는 그래서 중요하다. 새로운 유형의 데이터는 새로운 기준으로 대상을 바라보는 시각을 길러주기 때문이다.
하지만 데이터 과학이 아무리 발전해도 맹신할 수야 없다. 풀경기 대신 하이라이트 영상과 스탯만 보고 이야기 하는 사람도 종종 있다. 이들은 스탯이 전부인 줄 안다. 어떤 2차 스탯이든 맹점은 있다는 걸 모르고 있는 것 같다. 예를 들어 가장 통합적으로 선수 효율성을 평가할 수 있다며 널리 쓰이는 PER만 해도 선수의 수비 효율은 충분히 반영하지 못한다. 스탯에 드러나지 않는 궂은 일을 도맡는 선수는 저평가받기 쉽상이다.
데이터 기술의 발전은 데이터를 중요한 도구로 만들어줄 뿐이다. 어쨌든 데이터는 언제까지고 도구다. 편향된 새로운 시각은 프레임일 뿐이라는 걸 잊지 말자. | 이창민 2018.02.22.