brunch

You can make anything
by writing

C.S.Lewis

by 이지훈 Mar 17. 2023

18년 차 Gooner가 보는
축구와 데이터 1

코드스테이츠 PMB17 W6D3


시작하며




 다른 스포츠들 특히 야구에서는 '세이버메트릭스(Sabermetrics)'라는 통계학적 방법론을 적극 도입하여 선수들을 객관적으로 평가하고 개선할 점을 보완하는 개념이 빠르게 자리를 잡았다.

 하지만 축구는 90분 동안 멈추지 않고 다양한 변수가 동시다발적으로 일어나는 스포츠이다 보니 데이터, 통계학적으로 접근하는 것이 큰 효용성이 없다는 게 중론이었다.


 그러나 축구 역시도 데이터 분석 기술이 발전함에 따라 점차 전문적이고 디테일한 데이터 지표가 등장하기 시작했고 유럽 축구뿐만이 아니라 우리나라 K리그 구단들 그리고 각국의 국가대표팀들도 훈련과 전술, 선수 영입 및 관리에도 적극 활용하고 있는 추세이다.



 이전에 올렸었던 W4D3 포스팅을 보듯이 나는 아주 오랜 세월 '아스날'이라는 잉글랜드 프리미어 리그 축구팀의 서포터이다. 포스팅의 제목처럼 아스날의 서포터들을 'Gooner'라고 부른다.

 이번 시즌은 지난 10여 년간의 부진을 씻고 시즌 종료까지 단 9경기만 남은 상태에서 2위 맨체스터 시티와 승점 5점 차이로 리그 1위를 달리고 있다.


https://brunch.co.kr/@easyhoon/19


 

 내가 응원하고 있는 아스날도 지난 2012년 StatDNA라는 스포츠 데이터 분석 업체를 인수하여 선수 영입 등에 다양한 통계 정보를 제공받고 있다. 물론 인수 초창기에는 StatDNA의 정보를 바탕으로 영입된 선수 대다수가 부진하여 실패했지만, 여러 시행착오를 개선하면서 최근 영입된 선수들은 대다수 성공적인 평가를 받았고 또 이는 아스날이 부진을 씻고 리그 우승 경쟁을 하고 있는 여러 요인 중 하나가 되었다.



2019년 이후 영입된 주요 선수들 평가. 제일 비싸게 데려온 페페를 제외하고는 대부분 'Hit' 대성공이다.







 이제는 우리와 같이 일반적인 축구 팬들도 집에서도 편하게 각종 데이터를 받아볼 수 있는 시대가 되었다. 옵타(Opta), Wyscout 등 데이터 분석, 가공 기관들을 필두로 전문적이고 디테일한 축구 데이터를 제공하기 시작했다. 단순히 패스 성공률이나 슈팅 개수만 보여주는 게 아니라 키패스(슈팅 찬스로 이어지는 위협적인 패스)라든가 xG(expected Goals, 기대 득점), 전체적인 선수들의 평균 위치 등을 제공하며 또 여러 크리에이터들도 이러한 데이터를 시각화하여 업로드하며 축구의 재미를 한층 더 높여주는 요소가 되어 주고 있다.


출처 : Twitter/@DatoBHJ

 

 이번 포스팅과 다음 포스팅에서는 내가 좋아하는 아스날이 속해있는 잉글랜드 프리미어리그를 주제로 데이터 가설을 세워보고 더 나아가 데이터 시각화까지 해보며 데이터와 실제 상황을 비교하며 해석하는 역량을 키우고자 한다. 






실제 데이터 수집



 먼저 'Kaggle'이라는 사이트에서 분석할 만한 실제 데이터를 찾아보았다.


Kaggle이란? - https://www.kaggle.com/

2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 


 아스날이 1위를 달리고 있는 2022-2023 시즌은 현재 진행 중인 시즌이기 때문에, 지난 시즌인 2021-2022 시즌 데이터를 수집하고자 하였고, 적절한 데이터 자료를 찾게 되었다.



2021-2022 Season England Premier League Team Data 링크


 

해당 자료를 받아보니, 각 구단의 패스 지표, 포제션(볼 소유권), 슈팅 지표 세분화 된 항목으로 자세한 데이터를 담고 있었다.







가설 설정


Kaggle에서 얻은 데이터를 토대로 3가지 가설을 세워보았다.





가설 1


볼 점유율이 높으면 패스의 길이도 짧을 것이다.

:  과거 스페인과 바르셀로나가 패러다임을 일으켰던 '티키타카'와 현재 아스날, 맨체스터 시티 등이 추구하고 있는 축구는 점유율, 공간, 압박 세가지 키워드로 정리할 수 있다. 높은 점유율을 바탕으로 많은 패스를 하며  상대방을 빈 공간으로 집요하게 공격하고, 강한 압박으로 볼을 탈취해 다시 공격한다. 볼을 오래 소유하기 위해서는 동료들간의 간격이 촘촘할 것이고, 그만큼 패스의 길이도 짧아질 것이라 예상한다.



확인해야 할 지표

england_premier_league_squad_passing_stats_22.csv

CmpSh : Short completed passes(짧은 패스 성공)

AttSh : Attempted short passes(짧은 패스 시도)

CmpShRt : Short completed passes percentage(짧은 패스 성공률)


england_premier_league_squad_possession_22.csv

Poss: Team Average Possession(팀 평균 점유율)



시각화 설계


 X축은 패스와 관련된 지표, Y축은 점유율로 나타내고, 패스 성공률이 높을수록 원을 크게 하는 방식을 생각해 보았다.






가설 2


높은 지역에서 압박을 하는 팀은 압박 시도도 많이 할 것이다.

: 높은 지역에서 압박하여 상대의 볼을 뺏으려 하는 만큼, 뒤로 물러서는게 아니라 적극적이라 수비할 것이라 생각하여 압박 시도 횟수가 많을 것이라 예상한다.



확인해야 할 지표

england_premier_league_squad_defensive_actions_22.csv

Att3rdPres: 공격 3rd의 압박

PressTot : 전체 압박 시도 횟수

PressRt : 압박 성공률




시각화 설계


 위 그래프와 같이 X축은 압박 시도 횟수와 성공률, Y축은 공격 지역에서의 압박 시도 횟수를 나타내어 비교하는 방식을 생각했다.







가설 3


파이널 써드* 영역을 차지하고 있는 팀은 많은 슈팅을 시도할 것이다.

: 위험지역에서 머물면서 기회를 많이 만들 것이고, 그만큼 많은 슈팅을 할 것이라 생각한다.



확인해야 할 지표

englandpremierleaguesquadshooting22.csv

TotSh : 팀의 전체 슈팅


englandpremierleaguesquadpossession22.csv

Poss: Team Average Possession(팀 평균 점유율)

1/3Carr : 상대 골문에 가장 가까운 1/3 지점에 들어간 이동 횟수

Att3rdTouc : 상대 골에 가장 가까운 1/3 지점에서 볼터치한 횟수




파이널 써드란(1/3)?


위 그림에서 보듯이 빨간색 팀이 화살표 방향대로 공격하고 있을 때 노란색으로 표시한 영역. 경기장의 1/3 지점 즉, 상대 진영 바로 앞 위험 지역을 뜻하는 축구 용어이다.




시각화 설계


 해당 가설도  위 그래프와 같이 X축은 파이널 써드 영역에 관한 지표 Y축은 슈팅 시도 횟수를 나타내어 비교하는 방식을 생각했다.





 다음 포스팅에서는 위 세가지 가설에 대한 데이터를 추출하고, 시각화하며 데이터와 실제 축구 상황도 일치하는지 검증하려 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari