brunch

[통계교양]투수의 평균자책점에 영향을 미치는 요인 분석

Kaggle 데이터를 활용한 회귀분석 실습

by 은겨자버섯

1. 변수 설정

투수의 평균 연령(average_age), 투구 이닝 수(innings_pitch), WHIP와 ERA 사이의 관계를 분석합니다.


WHIP (Walks plus Hits per Inning Pitched): 투수가 한 이닝 동안 상대팀에게 허용한 출루 수.

WHIP = (볼넷+안타)/이닝 수


ERA (Earned Run Average): 투수의 평균자책점. 투수가 이닝당 허용한 점수의 평균을 의미한다. 야수의 실책으로 인한 실점은 제외한다.

ERA = (자책점/투구한 이닝 수)*9



카글(Kaggle)을 이용해 2021년 KBO 10개 구단별 투수 평균 지표를 확인하였습니다.

URL: https://www.kaggle.com/

사용한 데이터셋:

average_age

innings_pitch

WHIP

ERA




2. 기술통계량




3. 상관관계


WHIP와 ERA는 약 0.95로 매우 강한 양의 상관관계가 있으며, 이는 WHIP가 증가하면 ERA도 증가하는 경향이 나타난다는 것을 뜻합니다.

평균 연령과 이닝 수는 ERA와 약한 음의 상관관계를 보입니다. 평균 연령이나 이닝 수가 높아짐에 따라 ERA가 낮아지지만 그 정도는 크지 않습니다.

평균 연령과 이닝 수는 모두 WHIP와 아주 약한 상관관계를 보이며, 두 변수 간에는 약간의 음의 상관관계가 있습니다.



4. 회귀분석

다중 상관계수는 약 0.95로 매우 높게 나타나고, 조정된 결정계수는 약 0.86으로 이는 ERA 변동 대다수가 독립변수로 인해 설명됨을 의미합니다.

분산분석표에서 F-값 약 19.73에 대응하는 P-값이 약 0.0016으로 유의수준 0.05보다 작습니다. 따라서 귀무가설이 기각되고, 독립변수들 중 하나는 종속변수에 유의하게 기여함을 알 수 있습니다.

독립변수들의 회귀계수의 t-값은, 약 7.47로 매우 높게 나타나는 WHIP를 제외하면 2의 절댓값보다 작아 통계적으로 유의하지 않습니다. P-값 또한 약 0.0003으로 나타나는 WHIP를 제외하면 0.05보다 크기 때문에 통계적으로 유의하지 않습니다.



5. 결론

독립변수 투수의 평균 연령, 투구 이닝 수, WHIP 중 WHIP만이 종속변수 ERA를 설명할 수 있는 것이 확인되었습니다. 즉 투수의 나이나 이닝 수는 투수의 실점에 큰 영향을 미치지 않으며, 주자를 많이 출루시키는 투수가 점수를 많이 잃는다는 것입니다. 그러나 이는 선수 개인이 아닌 구단별 수치를 적용한 결과임을 고려해야 하며, 평균 연령과 이닝 수의 차이가 커지는 개인 지표를 사용하면 독립변수의 통계적 유의성에 변동이 생길 수 있습니다.



6. 출처

Kaggle. (2024). Korean Baseball Pitching Data (1982 - 2021) [Dataset].

출처: https://www.kaggle.com/datasets/mattop/korean-baseball-pitching-data-1982-2021

OpenAI. (2024). ChatGPT(4 버전)[Large language model]. https://chatgpt.com

keyword