WHIP와 ERA는 약 0.95로 매우 강한 양의 상관관계가 있으며, 이는 WHIP가 증가하면 ERA도 증가하는 경향이 나타난다는 것을 뜻합니다.
평균 연령과 이닝 수는 ERA와 약한 음의 상관관계를 보입니다. 평균 연령이나 이닝 수가 높아짐에 따라 ERA가 낮아지지만 그 정도는 크지 않습니다.
평균 연령과 이닝 수는 모두 WHIP와 아주 약한 상관관계를 보이며, 두 변수 간에는 약간의 음의 상관관계가 있습니다.
4. 회귀분석
다중 상관계수는 약 0.95로 매우 높게 나타나고, 조정된 결정계수는 약 0.86으로 이는 ERA 변동 대다수가 독립변수로 인해 설명됨을 의미합니다.
분산분석표에서 F-값 약 19.73에 대응하는 P-값이 약 0.0016으로 유의수준 0.05보다 작습니다. 따라서 귀무가설이 기각되고, 독립변수들 중 하나는 종속변수에 유의하게 기여함을 알 수 있습니다.
독립변수들의 회귀계수의 t-값은, 약 7.47로 매우 높게 나타나는 WHIP를 제외하면 2의 절댓값보다 작아 통계적으로 유의하지 않습니다. P-값 또한 약 0.0003으로 나타나는 WHIP를 제외하면 0.05보다 크기 때문에 통계적으로 유의하지 않습니다.
5. 결론
독립변수 투수의 평균 연령, 투구 이닝 수, WHIP 중 WHIP만이 종속변수 ERA를 설명할 수 있는 것이 확인되었습니다. 즉 투수의 나이나 이닝 수는 투수의 실점에 큰 영향을 미치지 않으며, 주자를 많이 출루시키는 투수가 점수를 많이 잃는다는 것입니다. 그러나 이는 선수 개인이 아닌 구단별 수치를 적용한 결과임을 고려해야 하며, 평균 연령과 이닝 수의 차이가 커지는 개인 지표를 사용하면 독립변수의 통계적 유의성에 변동이 생길 수 있습니다.
6. 출처
Kaggle. (2024). Korean Baseball Pitching Data (1982 - 2021) [Dataset].