brunch

[통계교양]구장의 구조 및 환경요소와 득점 파크팩터

조별 프로젝트 최종 보고서

by 은겨자버섯

1. 현실의 의문 또는 문제제기

1-1. 연구의 배경 및 중요성

데이터의 스포츠, 야구. 국내 1000만 관중을 달성한 이 스포츠의 열기는 지금 우리나라에서, 그 어떤 종목보다 높다. 야구의 이러한 재미를 보장하는 전략적 요소로서, 파크팩터는 그 한 축을 자리한다. ‘파크팩터’는 야구장의 구조적, 환경적 요소가 경기에 미치는 영향을 측정하기 위해 도입된 지표이다. 즉 야구장의 물리적 설계는 경기 결과와 전략 수립에 실질적인 영향을 미칠 수 있기 때문에 구장의 특성에 따라 득점이 많거나 특정 유형의 선수가 더 선호된다. 예를 들어, 장타력이 뛰어난 선수가 작은 구장에서 더 큰 가치를 지닌다. 경기장의 환경적 요소도 무시할 수 없다. 상대적으로 높은 기온은 타구 비거리 증가와 같은 효과를 가져올 수 있다. 따라서 특정 도시나 지역의 고도, 습도, 계절적 기후 변화 패턴 등은 구장의 고유 특성을 형성한다. 추가적으로, 선수 스카우트 전략에서 감독은 개인의 기량을 정확히 측정하기 위해 구장에 의한 영향을 제외할 필요가 있다. 같은 완봉, 완투라도 어떠한 구장에서 기록했느냐에 따라 기량을 다르게 측정할 수 있어야 한다.

야구의 이러한 재미를 보장하는 전략적 요소로서, 파크팩터는 그 한 축을 자리한다.

그러나 파크팩터의 계산식에는 야구장의 구조적 및 환경적 요소가 포함되지 않는다. 이러한 요소들이 파크팩터에 얼만큼 영향을 주는지 알 수 없다면, 파크팩터의 ‘전략적 판단의 기준’이라는 정체성은 흐려질 것이다. 때문에, 파크팩터와 야구장의 구조적 및 환경적 요소와의 관계를 명확히 분석할 필요가 있다. 이 연구는 구장의 구조와 환경적 요소를 체계적으로 분석하여 파크팩터 수치에 미치는 영향을 규명함으로써, 파크팩터의 전략적 활용 기반을 다질 것이다.




2. 가설 설정 (H₀)

2-1 귀무가설 및 대립가설 설정


귀무가설(H₀) :

‘left-middle-right, fence, min-wall, max-wall 등 구장의 구조와 온도, 고도, 잔디 등 환경적인 요소가 점수 득점(파크팩터터)에 영향을 주지 않는다.’

야구 경기에서 구장의 구조적 특성(예: 좌익수, 중견수, 우익수 방향의 거리, 펜스 높이, 최소 및 최대 벽 높이)과 환경적 요인(예: 경기 당시의 기온, 고도, 잔디 상태, 풍향 및 풍속 등)은 경기의 점수 득점에 유의미한 영향을 미치지 않는다.


각 독립변수 (구장의 구조적 요소)에 대해:

left-center-right field (좌, 중, 우 방향의 거리): 외야 펜스까지의 거리나 특정 구역의 비대칭성은 점수 득점에 영향을 미치지 않는다.

펜스(fence): 펜스 높이나 형상(예: 직선형, 곡선형 등)이 경기 중 득점에 미치는 효과는 없다.

min-wall, max-wall height: 벽 높이의 차이가 홈런 및 기타 플레이에 영향을 주지 않는다.


각 독립변수 (구장의 환경적 요소)에 대해:

Average Temperature (°C): 경기 당일의 기온 변화는 타구의 비거리와 득점에 아무런 상관관계가 없다.

Elevation (m): 구장이 위치한 고도가 공의 비거리, 선수의 경기력, 점수 득점에 영향을 미치지 않는다.

Grass_Natural: 천연잔디 또는 인조잔디 여부 및 잔디의 관리 상태는 점수 득점과 관계가 없다.



대립가설(H₁) :

‘left-middle-right, fence, min-wall, max-wall 등 구장의 구조와 온도, 고도, 잔디 등 환경적인 요소가 점수 득점에 영향을 준다.’

야구 경기에서 구장의 구조적 특성과 환경적 요인은 점수 득점(파크팩터)에 유의미한 영향을 미친다.


각 독립변수(구장의 구조적 요소)에 대해:

left-center-right field(좌, 중, 우 방향의 거리): 외야 펜스까지의 거리 및 특정 구역의 비대칭성이 타구의 비거리와 홈런 빈도, 그리고 점수 득점에 영향을 준다.

펜스(fence): 펜스 높이나 형상(예: 직선형, 곡선형 등)이 공의 타구 궤적, 홈런 빈도, 그리고 점수 득점에 영향을 미친다.

min-wall, max-wall height: 벽 높이의 차이가 공의 방향과 궤적, 득점 상황(예: 홈런, 2루타 등)에 영향을 미친다.


각 독립변수(구장의 환경적 요소)에 대해:

Average Temperature (°C): 경기 당일의 기온이 공기의 밀도 및 공의 비거리에 영향을 주어 점수 득점에 변화를 일으킨다.

Elevation (m): 고도가 높은 구장은 공기 밀도가 낮아 타구의 비거리가 증가하며, 이는 홈런 및 득점에 영향을 미친다.

Grass_Natural: 천연잔디와 인조잔디의 차이 및 잔디의 관리 상태가 공의 움직임 및 수비 동작에 영향을 미쳐 점수 득점의 차이를 발생시킨다.




3. 데이터 구조 및 데이터 수집 방법

3-1. 데이터의 구성 및 필요 변수

모든 변수는 2022년 시즌(2022년 3월부터 2022년 11월까지)을 기준으로 한다.

MLB(미국 및 캐나다) 30개, KBO(대한민국) 9개, NPB(일본) 12개 구장의 데이터를 사용하였다.


*MLB만으로 분석을 시작하였으나 표본의 개수를 늘리자는 피드백을 반영하여 KBO와 NPB 데이터를 추가하였다.



종속변수


Park Factor(파크팩터)

파크팩터(득점 파크팩터)는 야구 경기장의 성향을 나타내는 지표로, 각 구장이 타자 혹은 투수에게 유리한 정도를 표현한다.

*구장별 홈런 개수를 종속변수로 두었다가, 타자 및 투수의 개인 역량이 크게 반영되며 리그별 차이를 보정하기 어려운 지표임을 감안하여 파크팩터로 변경하였다.



독립변수


MLB의 경우 야드파운드법과 화씨온도를 사용하나, 세계적으로 널리 쓰이는 단위인 미터법 및 섭씨온도로 통일한다.


구장 변수: Left Field(좌측 담장), Center Field(중앙 담장), Right Field(우측 담장), Minimum Wall Height(가장 낮은 담장), Maximum Wall Height(가장 높은 담장), Grass_Natural(천연잔디 여부)
환경 변수: Average Temperature(평균 기온), Elevation(고도)



Left Field, Right Field (m)

홈에서 좌/우측 펜스까지의 거리를 나타낸다.


Center Field (m)

홈에서 중앙 펜스까지의 거리를 나타낸다.


Minimum/Maximum Wall Height (m)

경기장에서 가장 낮은/높은 펜스의 높이를 나타낸다.


Average Temperature (°C)

경기장이 위치한 지역의 야구 시즌 중(3월~11월) 평균 기온을 나타낸다.


Elevation (m)

경기장이 위치한 고도를 나타낸다.


Grass_Natural

경기장의 잔디가 천연잔디인지, 혹은 인조잔디인지 여부를 나타낸다. 천연잔디의 경우 1, 인조잔디의 경우 0으로 표시하는 더미변수로 활용하였다.




3-2. 데이터의 출처 및 수집 방법

캐글(Kaggle)의 MLB Ballparks 데이터셋:

URL: https://www.kaggle.com/datasets/paulrjohnson/mlb-ballparks

KBO와 NPB 데이터를 추가하며 단위를 미터법 및 섭씨온도로 변환하였다. Left field, Right Field, Center Field, Minimum Wall Height, Maximum Wall Height, Average Temperature, Elevation 자료를 제공하였다.


MLB 공식 홈페이지:

URL: https://www.mlb.com/team

위 링크에서 연결되는 각 팀의 홈페이지 또한 활용하였다.

Grass_Natural 자료를 제공하였다.


Baseball Savent의 Satcast Park Factors 페이지:

URL: https://baseballsavant.mlb.com/leaderboard/statcast-park-factors

Park Factor 자료를 제공하였다.


KBO 공식 홈페이지:

URL: https://www.koreabaseball.com/Kbo/League/TeamInfo.aspx

위 링크에서 연결되는 각 팀의 공식 홈페이지 또한 활용하였다.

Left field, Right Field, Center Field, Minimum Wall Height, Maximum Wall Height, Grass_Natural 자료를 제공하였다.


스탯티즈(STATIZ)의 추가 정보 페이지:

URL: https://statiz.sporki.com/add/

Park Factor, Left field, Right Field, Center Field, Minimum Wall Height, Maximum Wall Height 자료를 제공하였다.


구글 어스(Google Earth):

URL: https://earth.google.com/

Elevation 자료를 제공하였다.


기상청 기상자료개방포털:

URL: https://data.kma.go.kr/cmmn/main.do

Average Temperature 자료를 제공하였다.


NPB 공식 홈페이지:

URL: https://npb.jp/teams/

위 링크에서 연결되는 각 팀 및 구장 공식 홈페이지 또한 활용하였다.

Park Factor, Left field, Right Field, Center Field, Minimum Wall Height, Maximum Wall Height, Grass_Natural 자료를 제공하였다.


NPB Park Factor:

URL: https://baseball-chronicle.jp/stadium/2022

URL: https://ranzankeikoku.blog.fc2.com/blog-entry-4607.html

Park Factor 자료에 참고하였다.


Yahoo! Japan 날씨:

https://weather.yahoo.co.jp/weather/jp/past/

Average Temperature 자료를 제공하였다.


기타:

여러 신문기사를 통해 자료를 교차검증하였다.

ChatGPT와 Prperplexity.ai를 Average Temperature 데이터 수집 및 가공에 참고하였다.

OpenAI. (2024). ChatGPT(4 버전)[Large language model]. https://chatgpt.com

Perplexity AI. (2024). Perplexity AI (September 20 version) [Large language model]. https://www.perplexity.ai





4. 데이터 분석

4-1. 상관분석과 회귀분석을 사용한 데이터 분석

상관관계와 회귀분석 방법을 사용한 이유는, 엑셀을 이용해 쉽게 결과를 얻을 수 있으며, 또한 상관 계수나 p-value등 수치적으로 분석결과를 간편하게 판단할 수 있는 도구들이 있기 때문이다. 즉 분석의 간편함과 익숙함의 장점을 들어 이러한 방법을 채택하였다.


절차 다음과 같다.

1. 엑셀을 이용해 상관 관계를 먼저 분석한다.

2. 표로 시각화하여 종속변수와 상관계수가 높은 변수들을 파악한다.

3. 엑셀을 이용해 종속변수와 각 변수들 간의 회귀분석 결과를 얻는다.

4. 상관계수와 p값을 이용해 결과를 해석하되 2. 과정에서 주목한 변수들을 중심으로 분석한다.


단일회귀분석은 한 종속 변수에 대해 하나의 독립변수와의 관계를 분석하며, 이를 이용해 각 종속변수에 대해 모든 종속 변수와의 관계를 분석할 수 있었다.

각 리그의 수준 차이를 보정하기 위해 각 리그의 파크팩터를 리그 별 파크팩터 평균값으로 나눠주는 보정 처리를 하였다. 보정은 중앙값 보정과 평균값 보정을 하였으나 파크팩터의 수치가 계산에 모두 포함되는 평균값 기준 보정 파크팩터를 주로 두고 분석하였다.



4-2. SVM을 사용한 데이터 분석

SVM(Soft Vector Machine) 분석 방법을 사용한 이유, 엑셀에서 다중회귀분석으로 데이터를 분석해본 결과 종속변수에 대해 독립변수들이 유의미한 결과를 나타내지 못했다. 이는 표본 수가 부족하거나 데이터의 분포가 비선형의 형태를 띨 가능성이 있기 때문이다. 따라서 적은 데이터로도 과적합 없이 분류나 회귀 문제를 해결하고 비선형 분포의 한계를 극복하고자 SVM 분석을 사용했다. 해당 분석은 orange machine learning software에 있는 알고리즘을 사용하였다.


절차 다음과 같다.

1. 엑셀을 이용해 데이터를 정리한다.

2. Orange에 엑셀파일을 가져오고 데이터의 독립변수를 feature로, 종속변수를 target으로 설정한다.

3. SVM algorithm을 사용해 file을 분석한다.

4.Scatter Plot으로 분석 데이터를 시각화 및 해석한다.




4-3. Decision Tree를 사용한 데이터 시각화

결정트리(Decision Tree) 분석 방법을 사용한 이유, 파크팩터가 독립변수에 따라 어떻게 분류되는지 또 어떤 변수에 강하게 영향을 받는지 시각적으로 확인하기 용이하기 때문이다. 이 분석은 SVM과 마찬가지로 비선형 관계를 효과적으로 모델링할 수 있고, 결과에 대해 유연하게 대처 가능하다. 해당 분석은 orange machine learning software에 있는 알고리즘을 사용하였다.


절차 다음과 같다.


1. 엑셀을 이용해 데이터를 정리한다.

2. Orange에 엑셀파일을 가져오고 데이터의 독립변수를 feature로, 종속변수를 target으로 설정한다.

3. Tree algorithm을 사용해 file을 분석한다.

4, Tree Viewer를 통해 트리 구조를 해석한다.

그림 4-3. Orange software를 통한 데이터 분석 도식도


먼저, file에 data가 담긴 excel 파일을 불러온다. 그리고 t-SNE를 통해 데이터의 대략적인 분포를 보았다. 또한, 변수들 간의 상관관계도 확인하였다. 그 이후 data를 SVM과 Tree algorithm과 연결시키고 test and score를 통해 퍼포먼스를 확인하였다. 데이터가 잘 분류되었는지 error score와 R2를 확인하였다. Scatter Plot과 Tree Viewer를 통해 각 알고리즘의 분석을 시각화했다. 아래 SVM, Decision Tree 분석 사진은 이 시각화 자료를 통해 이뤄졌다.




5. 결과 해석 및 함의

5-1. 분석 결과


상관관계와 회귀분석


1) 상관분석

회귀분석에 앞서, 각 리그 별로 상관관계를 분석한 결과는 다음과 같다.


1-1) MLB의 경우 (표본 수: 30)

그림 5-1-1. MLB 데이터에서 각 변수들 간의 상관계수
그림 5-1-2. 평균값 기준으로 보정된 파크팩터와 각 독립변수들 간의 상관계수(MLB)


그림 5-1-1는 MLB 데이터에서 각 변수들 간의 상관계수를 표로 나타낸 것이며 그림 4-1-2는 그림 5-1-1의 데이터를 이용해 평균값으로 보정된 파크팩터와 각 독립변수들 간의 상관관계를 그래프로 나타낸 것이다. 연평균 기온과 경기장의 고도가 보정된 파크팩터와 가장 높은 상관계수를 가졌으며, 그 외의 변수들은 더 약한 상관관계를 보이거나 아예 0에 가까운 상관관계를 보이기도 하였다.



1-2) KBO의 경우 (표본 수: 9)

KBO의 경우 min_wall_height, max_wall_height 데이터를 찾는 데에 어려움이 있어 min_wall_height에 펜스 높이 데이터를 대입하여 분석하였다. max_wall_height의 경우에는 분석 대상 변수에서 제외하였다.

그림 5-1-3. KBO 데이터에서 각 변수들 간의 상관계수

평균값 기준으로 보정된 파크팩터와 각 독립 변수들 간의 상관 계수 그래프는 다음과 같다.

그림 5-1-4. 평균값 기준으로 보정된 파크팩터와 각 독립변수들 간의 상관계수(KBO)

그림 5-1-4를 통해, KBO의 경우 경기장의 고도를 제외하면 평균값으로 보정된 파크팩터와 사실상 상관관계가 없거나 음의 상관관계를 보인다는 사실을 알 수 있다.



1-3) NPB의 경우 (표본 수: 12)


그림 5-1-5. NPB 데이터에서 각 변수들 간의 상관계수
그림 5-1-6. 평균값 기준으로 보정된 파크팩터와 각 독립변수들 간의 상관계수(NPB)


그림 5-1-6을 통해 NPB의 경우 left_field와 right_field 외에는 평균값으로 보정된 파크팩터와 더욱 약한 상관관계를 보이거나 사실상 상관관계가 없다는 사실을 알 수 있다. 특히 MLB와 KBO의 데이터에서 어느정도의 양의 상관관계를 보여주었던 경기장의 고도 변수 조차 NPB의 데이터에서는 상관관계가 0에 가까움을 확인할 수 있다.



1-4) 전체 표본에 대한 상관관계 분석 (표본 수: 51)

전체 표본이란, 앞서 언급된 세 리그의 표본 전체를 의미한다. 그 수는 30+9+12로 총 51이다.

각 리그별로 다르긴 하지만 전체적으로 볼 때, 그림 5-1-7에서 확인할 수 있듯이, left_field와 right_field 변수를 제외하고는 다중 공산성이 약하다고 볼 수 있다.


그림 5-1-7. 전체 표본 데이터에서 각 변수들 간의 상관계수
그림 5-1-8. 평균값 기준으로 보정된 파크팩터와 각 독립변수들 간의 상관계수(전체 표본)


각 리그별 상관분석 결과에서 평균값으로 보정된 파크팩터와 음의 상관관계를 보이지 않던 고도 변수가 그나마 높은 상관계수를 가진 것, 그리고 그 외의 독립 변수들 과는 더욱 약한 음의 상관관계를 가지거나 사실상 상관관계가 없음을 확인할 수 있었다.


주요 독립변수인 left_field, min_wall height, elevation, avg_temp(2022) 와 평균값으로 보정된 파크팩터와의 관계를 산점도로 나타내면 다음과 같다.

그림 5-1-9. 주요 독립변수들과 평균값 기준 보정된 파크팩터의 관계(전체 표본)

그림 5-1-8에서 확인한 낮은 상관관계를 그림 5-1-9에서 보다 시각적으로 확인할 수 있다. 상관계수가 낮고 표본이 적은 만큼, 큰 선형관계를 확인하기는 어려웠고 양이나 음의 상관관계가 있다고 결론 내리기도 어렵다.



2) 단일 회귀분석의 반복

파크팩터와 보정된 파크팩터들을 종속 변수로 두고, 각 독립변수들과의 단일 회귀분석을 반복하였다. 얻은 p-value는 그림 5-1-10과 같다. grass_natural 변수의 경우 더미변수로 포함시켜 회귀분석을 진행하였다.

그림 5-1-10. 각 독립변수와 보정된 파크팩터 간의 회귀분석 결과(p-value)

그림 5-1-10에서 확인할 수 있듯이, 회귀분석의 결과 경기장의 고도(elevation)을 제외한 독립 변수들은 p-value가 지나치게 크다. 유의수준이 제 1종오류가 발생할 확률임을 고려하면, elevation을 제외한 다른 변수들에 대한 귀무가설을 기각하려면 제 1종오류가 발생할 확률을 40%정도는 허용한 상태가 되어야한다. 이렇게 지나치게 큰 유의 수준에서 기각한 결과는 결론의 신뢰성을 크게 저하시킬 것이기에, 사실상 elevation을 제외한 다른 변수들에 대한 귀무가설(각 독립 변수들에 대해, “종속변수에 영향을 미치지 않는다.”)을 기각되지 못한다.

경기장의 고도 변수 또한 5%의 유의수준을 이용할 경우 p값이 0.056정도로 유의수준보다 크기에, 귀무가설을 기각하지 못한다. 그러나 α=0.10 즉, 10% 유의 수준에서는 귀무가설을 기각하는 것이 가능하다. 이는 5%의 유의 수준보다 제 1종오류가 발생할 확률을 높이는 선에서 귀무가설인 “경기장의 고도는 보정된 파크팩터에 영향을 끼치지 않는다.”를 기각할 수 있음을 의미한다. 또한 10% 유의 수준을 사용할 경우 신뢰구간은 95%에서 90%로 좁아짐을 의미하기도 한다.



3) 다중 회귀분석

단일회귀분석 외에도 그림 5-1-11과 같이 엑셀을 이용한 다중 회귀분석을 통해 p-값들을 얻을 수 있으나, 단일회귀분석에서의 결과와 같이 ‘경기장의 고도’ 변수 외에는 의미있는 p-값을 보이는 변수를 찾지 못하였다.

그림 5-1-11. 다중회귀분석 결과




SVM

결과를 보기 앞서 해당 알고리즘의 퍼포먼스부터 확인해보았다.


그림 5-1-12. 모델의 타당성 점수


Tree 모델이 SVM모델보다 결정계수(R2)가 높고 오차 수준(E)이 더 낮기 때문에 Tree model이 파크팩터 데이터셋을 더 잘 설명하고 있다.


그림 5-1-13. Left_Field와 파크팩터


그림 5-1-14. Reft_Field와 파크팩터


그림 5-1-15. Center_Field와 파크팩터


그림 5-1-16. Min_Wall과 파크팩터


그림 5-1-17. Max_Wall과 파크팩터



그림 5-1-18. Elevation과 파크팩터


그림 5-1-19. Average Temperature과 파크팩터


그림 5-1-20. Grass와 파크팩터


SVM의 RBF kernel로 분석한 모습이다. 기울기(r)는 결정경계(Decision Boundary)를 나타낸다. x축은 독립변수들로, y축은 파크팩터로 구성된다. 배경색은 빨간색과 파란색으로 나눠지며, 두 클래스(높은 파크팩터, 낮은 파크팩터) 간의 구분(비선형적 관계)을 나타낸다. 원형 마커는 클래스이다. 각 클래스마다 비슷한 수치의 파크팩터를 가진 구장이 포함된다. SVM분석결과 결정 경계는 Min_wall이 -0.42로 절댓값이 제일 크고 elevation이 0.30으로 두번째로 컸다. 나머지는 비슷한 수치를 보인다. 결정계수의 절댓값이 1에 가까울수록 변수에 따라 클래스(파크팩터)가 잘 분리되었다는 뜻이다.



Decision Tree

그림 5-1-21. Decision Tree 분석 결과


이 분석은 데이터를 점진적으로 세분화해서, 분기 조건에 따라 각 데이터가 속할 가능성이 높은 클래스를 분류한다. 높은 파크팩터를 가진 구장은 잘 분리되었지만, 낮은 파크팩터를 가진 구장들이 산포되어 있고 기준들의 분포가 명확하지 않다. elevation으로 구장들이 잘 배치되었으나, 그 이후 다른 변수들에 의한 분포는 일관성 없이 배열되어 있다.




5-2. 해석 및 함의


1) 상관관계와 회귀분석

‘5-1. 분석 결과’에서 산점도와 상관계수, p값에 따른 결과를 보였다. 이에 대해 제시한 해석을 정리하고, 일부 덧붙인다.

각 리그 별 상관관계 분석을 진행하였다. 리그마다 종속변수와 각 독립 변수들 과의 관계에서 차이를 보였다. 일부 변수는 리그가 달라지자 상관관계의 양,음이 달라지기도 하고, 어느정도의 상관관계를 보이다가 사실상 관계가 없음을 나타내는 수치를 보이기도 하였다. 전체 표본을 이용한 상관 관계 분석 결과에 따르면, 각 독립변수는 종속변수인 평균값으로 보정된 파크팩터와의 약한 상관관계나 사실상의 무관계를 보였다.

단일, 다중 회귀분석의 결과 ‘경기장의 고도’ 변수를 제외한 변수들은 의미있는 p-값을 얻을 수 없었다. 경기장의 고도 변수에 대해서는 10%의 유의 수준에서 귀무가설을 기각할 수 있었다.

따라서 분석 결과에 따라 “경기장의 고도는 구장의 득점 파크팩터와 인과관계, 약한 양의 상관관계를 가지며 그 외 독립 변수는 구장의 득점 파크팩터와 인과관계가 없다.”로 해석하고 결론을 내릴 수 있다. 다만 파크팩터 등의 일부 데이터가 2022년에 국한되었다는 점, 실제 경기마다의 경기장의 기온을 측정한 데이터가 아닌 기온 데이터, 고려하지 못한 다른 파크팩터 등 후술할 한계점으로 인해, 상관관계와 회귀분석을 이용한 본 연구의 결과는 신뢰성이 떨어진다고 결론을 내릴 수 있다.


2) SVM

다른 변수들과는 다르게, min_wall과 elevation 그래프에서 SVM의 결정 경계가 데이터 포인트를 잘 구분하고 있다. 이는 두 변수가 클래스(파크팩터) 분류에 중요한 영향을 미친다는 것을 보여준다. 파크팩터가 낮은 파란색 클래스, 파크팩터가 높은 빨간색 클래스가 잘 분류된다는 뜻이다. min_wall 그래프의 경우, 결정 경계의 기울기가 음수 방향으로 진행되고 있다. 즉, 최소 벽 높이가 작을수록 파크팩터가 높은 구장이 분류된다는 것이다. elevation의 경우, 파크팩터와 양의 상관관계를 나타낸다. 이는 고도가 증가할수록 파크팩터가 높은 영역으로 분류될 확률이 높아짐을 의미한다. 하지만, 데이터 중 한 instance가 튀는 모습을 보이는데, 이것으로 인해 그래프의 기울기와 해석에 편향이 생겼을 수도 있다.


3) Decision Tree

트리 루트에서 첫 번째로 사용된 변수는 고도(elevation)였다. 이는 결과를 크게 나누는 데 가장 중요한 변수임을 뜻한다. 즉, 고도가 다른 변수보다 결과에 더 큰 영향을 미친다는 것을 나타낸다. 특히, 고도가 14를 기준으로 분리될 때, 데이터의 분포 및 분류 방식이 크게 달라진다. 고도가 14보다 큰 쪽에 파크팩터가 1보다 큰 구장들이 많이 분포한다. 여기서 중요한 부분은 고도가 너무 높아도 파크팩터가 낮아질 수 있다는 점이다. 즉, 고도는 온도와 선수 퍼포먼스에 영향을 주기 때문에 적당히 높은 것이 높은 파크팩터를 결정한다. 다음으로 크게 영향을 준 변수는 최소 벽 높이(min_wall height)와 최대 벽 높이(max_wall height)이다. 이 부분은 우리의 예상과는 다른 결과를 도출했다. 벽 높이가 낮아야 홈런이 잘 나와서 파크팩터가 높을 것으로 예상했다. 하지만, 파크팩터가 제일 높은 클래스가 속한 영역을 보았을 때, 최대 벽 높이가 높은 곳에 몰려있다. 이 말은 파크팩터와 벽 높이는 상관관계가 크게 없다는 것으로 해석된다. 나머지 변수들은 데이터를 추가로 세분화하는 역할을 하지만, 상관관계가 뚜렷하지 않다.




5-3. 최고의 모델은?

Decision Tree가 파크팩터 데이터를 가장 잘 설명해주고 있다. 상관분석과 회귀분석은 우리가 가진 데이터의 독립변수가 종속변수를 잘 설명하지 못한다는 결론을을 도출했다. SVM을 통해 변수에 대한 클래스 분류를 진행해보았지만, 회귀분석과 마찬가지로 의미있는 결과를 도출하지 못했다. 그나마 min_wall과 elevation이 이후 연구에 사용해볼 가치가 있지만, elevation의 경우 편향이 생겨 데이터의 신뢰도가 떨어진다. Decision Tree의 경우 데이터를 가장 잘 설명하고 있다. 데이터를 기반으로 패턴과 규칙을 추출하며, 이를 통해 변수 간의 관계를 설명하고 분류과정을 명확히 알기 쉽게 보여준다. 특히, 초반 데이터를 분류한 기준과 이후 데이터를 분류한 기준 간의 중요도가 다르기 때문에 이해하기 쉽다. tree를 보면, elevation이 분류에 가장 큰 영향을 주는 데이터임을 한 눈에 파악하기 쉽고, 그외의 기준들은 규칙없이 산포되어 있는 모습이다. 이를 통해 elevation 외의 변수들은 파크팩터와 큰 상관관계가 없다는 것을 알게 되었다.




5-4. 연구의 한계 및 향후 연구 방향


연구의 한계

이번 프로젝트 연구는 원하던 결과를 얻을 수 없었던 만큼, 그 한계 및 문제점들을 돌아볼 필요가 있다. 이는 다음의 목록과 같다.


1. 너무 짧은 기간에 국한하여 얻은 파크팩터 데이터

그림 5-4-1. 이글스파크의 연도별 파크팩터
스탯티즈, 구장정보, 대전, https://statiz.sporki.com/add/?m=stadium&s_code=4001.


각 구장의 연도 별 파크팩터 데이터를 보면, 수치가 일정하지 않을 수 있다는 사실을 알 수 있다. 예를 들어 대전 구장의 경우, 그림 5-4-1에서 볼 수 있듯이 1000을 기준으로 투수에게 유리한지 타자에게 유리한지가 결정되는 수치가 2022년에 1010이었다가가 2024년에는 980이 되는 등, 전혀 일관된 모습을 보이지 않는다.

따라서 분석에 사용한, 2022년에 국한된 파크팩터 데이터는 구장의 성향을 잘 반영하지 못했을 수 있다. 이는 분석 결과(상관 계수나 p값 등)에 왜곡을 일으켰을 것이다.


2. 고려하지 못한 다른 종류의 파크팩터들

연구에 사용한 파크팩터의 종류는 ‘득점 파크팩터’로, 그림 5-4-1에서 볼 수 있듯이 이 외에도 다양한 종류의 파크팩터가 있다. 득점 파크팩터는 득점에 미치는 영향에 관한 수치이고 더욱 세부적인 영향은 홈런 파크팩터, 장타 파크팩터, 수비 파크팩터 등의 팩터를 통해 분석할 수 있다. 따라서 득점 파크팩터와 그 보정된 값들만을 종속변수로 사용한 본 연구는 야구장의 구조적인 요소나 환경적 요소가 주는 세부적인 영향에 관한 분석이 부족하며, 이는 만족스러운 결과를 얻지 못한 원인이 되었을 가능성도 있다고 결론내릴 수 있다.


3. 경기 시의 기온 평균이 아닌 경기장이 있는 지역의 연평균 기온 활용

엄밀한 분석을 위해서는, 각 구장의 각 경기 마다의 기온 데이터가 필요하다. 본 연구는 얻기 어려운 이러한 데이터 대신 구장이 있는 지역의 연평균 기온 데이터를 이용함으로써 분석을 진행하고자 했다. 이러한 데이터의 오차가 상관관계나 p-value 등의 분석 결과를 왜곡했을 가능성이 있다.


4. 표본 수 및 표본 종류의 비율의 한계

그림 5-4-2에서 볼 수 있듯, 비단 구조방정식 모델을 세우기 위함이 아니더라도 본 연구는 분석에 있어 아쉬운 표본 수를 가진다. MLB의 표본 수가 30, KBO가 9, NPB가 12로 합쳐도 표본 수는 50 정도에 불과하며, 이는 상관관계 파악 등의 분석에 있어 분석의 정확도를 떨어뜨렸을 가능성이 있다. 또한 비율에 있어 MLB가 약 60%를 차지하는데, 이를 고려하면 본 연구의 결과는 파크팩터를 보정한 값을 이용하였다 하더라도 각 변수에서 어느 한 종류의 표본이 강하게 반영된 분석결과가 되었을 가능성이 있다.

그림 5-4-2. 각 리그별 표본 수와 그 비율


5. 일부 독립변수 데이터 누락

min_wall_height와 max_wall_height의 경우 KBO에서의 정보를 찾기 어려웠고, 결국 KBO를 포함한 분석의 경우 펜스 높이가 min_wall_height일 것이라 가정하고 분석을 진행하였다. 이는 역시 결과의 왜곡으로 이어졌을 가능성이 있다.


6. 고려하지 못한 다른 독립변수들의 존재

파크팩터에 영향을 주는, 고려하지 못한 다른 독립변수가 있을 가능성도 배제할 수 없다. 더 많은 독립 변수를 대상으로 분석한다면, 더 자세하고도 정확한 결과를 얻을 수 있을 것이다. 이에 본 연구는 인과관계의 구조에 포함될 수 있는 기타 독립변수의 여부를 보다 고민해보지 못했다는 한계를 가진다.



향후 연구 방향

만일 추가적인 정밀한 연구가 이루어 진다면, 앞서 언급한 이번 프로젝트 연구의 한계를 고려하여 다음과 같은 연구를 설계 및 진행하여야 한다.


구장의 성격을 충분히 반영할 수 있도록 충분한 기간의 파크팩터를 이용한 데이터를 종속변수로 삼아야 할 것이며, 득점 파크팩터 외의 파크팩터 들에 대해서도 독립변수와의 관계 분석이 진행되어야 한다.

본격적인 연구를 진행할 경우 보다 정확한 데이터를 얻기 위해 경기 시의 기온을 측정한 값을 사용하여야 할 것이다.

보다 다양한 분석과 정확도를 위해 표본의 수를 늘려야 한다. 다만 이때 표본의 종류에 따른 엄밀하고도 적절한 보정을 고민해야 하며, 표본의 수가 늘어날수록 t-분포를 사용한 분석은 부정확해질 수 있음을 유의하여야 한다.

누락된 데이터가 없게끔 조사를 철저히 하여야 할 것이며 근사한 데이터를 사용하는 경우 데이터 간의 차이를 이해하고 있어야 한다.




6. 느낀 점 및 변화

야구장의 요소들이 타자/투수에게 있어서 유불리를 준다는 연구와 뉴스를 사전에 접한 바 있어 주제를 선정하였으나, 예상보다 분석 과정에 난관이 많아 깜짝 놀랐다. 표본이 적은 것이 문제라고 판단하여 개수를 늘렸더니 일부 가설의 p값이 오히려 증가했던 것이 특히 당황스러웠는데, 표본 집단의 특성을 고려해야 하는 이유를 뼈저리게 느낀 것 같다. 또한 실제로는 서로 전혀 연관이 없는 변수들 사이에서 상관관계가 높게 나타나며 이것이 분석 모델에도 영향을 주는 것을 보고 상관관계가 인과관계로 잘못 해석되거나 반영될 수 있으며 이로 인해 분석 결과가 왜곡될 수 있음을 체감하였다. 마지막으로, MLB만큼 풍부하지 않고 산발적으로 흩어져 있는 한국과 일본의 데이터를 수집하며 우리나라 야구에서도 보다 체계적인 분석 시스템을 도입하면 좋겠다고 생각하였다. 통계분석 과정에서 쉬이 범하는 오류와 시행착오를 직접 경험함으로써 연구 결과를 바라보는 비판적 시선을 기른 프로젝트였다.

keyword
매거진의 이전글[통계교양]투수의 평균자책점에 영향을 미치는 요인 분석