brunch

숫자의 광장, 야구 데이터의 진화와 그림자

데이터 야구의 겉과 속

by 박 스테파노

야구장은 거대한 숫자의 광장이다. 타석에 들어서는 타자의 등번호부터 마운드 위 투수의 구속, 전광판에 새겨지는 볼카운트와 아웃카운트까지, 모든 움직임과 결과는 숫자로 기록되고 계산된다. 그뿐이 아니다. 그 숫자를 가지고 지나간 경기를 복기할 뿐 아니라 향후의 경기는 물론 중장기 성적과 시즌 전반의 향배를 예측하기도 한다. 너나 할 것 없이. 그러나 이 숫자의 세계가 단순한 기록을 넘어 냉혹한 '비즈니스'의 영역으로 깊숙이 파고들면서, 야구 데이터는 상상 이상의 진화를 거듭해 왔다. 이 변화의 중심에는 '돈'이라는 자본 투입의 효율성을 극대화하려는 구단들의 노력이 자리 잡고 있다.


야구에서 데이터 활용이 폭발적으로 증가한 배경에는 명확한 동기가 있다. 제한된 예산으로 최고의 성과를 달성하려는 '투자 대비 수익률(ROI)' 극대화 전략이다. 이는 순수한 스포츠의 영역을 넘어선 '기업적 목표'와 직결된다. 영화로도 잘 알려진 오클랜드 애슬레틱스의 '머니볼'은 이 패러다임 전환의 상징이다. 막대한 자금력 없이 경쟁해야 했던 오클랜드는 전통적인 스카우트의 '감' 대신 출루율, 장타율 등 효율적인 선수 평가 지표에 기반한 데이터 분석을 통해 저평가된 선수들을 발굴했다. 결과 단기간의 성적 향상이라는 기념비적 성과를 거두었다.


데이터가 지배하는 운동장. 이미지=Google Sora


이 성공 사례는 야구계에 데이터 기반 의사결정의 유효성을 강력히 각인시켰고, 다른 구단들도 앞다투어 데이터 분석 팀을 강화하게 만들었다. 선수의 기량을 정량적 지표로 설명하고, 자본 투입의 결과를 예측 가능하게 하며, 성과의 재현 가능성을 높이는 것, 이 모든 과정이 자본 효율성이라는 비즈니스 언어로 통일되었다. 야구 데이터 활용의 핵심 동인이 스포츠 자체의 즐거움보다는 '비즈니스'였다는 지적은 상당한 현실성을 지닌다. 다만 운동장에서 플레이하는 선수단과 그로 인한 산업의 부수를 영위하는 종사자들, 미디어 및 기자, 협회 관계자들만 그 속성을 잊은 듯하다.



세이버메트릭스와 WAR만으로 야구를 전부 읽어 낼 수 있을까?


야구가 통계와 데이터 분석에 특히 유리한 종목이라는 점도 이러한 진화를 촉진했다. 다른 스포츠에 비해 경기 수가 압도적으로 많고, 투수 대 타자의 대결처럼 개별 플레이가 명확히 구분되며 정형화되어 있어 데이터 수집 및 축적에 최적의 환경을 제공한다. 이러한 특성과 자본의 효율성 추구가 결합하며, 야구는 스포츠 분야에서 통계학이 가장 먼저, 그리고 가장 깊이 발전한 영역이 되었다. 그 결과 탄생한 것이 바로 세이버메트릭스(Sabermetrics)다.


세이버메트릭스는 전통적인 기록지표의 한계를 극복하고 선수의 진정한 기여도를 과학적으로 측정하려는 시도에서 출발했다. 단순히 타율이나 홈런 개수만이 아닌, 타석에서의 생산성(출루율, 장타율), 주루 능력, 수비 효율 등 경기 내 모든 행위의 가치를 숫자로 환원하려 했다. OPS(출루율 + 장타율), wOBA(가중 출루율), UZR(궁극적인 존 평점), DRS(수비 시 구단 이득 점수) 등 다양한 지표들이 개발되었고, 투수의 투구 내용을 분석하는 FIP(수비 무관 투구 기록) 같은 지표들도 발전했다.


이 세이버메트릭스의 정수라 할 수 있는 지표가 바로 WAR(Wins Above Replacement)이다. WAR는 한 선수가 해당 포지션의 '평균적인 대체 선수(Replacement Level Player)'와 비교했을 때 팀 승리에 얼마나 기여했는지를 나타내는 단일 지표로, 선수 평가 및 비교에 혁신을 가져왔다. FA 계약이나 트레이드 협상에서 선수의 몸값을 산정하는 데 중요한 참고자료로 활용되며 그 영향력을 입증했다.


분석 지표의 개발은 현재 진행중이나 개발 주체의 이기적 연구환경으로 공통지표 개발이 어렵다는 문제가 있다. 이미지=Google Sora


그러나 세이버메트릭스와 WAR의 강력한 효용성만큼이나 그 한계에 대한 비판적 논의 또한 뜨겁다. 세이버메트릭스는 Society for American Baseball Research의 약어로 사실 특별한 분석 방법론이나 수학의 알고리즘이 결합된 것은 아니다. 이런 이유로 특화적 연구된 결과물이라기엔 부족함이 있다. 특히 결과에만 국한된 지표로 경기 중 일어나는 모든 행위를 설명할 수 없다는 원초적 맹점을 안고 있다. 정량적 데이터와 함께 선수의 인간적 요소, 팀의 문화, 경기의 맥락 등을 통합적으로 고려하는 접근이 필요한데 이에 대한 반영 요소가 없다. 이러한 불균형적인 시각이 야구의 깊이를 더하고, 보다 풍부한 분석을 가능게 하는 일을 저해하고 있는 현실이다.


WAR는 계산 방식이 통계 제공 주체(FanGraphs, Baseball-Reference 등)마다 미묘하게 달라 동일한 선수에 대해 다른 결과 값을 내놓는 경우가 빈번하다. 이는 WAR이 '공통적인 비교 지표'로서 완전한 객관성을 확보하기 어렵다는 점을 시사한다. 또한, WAR이 팀의 실제 승수와 직접 연동되는 지표는 아니다. WAR 수치가 높다고 해서 팀 성적이 반드시 비례하는 것은 아니라는 지적도 존재한다. 야구 경기는 수많은 변수와 상호작용으로 이루어지며, WAR이라는 단일 지표가 팀 승리라는 복합적인 결과를 온전히 설명하기에는 한계가 있다는 것이다. 세이버메트릭스의 비판적 연구는 이러한 지표의 구조적 한계를 분석하고, 통계 모델이 놓치는 야구의 다른 요소들을 규명하려는 방향으로 진행되고 있다.



데이터에 '행위'를 담을 수 있을까


가장 근본적인 비판 중 하나는 야구의 측정 지표들이 대부분 '행위'의 결과만을 숫자로 보여줄 뿐, 그 행위에 담긴 '메타 정보'를 포착하지 못한다는 지점이다. 예를 들어 빗맞은 행운의 안타와 투수의 결정구를 완벽하게 받아친 배럴 타구는 경기 기록지상으로는 동일한 '안타'로 기록된다. 타구 속도, 발사 각도, 스핀 등 최근에는 이러한 '행위 과정'에 대한 데이터가 수집되고 분석되고 있지만, 여전히 타석에서의 심리 상태, 투수의 순간적인 컨디션 변화, 경기장의 분위기, 작전 수행 능력, 그리고 선수 개인의 '감'과 같은 정성적인 요소들은 숫자로 포착하기 극히 어렵다. 특히 상황에서의 대처와 순간에 임하는 전략의 의도를 데이터에 담지 못한다.


이러한 한계는 데이터 거버넌스의 관점에서 볼 때 중요한 문제다. 야구의 측정 지표가 '행위의 결과'에 편중되어 있어, 실제 행위 자체나 그 행위가 벌어진 상황에 대한 맥락 정보, 즉 메타데이터를 충분히 담아내지 못한다. 다른 스포츠, 특히 축구 등에서는 선수에게 센서를 부착하여 운동 능력, 움직임 패턴, 동작의 효율성 등을 측정하고 이를 경기력 분석 및 관리와 연관시키는 시도가 활발하다. 이에 비해 야구는 여전히 최종 결괏값의 수학적 평균에 과도하게 의존하는 경향이 있다는 비판은 곱씹어 볼만하다. 데이터는 수집하는 방식과 정의하는 방식에 따라 그 가치가 달라지며, 야구 데이터는 아직 '행위 과정'과 '메타정보'라는 중요한 차원을 충분히 담아내지 못하고 있다.


사실 세이버메트릭스도 경기 통계지표만 있지 않다. 경기 외적인 요소와 환경적 변수를 모두 담아낸다. 이미지=Google Sora


현대 야구에서 이야기하는 '데이터'는 산술평균과 누적 합산의 '숫자', 그 이상의 의미를 내포하기 마련이다. 주로 측정의 기본 단위는 '행위'다. 쉽게 이야기하지면, 던지고 치고 달리고 잡는 행위 모두가 데이터의 기본 요소로 측정되고, 이것이 '데이터'가 되기 위해서는 각종 관점에서 고려된 그 숫자만의 "스토리"가 포함되어야 한다. 흔히 '메타 데이터'라고 하는 정보의 이력이 내포되어야 가치 있는 데이터로 작용한다.


대공황 시대부터 시작된 야구에서의 지표 개발의 욕구는 '돈'과 관련 있다. 단순 타율, 자책률이 주는 야구 경기와 리그 전반의 해석에 대한 부족함과 허술함은 자본 투자자들에게 불만이 되었다. 자본은 투입된 것이 어떠한 과정과 변용으로 얼마만큼의 가치를 창출하는지를 측정하고자 하는 습성이 있으니까. 다시 말해 투수 피칭 한 개의 가치, 타자 타격 한 번의 가치, 안타의 가치, 삼진의 가치를 돈으로 환산하고자 하는 욕구에서 시작되었다. 그 유산과 전통에서 이어진 세이버메트릭스도 '가치 환산 지수'로 표현된다. 안타와 장타의 가치 출루와 타격의 가치에 특정 값어치를 주는 방식이다.



데이터는 수집만큼, 관리와 운용이 중요해


요즘 야구 종사자들, 특히 방송 관계자와 감독ㆍ코치들은 이 '데이터'를 그저 일차원의 점인 '숫자'로 이해하는 경우가 많아 보인다. 가장 어이없는 해석 중 하나가 3할 타자가 앞선 두 번의 타석을 범타로 물러 났기에 이번 타석은 평균적으로 기대해 볼만하다는 것이다. 통계적으로도 게임 이론적으로도 우스운 인디언 기우제식의 해석에 지나지 않는다. 3할 타자가 해당 상황 피안타율 2할의 투수를 만난다면 산술 통계도 6%의 확률만 있으니까. 더욱이 야구는 그것만이 고려 대상이 아니다. 최근 경기 컨디션에 상대 전적, 그리고 유사 상황 확률, 다음 순서에서의 대안적 확률, 그리고 하다 못해 그라운드 펙터라고 하는 경기장별 특이점, 날씨와 다음 경기의 대비까지 고려가 되는 다차원의 고차 방정식이 펼쳐지니까 말이다.


'데이터 적용'이란 사칙연산의 산술적 통계에 대한 의사결정이 아니라, 단위 수치부터 그 총합, 외적 변수까지 고려하는 '가치 판단'에 있다. 산업현장에서 경험 많은 기능 기술자들의 '감'을 데이터로 만드는 것이 궁극의 목표가 되었다. 바로 '노하우'를 표준과 기준으로 삼아 위기의 순간과 기회의 시간에 결단을 내리는 나름의 데이터 분석이 '감'으로 표현되는 것이다.


데이터 활용의 목표는 '가치판단'에 있다. 이미지=Google Sora


카지노 카드 게임 중 가장 보편화된 것 중 하나로 '블랙잭'을 들 수 있다. 가끔 출장 중 개인 시간에 짬 내서 가벼운 게임을 즐기기도 했다. 이유는 '계산이 서는 종목'이기 때문이었다. 카드의 합을 21 이하로 가장 21에 근접하게 만드는 쪽이 이기는데, 상대는 다른 플레이어들이 아닌 하우스 딜러와 승부한다. 이 승부의 확률은 이미 계산된 바 있다. 무한 게임을 한다면 승률은 49.25% vs. 50.75%로 딜러가 무조건 이기는 게임이다.


그러나 현실은 그 무한 반복이 불가능하기에 확률의 빈틈에 경우의 수를 들이 밀면 판돈을 따는 것은 어렵지 않다. 그 방법을 흔히 '카드 카운팅(card counting)'이라고 하는데 판에 깔리는 모든 카드의 가치를 +,-,0로 계산하여 특정 기준이 되면 배팅을 하고, 못 미치면 포기하는 방법이다. 드러 내놓고 하면 카지노 하우스에서 퇴장 조치, 출입금지를 당할 만큼 방법은 확실한 통계 방법론이다.


뜬금없이 블랙잭 카드 게임을 이야기 거드는 이유는 바로 이 '확률에 의한 통계적 분석 결단'이 야구는 물론, 더 나아가 일상의 결정에도 유효하기 때문이다. 가끔 기업 환경에서 이런저런 수치 보고서와 스프레드 시트에서 나온 어마 어마한 양의 데이터와 씨름하는 것을 목격한다. 이것을 고려하면 저것이 걸리고, 저것을 보정하면 이것이 영향을 받으니 쉬운 판단이 어렵다. 그럴 때 나는 기업 고객들에게 '체크 리스트 카운팅'을 권하곤 하였다.


각 부문별 주요 수치를 단순 가중치로 플러스 마이너스 0, 1,2,3점을 부여하고 그 총합이 경험적 기준치를 충족하면 'Go'하고 모자라면 'Stop'하라고 말이다. 이 방법론은 세계 최고의 반도체 공장의 수율 관리에도 사용하고 있다. 야구로 치면 누적 스탯, 상황 스탯, 최근 스탯, 변수와 대안의 유무, 구장 및 날씨, 그리고 이 경기의 가중치를 고려하여 상황마다 체크리스트 카운팅만 하면 그놈의 '확률'을 지배할 수 있을지도 모른다.



데이터 운용을 위해서는 준비된 학습 훈련이 필요하다


세상은 '효율'과 '효능'의 시대로 접어든 지 오래다. 그 기준에 벗어나면 대중은 외면하거나 거부하기 마련이다. '그깟 공놀이' 없어도 세상은 즐길 거리 천지다. 고액 연봉 선수는 수십 억을 받고 신인이나 2군 선수는 최저 임금을 겨우 받는 가장 자본주의적인 스포츠에서 제일 확실한 '데이터 야구'란, 이 선수의 플레이 가치를 연봉으로 나누어 보는 것이다. 25억 선수와 5천만 원 선수의 안타 하나의 가치가 다를 수밖에 없는 이유다. 그 돈은 오롯이 팬들의 입장, 중계 시청, 광고주의 상품 구매, 그리고 세금에서 나온다. 야구 종사자들에게 '직업인 교육'이 필요한 이유이기도 하다. 데이터와 통계를 이야기하는 그들은 과연 인수분해라도 제대로 해 보았을까 하는 물음표는 쉽게 지울 수 없다.


데이터 야구의 겉과 속. 이미지=Google Sora


결국 야구 데이터 관리는 단순히 통계 수치를 집계하는 것을 넘어 고도화된 '데이터 거버넌스'의 영역으로 나아가야 한다. 이는 숫자로 표현하기 어려운 '정성적인 판단'이나 선수와 감독의 '감'과 같은 요소들을 어떻게 데이터 분석 시스템에 통합하고 관리할 것인가 하는 도전적인 과제를 포함한다. 감독의 용병술, 투수의 위기관리 능력, 타자의 클러치 상황에서의 집중력 등 아직까지 '감'의 영역으로 치부되는 요소들을 객관적으로 평가하고 분석하려는 시도가 필요하다.


예를 들어, 특정 상황에서의 투수 교체 성공률 분석, 비디오 분석을 통한 선수들의 순간 판단 능력 평가, 심지어는 선수들의 심리 상태나 팀 분위기를 정량화하기 위한 설문 조사나 생체 데이터 활용 등 다양한 방식이 모색될 수 있다. 이러한 '정성지표'의 관리 및 활용 사례는 아직 초기 단계이지만, 데이터 분석이 야구의 복잡성을 더 깊이 이해하고 승리 가능성을 높이는 데 필수적인 요소로 부상하고 있다.


야구 데이터 분석은 자본 효율성이라는 현실적인 동기에서 출발하여 세이버메트릭스라는 정교한 통계학을 발전시켰다. WAR과 같은 지표는 선수 평가에 혁명을 가져왔지만, 여전히 숫자가 포착하지 못하는 야구의 영역, 즉 행위 자체의 질과 그 이면에 숨겨진 인간적, 상황적 요소들은 숙제로 남아있다. 데이터 거버넌스의 관점에서 이러한 '메타 정보'와 '정성적인 판단'을 어떻게 데이터 시스템에 통합하고 관리할 것인가가 향후 야구 데이터 분석의 중요한 방향성이 될 것이다.


숫자는 야구를 해부하는 강력한 도구이지만, 야구는 숫자로만 이루어진 게임이 아니다. 숫자의 냉철함과 인간적 '감'의 통찰이 균형을 이룰 때, 비로소 우리는 야구라는 복잡다단한 드라마의 전모에 조금 더 가까이 다가갈 수 있 않을까. 야구가 일상을 닮은 또 다른 이유다.


keyword
매거진의 이전글야구는 흐르는데, 말은 넘친다