"데이터"를 모르는 "자칭" 데이터 전문가
무거운 현실과 버거운 일상에도 쉽사리 물리치기 어려운 것들이 있습니다. 식욕 같은 원초적 요구 같은 것과 비슷한 기호와 관심사의 영역이 그러합니다. 제게는 아마도 영화와 야구가 그런 것들이 됩니다. 기술의 발달로 미디어 환경이 좋아지면서 두 가지를 누리는데 큰 비용의 지불이 필요하지 않고, 결과와 평가가 내 삶에 직접적인 영향을 끼치지 않기 때문에 긴 시간 취미로, 기호로, 그리고 애정 하는 일들이 되었습니다.
오늘은 오래간만에 야구 이야기를 하려 합니다. 프로야구가 한국에서 정식 개막한 지 올해로 40년이 되었습니다. 군사 독재 정권의 '우민화 정책'이라는 비판으로 시작했지만, 어느새 제법 긴 시간을 야구팬들 일상의 한 편을 차지하게 되었습니다. 한해 한해 지나더라도 부러 나이를 세어 보지 않았는데, 어떤 이벤트의 기념 주기와 어릴 적 잘 가던 가게가 노포가 되어 있는 것을 보고 화들짝 놀라기도 합니다. 제법 나이가 들어 버린 것을 뜻하지 않는 곳에서 마주하니까요.
전에 야구라는 스포츠를 좋아하는 이유에 대하여 끄적거려 나눈 적이 있었습니다. 공이 아닌 사람에 의해 득점이 되는 사람 중심, 모든 구성원이 동일한 유니폼을 입어야 하는 평등 의식, 그리고 가장 많은 게임을 치르며 한 해를 마무리하게 되면 결국 평균으로 수렴하는 일상의 반영을 그 이유로 들었습니다. 그와 함께 야구라는 스포츠는 또 다른 특징을 지니고 있습니다. 바로 '숫자'와 매우 밀접한 스포츠라는 점입니다. 그 지점 또한 개인적인 취향에 잘 들어맞는 특징으로 작용하였습니다.
야구라는 스포츠는 유독 '숫자'가 많이 드러나 있습니다. 구기 종목 중 가장 많은 라운드를 치른다 해도 과언이 아닌 9라운드를 꽉 채웁니다. 그리고 1년 144경기를 각 팀이 치르게 됩니다. 공을 던지고 받고 치면서 하는 모든 행위가 공식 지표로 팀은 물론 개인에게도 측정되고 부여됩니다. 대충 아는 숫자 지표만 보아도, 승률, 타율, 출루율, 장타율, 평균자책점, 그리고 홈런, 도루, 안타, 삼진, 사사구의 개수까지 다양한 지표로 측정되고 관리됩니다. 피터 드러커의 말처럼 '측정'될 수 있는 것들이 많아, '관리'의 중요성이 비교적 강조되는, 기업 경영과 기관 운영과 매우 닮아 있습니다.
이런 이유들로 인하여 야구는 가장 자본주의적 스포츠라고 불리기도 합니다. 물론 미국, 한국, 일본, 대만의 프로 리그의 운영과 각 구단의 경영이 타 스포츠보다 복합성을 띄는 것도 그 이유의 큰 부분이 됩니다. 그래서 요즘 야구의 큰 트렌드는 "데이터 야구"라는 데에는 큰 이견이 없어 보입니다. 긍정적으로 적극 수용하던지 비판적으로 비토하던지 상관없이 말이지요. 복잡하고 변화무쌍한 현대 산업 생태계의 기업들과 유사하게 "데이터"를 받아들이고 있습니다.
그러나, 최근 중계방송이나 스포츠 신문 기사, 방송의 코멘터리를 보고 있노라면 헛웃음이 나올 때가 많습니다. 나름 야구 광에 데이터 매니지먼트 컨설팅을 주업으로 살아온 이력에서 보면 '가짜'와 '껍데기'가 판을 칩니다. 특히 "한국에서 때늦게 일어난 세이버매트릭스(sabermetrics)의 열풍이 눈에 띕니다. 어떤 야구 선수 출신 해설자는 '세이버 박사'라는 통계학자가 만들었다고 자신 있게 말하는 것을 보고 웃기면서 씁쓸했습니다. 이 지표에 대한 자세한 이야기는 나중으로 미루어 봅니다. (어원은 SABR(The Society for American Baseball Research. 미국야구연구협회) + metrics/metrician. 초기에 SABR(세이버라고 부른다.)라는 모임을 중심으로 형성되었기에 이런 이름으로 부름.)
지표나 방법론, 그리고 분석 방법의 도입을 위해서는 필수적인 우선 선결 과정이 있어야 합니다. 수치 모델의 확립과 적용을 위해서는 '야구'의 필드 기술뿐 아니라, '통계'의 기본 수학적 사고 능력, 그리고 '데이터'에 대한 적요한 이해가 필수입니다. 그러나, 미디어에 노출되는 야구인 출신이거나 주변 언론 종사자 중 이 두 가지의 기본 역량을 갖춘 사람은 거의 보지 못했습니다. 그러니, 40년의 시간에도 선수와 팀의 경기력, 리그의 운영 능력, 그리고 구성원들의 의식 수준은 안타까울 정도로 진척이 없어 보이는 것 같습니다. 참 안타깝습니다.
야구에 숫자들이 쌓이고 리그가 프로 산업화되면서 기록의 측정과 분석에 부실함과 아쉬움을 느끼게 됩니다. 이에 사회과학의 게임 이론과 통계학의 방법론을 차용하여 발전시킨 부분이 이런 각종 지표/매트릭스의 출현이었습니다. 라이브볼과 데드볼 시대는 다른 기준도 있지만, 이 지표의 도입도 그 분별의 특징이 됩니다. 야구의 본질에 대해 학문적이고 깊이 있는 접근이라는 명분도 있지만, 사실 지표의 도입은 "돈"과 매우 깊이 닿아 있습니다. 자본의 유입으로 자본주의적 사고가 깊이 관여하게 되는 것이었습니다.
대공황 시대부터 시작된 야구에서의 지표 개발의 욕구는 '돈'과 관련 있습니다. 단순 타율, 자책률이 주는 야구 경기와 리그 전반의 해석에 대한 부족함과 허술함은 자본 투자자들에게 불만이 되었습니다. 자본은 투입된 것이 어떠한 과정과 변용으로 얼마만큼의 가치를 창출하는지를 측정하고자 하는 습성이 있으니까요. 다시 말해 투수 피칭 한 개의 가치, 타자 타격 한 번의 가치, 안타의 가치, 삼진의 가치를 돈으로 환산하고자 하는 욕구에서 시작되었습니다. 그 유산과 전통에서 이어진 세이버메트릭스도 '가치 환산 지수'로 표현됩니다. 안타와 장타의 가치 출루와 타격의 가치에 특정 값어치를 주는 방식이지요. 요즘 선수 출신이나 기자들이 떠드는 OPS(출루율+장타율)이나 WHIP(이닝당 평균 피출루수)은 '세이버메트릭스'가 아니라 '클래식 지표'가 됩니다.
이와 같이 현대 야구에서 이야기하는 '데이터'는 산술평균과 누적 합산의 '숫자', 그 이상의 의미를 내포하기 마련입니다. 주로 측정의 기본 단위는 '행위'인데 쉽게 이야기하지면, 던지고 치고 달리고 잡는 행위 모두가 데이터의 기본 요소로 측정되고, 이것이 '데이터'가 되기 위해서는 각종 관점에서 고려된 그 숫자만의 "스토리"가 포함되어야 합니다. 흔히 '메타 데이터'라고 하는 정보의 이력이 내포되어야 가치 있는 데이터로 작용하게 되는 것입니다. 포스팅 초기에 '디지털'과 '데이터'에 대해 이야기한 것들을 참조해 보면 좋을 듯합니다.
https://alook.so/posts/lat8X6
data의 "dat"은 "주다(give)"라는 뜻의 라틴어 동사 do(dare-dedi-datum)의 3인칭 단수 현재 능동태 직설법 형태입니다. "주다(give)"라는 뜻의 라틴어 동사 do(dare-dedi-datum)의 수동태 완료 분사 형태인 datum은 영어 단어 data(데이터)의 어원이기도 합니다. 즉, Data의 어원에서 보는 뜻은 "주고받는 것"이라는 뜻이 중심 잡고 있습니다. 달리 보자면 '주고받을 가치'가 있는 정보의 최소 단위부터, 그 총합까지 아우를 수 있는 용어가 됩니다. 광범위하고 손에 잡히지 않아 어렵지만, 분명한 것은 "줄 수 있어야" 참된 데이터로 가치부여가 됩니다. 주머니에 있는 것이 아니고 주는 것이어야 합니다. 그래서 '데이터'엔 '보안'이 필수적인 짝꿍으로 따라다니는 것입니다. -본문 중-
그러나, 요즘 야구 종사자들, 특히 방송 관계자와 감독ㆍ코치들은 이 '데이터'를 그저 일차원의 점인 '숫자'로 이해하는 경우가 많아 보입니다. 가장 어이없는 해설 중 하나가 3할 타자가 앞선 두 번의 타석을 범타로 물러 났기에 이번 타석은 평균적으로 기대해 볼만 하다는 해석이 그것입니다. 통계적으로도 게임 이론적으로도 우스운 인디언 기우제식의 해석에 지나지 않습니다. 3할 타자가 해당 상황 피안타율 2할의 투수를 만난다면 산술 통계도 6%의 확률만 있으니까요. 더욱이 야구는 그것만이 고려 대상이 아닙니다. 최근 경기 컨디션에 상대 전적, 그리고 유사 상황 확률, 다음 순서에서의 대안적 확률, 그리고 하다 못해 그라운드 펙터라고 하는 경기장별 특이점, 날씨와 다음 경기의 대비까지 고려가 되는 다차원의 고차 방정식이 펼쳐지니까요.
삼성 라이온즈의 팬으로서 아쉬운 예를 들어 볼까 합니다. 삼성의 허삼영 감독은 프로 선수 경험은 1~2년으로 거의 없고, 바로 프런트로 입사해 운영팀장, 전력분석팀장을 거쳐 감독이 된 특이 케이스로 유명합니다. 한때 자칭 타칭 '데이터 전문가'로 알려지기도 했지요. 그렇지만, 제 개인의 평가는 다릅니다. 현장 경험의 부족을 메울 만큼의 데이터의 분석과 활용의 전문가적 역량은 없어 보이기 때문입니다. 아마도 허 감독이 생각하는 '데이터'는 그동안 자신의 팀과 노트북에 쌓아 둔 수많은 '숫자'들 일 것 같다는 생각이 자꾸 드는 요즘입니다.
지난 6월 4일 두산과의 경기가 그러한 가까운 예가 되었습니다. 선발 황동재 투수가 흔들려 초반에 7 실점을 하고 바로 3 득점을 내어 따라갑니다. 4회가 시작됩니다. 투수를 교체하는데 이틀 전 실패를 보았던 이재익 선수 카드입니다. 게임을 지고 있으니 필승조와 핵심 전력을 아끼자는 생각이고 바로 만나는 타자가 왼손 타자이니 오래된 통념과 누적 기록에서 왼손 타자에게 강하다는 것이 고려되었겠지요. 그러나 최근 구위가 떨어졌고 블론 세이브 주역이라는 잔상에 멘털이 약해져 있었습니다. 다시 추가 2 실점. 그때서야 구위가 좋은 노성호 선수를 올립니다. 구위가 좋아 보이니 투구 수를 제한하고 다시 실패를 최근 보았던 김승현 선수 투입. 실책 등이 겹쳐 11점 차로 벌어집니다.
어찌 보면, 144경기 긴 시즌 동안을 대비해 전력을 아낄 수는 있고, 내일 경기를 대비한다 볼 수 있습니다. 그런데 상대편 두산의 김태형 감독은 반대의 선택을 합니다. 11점 차이에 필승조 후보들을 연달아 올립니다. 김강률 투수가 흔들리자 점수 차가 있는데 바로 홍건희 선수를 투입합니다. 전날 불펜 소모는 양 팀이 비슷한데 말이지요. 감독들의 결정은 상반되어 있습니다. 4연패를 끊기 위한 김태형 감독의 총력전 의지라고 해석하지만, 제 생각은 다릅니다. 다음 날 비 소식이 있었고 강수확률은 60%가 넘었기 때문이니까요. 3할이면 성공인 야구에서 6할이나 확실한 경우의 수는 걸어 볼만 하지요. 주말 경기의 마지막 날이 우천 취소된다면 월요일 휴식일을 고려하면 이 날 경기에 모든 것을 거는 것은 교차적인 데이터 분석과 그 의사결정의 모범이라고 볼 수 있는 대목입니다.
이 사례가 주는 의미를 되새김 하기를 바랍니다. '데이터 적용'이란 사칙연산의 산술적 통계에 대한 의사결정이 아니라, 단위 수치부터 그 총합, 외적 변수까지 고려하는 '가치 판단'에 있기 때문입니다. 산업현장에서 경험 많은 기능 기술자들의 '감'을 데이터로 만드는.것이 궁극의 목표가 되었습니다. 바로 '노하우'를 표준과 기준으로 삼아 위기의 순간과 기회의 시간에 결단을 내리는 나름의 데이터 분석이 '감'으로 표현되는 것이니까요. 이런 의미에서 장수 감독으로 용장으로 평가 받는 김태형 감독은 '데이터를 최적화'하는 감독일지도 모릅니다.
카지노 카드 게임 중 가장 보편화된 것 중 하나로 '블랙잭'을 들 수 있습니다. 저도 가끔 출장 중 개인 시간에 짬 내서 가벼운 게임을 즐기기도 했습니다. 이유는 '계산이 서는 종목'이기 때문이었습니다. 카드의 합을 21 이하로 가장 21에 근접하게 만드는 쪽이 이기는데, 상대는 다른 플레이어들이 아닌 하우스 딜러와 승부합니다. 이 승부의 확률은 이미 계산된 바 있습니다. 무한 게임을 한다면 승률은 49.25% vs. 50.75%로 딜러가 무조건 이기는 게임입니다. 그러나 현실은 그 무한 반복이 불가능하기에 확률의 빈틈에 경우의 수를 들이 밀면 판돈을 따는 것은 어렵지 않습니다. 그 방법을 흔히 '카드 카운팅(card counting)'이라고 하는데 판에 깔리는 모든 카드의 가치를 +,-,0로 계산하여 특정 기준이 되면 배팅을 하고, 못 미치면 포기하는 방법입니다. 드러 내놓고 하면 카지노 하우스에서 퇴장 조치, 출입금지를 당할 만큼 방법은 확실한 통계 방법론입니다. (최근 넷플릭스 동명 영화도 있으니 보시길)
https://youtu.be/mBUG-8K9nvA
뜬금없이 블랙잭 카드 게임을 이야기 거드는 이유는 바로 이 '확률에 의한 통계적 분석 결단'이 야구는 물론, 더 나아가 일상의 결정에도 유효하기 때문입니다. 가끔 기업 환경에서 이런저런 수치 보고서와 스프레드 시트에서 나온 어마 어마한 양의 데이터와 씨름하는 것을 목격하고 있습니다. 이것을 고려하면 저것이 걸리고, 저것을 보정하면 이것이 영향을 받으니 쉬운 파단이 어렵습니다. 그럴 때 저는 기업 고객들에게 '체크 리스트 카운팅'을 권합니다. 각 부문별 주요 수치를 단순 가중치로 플러스 마이너스 0, 1,2,3점을 부여하고 그 총합이 경험적 기준치를 충족하면 'Go'하고 모자라면 'Stop'하라고 말이지요. 이 방법론은 세계 최고의 반도체 공장의 수율 관리에도 사용하고 있답니다. 야구로 치면 누적 스탯, 상황 스탯, 최근 스탯, 변수와 대안의 유무, 구장 및 날씨, 그리고 이 경기의 가중치를 고려 하여 상황마다 체크리스트 카운팅만 하면 그놈의 '확률'을 지배할 수 있을지도 모릅니다.
21세기 들어 '빅데이터' 이야기를 지겨울 정도로 듣습니다. 갑자기 생긴 것도 아닌데 새로운 첨단 기술인 양 호들갑으로 20년을 보내고 있습니다. 어찌 되었든 데이터 분석과 활용은 제법 넓게 퍼진 것은 분명합니다. 빅데이터의 요건으로 보통 4V(Volume, Velocity, Variety, Veracity)로 이야기됩니다. 그중 가장 고민되는 요소가 Veracity라는 '시의적절, 적요성'이 됩니다. 어제의 데이터는 오늘 유효할 수 없으며, 남들의 데이터를 내게 적용하기엔 사전 고려 요소가 많기 때문입니다.
지금 한국 프로야구는 데이터 야구 활용을 떠나, 리그 전반이 NG입니다. 팬들은 많은 정보를 취득하고 점점 의식은 고취되고 있는데, 정작 프로야구 종사자들은 20세기를 살고 있는 듯 도태되어 있습니다. 선수, 코치, 감독에 프런트, 구단주는 물론 방송, 기자, 언론, 그리고 선진 야구를 살짝 경험했다고 하는 일부 유턴 선수들까지 말입니다. 물론 '모두'는 아니지만 '대부분' 그러합니다.
https://www.donga.com/news/amp/all/20200122/99352326/1
프로야구가 국내 최고 프로 스포츠 리그 지위에 도취돼 진짜 경쟁자가 누구인지 놓치고 있다는 의견도 나왔다. 한국야구학회 이사인 전용배 단국대 교수(스포츠경영학)는 “프로야구는 다른 국내 스포츠 리그가 아니라 한 사람이 시간과 돈을 쓰고 싶어 하는 모든 콘텐츠를 경쟁 상대로 생각할 필요가 있다”면서 “사람들에게 야구장에 가야 할 이유를 찾아주는 것, 그게 프로야구 위기론에 접근하는 시발점이 돼야 한다”고 진단했다. -기사 본문 중-
한 때 국가대표 축구 경기인 A매치와 함께 '국민 스포츠'로 손꼽히던 한국 프로야구는 여러 이유로 침체와 위기를 맞이하고 있습니다. 작년 코로나19 대 봉쇄의 엄중한 시국에 원정 숙소에서 방역 수칙을 위반하며 술자리를 가진 사건은 그 상징적 일개 사건일 뿐입니다. 전체 산업의 구조에 대한 이해도 없고, 그저 던지고 치고 달리는 공놀이만 잘하면 돈이 되는 줄 아는 어설픈 직업의식은 이미 교정 불가의 수준이 되었습니다. 아직 숙소에 지인과 가족을 불러 구단의 운영비로 호캉스를 즐기는 일원이 버젓이 있고, 수십억을 받는 메이저리거 출신 노장은 구단 버스 탑승하지 않고 개인행동하기 일쑤입니다.
그런데, 그저 세간의 관심만 필요한 구단주 덕에 그 구단의 연봉 포함 운영비는 타 구단의 두배에 이릅니다. 연결된 재무제표를 가진 모기업의 주주들에게 그대로 손실을 입힙니다. 이 모든 것이 일반적인 기업 행위로 평가된다면 횡령이고 배임인데도 말이지요. 저변 확대를 위한 지상파 중계를 추진해도 경기 시간이 앞당겨져서 '경기력 하락'만 우려하는 경제 논리 1도 없는 집단들이 이들입니다. 이런 이들에게 '데이터'라니요. 돼지 목에 진주 목걸이가 아닐 수 없습니다.
그깟 공놀이가 우리 삶에 중요 할리는 없을지도 모릅니다. 하지만 일상을 공유하는 팬들도 적지 않습니다. 야구의 원산지 미국에서도 MZ세대의 외면으로 산업으로서의 위기의식을 연일 이야기하고 있습니다. 3시간 20분의 총 경기시간 중 공이 움직이는 시간은 고작 20 여 분일뿐이고, 규칙과 상황은 복잡하기만 하고, 예상 밖의 일들로 승부의 예측은 늘 로또 복권 같아 보입니다. 그런데도 구성원들은 자신들의 처우와 환경 개선만 고집하고, 철들기 쉽지 않아 보이는 마흔 줄의 선임마저 현실 모르는 십 대 같은 이야기만 쏟아 냅니다. 경기 질은 하락하고 팬서비스는 여전히 최악의 수준이며, 방송에서 캐스팅과 코멘터리 하는 이들은 본연의 책무는 잊은 채 학습 안된 기술적 이야기를 느러 놓거나, 개인작인 잡담과 유튜브에 열중합니다. 총체적 난국입니다.
세상은 '효율'과 '효능'의 시대로 접어든 지 오래입니다. 그 기준에 벗어나면 대중은 외면하거나 거부하기 마련이지요. '그깟 공놀이' 없어도 세상은 즐길 거리 천지입니다. 고액 연봉 선수는 수십 억을 받고 신인이나 2군 선수는 최저 임금을 겨우 받는 가장 자본주의적인 스포츠에서 제일 확실한 '데이터 야구'란, 이 선수의 플레이 가치를 연봉으로 나누어 보는 것입니다. 25억 선수와 5천만 원 선수의 안타 하나의 가치가 다를 수밖에 없는 이유가 됩니다. 그 돈은 오롯이 팬들의 입장, 중계 시청, 광고주의 상품 구매, 그리고 세금에서 나옵니다. 야구 종사자들에게 '직업인 교육'이 필요한 이유이기도 합니다.
그래도 내일 또 야구를 보기 위해 자리 잡고 앉아 있겠지요. 팬이란 '사심'이 있을 수 없으니까요. 일상과 닮은 야구를 늘 응원하렵니다.