슬래시 명령어의 탄생

분석 자동화 파이프라인

by randahlia

완결, 그리고 새로운 시작

9편에서 v8.0 모델을 완성하고 "완결"이라고 생각했다. 연구는 끝났다. 하지만 무언가 찜찜했다. 매번 클로드에게 "이 투수 분석해줘"라고 부탁하고, 수동으로 데이터를 정리하고, 일일이 점수를 계산해야 했다. 연구 결과물은 있는데, 실제로 쓸 수 있는 "시스템"은 아니었다.

11월의 어느 날, 삼성이 Matt Manning을 데려온다는 뉴스가 떴다. 바로 분석을 돌리려고 했는데 막혔다. CSV 파일을 어디에 넣어야 하지? 어떤 스크립트를 먼저 실행해야 하지? 유사 투수 분석은 어디서 나오지? 프로세스가 정리되어 있지 않았다. 연구할 때는 그때그때 필요한 것만 만들었으니까. 그때 결심했다.

"이거 진짜 쓰려면 제대로 만들어야겠다."


파이프라인의 탄생

며칠간 클로드와 씨름했다. 목표는 단순했다. CSV 파일 하나 던지면 리포트가 나오는 시스템.

기존에는 이랬다:

1. CSV 파일을 열어서 수동으로 피처 계산

2. 엑셀에서 6요소 점수 계산

3. 따로 저장해둔 KBO 데이터에서 유사 투수 찾기

4. 마크다운으로 리포트 작성

5. 클로드에게 나노바나나 프롬프트 요청


새로운 시스템은 CSV 파일을 디렉토리에 복사해 두고, 첫 코드를 실행하면 나머지는 알아서 진행된다. CSV에서 피처를 뽑고, 점수를 계산하고, 유사 투수를 찾고, 리포트까지 자동 생성된다.

Generated Image January 17, 2026 - 10_32AM.jpeg 뭐 이런식으로 바뀌는 셈(너무 과장되긴 한거 같은데..)


할루시네이션과의 전쟁

자동화 과정에서 예상치 못한 문제가 생겼다. 유사 투수 섹션에 이상한 이름들이 등장했다. "유사 투수: 라우드(NC 2022), 헥터 노에시(롯데 2022)..." 라우드?? 그런 투수가 KBO에 있었나? 데이터베이스를 뒤져봤다. 없다. 클로드가 지어낸 이름이었다. AI의 할루시네이션. 들어는 봤지만 이렇게 직접 마주하니 섬뜩했다. 연구 리포트에 가짜 투수 이름이 들어가면? 이걸 최종확인 없이 자동화 콘텐츠라고 바로 내보낸다면? 상상만 해도 끔찍했다.

image.png 진짜 전쟁이다.

클로드 코드에 지시사항을 전달했다. "유사 투수는 반드시 실제 데이터베이스에서만 가져와야 해. 없으면 없다고 해야지, 지어내면 안 돼." 파이프라인을 다시 설계했다. 선수 예측을 실해하는 코드가 실제 DB에서 유사 투수를 검색하고 JSON 파일로 저장한다. 리포트 생성코드는 JSON만 읽어서 리포트를 만든다. 어디에서도 투수 이름을 생성하지 않는다. 오직 참조만. 전체 프로세스가 코드에서 바로 코드로 데이터만 전달되는게 아니다. 코드의 결과를 AI가 중간에서 읽고 전달하는 과정이 있는데, 이 과정에서 매우 엄격한 지침이 내려지지 않으면 AI는 '자기의 판단 하에' 컨텍스트를 추가하게 된다. 이러한 부분을 최대한 줄여내야 했다.

다시 돌려봤다. "유사 투수: 브룩스(2.63 WAR), 라우어(0.87 WAR), 가빌리오(1.47 WAR)..." 전부 실제 KBO 외국인 투수들이었다. 할루시네이션 제거 성공.


첫 번째 실전


시스템이 완성되자마자 Matt Manning을 분석했다. 삼성이 실제로 영입한 투수다. 고향팀의 2026시즌이 이 투수의 어깨에 달렸다(고 생각하면 좀 오버지만). 결과가 나왔다. 이걸 나노바나나 프롬프트로 만들어보니 멋진 카드가 생성되었다.

image.png

1편에서 Matt Manning을 처음 분석했을 때가 떠올랐다. 그때는 "후라도와 82% 유사"라는 황당한 결과가 나왔다. 152km/h 강속구 투수가 146km/h 기교파와 비슷하다니. 그 실패가 이 연구의 시작이었다. 지금은 다르다. 6요소가 명확하게 점수화되고, 유사 투수는 실제 DB에서 나온다. "왜 이 점수가 나왔는지"가 설명된다. 그게 가장 중요하다. 블랙박스가 아니라 해석 가능한 시스템.


또다른 후보 테스트

Manning 분석 후 다른 후보들의 분석도 실행했다. 당시 NC 다이노스 영입 후보군으로 루머가 있었던 Cal Quantrill. MLB에서 올스타에도 선정된 투수다. 결과는 놀라웠다.

image.png

핵심 무기 스플리터가 눈에 띄었다. 전체 투구의 4분의 1 이상을 스플리터로 던진다. KBO,NPB에서 스플리터(또는 포크볼)은 매우 각광받는 구종 중 하나다. 일본 NPB 출신 투수들의 스플리터 효과가 입증된 바 있고, KBO 타자들에게도 충분한 경쟁력이 있는 구종이었다.


자동화의 가치

시스템을 쓰면서 깨달은 것들이 있다.

첫째, 속도

예전에는 한 투수 분석에 반나절이 걸렸다. 지금은 5분이면 된다. 스토브리그에 후보 10명이 오르면 하루 만에 전부 분석할 수 있다.

둘째, 일관성

수동 분석은 그날 컨디션에 따라 달라진다. 같은 투수를 다른 날 분석하면 다른 결론이 나올 수 있다. 자동화된 시스템은 항상 같은 기준을 적용한다.

셋째, 투명성

"이 투수가 왜 85점인가?" 질문에 답할 수 있다. SwStr% 9.8%로 +20점, 스위퍼로 +10점, 직구 제구력으로 +5점. 더하면 85점. 명확하다.

넷째, 재현성

내가 분석하든 다른 사람이 분석하든 같은 결과가 나온다. CSV 파일만 있으면 된다. 누구나 검증할 수 있다.


한계, 그리고 다음

시스템이 완벽한 건 아니다. 여전히 한계가 있다.

표본 크기

34명은 적다. 75점 이상이 100% 성공이라고 했지만, 그게 겨우 5명이다. 통계적으로 확신하기엔 부족하다. 데이터가 쌓여야 한다.

NPB/CPBL 경유 투수

폰세처럼 일본을 거쳐 오는 투수들에게는 이 모델이 맞지 않을 수 있다. 별도 연구가 필요하다.

정성적 요소

멘탈, 문화 적응, 가족 상황. 이런 건 데이터로 못 잡는다. 여전히 스카우트의 눈이 필요한 영역이다.

부상

건강하게 던지면 85점짜리 투수라도, 시즌 중 팔꿈치가 나가면 끝이다. 부상 예측은 다른 연구 주제다.


혼자가 아니었다

image.png

9년 전, 구단에 처음 들어갔을 때를 떠올린다. 외국인 투수 스카우팅 리포트를 보면서 "이걸 데이터로 해볼 수 없을까?" 생각했다. 그때는 방법을 몰랐다. AI센터에서 5년간 야구 서비스를 기획하면서도 비슷한 생각을 했다. "제대로 된 분석 시스템을 만들고 싶다." 하지만 조직 안에서는 자유롭게 시도하기 어려웠다. 지금은 혼자다. 대신 클로드가 있다. 코드를 짜고, 에러를 잡고, 아이디어를 구체화하는 과정을 함께했다. 혼자였다면 몇 달 걸렸을 작업을 며칠 만에 해냈다. 11월이 지나고 12월이 왔다. 스토브리그가 한창이다. 뉴스에 낯선 이름들이 뜨면 바로 CSV를 받아서 분석을 돌린다. 75점 이상이면 기대해도 좋다. 60점 미만이면 걱정해야 한다. 물론 시스템이 다가 아니다. 100%는 없다. 하지만 확률을 아는 것과 모르는 것은 다르다. 20억짜리 도박을 진짜 투자로 만드는 것. 그게 이 연구의 가치다.


Epilogue

사실 이 시리즈는 '블로그 게시'가 목표가 아니었습니다. 선수 카드를 만들어내는 과정을 기록으로 남길 곳이 마땅치 않아, 브런치 플랫폼을 활용한 것 뿐이었습니다. AI를 활용한다는 것에 대해서 많은 분들이 두려움을 갖고 계십니다. 저는 그럴 필요가 없다고 생각합니다. LLM은 일종의 '대화' 입니다. 좀더 자세히 말하자면 '논리적인 과정을 잘 서술하는 능력'이 중요하죠. AI가 멍청하다고 느끼는 것은 '논리적으로 잘 설명해주지 못하기 때문'입니다. "그림을 그려줘"라고 하는 것과, "오늘 드라이브를 하다가 아름다운 노을을 봤어. 차창 옆으로 보이는 아름다운 석양을 그려줘. 나는 운전석에 있고 운전자의 시점에서 보이는 아름다운 석양을 그림으로 남기고 싶어. 그림을 인스타에 올려서 자랑하고 싶으니 인스타 이미지에 맞는 비율로, 실제 사진 스타일, 이번에는 감성이 풍부한 Lo-fi 스타일이 좋겠어" 라고 지시하는 것 사이에는 매우 큰 차이가 있겠지요.(1년 전에는 한글을 이해하지 못해 이걸 또 영어로 번역해서 써야 했습니다)

제가 AI를 잘 활용하는 상위 N%의 인간은 아닐겁니다. 하지만 이렇게 하면 뭐라도 할 수 있다...정도는 알려드릴 수 있을 것 같았습니다. 앞으로의 세상은, 호기심이 돈이 되는 세상일겁니다. 그래서 AI를 어떻게 활용하느냐, 그리고 AI를 얼마나 잘 활용하느냐는 매우 커다란 재능으로 다가올 거라고 생각합니다.

AI를 개발하는 것은 어렵지만, 수많은 모델의 홍수 속에서 나에게 맞는걸 찾아서 잘 쓰는건 모든 인간이 해 나가야할 능력이라고 생각합니다. 피할 수 없으면 즐겨야겠죠.


어렵지 않습니다. 저도 이 글의 결과물을 내기까지 약 1년 반이 걸렸습니다.


일단 첫 대화부터 시작해 보세요.


Hello, world.

이전 09화완전히 다른 접근