< 몇 번째 경기만에 우승할까요? - 음이항 분포 >
집사람과 나는 프로야구를 좋아한다. 하지만, 서로 응원하는 팀이 다르다. 둘 다 서울이 고향이긴 하지만
서울 연고인 서로 다른 프로야구팀을 응원하고 있다. 집사람은 열렬한 "허슬 두의 두산 베어즈" 팬이다.
잠실 더비가 있을 때마다, 집사람은 "최강 두산", 나는 "무적 LG"를 외친다.
이때, 집사람의 한 마디면 나는 할 말일 잃곤 한다. "LG는 한국 시리즈 몇 번 우승했어?"
그럼에도 불구하고 두 사람이 기대하는 것이 하나 있다. 한국 시리즈에서 LG와 두산의 잠실 더비를 보는 것이다. 포스트 시즌에서 두 팀이 경기를 한 적은 있으나 아직 한국 시리즈에서 만난 적은 없기 때문이다.
만약 실제 한국 시리즈 잠실 더비가 성사되면, LG가 한국 시리즈에서 우승할 수 있을까?
한국 시리즈는 7전 4선 승제로 승부를 가른다. 7번 경기에 대한 가중치는 없고 어떤 경기든 4번만 이기면
된다.
여기서 질문...
LG 트윈스가 4번째 경기에서 한국시리즈를 우승하는 확률은 얼마일까?
아니면, 5번째 경기, 6번째 경기, 7번째 경기에서 우승하는 확률은 얼마일까?
야구 경기의 결과는 대표적인 베르누이 상황이다. 승, 패 둘 중의 하나밖에 없으니 말이다.
2019년부터 2024년까지 두 구단의 경기 결과를 바탕으로 본 두산에 대한 LG의 승률은 다음과 같다.
위 결과를 보면 LG 트윈스가 매 경기에서 승리할 확률은 0.522이다. 이 확률을 이용한다면 위에서 질문한 LG 트윈스가 몇 번째 경기에서 우승할 것인지에 대한 가능성을 예측할 수 있으며, 결과는 아래 그래프와
같다.
"몇 번째"에 관심이 있을 때 활용하는 확률 분포가 바로 "음이항 분포"다.
즉, 4번 승리를 위해서 몇 번 경기를 해야 하는지에 관심이 있을 때 음이항 분포를 활용할 수 있다.
4번 경기만에 한국시리즈를 우승하는 것은 7.4%로 그렇게 높지 않으며, 6번째 경기에 우승할 확률이 가장 높은 것을 알 수 있다. 감독이라면 이 결과를 보고 한국 시리즈 전체에 대한 투수 운용, 타순 변경등에 대한 우승 전략을 수립할 것이다.
질문을 이렇게 바꿔보자
한국 시리즈 잠실 더비가 이뤄진다면 LG 트윈스가 우승할 확률은 얼마인가?
이는 몇 번째가 아니라, 7번 경기 중에서 4번만 승리하는 경우를 말하기 때문에, 4번째 경기만에 우승을 하던, 7번째 경기까지 가서 우승을 하던 아무 상관없다. 이런 경우에는 이전에 이야기한 "이항 분포"를 사용해서 확률을 확인할 수 있다.
따라서, 질문이 분포를 결정한다. 내가 어떤 질문을 하느냐에 따라서 "분포"는 자연스럽게 결정된다.
1) 두산 베어즈와 상대 전적이 0.522인 LG 트윈스가 한국 시리즈 7경기에서 4번 승리할 확률은?
-> 이항 분포를 활용한다. --> 몇 번에 관심
2) 두산 베어즈와 상대 전적이 0.522인 LG 트윈스가 한국 시리즈에서 6 경기만에 우승(4번 승리)할 확률은?
-> 음이항 분포를 활용한다. --> 4번 승리를 위해 필요한 경기 수에 관심
수식으로 풀어보면 음수의 개념이 나오기 때문에 음이항이라고 한다. 하지만, 이항 분포의 상황과 반대되는
상황을 설명하고 있기 때문에 음이항이라고 이해하면 어떨까?