제4장(혼합전략 내시균형) 5
※ 맨 뒤에 요약이 있습니다.
이 글을 맨 처음 시작할 때, 페널티킥을 차는 키커와 골키퍼의 눈치 게임 이야기했던 것 기억하시나요. 이제 실제로 이 게임의 균형을 찾아봅시다. 키커의 전략은 ‘왼쪽으로 차는 것’과 ‘오른쪽으로 차는 것’ 두 가지입니다(가운데로 차는 경우도 가끔 보지만 설명의 편의상 여기서는 상정하지 않겠습니다). 골키퍼 역시 ‘왼쪽으로 막는 것’과 ‘오른쪽으로 막는 것’ 두 가지 전략이 있습니다. 너무 가까운 곳에서 차기 때문에 골키퍼로서는 왼쪽이든 오른쪽이든 미리 뛸 방향을 정해 놓고 막을 수밖에 없습니다. 방향이 맞아도 공을 막지 못하는 경우가 있지만, 방향이 틀리면 막는 것은 불가능합니다.
이제 우리는 몇 가지 가정을 하겠습니다. 우선 키커가 차는 방향과 골키퍼가 막는 방향이 같으면 골키퍼는 그 공을 막을 수 있습니다. 키커는 오늘 아침 아내에게, 페널티킥을 찰 기회가 오면 왼쪽 구석으로 차 넣을 것이고, 반지 세리머니와 텀블링까지 하겠다는 약속을 하고 집을 나섰습니다. 만약 그렇게 되면 키커는 한 골을 넣은 것보다 더 큰 만족을 얻습니다. 반지 세리머니와 텀블링은 골키퍼로서는 더 큰 수치를 느끼는 행동입니다. 이 상황을 보수행렬로 나타낸 것이 그림 4.7입니다.
제로섬 게임
이 게임은 홀짝게임처럼 보수쌍의 합이 모두 0이 되는 제로섬 게임입니다. 들어가거나 안 들어가거나 보수의 합은 제로가 됩니다. 키커가 골을 넣었다면 골키퍼는 골을 먹은 것이니까요. 그런데 보수의 크기가 다른 전략조합이 보입니다. 키커가 왼쪽으로 차고 골키퍼가 오른쪽으로 막은 ②의 경우 키커의 과도한 세리모니 때문에 골키퍼는 –2를, 아내와의 약속을 지킨 키커는 +2를 얻는 것으로 가정했기 때문입니다. 나머지의 경우는, 넣거나 막으면 +1, 못 넣거나 못 막으면 –1의 보수를 얻습니다. 같은 제로섬 게임이긴 해도 보수쌍들의 절댓값이 서로 다른 제로섬 게임입니다.
이 게임의 내시균형을 찾는 것이 우리의 과제입니다. 우선 이 페널티킥 눈치 게임에서 순수전략 내시균형은 없습니다. 줄을 그어가면서 한번 균형을 찾아보시기를 바랍니다(그림에서 미리 그어놓은 것처럼, 밑줄이 모두 그어진 보수쌍이 없습니다). 그렇다면 혼합전략 내시균형이 있을 것입니다.
이 게임에서 플레이어는 ‘상대 플레이어가 예측할 수 없는 전략’을 찾으려고 노력할 것입니다. 홀짝게임에서 내시균형은, ‘상대가 예측할 수 없는 확률’, 즉 50%의 확률로 홀과 짝을 선택하는 전략이었음을 기억하기 바랍니다. 이 게임에서도 마찬가지입니다. 즉 ‘상대가 예측할 수 없는 어떤 특정한 확률’을 찾는 것이 우리의 과제입니다. 말하자면 키커의 입장에서는 자신이 왼쪽으로 찰지 오른쪽으로 찰지 골키퍼가 예측할 수 없게 만드는 확률(p), 그리고 골키퍼의 입장에서는 자신이 왼쪽으로 막을지 오른쪽으로 막을지 키커가 예측할 수 없게 만드는 확률(q)을 찾는 문제가 됩니다. 확률이 나오면 기댓값을 생각해야 합니다.
골키퍼가 왼쪽으로 막는 경우 골키퍼의 기댓값 계산
먼저, 골키퍼가 왼쪽으로 막는 경우 골키퍼의 기댓값을 계산해 봅시다. 보수행렬의 위쪽 가로 행을 보시면 됩니다. 골키퍼가 왼쪽으로 막았는데 키커가 100%의 확률로 왼쪽으로 찬다면 골키퍼는 1의 보수를 얻습니다(①에서의 1 곱하기 100%니까 1입니다). 골키퍼가 왼쪽으로 막았는데 키커가 90%의 확률로 왼쪽으로 차고 10%의 확률로 오른쪽으로 찬다면 골키퍼는 ①에서의 1 곱하기 90% 더하기 ③에서의 마이너스 1 곱하기 10%의 보수를 얻을 것입니다(=(1*0.9)+(-1*0.1)). 이 경우 골키퍼가 얻는 보수는 0.8(=0.9-0.1)이 됩니다.
이것을 일반화해서 말하면 다음과 같습니다. “키커가 왼쪽으로 찰 확률을 p, 오른쪽으로 찰 확률을 1-p라고 할 때, 골키퍼가 왼쪽으로 막는 경우 골키퍼가 얻을 기댓값은 (1*p)+(-1*(1-p))가 된다.” 이를 식으로 나타내면 다음과 같이 됩니다.
골키퍼가 왼쪽으로 막는 경우 골키퍼가 얻을 기댓값 계산:
- 키커가 왼쪽으로 찰 확률 p, 이 경우 골키퍼의 보수는 1
- 키커가 오른쪽으로 찰 확률 1-p, 이 경우 골키퍼의 보수는 -1
- 골키퍼의 기댓값은: 1p – 1(1-p) = 2p-1 이상 (식 4.7)
골키퍼가 오른쪽으로 막는 경우 골키퍼의 기댓값 계산
이제 골키퍼가 오른쪽으로 막는 경우의 기댓값을 구해 봅시다. 이 경우 역시 골키퍼가 얻을 기댓값은 키커가 어느 쪽으로 차느냐에 달려있습니다. 골키퍼가 오른쪽으로 막는다면 키커가 왼쪽으로 100% 차는 경우 골키퍼는 ②의 –2의 기댓값을 얻게 됩니다. 만약 키커가 왼쪽으로 90%, 오른쪽으로 10%의 확률로 찬다면 오른쪽으로 막는 골키퍼가 얻는 기댓값은 –2 곱하기 90%에 1 곱하기 10%를 더해서(=(-2*0.9)+(1*0.1)) –1.7이 될 것입니다.
이를 일반화해서 말하면 “키커가 왼쪽으로 찰 확률을 p, 오른쪽으로 찰 확률을 1-p라고 할 때, 골키퍼가 오른쪽으로 막는 경우 골키퍼가 얻을 기댓값은 (-2*p)+(1*(1-p))가 된다.” 이를 식으로 나타내면 다음과 같습니다.
골키퍼가 오른쪽으로 막는 경우 골키퍼가 얻을 기댓값 계산:
- 키커가 왼쪽으로 찰 확률을 p, 이 경우 골키퍼의 보수는 –2
- 키커가 오른쪽으로 찰 확률은 1-p, 이 경우 골키퍼의 보수는 1
- 골키퍼의 기댓값은: -2p + 1(1-p) = -3p + 1 이상 (식 4.8)
키커의 선택: 골키퍼의 기댓값이 같아지는 p값 찾기
이렇게 해서, 골키퍼가 왼쪽으로 막는 경우와 오른쪽으로 막는 경우의 기댓값을 구했습니다. 이제 p는 어떻게 구할 수 있을까 생각해 봅시다. p는 왼쪽으로 차는 확률이라고 했습니다. 이건 키커가 결정합니다. 그렇다면 키커는 p를 어떻게 결정해야 할까요? 간단한 문제입니다. 골키퍼가 어떤 전략을 선택하더라도 다른 전략보다 더 많은 이득을 얻지 못하는 p를 찾는 것입니다. 이는 오른쪽으로 막든 왼쪽으로 막든 골키퍼의 기댓값이 같아야 한다는 것을 의미합니다. 그건 위 두 식이 일치하는 값입니다. 즉,
2p–1 = -3p+1
∴ p = 2/5 (이상 식 4.9)
답을 찾았습니다. 2/5는, 키커가 왼쪽으로 찰지 오른쪽으로 찰지를 골키퍼가 예측하지 못하게 하는 확률입니다. 그러므로 키커는 2/5의 확률로, 즉 5번의 페널티킥 가운데 2번을 왼쪽으로, 3번을 오른쪽으로 차는 것이 가장 최선의 반응이 됩니다. p의 균형 확률을 찾았습니다.
- 페널티킥을 차는 키커와 막는 골키퍼의 제로섬 게임(보수표는 본문 그림 4.7)
- 골키퍼가 왼쪽으로 막는 경우 골키퍼가 얻을 기댓값 계산:
1. 키커가 왼쪽으로 찰 확률 p, 이 경우 골키퍼의 보수는 1
2. 키커가 오른쪽으로 찰 확률 1-p, 이 경우 골키퍼의 보수는 -1
3. 골키퍼의 기댓값은: 1p – 1(1-p) = 2p-1 이상 (식 4.7)
- 골키퍼가 오른쪽으로 막는 경우 골키퍼가 얻을 기댓값 계산:
1. 키커가 왼쪽으로 찰 확률을 p, 이 경우 골키퍼의 보수는 –2
2. 키커가 오른쪽으로 찰 확률은 1-p, 이 경우 골키퍼의 보수는 1
3. 골키퍼의 기댓값은: -2p + 1(1-p) = -3p + 1 이상 (식 4.8)
- 골키퍼가 어떤 전략을 선택하더라도 다른 전략보다 더 많은 이득을 얻지 못하는 p 찾기
- 이는 오른쪽으로 막든 왼쪽으로 막든 골키퍼의 기댓값이 같아야 한다는 것을 의미
- 즉 위 두 식이 일치하는 값
2p–1 = -3p+1
∴ p = 2/5 (이상 식 4.9)