홀짝게임, A의 기대이득과 혼합전략 내시균형
※ 맨 뒤에 요약이 있습니다.
A가 '홀'을 쥐었을 때 A의 기대이득
이제 동전을 쥐는 A의 입장에서 기대이득을 계산한 후, 이 게임의 균형에 관한 이야기로 넘어가 보겠습니다. 지난 장에서 B의 상황을 충분히 이해하신 분이라면 이번 장에서 A의 상황을 이해하는 것은 쉬운 일입니다. 시작해 볼까요? 보수행렬은 그림 4.1과 같습니다. A가 이 게임에서 얻게 될 보수는 B가 홀과 짝 가운데 뭘 부르느냐에 전적으로 달려있습니다. A가 홀을 쥐었는데 B가 100%의 확률로 홀을 부른다면 A는 100% 돈을 잃습니다. 만약 A가 홀을 쥐었는데 B가 90%의 확률로 홀을 부른다면 A는 90%의 확률로 돈을 잃고, 10%의 확률로 돈을 딸 것입니다. 그러므로 A의 기대이득을 계산하기 위해 필요한 것은 B가 홀을 부를 확률입니다. 이제 우리는 B가 홀을 부를 확률을 다음과 같이 정의하기로 합니다.
q: B가 홀을 부를 확률(그러므로, B가 짝을 부를 확률은 1-q)
A가 ‘홀’을 쥐었을 때 A의 기대이득도 두 가지 측면의 합입니다. 우선 A가 홀을 접었는데 B가 ‘홀’을 부르면 A는 지게 됩니다. 그 이득은 –100이고 B가 홀을 부를 확률은 q이므로 이 경우 A는 –100q를 받게 됩니다(⓵의 상황). A가 홀을 쥐었는데 이번에는 B가 ‘짝’을 부르면 A는 이길 겁니다(⓷의 상황), 그 이익은 100인데 확률은 (1-q)입니다. 그러므로 이 경우 A는 100(1-q)을 받게 됩니다. 그러므로 A가 홀을 접는 경우 A의 기대이익은 이 둘을 합한 –100q + {100(1-q)}입니다. 즉, 다음이 성립합니다.
A가 ‘홀’을 쥐었을 때 A의 기대이득 = -100q + 100(1-q)}= -200q + 100 (식 4.3)
이 됩니다.
A가 '짝'을 쥐었을 때 A의 기대이득
반대로 A가 ‘짝’을 쥐었을 때 A의 기대이득은 다음과 같이 됩니다. A가 짝을 쥐었는데 확률 q로 B가 홀을 부르면 A는 100q를 받고(⓶의 상황), A가 짝을 쥐었는데 확률 (1-q)로 B가 짝을 부르면 A는 –100(1-q)를 받습니다(⓸의 상황). 이 둘을 합한 것이, A가 짝을 쥐었을 때 A가 얻을 기대이득이 됩니다.
A가 ‘짝’을 쥐었을 때 A의 기대이득 = 100q - 100(1-q) = -100 + 200q (식 4.4)
여기까지 이해하셨다면 혼합전략 내시균형의 8부 능선을 넘으신 겁니다. 축하합니다.
모든 식을 모아라.
이제 마지막으로 실제로 홀짝게임에서 균형을 이루는 p와 q가 얼마인지를 생각해 봅시다. 우선 우리가 도출한 4개의 식을 한데 모으면 다음과 같습니다.
p: A가 홀을 쥘 확률(그러므로, A가 짝을 쥘 확률은 1-p)이고,
q: B가 홀을 부를 확률(그러므로, B가 짝을 부를 확률은 1-q)라고 할 때,
B가 ‘홀’을 불렀을 때 B의 기대이득 = 100p - 100(1-p) = 200p –100 (식 4.1)
B가 ‘짝’을 불렀을 때 B의 기대이득 = -100p + {100(1-p)} = 100 – 200p (식 4.2)
A가 ‘홀’을 쥐었을 때 A의 기대이득 = -100q + 100(1-q)}= -200q + 100 (식 4.3)
A가 ‘짝’을 쥐었을 때 A의 기대이득 = 100q - 100(1-q) = -100 + 200q (식 4.4)
p(A가 홀을 쥘 확률)가 51%면 B의 선택은?
이제 q와 q가 어떻게 결정되는지를 말로 설명해 보겠습니다. 먼저 p(A가 홀을 쥘 확률)를 결정해야 하는 A의 머릿속을 한 번 들여다봅시다. “내가 만약 p를 51%의 확률로 쥔다면 B는 ‘무조건’ 확률이 높은 '홀'에 걸 거야. 만약 내가 p를 49%의 확률로 쥔다면 B는 확률이 높은 '짝'을 ‘무조건’ 부를 것이고. 그렇다면 홀이든 짝이든 같은 비율, 즉 p를 정확히 50%로 해야, 홀이든 짝이든 어디에 걸더라도 B에게 더 큰 이익을 주는 것이 없어지겠군.” 이렇게 생각한 A는 p는 0.5가 되도록 동전을 쥐기로 합니다. 지극히 타당한 생각입니다. 즉, p=0.5가 A의 최선 반응입니다.
A도 B도, q와 q를 0.5로 해야 하는 이유
B 역시 마찬가지입니다. B는 q를 결정해야 하는데, 홀과 짝을 정확히 0.5의 확률로 불러야 A가 홀을 쥘지 짝을 쥘지를 판단하기 어렵다는 것을 압니다. 결국 이 경우에도 q는 0.5가 되는 것이 B의 최선 반응입니다. 즉, 균형은 p=0.5, q=0.5입니다. 홀짝게임 혼합전략 내시균형을 찾았습니다!
식으로 표현하면?
이렇게 말로 도출한 숫자를 수식으로도 나타내 봅시다. 먼저 홀을 부를 확률 p를 결정해야 하는 A의 최선 반응을 생각해 봅시다. A는 생각합니다. “내가 홀을 쥐거나 짝을 쥘 때 내가 얻을 기대이득이 다르다면 B는 내가 얻을 기대이득이 작은 쪽으로 돈을 걸겠지(홀짝게임은 제로섬게임이므로 상대의 불행은 나의 행복임을 기억하시기 바랍니다.)? 그렇다면 나는 짝을 쥘 때나 홀을 쥘 때 나의 기대이득이 같아지는 p를 찾아야겠군.” 이는 A가 홀을 쥘 때 A의 기대이득인 식 4.1과 A가 짝을 쥘 때 A의 기대이득인 식 4.2를 동일하게 만드는 p입니다. 즉,
200p-100=100-200p
400p=200
∴ p=0.5
가 됩니다.
같은 원리로 B의 입장에서도, B가 홀을 부르든, 짝을 부르든 B의 기대이득이 같아지도록 만드는 q값을 찾아야 합니다. 이는 식 22.1과 식 22.2가 일치하는 q입니다. 즉,
-200q+100=-100+200q
200=400q
∴q=0.5
가 됩니다. 결국 A는 p=0.5가 되도록 쥐고 B는 q=0.5가 되도록 부르는 것이 내시균형입니다. 이는, 앞에서 말로 도출한 것과 같은 논리적 결론입니다. 홀짝게임의 혼합전략 내시균형이 도출됐습니다. 이렇게 구한, ‘상대가 예측하지 못할 확률’을 ‘균형 확률’이라고 부릅니다. 다음 장에서는 그래프로 이 원리를 알아봅시다.
- A가 홀을 쥘 때 A의 기댓값은 B가 홀을 부를 확률 q에 달려있습니다. 예컨대 A가 홀을 쥐었는데 B가 홀을 100%의 확률(즉, q=100)로 부르면 A는 q=100%의 확률로 이기므로 기댓값은 q 곱하기 이겼을 때 받은 값 100을 곱한 값이 되는 원리입니다.
- 이제 확률을 좀 바꿔 봅시다. 만약 A가 홀을 쥐었을 때 B가 홀을 90%의 확률(q)로 부르고 짝을 10%의 확률(1-q)로 부르면 A의 기댓값은 (0.9*100)+(0.1*-100), 즉 90-10=80이 됩니다.
- 이를 식으로 일반화하면 A가 홀을 쥘 때 A의 기댓값 = -100q + 100(1-q)}= -200q + 100
- 이런 논리로 A가 짝을 쥘 때 A의 기댓값=100q - 100(1-q) = -100 + 200q
- 이 식들에 의하면 A의 기댓값은 오로지 B가 홀을 부를 확률 q에 달려있습니다. 만약 B가 홀을 부를 확률 q가 50%를 넘는다면 여러분이 A라면 무조건 홀을 쥐는 것이 최선의 반응이 될 것입니다.
- 만약 A가 51%의 확률로 홀을 쥔다면 B는 무조건 홀에 거는 것이 최선의 반응입니다. 51%는 이기기 때문입니다. 그러므로 A는 정확히 50%의 확률로 홀을, 50%의 확률로 짝을 쥐는 것이 최선입니다. 즉, p=0.5가 최선의 반응입니다.
- 이를 식으로 나타내면, A가 홀을 쥘 때의 기대이득과 짝을 쥘 때의 기대이득을 일치시키는 p를 찾는 문제입니다. 즉, (식 4.1)=(식 4.2)가 되는 p를 구하면 됩니다. 계산하면 p=0.5입니다.
- B 역시 마찬가지 이유로 정확히 50%의 확률로 홀과 짝을 선택해서 부르는 것이 최선입니다. 즉 q=0.5가 최선의 반응입니다.
- 이를 식으로 나타내면, B가 홀을 부를 때의 기대이득과 짝을 부를 때의 기대이득을 일치시키는 q를 찾는 문제입니다. 즉, (식 4.3)=(식 4.4)가 되는 q를 구하면 됩니다. 계산하면 q=0.5입니다.
- 그러므로 p=0.5, q=0.5가 홀짝게임의 혼합전략 내시균형입니다.