혼합전략 내시균형(홀짝게임 B의 기대이득 구하기)
제4장 혼합전략 내시균형
4.1 홀짝게임, 균형을 찾았다(1)
※ 맨 뒤에 요약이 있습니다.
이제 조금씩 어려워집니다. 여기서부터는 입문자들로서는 어려울 수 있으니 이전 내용을 충분히 숙지하시고 계속 보시는 것을 추천드립니다.
지금까지는 순수전략
우리는 잎에서 홀짝게임에 내시균형이 없다는 것을 증명한 바 있습니다. 그런데 이제 이 표현을 수정할 때가 됐습니다. 게임이론을 상당히 공부한 우리는 이제 홀짝게임에는 ‘순수전략(pure strategy)’ 내시균형이 없다는 표현을 써야 합니다. 지금까지 우리가 배운 게임에서 우리는 순수전략 내시균형만을 고려했습니다. 순수전략은 우연, 혹은 확률 개념이 없는 전략입니다. 예컨대 지금까지 우리가 다룬 죄수의 딜레마 게임에서는 우연히 배신을 한다든지, 혹은 배신할 확률이 몇 퍼센트라든지 하는 것이 없었습니다. 다만 보수표에 적시된 보수액만을 근거로 전략을 평가했습니다. 이런 게임을 순수전략 게임이라고 합니다.
지금부터는 혼합전략
반면에 이제부터 배울 전략은 우연 혹은 확률 개념을 도입하는 전략입니다. 게임이론에서는 이를 ‘혼합전략(mixed strategy)’이라고 합니다. 날씨를 생각해 봅시다. 올해 겨울 날씨가 어떨 것인지는 ‘자연’이라는 플레이어가 결정합니다. ‘자연’ 개념은 마케팅에 중요한 요소인데, 이 말 자체는 확률적으로 혹은 우연히 결정되는 것을 대표합니다. 또 가위바위보 게임을 한번 생각해 봅시다. “쟤가 방금 가위를 냈는데, 이때까지의 습관을 고려하면 이번에 가위를 다시 낼 확률이 높아”하는 생각을 하는 플레이어는 가위를 낼 것입니다. 물론 아무 생각 없이 우연히 내는 경우가 많겠지만 말입니다. 이런 개념을 도입한 것이 혼합전략이 됩니다.
혼합전략, 확률개념이 접목된 개념
이제부터 우리는, 순수전략 내시균형이 없는 홀짝게임에 과연 우연이나 확률 개념을 접목한 '혼합전략 내시균형'이 있는지를 알아보기로 하겠습니다. 여기서 한 가지 짚고 넘어갈 말씀. 확률이라고 말하면 머리부터 잡는 습관 버리자는 것입니다. 우리는 제1장의 8강에서 기댓값에 관한 이야기를 한 바 있습니다. 첫 번째 고비라는 말까지 써가면서 설명한 기억이 있는데, 기댓값만 이해하면 아무 문제가 없습니다. 겁먹지 말고 잘 따라오시기 바랍니다. 혹시 기억이 안 나면 제1장의 8강을 살짝 들쳐 보실 것을 권합니다.
플레이어 A와 B가 마주 앉아서 A가 쥐고 B가 100을 걸고 홀이나 짝을 부르는 홀짝게임의 보수행렬이 그림 4.1에 나타나 있습니다. 이 게임에 순수전략 내시균형은 없다는 것은 다들 알고 있습니다. 이제 혼합전략 내시균형이 있는지를 알아보기 위해 홀과 짝을 쥐거나 부를 확률 개념을 도입합니다.
B가 홀을 부를 때 B가 얻을 기댓값(B가 이길 확률을 찾아라!)
B가 홀을 부를 때 B가 얻을 기댓값을 먼저 살펴보겠습니다. 주의할 것은, B가 홀을 부르는 경우 B가 얻을 기댓값은 A가 홀을 쥘 확률(혹은 짝을 쥘 확률)에 달려있다는 점입니다. 이는 간단한 이치입니다. B가 홀을 불렀는데 A가 홀을 쥘 확률이 100%면 무조건 B가 이깁니다. 만약 A가 홀을 쥘 확률이 90%라면 B는 90%만큼 이기고 10%만큼은 질 것입니다. 이를 일반화해서 이야기하면, “B가 홀을 부르는 경우, A가 홀을 쥘 확률이 p라면 B는 p의 확률로 이기고 (1-p)의 확률로 진다”라고 말할 수 있습니다. 여기까지 OK?
그림 4.1에 의하면 B가 홀을 불렀는데 A가 홀을 쥐었으면 B는 100을 따고(①의 상황), B가 홀을 불렀는데 A가 짝을 접었다면 B는 100을 잃습니다(②의 상황). 각 값에 그 값이 나올 확률을 곱해서 더하면 기댓값을 구할 수 있다고 했습니다. p는 A가 홀을 접을 확률이고, 1-p는 A가 짝을 접을 확률입니다. 그러므로 이 경우 B가 얻을 기댓값은 100*p–100*(1-p)가 됩니다. 여기까지 온 논리를 몇 개의 명제로 쓰면 다음과 같이 됩니다.
[B가 홀을 부르는 경우 B의 기댓값 계산 과정]
ⅰ) B의 기댓값은 A가 홀을 쥘 확률에 전적으로 달려있다.
ⅱ) 예컨대 B가 홀을 부르는 경우, A가 100%의 확률로 홀을 쥔다면 B는 무조건 따고,
ⅲ) A가 90%의 확률로 홀을 쥔다면 B는 90%만큼은 이기고, 10%만큼은 질 것이다.
ⅳ) A가 홀을 쥘 확률을 p라고 하자(짝을 쥘 확률은 1-p가 된다)
ⅴ) B가 홀을 불렀는데 A가 홀을 쥐었으면 B는 100을 딴다(①의 상황). A가 홀을 쥘 확률은 p이므로 이때 기댓값은 100p이다.
ⅵ) B가 홀을 불렀는데 A가 짝을 쥐었으면 B는 –100이 된다(②의 상황). A가 짝을 쥘 확률은 1-p이므로 이때 기댓값은 –100(1-p)이다.
ⅶ) 그러므로 B가 홀을 부르는 경우 B가 얻을 기댓값은 이 두 값을 더한 100p-100(1-p)가 된다.
이런 논리 과정을 거쳐 우리는 다음과 같은 결론에 도달하게 됩니다.
찾았다, B가 홀을 불렀을 때 B의 기댓값
p = A가 홀을 쥘 확률(1-p는 A가 짝을 쥘 확률)이라고 하면,
B가 ‘홀’을 불렀을 때 B의 기대이득 = 100p - 100(1-p) = 200p –100 (식 4.1)
여러분이 이 내용을 완벽하게 이해한다면 이는 대단히 중요한 진전입니다. 순수전략 내시균형을 넘어 이때까지와는 차원이 다른 새로운 영역이라고 할 수 있는 혼합전략 내시균형을 확실하게 이해할 수 있게 되었기 때문입니다. 이제 남은 것은 B가 짝을 부를 경우, 그리고 A가 홀을 쥘 경우와 짝을 쥘 경우의 기댓값을 계산하는 기계적인 과정만 남아있습니다. 이 과정이 제대로 돼야 마지막 단계인 혼합전략 내시균형을 찾아내는 것이 가능합니다.
그렇다면, B가 짝을 불렀을 때 B의 기댓값은?
이번 장에서는 내친김에 B가 짝을 부르는 경우의 기댓값까지 구하고 다음 장으로 넘어가겠습니다. B가 ‘짝’을 불렀을 때 B가 얻을 기댓값도 마찬가지 원리로 생각하시
면 됩니다. A가 짝을 쥔 경우, 짝을 부른 B는 100을 땁니다.⓸의 경우). A가 짝을 쥘 확률은 1-p이므로 이 둘을 곱하면 100(1-p)가 됩니다. 반대로 A가 홀을 쥐면 짝을 부른 B는 –100을 따고 A가 홀을 쥘 확률은 p이므로 이 둘을 곱하면 –100p가 됩니다(⓷의 경우). 그러므로 B가 짝을 불렀을 때 B의 기대이득은 100(1-p) -100p가 됩니다. 즉, 다음 식이 성립합니다.
B가 ‘짝’을 불렀을 때 B의 기대이득 = -100p + {100(1-p)} = 100 – 200p (식 4.2)
B가 얻을 기댓값은 A가 홀을 쥘 확률 p에 달려 있다!
식 4.1과 식 4.2를 가만히 보면 B의 기댓값은 오로지 A가 홀을 쥘 확률 p에 달려있다는 사실을 알 수 있습니다. 사실은 당연한 이치지요. 식이 이해가 안 되는 분은 식이 없다고 생각하고 홀짝게임의 상황을 떠올려 보시기 바랍니다. 만약 A가 홀을 쥘 확률(여기선 p)이 50%를 넘으면 B는 홀에 거는 것이 최선의 반응이 됩니다. 즉 B의 행동은 A의 행동에 좌우됩니다. 다만 우리는 이런 상식적인 사실을 식으로 증명해 낸 것에 불과합니다.
- 순수전략은 전략을 보수표에 나온 보수액에 의해서만 선택하는 전략
- 혼합전략은 전략의 선택을 확률적으로 하는 전략
- 홀짝게임에서 B가 홀을 부를 때 B의 기댓값은 A가 홀을 쥘 확률 p에 달려있습니다. 예컨대 B가 홀을 부르는데 A가 홀을 100%의 확률(즉, p=100)로 쥐면 B는 p=100%의 확률로 이기므로 기댓값은 p 곱하기 이겼을 때 받은 값 100을 곱한 값이 되는 원리입니다.
- 이제 확률을 좀 바꿔 봅시다. 만약 B가 홀을 부를 때 A가 홀을 90%의 확률(p)로 쥐고 짝을 10%의 확률(1-p)로 쥐면 B의 기댓값은 (0.9*100)+(0.1*-100), 즉 90-10=80이 됩니다.
- 이를 식으로 일반화하면 B가 홀을 부를 때 B의 기댓값 = 100p-100(1-p)=200p-100
- 이런 논리로 B가 짝을 부를 때 B의 기댓값=-100p+(100(1-p))=100-200p
- 이 식들에 의하면 B의 기댓값은 오로지 A가 홀을 쥘 확률 p에 달려있습니다. 만약 A가 홀을 쥘 확률 p가 50%를 넘는다면 여러분이 B라면 무조건 홀에 거는 것이 최선의 반응이 될 것입니다.