제4장(혼합전략 내시균형) 8
4.8 가위 바위 보!
가위 바위 보 게임의 보수행렬 채워넣기
이쯤 되면 가위바위보 게임의 내시균형이 궁금합니다. 우선 가위바위보 게임은 이전에 열거한 게임과 크게 다른 점이 있습니다. 바로 선택할 수 있는 전략의 수가 늘어나면서 보수쌍의 개수도 늘어난다는 점입니다. 전략이 각각 세 개이므로 전략조합도 보수쌍도 9개로 늘어납니다. 가위바위보 게임의 보수행렬, 그림 4.10에 표시했는데, 모두 빈칸으로 두었습니다.
보수행렬을 제대로 이해하시는지를 확인해 보기 위해 빈칸을 스스로 채워보면 어떨까 해서입니다. 가위바위보를 했을 때 누가 누구를 이기는지는 모두 알 테고, 이기면 1, 지면 –1, 비기면 0으로 채워 넣으시면 됩니다. 만약 이 빈칸을 모두 올바르게 채우셨다면 보수행렬을 완벽하게 이해하고 있다는 의미가 됩니다. 정답은 바로 아래 그림 4.11에 있습니다.
가위 바위 보 게임의 순수전략 내시균형은 없다.
그림 4.11을 보면 가위바위보 게임은 우선 제로섬 게임입니다. 모든 보수쌍의 합이 0입니다. 홀짝게임처럼 누군가 이기면 누군가는 반드시 질 뿐 아니라 비기면 둘 다 0의 보수를 받게 되는 게임이니 제로섬 게임이 분명합니다. 가위바위보 게임에서 순수전략 내시균형은 없습니다.
한번 해 볼까요? 그림에서 제일 위의 행을 봅시다. A가 가위를 내는 경우 B는 바위를 내야 합니다. ①, ④, ⑦ 각각 B의 보수 0, 1, -1 가운데 B에게 가장 많은 보수를 주는 것은 1, 즉 ④의 경우입니다. 그 아래 행에 의하면 A가 바위를 내는 경우 B는 보를 내야 가장 많은 보수인 1을 얻고, 보를 내는 경우에도 B는 가위를 내야 가장 많은 보수인 1을 얻습니다. 해당되는 보수에 밑줄 쫙. 이는 모두 A의 전략에 대한 B의 최선의 반응입니다.
이제 A의 선택을 봅시다. B가 가위를 내는 경우 A는 가장 많은 보수 1을 얻는 바위를(곧 ②를), B가 바위를 내는 경우 역시 가장 많은 보수 1을 주는 보를, 마지막으로 B가 보를 내는 경우 A는 가장 많은 보수를 주는 가위를 내야 합니다.
이상의 과정으로 상대방의 전략에 대한 최선의 반응 모두에 밑줄이 쳐진 것이 그림 4.11입니다. 그림을 보면 모든 1에 밑줄이 쳐진 것을 볼 수 있는데, 이는 어느 보수쌍도 둘 다 밑줄이 그어지지 않는다는 것을 의미합니다. 각자 상대의 행동에 최선의 반응을 선택했으나 두 사람이 모두 만족하는 안정적 균형이 없는 것입니다. 결국 가위바위보 게임에서는 순수전략 내시균형이 성립되지 않는다는 것을 알 수 있습니다. 모든 비협조게임에는 하나 이상의 내시균형이 있다, 기억 나시죠? 그렇다면 이제부터 혼합전략 내시균형을 찾아봅시다.
혼합전략 내시균형 찾기
B가 가위를 낼 확률이 p, 바위를 낼 확률이 q라면 B가 보를 낼 확률은 (1-p-q)입니다. 가위든 바위든 보든 셋 중에 하나를 내야 할 테니 셋을 합하면 1이 되기 때문입니다. 이 관계가 식 4.13에 나타나 있습니다.
B가 가위를 낼 확률: p
B가 바위를 낼 확률: q
B가 보를 낼 확률: 1-p-q 이상 (식 4.13)
혼합전략 내시균형을 찾기 위해서는 각 플레이어의 기대이득을 구하는 것부터 해야 합니다. 아시죠?
A의 기대이득
먼저 A의 기대이득을 구해봅시다. 이는 A가 가위를 낼 때, 바위를 낼 때, 그리고 보를 낼 때의 기댓값을 모두 더해서 구할 수 있습니다. 우선 A가 가위를 낼 때 A의 기댓값을 계산해 봅시다. 그림 4.11에서 가장 위의 행입니다. 이 경우 B가 가위와 바위, 보를 낼 각각의 확률에 따라 A의 기댓값이 결정된다는 점 기억하시기 바랍니다. 범칙금의 기대값 계산 기억하셔야 합니다. 먼저 A가 가위를 내고 B가 가위를 내면 서로 비기므로 A의 보수는 ①의 0입니다. B가 가위를 낼 확률은 p라고 했습니다. 그러므로 A가 가위를 내고 B가 가위를 내는 경우 A의 기댓값은 0 곱하기 p입니다.
다음 A가 가위를 내는데 B가 바위를 내는 경우 A는 지기 때문에 보수는 ④의 –1입니다. B가 바위를 낼 확률은 q라고 했으니 A의 기댓값은 –1 곱하기 q가 됩니다.
마지막으로 A가 가위를 내는데 B가 보를 내면 A는 이기게 되는데, 이 경우 보수는 ⑦의 1이고, B가 보를 낼 확률은 (1-p-q)이므로 기댓값은 1 곱하기 (1-p-q)가 됩니다.
이렇게 계산한 세 값을 모두 더한 것이 A가 가위를 냄으로써 얻는 기댓값이 됩니다. 즉
A가 가위를 낼 때 A의 기댓값 = (0*p) + (-1*q) + (1*(1-p-q))=-p-2q+1 (식 4.14)
그런데 이 식을 가만히 보면 그림 4.11에서 A가 가위를 내는 경우에 얻을 수 있는 보수에 B가 각각 가위 바위 보를 낼 확률을 곱한 것임을 알 수 있습니다. 그러므로 A가 바위를 낼 때의 기댓값과 보를 낼 때의 기댓값도 각각 다음의 식처럼 구할 수 있습니다.
A가 바위를 낼 때 A의 기댓값= 1*p + 0*q + -1*(1-p-q) = 2p+q-1 (식 4.15)
A가 보를 낼 때 A의 기댓값: -1*p + 1*q + 0*(1-p-q) = -p+q (식 4.16)
B의 최선의 반응
p와 q는 B의 결정입니다. B로서는 p와 q를 어떻게 결정해야 할까요. 여러분이 B의 입장이 되어서 생각해 보시기 바랍니다. 아마도 이렇게 생각할 것입니다.
“만약 A가 가위를 낼 때 A에게 돌아갈 기댓값이, A가 바위를 낼 때 자신에게 돌아갈 기댓값보다 크다면 A는 가위를 낼 것이야. 마찬가지로 A가 보를 낼 때 A 자신에게 돌아갈 기댓값이 다른 것을 낼 때보다 더 크다면 A는 보를 내겠지. 그렇다면 나로서는 A가 무엇을 내든 A에게 돌아갈 기댓값이 같아지는 p와 q를 찾아서 그 확률로 가위바위보를 선택해야겠군.”
하는 결론에 도달합니다. 이해가 되십니까? 기댓값은 평균값이니, A가 뭐를 내든 A가 얻을 이득의 평균값이 같아지도록 B는 가위 바위 보를 선택해야 한다는 것입니다. 식 4.14, 식 4.15, 식 4.16 가운데 어느 것이라도 큰 값이 나오면 A가 더 큰 이익을 얻게 될 것이기 때문에 B로서는 세 개 식의 값이 모두 같아지는 p, q를 찾아야 한다는 이야기이지요.
두 개의 미지수와 세 개의 식이 있으므로 해를 구하는 것은 간단한 일입니다. 식 4.15의 2p+q-1과 식 4.16의 -p+q를 일치시키는 식을 만들면 p=1/3을 구할 수 있습니다. 식 4.14의 -p-2q+1와 식 4.16의 -p+q를 일치시키는 식을 만들면 q=1/3을 구할 수 있습니다. 가위를 낼 확률 p와 바위를 낼 확률 p가 각각 1/3이므로 보를 낼 확률(1-p-q) 역시 1/3이 됩니다.
이상으로 우리는 p=q=1/3임을 밝혔습니다. 즉, B의 균형 전략, 즉 상대 A가 예측할 수 없는 확률분포는 p=q=1-p-q=1/3입니다. 이 말은, 가위와 바위와 보를 각각 1/3의 확률로 내는 것이 A가 B의 전략을 예측할 수 없게 하는, A가 어떤 선택을 하든 A에게 동일한 기대이득을 자져다 주는, 그러므로 A가 어떤 선택을 하든 B의 최선의 반응이 됩니다. 이 결과는 사실 이렇게 계산하지 않아도 상식과 일치합니다.
A의 최선의 반응은 B와 대칭
A의 경우도 마찬가지입니다. 가위바위보는 A와 B에게 서로 대칭인 게임이기 때문에 A가 가위를 낼 확률을 a, 바위를 낼 확률을 b, 그리고 보를 낼 확률을 (1-a-b)라고 하고 A의 균형 확률을 구하면 이 역시 a=b=1-a-b=1/3이 됩니다.
가위바위보 게임의 혼합전략 내시균형
이제 우리는 가위 바위 보 게임의 혼합전략 내시균형을 찾았습니다. 즉, A와 B가 각각 1/3의 확률로 가위바위보를 내는 것이 가위바위보 게임의 혼합전략 내시균형입니다.