최대최소(maxmin), 최소최대(minmax)
※ 맨 뒤에 요약이 있습니다.
최대최소(maxmin): 최솟값의 최대화
그런데 제로섬 게임에는 재미있는 성격이 있습니다. 제로섬 게임에서 나의 전략은 내 이득을 최대화하는 것이지만, 상대방의 이득을 최소화하는 것도 나의 전략이 될 수 있습니다. 상대가 적게 가져갈수록 내가 많이 가져가는 것이 제로섬 게임이기 때문입니다. 이는 최소이득(상대방이 자기에게 제시하는 최소이득) 가운데 최대이득을 찾는 문제로 이를 '최대최소'라고 표현합니다. 이를 조금 자세히 설명해 보겠습니다.
B의 입장에서 자신의 최대최소전략을 찾는 문제를 생각해 봅시다. 먼저의 A의 생각을 읽어야 합니다. A의 입장에서 최선의 반응은, B가 어떤 전략을 선택하더라도 B가 최악의 결과, 즉 최소이득을 얻도록 하는 것입니다. 그렇다면 A가 이런 전략을 쓸 것을 아는 B도 자신의 전략이 필요한데 그것은, 자신에게 제시된 최소이득을 최대화하는 것이 최선 반응이라는 것입니다. 이렇게 선택된 B의 전략은 곧 ‘최대최소이득 전략(maxmin gain strategy)’이 됩니다.
물론 역으로 A의 입장에서도 마찬가지로 자신에게 제시된 최소이득을 최대화하는 '최대최소이득 전략'이 필요할 것입니다.
그림으로 보자
이제 제로섬게임에서 상대방이 제시한 최소이득을 최대화하는 A와 B의 전략이 어떻게 수행되는지 그림을 보면서 생각해 봅시다. 그림으로 보면 훨씬 잘 이해할 수 있습니다.
그림 3.2는 그림 3.1을 그대로 옮긴 후(굵은 사각 테두리 부분) 행과 열을 연장해 각각 가게별 ‘최소이득’을 써넣은 것입니다. A와 B 각각 자신의 ‘최대최소이득’을 찾기 위해 첫 번째로 할 일은 전략별로 자신의 최소이득을 찾는 것입니다.
B(자신)의 최소이득을 찾고 그 가운데 최대이득을 구하라
먼저 B의 최소이득을 찾아봅시다. 1달러에서 B의 이득은 ①의 0과 ②의 1000인데 둘 중 최소이득은 0입니다. ⑤의 0은 바로 이, 1달러에서 B의 최소이득을 적은 것입니다. 2달러에서 B의 최소이득은 ③의 –1000과 ④의 0 가운데 –1000입니다. ⑥의 –1000이 이를 적어 넣은 것입니다. 이처럼 1달러일 때 B의 최소이득은 0이고 2달러일 때 B의 최소이득이 –1000이라면 B로서는 이 가운데 최대인 0, 즉 1달러를 선택하는 것이 ‘최대최소이득 전략’이 되는 겁니다. 즉 1달러일 때 B의 최소이득이 최대(maxmin)가 됩니다.
A(자신)의 최소이득을 찾고 그 가운데 최대이득을 구하라
A의 최소이득도 한 번 찾아볼까요? 1달러일 때 A의 이득은 ①의 0 아니면 ③의 1000입니다. 최소이득은 0입니다. 이것을 ⑦에 적었습니다. 2달러일 때 A의 이득은 ②의 –1000 아니면 ④의 0입니다. 최소이득은 –1000이고, 이것을 ⑧에 적었습니다. A의 최소이득은 1달러일 때 0이고 2달러일 때 –1000이므로 최소이득을 최대화하기 위해서는 1달러를 선택해야 합니다. 즉 1달러가 A의 ‘최대최소이득 전략(maxmin strategy)’이 됩니다.
최대최소이득 균형을 찾았다.
둘 다 1달러에서 최대최소이득을 얻기 때문에 (1달러, 1달러)는 ‘최대최소이득 균형(maxmin equilibrium)’이 됩니다. 그런데 이 균형은 앞장에서 도출한 내시균형과 같습니다. 이상을 통해 우리는 ‘두 사람’이 하는 ‘제로섬 게임’에서 ‘최대최소이득 균형은 내시균형이다.’라는 사실을 알게 되었습니다.
상대방의 전략은 고려할 필요가 없는 것처럼 보이는 착시현상
그런데 최대최소이득 균형을 찾는 과정에는 우리가 이때까지 균형을 찾는 과정과는 다른, 특이한 점이 있습니다. 그것은 플레이어인 A와 B가 상대방의 전략을 고려하지 않는 것처럼 보인다는 것입니다. 오로지 자신의 손실을 최소화하는 전략을 선택하는 과정에 균형을 찾아가기 때문입니다.
⑤는 1달러일 때 B호프의 최소이득, ⑥은 2달러일 때 B호프의 최소이득입니다. 이런 경우 둘 중 최소이득이 더 큰 ⑤, 즉 1달러를 선택하는 것이 B의 최선 반응이라는 것이 B의 최대최소이득을 찾아가는 과정이었습니다. ⑦과 ⑧도 A호프의 가격별 최소이득을 기재한 것입니다. A는 이 둘 중에 최소이득이 더 큰 값인 1달러, 즉 ⑦을 선택하는 것이 최선의 반응이 된다는 것입니다. 여기까지 생각하면 이 과정이 다른 플레이어와는 무관해 보이는 것이 사실입니다.
maxmin과 minmax의 관계
그러나 이것은 두 플레이어 보수의 합이 항상 제로라는 제로섬 게임의 특징 때문에 발생하는 것입니다. A의 보수가 –1000이라면 B의 보수는 1000이 되어야 제로섬 게임이 됩니다. 즉 만약 A의 이득이 최소이득이라면 그 보수쌍에서 B의 이득은 최대이득이 되는 것입니다. 이 둘은 합하면 언제나 0이 됩니다. 제로섬 게임이기 때문입니다. 그러므로 A의 입장에서 자신의 최소이득을 최대화(maxmin, 최대최소전략)하는 전략은 B의 최대이득을 최소화하는 전략(minmax, 최소최대전략)과 완전히 같습니다.
A의 최소이득 최대화(maxmin) = B의 최대이득 최소화(minmax)
그림 3.2의 가장 바깥쪽 행렬이 바로 상대 플레이어의 최대이득을 표기한 것입니다. 표에 의하면 ⑦과 ⑨의 합, ⑧과 ⑩의 합은 모두 0입니다. A의 최소이득과 B의 최대이득의 합계이기 때문입니다. 당연히 0이 됩니다. 제로섬 게임이기 때문입니다. 같은 이유로 ⑤와 ⑪의 합과 ⑥과 ⑫의 합도 모두 0입니다. ⑦은 ⑨와 같은 의미입니다. A에게 최소이득이 최대화되는 것이 ⑦이고, B에게 최대이득이 최소화되는 것이 ⑨이기 때문입니다. 이 둘은 모두 A가 1달러를 선택함으로써 이룰 수 있습니다. A의 최선 반응은 A의 입장에서 봐도, B의 입장에서 봐도 1달러임이 증명됐습니다.
같은 이유로 B의 최선 반응은 최대최소이득인 ⑤인데, 이는 동시에 A의 최소최대이득인 ⑪과 같은 1달러입니다. 그러므로 균형은 (1달러, 1달러)입니다. 지금까지 설명한 것처럼 ‘최대최소이득’에 의한 균형은 상대방의 측면에서 ‘최소최대이득’에 의한 균형과 동일합니다. 분홍색 바탕색이 ‘최소최대이득 전략’을 나타냅니다. 이를 간략한 식으로 쓰면 다음과 같습니다. 나중에 여러분이 대학에 진학하면 한번 정도는 볼 만한 식입니다. 그냥 보시고 넘어가세요.
마지막으로 한 가지 주의. 최대최소이득 균형은 내시균형과 일치한다고 했습니다. 단 전제가 있습니다. 두 사람이 하는 '제로섬 게임'에서만 항상 그렇습니다. 제로섬 게임이 아닌 경우에는 최대최소이득 균형이 내시균형과 일치할 수도 있고, 일치하지 않을 수도 있습니다. 이는 다음 장에서 다루겠습니다.
- 제로섬 게임에서는 상대방의 이득을 최소화하는 것도 전략이 될 수 있습니다.
- 상대가 적게 가져갈수록 내가 많이 가져가는 것이 제로섬 게임이기 때문입니다.
- '최대최소(maxmin)' 전략: 상대방이 나에게 제시하는 최소이득 가운데 나의 최대이득을 찾는 전략
- '최소최대(minmax)' 전략: 내가 상대방에게 제시하는 최대이득 가운데 상대방의 최소이득을 찾는 전략
- A의 최대최소(maxmin) 전략 = B의 최소최대(minmax) 전략