최대최소이득 균형의 성격
※ 맨 뒤에 요약이 있습니다.
제로섬게임과 관련된 제3장의 마지막 글입니다. 직전 글에서, 두 사람이 하는 제로섬 게임에서만 최대최소균형이 성립한다는 이야기를 했는데, 이번 장은 이 명제의 수정과 함께, ‘최대최소이득 균형’과 관련한 몇 가지 주의와 예외에 대한 이야기입니다. 우선 대표적인 제로섬 게임인 홀짝게임입니다.
홀짝게임에 최대최소균형은 없다.
그림 3.3은 그림 1.4에 각 플레이어의 최소이득을 추가로 표시한 그림입니다. 각 플레이어의 최소이득이 홀과 짝 모두 –100으로 동일합니다. 최소이득 가운데 최댓값을 찾아야 하는데 모두 동일하니 최대최소이득을 찾을 수가 없습니다. 즉 홀짝게임의 경우 최대최소이득 해법은 플레이어가 선택해야 할 전략조합이 무엇인지를 알려 주지 못합니다. 이것은 최대최소이득 해법의 결점 가운데 하나라고 할 수 있습니다. 홀짝게임은 여러 가지 면에서 연구 대상이네요. 실제로도 홀짝게임은 게임이론에서 상당히 많이 연구된 게임이기도 합니다.
제로섬게임이 아닌 경우에도 최대최소균형이 있을 수 있다.
또 하나 살펴볼 것은 제로섬 게임이 아닌 경우입니다. 제로섬 게임이 아닌 게임에 최대최소이득 균형이 있는지, 있다면 그 균형이 내시균형과 같을 수 있는지 살펴봅시다. 익숙한 죄수의 딜레마 게임으로 이 문제를 살펴보기로 하지요. 그림 3.4는 그림 2.1에 A와 B의 최소이득을 표시한 그림입니다. A의 최소이득은 자백할 때는 –2, 침묵할 때는 –3입니다. 그렇다면 최소이득 가운데 최댓값은 –2이므로 A의 최대최소이득은 자백할 때 성립합니다. B의 경우도 자백하는 경우 최소이득은 –2, 침묵하는 경우 최소이득은 –3이므로 B의 최대최소이득도 자백할 때 성립합니다. 결국 최대최소이득 균형은 (자백, 자백)입니다. 이것은 우월전략 균형과 동일합니다. 즉 내시균형과 동일합니다. 최대최소이득 균형이 제로섬 게임이 아닌 경우에도 성립할 수 있다는 것이 증명됐습니다.
이제 마지막으로 제로섬 게임이 아닌 게임에서 최대 최소이득균형이 내시균형과 일치하지 않는 경우를 살펴봅시다.
게임 상황
그림 3.5는 주행게임(일명 치킨게임 또는 매와 비둘기 게임)입니다. 이 게임도 제로섬게임이 아닙니다(다른 전략조합에서는 보수쌍의 합이 0이지만 (돌진, 돌지) 조합에서는 보수쌍의 합이 -20입니다). 액션 영화에서 두 주인공이 서로 마주 보며 질주하는 상황을 상상하셔도 되고, 신호등이 없는 교차로를 생각하셔도 됩니다. 이 게임은 플레이어들이 충돌하는 사고를 피하기 위해 서로 양보하는 것이 최선임에도 불구하고 충돌을 강행하려는 태도를 취할 때 더 큰 보수를 얻는 상황을 보여주는 게임입니다,
둘 다 강경하게 행동하는 경우 꽝하고 부딪히면 각각 –10의 큰 손실을 입습니다. 반면 한 플레이어가 양보하고 다른 플레이어가 강경한 경우, 양보한 플레이어는 약간의 시간 손실에 따른 작은 손실(-1)을, 강경한 플레이어는 약간의 시간 이득에 따른 더 큰 보상(1)을 받습니다. 양쪽 모두 양보하면 아무 손실도 특별한 이득도 없는 0의 보상을 각각 받습니다. 나머지 셋은 합이 0이지만 서로 돌진하는 ④의 경우에는 합이 –20이므로 일정합 게임이 아닌 비일정합 게임입니다.
치킨게임의 내시균형
먼저 내시균형을 찾아볼까요? B가 양보를 선택하는 경우 A는 돌진이 최선의 반응이고(①의 0과 ②의 1 가운데 1 선택), B가 돌진을 선택하는 경우 A는 양보가 최선의 반응입니다(③의 –1과 ④의 –10 가운데 –1 선택). 밑줄 치면서 따라오고 계시죠? 이번에는 A가 양보하는 경우 B는 돌진이 최선의 반응이고, A가 돌진하는 경우 B는 양보가 최선의 반응입니다. 즉, 이 게임에서는 (양보, 돌진)과 (돌진, 양보) 두 개의 내시균형이 있습니다.
치킨게임의 최대최소균형
이제 최대최소이득 균형을 찾아봅시다. A의 경우 양보할 때 최소이득은 –1, 돌진할 때 최소이득은 –10입니다. 그러므로 A는 양보를 선택하는 것이 최대최소이득입니다. B의 경우 양보할 때 최소이득은 –1, 돌진할 때 최소이득은 –10으로 B 역시 양보를 선택하는 것이 최대최소이득입니다. 결국 최대최소이득 균형은 (양보, 양보)가 됩니다.
내시균형과 최대최소균형이 불일치하는 경우도 있다.
이 예의 경우 내시균형은 최대최소이득 균형과 다릅니다. 최대최소이득 균형에서는 두 플레이어 모두 충돌을 피하기 위해 양보를 선택하지만, 내시균형은 한 플레이어가 양보하고 다른 한 플레이어가 돌진하는 전략을 선택합니다. 이런 결과는, 비일정합 게임에서는 최대 최소이득 균형과 내시균형이 일치하지 않는 경우도 있다는 사실을 알려줍니다.
최대최소전략의 보수적 성격
일반적으로, 최대최소전략은 ‘최대화 문제(maximization problem)’입니다. 내가 가질 수 있는 ‘최소이득’을 '최대화'하는 전략입니다. 즉, 상대방이 어떤 행동을 하든 자신이 확보할 수 있는 최소이득이 최대가 되도록 하는 전략입니다. 반대로 최소최대전략은 일종의 ‘최소화 문제(minimization problem)’입니다. 즉 앞에서 본 것처럼 이 문제에서 목표는 가능한 ‘최악의 손실’을 '최소화'하는 것입니다. 즉, 상대방이 나에게 줄 수 있는 최악의 손실을 최소로 만드는 것이 최선의 반응이라는 관점입니다. 결과적으로 (양보, 양보) 균형이 성립되었습니다. 최악의 손실을 최소로 만드는 전략은 아무래도 '보수적' 전략입니다. (양보, 양보) 균형도 보수적인 전략입니다.
폰 노이만의 미니맥스 정리
게임이론의 창시자라고 할 수 있는 폰 노이만은 미니맥스 정리(minimax theorem)를 통해 모든 제로섬 게임에는 최대최소 균형 존재한다는 것을 증명했습니다. 제로섬 게임에서 최대최소균형은 내시균형임을 우리는 알고 있습니다. 이 균형점에서는 어떤 플레이어도 단독으로 전략을 바꿈으로써 더 나은 결과를 기대할 수 없습니다.
최대최소 전략은 실제 생활에서도 적용될 수 있으며, 투자, 사업, 군사 전략, 협상 등 여러 의사결정 상황에서 중요한 개념입니다. 역사적으로 최대최소 전략과 유사한 보수적이고 방어적인 투자 전략을 사용한 유명한 사례로는 벤저민 그레이엄과 그의 제자 워런 버핏의 가치 투자(Value Investing) 접근법을 들 수 있습니다. 그레이엄과 버핏은 기업의 내재 가치를 분석하여 과소평가된 종목을 매수하고, 최악의 상황에서도 큰 손실을 피할 수 있도록 방어적인 포트폴리오를 구성하는 전략을 취했습니다. 이 방법은 특히 경제가 침체일 때 발생할 수 있는 최소 수익을 최대화하는 방식으로 투자 위험을 관리하려는 목표와 유사합니다.
벤저민 그레이엄의 '안전마진' 개념
그레이엄은 주가가 본질 가치보다 크게 낮은 주식을 사는 "안전 마진(Margin of Safety)"을 중시했는데, 이는 최대최소 접근과 비슷합니다. 가격이 내재 가치보다 낮을 때 투자함으로써 최악의 경우 발생할 수 있는 손실을 줄이고, 경제적 불확실성에 대비하려는 것입니다.
워런 버핏의 보수적인 투자 철학
버핏도 그레이엄의 방어적 전략을 계승하여, 최악의 상황에서도 상대적으로 안정적인 수익을 제공할 수 있는 강력한 기초를 가진 기업에 집중했습니다. 이러한 접근은 경기 변동이 있을 때도 일정한 수익을 기대하게 하는 최대최소 전략의 실제 적용 사례라 할 수 있습니다. 이와 같은 전략은 1970년대와 2008년 금융 위기에서도 적용되어, 워런 버핏이 어려운 경제 상황 속에서도 손실을 최소화하고 장기적인 안정적 수익을 유지하는 데 중요한 역할을 한 것으로 알려졌습니다.
- 홀짝게임에서 최대최소 전략은 균형을 찾는 데 도움을 주지 못합니다.
- 최대최소균형은 제로섬게임이 아닌 경우에도 성립할 수 있습니다(예, 죄수의 딜레마 게임).
- 비일정합게임에서는 내시균형과 최대최소균형이 일치하지 않을 수 있습니다.
- 최대최소균형은 나에게 제시된 최소이득을 최대화하는 전략이기 때문에 그 해는 보수적입니다.
- 예: 치킨게임에서 내시균형은 (돌진, 양보), (양보, 돌진) 조합이지만 최대최소균형은 (양보, 양보) 조합입니다.