brunch

You can make anything
by writing

C.S.Lewis

by 정섭 Oct 12. 2024

우월전략, 열등전략

청소년을 위한 게임이론 제2장 2

※ 맨 뒤에 요약이 있습니다.


┃죄수의 딜레마 게임의 균형은 우월전략균형이다


지난 글에서 찾은 죄수의 딜레마 게임의 균형의 성격에 관해 이야기해 봅시다. 이제 알게 된 것처럼 죄수의 딜레마에서 균형은 (자백, 자백) 전략조합입니다. A의 입장에서는 B가 어떤 선택을 하더라도 자백이 ‘최선의 반응’입니다. B의 입장에서도 A가 어떤 선택을 하더라도 최선의 반응은 '자백'입니다. 즉 (자백, 자백) 전략조합은 각 죄수가 선택할 수 있는 어떠한 전략에 대해서도 ‘최선의 반응’을 모은 전략입니다. 이처럼 상대가 어떤 선택을 하더라도 하나의 반응(여기서는 '배신')만이 최선의 전략인 경우 이러한 전략을 ‘우월전략(dominant strategy)’이라고 하고, 우월전략만으로 구성된 균형을 ‘우월전략 균형(dominant strategy equilibrium)’이라고 합니다. 그러므로 죄수의 딜레마 게임의 균형은 우월전략 균형입니다. 다시 말하지만, 상대가 어떤 선택을 하더라도 배신을 선택하는 것만이 최선의 반응이므로 우월전략 균형이 되는 것이지요.                    



┃우월전략을 찾아라


배신, 협력, 그리고 자해

매트릭스에서 행이나 열을 추가해 보면 우월전략에 대한 이해를 조금 더 잘할 수 있습니다. 이를 위해 A에게 ‘자해’라는 선택이 하나 더 있다고 해봅시다. A가 이것저것 생각하기도 싫고 병원에라도 가야겠다는 생각으로 자해하는 것을 하나의 대안으로 생각하는 상황입니다. 이에 따라 ⑤와 ⑥을 추가한 것이 그림 2.4입니다. 보수표에 의하면, A가 자해를 하면 B가 어떤 결정을 하든 괘씸죄가 추가된 A는 4년의 징역형을 삽니다. B는 아무것도 안 했음에도 0.5년의 괘씸죄가 추가되는 날벼락을 맞습니다. 그래서 A가 자해했는데 B가 자백하면 B는 ⑤의 1.5년 징역형, 침묵하면 ⑥의 2.5년 징역형을 살게 됩니다.


A에게 우월전략이 있는가

우리의 목표는, 자해라는 새로운 변수가 등장했을 때 과연 A와 B에게 우월전략이 있는지를 살펴보는 것입니다. 먼저 A의 경우입니다. 이를 위해 B의 선택에 따른 A의 최선의 반응을 찾아봐야 합니다. 우선 B가 자백을 선택하는 경우입니다. 이 경우 A에게 가장 큰 보수를 주는 최선의 반응은 ⓵, ⓶, ⓹ 가운데 가장 보수가 큰 전략입니다.


그림 2.4.1에서 파란색을 따라 아래로 나열된 숫자들이죠. ⓵의 –2, ⓶의 –3, ⓹의 –4 가운데 가장 보수가 큰 것은 ⓵입니다. 즉 자백이 최선의 반응입니다. 다음 B가 침묵하는 경우를 볼까요? 이 경우 A에게 가장 큰 보수를 주는 최선의 반응은 ⓷, ⓸, ⓺ 가운데 가장 보수가 큰 전략입니다.


그림 2.4.2에서 역시 파란색을 따라 아래로 나열된 숫자들입니다. ⓷의 0, ⓸의 –1, ⓺의 –4 가운데 최선의 반응은, 가장 값이 큰 ⓷의 0, 즉 자백입니다. 즉 B가 침묵하는 경우에도 A의 최선의 반응은 자백입니다. 결국 B가 어떤 선택을 하든 A의 최선의 반응은 자백입니다. 


결국 자해라는 새로운 전략을 포함했을 때도 A는 우월전략이 있고, 그것은 자백입니다. 다시 말하지만 상대가 어떤 선택을 하더라도(자백이든 침묵이든) 동일한 전략 하나만(여기서는 자백만)이 다른 전략보다 우월해야 우월전략이 됩니다.


A의 열등전략은?

우월전략이 있으면 반대로 ‘열등전략(dominated strategy)’이 있다는 것을 짐작할 수 있습니다. A의 입장에서는 B가 어떤 선택을 하더라도 본인이 선택하지 않을 전략이 열등전략입니다. 이 경우는 자백을 제외한 나머지 전략입니다. A의 입장에서 '침묵'과 '자해'는 둘 다 '열등전략'입니다. B가 자백을 선택해도 A는(파란색 아래위 비교) 침묵과 자해가 자백보다 보수가 낮고, B가 침묵을 선택해도 A는 침묵과 자해가 자백보다 보수가 낮기 때문입니다.



사실 열등전략은 균형이 될 수 있는 후보군에서 배제되기 때문에 그림 2.5에서처럼 A의 침묵과 자해에 해당되는 가로 행(row) 두 개(분홍색 셀)는 아예 지워버리고 맨 위 행인 자백 전략만으로 균형을 찾아도 됩니다. 균형을 찾는 시간을 많이 절약할 수 있을 겁니다. 이 경우 B는, 오로지 A가 자백을 선택한다는 전제하에 가장 위의 자백 행만을 놓고 자신의 최선 행동을 선택하기만 하면 됩니다. 즉 ⓵의 빨간색 –2와 ⓷의 –3만을 비교하면 되는데 당연히 보수가 더 높은 ⓵, 즉 자백을 선택한다는 결론에 도달할 수 있을 겁니다. 


B에게 우월전략은 있는가?

이번에는 자해가 포함된 경우에 B에게도 우등전략, 열등전략이 있는지를 볼까요? 

A가 자백하는 경우 B는 ①의 –2와 ③의-3 가운데 ①, 즉 자백을 선택합니다. 그림 2.6.1에서 빨간색끼리 비교죠.

A가 침묵하는 경우 B는 ②의 0과 ④의 –1 가운데 ②, 즉 자백을 선택합니다. 그림 2.6.2에서 빨간색끼리 비교입니다.

A가 자해하는 경우에도 B는 ⑤의 –1.5와 ⑥의 –2.5 가운데 보수가 더 큰 ⑤, 즉 자백을 선택합니다.


모든 경우에 B의 선택은 자백입니다. 그러므로 B의 자백은 모두 우등전략이 되고 침묵은 열등전략이 됩니다. 그러므로 그림 2.6에서 보는 바와 같이, A의 경우처럼, 열등전략인 침묵 열(column)을 모두 지워버려도 됩니다(연두색 세로열). 



┃우월전략균형을 찾았습니다.


앞에서 A의 열등전략은 침묵과 자해임을 밝혔으니(분홍색 행), 그림 2.5와 2.6을 합하면 최종적으로 남는 것은 ⓵, 즉 (자백, 자백) 전략조합만 남습니다.

우월전략 균형은 이처럼 우월전략만으로 이뤄진 균형이라는 사실 한번 더 확인하시기 바랍니다. 이제 여러분은 죄수의 딜레마 게임의 균형은 다름 아닌 ‘우월전략 균형’이라는 사실을 알게 됐습니다. 상당한 진일보입니다.



┃요약


- 상대가 어떤 선택을 하더라도 하나의 반응(전략)만이 최선의 전략인 경우 이러한 전략을 ‘우월전략(dominant strategy)’이라고 합니다.

- 우월전략만으로 균형이 구성된다면 이 균형은 ‘우월전략 균형(dominant strategy equilibrium)’입니다.

- 죄수의 딜레마 게임의 균형은 우월전략 균형입니다.

‘열등전략(dominated strategy)’은 상대 플레이어가 어떤 선택을 하더라도 본인이 선택하지 않을 전략입니다. 우월전략이 있는 경우, 우월전략이 아닌 전략이 열등전략입니다.

- 죄수의 딜레마게임에서 열등전략은 자백을 제외한 전략입니다.

- 열등전략이 있는 게임의 경우 열등전략을 순차적으로 삭제하는 방식으로 균형을 찾을 수 있습니다.

이전 09화 그 유명한, 죄수의 딜레마 게임
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari