brunch

You can make anything
by writing

C.S.Lewis

by 정섭 Oct 04. 2024

그 유명한, 죄수의 딜레마 게임

청소년을 위한 게임이론 제2장 1

※ 맨 뒤에 요약이 있습니다(이 파트는 꼭 전문을 읽어 주시면 좋겠네요).


지금까지 게임이론의 세계에 제대로 들어가기 위한 오리엔테이션이었습니다. 이제 본격적으로 게임이론의 세계에 들어가기로 합시다. 이번 장은 내시균형(Nash equilibrium)에 대한 이야기입니다. 그 시작은 유명한 죄수의 딜레마입니다.



┃죄수의 딜레마


상황

검사가 두 명의 공범을 취조하고 있습니다. 이미 확보된 증거로 둘 다 1년의 징역이 가능한데 여죄를 추궁하기 위해 이들을 분리해서 취조 중입니다. 검사가 두 죄수의 독방에 가서 똑같이 말합니다. 먼저 A의 방.     

“A야, B는 자백하지 않는데 너만 자백하면 너는 바로 풀어줄 거야. 대신 B는 3년 징역을 살게 될 거야, 그런데 반대로 B만 자백하면 B는 풀려나고 니가 3년 징역을 살게 되겠지.”

그러자 A가 묻습니다. 

“둘 다 자백하면 어떻게 되나요?” 

검사가 답합니다.

“임마, 둘 다 자백하면 1년씩 추가해서 둘 다 2년 징역이지 뭘 물어?”     

검사는 이렇게 말했지만 둘 다 입을 다물고 침묵하면 원래대로 징역 1년만 살게 될 것입니다. 그리고 이 말을 B의 방에 가서도 똑같이 말합니다. 검사가 한 말을 정규형으로 그리면 다음 그림 2.1과 같습니다.


                   

죄수의 딜레마 보수표


전략조합에 따른 보수표 읽기

 홀짝게임을 기억하면서 앞으로 나올 비슷한 그림에 익숙해질 필요가 있습니다. 게임 상황을 장황하게 설명하는 것보다 정규형, 즉 메트릭스로 표현하면 훨씬 이해하기 쉽습니다. 그림에는 두 명의 플레이어 A와 B가 있고 자백과 침묵으로 이뤄진 전략조합이 있으며, 선택에 따른 보수표가 있습니다. 표를 읽어볼까요? 홀짝게임에서와 같이, 보수쌍의 앞의 수는 A의 보수, 뒤의 수는 B의 보수입니다. 전략조합을 표현할 때도 마찬가지 순서입니다. 즉 ③의 전략조합은 (자백, 침묵)입니다. 즉 A는 자백, B는 침묵을 선택한 조합입니다. 이 경우 A와 B가 각각 받는 보수쌍 (0, -3)은, A는 석방, B는 3년 징역을 의미합니다. 죄수의 입장에서 징역은 나쁜 것이니 마이너스를 붙였습니다.


그림에서 ⓵은 (자백, 자백) 전략조합입니다. 둘 다 자백하는 전략조합이죠. 이 경우 검사는 둘 다 2년 징역을 살 것이라고 말했습니다. 그러므로 보수쌍은 (-2, -2)가 됩니다. 둘 다 침묵하는 경우, 즉 (침묵, 침묵) 전략조합은 ⓸의 경우입니다. 이 경우에는 둘 다 1년만 살면 되므로 보수쌍은 (-1, -1)이 됩니다. 만약 A는 자백하는데 B는 침묵하는 경우, 즉 (자백, 침묵) 전략조합 ③에서 보수쌍은 (0, -3)입니다. 한쪽이 자백하고 다른 한쪽은 침묵하면 자백한 사람은 즉시 석방, 침묵한 사람은 3년 징역이라고 했던 것을 숫자쌍으로 쓴 겁니다. 마지막으로 (침묵, 자백) 전략조합 ②에서 보수는 (-3, 0)이 됩니다. 익숙해지면 검사의 말을 토대로 이런 그림을 그리고 숫자를 채워 넣을 수 있게 될 것이고, 이 그림만 보면 검사의 말을 바로 유추할 수 있게 될 것입니다.


이제 각 죄수가 어떤 선택을 할지 생각해 봅시다. 상대방이 뭘 선택하느냐에 따라 나의 보수가 달라지기 때문에, A와 B는 각자 머리를 열심히 굴립니다.


┃최선의 반응


A의 머리 굴리기(최선의 반응)

먼저 A는 어떻게 머리를 굴리는가 생각해 봅시다. “만약에 B가 자백을 한다면?”하고 감옥의 차가운 바닥에 표를 그려놓고 숫자를 손가락으로 가리키면서 생각합니다. 여러분도 펜으로 짚어가면서 찾아보시기를 바랍니다. 아래 그림 2.2에서 노란 바탕의 세로 열이 B가 자백하는 경우 A가 선택할 수 있는 두 가지 경우입니다. “내가 선택할 수 있는 건 ①과 ② 중에 하난데. 만약 나도 자백하면 ①에서 내 보수는 –2이고, 내가 침묵하면 ②에서 내 보수는 –3이 되는 거지(파란색끼리 위아래 비교). 그럼 나는 당연히 징역이 더 작은 ①, 즉 자백을 선택하면 되겠네!”      


A는 B가 자백을 한다면 자기도 자백을 선택해야 된다는 결론을 내리고 답을 찾았다고 기뻐합니다. 그리곤 잊어버리지 않기 위해, 자기가 선택한 ①의 앞에 있는 –2 에 밑줄을 긋습니다. 그림 2.2에도 ①앞의 -2에 밑줄이 그어져 있습니다. 여러분도 밑줄을 그어 보세요.


                                                  A의 머리 굴리기(최선의 반응)


A의 머리 굴리기는 계속됩니다. “그런데 만약에 B가 침묵을 선택할 수도 있잖아, 그러면 어떡해야 하지?” 하면서 다시 손가락으로 감옥 바닥에 손가락을 가져다 씁니다. 그림 2.2에서 회색 바탕의 세로 열이 B가 침묵하는 경우 A가 선택할 수 있는 두 가지 경우입니다. “이 경우 내가 선택할 수 있는 건 ③과 ④ 중에 하난데, 내가 자백하면 ③에서 내 보수는 0이고, 침묵하면 ④에서 내 보수는 –1이 되네(파란색끼리 위아래 비교). 그렇다면 ③을 선택해야 되는데, 어! 이 경우에도 나는 자백을 해야 되네!”


이 과정을 거친 후 A는, B가 침묵을 해도 자신의 선택은 자백이어야 한다는 사실을 알게 되고 자신이 선택한 ③의 앞에 있는 0에 밑줄을 긋습니다. B가 어떤 선택을 하든 A에게는 자백만이 최선의 반응이라는 것은 주목할 만한 결과입니다.


B의 머리 굴리기(최선의 반응)

이제 B가 굴리는 머릿속을 들어가 봅시다. 마찬가지 방식으로 생각을 할 겁니다. B도 A처럼 감옥의 차가운 바닥에 표를 그려놓고 손가락을 긁적거립니다. B의 선택은 그림 2.3에 빨간색으로 나타나 있습니다.                         

B의 머리 굴리기(최선의 반응)


“만약에 A가 자백을 한다면, 내가 선택할 수 있는 건 그림 2.3에 노란색 바탕의 가로 행 ①과 ③ 중에 하난데. 만약 나도 자백하면 ①에서 내 보수는 –2이고, 내가 침묵하면 ③에서 내 보수는 –3이 되는 거지(B의 보수는 보수쌍에서 뒤에 있는 숫자라는 사실, 기억하시죠? 즉 빨간색끼리 좌우로 비교). 그럼 나는 당연히 징역이 더 작은 ①, 즉 자백을 해야 하는군!” B는 A가 자백을 한다면 자기도 자백을 선택해야 된다는 사실을 알게 됩니다. 그리고는 B는 잊지 않기 위해 자신이 선택한 ⓵의 뒷 숫자 –2에 밑줄을 긋습니다. 여러분도 밑줄을 긋고 계시죠? B의 머리 굴리기는 계속됩니다.


“반대로, 만약에 A가 침묵을 한다면, 내가 선택할 수 있는 건 그림에서 회색 바탕의 가로 행 ②와 ④ 중에 하난데, 내가 자백하면 ②에서 내 보수는 0이고, 침묵하면 ④에서 내 보수는 –1이 되는군(빨간색끼리 좌우로 비교). 그런데 어! 이 경우에도 나는 보수가 더 큰 자백을 선택해야 되네!”

 

B도 결국 A가 어떤 선택을 하든 자백이 최선의 반응이라는 사실을 깨닫고 ⓶뒤 0에 밑줄을 긋습니다. 이런 머리 굴리기를 토대로 A와 B는 둘 다 자백을 선택하기로 합니다.



균형을 찾았다!


여러분이 밑줄을 그으면서 이 글을 봤다면 밑줄이 모두 그어진 보수쌍이 ①(-2-2), 즉 (자백, 자백) 전략조합임을 보고 계실 겁니다. 우리는 지금까지 '상대방의 선택에 대해' 자신에게 최고의 보수를 주는 선택, 즉 '최선의 반응'에 밑줄을 그었습니다. 그렇다면 보수쌍 모두에 밑줄이 그어진 조합은 두 플레이어 모두에게 최선의 반응인 조합입니다. 상대가 전략을 바꾸지 않는 한 자신이 이 조합을 바꿀 이유는 두 플레이어 모두에게 없습니다. 그러므로 이는 이 게임의 균형이 됩니다. 보신 것처럼 죄수의 딜레마 게임의 균형은 (자백, 자백)이고, 그에 따른 보수는 (-2, -2)입니다. 앞으로 정규형 게임은 모두 이런 식으로 하시면 균형을 찾기가 수월할 것입니다.


요약

- 최선의 반응을 찾는 방법은 내시균형을 찾는 가장 효과적인 방법입니다. 앞으로의 진도를 위해 반드시 개념을 이해하시기 바랍니다.

- 내시균형은 다른 플레이어가 자신의 전략을 포기하지 않는 한 자신의 전략을 바꿀 유인이 없는 전략조합을 말합니다.

- 플레이어의 최선의 반응은 상대방의 전략이 주어졌을 때 가장 큰 보수를 주는 전략입니다.

- 내시균형은 각 플레이어의 최선 반응에 밑줄을 치는 방법으로 쉽게 찾을 수 있습니다. 모든 플레이어가 최선의 반응인 전략조합이 내시균형입니다.

이전 08화 마지막 관문, 범칙금 딱지(기댓값)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari