brunch

You can make anything
by writing

C.S.Lewis

by Caseinate Jul 14. 2017

죄수의 딜레마 대응 전략

[서평] 게임 이론의 권위자 로버트 액설로드 지음 <협력의 진화>

<죄수의 딜레마>는 경제학이나 심리학에서 자주 언급되는 유명한 이야기다. 내용은 다음과 같다.  

    

두 명의 죄수가 범죄를 의심받아 감옥에 갇혀 있다. 죄수 A와 B는 각자 독방 안에 갇혀 있어서 연락할 방법이 없다. 그런데 이때 각 죄수에게 경찰이 다가가 범죄를 자백하면 형량을 깎아주겠다고 제안한다. 만약 두 죄수가 둘 다 침묵한다면, 둘 다 1년형을 받는다. 만일 한 명만 자백하고 한 명은 침묵한다면, 자백한 죄수는 바로 풀려나고 침묵한 죄수는 5년형을 받는다. 둘 다 자백하면 모두 3년형을 받는다. 각 죄수들은 자신의 형량이 가장 적게 나오도록 침묵이나 자백을 선택한다.     


사실, 두 사람 모두 자백하지 않는다면 1년 형만 받으면 된다. 그럼에도 각 죄수들은 모두 자백하게 된다. 상대가 자백을 했다면 5년형이 아닌 3년형을 받기 위해, 상대가 자백을 안했다면 3년형을 받지 않고 바로 나가기 위해 자백하게 되는 것이다. 따라서 이런 죄수의 딜레마 상황이 한 번이라면, 배신하는 것이 이득이다.      


하지만 죄수의 딜레마 상황이 수백 번 반복된다면, 형량을 최소화하기 위해 어떤 전략을 취하는 것이 가장 이득일까? 그리고 그 이유는 무엇일까?      


이 질문에 답하는 책이 바로 로버트 액설로드의 <협력의 진화>이다. 이 책은 죄수의 딜레마 상황에 대처하는 전략 '팃포탯(Tit for tat)'에 대한 책이다. 게임 이론의 권위자 로버트 액설로드는 죄수의 딜레마 상황에 대처하는 컴퓨터 프로그램 대회에 대해 설명한다.      


대회의 규칙은 간단하다. 죄수의 딜레마의 침묵과 자백에 대응하는 선택을 협력과 배신으로 가정하고, 각각의 상황에 점수를 부여한다. 상대는 협력하고 내가 배신했을 때의 점수가 가장 높으며, 모두 협력했을 때가 그 다음, 모두 배신했을 때가 그 다음의 점수이며 나는 협력하고 상대는 배신했을 때의 점수가 최악이다. 흡사 사회의 규칙과도 비슷하다. 이런 죄수의 딜레마 게임을 수백 번 반복한 뒤 점수를 계산한다.     


이런 상황에서 최고의 점수를 얻는 전략을 가리기 위해 다양한 학자들이 기상천외한 프로그램을 내놓았다. 상대가 배신할 때까지 협력하다가 상대가 한 번이라도 배신하면 자신도 끝까지 배신하는 '프리드먼', 처음엔 협력하다가 10%의 확률로 배신하기 시작하는 '요스' 등의 다양한 전략이 나왔다. 협력적인 전략도 제출되었지만, 상대의 협력을 배신으로 이용하는 전략도 많이 나왔다.     


하지만 우승을 차지한 것은 첫 번째 상황엔 협력하고, 두 번째 상황부터는 상대가 앞서 한 행동을 따라하는 '팃포탯'이었다. 팃포탯의 우승 사실을 알리고 두 번째 대회를 열었음에도 역시 팃포탯이 승리를 가져갔다.  

   

저자인 액설로드는 대회의 1등 전략인 팃포탯에 대해 분석했다. 그리고 팃포탯의 어떤 요소가 이런 좋은 전략이 되도록 했는지, 이를 다른 분야에 어떻게 적용할 수 있는지, 호혜적 요소로서의 팃포탯을 잘 활용하는 방법은 무엇인지에 대해 정리하여 책을 썼다.     


책에 따르면, 팃포탯은 무척 신사적인 전략이다. 처음에 무조건 협력하고, 상대가 나를 배신하기 전까지는 상대를 배신할 수 없다. 상대방의 이전 행위를 따라하기 때문이다. 따라서 자신을 돕는 이들과 서로 협력하며 점수를 쌓을 수 있다. 협력적인 전략과 만나서 동반자 관계를 만들 수 있는 것이다.     


또한 상대가 배신하기 시작하면 그 배신을 따라하기 때문에 상대에게 응징할 수 있다. 전략이 명료하고 단순해서 어렵지 않다. 상대가 배신한 후에 협력을 구하면 협력에 다시 응해주기도 한다.      


팃포탯의 강건한 성공은 신사적이고, 보복적이고, 관대하고, 명료한 특성들이 조합된 결과다. 신사적이라 쓸데없는 문제에 휘말리지 않고, 보복적이라 상대가 배반을 시도할 때마다 더 이상 지속하지 못하게 억제한다. 관대함은 상호협력을 회복하는 데 도움이 되며, 명료성은 상대로 하여금 이해하기 쉽게 해서 장기적 협력을 이끌어낸다. - 78p     


팃포탯의 승리는 단순한 프로그램의 승리가 아니다. 협력과 배신을 반복하여 최적의 성과를 찾는 프로그램 대회가 정치와 사회에서 일어나는 많은 딜레마 상황의 은유이기 때문이다. 프로그램 대회는 자신의 이익을 찾는 이들의 사회, 다양한 전략은 각 구성원의 전략으로 이해할 수 있다.     


따라서 팃포탯의 승리는, 자신의 이익을 찾는 이들이 다른 도덕적인 이유를 배제하고도 서로 협력하는 체계를 만들 동기가 있음을 의미한다. 사회에 비유한다면, 우리가 이기적인 인간들로 구성된 사회에 살아도 장기적 이익에 따라 협력하고, 그 협력을 유지할 수 있다는 점을 뜻하는 것이다.      


이 책은 협력과 배신이 선택지로 주어진 상황에서 어떻게 하면 사회에서 협력을 증진시킬 수 있는지에 대해서도 논한다. 미래를 중요하게 만들고, 보수의 크기를 바꾸고, 협력을 증진시킬 수 있는 가치관을 가르친다면 사회의 협력은 증진될 것이라고 말한다.     


과학자 리처드 도킨스는 이 책을 읽고 감탄하여, 옥스퍼드 학생들에게 읽도록 하고 주변 사람들에게 권하였다고 한다. 게임 이론에 관심이 있거나, 정치와 사회의 딜레마 상황, 개인의 전략에 대해 관심이 있다면 읽을 가치가 있는 책이다. 사회적인 고정관념, 신분 체계를 이해하는데 도움이 되기도 한다.

작가의 이전글 좀비 등장 이후, 세계가 달라졌다

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari