brunch

You can make anything
by writing

C.S.Lewis

by 김종민 Mar 05. 2020

이기적으로 살면 성공할까?: 게임이론과 팃포탯(2)

협력과 정의는 살아남는다


저번 글에서는 게임이론과 죄수의 딜레마를 살펴보았습니다.


내 이익 챙기기만 해야 살아남을 것 같은 세상, 그렇지만 왜인지 협력과 이타심을 가진 사람들이 세상에는 많습니다. 왜 그런지를 게임이론을 바탕으로 살펴보고 있습니다.


죄수의 딜레마에서는 죄수들이 협력(침묵), 배반(자수) 두가지의 선택지를 갖고 있는데요. 상대방이 협력했을 때 내가 배신하면 석방이고, 상대방이 배신했을 떄는 마찬가지로 배신해야 그나마 형을 줄일 수 있으므로 모든 죄수가 배신하는 것에서 내쉬 균형이 형성되었습니다.


죄수들의 상황


그러나 이 배신으로 인해 모든 죄수는 5년형에 처해야만 했습니다. 양쪽 다 협력했을 때의 형량이 각각 1년이므로, 한쪽이 배신하여 남은 쪽이 10년형을 사는 것보다도 따져보면 훨씬 나은 선택입니다. 개개인으로서는 합리적인 선택을 했는데, 오히려 전체로서는 손해를 보게 되었습니다.


이러한 아이러니가 발생하는 이유는 죄수의 딜레마가 단발성 게임이기 때문인데요. 그렇다면 1회성 게임이 아니라 여러번 반복하면서, 상대방의 협력/배신에 맞추어서 나의 선택을 계속 바꾸는 게임이라면 어떨까요? 이 경우에는 나의 전략이 매우 중요하게 됩니다.


전략 경진 대회

1980년대 미시건 대학교에서 정치학을 강의하던 로버트 액설로드는 이 반복 게임에서 어떤 전략을 택하는 것이 가장 좋을지에 대해서 고민하게 됩니다. 그래서 컴퓨터 시뮬레이션 대회를 열어, 어떤 전략이 좋은지를 판가름하려고 하는데요.


이 대회의 규칙은 다음과 같았습니다.


어떤 전략A가 다른 B라는 전략과 대결할 때, 이 게임은 200번=1세트씩 반복한다.

반복 게임에 참가하는 모든 전략은 합리적인 의사결정을 한다.

반복 게임에 참가하는 모든 전략은, 과거 대결을 했던 상대방이 누구인지 식별한다.

반복 게임에 참가하는 모든 전략은 과거 대결의 결과를 정확히 기억한다.

이 게임의 참가자들이 협력 혹은 배반하는 선택지는 상대방이 명확하게 확인할 수 있으며, 상대방에 선택에 대해서도 마찬가지로 명확히 확인할 수 있다.


어떤 두 전략끼리의 대결 1세트를 모든 전략끼리 다 붙어본다는 것인데요. 여기에 한 가지 룰을 추가해서, 모든 전략들은 반드시 협력과 배반을 단순히 랜덤으로 결정하는 난수 제작기와 1세트를 붙어야한다고 합니다. 그러니까 참가 전략이 N개이면, N+1번의 세트를 시행하게 됩니다.


전략대회 점수표


점수표를 보시면 상호 협력일때 둘이 합쳐 가장 큰 점수를, 상호 배반일 때는 둘이 합쳐 가장 작은 점수를 획득합니다. 한쪽이 협력, 다른 한쪽이 통수를 칠때는 배신자만 큰 점수를 획득할 수 있게 됩니다.



팃포탯의 사기성

이 대회의 우승자는 팃포탯(Tit for Tat)이라는 단순한 전략이었는데요. 이 팃포탯은 굉장히 단순한 규칙으로 제정되어있습니다. 팃포탯은 처음에는 무조건 협력합니다. 그리고 상대방이 직전 게임에서 배신했으면 이번 게임에서는 배신을 택하고, 상대방이 직전 게임에서 협력을 택하면 이번 게임에서는 나도 협력을 택한다는 것입니다. 너무 단순한데요.


사실 이 대회가 시작하기 전부터 팃포탯이라는 전략이 매우 고승률임이 알려져 있었습니다. 그래서 대회의 참가 전략들은 상당수가 팃포탯을 개량하거나, 공략하는 데에 목표를 두었습니다.


그러나 오히려 개조 프로그램들은 모두 원본에게 졌습니다. 팃포탯은 상당히 단순한 전략인데요. 팃포탯의 특징은 아래와 같습니다.


1. 협력자들에게는 무한정 협력한다: 팃포탯은 함부로 협력자들을 통수치거나 하지 않습니다. 직전 게임의 협력자에게는 무한히 협력함으로써 많은 점수를 따게 됩니다. 오히려 배신자 위주의 프로그램은 협력자들을 호구삼아 점수를 따더라도, 같은 배신자들끼리의 대결에서 많은 점수를 잃게 됩니다.


2. 미련이 없고 뒤끝이 없다: 과거 100번 배신했던 전략이라도, 직전의 게임에서 협력했다면 쿨하게 다음에 같이 협력해줍니다. 혹은 100번 협력해준 전략이라고 직전 게임에서 배신했다면 이번에는 얄짤없이 배신해줍니다. 이는 무한정 호구를 당하지 않게 해줄 뿐더러, 어제의 적이라해도 일단 협력을 청한다면 쿨하고 관대하게 품어주는 대인배스러운 면모를 보여줍니다.


3. 자신의 전략에 대해 상대방이 쉽게 간파할 수 있다: 복잡하게 프로그래밍 되어 어떤 전략을 사용하는지, 어떤 기준으로 판단하는지 알려지지 않은 프로그램들도 대회에는 다수 참가했습니다. 그러나 이런 복잡한 프로그램들을 상대로는 '에라 모르겠다 배신!'이 자주 발생하게 되었습니다. 팃포탯은 이와 반대로 협력하면 협력, 배신하면 복수한다는 간단한 논리를 따름으로써 다른 전략들로 하여금 자신을 따르게 유도할 수 있었습니다.


이 팃포탯을 개량한 전략들도 많았는데요 배신을 두 번 봐주거나, 처음에는 협력하다가 가끔 배신하거나, 처음에는 선제배반하지만 그 다음부터는 팃포탯과 같다거나 등등이었습니다. 그러나 배반을 추가한 전략은 같은 배반자들끼리 자멸헀고, 협력을 좀 더 추가한 전략은 배반자들에게 큰 유린(?)을 당해 점수를 잃고 맙니다.


사기


2차 대회: 팃포탯을 넘어라

그래서 이번에는 2차 대회를 넘어 아예 대놓고 팃포탯을 공략하려고 합니다. 주최자는 팃포탯의 전략과 게임 데이터를 모두 오픈하면서 새로운 전략을 공모합니다. 그리고 이전보다 많은 개량 전략들이 참가한 상태에서 다시금 대회가 열리는데요.


제 2차대회의 우승자는 놀랍게도 다시금 팃포탯이 차지하게 됩니다. 이 팃포탯을 상대하기가 너무 까다로웠던 이유는 이렇습니다.


1. 팃포탯을 상대로 높은 점수를 따기 위해서는, 반드시 협력을 해야만 합니다. 그런데 그렇게 하면, 협력하는 팃포탯에게도 반드시 고득점을 허용할 수 밖에는 없게 됩니다. 그렇다면 배반 전략을 택하면 어떻게 될까요? 처음에 팃포탯이 협력한다는 점을 이용해, 통수를 치고 점수를 먹은 다음에 계속 배반을 하면 비록 둘 다 낮은 점수이긴 해도 팃포탯을 상대로 5점의 근소우위를 점하게 됩니다. 실제로 팃포탯 전략을 배반 위주의 전략을 절대 이길수는 없습니다. 그러나, 팃포탯은 배반 위주의 전략에도 아주 적은 점수(0점 혹은 5점)만을 내어줄 뿐, 단호히 배반합니다. 그러므로 배반자들을 상대로는 크게 잃지 않고, 협력자를 상대로는 크게 얻게 됩니다.


2. 팃포탯은 보복에 철저합니다. 오랜기간 협력해 신뢰를 쌓았더라도, 배반하면 얄짤 없습니다. 그래서 팃포탯은 자신이 지향하는 목표가 공동의 협력을 통한 공존임을 확실히 전달합니다. 협력을 하면? 1번 이유에 따라 팃포탯에게 고득점을 허용하게 됩니다.


3. 팃포탯은 관대합니다. 아무리 여러번 배신했어도 확실히 상대방에게 돌아올 기회를 줍니다. 돌아오지 않고 배신하는 자에게는 계속 함께 등을 돌려 배신자가 고득점을 얻게 하지 못하면서도, 일단 돌아오고 나면 협력합니다. 그러면 1번 이유에 따라서 고득점을 허용하게 됩니다.


팃포테사기;


이 전략게임의 결과는 많은 과학자, 공학자, 군사학자 등등의 관심을 불러일으켰는데요. 그 중에서도 진화생물학자들은 이 게임에 주목하게 됩니다. 적절한 전략을 갖고 살아남은 생명체의 번성과정이 바로 진화의 역사이자 생존 게임이기 때문입니다. 그런데 굉장히 강력한 팃포탯에 맞선, 단순하고도 폭력적인 프로그램이 있으니 그것은 바로 '무조건 배신'입니다. 이에 대해서는 다음 글에서 다뤄보도록 하겠습니다.


읽어주셔서 감사합니다^^

매거진의 이전글 이기적으로 살면 성공할까?: 게임이론과 팃포탯(1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari