[쉼-息]/나누고 싶은 글

[펌글]죄수의 딜레마

그러한 2012. 3. 14. 15:03

 

 

죄수의 딜레마 - 터커의 일화
프린스턴의 석학 수학자였던 터커는 (존 내쉬는 터커의 학생들 중 하나였다.) 게임이론에 배경이 거의 없는 청중들을 위해 게임을 일화로 제시했다. 바로 죄수의 딜레마이다.

범죄 조직의 두 조직원이 체포되어 투옥되었다. 각각의 죄수는 독방에 갇혔고, 다른 죄수와 이야기하거나 메시지를 교환할 수단을 지니지 못하고 있다. 경찰은 그 두 사람을 주된 죄목으로 유죄 입증하기에 충분할 증거를 지니고 있지 못하다고 시인했다. 그들은 둘 모두를 경미한 다른 혐의로 1년형에 처할 계획을 세웠다. 동시에 경찰은 각 죄수에게 파우스트적 협상안을 제시한다. 만일 동료의 죄를 증언하자면 자신은 석방되는 반면, 동료는 주된 죄목에 따라 3년형을 받을 것이다. 구미가 당기는 제안이다. 하지만 만약 두 죄수 모두 동료의 죄를 증언한다면, 둘 다 2년형을 받을 것이다.
죄수들에게는 숙고할 만한 시간이 다소 주어지지만, 어떤 경우에도 자신의 번복할 수 없는 결정을 내리기 전에는 다른 죄수의 결정이 무엇인지를 알 수 없다. 각각은 다른 죄수가 똑같은 협상 제안을 받고 있다는 이야기를 듣고 있다. 각 죄수는 오직 자신의 복지에만 (즉 그자신의 형량에만) 관심이 있다.
죄수 B의 전략B가 협상 거부B가 증언죄수 A의
전략A가 협상 거부1년, 1년3년, 석방A가 증언석방, 3년2년, 2년
*다른 표와는 반대로 숫자가 낮을수록 (형기가 적을수록) 좋은 결과이다.

죄수들은 다음과 같이 추리할 수 있다. “내가 증언하고 다른 죄수는 증언하지 않는다고 가정하자. 그러면 나는 (1년 동안 감옥에서 썩는 대신) 자유롭게 된다. 내가 증언하고, 다른 죄수도 증언한다고 가정하자. 그러면 나는 (3년형 대신) 2년형을 받는다. 이러거나 저러거나 나는 증언하는 편이 낫다. 내 증언은 다른 녀석이 어떻게 하든 간에 내 형량을 1년 줄인다.”
문제는 다른 죄수도 똑같은 결론에 도달할 수 있고, 또 그럴 것이라는 데 있다. 만일 양측 모두 합리적이라면, 둘 다 증언하고 둘 다 2년간 감옥에 갈 것이다. 만일 둘 다 증언을 거부한다면 각각 1년씩 살 텐데 말이다.
죄수의 딜레마는 기묘한 모순으로 끝난다. 어떤 노선을 취하든지 간에, 당신은 끝에 가서 과연 올바르게 선택했는지 의아해 한다. 죄수의 딜레마에서 우리는 어떻게 행동해야 하는가?




상식
죄수의 딜레마는 상시적 추론을 뒤엎기 때문에 난해하다. 왜 그런지 살펴보자.
변절을 옹호하는 상식적 논변은 이러하다. “죄수의 딜레마는 동시적 선택이다. 당신의 선택이 다른 경기자의 선택에 전혀 영향을 미칠 수 없다. 따라서 상황은 단순하다. 상대 경기자가 무엇을 어떻게 하든지 간에 당신은 변절하는 편이 낫다. 그것은 당신이 변절해야 한다는 것을 의미한다.”
변절 옹호론자들은 심지어 협조 옹호론자 진영이 내놓을 법한 첫 번째 논변, 즉 모두가 그렇게 추론하면 어떻게 되겠느냐는 것에 대한 반박을 준비하고 있다. “만일 협조할 수 있을 때 양경기자 모두 변절한다면, 그것은 너무 억울하리라고 당신은 말한다. 그건 틀렸다. 선택이 서로에게 영향을 미칠 수 없다는 점을 명심하라. 만일 상대방 경기자가 변절한다면, 그는 변절하는 거다. 내 선택은 그것과 전혀 무관하다. 상호 변절이 일어나면, 나는 변절해서 정말 다행이라고 생각한다. 협조했더라면, 풋내기 꼴이 되고 말았을 것이다.”
협조를 옹호하는 상식적 논변은 이러하다. “두 경기자의 상황은 동일하다. 한 사람이 변절에 의해 다른 사람을 이용하기를 기대한다는 것은 비현실적이다. 경기자들이 모두 합리적이라고 가정하고서 그들은 ‘똑같은’ 전략을 갖고 결정해야만 한다. 그 두 가지 현실적 결과는 상호 협조와 상호 변절이다. 양자 모두 협조에 따르는 결과를 선호한다. 따라서 이것이 그들이 해야 할 바이다. 협조.”
해결책은 끝내 나오지 않았다. 이제 죄수의 딜레마가 결코 ‘해결’되지 않을 것이라 생각된다. 죄수의 딜레마는 부정적인 결과로(게임이론과 세상이 실로 잘못되었다는 증명으로) 남아 있다.

죄수의 딜레마들
푸치니의 오페라 <토스카>(1900)는 명쾌한 죄수의 딜레마를 중심으로 전개된다. 그 플롯은 빅토리앙 사르두(Victorien Sardou)의 1887년 희곡에서 취한 것이다.

부패한 경찰서장 스카르피아가 토스카의 애인 카바라도시에게 사형선고를 내렸다. 스카르피아는 토스카에게 흑심을 품고서 협상을 제안한다. 만일 토스카가 그와 사랑을 나누면, 그는 사형집행인들에게 공포탄을 사용하여 카바라도시를 살려주라고 명령할 것이다. 토스카는 이에 동의한다. 그녀가 스카르피아를 경멸하는 만큼 애인을 구하기 위해 몸을 허락하는 일은 가치가 있게 될 것이다.

토스카는 협상대로 처신해야 하는가? 협상의 두 부분은 동시적이다. 공포탄(또는 실탄)을 사용하라는 돌이킬 수 없는 최후 명령을 내릴 때까지는 토스카는 스카르피아와 관계를 갖지 않는다. 이 이야기는 상호 변절로 끝나고, 그것은 죄수의 딜레마의 가장 오페라다운 결말이다. 토스카는 포옹의 순간에 그를 칼로 찌름으로써 스카르피아를 배신한다. 비극은 스카르피아 역시 변절했다는 데 있다. 총살형 집행되는 실탄을 사용하고 카바라도시는 숨을 거둔다. 토스카는 살인죄로 그녀를 체포하기 위해 경찰이 들이닥치자 난간에서 스스로 뛰어내린다.




또 다른 죄수의 딜레마로 핵무기 경쟁이 있다. 죄수의 딜레마가 발견되었을 당시 미국과 소련은 값비싼 핵무기 경쟁을 개시했다. 단순화를 위해 두 경쟁국들이 수소폭탄 무기고를 지을지 여부를 결정해야 한다고 가정하자. 열핵(熱核) 무기고를 건설하는 데는 여러 해가 걸리고, 그 작업은 비밀리에 행해질 수도 있다. 각국은 상대방이 결정을 내렸는지를 알지 못하면서 (너무 늦기 전에) 선택을 해야만 한다.
소련의 전략열핵 무기고
건설 취소열핵 무기고
건설미국의
전략열핵 무기고 건설 취소상호 약자(2, 2)약자(0),
강자(3)열핵 무기고 건설강자(3),
약자(0)상호 강자(1, 1)

각국은 수소폭탄을 만들고 상대는 그러지 않음으로써 자국만 강자가 되기를 원한다. 역으로, 그들은 수소폭탄을 보유하지 못함으로써 약자가 되는 것을 두려워한다.
양국이 모두 수소폭탄을 갖는다면 얻을 수 있는 것은 거의 없다. 수소폭탄을 만드는 데는 많은 비용이 든다. 두 국가 모두 전보다 물질적으로 빈곤해진다. 설상가상으로 일단 무기가 만들어지면, 그것은 결국에 가서 사용되고 마는 경향이 있다. 그 누구도 이전처럼 발 뻗고 편히 잘 수 없을 것이다. 스스로를 더 안전하게 하기 위해 만들어진 무기들이 정반대의 효과를 가질 수도 있는 것이다. 반대로 양국이 모두 수소폭탄을 만들지 않는다면 막대한 비용의 절감과 비교적 평화를 얻을 수 있다.
원자력위원회의 GAC(일반자문소위원회)의 위원장 오펜하이머는 수소(슈퍼) 폭탄 개발 반대 권고안을 제출했다.
국무장관이었던 딘 애치슨은 훗날 그의 수석 핵문제 고문에게 이렇게 털어놨다.
“자네도 알듯이 나는 최선을 다해 경청했다네. 그러나 나는 오펜하이머가 뭘 말하려고 하는지 이해하지 못하겠네. 도대체 어떻게 적의를 지닌 상대에게 ‘모범을 보임으로써’ 무장해제를 하도록 설득할 수 있는가?”

수사슴 사냥

두 사람이 수사슴을 잡기 위해 자리를 잡았다. 두 사람의 거리는 서로를 확인할 수 없을 만큼 상당히 멀다. 즉, 두 사람의 행동은 동시적이며 독립적이다. 두 사람 모두 자리를 지키고 있으면 사슴을 잡을수 있으리라 확신한다. 하지만 두 사람중에 한 사람이라도 자리를 떠나면 사슴은 잡을수 없다. 그 때, 토끼 한 마리가 앞을 지나간다. 다른 한 사람 앞에도 토끼 한 마리가 지나갈지도 모른다.





B의 전략수사슴 사냥토끼 추적A의
전략수사슴 사냥3, 30, 2토끼 추적2, 01, 1

어떤 개인도 수사슴 한 마리를 혼자서 잡을 만큼 강하지 않다는 것이 요점이다. 토끼 한 마리를 잡는 데는 오직 사냥꾼 한 명으로 족하다. 모두가 토끼보다는 수사슴을 선호한다. 그리고 아무것도 못 잡는 것보다는 토끼라도 잡는 것이 낫다. (그것은 지나치게 많은 이들이 토끼를 쫓아다니느라 수사슴 사냥을 완전히 망치는 경우다.)
수사슴 사냥의 특이한 점은 그것이 딜레마여서는 안 된다는 것이다. 당신은 당연히 협조해야 한다. 즉 사슴을 잡기 위해 자리를 지켜야 한다. 만일 두 사람 모두 그렇게 하면, 모든 가능한 결과 중에 최고의 결과를 얻을 것이다. 하지만 다른 한 사람이 그리 합리적이지 못할 경우에는 일을 망치게 된다. 만일 다른 한 사람이 토끼를 잡으려고 자리를 떠난다면, 당신 역시 토끼를 잡으려고 자리를 떠나기를 원한다.
명백히 상호 협조는 추구할수 있는 최선의 결과이다. 어떤 일이 생기건 경기자들은 그보다 더 잘할 수 없다. 변절의 유혹은 오직 다른 사람들이 변절하리라고 믿을 때만 일어난다. 따라서 이 딜레마는 한 사람이 다른 경기자의 합리성에 대해 의심하거나 충분히 규모가 큰 그룹에서 인간 본성의 변덕에 비추어 변절이 나오기 마련일 때 가장 심각하다.

플러드-드레셔 실험
죄수의 딜레마를 고안한 플러드와 드레셔는 한 가지 게임을 고안했다. 두 명의 실험들로 하여금 100번의 반복적 게임을 하게했다. 게임의 상황은 죄수의 딜레마적 상황이었다. 즉, 단판 죄수의 딜레마에서 발생하지 않는 보복에 대한 고려를 추가한 것이다. 플러드와 드레셔는 반복적 죄수의 딜레마 게임은 서로에게 보복할수 있기 때문에 좀더 협조적인 방향으로 전개되리라 예상했다. 다음과 같은 정산표를 사용했다.

B의 전략전략 1 (협조)전략 2 (변절)A의
전략전략 1 (협조)1, 2-1, 4전략 2 (변절)2, -20, 1

A, B 모두 변절하는 것은 내쉬 균형점이다. 즉, 상대방의 결정을 통제할 수 없는 상황에서 A는 전략 1보다 전략 2를 선택하는 것이 유리하고 B 역시 전략 1보다 전략 2를 선택하는 것이 유리하다. 또한 이 게임은 B에게 다소 유리한 비대칭적 게임이었다.
100번의 반복적 게임에서 상호 협조는 가장 흔한 결과였다. (100번의 게임중 60번) 플러드와 드레셔가 ‘공정한’ 결과표를 사용했더라면 협조율은 더 높았을 것이다. 상호변절, 즉 내쉬 균형은 불과 14번밖에 발생하지 않았다. 많은 상호 작용이 변절을 제어했다.

후진 귀납 역설
플러드-드레셔 실험에서 A와 B는 오랫동안 협조했다. 그들은 협조할 때마다 상을 받는 결과를 얻었다. ‘장기적으로’ 그것이 기대할 수 있는 최선의 행동이라는 것을 쉽게 알 수 있다. 경기자들이 현재의 딜레마에서는 변절함으로써 더 나은 결과를 얻을 수 있지만, 어떤 합리적인 적수도 자기는 계속 협조하면서 상대가 변절하도록 방치하지 않을 것이다. 변절은 달콤한 아이스크림 캔디와도 같다. 그것은 지금은 달콤하지만, 궁극적으로 당신에게 좋지않다.
하지만 마지막 게임은 특별하다. 궁극적으로 두 경기자 모두 협조해야만 한다. 그러나 마지막 게임에서, 왜 당신이 취할 수 있는 모든 것을 움켜쥐지 않는단 말인가? 당신은 상대 경기자가 미래에 보복할 것을 걱정할 필요가 없다. 미래란 없다. 결국 반복적 죄수의 딜레마의 마지막 게임은 단판 죄수의 딜레마이다.
마지막 게임에서 변절하라. 하지만 상대도 같은 생각을 할 수 있다. 당신은 상대방이 변절하기 직전에 변절하기를 원할 것이다. 따라서 99번째 게임에서 변절하라. 상대 역시 같은 생각을 할 수 있다. 98번째 게임에서 변절하라. 상대 또한 같은 생각을 할 수 있다. 마찬가지로 97, 96... 하는 식으로 끝까지 나아가 게임 1로 돌아간다. 당신은 ‘모든’ 게임에서 변절해야 한다. 결론은 반복되는 죄수의 딜레마는 단 한번의 딜레마와 결국 그리 다르지 않다는 것이다.
이것은 비참한 결론이다. 그것은 너무도 받아들이기 어렵고, 실제 경험과도 어긋나기 때문에 오랫동안 역설로 낙인찍혔다. 소위 ‘후진 귀납 역설’(Backward Induction Paradox)은 ‘합리적’인 측은 매번 벌 받는 결과에서 헤어나지 못하는 반면 덜 논리적인 측은 협조하고 더 나은 결과를 얻는다는 사실에 있다.
이는 ‘타당’하지만, 실제적 충고가 되지 못한다.

로버트 액셀로드의 토너먼트
반복적 죄수의 딜레마를 단판 죄수의 딜레마와 구별지어주는 것은 액셀로드의 표현에 의하면 ‘미래의 그림자’이다. 미래의 협조를 확보하기 위해 지금 협조하는 것이다. 그러나 그 누구도 미래를 현재처럼 심각하게 취급하지 않는다. 경기자들은 가능한 미래의 손실과 현재의 이익을 주관적으로 비교하여 무게를 단다. “숲속의 새 두 마리보다 수중의 한 마리가 낫다.”
오직 현재의 딜레마만이 주관적으로 중요할 때, 그것은 변절이 예상되는 단판 딜레마다. 그러나 경기자들이 현재의 이익과 아울러 미래를 중시한다면, 진정한 반복적 딜레마가 존재한다. 그러면 다수의 조건적 전략들이 가능하다.
액셀로드는 저명한 게임이론가, 심리학자, 사회학자, 정치학자 그리고 경제학자들을 초청하여 컴퓨터가 수행할 토너먼트를 위한 반복적 죄수의 딜레마 전략을 제출하게 했다. 각 딜레마에 대해 결과는 점수로 나타낸다.
협조변절협조3, 30, 5변절5, 01, 1

각각의 반복적 딜레마는 200개의 별개 딜레마들로 이루어졌다. 각각에서 5점씩 얻는게 가능했으므로, 이론적으로 점수는 0에서 1000까지의 편차를 보일 수 있었다. 항상 협조하는 전략이 항상 변절하는 전략과 짝지어졌을 때 이 극단적인 상황들이 얻어질 것이다. 그렇다면 전자는 매번 0점을 후자는 5점을 얻을 것이다. 그러나 이 가장 단순한 전략들 중 어느 것도 제시되지 않았다.
현실적인 훌륭한 점수는 200라운드 각각에서 3점(총 600점)을 얻는 것일 게다. 언제나 협조하는 데 성공한 두 전략들이 그 점수를 얻을 것이다. 역으로 200점은 아주 나쁜 점수인데, 왜냐하면 그것은 어떤 전략이 항상 변절하여 그저 안전하게 경기함으로써 스스로 보장할 수 있는 바이기 때문이다. 각 전략의 점수는 그것과 짝지어진 전략에 따라 가변적이다. 전체 통산 점수를 얻기 위해 액셀로드는 각 전략의 점수들의 평균을 구했다.

오는 말에 가는 말
액셀로드 토너먼트에서 가장 좋은 점수를 얻은 전략은 ‘오는 말에 가는 말(Tit for Tat)’ 이다. 이 전략은 매우 단순하다. 1라운드에서 협조하고 그 다음에는 이전 라운드에서의 상대의 전략을 따라한다.
왜 오는 말에 가는 말은 그토록 효과적인가? 우선 오는 말에 가는 말은 ‘괜찮은’ 전략이다. 게임이론의 전문용어로 말하자면 괜찮은 전략은 결코 먼저 변절하지 않는 전략이다. 오는 말에 가는 말은 협조함으로써 시작한다. 그럼으로써 적수의 의심에 대해 이익으로 화답한다. 그후 상대가 계속 보답하면 오는 말에 가는 말은 결코 변절하지 않는다. 오는 말에 가는 말은 결코 말썽을 일으키지 않고 그냥 놔두면 만족한다. 특히 오는 말에 가는 말이 그것 자신과 짝지워질때, 양측은 협조를 시작하고 전혀 도발하지 않는다.
그러나 지나치게 협조적인 전략은 종종 참패를 당한다. 오는 말에 가는 말 역시 도발할 수 있다. 그것은 상대 전략의 변절에 변절로 대응한다. 1라운드가 지난 후 오는 말에 가는 말은 상대 전략이 어덯든 그대로 따라 한다는 점을 기억하라. 만일 상대 전략이 5회전에서 변절하면, 오는말에 가는 말은 6회전에서 변절 한다. 그것은 상대 전략에게 협조할 동기를 준다.
마찬가지로 중요한 것이 오는 말에 가는 말의 ‘용서’이다. 상대 전략은 변절한 루 벌을 받을 때까지는 협조할 동기가 있다는 것을 ‘배울’수 없다. 오는 말에 가는 말은 한번 어겼다고 해서 상대에게 다시는 협조할 아무런 동기도 없게 만들 만큼 가혹하지 않다. 오는 말에 가는 말은 상대의 전략이 협조적이면 언제든지 ‘기꺼이’ 협조를 시작한다.
여기에 부가된 세 번째 속성은 놀라웠다. 그것은 오는 말에 가는 말이 ‘단순하다’는 것이다. 오는 말에 가는 말은 “그들이 당신에게 해주기를 바라는 대로 다른 사람들에게 행하라. 아니면 말고!” 라고 위협한다. 이때 위협은 그 전략의 행동 안에 암묵적으로 있다. 오는 말에 가는 말은 상대의 가장 최근 행동을 반복함으로써 그렇게 한다. 상대 전략이 오는 말에 가는 말이 무엇을 하고 있는지를 ‘깨달으리라는 희망’ 이 행동 안에 숨어 있다. 만일 그렇다면, 그것은 변절에 의해 스스로 상처 입을 뿐이라고 결론지을 것이다. 오는 말에 가는 말은 위협이 가장 단순하고 따라서 반응하기가 가장 쉽기 때문에 성공한다.
실제로 오는 말에 가는 말 전략은 평균 504.5점을 획득했다. (무작위 전략은 276.3점이었다.)

오는 말에 가는 말의 문제점
오는 말에 가는 말이 장점을 지녔다고 해서 가능한 모든 전략들 중 ‘최선’이라고 결론 내릴 수는 없다. 어떤 전략이 얼마나 잘 들어맞느냐는 그것과 상호작용하는 전략들에 의존한다.
오는 말에 가는 말은 여러 단점을 지니고 있다. 우선 반응이 없는 전략들은 이용하지 못한다. 항상 협조하는 전략과 짝지어졌을 때 오는 말에 가는 말은 협조하고 각 딜레마에서 3점씩 딴다. 물론 실제로는 변절해서 5점씩 따는 편이 더 낫다. 사실상 어떤 반응을 보이지 않는 전략에 대해서도 최선의 행동은 변절이다. 변절은 항상 현재의 딜레마에서 더 높은 결과를 낳고 반응을 보이지 않는 전략을 상대 할때 보복당할 가능성은 전혀 없다.
오는 말에 가는 말은 다소간 다른 경기자가 좋은 점수를 다려 애쓰고 있다는 가정에 입각해 있다. 첫 수 이후 오는 말에 가는 말은 그것과 같은 수준으로 떨어져서 상대보다 나은 결과를 내지 못한다.
오는 말에 가는 말의 또 다른 문제는 ‘메아리’ 효과에 종속된다는 것이다. 액셀로드에게 제출된 전략들 가운데는 오는 말에 가는 말과 아주 비슷한 것들이 몇가지 있다. 그것들은 이따금씩 변절함으로써 더 잘해보려 한다는 점에서 달랐다. 이 전략들 중 하나가(거의 오는 말에 가는 말) 오는 말에 가는 말과 짝지어졌다고 가정하자. 양자 모두 협조한다. 그러더니 느닷없이 거의 오는 말에 가는 말이 의외로 변절한다. 이것은 오는 말에 가는 말이 그 다음 딜레마에서 변절하게 만든다. 한편 거의 오는 말에 가는 말은 평소처럼 협조한다. 그 다음 번 딜레마에서 거의 오는 말에 가는 말은 이전의 변절에 메아리로 응답한다. 그 두 전략들은 번갈아 가며 변절과 협조를 무한정 되풀이 한다.
이러한 액셀로드의 토너먼트에서 우리가 잘못 생각하고 있는 것은 이 반복적 게임은 경쟁이 아니라는 점이다.

 

 

 

- dcinside 수학갤러리, ㅁㄴㅇ 님