囚徒困境
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。他当时编了一个故事向斯坦福大学的一心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。
单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者 前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
经典的囚徒困境
1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
∙ 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ∙ 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
∙ 若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:
| 甲沉默(合作) | 甲认罪(背叛) |
乙沉默(合作) | 二人同服刑半年 | 甲即时获释;乙服刑10年 |
乙认罪(背叛) | 话语标记甲服刑10年;乙即时获释 | 二人同服刑2年 |
| | |
如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
∙ 若对方沉默、背叛会让我获释,所以会选择背叛。
∙ 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
由囚徒困境可以写出类似的员工困境:
一名经理,数名员工; 前提,经理比较苛刻;
如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作
如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作
如果所有人都不听从经理吩咐,则经理下岗
但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作。
一般形式
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。 实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
∙ 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
∙ 二人都合作:各得3分(合作报酬)。
∙ 二人都背叛:各得1分(背叛惩罚)。
用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):
一般形式囚徒困境的支付矩阵 | | 合作 | 背叛 | 合作 | 3, 3 | 0, 5 | 背叛 | 5, 0 | 1, 1 | | | |
| 以“T、R、P、S”符号表示 | | 合作 | 背叛 | 合作 | R, R | S, T | 背叛 | T, S | P, P | | | |
| 以“胜-负”术语表示 | | 合作 | 背叛 | 合作 | 胜-胜 | 大负-大胜 | 背叛 | 大胜-大负 | cdna文库负-负 | | | |
|
| | |
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表 |
符号 | 分数 | 英文 | 中文(非术语) | 解释 |
T | 5 | Temptation | 背叛诱惑 | 单独背叛成功所得。 |
R | 3 | Reward 石家庄化工厂爆炸 | 合作报酬 | 共同合作所得 |
P | 1 | Punishment | 背叛惩罚 | 共同背叛所得 |
白京商城S | 0 | Suckers | 受骗支付军事卫星 | 被单独背叛所获 |
| | | | |
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。
T>R>P>S
中美上海施贵宝 (解:从5>3>1>0获得以上不等式)