论博弈论中的策略思维

北纬31度录像带论博弈论中的策略思维

李　凌　王　翔

(上海社会科学院经济研究所　200020)　(上海师范大学金融学院　200234)

内容摘要：本文从博弈论的起源谈起，简要回顾了博弈论在诺贝尔经济学奖上取得的成就及其同真实生活之间的联系，从合作、模仿、创新、拍卖、战争和居等实例表明博弈论中的策略思维是如何影响人们的行为的，又是如何使得博弈达到均衡的。同时，围绕策略思维的批判也不断完善着博弈论自身的分析范式，从传统博弈论向演化博弈论的转向昭示着理论演进的动力、方向和多学科研究的广阔前景。

关键词：博弈论　策略思维　诺贝尔经济学奖

中图分类号:F224.32 文献标识码:A 文章编号:1005-1309(2010)01-0035-007

博弈论源于历史上一些颇为有趣的游戏，但同时也是一门学问艰深的理论。博弈论在经济活动方面的研究可追溯到1944年美国数学家冯・诺依曼(John Von Neu mann)和美国经济学家摩根斯坦(O skarMorgenstern)合著的《博弈论与经济行为》(“Theory of Ga mes and Econom ic Behavi or”)，书中描述了经济主体的行为特征，提出了单人博弈、双人博弈和多人博弈等基本模型，包含了丰富的策略思维和博弈的解概念，构建了一个完备的用数学和逻辑学描述经济科学的理论体系及方法论基础，有些命题

如讨价还价，至今仍是博弈论研究前沿的热点问题。二战后，纳什(John F.Nash J r.)、泽尔腾(Reinhard Selten)和海萨尼(John Haisanyi)等人围绕博弈论的解概念不断进行精炼，并将其卓有成效地应用于理性经济人的行为分析，揭示了博弈论与经济均衡的内在联系，形成完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈等传统博弈论的分析框架及其内在的相互转化，大量经济现象，如寡头竞争和产业垄断等都可以通过传统博弈论的分析框架得到合理预测，这三位学者也因此共同分享了1994年的诺贝尔经济学奖。然而，传统博弈论过分依赖共同知识和行为人理性的假设，现实中信息不对称现象对此提出了挑战。美国哥伦比亚大学的维克瑞(W illia m V ickrey)教授和英国剑桥大学的莫里斯(Ja mes A.M irrlees)教授首创了不对称信息条件下的激励经济理论，前者开创了拍卖理论而后者则是公共财政理论的先驱，他们由此荣膺1996年诺贝尔经济学奖；美国加利福尼亚大学伯克利分校的阿克洛夫(George A.A lerl of)教授、斯坦福大学的斯宾塞(A.M ichael Spence)教授和哥伦比亚大学的斯蒂格利茨(Joseph E.Stiglitz)教授，同样凭借在不对称信息市场方面作出的贡献，获得了2001年的诺贝尔经济学奖，同时也宣告信息经济学是一门在特定的信息结构下运用博弈论的科学。2005年度瑞典皇家科学院将诺贝尔经济学奖授予奥曼(Robert John Au mann)和谢林(Thomas Cr ombie Schelling)，以表彰他们通过博弈论的分析增强世人对合作与冲突的理解;2007年诺贝尔经济学奖授予赫维克兹(Leonid Hur wicz)、普林斯顿大学的马斯金(Eric S.Maskin)和芝加哥大学的梅尔森(Roger B.Myers on)，以

收稿日期:2009-10-15

表彰他们在机制设计理论方面的开拓性工作，机制设计理论为博弈论的运用搭建了一个更加广阔的平台，同时与经济政策的关系也更为密切。至此，共有13位经济学家和数学家与诺贝尔经济学奖结下不解之缘。

那么博弈论为什么能在经济学领域产生如此巨大的影响呢?又何以在经济分析中独辟蹊径，形成了能与(随机)一般均衡理论相对立的另一种经济学研究范式?这恐怕还得益于博弈论的起源和其中蕴含的策略思维。博弈论从本质上讲是一种游戏理论，在给定游戏的特定规则(信息结构)下，游戏参与人要想赢得游戏就必须对其他参与人的心理和可能采取的行动进行反复揣摩，并据此决定和调整自己的行为，这就是制定策略或对策的过程。为此,“博弈论”一般也称为“对策论”或“游戏理论”。加之博弈论的游戏情节一般也源于人们的真实生活，是生活环境的抽象和概念化，因此，博弈的结果不仅仅是游戏胜败的表现，而且更是生活哲理的凝结，它为人们深刻理解和准确把握各类社会经济现象提供了一份独特的视角，同时对制定社会规则和经济政策具有现实的指导意义。

本文试图从一些常见的实例介绍和展示博弈论中策略思维的演进过程，这些实例都是我们能在生活中观察到的，并且假设读者已经具备一定的博弈论和拍卖理论的基础知识。

一、“囚徒困境”：合作还是不合作

考虑这样一种情形，小偷甲和乙联手作案，私入民宅被警方逮住，但未获证据。警方将两人分别置nand闪存

于两所房间分开审讯。若一人招供但另一人不招，则招供者立即释放，不招供者判入狱10年；若二人都招供则各判刑8年；若两人都不招供则因未获证据但私入民宅而各拘留1年(见表1)。试问甲和乙应该如何抉择自己的行为?理性行为人的想法是这样的：对甲来说，无论乙是选择“招”还是“不招”，选择“招”都会比选择“不招”来得更好。因此,“不招”是相对于“招”的严格劣策略，所以，甲会选择“招”。同理，根据对称性，乙也会选择“招”，于是纳什均衡解便是甲乙两人都招供，各判8年。这个例子表明，运用“剔除严格劣策略”的方法可以到问题的均衡解。虽然甲乙两人都选择“不招”是集体最优的，但是这个结果不会出现，或者说，甲乙双方都存在偏离这一结果的激励，个体理性与集体理性之间存在着冲突。假设从两人都不招供出发，只要其中一人变卦，他就能谋取更多的利益。为此，即便甲乙两人都有不招供的约定在先，这样的约定也只能是“不可置信的承诺”而已，故而纳什均衡解具有内在稳定性。

　表1囚徒困境博弈支付矩阵

招供不招供招供-8,-80,-10

不招供-10,0-1,-1　表2修路博弈支付矩阵

修不修修1,1-1,3

不修3,-10,0

下面我们让模型活动起来，也就是说，考虑甲乙两人刑满释放后重新作案，却又被警方逮住，重复上述过程，以此往复。这样的情形称为重复博弈，重复博弈的每次博弈称作阶段博弈。分析阶段博弈和分析一次性博弈的情形十分类似，理性行为人在行动前，依旧会根据各种方案收益与成本的比较，作出最优选择。但不可忽略的是，行为人过去的行为信息将作为共同知识影响行为人当下的决策。在囚徒困境的重复博弈中，有两种著名的策略，一种叫“冷酷”策略(gri m strategy)，另一种叫“针锋相对”策略(tic2f or2tac strategy)。所谓“冷酷”策略是指对于事先两人均不招供的攻守同盟，一旦有人招供，则对方在以后的任一阶段博弈中，都将选择招供，以示对对方违约的惩罚，对方也将丧失改正错误的机会；而“针锋相对”策略是指行为人在本阶段选择对方前一阶段的行为选择，相

对于“冷酷”策略,“针锋相对”策略允许行为人存在违约的激励，因而它不会是精炼均衡。模型表明合作潜在地具有“囚徒困境”的逻辑结构，因而我们可借此分析日常生活中的许多合作与不合作现象。政府提供公共品便是极好的一例。设想有两户相邻的住户，需要一条好路从居住地通往公路。修一条路的成本为4，每个住户能从修好的路上获利为3。如果两家住户共同出资联合修路，并平均分摊修路成本，则每家住户获得净利为1；当只有一家住户单独出资修路时，修路者获利为-1,“搭便车”者，即不出资但仍可以使用修好的路的另一住户获利为3(不考虑产权问题)(见第36页表2)。通过“剔除严格劣策略”方法，可以得到，两家住户都不会出资修路。为了解决这条新路的建设问题，需要政府强制性地分别向每家征税2单位，然后投入4单位资金修路，并使两家住户都得到1单位的利益。这就是我们看到

的为什么大多数路、桥等公共设施都是由政府出资修建的原因。同样的道理，国防、教育、社会保障，环境卫生等都由政府承担资金投入，而私人投资的积极性一般都不高。

“囚徒困境”重复博弈还能用来解释企业(或者银行和企业)之间的合作问题。当一次性违约的收益大于失信所必须付出的代价时，企业就存在偏离合同规定行事的激励。这种内生的激励表明,“损人利己”也是行为人的理性选择。如果企业之间致力于长期合作，就应当设法改变合作机制，降低合作企业发生机会主义行为的概率。除了健全社会诚信体系之外，一种行之有效的方法便是采取“冷酷”策略，以提高失信成本。然而传统博弈论对理性的极端认识又束缚了它对解释现实的能力，随着对供应链、企业联盟、虚拟企业和关系银行等中间性组织研究的不断深入，研究的重心逐步从对行为的约束转移到对关系契约的规范上，聚焦那些在合作中起关键作用的、可自我实施(self 2enf orce ment )的隐性契约。

二、智猪博弈：创新还是模仿

“囚徒困境”中参与人地位是对等的，如果参与人地位不对等，又会发生怎样的情况的呢?假设猪圈中有一头大猪和一头小猪，在猪圈的一端设有一个按钮，每按一下，位于猪圈另一端的食槽中就会有10单位的猪食进槽，但按一下按钮会耗去相当于2单位猪食的成本。如果大猪按钮取食，小猪在一旁等待，则大猪能吃到9单位食物而小猪仅能吃到1单位食物；如果两猪同时按钮取食，则大猪吃7单位，小猪吃3单位食物；如果小猪按钮取食，大猪在一旁等待，则大猪吃6单位而小猪吃4单位食物(见表3)。

这个博弈没有“剔除劣策略均衡”，因为大猪没有劣策略。但是，小猪的劣策略是“按”，因为无论大猪作何选择，小猪选择“等待”是比选择“按”更好一些的策略。所以，小猪会剔除“按”，而选择“等待”；大猪知道小猪会选择“等待”，从而自己的最优选择是“按”，所以纳什均衡解就是(按，等待)。

　表3智猪博弈支付矩阵　小猪大猪　按等待按5,14,4等待9,-10,0 在现实经济生活中，有许多“智猪博弈”的例子，它反映的是一种参与人地位不对等的博弈结构，这种不对等可以是参与人拥有的信息和支付函数，也可以是参与人所采取的策略和行动。比如在股票市场上，大户是大猪，他们进行技术分析，收集信息、预测股价走势，而大量散户就是小猪，他

们几乎不花成本去进行技术分析，而是跟着大户(基金)

中越联合声明的投资策略进行股票买卖，这就是股票市场上著名的

“散户跟大户”现象。在股份公司中，大股东是大猪，他们收集信息、监督经理，拥有决定经理任免的投票权，而小股东是小猪，他们不直接花精力去监督经理，投票权重也往往无足轻重，但他们却可以从大股东的监督中受益。

技术创新市场上，大企业是大猪，它们投入大量资金进行

技术创新，开发新产品，而中小企业是小猪，它们不会进行大规模的技术创新，而是采取“跟随策略”，

核工业工程技术研究设计院等待大企业的新产品形成新的市场后，仿制大企业的新产品展开销售。

csg三、拍卖机制：不对称信息下的买与卖

在“囚徒困境”和“智猪博弈”中，参与人的信息是公开且对称的，或者说参与人之间不存在不对称信息，但是在更多的情形下，参与人之间的信息不是公开的，市场上的尔虞我诈往往无法避免。以拍卖市场为例，考虑一件古董需要拍卖，有许多人参加竞争性拍卖。这件古董在每个买主心中有一个估价。但是，卖主不知道买主的估价，买主当然也不会老老实实地将其对古董的估价告诉卖主，不同买主之间也不知道互相之间的估价。因此，有关标的和竞标的信息都是不对称的。假定采用“英式拍卖”，买主们轮流出价，直到开出最高价的买主拿走古董并支付这个价格。但遗憾的是，如果按这种拍卖方法，古董并不能按买主心中的最高的估价卖出。比如，当买主中的最高估价为10万元，第二高估价为8万元时，当估价最高的买主开出9万元时，便可买走其估价为10万元的古董而只支付9万元。由于这是公开竞价，所以会出现围标问题，即买主们合谋压价。为了避免围标，一种常用的方法是“一级密封价格拍卖法”，买主每人将其开出的价格写入一个信封，密封后交给卖主。卖主拆开所有信封，将古董卖给信封中出价最高的人，并要求支付这个价格。但是“一级密封价格拍卖法”却不能诱使买主按照其真实估价进行出价，这是因为，买主总可以报一个略低于其真实估价的价格获得标的物，从而赚取其中差价。

经济学家维克瑞发明的“二级密封价格拍卖法”，既可避免围标，又可诱使买主们报出真实估价。他的方法是这样的，先要求每个买主将出价写入一个信封，密封后交给卖主，卖主拆开信封后宣布将古董卖给出价最高的人，但只需支付开出的第二高的价格。譬如，出价最高的为10万元，第二高的为8万元，古董就卖给开出10万元的人，但他只需支付给卖主8万元。对每个买主来说，他不知道其他买主的估价，但给定其他买主的估价，他一旦获胜，支付的第二高的价格是固定的，不会随他开出的价格而改变；但他开出的价格愈高，获胜的可能就愈大；但是，他不能开出比他的价值估价更高的价格。因为一旦存在别的人开出的价格比他的价值估价还要高，当他获胜时，就必须以高出他的价值估价的价格购买古董，对他来说是得不偿失的。所以，每个人都会如实地按心中的估价开出价格。如果所有人的估价是一样的，古董就以真实的最高价值卖出。维克瑞拍卖法可以诱使买主说出真话，因而这种方法也被成为维克瑞机制。上世纪七十年代美国联邦政府运用维克瑞招标法进行公共工程招标，为联邦政府节省了大笔开支。

到目前为止，经济学家对拍卖机制的研究获得了丰硕而卓越的成果，不仅形成了以“英式拍卖”、“荷兰式拍卖”、“一级密封价格拍卖法”和“二级密封价格拍卖法”等四种拍卖方式为核心的基础理论，并围绕不同的拍卖方式探讨和比较投标者及卖主的收益，而且还在投标者风险厌恶、投标者之间具有共同信息、非对称估价分布，以及存在由非对称估价分布导致的二级交易市场(resale)的情况下探讨和比较上述问题，从而颠覆了基础理论的前提假设，特别是对二级交易市场的研究，对解释我国经济转轨过程

中国有企业的资产流失现象具有重要的启示意义。在市场及之设计方面，一种富有想象力的研究思路是，假定存在某种特殊的“机器”可以通过支付规则和分配规则来直接替代参与人报价策略函数的生成过程，当然参与人的报价也都必须遵循博弈论对理性经济人的假定，也就是说，策略函数的生成结果总是可以被预期的，那么这样的“机器”就能使得人类本身变得更加单纯，策略被一组规则替代，或者说，最优策略就是按市场规则行事，从这个意义上讲，一个好的市场经济就是要不仅要让好人做好事，而且还要让坏人也做好事。政府的职责就在于为民众提供一系列激励相容约束下的好的市场机制，比如能始终确保投标者说实话(truth2telling)的VCG机制，以及能同时满足效率、激励相容及预算平衡(budget balance)的AG V机制，后者在各

国的政府采购和公共建设中被大量采用。

四、战争与冲突：为世界和平破题

奥曼和谢林两位学者的工作进一步发展了博弈理论，并开始涉及社会学领域中的一些主要问题。他们认为使用博弈论有望重塑关于人类交互作用的分析范式，从社会交互作用剖析和理解战争和冲突的本质，以及可能采取的通往和平的策略。

谢林1960年的著作《冲突的策略》(“The Strategy of Conflict”)从经济学的角度将博弈论作为统一的分析框架应用于社会科学问题。他认为：一个政党可以通过公开恶化自身的选择权来巩固自己的地位；

报复能力远比抵抗进攻能力来的有用；不确定性的报复比确定条件下的报复更有效率、更加可靠。这些解决冲突、避免战争的中肯创见已被事实证明，一个经典应用是在国际关系领域。谢林在《冲突的策略》中运用博弈论分析了国家之间的讨价还价行为。他指出:“偶然事件不会引发战争，只有决定才会导致战争的爆发。”如果一国认为另一国会突然发动袭击，那么一场双方都不情愿的战争就有可能爆发。突然袭击的优势和动机在于对方缺乏反击的能力，因此，防止突然袭击的首要目标是军事安全而不是人员安全。进一步说，防止突然袭击需要可信的二次还击能力。在《冲突的策略》出版之后四十五年里，谢林继续开展了一系列新颖而有效的研究。比如，他在相互依存和自我控制两方面的研究就值得一提，主要观点集中体现在其1978年的著作《微观动机与宏观行为》(“M icr omotives and Macr obehavi or”)。例如谢林在书中指出,“如果某个社会的弱势体被主流人认为不具备担任重要职责的能力，那么人们就不会雇佣他们担任重要的职责；他们因此也没有担任重要职责的机会；而缺乏担任重要职责的锻炼，他们也就越发地让人觉得无能。……，如果大学学生与老师之间关系比较疏远，或者老师在场时他们就感觉别扭，老师可能就会尽量回避与学生们在一起，从而更会使学生产生这种情绪。”

与谢林叙事性风格完全不同的是，奥曼则从数学的角度出发，在其诸多贡献之中，关于长期合作的研究，无疑具有最深刻的冲击和影响。他认为长期合作关系的维系远比一次简单的际遇来得容易，为此，他提出了完整详尽的无限期重复博弈理论，并严格论证了何种结果能够在长时期的关系中得到维

持。无限期重复博弈理论阐明了众多机构存在的理由，比如商业协会、组织犯罪、工资谈判以及国际贸易协议等。奥曼所提出的一些真知灼见也有助于解释价格战或贸易战等经济冲突，以及为什么一些团体组织能够非常成功地管理公共资源等。除了长期合作领域内的建树外，奥曼在其他方面的研究成果同样非常显著。比如共同知识、完全竞争的经济模型和值集函数等。首先，博弈参与人对对方策略集、信息集和偏好的了解程度是他们在博弈过程中策略的选择的关键变量，然而由此引发的一个问题是，怎样的认识假设意味着理性行为人能够达到均衡?长期以来，博弈论研究者对这一基本问题始终保持沉默，经济学家在进行均衡分析时对此也没作过多考虑。奥曼在1976年的论文“同意分歧”(agreeing t o disagree)中，将李维斯(Le wis D.)于1969年提出的共同知识的概念引入博弈论，圆满地回答了这一问题，同时还促进了“交互认识论”(interactive ep iste mol ogy)的发展。关于完全竞争的经济模型，奥曼认为：只要仅存在有限参与者，个别参与者对经济的影响在数学上就不能被忽视。奥曼把参与人闭连续集的概念引入到这一经济模型中，指出适合于完全竞争的数学模型必须包括无限多个参与者，从而拓宽了微观经济理论的解释能力。另外，奥曼在值集函数领域也作出的许多基础性贡献，如奥曼可衡量选择定理和值集函数积分结果等，在经济学、数学和运筹学等许多学科领域内都有着广阔的应用前景，如一般均衡分析、最优配置、非线性规划、控制论、测度理论和不动点定理等。

尽管谢林和奥曼关于冲突和合作的作品在上个世纪五十年代末期出现后就得到了普遍承认，但他们的洞察力仍过了很长时间才得以充分展示。这种延迟一方面反映了他们所作贡献的新奇创

>jasmine revolution

本文发布于:2024-09-21 13:54:07，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/550652.html

上一篇：尼科尔森微观经济理论_基本原理与扩展(第9版)课后习题详解(第15章...

下一篇：博弈论(名词解释和简答)

标签：博弈论博弈策略

留言与评论（共有 0 条评论）