博弈论经典案例.doc-得力文库

资源描述

《博弈论经典案例.doc》由会员分享，可在线阅读，更多相关《博弈论经典案例.doc（11页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、【精品文档】如有侵权，请联系网站删除，仅供学习与交流博弈论经典案例.精品文档.重复博弈囚徒困境，砸了传统经济学的场子。因为个人的自利行为，并不一定导致集体利益的最大化，“看不见的手”拉不住，人类向堕落之城下滑的趋势，难道这真是一个悲哀？索性并非如此，撇去博弈论的理性假设不说。博弈论者很快发现囚徒困境只在单次博弈情形下明显，一旦博弈的开始陷入重复，合作将到来。因为，未来的收益将左右目前的决策。以牙还牙重复的博弈理论上导致了合作的产生，但是谁也不能保证合作的继续，因为之前已经说过，合作的代价是建立在损害个人利益基础之上的。如果个人放弃未来收益或当前背叛收益大于未来收益，背叛的风险仍然存在。那么在重

2、复博弈中怎样的策略才是最优。若干睿智而复杂在经过计算机中PK之后，极其原始的“以牙换牙”策略脱颖而出，固然这个策略简单至极，其威力却无穷，以至于人们在短暂的欣喜之后，发现这把太阿指之剑倒持的可怕，一旦重复链条中出现一次（也许不经意的）背叛，那据此原则行事的博弈将永无止境的背叛下去，个人利益极度膨胀的同时，集体利益无限衰微。幸好，这个世界不是模型，也不是如此简单。很多时候，我们不必以牙还牙，第三方的规范：道德与法律就是我们的假牙，他们更加有利、有理、有节。人质困境一场憋屈的博弈。抢打出头鸟，人质联合固然可以制服歹徒，但是谁愿出头。这一点给了无数处于劫持者地位的一方以机会，类似于秦的远交近攻、各个

3、击破的策略，将最终全盘赢下。人质可有反制的策略，当然有，不过艰难至极。人质可以选择沉默，这样他有一定时间苟延残喘；或者联合劫持者对付人质，结局还是取决于劫持者，万一他过河拆桥怎么办；同时反抗，集体将获得左右策略，但是这需要壮士断腕的勇气，部分人可能因此受伤。这里是实力与勇气的较量，而且实力暂居上风。酒吧博弈如果人人理性，那么每一天到达酒吧的人数将是差不多正好的，但是人非圣贤，往往是有限理性的。第一次到酒吧的人多，那么大多人人认为酒吧人太多，太挤。第二次决定的时候，参考前次而不去酒吧。少数去的人发现酒吧的人第二天很少，感觉很爽，第三次将继续回来，并重新带回许多人循环就此开始。酒吧博弈一方面显示，

4、现实的博弈参与者，是极其有限理性的，其理性只前延后伸一小段。历史数据只对计算机有用，对人，则不一定。另一个方面，酒吧博弈指出，胜利者永远只是少数。尽管酒吧存在调谐的可能，譬如发短信时时提醒，但成本恐怕太高。而在其他场合，少数派可能更加会设置种种障碍阻止后进者的上升。也就是说，我们的世界仍然是操弄在少数派的手中。不过，总算这个世界不是模型，少数派的道路到底还是有迹可循的。老练的将军仍旧会在八卦迷阵中找到唯一的生门。若你想要，必须做一个更加老练的将军。枪手博弈王者的悲哀。三人对枪自决，甲乙丙枪法优劣递减。最后无奈而神奇的结局，将不取决于同时开枪还是先后开枪，最优良的枪手，倒下的概率将最高；而最蹩

5、脚的枪手，存活的希望却最大。因为没有人会把威胁最小的枪手列为一号清楚目标。在这里，后发制人的弱势者将胜出。以弱胜强，绝不是神话。难道王者的命运就真如此不堪，呵，道别忘了每个理论模型都是有其前提的，击破之中任何一个，王者仍将归来。这就是先发优势。假设这是一场类似CS的竞技，优秀的枪手击倒二号枪手，立刻获得奖励：盾牌。那么三号枪手将陷入绝境。不过，不管怎样，这个博弈模型，到底给了弱势者一份希望。机会永远存在。猎鹿博弈两个猎人合作猎鹿获得的收益将远大于分别猎兔的收益，战略联盟将开始。这或许是件好事，不过有取决于最后猎获的鹿这一公共资源的分配，如果分配得当，整体的效率将增加。如果一方主导，另一方受损

6、，那么帕累托改善无法进行，合作可能终将破裂。另外一个问题，更加大局的问题。合作的示范性将使得更多的猎人加入，猎获的鹿将大大增加，人类的利益短期内将呈几何级数增长。但是最后，确是生态失衡，鹿群灭群。短暂的繁华之后，猎人将再一次回归于原始猎兔生活。尽管为了避免这一悲剧，人类还有最后的希望：制度经济学的法宝科斯定理以产权归属来解决外部经济问题。但由于谈判成本以及可行性，人类社会的公共悲剧仍将不断上演。智猪博弈混沌之前最后的博弈。小猪和大猪住在猪圈的一边（食槽在这里），开启食物的开关在另一头，谁去踩，谁丧失先机。结果怎样？是小猪选择“搭便车”，大猪勤跑。因为小猪无论跑还是停，大猪的最优策略都是策略都

7、是去踩机关。不过在实际生活中。这里依旧存在两种策略。小猪的“搭便车”。大猪有的时候，自觉或不自觉地自封“侠之大者，为国为民”，并因此承受一些不能承受之重。博弈论的诡计指出美国战后的行为极似大猪，战后的美国竭力宣传自己的普世价值观，并深入到海外事务，甚至不惜重金协助小国防务。这样小国不自觉地对大国进行了“剥削”。大猪在击破模型的一个假设之后，仍然有一个后发制人的机会。因为大猪和小猪的耐饿能力不一样，大猪完全有能力撑得更久，小猪如果不想饿死，那只有一条豪赌的路子：龟兔赛跑式的豪赌，但愿大猪打了个盹儿，他回来的时候，还能吃上一两口，要不然真是赔了夫人又折兵了。据此，再也不难解释为什么很多人切齿的

8、腾讯，毫无顾忌地跟风，做QQ旋风，做拍拍，做滔滔。因为不甘心的小猪早早把新技术研发的前期搞定了，大猪们只需要悄悄跟随，适当的时候踢开挡路的，就可以了。大猪在这里的后发制人和枪手博弈的后发并不一致，枪手后发是建立在他人恶斗的基础上，大猪后发完全是以自身实力为基础。而且大猪完全不必采取任何激进措施，只要跟随就好。因为小猪获胜的条件不是接近，还是距离。警察与小偷令人沮丧的博弈结局。警察和小偷各只有一个机会去巡查或者偷盗A地或B地。A地的价值大于B地，那么警察应该为了保护价值大而一直保护A地吗。博弈论认为当然不是，警察的合理策略应当是有倾向于A以一定概率的随机巡查。这个概率就是：p=A地价值/AB地

9、总价值。这种情况下才能使小偷最大得手几率降至最低。但是很不幸的是，此时的小偷谋求的是，最小得手几率的最大化。也就是说，警察的最优策略将把小偷的最差策略改良！这个便是冯诺伊曼提出的“最小最大定律”。我们必须再一次感谢这个不完美的世界，因为现实之中，类似的现象，对于一方仍然可以设法找到对手致命的规律性行动（当然必须考虑到对方是不是一个更加老练的猎手，故意放出的诱饵）。而保持自己的行动的无序性，则有可能成为欺骗策略的武器，这倒似张三丰所言道的：无招胜有招。斗鸡博弈两只斗鸡在决斗的时候，无论选择进或退都是一个难题，因为纳什均衡已经给出了一胜一败的最优策略。在很多较量下，死拼将是得不偿失的，因为很可能

10、给第三者机会。因此，两个已经在战场的强势力很可能自觉的遵循纳什均衡，当一方攻击时，另一方暂退。虽然可能某方暂时受损，但较之于两败俱伤是好得多的。不过，要维持这一状况，必须保证下一次先期受损的一方发动攻势的时候，另一方同样的后退。于是这样的攻击性行为开始变得“仪式化”，没有人真正流血。这只不过是两个巨头玩弄的游戏，目的是警告后来者，想进来，那么也得陪我们一起玩，可是你玩的起么？这正是百事的广告，即使暗含挑衅也最多只到“敢为中国红”这样的地步的原因。协和谬误欧洲政府在大量投资协和飞机后，终于不能自拔。即使前景黯淡，也撑着面子投下去，非要走投无路才放弃。而这时投入的成本已经全打水漂了。如果，发现不能

11、继续的时候，就果敢放手，损失会小得多。可是他们会、能这么做么？壮士断腕，是何等的壮烈，却也是何等的艰难！沉没成本很可能会延续人们无畏的坚持。已经沉没的本该放弃，可惜大部分有赌徒式的心理，相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的支点之前，已经窒息了。协和谬误，倒是给了人们半途而废的理由，会不会有人担心它的滥觞会左右一些本该坚持的目标？的确有这个可能，但是应该相信人们足够理智，完全可以比较沉没成本、机会成本与未来收益的关系。看清了的，必定会坦然地走出协和谬误。蜈蚣博弈一场颠前倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是一个睿智的策略，因果相报，把握好因缘，自有好结果

12、。它的另一个好处，就是使得未来的计划明晰化，是你不再徘徊。只可惜，很多时候，碌碌无为的我们并没有看透迷局的眼睛。我们黑色的眼睛只习惯于黑夜。蜈蚣博弈也有一个致命的悖论，仍旧是个人利益和集体利益的冲突，因为最后一次的背叛收益始终优于合作。可悲的是，这一次背叛将由于人性的理智，穿越时光隧道，回到原始的地点：人们将从开始就拒绝合作。还是感谢我们这个不完美的世界吧，事实上人们很少这样做。当然合作到最后的也很少，这意味着，倒推法只在中间阶段突然发生了作用，只不过谁也不能预测，中间一步在哪里。在那里，我们只有冀望信任、道德、良知等等。分蛋糕博弈两个小孩怎么分蛋糕？经典的故事，经典的解答：一个分，一个选。

13、现实多如此，权利与利益的合理分配将有效促进公平与效率。经营权与所有权的分置的确使得经济更加活力。不过分蛋糕的进阶模型却强调了讨价还价的策略，分蛋糕不是一次性的，而是多回合的，而且出现成本：蛋糕在融化。时间成本的加入，将使得分配变得复杂化。双方如果不能及时达成交易，不仅集体的收益将减量，而且个体的收益也将减少。在此情况下，利用时间成本以及承诺、威胁将对其中一方极其有利。顾客可能迫于情势，必须尽快结束谈判，这时卖方却不慌不忙，故意拖延，顾客一方将不得不在价格上作出妥协。顾客一方当然也有策略，它的策略就是货比三家，要求承诺或威胁。这个前提是买方市场的存在。顾客还应当保护自己讨价还价的能力，这就是

14、顾客有权投诉商家。鹰鸽博弈这个博弈很多人等同于斗鸡博弈。不过，斗鸡是两个兼具侵略性的个体，鹰鸽却是两个不同群体的博弈，一个和平，一个侵略。在只有鸽子一个苞谷场里，突然加入的鹰将大大获益，并吸引同伴加入。但结果不是鹰将鸽逐出苞谷场，而是一定比例共存，因为鹰群增加一只鹰的边际收益趋零时（鹰群发生内斗），均衡将到来。由此产生了ESS进化上的稳定策略，也就是说一旦均衡形成，偏离的运动会受到自然选择的打击。也就是鹰群饱满后，再试图加入的鹰将会被鹰群排挤。进化上的稳定均衡最大的好处莫过于保持稳定。但问题在于形成强势的路径依赖，也就是胜出的不一定是最好的。因为最好的会被当作出头鸟干掉，这是个体的失败，集

15、团的胜利以及集体的止步不前。脏脸博弈恍然大悟的博弈。三个人在屋子里，不许说话。美女进来说：你们当中至少一个人脸是脏的。三人环看，没有反应。美女又说：你们知道吗？三人再看，顿悟，脸都红了。为什么？因为美女后一句废话点破天机，三个人都知道脏脸的存在，而且推测知道对方也知道了脏脸的存在（因为另两人脸没红，说明他们看到脏脸了），而且知道对方知道自己已经想到上一步循环开始，知识开始共同化，真相大白：三个人都是脏脸，所有人都脸红了。这就是共同知识的作用，它的作用显得有点可怕的强大。几乎是一招无影腿，杀人不见血。在台面上的博弈之前，私下的算计已经置对手于死地。不过，很可能对方也预料到这一点，早也想到这一点

16、，同时杀来。终于，形成双死局面。当然，现实虽然存在类似现象，不过共同知识更大的作用在于减少交易成本。因为某些规则人尽皆知，双方只要各自依之行事就可以了。信息均衡很显然，信息的作用在博弈之中非常重要。将博弈论还原到现实，人们不再完全理性，信息存在不对称，博弈就需要在抢占信息高地上作出努力。信息不对称，是一个很大的障碍。信息的不对称会造成“逆向选择”和“道德风险”，前者事前，后者事后。信息不对称短期内对某一方会有利，但最终会破坏整个市场。于是有两个解决策略。信息传递传达你的正面的信息的策略，也就是说吸引顾客走到你的柜台面前。它的要点是保持有效、减低成本。信息甄别诱导对手暴露其私下拥有的真实信息

17、。就是给顾客一个放大镜，保证顾客不会走到其他柜台去。这种策略显然更加有效，不过风险也更大：万一顾客用放大镜看出了了自己的瑕疵怎么办？价格战博弈现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐”。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡”，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡”。这个结果可能对消费者是有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是

18、竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论(vivalry game)其结果会如何呢？每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则：“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决

19、策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。污染博弈假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，

20、那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。贸易自由与壁垒这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限

21、制，比如提高关税，则Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如X和Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。博弈论经典案例“囚徒困境”及其实证分析最近三四十年，经济学经历了一场“博弈论革命”，就是引入博弈论的概念和方法改造经济学的思维，推进经济学的研究。诺贝尔经济学奖授予包括美国普林斯顿大学的纳什博士在内的3位博弈论专家，可以看作是一个标志，这自然也激发了人们了解博弈论的热情。博弈论作为现代经济学的前沿领域，已成为占据主流的基本分析工具。博弈论是研究决策主体的行为发生直接相互作用时的

22、决策以及这种决策的均衡，也就是说，当一个主体的选择受到其他主体选择的影响，而且反过来影响到其他主体选择时的决策问题和均衡问题。一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。“囚徒困境”“囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（和）作案后被警察抓住，隔离审讯；警方的政策是坦白从宽，抗拒从严，如果两人都坦白则各判年；

23、如果一人坦白另一人不坦白，坦白的放出去，不坦白的判年；如果都不坦白则因证据不足各判年。在这个例子里，博弈的参加者就是两个嫌疑犯和，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：和均坦白或均不坦白、坦白不坦白或者坦白不坦白，是博弈的结果。和均坦白是这个博弈的纳什均衡。这是因为，假定选择坦白的话，最好是选择坦白，因为坦白判年而抵赖却要判十年；假定选择抵赖的话，最好还是选择坦白，因为坦白判不被判刑而抵赖确要被判刑年。即是说，不管坦白或抵赖，的最佳选择都是坦白。反过来，同样地，不管是坦白还是抵赖，的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑年。在（坦白、坦

24、白）这个组合中，和都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果和都选择抵赖，各判刑年，显然比都选择坦白各判刑年好得多。当然，和可以在被警察抓到之前订立一个攻守同盟，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定。实证分析：囚犯困境在经济学上有很多应用，也有力地解释了一些经济现象。一电信价格竞争根据我国电信业的实际情况，我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争，一开始的价格都是P0。A（中国电信）是老牌企业，实力雄厚，占

25、据了绝大多数的市场份额；B（中国联通）则刚刚成立不久，翅膀还没有长硬，是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的，所以B得到了政府的一些优惠，其中就有B的价格可以比P0低10。这一举动，还不会对A产生多大的影响，因为A的根基实在是太牢固了。在这样的市场分配下，A、B可以达到平衡，但由于B在价格方面的优势，市场份额逐步壮大，到了一定程度，对A造成了影响。这时候，A该怎么做？不妨假定： A降价而B维持，则A获利15，B损失5，整体获利10； A维持且B也维持，则A获利5，B获利10，整体获利15； A维持而B降价，则A损失10，B获利15，整体获利5； A降价且B也降

26、价，则A损失5，B损失5，整体损失10。从A角度看，显然降价要比维持好，降价至少可以保证比B好，在概率均等的情况下，A降价的收益为15505505，维持的收益为550105025，为了自身利益的最大化，A就不可避免地选择了降价。从B角度看，效果也一样，降价同样比维持好，其降价收益为5，维持收益为25，它也同样会选择降价。在这轮博弈中，A、B都将降价作为策略，因此各损失5，整体损失10，整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象，各个局部都寻求利益的最大化，而整体利益却不是最优，甚至是最差。许多其他行业的价格竞争都是典型的囚徒困境

27、现象，如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。二OPEC组织成员国之间的合作与背叛“囚徒困境”告诉我们，个人理性和集体理性之间存在矛盾，基于个人理性的正确选择会降低大家的福利，也就是说，基于个人利益最大化的前提下，帕累托改进得不到进行，帕累托最优得不到实现。上述我们在对电信价格竞争的博弈分析中，只是一次性的“囚徒困境”博弈，因此得到了互相降价的纳什均衡。而在现实生活当中，信任与合作很少达到如此两难的境地，无论在自然界还是在人类社会，“合作”都是一种随处可见的现象。比如中东石油输出国组织（简称）的成立，本身就是要限制各石油生产国的产量，以保持石油价格，以便获取利

28、润，是合作的产物。OPEC之所以能够成立，各组织成员国之间之所以能够合作，是因为囚徒困境如果是一次性博弈(One shot game)的话，基于个人利益最大化，得到纳什均衡解，但如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺(Credible commitment) ，向另一方表示合作的善意，努力把这个善意表达清楚，并

29、传达出去。如果该困境同时涉及多个对手，则要在博弈对手中形成声誉，并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译，“Credible commitment”并不是什么空口诺言，而是实实在在的付出。所以合作是非常困难的。所以OPEC组织经常会有成员国不遵守组织的协定，私自增加石油产量。每个成员国都这样想，只要他们不增加产量，我增加一点点产量对价格没什么影响，结果每个国家都增加产量，造成石油价格下跌，大家的利润都受到损失。当然，一些产量增加较少的国家损失更多，于是也更加大量生产，造成价格进一步下降-结果，陷入一个困境：大家都增加产量，价格下跌，大家再增加产量，价格再下跌。理论上，几乎所

30、有的卡特尔都会遭到失败，原因就在于卡特尔的协定（类似囚犯的攻守同盟）不是一个纳什均衡，没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了？理论上，如果是无限期的合作，双方考虑长远利益，他们的合作是会成功的。但只要是有限次的合作，合作就不会成功。比如合作次，那么在第九次博弈参与人就会采取不合作态度，因为大家都想趁最后一次机会捞一把，反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作，那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作一直到，从第一次开始大家都不会采取合作态度。以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的理论上的分析，虽然

31、在现实生活当中影响人们决策和态度的因素很多，但是，博弈论作为现代经济学的前沿领域，始终是一个强有力的分析工具。博弈论的案例评论 -囚徒困境说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙（即与警察合作，从而背叛他的同伙），或者保持沉默（也就是与他的同伙合作，而不是与警察合作）。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙

32、，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。 -那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也

33、会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。 -当然，在现实世界里，信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中，其结果对双方都毫无益处。还有各国的

34、贸易保护主义的永恒倾向。 -但是，无论在自然界还是在人类社会，合作都是一种随处可见的现象。那么，问题就出现了：到底是何种机制促使生物体或者人类进行相互合作呢？ -这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特爱克斯罗德的人。爱克斯罗德是一个政治科学家，对合作的问题久有研究兴趣。为了进行关于合作的研究，他组织了一场计算机竞赛。这个竞赛的思路非常简单：任何想参加这个计算机竞赛的人都扮演囚徒困境案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后他们的程序会被成双成对地融入不同的组合。分好组以后，参与者就开始玩囚徒困境的游戏。他们每个人都要在合作与背叛之间做出选择。 -但这里与囚徒困境

35、案例中有个不同之处：他们不只玩一遍这个游戏，而是一遍一遍地玩上200次。这就是博弈论专家所谓的重复的囚徒困境，它更逼真地反映了具有经常而长期性的人际关系。而且，这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合，则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次，则双方就建立了各自的历史档案，用以记录与对手的交往情况。同时，它们各自也通过多次的交手树立了或好或差的声誉。虽然如此，对方的程序下一步将会如何举动却仍然极难确定。实际上，这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗

36、？或者，它能总是采取背叛行动吗？它是否应该对对手的举动回之以更为复杂的举措？如果是，那会是怎么样的举措呢？ -事实上，竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报（TIT FOR TAT）。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。一报还一报的策略是这样的：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略。也就是说，一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方，从这个意义上来说它是善意的。它会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从

37、这个意义上来说它是宽容的。但它会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是强硬的。而且，它的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是简单明了的。 -当然，因为只有为数不多程序参与了竞赛，一报还一报策略的胜利也许只是一种侥幸。但是，在上交的14个程序中，有8个是善意的，它们永远不会首先背叛。而且这些善意的程序都轻易就赢了6个非善意的程序。为了决出一个结果来，爱克斯罗德又举行了第二轮竞赛，特别邀请了更多的人，看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛，结果是一报还一报又一次夺魁。竞赛的结论是无可争议的。好人，或更确切地说，具备以下特

38、点的人，将总会是赢家。 - 1善意的； 2宽容的； 3强硬的； 4简单明了的。 -一报还一报策略的胜利对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在合作进化一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的自己活，也让他人活的原则。当时前线战壕里的军队约束自己不开枪杀伤人，只要对方也这么做。使这个原则能够实行的原因是，双方军队都已陷入困境数月，这给了他们相互适应的机会。 -一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多：真菌从地下的石头中汲取养分，为海藻提供了食

39、物，而海藻反过来又为真菌提供了光合作用；金蚁合欢树为一种蚂蚁提供了食物，而这种蚂蚁反过来又保护了该树；无花果树的花是黄蜂的食物，而黄蜂反过来又为无花果树传授花粉，将树种撒向四处。 -更广泛地说，共同演化会使一报还一报的合作风格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。那么，只要这些个体能互相遇见，足够在今后的相逢中形成利害关系，他们就会开始形成小型的合作关系。一旦发生了这种情况，他们就能远胜于他们周围的那些背后藏刀的类型。这样，参与合作的人数就会增多。很快，一报还一报式的合作就会最终占上风。而一旦建立了这种机制，相互合作的个体就能生存

40、下去。如果不太合作的类型想侵犯和利用他们的善意，一报还一报政策强硬的一面就会狠狠地惩罚他们，让他们无法扩散影响。 -现在，对博弈论的研究是如此地广泛，以致于有些人说最新的经济学和管理科学都已经利用博弈论的理论和工具重写过了。博弈论中有很多有趣而富于哲理的案例，一报还一报就是其中的一个。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式都有很大的指导意义。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点

41、儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当斯密的理论，每一个人都是从利己的目的出发，他们

42、选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。我的感想：听说研究博弈论的人经常会精神分裂，以纳什为模范，因为他们总要将自己设想成参加博弈的不同的

43、人，你猜我想些什么，我猜你想些什么，你猜我猜你在想什么，我猜你猜我在想什么，你猜我猜你猜我在想什么，我猜你猜我猜你在想什么如此循环往复，于是他们就迷失自己了。博弈论案例分析 (1) 二妓争子旧约全书列王记上记有二妓争儿，所罗门命令左右取剑，曰：“剖儿为两，各得一半”，一妓乞求不要杀儿，自己愿意舍让，一妓则说杀就杀了，不再争执；所罗门据此判断是非。在古印度也有类似的故事，贤愚经卷十一檀腻羁品第四六载：二母人共诤一儿，诣王相言。时王明黠，语二母言：今唯一儿，听汝二人，各挽一手，谁能得者，即是其儿。非其母者，於儿无慈，尽力顿牵，不恐伤损；所生母者，于儿慈深，随从爱护，不忍拽挽。王鉴真伪。以上故事是

44、一个典型的个体博弈案例。实际上，博弈对任何个体而言都是一个决策过程. 而个体作出决策很重要的一点是认识妥协，学会妥协。看清了什么样的妥协是可以接受的，什么样的事情是必须坚持到底的。妥协有两种不同的性质: 1) 利益下限得到满足：“半块面包总比没有面包来得好”。 2) 损失下限没被突破：“与其要回半个死孩子，还不如将孩子送给对方为好”。以上二母争儿案例，可用博弈论解法提供一个“几乎”完美的机制：提出问题：妓女A和妓女B中只有一个是真母亲，但他们都宣称自己是孩子真正的母亲。不管她们中到底是谁，英明的所罗门王都需要把孩子交给真正的母亲。可是所罗门确实不知道谁才是真正的母亲，虽然两个女人都很清楚是怎

45、么回事。这需要所罗门发挥睿智，间接诱导出正确的结果。解决问题：所罗门可以向其中任意一个“母亲”提问孩子是不是她的(比如: 妓女A)？如果答案是否定的，则孩子交给另一个女人（妓女B），博弈结束；如果答案是肯定的，则所罗门王可以接着向另一个女人（妓女B）提问她是否反对？如果另一个女人（妓女B）不反对，则孩子归妓女A，博弈结束；否则，所罗门就要这个女人（妓女B）提出一个赌注（V），然后向妓女A收取罚金 F,并问她是否愿意出同样的赌注？如果妓女A同意出同样的赌注，孩子归妓女A，妓女B交纳同样的罚金；如果妓女A放弃，则孩子归妓女B，妓女A给所罗门王赌注的钱以上机制起作用的前提是：孩子对真母亲的价值比对假

46、母亲的高，并且这些认识是他们之间的普遍知识（common knowledge）: 即每个人都知道每个人都知道这些，如此一直无穷。以上很容易推出：如果妓女A是真母亲，她的策略是说孩子是她的，然后妓女B不反对，因为她（妓女B）反对的结果只会导致她要多交钱，因为她为了赢得后面的“拍卖”必须使自己的赌注高过妓女A愿意出的最高值即孩子对妓女A的真正价值，妓女A为什么要出这么多的钱得到一个不值这么多的孩子呢？如果妓女A是假母亲，她的策略是承认孩子不是她的，因为如果说孩子是她的，妓女B必然会反对，并且妓女B为了得到孩子只需出高过孩子对妓女A的价值的钱，这只会造成妓女A白白地被罚款。问题思考：以上机制对假母亲

47、具有妒忌型效用函数时无效，因为她（假母亲）可以出更多的钱得到一个并不物有所值的东西，属于损人不利己的行为这是这个机制“几乎”完美的命门。对于“如果妓女 A 是真母亲，并坚持说孩子是她的”(她是神经病)，此时仍然可用所罗门的经典判案来挑战：妓女 A 必然愿意杀就杀了而无所得，而妓女 B 则不愿意突破损失下限。神经病可能不愿意杀了小儿么？如果是，说明她也不是神经病，也许假母亲也可以称为真正的母亲了。经济学博弈论经典案例二在热门时髦，而又超凡脱俗的大经济学讲坛上，学子们正被传授着称为“智猪博弈”的人类智慧，大意是这样的：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，猪每踩一下踏板，猪圈另一

48、边的食槽里就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。博弈的结果（纳什均衡）是，小猪舒舒服服地躺在食槽边，让大猪为一点残羹不知疲倦地奔忙于踏板和食槽之间。学子们合上厚重的“信息经济学与博弈论”课本，不禁惊叹：多么聪明的小猪！好像全世界的小猪是这样成长为大猪的。然而，猪圈里的“智慧”，谁又在人圈里见过？经济市场里的现实教训会告诉你什么是真实的智人博弈。为了叙述的直观，首先对关键词作如下的变换：大猪富人，小猪穷人，猪圈市场，食槽财富池，食物财富。现实素描是：市场里有两个人，一个富人，一个穷人。市场的一边有个踏板，人每踩一下踏板，市场的另一边的财富池里就会落下少量的财富。如果有一个人去踩

展开阅读全文