博弈论课件.ppt

上传人:飞****2 文档编号:92567997 上传时间:2023-06-08 格式:PPT 页数:162 大小:2.47MB
返回 下载 相关 举报
博弈论课件.ppt_第1页
第1页 / 共162页
博弈论课件.ppt_第2页
第2页 / 共162页
点击查看更多>>
资源描述

《博弈论课件.ppt》由会员分享,可在线阅读,更多相关《博弈论课件.ppt(162页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。

1、可编辑 1博弈论 the Theory of Games 2023/6/7可编辑 2主要内容一、博弈现象及基本概念二、完全信息静态博弈 三、完全信息动态博弈 四、不完全信息静态博弈 五、不完全信息动态博弈 六、不完全信息专题2023/6/7可编辑 3主要参考书(1)姚国庆:博弈论,高等教育出版社,2007.(2)罗云峰:博弈论教程,清华大学出版社、北京交通大学出版社。(3)张维迎:博弈论与信息经济学,上海三联书店,上海人民出版社,2004。(4)施锡铨,博弈论,上海财经大学出版社,2002。2023/6/7可编辑 4(5)张守一,现代经济对策论,高等教育出版社,1998。(6)钱颂迪,运筹学,

2、清华大学出版社,1996。(7)美艾里克.拉斯缪森:博弈与信息,北京大学出版社,2003。(8)美弗登博格:博弈论,中国人民大学出版社,2002。2023/6/7可编辑 5第一讲 博弈现象与基本概念1博弈现象2.博弈概念3.博弈描述4.博弈练习5.关于博弈论2023/6/7可编辑 61博弈现象 田忌赛马:正确的策略可以反败为胜。囚徒困境:认罪 不认罪认罪(-5,-5)(0,-10)不认罪(-10,0)(-1,-1)甲乙理性的人是自私自利的;理性选择不是全局最优。2023/6/7可编辑 7经济合作:合作 欺骗合作(2,2)(-2,4)欺骗(4,-2)(0,0)甲乙诚信的价值;一报还一报策略;人类

3、生存环境启示。2023/6/7可编辑 8长街上的超市(海滩占位模型)0 1/2 3/4 11/4 AO资源浪费还是理性的必然?其它相似情形:旅行社的热门路线;黄金时间的电视节目;总统竞选。2023/6/7可编辑 9狩猎与投资狩猎:两个猎人围住一头鹿,各卡住两个关口中的一个,齐心协力即可成功获得并平分猎物。此时有一群兔子跑过,任何一人去抓兔子必可成功,但鹿会跑掉。他们会坚持猎鹿还是去抓兔子?2023/6/7可编辑 10共同投资:双方共同投资一个大项目,可期望有较大收益。此时如某方抽出资金去进行小项目投资,必可成功获小利,但会使共同项目陷入困境,使对方蒙受损失。投资者会如何选择?2023/6/7可

4、编辑 11旅行者困境 两个旅行者花瓶被摔坏,向航空公司索赔。航空公司知道价格约为八九十元,但不知道确切价格。于是请两位旅客在100元以内自己写下花瓶的价格。如两人写的一样,就认为他们讲真话,并按所写数额赔偿;如果两人写的不一样,就认定低者讲真话,并照此价格赔偿。同时,对讲真话的旅客奖励2元钱,对讲假话的旅客罚款2元。理性原则下,他们会写多少价格呢?2023/6/7可编辑 12什么是博弈:个人或团体间在依存和对抗、合作和冲突中的决策问题。博弈论研究博弈过程中的理性行为。2.博弈概念2023/6/7可编辑 13如何理解理性行为:自身利益最大;持续地有意图的行动;不对动机妄加猜测;不考虑道德问题;只

5、研究合法问题;盈利函数有多重标准。2023/6/7可编辑 14博弈三要素局中人(参与人)players:决策主体;自然人、团体或“虚拟局中人”;有可供选择的策略和明确定义的利益函数;分为两人和多人2023/6/7可编辑 15策略(战略)strategies:采取行动的规则;可以是一次行动也可以是一个行动序列;可以是纯策略也可以是混合策略;分为有限和无限。支付(盈利函数)payoff:对应于某策略组合的局中人利益或损失;确定的或是期望的;分为零和和非零和。2023/6/7可编辑 16扩展术语:信息:信息集;完全信息(complete);完美信息(perfect)。共同知识:双方可能获取的相同信息

6、;彼此都能算清楚。博弈结果:均衡策略组合;均衡行动组合。均衡:所有局中人最优策略的组合。2023/6/7可编辑 17博弈的策略型(标准型、正则型)表述:指定n个局中人,以及他们各自的纯策略空间和这些局中人各自的支付(盈利)函数我们将该博弈表示为:3.博弈描述2023/6/7可编辑 18例:寡头竞争问题策略型表述多适用于静态博弈。另一种表述方式是扩展式表述,两种表述形式几乎是完全等价的,但是扩展式表述更适合于讨论动态博弈。2023/6/7可编辑 19房地产开发实例 双方:A,B 策略:开发投资1亿元;不开发,投资0 售价:高需:1.4亿元(两栋),1.8亿元(一栋);低需:0.7亿元(两栋),1

7、.1亿元(一栋)。2023/6/7可编辑 20结果:高需,(开,不开),(0.8,0)高需,(不开,开),(0,0.8)高需,(开,开),(0.4,0.4)高需,(不开,不开),(0,0)低需,(开,不开),(0.1,0)低需,(不开,开),(0,0.1)低需,(开,开),(-0.3,-0.3)低需,(不开,不开),(0,0)2023/6/7可编辑 21策略型表述:(两人有限博弈;矩阵形式)开发 不开发开发(0.4,0.4)(0.8,0)不开发(0,0.8)(0,0)A B高需求情况低需求情况?2023/6/7可编辑 22房地产博弈分析 假设:同时决策;市场需求双方已知若市场需求大,双方开发,

8、各得0.4万元。若市场需求小,依赖于对方行动。若市场不确定,依赖对市场的判断及对方行动。例:P0.5,最坏情况期望盈利500万元,开发。P0.3,对方开发概率31/40时,开发;否则,不开发。(?)2023/6/7可编辑 23关键问题:对自然状态的概率估计;不同时间决策(决策顺序);对对方先验信息的估计(即估计对方对信息的掌握程度)。现实困难:对市场了解程度不同;对对方了解程度不同;如何向对方暗示自己的行动。2023/6/7可编辑 244.博弈练习游戏一:心灵感应 两个人一组,独立写出1至10之间的任意5个数。如果不重复则得奖;否则受罚。获胜的秘诀是什么?2023/6/7可编辑 25游戏二:海

9、盗逃生 有5个海盗,即将被处死刑。法官愿意给他们一个机会。从100个黄豆中随意抓取,最多可以全抓,最少可以不抓,可以和别人抓的一样多。抓得最多的和最少的要被处死。如果你第一个抓,你抓几个?2023/6/7可编辑 26游戏三:100元怎么分?你看见两个小孩在玩耍,出于好奇,你给他们100元,让他们猜拳。猜赢者决定怎么分这100元,而输者如果同意赢者的分配比例,那么他们将各有所得,如果不同意,那么这100元,你将收回。请你替赢者考虑一下,怎样分配,赢者既得到最大利益,又能让输者也同意呢?2023/6/7可编辑 27游戏四:一元钱竞拍 给一元钱钞票开出你的价钱,使自己获益最大或损失最少;每次叫价以5

10、分钱为单位;开价最高者得到这一元钱;出价最高和次高者一并按所开的价钱支付。斜坡上的均衡;“骑虎难下”的博弈;“协和谬误”2023/6/7可编辑 28游戏五:强盗分赃 有五个强盗抢得100枚金币,在如何分赃问题上争吵不休。于是他们决定:(1)抽签决定自己的号码(1,2,3,4,5);(2)由1号提出分配方案,然后5人表决,如果方案超过半数同意就通过,否则他将被仍进大海喂鲨鱼;2023/6/7可编辑 29(3)1号死后,由2号提方案,4人表决,当且仅当超过半数同意方案通过,否则2号同样被仍进大;(4)依次类推,直到找到一个每个人都接受的方案(当然,如果只剩下5号,他当然接受一个人独吞的结果)。如果

11、你是第一个强盗,你该如何提出分配方案才能使自己的收益最大化呢?2023/6/7可编辑 305.关于博弈论博弈分类:合作、非合作:是否存在一个具有约束力的协议(binding agreement)前者强调团体理性(效率、公正、公平)后者强调个人理性(最优决策,不保证效率)2023/6/7可编辑 31完全信息与不完全信息:每一个局中人对自己及其它局中人是否有完全的了解;包括局中人特征、策略空间、盈利函数等知识。动态与静态:行动的先后顺序;是否同时(或不同时但对方不知)。2023/6/7可编辑 32发展历史:1944Von Neumann&Morgenstern“The theory of game

12、s and economic behavior”1950 Nash&1953Shapley“讨价还价”模型1950、1951 Nash 非合作博弈1950Tucker Prisoners dilemma1953 Gillies&Shapley 合作博弈1965 Selton 动态分析;“精炼纳什均衡”1967、1968Harsanyi“不完全信息”1994 Nash、Selton、Harsanyi诺贝尔经济学奖2023/6/7可编辑 33纳什的传奇人生 1928年出生于一个电子工程师家庭。17岁进入今卡耐基梅隆大学,专攻数学。20岁时进入普林斯顿大学攻读博士学位。1949年,21岁的纳什写下论

13、文多人博弈的均衡点。1950年以论文非合作型博弈获得数学博士学位。2023/6/7可编辑 342023/6/7可编辑 35 毕业后先后在兰德研究所、普林斯顿大学、MIT工作。1957年他与MIT学生爱莉西娅结婚。在而立之年患上了妄想型精神分裂症,九十年代逐渐恢复了正常。1994年纳什博士获诺贝尔经济学奖。2002年来北京参加“国际数学家大会”2023/6/7可编辑 362023/6/7可编辑 37电影“美丽心灵”2023/6/7可编辑 38 静态 动态 完全信息 完全信息静态博弈纳什均衡纳什(1950,1951)完全信息动态博弈子博弈精炼纳什均衡泽尔滕(1965)不完全信息 不完全信息静态博弈

14、贝叶斯纳什均衡海萨尼(19671968)不完全信息动态博弈精炼贝叶斯纳什均衡泽尔滕(1975)博弈论体系2023/6/7可编辑 39第二讲完全信息静态博弈1.矩阵博弈2.累次严优均衡3.纳什均衡4.混合策略纳什均衡5.纳什均衡的存在性与多重性2023/6/7可编辑 401.矩阵博弈什么是矩阵博弈:两人零和有限策略博弈;可用矩阵形式表述。矩阵元素为局中人A的赢得,亦即B的损失。例:用矩阵形式表述田忌赛马博弈(?)2023/6/7可编辑 41有鞍点情形:存在最优纯策略例:表中数据为I的赢得 III 1 2 3min16 1 8 823 2 4 239 1 10 104 3 0 6 3max 9 2

15、 6 2博弈哲学:从最坏处考虑,争取最好结果2023/6/7可编辑 42无鞍点情形:最优混合策略例:III 1 2min111 5 527 9 7max 11 9?设最优混合策略:2023/6/7可编辑 43对局中人I:2023/6/7可编辑 44I的最优混合策略为 同理,II的最优混合策略为G8同理可求局中人II的最优混合策略(?)2023/6/7可编辑 452.累次严优均衡占优策略均衡(严格)劣策略:无论对方如何选择都更差。占优策略:无论对方如何选择存在唯一最优。占优策略均衡:所有局中人占优策略的组合。特点:只要求每个人理性,并不要求知道其它人是不是理性。2023/6/7可编辑 46例:裁

16、军问题 以巴 武装 裁军武装(3000,3000)(10000,)裁军(,10000)(0,0)例:囚徒困境中的(认罪,认罪)例:房地产投资市场大情况下(开发,开发)2023/6/7可编辑 47重复剔除的占优均衡(iterated elimination)也称为累次严优均衡。通过重复剔除劣战略剩下唯一的战略组合。如果存在则称为重复剔除占优可解的。(dominance solvable)特点:不仅要求每个人理性,还要求知道其它人理性。理性是共同知识。2023/6/7可编辑 48例:智猪博弈按钮喂食:一次供应量为8,代价为2。大猪先到 7:1;同时到 5:3;小猪先到 4:4 小猪大猪 按 等按(

17、3,1)(2,4)等(7,1)(0,0)2023/6/7可编辑 49分析:小猪有占优策略,大猪没有,所以不存在占优均衡;在“理性”为共同知识的情况下,存在重复剔除的占优均衡,即(大猪按,小猪等)。应用:此为“多劳不多得,少劳不少得”的奇怪情形,是一种有趣的社会现象。经济学中称为“搭便车现象”2023/6/7可编辑 50 III L M RU(4,3)(5,1)(6,2)M(2,1)(8,4)(3,6)D(3,0)(9,6)(2,8)无论局中人I怎样决策,局中人II与其选取策略M还不如选取策略R。对于局中人II来说,M是个劣策略。可以去掉II的“M”列。例:2023/6/7可编辑 51假定II不

18、选M,对于I来说M和D是劣策略。III L RU(4,3)(6,2)M(2,1)(3,6)D(3,0)(2,8)2023/6/7可编辑 52故I选择U。这时,II选择L而不选R。可以预测博弈的合理结局可能是(U,L)即(4,3)。III L RU(4,3)(6,2)III LU(4,3)2023/6/7可编辑 53严优均衡的局限有时无法开始累次严优的剔除;例:房地产投资中市场小的情况反常现象:盈利函数取极端值时;如果双方都存在严劣策略,从不同人开始的结果一致;与混合策略的优劣比较。2023/6/7可编辑 54 III L RU(7,9)(1000,8.5)D(6,5)(5,4.5)分析:累次严

19、优过程产生了唯一解(U,L)。然而,不管局中人I如何行动,局中人II取R仅比取L在盈利上差0.5。I选策略U要冒极大的风险,策略D比U更加稳健。所以,局中人I不会选U,而是选择D。稳健性。例:2023/6/7可编辑 553.纳什均衡定义:有n个局中人的策略式表述博弈 G=S1,Sn;u1,un,策略组合s*=(s1*,si*,sn*)是一个纳什均衡,如果对于每一个i,si*是给定其它局中人选择 s-i*=(s1*,si-1*,si+1*,sn*)的情况下第i个局中人的最优策略,即 ui(si*,s-i*)ui(si,s-i*),siSi,i 2023/6/7可编辑 56或者用另一种表述方式:s

20、i*是下述最大化问题的解:si*argmax ui(s1*,si-1*,si,si+1*,sn*),i=1,2,n。siSi结论:最优对任一参与者的任一策略成立;是 一 种 可 以 自 动 实 施 的 协 议(self-enforcing)2023/6/7可编辑 57两人有限博弈纳什均衡的确定 例:用表上作业法寻找nash均衡 BA L C RU(0,4)(4,0)(5,3)M(4,0)(0,4)(5,3)D(3,5)(3,5)(6,6)2023/6/7可编辑 58对纳什均衡的理解“一致性”特征:局中人预测到均衡;局中人也预测到其它人预测到均衡;没有局中人有兴趣作不同的选择。是局中人的一致性预

21、测;但不一定最好。2023/6/7可编辑 59与严优均衡的关系:(1)每个占优均衡、重复剔除的占优均衡一定是纳什均衡,反之则不然。(2)纳什均衡一定是在重复剔除严劣策略过程中没有剔除的策略组合,反之则不然。(3)纳什均衡有强弱之分。强纳什均衡;弱纳什均衡。允许弱劣策略存在。2023/6/7可编辑 60例:市场进入博弈参与人:在位者;进入者策略:在位者:默许、斗争;进入者:进入、不进入。假定:进入之前的垄断利润为300,进入之后寡头利润为100,进入成本为10。2023/6/7可编辑 61 在位者进入者 默许 斗争进入(40,50)(10,0)不进入(0,300)(0,300)纳什均衡分析:(进

22、入,默许)是强纳什均衡,(不进入,斗争)是弱纳什均衡。2023/6/7可编辑 62重复剔除弱劣策略方法:“斗争”是在位者的弱劣战略被剔除,(进入,默许)是唯一重复剔除的占优均衡;纳什均衡(不进入,斗争)将被剔除掉。说明(弱)纳什均衡允许弱劣战略存在。2023/6/7可编辑 634.纳什均衡应用举例(1)消耗战(鹰鸽博弈)两只老虎为争夺猎物对峙。都坚持则猎物腐烂;一方放弃则归另一方;都放弃则都得不到猎物。猎物价值f,僵持成本为c。(对称博弈与对称均衡)2023/6/7可编辑 64(2)性别战(协调博弈)一对情侣周末安排,女方喜欢音乐会,男方喜欢足球赛。情侣陪伴看喜欢的为最好,陪情侣看自己不喜欢的

23、为次之,各自看自己喜欢的又次之,各自看不喜欢的最糟糕。2023/6/7可编辑 65(3)协同作业1 两人合作,报酬相同为v。两人同时用力,代价为cl;只有一人用力,代价为ch。cl V ch2023/6/7可编辑 66(4)协同作业2 两人合作,给定一人的努力水平,另一人的收益随自己努力水平先增后减。收益函数:ui(ai)=ai(c+aj-ai),c0,ai=0(图?)最优反应函数:ai*(aj)=(c+aj)/2联立求Nash均衡得:a1=a2=c2023/6/7可编辑 67(5)Cournot寡头竞争模型 Cournot,1838,完全信息静态博弈。参与人:企业1和企业2;企业策略:选择产

24、量;支付:利润,是两个企业产量的函数。2023/6/7可编辑 68第i个企业的产量:成本函数:价格函数:第i个企业的利润函数:2023/6/7可编辑 69对每个企业的利润函数求导并令其等于零:分别定义了两个反应函数:结论:每个企业的最优战略(产量)是另一个企业产量的函数。2023/6/7可编辑 70两个反应函数的交叉点就是纳什均衡:2023/6/7可编辑 71考虑上述模型的简单情况:设,价格函数取线性形式:最优化的一阶条件分别为:2023/6/7可编辑 72反应函数为:解两个反应函数,得纳什均衡为:每个企业的纳什均衡利润分别为:2023/6/7可编辑 73与垄断情况作比较:垄断企业的问题:垄断

25、企业的最优产量:垄断利润:2023/6/7可编辑 74结论:(1)寡头竞争的总产量大于垄断产量的原因,在于每个企业在选择自己的最优产量时,只考虑对本企业利润的影响,而忽视对另一个企业的外部负效应。(2)易证明,双方串谋成立卡特尔是不稳定的,双方都有欺骗的动机。(?)2023/6/7可编辑 75(6)自学伯川德模型多党竞选;事故赔偿法;公共地悲剧;争议仲裁;合作性谈判;报案;专家诊断;2023/6/7可编辑 765.混合策略纳什均衡例:社会福利博弈(父母与懒惰儿子)参与人:政府;一个流浪汉政府策略:救济、不救济;流浪汉策略:找工作、流浪2023/6/7可编辑 77支付矩阵:流浪汉政府找工作 游荡

26、救济(3,2)(1,3)不救济(1,1)(0,0)2023/6/7可编辑 78假定:政府的混合策略 流浪汉的混合策略则政府的期望效用函数为:2023/6/7可编辑 79对上述效用函数求微分,得到政府最优化的一阶条件为:即,流浪汉以0.2的概率选择寻找工作,0.8的概率选择流浪。所以,如果,政府将选择不救济;如果,政府将选择救济;只有当时,政府才会选择混合策略()或任何纯策略。2023/6/7可编辑 80同理,求解流浪汉的最优化问题,即可找出政府的均衡混合战略。易知(?)纳什均衡要求,每个参与人的混合策略是给定对方的混合策略下的最优选择。因此,在社会福利博弈中,是唯一的纳什均衡。2023/6/7

27、812023/6/7可编辑 82例:监督博弈参与人:税收机关;纳税人税收机关策略:检查、不检查;纳税人策略:逃税、不逃税2023/6/7可编辑 83支付矩阵:a是应纳税款,C是检查成本,F是罚款;Ca+F。纳税人税收机关逃税 不逃税检查(a-C+F,-a-F)(a-C,-a)不检查(0,0)(a,-a)2023/6/7可编辑 84用代表税收机关检查的概率,代表纳税人逃税的概率。给定,税收机关检查(=1)和不检查(=0)的期望收益分别为:练习:本例与前例解法互换(?)2023/6/7可编辑 85令,得:,即最优的逃税概率。同理得。因此混合策略纳什均衡是:2023/6/7可编辑 86讨论:应纳税款

28、越多逃税概率越小;与逃税技术及检查成本有关;贿赂的积极性;提高逃税惩罚可降低逃税积极性,减少检查必要性。练习:解析法求前面图解法例子的最优混合策略(?)2023/6/7可编辑 876.纳什均衡的存在性与多重性纳什均衡的存在性定理(纳什1950)每一个有限博弈至少存在一个纳什均衡(纯的或混合的)。各均衡间的关系(下图)2023/6/7可编辑 882023/6/7可编辑 89纳什均衡的多重性:导致局中人一致预测困难;例:分蛋糕利用其它信息达到聚点均衡;例:性别战;赌徒分钱廉价磋商cheap talk;协调博弈coordination game;局中人学习,重复博弈中“平均”表现。2023/6/7可

29、编辑 90 III L RU(9,9)(0,0)D(0,0)(1,1)III L RU(9,9)(0,8)D(8,0)(7,7)2023/6/7可编辑 91第三讲完全信息动态博弈 1.博弈的扩展型表述2.扩展型博弈的纳什均衡3.子博弈精炼纳什均衡(完美均衡)4.寡头竞争模型 5.工会与雇主间的博弈 6.讨价还价模型 7.重复博弈2023/6/7可编辑 921.博弈的扩展型表述 extensive form representation要素:局中人:谁参加行动顺序:什么时候行动行动空间:有什么选择信息集:知道些什么支付函数:能得到什么自然选择概率:外生事件如何2023/6/7可编辑 93博弈树:

30、n 人 有 限 博 弈 的扩 展 型 表 述 可 用博弈树表示。例:房地产开发2023/6/7可编辑 94博弈树一般构造:结决策结、终点结;枝局中人的行动选择。信息集决策时面临的可能信息状态;由单个或多个决策结组成的集合;用虚线连接同一信息集的结。注:应用信息集概念,可将博弈树用来表示静态博弈(囚徒困境?)2023/6/7可编辑 952023/6/7可编辑 962023/6/7可编辑 972023/6/7可编辑 98信息类型完美perfect:每个信息集都是单结的。确定certain:自然不在任何一个参与人行动之后行动。对称symmetric:没有人在行动时或终点结处拥有与其它人不同的信息。完

31、全complete:自然不首先行动或它的最初行动被所有人观察到。博弈论 2023/6/7可编辑 99例:扑克牌游戏下注前行为规则。(1)所有牌洗成面朝上;(完美,确定)(2)所有牌洗成面朝下且不能看自己的牌;(不完全,对称,确定)(3)所有牌洗成面朝下且参与人只能看自己的牌;(不完全,不对称,确定)(4)所有牌洗成面朝上,但每个参与人随后都可以用手护住并悄悄丢掉一张牌;(完全,不对称,确定)博弈论 2023/6/7可编辑 100(5)所有牌洗成面朝上,然后参与人下注,然后每个人再得到一张面朝上的牌。(完美,不确定)(6)所有牌洗成面朝下,然后参与人抓起自己的牌但不看牌,然后把牌举过头顶让其它人

32、看清他的牌。(不完全,不对称,确定)博弈论 2023/6/7可编辑 101完美信息博弈特征:没有同时行动;所有后行动者确切知道前行动者的行动;所有人观测到自然的行动。博弈的完美回忆要求 perfect recall 所有人都不忘记以前知道的事情;所有人都不会忘记自己的选择。例:扑克游戏忘记前面所出牌的情形2023/6/7可编辑 1022.扩展型博弈的纳什均衡 纯策略纳什均衡例:市场小情况下的房地产开发2023/6/7可编辑 103AB 开,开 开,不开 不开,开 不开,不开开(-3,-3)(-3,-3)(1,0)(1,0)不开(0,1)(0,0)(0,1)(0,0)囚徒困境动态情况下的策略型?

33、2023/6/7可编辑 104分析:A的纯策略:开发、不开发;2个B的纯策略:共4个所有局中人的一个纯策略组合决定了博弈树的一个路径。(开发,不开发,开发):A开发B不开发(1,0)(不开发,开发,开发):A不开发B开发(0,1)2023/6/7可编辑 105存在三个纯策略纳什均衡:(开发,不开发,开发)(开发,不开发,不开发)(不开发,开发,开发)定理:一个有限完美信息博弈有一个纯策略纳什均衡。2023/6/7可编辑 106混合策略纳什均衡*:行为策略:信息集上行动集合的概率分布 例:2023/6/7可编辑 107参与人2纯策略:L,L,L,R,R,L,R,R行为策略:b2=(1/2,1/2

34、),(1/2,1/2)(在信息集每一个结点,局中人2以1/2的概率选择一种行动)混合策略:2(21,22,23,24)2023/6/7可编辑 108在信息集h:选择LL,L,L,R选择RR,L,R,R在信息集h:选择LL,L,R,L选择RL,R,R,R所以有2023/6/7可编辑 109解之得:2(1/4,1/4,1/4,1/4)2(1/2,0,0,1/2)2(0,1/2,1/2,0)结论:一个行为策略可能对应多个混合策略;但一个混合策略只对应一个行为策略。可证明:在完美信息博弈中,两者是等价的。2023/6/7可编辑 1103.子博弈精炼纳什均衡(完美均衡)基本思想:静态中假设其它人策略是给

35、定的动态中前行动者要考虑对后行动者的影响区分纳什均衡的合理性精炼refining不可置信威胁2023/6/7可编辑 111莱茵哈德泽尔腾Reinhard Selten 1930年出生于德国1961年获得法兰克福大学数学博士学位 1984年后任教于波恩大学子博弈精炼纳什均衡创立者1994年因在“非合作博弈理论中开创性的均衡分析”获诺贝尔经济学奖2023/6/7可编辑 112例:(U,R)与(D,L)的区别?12 L RU(2,2)(2,2)D(3,1)(0,0)2023/6/7可编辑 113例:房地产开发,唯一合理均衡:A:开发,B:不开发,开发2023/6/7可编辑 114子博弈:从一个单结信

36、息集开始;信息集和支付向量都直接继承自原博弈;(不可分割原博弈的信息集)任何博弈本身称为自身的一个子博弈。2023/6/7可编辑 115前例:包括原博弈,共有三个子博弈。2023/6/7可编辑 116无法再分割,子博弈只有本身一个。2023/6/7可编辑 117在第2局中人处不可分割(会切割原来的信息集),故此图只有两个子博弈。2023/6/7可编辑 118子博弈精炼纳什均衡 扩展型博弈的策略组合 s*=(s1*,.,si*,.,sn*)是一个子博弈精炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。2023/6/7可编辑 119说明:每一个子博弈(包括原博弈

37、)都构成一个纳什均衡;如果有唯一子博弈,则等同于纳什均衡;如果存在其它子博弈,则有些纳什均衡将不是。前例:两个子博弈;(D,L)是精炼均衡,(U,R)不是。前例:房地产投资2023/6/7可编辑 120与纳什均衡的本质区别:纳什均衡只要求均衡策略在均衡路径(历史)上的决策结上是最优的;子博弈精炼纳什均衡要求在非均衡路径的决策结上也是最优的。2023/6/7可编辑 1214.逆向归纳法 基本思想 重复剔除劣策略方法的推广。在均衡路径,每一个局中人在每一个信息集上的选择都是占优选择。适用于有限完美信息博弈不适用于无限博弈和不完美信息博弈。2023/6/7可编辑 122例:(U,U,L)2023/6

38、/7可编辑 123逆向归纳法的缺陷在阶段多时失去可靠性。例如:传口令游戏 对意外事件的预测。Rosenthal 1981 1 A1 2 A2 1 A3 2 A4 1 A5D1D2D3D4D5(1,0)(0,1)(3,0)(2,4)(6,3)(5,5)2023/6/7可编辑 124分析:逆向归纳法Di为最优选择;如果1非理性地选择A1,则2如何选择?大家均非理性会有双赢结果,是否应该冒险?2023/6/7可编辑 1255.承诺行动 commitment通过减少自己的选择机会使自己受益。完全承诺与不完全承诺。例:破釜沉舟 例:房地产案例 若B与某客户已签合同,如不能履约赔偿3500万,则B的开发,

39、开发成为可置信的威胁。子博弈精炼纳什均衡为(不开发,开发,开发)2023/6/7可编辑 126例:要胁诉讼:原告P,被告D(1)原告决定是否对被告提出控告,成本为c0;(2)如果决定控告,原告要求被告支付s0私了;(3)被告决定是否接受原告的要求;(4)如果被告拒绝,原告决定放弃或是向法庭起诉,原告的起诉成本为p,被告的辩护成本为d;(5)如果案子到了法庭,原告以 概率赢得x单位的支付.2023/6/7可编辑 127提出s2023/6/7可编辑 128分析:原告指控条件:x-p0,即xp原告选择:不指控,要求,放弃被告选择:拒绝均衡:原告不指控2023/6/7可编辑 129原告承诺行动:指控前

40、支付律师费,则xcpcp。最后选择:起诉。私了赔偿:私了赔偿区域为sx,x+d。若讨价还价能力相同,则赔偿为s=x+d/2。2023/6/7可编辑 130原告指控条件:原告总成本为c+p,指控条件为x+d/2c+p。被告越大,d越大,被指控可能性就越大。被告承诺行动:指控前支付律师费y。被告节省成本x+d/2y,律师费yx+d/2“积淀成本”:局中人为承诺行动支付的成本。2023/6/7可编辑 131 6.应用实例(1)Stackelberg产量竞争模型 Stackelberg,1934,完美信息动态博弈。Leader:q10,follower:观测到q1,选择q202023/6/7可编辑 1

41、32给定q1,企业2的问题是:最优化:企业1预测到S2(q1),企业1的问题是:解:均衡:;均衡结果:2023/6/7可编辑 133比较分析:总产量:各企业产量及利润:2023/6/7可编辑 134结论:先动优势 拥有信息优势使人处于劣势(可以证明:价格竞争有后动优势)原因:q1先生产积淀成本若q1只是宣布,未真正实现,则不构成威胁,即是cournot 模型。2023/6/7可编辑 135(2)工会与雇主间的博弈*列昂惕夫模型 Leontief 1946博弈的顺序:工会首先选择工资w;企业观测到w后选择就业水平L。(工会决定工资,企业决定就业水平。)因此,这是个完美信息动态博弈。2023/6/

42、7可编辑 136设工会的效用函数为:U(w,L),w工资水平,L就业水平,Uw0,UL0 设企业的利润函数为:假定R(L)是严格递增的上凸函数,即R0,R”0 2023/6/7可编辑 137首先求解给定w的情况下,企业的就业需求。企业问题:最优化的一阶条件是:即边际收益等于边际成本。边际收益是递减的,上述一阶条件意味着企业对劳动的需求是工资的递减函数(w,L)。2023/6/7可编辑 138工会预测到上述结果,工会在第一阶段的问题是:最优化的一阶条件是:其中,是工会的边际替代率;是企业劳动需求曲线的斜率。2023/6/7可编辑 139合同曲线工会的无差异曲线企业的等利润曲线2023/6/7可编

43、辑 140均衡:工会选择工资水平使得自己的无差异曲线与企业的劳动需求曲线相切。子博弈精炼纳什均衡结果是非帕累托最优。帕累托最优合同曲线:即企业等利润曲线的斜率等于工会无差异曲线的斜率(相切)。2023/6/7可编辑 141模型改进:纳什讨价还价模型假定工会和企业之间就工资和就业水平同时进行磋商,如果双方不能达成协议,工会的效用水平和企业的利润水平都为零;如果双方达成协议,工会的效用水平为U(w,L),企业的利润为(w,L)。纳什讨价还价问题:2023/6/7可编辑 142最优解的一阶条件是:整理得:显然,这个解是一个帕累托最优合同。2023/6/7可编辑 143(3)讨价还价模型 不存在耐心问

44、题 例:两人为买卖一物谈判一个价格。买者B最高出价300元,卖者S不接受低于200元的开价。不存在耐心问题:轮次少,时间短,不存在时间价值。2023/6/7可编辑 144B2023/6/7可编辑 145特点:“后动优势”;“几乎吃掉整个蛋糕”另:若由B开价,只进行一次,则(200)元成交。决定因素:谁最后开价;开价轮次数。2023/6/7可编辑 146不耐心的情形 轮次开价者S,B均3%S 6%,B 3%S盈余 B盈余 S盈余 B盈余100S100 0 100 099 B 97 3 94 698 S 97.09 2.91 94.18 5.8297 B 94.18 5.82 88.53 11.4

45、7例:100轮次。每轮要支付成本。2023/6/7可编辑 147轮次开价者S,B均3%S 6%,B 3%S盈余 B盈余 S盈余 B盈余.5 B 32.78 67.224 S 34.80 65.203 B 51.80 48.20 32.71 67.292 S 53.25 46.75 34.73 65.271 B 51.65 48.35 32.65 67.35耐心相同:5050;耐心之比:利益之比2023/6/7可编辑 148 一般模型Rubinstein-Stahl讨价还价模型 定理:给定S、B双方,B第一次开价,次数无限,贴现因子0B1,0S1,当拒绝与接受无所谓,认为接受,则存在唯一子博弈完

46、美均衡。(贴现因子1耐心成本因子)B首轮开价2023/6/7可编辑 149注:若,则 例:若B=0.97,S=0.94,x*=(1-0.94)/(1-0.940.97)=0.674;若B=S=0.97 x*=1/(1+0.97)=0.508结论:取决于两个因素折扣因子(耐心程度):耐心回报谁先行动:先动优势2023/6/7可编辑 150问题:独裁者dictator博弈:当政者与平头百姓金钱分配。有限次,最后一次为当政者。当政者不会利用后动优势。存在其它支付标准(价值)。2023/6/7可编辑 151最后通牒ultimatum博弈:双方金钱分配,第一人提出,第二人接受或拒绝。第二人不完全理性:宁

47、可(0,0),拒绝+厌恶盈利差距。合理结局:五五开?2023/6/7可编辑 152(4)自学 Stackelberg产量竞争模型 收买选票;赛跑;开放式基金;国际贸易与关税;工作竞赛;退出衰落行业2023/6/7可编辑 1537.重复博弈repeated games基本概念 相同的博弈长期中不断重复。阶段博弈之间没有“物质”上的联系,即不改变下一阶段结构。所有局中人都观测到过去的历史。局中人总支付是所有阶段支付贴现值之和或加权平均值。2023/6/7可编辑 154连锁店悖论 chain-store paradox,Selton,1978有限次重复博弈。市场进入问题:有20个同样市场猜想:为阻止

48、进入者进入其它19个市场,在位者选择“斗争”?子博弈完美均衡:每一个市场都选择“默许”2023/6/7可编辑 155定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T)。那么,如果G有唯一的纳什均衡,G(T)的唯一子博弈精炼纳什均衡结果是G的纳什均衡重复T次。2023/6/7可编辑 156无限次重复 例:囚徒困境问题(P6)冷酷grim策略(触发策略):(1)开始选择不认罪;(2)选择不认罪直到有一方选择认罪,然后永远选择认罪。2023/6/7可编辑 157设:为贴现因子(两人相同)给定j坚持冷酷策略没有首先选择认罪,则i不认罪的条件为:0+(-5)+2(-5)+.-1+(-1)+2(-

49、1)或-5/(1-)-1/(1-),解之得:*1/52023/6/7可编辑 158不难看出:即使j首选选择了认罪,i将坚持冷酷策略以惩罚j的不合作行为。所以:冷酷战略为纳什均衡。子博弈:类型A:没有任何局中人曾经认罪,冷酷战略为纳什均衡;类型B:至少有一人曾经认罪,冷酷战略重复单阶段纳什均衡,也是整个子博弈的纳什均衡。2023/6/7可编辑 159结论:若*1/5(局中人足够耐心),则冷酷策略为无限次囚徒困境问题的子博弈精炼纳什均衡。此时帕累托最优(不认罪,不认罪)成为每一个阶段的均衡结果。困境解决!其它策略:有限惩罚策略,一报还一报策略2023/6/7可编辑 160无名氏定理(Friedman 1971):令G为一个n人阶段博弈,G(,)为以G为阶段博弈的无限次重复博弈,a*是G的一个纳什均衡(纯策略或混合策略),e=(e1,e2,.,en)是a*决定的支付向量,v=(v1,v2,.,vn)是一个任意可行的支付向量,V是可行支付向量集合。那么,对于任何满足viei的vV(i),存在一个贴现因子*1,使得对于所有*,v=(v1,v2,.,vn)是一个特定的子博弈精炼纳什均衡结果。2023/6/7可编辑 161说明:a*为v的惩罚点,或纳什威胁点Nash threat point。由于害怕触发阶段纳什均衡,局中人有积极性保持合作并乐于惩罚机会主义行为。2023/6/7162

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

© 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

黑龙江省互联网违法和不良信息举报
举报电话:0468-3380021 邮箱:hgswwxb@163.com