北京大学博弈论课件第3章-完全信息动态博弈讲课稿.ppt-得力文库

资源描述

《北京大学博弈论课件第3章-完全信息动态博弈讲课稿.ppt》由会员分享，可在线阅读，更多相关《北京大学博弈论课件第3章-完全信息动态博弈讲课稿.ppt（62页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、北京大学博弈论课件第北京大学博弈论课件第3 3章章-完全信息动态博弈完全信息动态博弈v在完全信息动态博弈中，博弈参与者的行动存在先在完全信息动态博弈中，博弈参与者的行动存在先后顺序。后顺序。v可以用博弈树表示完全信息动态博弈。可以用博弈树表示完全信息动态博弈。v可以通过逆向归纳法求解完全信息动态博弈的子博可以通过逆向归纳法求解完全信息动态博弈的子博弈精炼纳什均衡，剔除不可置信的威胁。弈精炼纳什均衡，剔除不可置信的威胁。第一节第一节完全信息动态博弈概述完全信息动态博弈概述v一、完全信息动态博弈的定义一、完全信息动态博弈的定义在完全信息静态博弈中，博弈参与者同时采取行动。但在在完全信息静态博弈

2、中，博弈参与者同时采取行动。但在完全信息动态博弈中，博弈参与者的行动存在先后顺序。完全信息动态博弈中，博弈参与者的行动存在先后顺序。从信息角度上，完全信息动态博弈与完全信息静态博弈类从信息角度上，完全信息动态博弈与完全信息静态博弈类似，博弈参与者对博弈结构、博弈顺序、双方收益等信息似，博弈参与者对博弈结构、博弈顺序、双方收益等信息都具备完全了解。都具备完全了解。二、博弈树二、博弈树v在动态博弈中，由于博弈参与者的行动存在先后顺序，因在动态博弈中，由于博弈参与者的行动存在先后顺序，因此可以用更形象的方法来表示动态博弈：博弈树（此可以用更形象的方法来表示动态博弈：博弈树（Game Tree）。）。

3、v通过支付矩阵的形式表示的博弈通常被称为策略型或正则通过支付矩阵的形式表示的博弈通常被称为策略型或正则型博弈（型博弈（Normal Form Game）。）。v通过博弈树表示的博弈通常被称为扩展型博弈通过博弈树表示的博弈通常被称为扩展型博弈（Extensive Form Game）。）。v动态市场争夺战博弈的扩展型表达方式如图所示动态市场争夺战博弈的扩展型表达方式如图所示“市场争夺战市场争夺战”博弈的扩展型表达形式博弈的扩展型表达形式1博弈树的构成要素博弈树的构成要素v（1）博弈参与者）博弈参与者v（2）行动顺序：在动态博弈中，博弈参与者的行动存在先后次序。）行动顺序：在动态博弈中，博弈参与者

4、的行动存在先后次序。v（3）行动策略空间（）行动策略空间（Action Set）：指博弈参与者可以采取的所有）：指博弈参与者可以采取的所有可能策略。可能策略。v（4）信息集（）信息集（Information Set）：指博弈参与者在博弈过程中）：指博弈参与者在博弈过程中所知道的信息。所知道的信息。v（5）支付函数指博弈参与者采用特定策略与所能得到的收益之间的）支付函数指博弈参与者采用特定策略与所能得到的收益之间的关系。关系。2博弈树的结构博弈树的结构v（1）博弈树的构造方法）博弈树的构造方法n首先行动的一方位于博弈树的最上端，根据动态博弈过程中各方的行首先行动的一方位于博弈树的最上端，根据动态

5、博弈过程中各方的行动顺序，博弈数自上至下延展。也有学者习惯自左至右构造博弈树。动顺序，博弈数自上至下延展。也有学者习惯自左至右构造博弈树。横向博弈树横向博弈树v博弈树中包含若干博弈树中包含若干“节点节点”，节点用小圆圈表示。，节点用小圆圈表示。v位于博弈树最上端的节点称为位于博弈树最上端的节点称为“初始节点初始节点”。v初始节点用空心小圆圈表示，其他节点均用实心小圆圈表示。初始节点用空心小圆圈表示，其他节点均用实心小圆圈表示。v在每个节点处均对应某个博弈参与者，将节点对应的博弈参与者标识在节在每个节点处均对应某个博弈参与者，将节点对应的博弈参与者标识在节点旁边。点旁边。v例如：在例如：在“市场

6、争夺战市场争夺战”博弈中，因为潜在进入者先行动，因此初始节点博弈中，因为潜在进入者先行动，因此初始节点处对应的博弈参与者为潜在进入者。处对应的博弈参与者为潜在进入者。v将潜在进入者标识在博弈树初始节点旁边。将潜在进入者标识在博弈树初始节点旁边。v当潜在进入者决策之后，轮到在位者进行决策。当潜在进入者决策之后，轮到在位者进行决策。v在位者所在的节点称为在位者所在的节点称为“后续节点后续节点”。在位者位于两个后续节点上。在位者位于两个后续节点上。v在位者都有两种策略选择：在位者都有两种策略选择：“斗争斗争”和和“默许默许”。v如果初始节点处的博弈参与者存在如果初始节点处的博弈参与者存在 N 种策略

7、，那么就从初始节点种策略，那么就从初始节点处分出处分出 N 条路径。条路径。v路径用线段表示。在线段旁注明相应的策略。路径用线段表示。在线段旁注明相应的策略。v在在“市场争夺战市场争夺战”博弈中，首先行动的潜在进入者可以采取两种策博弈中，首先行动的潜在进入者可以采取两种策略：略：“不进入不进入”和和“进入进入”。因此，从初始节点处引出两条线段，。因此，从初始节点处引出两条线段，在两条线段旁分别标识在两条线段旁分别标识“不进入不进入”和和“进入进入”。v当潜在进入者选择结束后，达到在位者的节点。当潜在进入者选择结束后，达到在位者的节点。v在位者有两个选择：在位者有两个选择：“斗争斗争”和和“默许

8、默许”。v因此，从在位者的节点处引出两条线段，在两条线段旁分别标识因此，从在位者的节点处引出两条线段，在两条线段旁分别标识“斗争斗争”和和“默许默许”。v当博弈不再有后续节点时，需要将博弈的收益标识在博弈当博弈不再有后续节点时，需要将博弈的收益标识在博弈树末端。树末端。v将博弈参与者的收益放在括号里。将博弈参与者的收益放在括号里。v需要注意的是：各博弈参与者的收益需要按照各参与者行需要注意的是：各博弈参与者的收益需要按照各参与者行动顺序进行排列。动顺序进行排列。v先行动的博弈参与者的收益写在左边，依次类推，从左到先行动的博弈参与者的收益写在左边，依次类推，从左到右，最后行动的博弈参与者的收益写

9、在最右边。右，最后行动的博弈参与者的收益写在最右边。v各个博弈参与者的收益之间用逗号分割。各个博弈参与者的收益之间用逗号分割。v（2）博弈树与博弈顺序）博弈树与博弈顺序n博弈树各节点之间存在顺序关系，博弈树由上至下的节点顺序表示各博弈树各节点之间存在顺序关系，博弈树由上至下的节点顺序表示各博弈参与者进行决策的顺序。博弈参与者进行决策的顺序。v从博弈树的节点可以引出多条线段，但不能从博弈树多个节点共同到达博从博弈树的节点可以引出多条线段，但不能从博弈树多个节点共同到达博弈树下方同一个后续节点。弈树下方同一个后续节点。错误的博弈树构造方法错误的博弈树构造方法v正确的博弈树构造方法正确的博弈树构造方

10、法正确的博弈树构造方法正确的博弈树构造方法v构造博弈树时只能按照由上至下的路径，而不能存在由下构造博弈树时只能按照由上至下的路径，而不能存在由下向上的路径，也不能形成循环路径。向上的路径，也不能形成循环路径。v回溯路径唯一性在求解完全信息动态博弈时非常重要。回溯路径唯一性在求解完全信息动态博弈时非常重要。v因为在求解动态博弈均衡时，一个很重要的方法是因为在求解动态博弈均衡时，一个很重要的方法是“逆向逆向归纳法（归纳法（Backward Induction）”。v只有首先确保从博弈树任何最终节点向上回溯时路径唯一，只有首先确保从博弈树任何最终节点向上回溯时路径唯一，才能确保逆向归纳法的可操作性。

11、才能确保逆向归纳法的可操作性。v正确的博弈树构造方法正确的博弈树构造方法正确的博弈树构造方法正确的博弈树构造方法v错误的博弈树构造方法错误的博弈树构造方法错误的博弈树构造方法错误的博弈树构造方法三、信息集与三人罢工博弈三、信息集与三人罢工博弈v在完全信息动态博弈中，如果将博弈树的多个节点用虚线在完全信息动态博弈中，如果将博弈树的多个节点用虚线连接起来，表明这多个节点位于同一个博弈信息集中。连接起来，表明这多个节点位于同一个博弈信息集中。v也就是说：博弈参与者不知道自己位于同一个信息中的哪也就是说：博弈参与者不知道自己位于同一个信息中的哪个博弈节点上。个博弈节点上。v可以通过可以通过“三人罢工博

12、弈三人罢工博弈”来说明信息集的含义以及信息来说明信息集的含义以及信息集在动态博弈中的重要性。集在动态博弈中的重要性。1三人罢工博弈的定义三人罢工博弈的定义三人罢工博弈的博弈树三人罢工博弈的博弈树2三人罢工博弈的策略选择与信息三人罢工博弈的策略选择与信息员工员工 2 只有一个信息集的博弈树只有一个信息集的博弈树员工员工 3 不能观察到员工不能观察到员工 2 的决策策略的决策策略员工员工 3 不知道员工不知道员工 1 的决策策略的决策策略员工员工 3 不知道员工不知道员工 1 和员工和员工 2 的决策策略的决策策略三名员工都只有一个信息集的博弈三名员工都只有一个信息集的博弈四、博弈树与静态博弈四、

13、博弈树与静态博弈v博弈树的方法不仅能表示动态博弈，还能表示静态博弈。博弈树的方法不仅能表示动态博弈，还能表示静态博弈。v所谓的所谓的“博弈先后顺序博弈先后顺序”，它主要是一个信息的概念，而不，它主要是一个信息的概念，而不是一个纯时间先后的概念。是一个纯时间先后的概念。用博弈树表示囚徒困境用博弈树表示囚徒困境v下面三种博弈表达方式所表达的博弈内涵相同下面三种博弈表达方式所表达的博弈内涵相同嫌疑人乙嫌疑人乙坦白坦白不坦白不坦白嫌疑人甲嫌疑人甲坦白坦白（5，5）（1，10）不坦白不坦白（10，1）（2，2）第二节第二节完全且完美信息动态博弈概述完全且完美信息动态博弈概述v在完全且完美信息动态博弈（

14、在完全且完美信息动态博弈（Dynamic Game with Perfect and Complete Information）中，每个博弈参与者均知道）中，每个博弈参与者均知道在自己之前进行决策的参与者选择的策略和博弈结构。在自己之前进行决策的参与者选择的策略和博弈结构。v博弈树中每个节点都独立构成一个信息集，没有虚线连接两个或博弈树中每个节点都独立构成一个信息集，没有虚线连接两个或多个博弈树节点。多个博弈树节点。v求解完全且完美信息动态博弈的重要方法之一是：逆向归纳法。求解完全且完美信息动态博弈的重要方法之一是：逆向归纳法。v可以通过可以通过“海盗分宝博弈海盗分宝博弈”这个生动有趣的故事对

15、这个生动有趣的故事对“逆向归纳法逆向归纳法”进行一个直观介绍。进行一个直观介绍。一、海盗分宝博弈一、海盗分宝博弈v1海盗分宝博弈的规则海盗分宝博弈的规则v五个海盗首先进行抽签，确定决策顺序。五个海盗首先进行抽签，确定决策顺序。v五个海盗按照决策顺序依次提出对五个海盗按照决策顺序依次提出对 100 个金币的分配方案。个金币的分配方案。v第一个海盗提出一个分配方案，如超过半数的海盗（包括提出分第一个海盗提出一个分配方案，如超过半数的海盗（包括提出分配方案的海盗）同意第一个海盗的分配方案，即大于等于配方案的海盗）同意第一个海盗的分配方案，即大于等于 3 名海名海盗同意第一个海盗的分配方案时，那么该方

16、案被通过，博弈结束。盗同意第一个海盗的分配方案时，那么该方案被通过，博弈结束。v如果第一个海盗提出的分配方案没有得到超过半数海盗的同意，如果第一个海盗提出的分配方案没有得到超过半数海盗的同意，那么第一个海盗将被扔到海里喂鲨鱼。那么第一个海盗将被扔到海里喂鲨鱼。v接下来由第二个海盗提出分配方案，如果超过半数的海盗同意第接下来由第二个海盗提出分配方案，如果超过半数的海盗同意第二个海盗的分配方案时，那么该方案被通过，博弈结束。二个海盗的分配方案时，那么该方案被通过，博弈结束。v如果第二个海盗提出的分配方案没有得到超过半数海盗的同意，如果第二个海盗提出的分配方案没有得到超过半数海盗的同意，那么第二个海

17、盗也将被扔到海里喂鲨鱼。那么第二个海盗也将被扔到海里喂鲨鱼。v接下来由第三个海盗提出分配方案，如果超过半数的海盗，即大接下来由第三个海盗提出分配方案，如果超过半数的海盗，即大于等于于等于 2 名海盗，同意第三个海盗的分配方案时，那么该方案被名海盗，同意第三个海盗的分配方案时，那么该方案被通过，博弈结束。通过，博弈结束。v如果第三个海盗提出的分配方案没有得到超过半数海盗的同意，如果第三个海盗提出的分配方案没有得到超过半数海盗的同意，那么第三个海盗也将被扔到海里喂鲨鱼。那么第三个海盗也将被扔到海里喂鲨鱼。v接下来由第四个海盗提出分配方案。如果超过半数的海盗同意第接下来由第四个海盗提出分配方案。如果

18、超过半数的海盗同意第四个海盗的分配方案时，那么该方案被通过，博弈结束。四个海盗的分配方案时，那么该方案被通过，博弈结束。v如果第四个海盗提出的分配方案没有得到超过半数海盗的同意，如果第四个海盗提出的分配方案没有得到超过半数海盗的同意，那么第四个海盗也将被扔到海里喂鲨鱼。那么第四个海盗也将被扔到海里喂鲨鱼。v这时就只剩下第五个海盗了，第五个海盗将独吞抢劫来的这时就只剩下第五个海盗了，第五个海盗将独吞抢劫来的100个个金币，博弈结束。金币，博弈结束。v在这种分配规则下，第一个海盗将提出怎样的分配方案？在这种分配规则下，第一个海盗将提出怎样的分配方案？v第一个海盗提出的分配方案需要满足两个条件。第一

19、个海盗提出的分配方案需要满足两个条件。n第一，保证超过半数的海盗同意第一个海盗的分配方案。第一，保证超过半数的海盗同意第一个海盗的分配方案。n第二：第一个海盗最大化自己能分到的金币。第二：第一个海盗最大化自己能分到的金币。v如果直接从第一个海盗的决策策略入手，此问题相对复杂。如果直接从第一个海盗的决策策略入手，此问题相对复杂。v不妨从第五个海盗入手，然后按照从后向前的顺序依次逆向考察不妨从第五个海盗入手，然后按照从后向前的顺序依次逆向考察海盗的策略选择。海盗的策略选择。2求解海盗分宝博弈的均衡求解海盗分宝博弈的均衡v第一个海盗将提出怎样的分配方案？此分配方案在保证能得到超第一个海盗将提出怎样的

20、分配方案？此分配方案在保证能得到超过半数海盗同意的前提下应最大化第一个海盗的利益。过半数海盗同意的前提下应最大化第一个海盗的利益。轮次轮次分配方案提出者分配方案提出者分配方案分配方案最后一轮最后一轮海盗海盗5自己独吞全部自己独吞全部100个金币个金币倒数第二轮倒数第二轮海盗海盗4任何分配方案都得不到通过任何分配方案都得不到通过倒数第三轮倒数第三轮海盗海盗3分分配配给给第第三三个个海海盗盗100个个金金币币，第第四四个个海海盗盗0个金币，第五个海盗个金币，第五个海盗0个金币。个金币。倒数第四轮倒数第四轮海盗海盗2分分配配给给自自己己98个个金金币币，第第三三个个海海盗盗0个个金金币币，第第四四个

21、个海海盗盗1个个金金币币、第第5个个海海盗盗1个个金币。金币。通过逆向归纳法推导出的财宝分配方案通过逆向归纳法推导出的财宝分配方案3海盗分宝博弈的均衡海盗分宝博弈的均衡v第一个海盗的分配方案可以有两种。第一个海盗的分配方案可以有两种。v分配方案分配方案 1：分配给自己：分配给自己 97 个金币，给第二个海盗个金币，给第二个海盗 0 个金币，给第个金币，给第三个海盗三个海盗 1 个金币，给第四个海盗个金币，给第四个海盗 2 个金币，给第五个海盗个金币，给第五个海盗 0 个金币。个金币。v分配方案分配方案 2：分配给自己：分配给自己 97 个金币，给第二个海盗个金币，给第二个海盗 0 个金币，给第

22、个金币，给第三个海盗三个海盗 1 个金币，给第四个海盗个金币，给第四个海盗 0 个金币，给第五个海盗个金币，给第五个海盗 2 个金币。个金币。v如果第一个海盗提出分配方案如果第一个海盗提出分配方案 1，那么第二个海盗和第五个海盗将反对，那么第二个海盗和第五个海盗将反对，而第一个、第三个和第四个海盗将同意，因此第一个海盗的提议将获得而第一个、第三个和第四个海盗将同意，因此第一个海盗的提议将获得通过。通过。v如果第一个海盗提出分配方案如果第一个海盗提出分配方案 2，那么第二个海盗和第四个海盗将反对，那么第二个海盗和第四个海盗将反对，而第一个、第三个和第五个海盗将同意，因此第一个海盗的提议将获得而第

23、一个、第三个和第五个海盗将同意，因此第一个海盗的提议将获得通过。通过。二、扩展形式博弈的策略表达方式二、扩展形式博弈的策略表达方式v1将扩展形式的博弈改写为策略形式将扩展形式的博弈改写为策略形式动态博弈的扩展表达形式动态博弈的扩展表达形式参与者参与者2UV参与者参与者1L（a1，b1）（a2，b2）R（a3，b3）（a4，b4）错误的动态博弈策略表达形式错误的动态博弈策略表达形式参与者参与者2（U，U）（U，V）（V，U）（V，V）参与者参与者1L（a1，b1）（a1，b1）（a2，b2）（a2，b2）R（a3，b3）（a4，b4）（a3，b3）（a4，b4）动态博弈的策略表达形式动态博弈的策

24、略表达形式参与者参与者2(U,U,U)(U,U,V)(U,V,U)(U,V,V)(V,U,U)(V,U,V)(V,V,U)(V,V,V)参与参与者者1L（a1,b1）（a1,b1）（a1,b1）（a1,b1）（a2,b2）（a2,b2）（a2,b2）（a2,b2）M（a3,b3）（a3,b3）（a4,b4）（a4,b4）（a3,b3）（a3,b3）（a4,b4）（a4,b4）R（a5,b5）（a6,b6）（a5,b5）（a6,b6）（a5,b5）（a6,b6）（a5,b5）（a6,b6）动态博弈的扩展表达形式动态博弈的扩展表达形式动态博弈的策略表达形式动态博弈的策略表达形式2扩展形式转化为策略

25、形式时的规律扩展形式转化为策略形式时的规律v参与者参与者 1 的纯策略空间为：的纯策略空间为：v参与者参与者 2 的纯策略空间为：的纯策略空间为：v参与者参与者 3 的纯策略空间为：的纯策略空间为：v参与者参与者 2 的纯策略空间为：的纯策略空间为：v参与者参与者 1 的纯策略空间为：的纯策略空间为：第三节第三节子博弈与逆向归纳法子博弈与逆向归纳法v在图中，用虚线框起来的部分称作一个子博弈（在图中，用虚线框起来的部分称作一个子博弈（Sub-Game）。）。一、子博弈一、子博弈v子博弈是原始动态博弈的一部分。子博弈包含博弈所需的各子博弈是原始动态博弈的一部分。子博弈包含博弈所需的各种信息，能独

26、立构成一个博弈。种信息，能独立构成一个博弈。v一个博弈的子博弈需要满足四个条件。一个博弈的子博弈需要满足四个条件。v1子博弈的起始节点不能是原来博弈的起始节点子博弈的起始节点不能是原来博弈的起始节点v2子博弈不能分割信息集子博弈不能分割信息集v3有些博弈包含多个子博弈有些博弈包含多个子博弈v4有些博弈没有子博弈有些博弈没有子博弈二、逆向归纳法二、逆向归纳法v1逆向归纳法的定义和求解方法逆向归纳法的定义和求解方法逆向归纳法指：在求解动态博弈时，首先找到博弈顺序逆向归纳法指：在求解动态博弈时，首先找到博弈顺序在最后的子博弈，找到子博弈中博弈参与者的策略选择，在最后的子博弈，找到子博弈中博弈参与者

27、的策略选择，然后按博弈顺序由后向前逆向归纳，直至博弈树的初始节然后按博弈顺序由后向前逆向归纳，直至博弈树的初始节点，从而找到博弈的均衡。点，从而找到博弈的均衡。v1逆向归纳法的定义和求解方法逆向归纳法的定义和求解方法逆向归纳法指：在求解动态博弈时，首先找到博弈顺序逆向归纳法指：在求解动态博弈时，首先找到博弈顺序在最后的子博弈，找到子博弈中博弈参与者的策略选择，在最后的子博弈，找到子博弈中博弈参与者的策略选择，然后按博弈顺序由后向前逆向归纳，直至博弈树的初始节然后按博弈顺序由后向前逆向归纳，直至博弈树的初始节点，从而找到博弈的均衡。点，从而找到博弈的均衡。2通过逆向归纳法求解博弈均衡实例通过逆

28、向归纳法求解博弈均衡实例三、斯塔贝尔伯格寡头博弈三、斯塔贝尔伯格寡头博弈v斯塔贝尔伯格博弈（斯塔贝尔伯格博弈（Stackelberg Duopoly Game）是寡头博弈的一种常见形式，是一种完全信息动态博弈。是寡头博弈的一种常见形式，是一种完全信息动态博弈。v1斯塔贝尔伯格寡头博弈的定义斯塔贝尔伯格寡头博弈的定义斯塔贝尔伯格寡头博弈：市场中有两个厂商。厂商斯塔贝尔伯格寡头博弈：市场中有两个厂商。厂商 1 先先行动，选择自身产量。厂商行动，选择自身产量。厂商 2 观察到厂商观察到厂商 1 选择的产量选择的产量后，再决策自己的产量。厂商后，再决策自己的产量。厂商 1 通常被称为领先者，厂通常被

29、称为领先者，厂商商 2 通常被称为跟随者。通常被称为跟随者。2求解斯塔贝尔伯格寡头博弈求解斯塔贝尔伯格寡头博弈v根据逆向归纳法，首先考虑厂商根据逆向归纳法，首先考虑厂商 2 如何选择自己的产量如何选择自己的产量.v作为领先者，厂商作为领先者，厂商 1 在决定自己的产量时会考虑自己的决在决定自己的产量时会考虑自己的决策产量对厂商策产量对厂商 2 的影响。的影响。v求解得到：求解得到：v作为领先者的厂商作为领先者的厂商 1 的产量为：的产量为：v作为跟随者的厂商作为跟随者的厂商 2 的产量为：的产量为：3古诺寡头博弈与斯塔贝尔伯格寡头博弈古诺寡头博弈与斯塔贝尔伯格寡头博弈v在古诺寡头博弈中，市场需

30、求函数和厂商成本函数与斯塔在古诺寡头博弈中，市场需求函数和厂商成本函数与斯塔贝尔伯格博弈均相同。贝尔伯格博弈均相同。v二者的主要区别是：在古诺寡头博弈中，两家厂商同时进二者的主要区别是：在古诺寡头博弈中，两家厂商同时进行决策，是一个完全信息静态博弈。行决策，是一个完全信息静态博弈。v在斯塔贝尔伯格寡头博弈中，厂商在斯塔贝尔伯格寡头博弈中，厂商 1 先行动，厂商先行动，厂商 2 后行后行动，是一个完全信息动态博弈。动，是一个完全信息动态博弈。v古诺寡头博弈的均衡是：古诺寡头博弈的均衡是：v斯坦贝尔伯格寡头博弈的均衡是：斯坦贝尔伯格寡头博弈的均衡是：斯塔贝尔博弈寡头博弈均衡示意图斯塔贝尔博弈寡头博

31、弈均衡示意图第四节第四节子博弈精炼纳什均衡子博弈精炼纳什均衡v泽尔滕（泽尔滕（Selten）在）在 1965 年提出了年提出了“子博弈精炼纳什均衡子博弈精炼纳什均衡（Subgame Perfect Nash Equilibrium）”的概念。的概念。v子博弈精炼纳什均衡也被称为子博弈完美纳什均衡。子博弈精炼纳什均衡也被称为子博弈完美纳什均衡。v子博弈精炼纳什均衡与纳什均衡不同。子博弈精炼纳什均衡与纳什均衡不同。v纳什均衡要求：给定其他参与者在均衡处的策略，任何一方博纳什均衡要求：给定其他参与者在均衡处的策略，任何一方博弈参与者在均衡处选择的策略都是自己所能选择的最优策略，弈参与者在均衡处选择

32、的策略都是自己所能选择的最优策略，没有博弈参与者有动机改变自己在均衡时的策略。没有博弈参与者有动机改变自己在均衡时的策略。v子博弈精炼纳什均衡不仅要求均衡解是纳什均衡，而且要求均子博弈精炼纳什均衡不仅要求均衡解是纳什均衡，而且要求均衡解在每一个信息集上都是最优解。衡解在每一个信息集上都是最优解。一、子博弈精炼纳什均衡的含义一、子博弈精炼纳什均衡的含义v通过逆向归纳法求解博弈树得到的均衡是子博弈精炼纳什均衡。通过逆向归纳法求解博弈树得到的均衡是子博弈精炼纳什均衡。v纳什均衡仅需要在均衡处，每个博弈参与者没有动机改变自己纳什均衡仅需要在均衡处，每个博弈参与者没有动机改变自己的策略。的策略。v子博弈

33、纳什均衡不仅要求均衡满足纳什均衡要求的条件，还要子博弈纳什均衡不仅要求均衡满足纳什均衡要求的条件，还要求在动态博弈中，此均衡是每个子博弈的最优解。求在动态博弈中，此均衡是每个子博弈的最优解。v也就是说：纳什均衡只对均衡处的策略有要求。也就是说：纳什均衡只对均衡处的策略有要求。v子博弈精炼纳什均衡不仅对均衡处的策略有要求，而且对到达子博弈精炼纳什均衡不仅对均衡处的策略有要求，而且对到达均衡的路径有要求。要求从博弈初始节点开始，博弈参与者到均衡的路径有要求。要求从博弈初始节点开始，博弈参与者到达均衡处所经过的路径也必须是最优的。达均衡处所经过的路径也必须是最优的。v在在“市场争夺战市场争夺战”博弈

34、中，如果在位者选择博弈中，如果在位者选择“斗争斗争”，那么潜，那么潜在进入者会选择在进入者会选择“不进入不进入”。如果在位者选择。如果在位者选择“默许默许”，那么，那么潜在进入者会选择潜在进入者会选择“进入进入”。v对潜在进入者来说，在位者的对潜在进入者来说，在位者的“斗争斗争”策略是一种不可置信的策略是一种不可置信的威胁（威胁（Noncredible Threat）或空洞的威胁（）或空洞的威胁（Empty Threat）。）。v子博弈精炼纳什均衡就是把包含不可置信威胁的纳什均衡从可子博弈精炼纳什均衡就是把包含不可置信威胁的纳什均衡从可能的均衡中剔除出去。能的均衡中剔除出去。v顾名思义，顾名思

35、义，“子博弈精练纳什均衡子博弈精练纳什均衡”是对纳什均衡的是对纳什均衡的“精练精练”。通过剔除包含不可置信威胁的纳什均衡，减少纳什均衡的数目。通过剔除包含不可置信威胁的纳什均衡，减少纳什均衡的数目。二、不可置信的威胁二、不可置信的威胁v在很多完全信息动态博弈中，都存在不可置信的威胁。在很多完全信息动态博弈中，都存在不可置信的威胁。v1“市场争夺战市场争夺战”博弈博弈v在在“市场争夺战市场争夺战”博弈中，（潜在进入者不进入，在位者斗争）博弈中，（潜在进入者不进入，在位者斗争）这个纳什均衡包含不可置信的威胁，因此不是一个子博弈精练这个纳什均衡包含不可置信的威胁，因此不是一个子博弈精练纳什均衡。纳什

36、均衡。v如果在位者把如果在位者把“斗争斗争”变成一个可置信的威胁（变成一个可置信的威胁（Credible Threat），那么博弈的均衡就会不同。），那么博弈的均衡就会不同。2斯塔贝尔伯格寡头博弈斯塔贝尔伯格寡头博弈v如果后行动的跟随者做出一个如果后行动的跟随者做出一个“威胁威胁”：不管先行动的领先者：不管先行动的领先者选择何种产量，自己都会将产量定在选择何种产量，自己都会将产量定在v对于领先者厂商来说，这是一个可置信的威胁对于领先者厂商来说，这是一个可置信的威胁v如果跟随者在具有法律约束力的公证机构签署一项承诺：不管如果跟随者在具有法律约束力的公证机构签署一项承诺：不管领先者选取何种产量水平

37、，自己都会将产量定在领先者选取何种产量水平，自己都会将产量定在，如果，如果自己违反承诺，那么将自动捐出自己违反承诺，那么将自动捐出的收益。的收益。v跟随者厂商的承诺变为一个可置信的承诺。跟随者厂商的承诺变为一个可置信的承诺。v跟随者厂商不可置信的威胁不会影响到先行动的领先者厂商的跟随者厂商不可置信的威胁不会影响到先行动的领先者厂商的产量决策。然而跟随者可置信的威胁的确会影响到先行动的领产量决策。然而跟随者可置信的威胁的确会影响到先行动的领先者厂商的产量决策，进而影响博弈均衡。先者厂商的产量决策，进而影响博弈均衡。三、逆向归纳法的扩展应用三、逆向归纳法的扩展应用v逆向归纳法不仅在求解完全且完

38、美信息动态博弈时非常有用，在逆向归纳法不仅在求解完全且完美信息动态博弈时非常有用，在某些完全但不完美信息动态博弈中，逆向归纳法也有一定用武某些完全但不完美信息动态博弈中，逆向归纳法也有一定用武之地。之地。完全且完美信息动态博弈完全且完美信息动态博弈v博弈的均衡路径是：博弈的均衡路径是：v参与者参与者 1 选择策略选择策略 R，然后参与者，然后参与者 2 进行决策进行决策v参与者参与者 2 选择策略选择策略 T，博弈结束。，博弈结束。v参与者参与者 1 得到收益得到收益 3、参与者、参与者 2 得到收益得到收益 1。四、逆向归纳法的局限和四、逆向归纳法的局限和“蜈蚣博弈蜈蚣博弈”v虽然逆向归纳法

39、是求解动态博弈子博弈精炼纳什均衡的有力工虽然逆向归纳法是求解动态博弈子博弈精炼纳什均衡的有力工具，但根据逆向归纳法求解出的均衡有时却是和常理相悖的。具，但根据逆向归纳法求解出的均衡有时却是和常理相悖的。v或者说：通过逆向归纳法有时也会求解出或者说：通过逆向归纳法有时也会求解出“不合理不合理”的均衡。的均衡。v经济学家罗森赛尔（经济学家罗森赛尔（Rosenthsal）提出的）提出的“蜈蚣博弈蜈蚣博弈（Centipede Game）”就是这样一个典型例证。就是这样一个典型例证。v虽然通过逆向归纳法可以求出蜈蚣博弈的均衡解，但此均衡解虽然通过逆向归纳法可以求出蜈蚣博弈的均衡解，但此均衡解的合理性受到

40、了普遍挑战。的合理性受到了普遍挑战。v因此，蜈蚣博弈有时也被称为因此，蜈蚣博弈有时也被称为“蜈蚣博弈悖论蜈蚣博弈悖论”，简称，简称“蜈蚣蜈蚣悖论（悖论（Centipede Paradox）”。1蜈蚣博弈的定义蜈蚣博弈的定义v假设有两名博弈参与者：参与者假设有两名博弈参与者：参与者 1 和参与者和参与者 2。v两名参与者轮流进行决策：首先由参与者两名参与者轮流进行决策：首先由参与者 1 进行决策，然后是参进行决策，然后是参与者与者 2，再次是博弈参与者，再次是博弈参与者 1，然后是博弈参与者，然后是博弈参与者 2，依次类推。，依次类推。v在博弈的初始节点处，参与者在博弈的初始节点处，参与者 1

41、有两个策略可以选择：有两个策略可以选择：T 和和 C。策略策略 T 表示结束博弈（表示结束博弈（Terminate），策略），策略 C 表示继续表示继续（Continue）博弈。）博弈。v当参与者当参与者 1 选择策略选择策略 T 时，博弈结束。参与者时，博弈结束。参与者 1 得到收益得到收益 1，参与者参与者 2 得到收益得到收益1。v当参与者当参与者 1 选择策略选择策略 C 时，轮到博弈参与者时，轮到博弈参与者 2 进行决策。参与进行决策。参与者者 2 同样面临两个策略选择：策略同样面临两个策略选择：策略 T 和策略和策略 C。v当参与者当参与者 2 选择策略选择策略 T 时，博弈结束。

42、参与者时，博弈结束。参与者 1 得到收益得到收益 0，参与者参与者 2 得到收益得到收益3。v当参与者当参与者 2 选择策略选择策略 C 时，轮到博弈参与者时，轮到博弈参与者 1 进行决策。参与进行决策。参与者者 1 同样面临两个策略选择：策略同样面临两个策略选择：策略 T 和策略和策略 C。v如果参与者如果参与者 1 选择策略选择策略 T，那么博弈结束。参与者，那么博弈结束。参与者 1 得到收益得到收益 2，参与者，参与者 2 得到收益得到收益 2。如果参与者。如果参与者 1 选择策略选择策略 C，那么轮到，那么轮到参与者参与者 2 进行决策，依次类推。进行决策，依次类推。v在蜈蚣博弈中，包

43、含初始节点在内，共有在蜈蚣博弈中，包含初始节点在内，共有 198 个博弈节点。个博弈节点。蜈蚣博弈的支付矩阵蜈蚣博弈的支付矩阵v参与者参与者 1 和参与者和参与者 2 轮流决策。轮流决策。v参与者参与者 1 对应对应 98 个节点，参与者个节点，参与者 2 也对应也对应 98 个节点。个节点。v即：在奇数节点上，都是参与者即：在奇数节点上，都是参与者 1 进行决策。进行决策。v在偶数节点上，都是参与者在偶数节点上，都是参与者 2 进行决策。进行决策。2蜈蚣博弈悖论蜈蚣博弈悖论v通过逆向归纳法可以求解出蜈蚣博弈的子博弈精炼纳什均衡。通过逆向归纳法可以求解出蜈蚣博弈的子博弈精炼纳什均衡。v通过逆向

44、归纳法求解出的蜈蚣博弈的子博弈精炼纳什均衡是：在初始节通过逆向归纳法求解出的蜈蚣博弈的子博弈精炼纳什均衡是：在初始节点处，参与者点处，参与者 1 选择策略选择策略 T，博弈结束。两名博弈参与者均得到收益，博弈结束。两名博弈参与者均得到收益 1。v在在“蜈蚣博弈蜈蚣博弈”中，越是位置靠后的博弈节点对应的博弈收益普遍越高，中，越是位置靠后的博弈节点对应的博弈收益普遍越高，对两名博弈参与者均如此。对两名博弈参与者均如此。v在实际生活中，蜈蚣博弈的参与者们往往通过各种努力使得博弈尽可能在实际生活中，蜈蚣博弈的参与者们往往通过各种努力使得博弈尽可能进行下去，而不是理性的在初始节点处就终止博弈。进行下去，

45、而不是理性的在初始节点处就终止博弈。v通过逆向归纳法求解出的蜈蚣博弈子博弈精炼纳什均衡与人们现实生活通过逆向归纳法求解出的蜈蚣博弈子博弈精炼纳什均衡与人们现实生活的普遍行为模式相悖，这是的普遍行为模式相悖，这是“逆向归纳法逆向归纳法”这种博弈求解方法受到质疑这种博弈求解方法受到质疑的原因之一。的原因之一。第五节第五节补充阅读补充阅读v一、信息集的数学定义一、信息集的数学定义v二、子博弈精炼纳什均衡的数学定义二、子博弈精炼纳什均衡的数学定义n在动态博弈中，子博弈精炼纳什均衡一定是原始博弈纳在动态博弈中，子博弈精炼纳什均衡一定是原始博弈纳什均衡，但原始博弈纳什均衡不一定都是子博弈精炼纳什均衡，但原始博弈纳什均衡不一定都是子博弈精炼纳什均衡。什均衡。n所谓所谓“精炼精炼”，就是对原始博弈纳什均衡的一种，就是对原始博弈纳什均衡的一种“甄别甄别”，将存在不可置信威胁的纳什均衡从均衡中剔除出去，将存在不可置信威胁的纳什均衡从均衡中剔除出去，减少均衡个数。减少均衡个数。本章小结和习题本章小结和习题

展开阅读全文