第四章-混合策略纳什均衡,3×3混合策略纳什均衡
本作品内容为第四章-混合策略纳什均衡,格式为 doc ,大小 112640 KB ,页数为 9页
('第四章混合策略纳什均衡攻而必取者,攻其所不守也;守而必固者,守其所必攻也。故善攻者,敌不知其所守;善守者,敌不知其所攻;不乎神乎,至于无声,故能为敌之司命。——孙子故事模型假设你在地面逃亡,而你的敌人正在空中对你实施打击。你可以选择躲到坚固的掩体下面,也可以选择躲到一间民房里。你首先可能想到躲到坚固掩体下面是更好的,因为更坚固的地方会更安全。但是,你可能马上意识到,你的敌人很可能也会猜测到你将躲到最坚固的地方,所以他们也就会集中火力轰炸那些坚固的掩体——最安全的地方反而变成了最危险的地方;于是你决定还是到民房,但是你的敌人也会想到这一点而进攻民房……最后,你想不出究竟该躲在哪里,你的敌人也不知道你究竟会躲在哪里,于是大家都在碰运气。这样的局势并非假想,现实中的确存在诸多类似的情形,我们称之为混合对策情形。§4-1策略混合动机1、懦夫博弈中的策略混合回想一下上一章图3-5的懦夫博弈。当时我们得到了两个纯策略纳什均衡:(向前,转向)和(转向,向前)。为了更方便,我们将这个博弈的赢利在这里再画一遍(见图4-1)。司机乙转向向前司机甲(你)转向1,1-2,2向前2,-2-4,-4图4-1懦夫博弈但问题可以想得更复杂些。假如你是司机甲,你究竟会转向还是继续向前?这很可能取决于你对司机乙的判断:司机乙选择转向还是选择向前决定着你的1选择。但是你无法肯定司机乙是否会转向,因为他的行为取决于他对你的揣摩。所以,最终你也许只能猜测司机乙有多少可能转向、有多少可能向前。假如,你认为司机乙转向的可能性为50%,向前的可能性也为50%,那么你应该选择转向还是向前?这取决于你采取不同策略的预期赢利,它们可以计算如下:◆你选择转向的预期赢利:1×50%+(-2)×50%=-0.5◆你选择向前的预期赢利:2×50%+(-4)×50%=-1你将发现,当司机乙转向、向前的可能性各为50%的时候,你选择转向是最合适的,因为转向的预期贏利(—0.5)比向前的预期赢利(-1)要大一些。但是,司机乙当然知道你在猜测他选择两种策略的概率,他会不会真如你所想的那样以各自50%的概率来选择转向或向前呢?如果他确实以各50%的概率在两个策略间选择,那么他知道你就一定会选择转向(这是对你最适合的策略);但是既然你选择转向,那么他又何必以各自50%的概率来选择其两个策略呢,他完全可以选择向前。假如,你认为司机乙转向的可能性为80%,向前的可能性仅为20%,那么你又应该选择什么策略?这仍然取决于你采取不同策略的预期赢利,计算如下:◆你选择转向的预期赢利:1×80%+(-2)×20%=O.4◆你选择向前的预期赢利:2×80%+(-4)×20%=0.8显然,此情之下你选择向前(得到0.8)比选择转向(得到0.4)更合适。但是,给定你选择向前,司机乙必定选择转向,即他选择转向的概率将为1,而不是你事先认为的0.8。也就是说,从你的先验估计出发的结果会推翻你的先验估计。同样地,司机乙对你也在进行一系列的估计。问题是,在什么状态下,可以刚好使你们的估计能够和从该估计出发的行为选择趋于一致?如果能够趋于一致,那就是达到了纳什均衡状态。假如存在一个概率q,司机乙以概率q选择转向,那么他选择向前的概率将是1-q。而你选择不同策略的预期赢利就会是:◆你选择转向的预期贏利:1×q+(-2)×(1-q)=3q-2◆你选择向前的预期贏利:2×q+(-4)×(1-q)=6q-4如果司机乙真的以概率q选择转择某个策略(纯策略),而他不重复地选择某个策略的条件必须是你也不会重复地选择某个策略。因此,他以概率q选择转向必然意味着在这样的情况下你不可能有合适的纯策略;换句话说,他也必须使你在你的两个策略之间进行随机选择。那么,在什么情况下你会在两个策略之间进行随机选择呢?那就只有一种情况:当你选择任何一个策略的预期赢利都完全相同的时候——因为这样你就无法选出哪个策略更优,就只有随机选择。也就是说,司机乙选择q,使得:23q-2=6q-4即q﹡=2/31-q﹡=1/3这样,司机乙以2/3的概率选择转向,以1/3的概率选择向前,就可以使你在两个策略之间无差异而无法采取纯策略(可以计算得出,你选择转向的预期赢利是0,选择向前的预期赢利也是0)。由此,我们可以记下司机乙采取的混合策略:(2/3,1/3)〔注1〕。反过来,司机乙对你的选择也有着概率判断,而为了保持这种判断信念的后果与信念本身一致,你也以一定概率(比如p)随机选择你的策略,且p需要满足使司机乙在他的两个策略之间没有差异。此时他两种策略的预期贏利为:★司机乙选择转向的预期赢利:l×p+(-2)×(l-p)=3p-2★司机乙选择向前的预期贏利:2×p+(-4)×(1-p)=6p-4而你需要选择p的值,使3p-2=6p–4,可得到p﹡=2/3,1-p﹡=1/3。仍可计算,此时司机乙无论选转向还是选向前,其预期赢利皆为0。由此,我们可以记下你采取的混合策略(2/3,1/3)。由于你以2/3的概率选择转向,以1/3的概率选择向前;而司机乙也以2/3的概率选择转向,以1/3的概率选择向前,刚好可以互为对彼此的最优反应。因此,它是一个纳什均衡状态,被称为混合策略纳什均衡,可以记为{(2/3,1/3),(2/3,1/3)}〔注2〕。2、会发生车毁人伤的情况吗?既然你和司机乙都采用了(2/3,1/3)的混合策略,那就意味着各种结果都是可能出现的。我们可以计算各种情况出现的概率,见图4-2。司机乙转向(2/3)向前(1/3)司机甲(你)转向(2/3)2/3×2/3=4/92/3×1/3=2/9向前(1/3)1/3×2/3=2/91/3×1/3=1/9图4-2懦夫博弈各种情况出现的概率注意,图4-2不是博弈的赢利表,而是各种情况出现的概率表。策略组合(转向,转向)成为现实结果的概率是2/3×2/3=4/9(因为你和司机乙各有2/3的概率选择转向)。其他各单元格的数字根据同样的道理计算。可以发现,在懦夫博弈中,真正出现车毁人伤的概率其实还是艰小的,为1/9,约为11%。〔注1〕(2/3,1/3)是混合策略的表示方法,括号中第一个数字表示选择第一个策略的概率,3第二个数字表示选择第二个策略的概率,依此类推。在这里,(2/3,1/3)具体表示司机乙以2/3的概率选择转向(策略一),以1/3的概率选择向前(策略二)。〔注2〕{(2/3,1/3),(2/3,1/3)}是混合策略组合的表示方法,第一个小括号内表示第一个参与人的混合策略,第二个小括号内表示第二个人的混合策略。在这个博弈中,可以证明这是唯一的混合策略纳什均衡。§4-2如何寻找混合策略均衡1、“麦琪的礼物”中的混合策略下面我们介绍一种简便的求解混合策略的方法,它不一定严谨,但是管用。以“麦琪的礼物”为例来说明。我们假设丈夫卖表的概率为p,那么,不卖表的概率为1-p,为了更方便,也可将这概率标记在赢利表旁边(如图4-3);假设妻子剪发的概率为q,那么不剪发的概率为1-q,为方便把它们记在赢利表下边。妻子剪发不剪丈夫卖表0,02,1P不卖1,20,01-pq1-q图4-3麦琪的礼物各参与人在各策略下的预期赢利为:◆丈夫卖表的预期赢利:O×q+2×(l-q)=2-2q(1)不卖的预期赢利:l×q+O×(l-q)=q(2)◆妻子剪发的预期赢利:O×p+2×(1-p)=2-2p(3)不剪的预期赢利:l×p+O×(1-p)=p(4)有必要注意,丈夫的某个策略的赢利是该策略对应的行中丈夫的赢利与妻子的概率积之和;而妻子的某个策略的赢利是该策略对应的列中妻子的赢利与丈夫的概率积之和。纳什均衡应满足,妻子选择q使丈夫在各策略之间的预期赢利没有差异,即使式子(1)等于式子(2):2-2q=q,可解出q﹡=2/3;丈夫选择p使妻子在各策略之间的预期赢利没有差异,即使式子(3)等于式子(4):2-2p=P,可解出P﹡=2/3。由此,在纳什均衡状态下,丈夫的混合策略是(2/3,1/3),妻子的混合策略也是(2/3,1/3)。混合纳什均衡为{(2/3,1/3),(2/3,1/3)}。42、求混合策略应先剔除劣势策略纳什均衡的奇数定理:几乎所有的有限博弈都有有限奇数个纳什均衡(包括混合策略均衡)。例如,如下的一个博弈中(图4-4),由画线法可得到(中,左)和(上,右)两个纯策略纳什均衡。那么,根据纳什均衡的奇数定理,当我们找到偶数个(比如这里的两个)均衡时,则至少还应存在一个混合策略均衡。博弈方乙左中右博弈方甲上2,02,14,2中3,41,22,3下1,30,23,0图4-4混合策略求解须剔除劣势策略(提出后)有一些读者一看到这个博弈,首先就想到直接为参与人的每个策略赋予一个概率。习惯的做法是(注意,以下的做法是错误的!):假假博弈方甲选择上的概率为p,选择中的概率为q,选择下的概率为1-p-q。甲选择p、q使博弈方乙的各策略下的预期赢利是无差异的,即:博弈方乙:选左的预期赢利:2×p+3×q+1×(1-p-q)=l+p+2q选中的预期赢利:2×p+l×q+0×(1-p-q)=2p+q选右的预期赢利:4×p+2×q+3×(1-p-q)=p-q十3各策略预期赢利无差异意味着有:1+p+2q=2p+q=p-q+3可解出:p﹡=5/3,q=2/3。这个答案显然是错误的,因为作为概率p﹡怎么可能大于1呢?到这里,实际上我们已经不需要再探讨博弈方乙的混合策略了,因为错误已经很明显。问题是,为什么会有错误呢?原因是:我们未能在求解混合策略均衡前剔除劣势策略。观察图4-4的博弈,可发现对于博弈方甲来说,“下”是“上”的严格劣势策略,即博弈方甲是永远不会选择“下”的——这相当于采取“下”的概率为O,所以再求混合策略的时候我们必须先对“下”这样的劣势策略赋予0概率,或者剔除掉该策略。5可能还有一个问题:我们赋予策略“下”一个概率(1–p-q),为什么计算出这个劣势策略得到的概率不会为0呢?原因是,给定博弈方甲选“下”,博弈方乙选择“左”、“中”、“右”的赢利是不一样的,而实际上既然甲不会选“下”,乙的预期赢利里实际上就不应包括(下,)〔注〕的情况,所以,写出乙的预期赢利根本就是错的,自然,得到的关于策略“下”的选取概率更是错的。〔注〕括号中﹡代表左、中、右。现在我们来介绍正确的做法:首先应当剔除甲的“下”;而这一轮剔除之后读者们会发现,对乙而言,“中”相对于“右”的劣势策略,应该剔除“中”。经过两轮剔除,最后剩下的博弈转化成如下结构(图4-5):博弈方乙左右博弈方甲上2,04,2中3,42,3图4-5混合策略求解须剔除劣势策略(剔除后)对于图4-5的博弈,混合策略的求解是容易的:假设甲选“上”的概率为p,选“中”的概率为1-p;乙选“左”的概率为q,选“右”的概率为1-q。然后写出甲的两种策略的预期赢利:◇若他选“上”,则为:2q+4(1–q)=4-2q◇若他选“中”,则为:3q+2(1-q)=2+q令两式相等,得到4-2q=2+q解得:q﹡=2/3,1-q﹡=1/3再写出博弈方乙的两种策略的预期赢利:◆若他选“左”:Op+4(1-p)=4-4p◆若他选“右”:2p+3(1-p)=3-p令两式相等,得到4-4p=3–p解得p﹡=1/3,1-p﹡=2/3整理一下结果,对于图4-4的博弈,正确的混合策略均衡应该是:博弈方甲以1/3的概率选择“上”,以2/3的概率选择“中”,以0概率选择“下”;博弈方乙以2/3的概率选择“左”,以0概率选择“中”,以1/3的概率选择“右”。这一混合策略均衡可写为:{(1/3,2/3,0),(2/3,0,1/3)}。6§4-3无纯策略均衡博弈的混合策略均衡存在多重均衡的博弈往往也存在混合策略,那么无纯策略均衡的博弈有没有混合策略均衡呢?根据前面提到的奇数定理,可以推断一个博弈若没有纯策略均衡,那么至少会存在一个混合策略均衡。图4-6是猜硬币博弈,在第3章中我们已经知道它没有纯策略纳什均衡,现在我们来求它的混合策略均衡。乙(庄)正面背面甲(猜)正面1,-1-1,1背面-1,11,-1图4-6猜硬币博弈假设甲选猜“正面”的概率为p,选猜“背面”的概率则为1-p;乙选放“正面”的概率为q,选放“背面”的概率1-q,则◆乙选放“正面”的预期赢利:1q-(1-q)=2q-1◆乙选放“背面”的预期赢利:-1q+(1-q)=1-2q令2q-1=1-2q→有q﹡=0.5,1-q﹡=0.5●甲选猜“正面”的预期赢利:lp-(1-p)=2p-1●甲选猜“背面”的预期赢利:-lp+(1-p)=1-2p令2p-l=1-2p,→p﹡=0.5,1-p﹡=0.5由此我们得到博弈双方各自都有混合策略(0.5,0,5)。各人都以50%的概率随机选择“正面”,以50%的概率随机选择“背面”。混合纳什均衡为:{(0.5,0.5),(0.5,0.5)}.这说明,有些博弈虽然没有纯策略纳什均衡,但是却存在混合策略纳什均衡。在现实中,有很多对抗游戏都类似于这种博弈,比如猜拳行令,或者我们儿时玩的“剪刀,石头·布”游戏,等。7§4-4如何认识混合策略混合策略要求人们以随机的方式选择自己的行动,由于随机性的行为无法准确预期,因此很多人认为混合策略并非一个令人满意的均衡概念。难道现实中人们真会这样采取行动吗?如果两个策略对于参与人来说是无差异的,他为什么不直接选择一个纯策略而要采取一个混合策略呢?为此,人们对混合策略的合理性提出了很多解释。1、声东击西混合策略的一种解释是虚张声势,即参与人试图通过选择混合策略给对手造成不确定性,使对手不能预测自己的行动,从而使自己获得好处。譬如,在赌硬币的博弈中,如果参与人太有规律地行动,那么他就会被对手战胜。或者他一旦破坏了自己的随机策略,那么他就会失败。不让对手洞悉自己,而采取混合策略的做法,在某些对抗中非常普遍。玩牌、划拳以及足球、篮球等比赛中都是如此。在巴蜀地区,有一句话叫“黄棒手硬”,意思是说某些活动中(比如划拳、赌酒、打牌),新手的运气特别好。真是如此吗?划拳、赌酒这些戏没有纯策略均衡,如果出招太有规律,被对手发现就会导致更多的失败。而对于那些“黄棒”(新手),因为他是新手所以谁也难以摸清他的规律,结果他反而使自己从经验缺乏中获得了好处,倒并不一定真的是他的“手太硬”(运气太好)。2、个体类型推断对混合策略的另一种解释是,将其看做对参与人类型的一种推断。比如图4-7所示的博弈中,运用前面的知识我们会发现,该博弈没有纯策略均衡。给定政府救济,流浪汉最好继续游荡;给定政府不救济,流浪汉最好是去求职;给定流浪汉求职,政府最好选择救济;给定流浪汉游荡,政府最好不救济。流浪汉求职游荡政府救济3,2-1,38不救济-1,10,0图4-7福利博弈同时,大家经过分析之后还可发现该博弈存在一个混合策略纳什均衡:{(0.5,0.5),(0.2,0,8)},即政府以0.5的概率选择救济、以0.5的概率选择不救济,流浪汉以0.2的概率选择求职、以0.8的概率选择游荡。对上述混合策略的一种解释是,假定这个流浪汉是从一群流浪汉中抽取出来的,政府不知道他的特征。政府只知道全部的流浪汉包括两种类型,一种类型是努力求职型,另一种类型是继续游荡型,两类流浪汉在全部流浪汉中所占的比例分别为0.2和0.8。当随机从流浪汉群体中抽取一个流浪汉,政府将以0.5的概率救济他、以0.5的概率不救济他。3、集体行为推测图4-8表示的警察与小偷博弈。在这个博弈中没有纯策略均衡,但是有一个混合策略均衡{(1/3,2/3),(3/5,2/5)},即警察以1/3的概率巡逻、以2/3的概率睡觉;小偷以3/5的概率不行窃、以2/5的概率行窃。对这个混合策略均衡可看做集体行为来解释:一大群警察跟一大群小偷博弈,将会有2/3的警察选择睡觉而1/3的警察选择巡逻;而小偷中有3/5的人不行窃、2/5的人选择行窃。小偷不行窃行窃警察巡逻0,02,-2睡觉2,0-1,1图4-8警察与小偷似乎这是现实的情况。如果盗窃案件上升(更多的小偷选择行窃),则警察就会出动更多的巡逻力量;而一旦警察出动更多的巡逻力量,则行窃的小偷就会下降;行窃的小偷下降,警察出动大量巡逻力量就不再是合适的,于是他们又减少巡逻力量;然后盗窃案件又上升……在均衡状态,恰好应是1/3的警察巡逻而2/5的小偷行窃。9',)
提供第四章-混合策略纳什均衡,3×3混合策略纳什均衡会员下载,编号:1700754625,格式为 docx,文件大小为9页,请使用软件:wps,office word 进行编辑,PPT模板中文字,图片,动画效果均可修改,PPT模板下载后图片无水印,更多精品PPT素材下载尽在某某PPT网。所有作品均是用户自行上传分享并拥有版权或使用权,仅供网友学习交流,未经上传用户书面授权,请勿作他用。若您的权利被侵害,请联系963098962@qq.com进行删除处理。