游戏理论(三)

玩家和分析师可以使用机械程序来预测这一结果,称为严格主导策略的迭代消除。通过检查矩阵,玩家 1 可以看到他在顶行每个单元格中的收益高于他在底行每个相应单元格中的收益。因此,无论玩家二做什么,他的底线策略(即拒绝认罪)永远不可能实现效用最大化。由于玩家 I 的底行策略永远不会被执行,我们可以简单地从矩阵中删除底行。现在很明显玩家二不会拒绝坦白,因为她在剩下的两个牢房里坦白的回报高于拒绝坦白的回报。因此,我们可以再次从游戏中删除右侧的单格列。我们现在只剩下一个细胞了,对应的是相互告白所带来的结果。由于导致我们删除所有其他可能结果的推理仅取决于每一步的前提,即两个参与者都是经济理性的,即会选择导致更高回报的策略而不是导致较低回报的策略,因此有充分的理由为了将联合坦白视为博弈的解决方案,博弈的结果必须收敛到经济理性正确模拟参与者行为的程度。您应该注意,严格控制的行和列的删除顺序并不重要。如果我们首先删除右侧的列,然后删除底部的行,我们会得到相同的解决方案。

有人多次说过,PD 在很多方面都不是一款典型的游戏。其中之一是它的所有行和列要么是严格支配的,要么是严格支配的。在任何战略形式的游戏中,如果这是真的,严格支配策略的迭代消除一定会产生独特的解决方案。然而,稍后我们会发现,对于许多游戏来说,这个条件并不适用,然后我们的分析任务就不那么简单了。

读者可能已经注意到 PD 的结果有些令人不安。如果两名玩家都拒绝认罪,他们就会得到右下的结果,即各自只入狱两年,从而获得比双方认罪时更高的效用。这是关于 PD 的最重要的事实,它对于博弈论的意义是相当普遍的。因此,当我们讨论博弈论中的均衡概念时,我们将在下面回到它。然而,现在让我们继续使用这个特定的游戏来说明战略形式和广泛形式之间的区别。

当人们将警察局引入大众讨论时,人们经常会听到他们说,警察督察必须将他的囚犯锁在不同的房间里,使他们无法相互交流。这个想法背后的原因似乎很明显:如果玩家能够沟通,他们肯定会发现如果双方都拒绝的话,他们每个人都会过得更好,并且可以达成协议这样做,不是吗?有人认为,这将消除每个玩家必须认罪的信念,否则他们会被伴侣卖到河上。但事实上,这种直觉是有误导性的,其结论也是错误的。

当我们将 PD 作为一种策略形式的博弈时,我们隐含地假设囚犯不能尝试共谋协议,因为他们同时选择自己的行动。在这种情况下,事前达成一致也无济于事。如果玩家 I 确信他的搭档会遵守协议,那么他可以抓住机会通过坦白而免受惩罚。当然,他意识到同样的诱惑也会发生在玩家二身上;但在这种情况下,他再次想确保自己认罪,因为这是他避免最坏结果的唯一方法。囚犯的协议之所以无效,是因为他们没有办法执行;他们对彼此的承诺构成了博弈论学家所说的“廉价谈话”。

但现在假设囚犯不同时移动。也就是说,假设玩家 II 在观察玩家 I 的行动后可以选择。这是那些认为非沟通很重要的人必须考虑到的情况。现在玩家二就能看到玩家一在选择上一直坚定不移,不用担心自己会被骗。然而,这并没有改变任何事情,这一点最好通过以广泛的形式重新呈现游戏来说明。这使我们有机会介绍博弈树以及适合它们的分析方法。

然而,首先,以下是一些有助于分析博弈树的概念的定义:

节点:玩家选择行动的点。

初始节点:游戏中第一个动作发生的点。

终端节点:任何节点,如果到达则结束游戏。每个终端节点对应一个结果。

子博弈:任何连接的一组节点和从一个节点唯一下降的分支。

收益:在结果中分配给玩家的序数效用编号。

结果:一组收益的分配,游戏中的每个玩家都有一个。

策略:一个程序,指示玩家在树中可能需要做出选择的每个节点上采取哪些行动。

这些快速定义对您来说可能没有多大意义,除非您遵循它们在下面对树的分析中的使用。当我们研究它们时,最好在它们和示例之间来回滚动。当您理解每个示例时,您会发现这些概念及其定义自然且直观。

为了使这个练习具有最大的指导意义,我们假设玩家 I 和 II 已经研究了上面的矩阵,并且看到他们在右下单元格代表的结果中都表现得更好,因此达成了合作协议。玩家一首先承诺拒绝,之后当警察要求她选择时,玩家二将作出回应。我们将遵守协议的策略称为“合作”,并在下面的树中用“C”表示。我们将破坏协议的策略称为“背叛”,并在下面的树上用“D”表示。每个节点从上到下编号为 1, 2, 3, ... ,以便于讨论时参考。那么,这就是树:

图4

图4

首先查看每个终端节点(位于底部的那些)。这些代表了可能的结果。每个游戏都通过收益分配来确定,就像在战略形式游戏中一样,玩家 I 的收益在每组中首先出现,玩家 II 出现在第二位。从节点 1、2 和 3 分别向下的每个结构都是一个子博弈。我们使用一种称为 Zermelo 算法的技术,开始对游戏序列中最后出现的子博弈进行后向归纳分析。如果玩从节点 3 下降的子游戏,则玩家 II 将面临收益 4 和收益 3 之间的选择。(在从节点 3 下降的终端节点处查阅每组中代表她收益的第二个数字。 ) II 通过玩 D 获得更高的收益。因此,我们可以将整个子游戏替换为直接将收益 (0,4) 分配给节点 3,因为这是游戏到达该节点时将实现的结果。现在考虑从节点 2 开始的子博弈。这里,II 面临收益 2 和 0 之一之间的选择。她通过玩 D 获得更高的收益 2。因此,我们可以将收益 (2,2) 直接分配给节点 2。现在我们转到从节点 1 开始的子游戏。(当然,这个子游戏与整个游戏相同;所有游戏都是它们自己的子游戏。)玩家 I 现在面临结果 (2,2) 和结果 (2,2) 之间的选择(0,4)。查阅每一组中的第一个数字,他发现他通过玩 D 获得了更高的回报 - 2。D 当然,选择坦白。因此,玩家 I 认罪,然后玩家 II 也认罪,产生与策略形式表示中相同的结果。

这里直观地发生的事情是,玩家 I 意识到,如果他在节点 1 玩 C(拒绝坦白),那么玩家 II 将能够通过欺骗他并玩 D 来最大化她的效用。(在树上,这发生在节点3.) 这使得玩家 I 的收益为 0(十年监禁),他只能通过一开始玩 D 来避免这种情况。因此,他背弃了协议。

因此,我们看到,在囚徒困境的情况下,同时版本和顺序版本会产生相同的结果。然而,其他游戏通常并非如此。此外,使用 Zermelo 算法只能解决完美信息的有限扩展形式(顺序)博弈。

正如本节前面提到的,有时我们必须表示游戏中同时进行的动作,否则这些动作是顺序的。 (在所有这些情况下,整个游戏将是不完美信息之一,因此我们无法使用 Zermelo 算法来解决它。)我们使用信息集设备来表示此类游戏。考虑下面的树:

图5

图5

节点 b 和 c 周围绘制的椭圆形表示它们位于公共信息集中。这意味着在这些节点上,玩家无法推断出他们来自何处的路径;玩家 II 在选择策略时不知道自己处于 b 还是 c。 (出于这个原因,在广泛形式的游戏中,正确的数字是信息集,被认为是“行动点”,而不是节点本身;这就是为什么椭圆形内的节点用字母而不是数字来标记。) ,玩家II在选择时并不知道玩家I在节点a做了什么。但是您会从本节的早期回想起,这正是将两个动作同时定义的。因此,我们可以看到将游戏表示为树是完全一般的。如果在树上设置的信息中,初始节点之后没有节点,那么游戏只有一个子游戏(本身),那么整个游戏是同时游戏之一。如果至少一个节点与另一个节点共享其信息集,而其他节点则独自一人,则该游戏既涉及同时又有序列玩法,因此仍然是不完美的信息的游戏。只有只有一个节点居住着所有信息集,我们才有一个完美的信息游戏。

2.5解决方案概念和平衡

在囚犯的困境中,我们所代表的结果(2,2)表明相互叛逃,据说是游戏的“解决方案”。在经济学的一般实践之后,游戏理论家将游戏解决方案称为均衡。哲学上有智慧的读者会想在这里提出一个概念性问题:关于某些游戏成果的“平衡”是什么,以便我们有动力将它们称为“解决方案”?当我们说一个物理系统处于平衡状态时,我们的意思是它处于稳定状态,其中所有因果力在系统内部的内部力量相互平衡,因此将其“静止”,直到和除非受到干扰通过某些外源性(即“外部”)力的干预。这就是经济学家传统上谈论“平衡”的意思。他们将经济体系视为互惠(通常是因果关系)的网络,就像物理系统一样,这种系统的平衡是它们的内源性稳定状态。 (请注意,在物理和经济系统中,内源性稳定的状态可能永远不会直接观察到,因为所讨论的系统永远不会与移动和破坏它们的外源性影响隔离。在古典力学和经济学中,平衡概念都是分析的工具,不是对我们期望观察到的东西的预测。)正如我们将在后面的那部分中看到的那样,在游戏理论的情况下,有可能维持对平衡的理解。但是,正如我们在第2.1节中指出的那样,有些人将游戏理论解释为战略推理的解释理论。对于他们来说,对游戏的解决方案必须是理性代理人仅使用理性计算的机制来预测的结果。这样的理论家面临一些关于解决方案概念的难题,这些概念对没有试图使用游戏理论来理性的理性一般分析的理论家不太重要。与经济学家或其他科学家相比,哲学家在游戏理论中的兴趣更常见于这种野心。

从囚犯的困境中开始讨论很有用,因为从关于解决方案概念的难题的角度来看,这非常简单。我们称之为其“解决方案”的是游戏的独特纳什均衡。 (这里的“纳什”是指诺贝尔奖获得者的数学家约翰·纳什(John Nash),他在纳什(Nash,1950年)中最能扩展和推广von Neumann&Morgenstern的开拓性工作。)可能是)整个策略,一个游戏中的每个玩家一组。一套策略是一项NE,以防万一球员可以通过改变策略的所有其他玩家的策略来提高自己的回报。请注意,这个想法与严格的统治观念有多紧密:如果严格统治它,则不可能是NE策略。因此,如果迭代消除严格主导的策略使我们取得了独特的结果,我们知道导致它的策略的向量是游戏的独特NE。现在,几乎所有理论家都同意,避免严格主导的战略是对经济理性的最低要求。故意选择严格统治战略的玩家直接违反了第2.2节中给出的经济机构定义的定义(iii)。这意味着,如果游戏的结果是独特的NE,那么在PD中的联合认罪的情况下,这一定是其独特的解决方案。这是PD是“简单”(和非典型)游戏的最重要的尊重之一。

我们可以指定一类博弈,其中 NE 作为解决方案概念不仅是必要的,而且是充分的。这些是有限完美信息博弈,也是零和博弈。零和游戏(在仅涉及两名玩家的游戏的情况下)是一种游戏,其中一个玩家只能通过让另一个玩家变得更糟来使另一位玩家变得更好。 (井字棋就是这种游戏的一个简单例子:任何让一个玩家更接近胜利的举动都会让她的对手更接近失败,反之亦然。)我们可以通过检查玩家来确定游戏是否是零和游戏效用函数:在零和游戏中,这些功能将是彼此的镜像,一个玩家的排名较高的结果对于另一个玩家排名较低,反之亦然。在这样的游戏中,如果我正在玩这样的策略,根据你的策略,我不能做得更好,并且如果你也玩这样的策略,那么,因为我对策略的任何改变都必须让你情况更糟,反之亦然,因此,除了其独特的 NE 之外,我们的博弈不可能有与我们共同的经济理性兼容的解决方案。我们可以换一种说法:在零和游戏中,如果你尽你所能,我采取的策略可以最大化我的最低收益,而你同时做同样的事情,就相当于我们都采取我们最好的策略,所以这对所谓的“maximin”程序保证找到游戏的唯一解,这就是它的唯一NE。 (在井字游戏中,这是平局。如果我们都想赢,不想输的话,你没有比画更好的了,我也不能。)

然而,大多数游戏不具备此属性。在这篇文章中,不可能从游戏可能的解决方案的角度来列举游戏可能出现问题的所有方式。 (一方面,理论家不太可能发现所有可能的问题。)但是,我们可以尝试稍微概括一下这些问题。

首先,存在的问题是,在大多数非零和博弈中,存在多个 NE,但并非所有 NE 看起来都与策略性警报玩家所击中的解决方案一样合理。考虑下面的策略形式游戏(摘自(Kreps 1990,第 403 页)(稍后我们将在“Hi-lo”这个名称下再次遇到它):

二、

t1 t2

我 s1 10,10 0,0

s2 0,0 1,1

图6

这个游戏有两个NE:s1-t1和s2-t2。 (请注意,这里没有严格支配行或列。但是,如果玩家 I 正在玩 s1,则玩家 II 不会比 t1 做得更好,反之亦然;对于 s2-t2 对来说也是如此。)如果 NE 是我们唯一的解决方案概念,那么我们将不得不说,这两种结果中的任何一个作为解决方案都同样有说服力。然而,如果博弈论被视为战略推理的解释性和/或规范性理论,这似乎遗漏了一些东西:拥有完美信息的明智参与者肯定会收敛于 s1-t1 吗? (请注意,这与 PD 中的情况不同,在 PD 中,社会优越的情况是无法实现的,因为它不是 NE。在上面的游戏中,两个玩家都有充分的理由尝试向他们所在的 NE 收敛。情况更好。)

这说明了这样一个事实:NE 是一个相对(逻辑上)较弱的解决方案概念,通常无法预测直观上合理的解决方案,因为如果单独应用,它拒绝允许参与者使用均衡选择原则,如果不是经济理性所要求的,或者一个更雄心勃勃的哲学家的理性概念——至少看起来既合理又易于计算。考虑来自 Kreps (1990), p. 的另一个例子。 397:

二、

t1 t2

我 s1 10,0 5,2

s2 10,1 2,0

图7

在这里,没有一种策略严格支配另一种策略。然而,玩家 I 的顶行 s1 微弱地支配 s2,因为对于玩家 II 的任何回复,我使用 s1 的效果至少与使用 s2 一样好,并且对于 II (t2) 的一个回复,我做得更好。那么玩家(和分析师)不应该删除弱支配行 s2 吗?当他们这样做时,列 t1 就被严格支配,并且 NE s1-t2 被选择作为唯一的解决方案。然而,正如克雷普斯继续使用这个例子所表明的那样,弱支配策略应该像严格策略一样被删除的想法会产生奇怪的后果。假设我们稍微改变一下游戏的收益,如下所示:

二、

t1 t2

我 s1 10,10 5,2

s2 10,11 2,0

图8

s2 仍像之前一样处于弱势;但在我们的两个NE中,s2-t1现在对双方玩家来说是最有吸引力的;那么分析师为什么要排除这种可能性呢? (再次注意,这个游戏并没有复制PD的逻辑。在那里,消除最有吸引力的结果,联合拒绝坦白是有意义的,因为双方都有动机单方面偏离它,所以它不是一个NE。当前游戏中的 s2-t1 并非如此。您应该开始清楚地明白为什么我们将 PD 游戏称为“非典型”。)消除弱占优策略的论点是,玩家 1 可能会感到紧张,担心这一点。玩家II 不完全确定在经济上是理性的(或者玩家 II 担心玩家 I 不是完全可靠的经济理性,或者玩家 II 担心玩家 I 担心玩家 II 不是完全可靠的经济理性,等等无穷大),因此可能会以一定的正概率来玩 t2。如果认真对待偏离可靠经济理性的可能性,那么我们就有了消除弱支配策略的论据:玩家 I 从而确保自己免受最坏结果 s2-t2 的影响。当然,她为这个保险支付了成本,将她的预期收益从 10 减少到 5。另一方面,我们可以想象玩家可以在玩游戏之前进行沟通并同意在 s2-t1 上进行协调,从而消除一些,鼓励消除弱支配行 s1 的大部分或全部不确定性,并消除 s1-t2 作为可行的解决方案!

任何提出的解决博弈的原则可能具有消除一个或多个 NE 作为解决方案的效果,被称为 NE 的细化。在刚刚讨论的情况中,消除弱支配策略是一种可能的改进,因为它改进了 NE s2-t1,而相关性是另一种可能的改进,因为它改进了另一个 NE s1-t2。那么哪种细化作为解决方案概念更合适呢?将博弈论视为战略理性的解释性和/或规范性理论的人们已经产生了大量文献,其中对大量改进的优点和缺点进行了争论。原则上,可以考虑的改进数量似乎没有限制,因为关于理性主体可能认为适合或不适合遵循或害怕或不适合的原则的哲学直觉集也可能没有限制。希望其他玩家也能跟进。

现在我们暂时离题,谈谈术语问题。采用博弈论中效用函数的显性偏好解释的理论家有时在经济学哲学文献中被称为“行为主义者”。这反映了这样一个事实:显示偏好方法将选择与经济上一致的行动等同起来,而不是指心理结构。从历史上看,经济学中的显性偏好与二十世纪中叶主导科学心理学的方法论和本体论行为主义之间存在着一种舒适的一致性关系,尽管不是直接的理论共建。然而,由于最近行为博弈论的兴起,这种用法越来越有可能引起混乱(Camerer 2003)。该研究项目旨在直接将博弈论模型的概括纳入博弈论模型的概括中,这些概括主要来自于对人的实验,即人们在从信息中得出的推论(“框架”)中与纯粹的经济主体的不同之处。应用程序通常还包含有关效用函数的特殊假设,这些假设也是从实验中得出的。例如,玩家可能被认为愿意在自己的收益大小和玩家之间收益分配的不平等之间进行权衡。我们将在第 8.1 节、第 8.2 节和第 8.3 节中讨论行为博弈论。目前,请注意,博弈论的这种使用关键取决于人们普遍认为的价值心理表征的假设。因此,将行为博弈论称为“行为主义者”是有误导性的。但如果继续将依赖显性偏好的传统经济博弈论称为“行为主义”博弈论,就会引起混乱。因此,我们将其称为“非心理”博弈论。我们指的是大多数非修正主义行为经济学家所使用的博弈论。 (我们使用限定词“修正主义者”来反映进一步的复杂性,越来越多的经济学家应用显示偏好概念进行实验,其中一些人称自己为“行为经济学家”!有关提议的一套新约定以减少这种标签混乱,请参阅Ross (2014),第 200–201 页。)这些“建制派”经济学家将博弈论视为战略互动的抽象数学,而不是直接描述特殊心理倾向的尝试。在人类中具有典型性。

(本章完)

相关推荐