游戏理论(二)
尽管此后1930年代的行为主义因对认知过程的广泛兴趣而流离失所,但许多理论家继续遵循萨缪尔森理解效用的方式,因为他们认为重要的是,游戏理论适用于任何形式的代理人,熊,蜜蜂,蜜蜂,一只蜜蜂, ,一个公司或一个国家,而不仅仅是对人类思想的代理商。当这样的理论家说代理人采取行动以最大化其效用时,他们希望这成为成为代理人的定义的一部分,而不是对可能内在状态和动机的经验主张。萨缪尔森(Samuelson)的效用概念是由他的经典论文(Samuelson(1938))中引入的揭示偏好理论(RPT)所定义的,这满足了这一需求。
经济学家和其他用RPT来解释游戏理论的人不应将游戏理论视为对某些肉类参与者(例如实际人)的动机的经验描述。相反,他们应该将游戏理论视为数学体系的一部分,该理论用于建模那些始终从相互排斥的动作集中选择元素的实体,从而导致选择模式,从而允许某些随机性和噪音,可以统计地建模作为实用程序功能的最大化。在这种解释中,游戏理论不能被任何经验观察所驳斥,因为它首先不是经验理论。当然,观察和经验可能会导致人们赞成这种解释的人,得出结论,游戏理论在描述实际人类行为方面几乎没有帮助。
其他一些理论家对游戏理论的观点的理解不同。他们认为游戏理论是对实际人类战略推理过程的解释性说明。为了使这个想法适用,我们必须假设代理商至少有时会在非参数设置中做他们所做的事情,因为游戏理论逻辑将某些动作推荐为“理性”的操作。这种对游戏理论的理解融合了一个规范性的方面,因为“理性”是用来表示代理商至少应该通常想要拥有的财产。这两种非常普遍的思考游戏理论用途的方法与效用最大化的重言式解释兼容。但是,从工作游戏理论家的角度来看,哲学上的差异并不是闲置的。正如我们将在后面的一节中看到的那样,那些希望使用游戏理论来解释战略推理的人,而不是仅仅是战略行为,而是面临一些特殊的哲学和实际问题。
由于游戏理论是一种用于形式建模的技术,因此我们必须有一种以数学术语来思考实用性最大化的设备。这样的设备称为实用程序功能。我们将通过序数函数的特殊情况介绍实用程序函数的一般思想。 (以后,我们将遇到包含更多信息的实用程序函数。)代理的实用程序映射称为“函数”,因为它将订购的偏好映射到实数中。假设Agent X更喜欢束A束B和B束B到捆绑c。然后,我们将这些映射到数字列表中,其中函数将最高的捆绑包映射到列表中最大的数字,排名第二的捆绑包上列表中的第二大数字,等等,依此类推,因此:
捆a≫3
束B≫2
束C≫1
函数映射的唯一属性是顺序。数字的关联关系紧要。也就是说,不能推断 x 从束 a 中获得的效用是她从束 c 中获得的效用的 3 倍。因此,我们可以表示与上面完全相同的效用函数:
捆绑一个≫7,326
束 b ≫12.6
束 c ≫−1,000,000
因此,序数效用函数中的数字并不能衡量任何事物的数量。大小确实重要的效用函数称为“基数”。每当有人引用效用函数而不指定其类型时,您应该假设它是序数函数。这些是我们要检查的第一组游戏所需的类型。后来,当我们了解如何解决涉及(事前)不确定性的游戏时(例如上面第 1 部分中的过河游戏),我们需要构建基数效用函数。冯·诺依曼和摩根斯特恩 (1944) 给出了执行此操作的技术,并且是他们发明博弈论的一个重要方面。然而,目前我们只需要序数函数。
2.2 博弈与理性
所有至少一个智能体只能通过预测(有意识地或隐含地在其行为中)一个或多个其他智能体对她的行为的反应来最大化其效用的情况被称为博弈。参与游戏的代理称为玩家。如果无论其他人做什么,所有代理人都有最优行动,就像在纯参数情况或垄断或完全竞争条件下一样(参见上面第 1 节),我们可以在不诉诸博弈论的情况下对此进行建模;否则,我们需要它。
博弈论学家假设参与者具有经济学文献中通常称为“理性”的一系列能力。通常这是通过简单的陈述来表述的,例如“假设参与者是理性的”。在批评一般经济学或将博弈论引入人文学科的文献中,这种言论越来越成为攻击的磁石。在西方文化传统中,与“理性”有着紧密而复杂的联系,历史上这个词经常被用来规范性地边缘化那些像情感、女性气质和同理心一样正常和重要的特征。博弈论学家对这个概念的使用不需要,通常也不会暗示这种意识形态。就目前的目的而言,我们将使用“经济理性”作为一个严格的技术术语,而不是规范术语,来指代冯·诺依曼和摩根斯特恩最初版本的博弈论和 RPT 所共有的一组狭窄而具体的偏好限制。经济学家在对市场进行建模时使用了第二个(对他们来说)同样重要的理性概念,他们称之为“理性预期”。在这句话中,“理性”不是指对偏好的限制,而是指对信息处理的不限制:理性预期是理想化的信念,反映了对代理人可用的所有信息进行统计上准确加权的使用。读者应该注意到,同一学科内同一个词的这两种用法在技术上是没有联系的。此外,多年来,原始 RPT 已由几组不同的公理集指定用于不同的建模目的。一旦我们决定将理性视为一个技术概念,每次我们调整公理时,我们都会有效地修改这个概念。因此,在任何涉及经济学家和哲学家的讨论中,我们都会发现自己处于这样一种情况:不同的参与者使用同一个词来指代不同的事物。对于刚接触经济学、博弈论、决策论和行动哲学的读者来说,这种情况自然是一个挑战。
在本文中,“经济理性”将在博弈论、微观经济学和形式决策理论中共享的技术意义上使用,如下所示。经济理性的参与者能够(i)评估结果,即根据他们对自己福利的贡献对结果进行排序; (ii) 计算通向结果的路径,即识别哪些行动序列与哪些结果概率相关; (iii) 从一系列备选方案中选择行动(我们将其描述为“选择”行动),根据其他玩家的行动,这些行动会产生她最喜欢的结果。我们可以将这一切背后的直觉总结如下:一个实体可以被有效地建模为一个经济理性的代理人,只要它有替代方案,并以某种方式从这些替代方案中进行选择,至少在大多数情况下是这样的:似乎最适合其目的。对于之前熟悉哲学家丹尼尔·丹尼特 (Daniel Dennett) 著作的读者来说,我们可以将经济理性主体的概念与丹尼特所描述的有意向的实体等同起来,然后说我们可以根据“有效地预测经济理性主体的行为”。有意的立场”。正如稍后将讨论的,通过借鉴萨维奇(1954)(哈里森和罗斯即将出版)的主观理性公理(有时进行特殊修改),可以使意向立场精确地应用于定量指定的选择。
在某些情况下,经济理性可能通过代理人执行的内部计算来满足,并且她可能或可能不知道计算或已经计算出其条件和含义。在其他情况下,经济理性可能只是体现在自然、文化或市场选择所建立的行为倾向中。特别是,在称某项行动为“选择”时,我们意味着没有必要的深思熟虑,无论是有意识的还是其他的。我们的意思仅仅是,当替代行动可用时,就采取了该行动,在某种意义上,“可用”通常是由特定分析的背景确定的。 (博弈论学家和经济学家所使用的“可用”永远不应该被理解为仅仅意味着“形而上学”或“逻辑上”可用;它几乎总是务实的、与背景相关的,并且可以通过更精致的模型进行修改。)
游戏中的每个玩家都面临两种或多种可能策略的选择。策略是预先确定的“游戏程序”,它告诉她要采取什么行动来响应其他玩家可能使用的每种可能的策略。当我们研究下面的一些示例游戏时,这里斜体短语的意义就会变得清晰。
游戏规范的一个重要方面涉及玩家选择策略时所拥有的信息。最简单的游戏(从逻辑结构的角度来看)是那些智能体拥有完美信息的游戏,这意味着在每个智能体的策略告诉她采取行动的每一点,她都知道游戏中迄今为止发生的一切。连续移动的棋盘游戏(例如国际象棋)就是此类游戏的一个实例,其中两个玩家都观看所有动作(并了解共同的规则)。相比之下,上面第 1 节中的过桥博弈的例子说明了一种不完全信息博弈,因为逃亡者必须在不知道追捕者选择等待的桥的情况下选择要过桥,而追捕者同样让她她的决定是在不了解猎物选择的情况下做出的。由于博弈论是关于考虑到其他人具有战略意义的行动的经济理性行动,因此当你得知博弈中的主体相信或不相信彼此的行为对我们的逻辑产生相当大的影响时,你应该不会感到惊讶。分析,正如我们将看到的。
2.3 树和矩阵
完美信息游戏和不完美信息游戏之间的差异与基于游戏顺序的游戏表示方式之间的区别有关(尽管肯定不完全相同!)。让我们首先从信息方面区分顺序移动游戏和同时移动游戏。作为第一个近似,很自然地将顺序移动游戏视为玩家相继选择策略的游戏,而同时移动游戏则视为玩家同时选择策略的游戏。然而,这并不完全正确,因为具有战略重要性的不是事件本身的时间顺序,而是玩家是否以及何时了解其他玩家相对于必须选择自己的行动。例如,如果两个相互竞争的企业都在计划营销活动,其中一个企业可能会比另一个企业早几个月就实施其战略;但如果双方都不知道对方在做出决定时已经承诺或将承诺什么,那么这就是同步移动游戏。相比之下,国际象棋通常是顺序移动游戏:在选择自己的下一步行动之前,您会看到对手做了什么。 (如果每个棋手在一个共同的棋盘上移动,同时彼此隔离,那么国际象棋可以变成同步移动游戏;但这与传统国际象棋是一种非常不同的游戏。)
上面说过,顺序移动博弈和同时移动博弈之间的区别并不等同于完美信息博弈和不完全信息博弈之间的区别。解释为什么会这样是充分理解这两组概念的好方法。正如前一段中描述的同时移动博弈的特征一样,所有同时移动博弈必定是不完美信息的博弈。然而,某些游戏可能包含顺序移动和同时移动的混合。例如,两家公司可能会相互独立且秘密地制定营销策略,但随后在彼此众目睽睽之下进行定价竞争。如果最佳营销策略部分或完全取决于后续定价博弈中预期发生的情况,则需要将这两个阶段作为单个博弈进行分析,其中顺序博弈阶段紧接着同时博弈阶段。涉及此类混合阶段的整个博弈都是不完美信息的博弈,无论它们的阶段性如何。完美信息博弈(顾名思义)是指没有同时进行的动作(并且没有玩家会忘记之前发生过的事情)的情况。
如前所述,完美信息博弈是(逻辑上)最简单的博弈类型。之所以如此,是因为在此类游戏中(只要游戏是有限的,即在已知数量的动作后终止),玩家和分析师可以使用简单的过程来预测结果。在这样的游戏中,玩家通过考虑对她开放的每个动作所产生的每一系列响应和反响应来选择她的第一个动作。然后,她问自己哪个可用的最终结果给她带来了最高的效用,并选择启动导致该结果的链条的行动。这个过程称为逆向归纳(因为推理从最终结果逆向进行到当前的选择问题)。
在后面的部分(当我们讨论均衡和均衡选择时)将有更多关于逆向归纳法及其性质的内容。目前,我们已经对其进行了描述,以便我们可以使用它来介绍用于表示游戏的两种类型的数学对象之一:游戏树。博弈树是数学家所说的有向图的一个例子。也就是说,它是一组连接的节点,其中整个图有一个方向。我们可以从页面顶部到底部或从左到右绘制树木。在第一种情况下,页面顶部的节点被解释为在操作序列中较早出现。在从左到右绘制树的情况下,左侧节点在序列中优先于右侧节点。未标记的树具有以下类型的结构:
图1
图1
通过想象树在支持后向归纳推理中的使用,可以最好地理解使用树表示游戏的要点。想象一下,玩家(或分析师)从显示结果的树的末端开始,然后从这些结果开始向后工作,寻找描述通向结果的路径的策略集。由于玩家的效用函数表明她更喜欢哪种结果,因此我们也知道她更喜欢哪些路径。当然,并非所有路径都是可能的,因为其他玩家也有选择路径的作用,并且不会采取导致她不太喜欢的结果的行动。在描述了可以使用树进行建模的情况之后,我们将介绍一些这种交互式路径选择的示例,以及通过这些示例进行推理的详细技术。
树用于表示顺序游戏,因为它们显示了玩家采取行动的顺序。然而,游戏有时用矩阵而不是树来表示。这是用于表示游戏的第二种数学对象。与树不同,矩阵只是显示玩家可能使用的每种可能的策略组合的结果,以玩家的效用函数表示。例如,将第 1 部分中的过河游戏显示在矩阵上是有意义的,因为在该游戏中,逃亡者和猎人各只有一步棋,并且每个人都在不知道对方决定的情况下选择自己的棋步。那么,这里是矩阵的一部分:
猎人
安全桥 落基桥 眼镜蛇桥
逃犯安全桥 0,1 1,0 1,0
洛基桥?0,1 ?
眼镜蛇桥?? 0,1
图2
逃亡者的三种可能的策略——在安全的桥上过河,冒着岩石的危险,或者冒着眼镜蛇的危险——构成了矩阵的行。同样,猎人的三种可能策略——在安全桥等待、在石桥等待和在眼镜蛇桥等待——构成了矩阵的列。矩阵的每个单元格都显示(或者更确切地说,显示我们的矩阵是否完整)根据参与者的收益定义的结果。玩家的收益只是她的序数效用函数分配给与所讨论的结果相对应的事态的数字。对于每个结果,行的收益总是首先列出,然后是列的收益。因此,例如,上面的左上角显示,当逃犯通过安全桥并且猎人在那里等待时,逃犯获得的收益为0,而猎人获得的收益为1。我们通过参考来解释这些两个玩家的实用功能,在这个游戏中非常简单。如果逃亡者安全过河,他将获得 1 的回报;否则,他将获得 1 的回报。如果逃亡者没有成功,无论是因为他被猎人射中、被石头击中还是被眼镜蛇咬伤,那么猎人的收益为 1,逃亡者的收益为 1为 0。
我们将简要解释矩阵中已填写的部分,然后说明为什么我们还无法完成其余部分。每当猎人在逃亡者选择的桥上等待时,逃亡者就会被枪杀。这些结果都提供收益向量 (0, 1)。您可以发现它们从左上角沿对角线下降穿过上面的矩阵。每当逃亡者选择安全桥而猎人在另一座桥等待时,逃亡者就会安全通过,产生支付向量 (1, 0)。这两个结果显示在顶行的后两个单元格中。现在,所有其他单元格都被标记为问号。为什么? 这里的问题是,如果逃亡者穿过石桥或眼镜蛇桥,他就会在游戏中引入参数因素。在这些情况下,他承担了一些被杀死的风险,因此产生了回报向量 (0, 1),这与猎人所做的任何事情无关。我们还没有引入足够的概念来展示如何用效用函数来表示这些结果,但是当我们完成时我们会的,这将为解决第 1 节中的难题提供关键。
矩阵博弈被称为“正常形式”或“策略形式”博弈,树状博弈被称为“扩展形式”博弈。这两种游戏并不等同,因为扩展形式的游戏包含有关游戏顺序和玩家关于游戏结构的信息水平的信息,而策略形式的游戏则不包含这些信息。一般来说,战略形式博弈可以代表几种扩展形式博弈中的任何一个,因此战略形式博弈最好被认为是一组扩展形式博弈。当游戏顺序与游戏结果无关时,那么您应该研究其策略形式,因为它是您想了解的整个集合。如果比赛顺序相关,则必须指定扩展形式,否则您的结论将不可靠。
2.4 囚徒困境作为战略形式与扩展形式表征的一个例子
如果仅进行抽象描述,则很难完全理解上述区别。最好通过一个例子来说明它们。为此,我们将使用所有游戏中最著名的:囚徒困境。事实上,它给出了科尔特斯和亨利五世的士兵(见上文第 1 节)以及霍布斯的代理人在授权暴君之前所面临的问题的逻辑。然而,出于稍后会清楚的原因,你不应该将PD视为典型的游戏;不是。我们在这里使用它作为扩展示例只是因为它对于说明战略形式和扩展形式之间的关系特别有帮助游戏(以及稍后用于说明一击游戏和重复游戏之间的关系;请参阅下面的第 4 节)。
囚徒困境游戏的名称源自以下通常用来举例说明的情况。假设警察逮捕了两个他们知道一起实施武装抢劫的人。不幸的是,他们缺乏足够的可采证据来让陪审团定罪。然而,他们确实有足够的证据,可以将每个囚犯因盗窃逃亡汽车而判处两年监禁。总督察现在向每位囚犯提出以下条件:如果你承认抢劫并牵连到你的伴侣,而她也不承认,那么你将被释放,她将被判十年徒刑。如果你们都认罪,你们将各被判 5 年徒刑。如果你们都不认罪,那么你们将因汽车盗窃罪各被判两年有期徒刑。
我们将两个囚犯的情况建模为游戏的第一步是用效用函数来表示它。按照惯例,让我们将囚犯命名为“玩家 I”和“玩家 II”。玩家 I 和玩家 II 的序数效用函数是相同的:
自由去吧 ≫4
2年≫3
5年≫2
10年≫0
上述函数中的数字现在用于表示每个玩家在该情况下可能出现的各种结果中的收益。我们可以在一个矩阵上表示他们所面临的问题,该矩阵捕获了他们各自的选择相互作用的方式;这是他们游戏的策略形式:
玩家二号
坦白拒绝
玩家我承认 2,2 4,0
垃圾 0,4 3,3
图3
矩阵的每个单元格都会为每个行动组合的两个玩家提供收益。玩家 I 的收益显示为每对的第一个数字,玩家 II 的收益显示为第二个。因此,如果两名玩家都认罪,那么他们每人都会得到 2 的回报(每人 5 年监禁)。这出现在左上角的单元格中。如果他们都不认罪,他们每人将得到 3 的回报(每人 2 年监禁)。这显示为右下角的单元格。如果玩家 I 认罪而玩家 II 不认罪,那么玩家 I 的收益为 4(无罪释放),而玩家 II 的收益为 0(十年监禁)。这出现在右上角的单元格中。相反的情况,玩家 II 坦白而玩家 I 拒绝,出现在左下方的单元格中。
每个玩家通过比较每列中的个人收益来评估他或她的两个可能的行动,因为这会向您显示对于他们的伙伴的每个可能的行动,他们的哪些行动对他们自己来说是更可取的。因此,请观察:如果玩家 II 坦白,那么玩家 I 通过坦白获得 2 的收益,通过拒绝获得 0 的收益。如果玩家 II 拒绝,则玩家 I 通过坦白获得 4 的收益,通过拒绝获得 3 的收益。因此,无论玩家 II 做什么,玩家 I 最好还是坦白。与此同时,玩家 II 通过比较每一行的收益来评估她的行为,她得出的结论与玩家 I 完全相同。对于对手的每个可能的行动,只要玩家的一个行动优于她的其他行动,我们就说第一个行动严格支配第二个行动。那么,在 PD 中,对于两名球员来说,坦白严格地压倒了拒绝。两位玩家都了解彼此,因此完全消除了任何偏离严格主导路径的诱惑。因此,两名球员都会坦白,两人都会入狱5年。