游戏理论(五)
对于不同的主体以及不同复杂度和风险级别的游戏,平衡学习可以采取不同的形式。因此,将其纳入交互的博弈论模型中引入了一系列广泛的新技术细节。对于最完善的一般理论,读者可以参考 Fudenberg 和 Levine (1998);同一批作者在 Fudenberg 和 Levine (2016) 中对这些问题进行了非技术性概述。第一个重要的区别是学习与普通玩家重复游戏的轮次之间的特定参数(参见第 4 节)和了解不同游戏的一般战略期望。如果学习者根据她经常遇到的玩家类型模型更新期望,则后者可以包括了解玩家。然后我们可以区分被动学习和主动学习,在被动学习中,玩家只是根据她对动作和结果的观察以及她从中推断出的策略选择来更新她的主观先验,在主动学习中,她在技术语言屏幕中探索信息通过选择测试她对她认为的游戏均衡路径之外将会发生什么的猜想的策略来了解其他玩家的策略。对于玩家和建模者来说,一个主要困难是,如果玩家也被激励采取行动来向彼此传递信息,那么筛选行动可能会被误解(参见第 4 节)。换句话说:在某些情况下,尝试学习策略可能会干扰玩家学习均衡的能力。最后,到目前为止的讨论假设游戏中所有可能的学习都是关于游戏本身的结构。 Wilcox (2008) 表明,如果玩家学习有关游戏外发生的因果过程的新信息,同时尝试更新对其他玩家策略的期望,建模者会发现自己超出了当前技术知识的限制。
上面说过,人们通常可能会玩得好像他们相信手会颤抖一样。造成这种情况的一个非常普遍的原因是,当人们互动时,世界并没有向他们提供提示卡来建议他们正在玩的游戏的结构。他们必须从自己的社会背景中做出并检验对此的猜想。有时,背景是由制度规则决定的。例如,当一个人走进一家零售店,看到她想要的东西的价格标签时,她不需要猜测或了解任何东西就知道她参与了一个简单的“接受或离开”游戏。在其他市场,她可能知道自己需要讨价还价,也知道讨价还价的规则。
鉴于学习理论和博弈论之间尚未解决的复杂关系,上述推理似乎意味着博弈论永远不能应用于涉及人类玩家的新情况。然而幸运的是,我们并没有面临这样的僵局。在两篇有影响力的论文中,McKelvey 和 Palfrey (1995, 1998) 提出了量子响应平衡 (QRE) 的解概念。 QRE 不是 NE 的改进,从某种意义上说,QRE 是一种通过参考理性规范标准来强化 NE 的哲学动机努力。相反,它是一种计算参与者所做选择的均衡属性的方法,这些参与者对其他参与者选择中可能出现的错误的猜测是不确定的。因此,QRE 是实验经济学家工具箱中的标准设备,他们试图估计处于游戏建模情境中的真实人群中效用函数的分布。在 Stata (TM) 等计量经济学软件包的开发允许在来自有趣的复杂游戏的足够强大的观察记录的情况下计算 QRE 之前,QRE 不会以这种方式实际使用。在分析实验室数据时,行为经济学家很少使用 QRE,心理学家也几乎从未使用过 QRE。因此,这类研究人员的许多研究都通过“发现”现实中的人在实验游戏中常常无法收敛到 NE 来提出戏剧性的修辞观点。但是,尽管 NE 在某种意义上是一个极简主义解决方案概念,因为它从许多信息结构中抽象出来,但如果它被明确地强加(也就是说,如果玩家被期望玩得好像他们都确信其他人都在玩NE策略)。与 QRE 一致的预测游戏与 NE 捕捉战略均衡的核心一般概念的观点是一致的(事实上,是受其启发的)。构建 NE 和 QRE 之间的哲学关系的一种方法如下。 NE 定义了一个逻辑原则,该原则非常适合规范思想和为新类别的社会现象的通用建模设想新策略。为了估计真实的经验数据,我们需要能够在统计上定义均衡。 QRE 代表了一种实现此目的的方法,与 NE 的逻辑一致。这个想法足够丰富,其深度仍然是博弈论学家研究的开放领域。 Goeree、Holt 和 Palfrey (2016) 对 QRE 的当前理解状态进行了全面回顾。
3. 不确定性、风险和序贯均衡
到目前为止,我们建模的游戏都涉及玩家从纯策略中进行选择,其中每个人都在每个节点寻求单一的最佳行动方案,以构成对其他人行动的最佳回应。然而,玩家的效用通常是通过使用混合策略来优化的,即她在几种可能的行动中掷一枚加权硬币。 (稍后我们将看到混合有另一种解释,不涉及特定信息集的随机化;但我们将从抛硬币解释开始,然后在第 3.1 节中以它为基础。)只要不存在,就需要混合。纯策略最大化玩家对抗所有对手策略的效用。我们第一部分的过河游戏就证明了这一点。正如我们所看到的,该游戏中的谜题在于,如果逃亡者的推理选择特定的桥梁作为最佳,则必须假设他的追捕者能够复制该推理。只有当追捕者无法可靠地预测他将使用哪座桥时,逃亡者才能逃脱。两名玩家逻辑推理能力的对称确保了逃亡者只有能够让追捕者措手不及,才能让自己措手不及。
假设我们暂时忽略岩石和眼镜蛇,并想象桥梁同样安全。还假设逃犯对追捕者没有特殊的了解,这可能导致他对追捕者的可用策略进行专门推测的概率分布。在这种情况下,逃亡者的最佳做法是掷三面骰子,其中每一面代表不同的桥(或者更传统地,掷六面骰子,其中每个桥由两侧代表)。然后,他必须预先承诺使用该随机装置选择的任何桥。无论追赶者做什么,这都决定了他的生存几率;但是,由于追捕者没有理由更喜欢任何可用的纯粹或混合策略,并且由于在任何情况下我们都假设她的认知状况与逃亡者的认知状况对称,因此我们可以假设她会掷出她的三面骰子。逃亡者现在有2/3的概率逃脱,追捕者有1/3的概率抓住他。鉴于对方的随机组合,逃犯和追捕者都无法提高自己的机会,因此两种随机策略处于纳什均衡。请注意,如果一个玩家进行随机化,那么另一个玩家在桥梁上的任何概率组合上都表现得同样好,因此最佳答复的组合有无限多种。然而,每个玩家都应该担心除了随机策略之外的任何内容都可能与其他玩家可以检测和利用的某些因素相协调。由于任何非随机策略都可以被另一个非随机策略利用,因此在零和游戏(例如我们的示例)中,只有随机策略的向量才是 NE。
现在让我们重新引入参数因素,即#2桥的落石和#3桥的眼镜蛇。再次假设逃亡者肯定会安全地穿过1:桥,有 90% 的机会穿过2:桥,并且有 80% 的机会穿过3:桥。如果我们对两个玩家的效用函数做出某些假设,我们就可以解决这个新游戏。假设逃亡者玩家 1 只关心生或死(宁愿生也不愿死),而追捕者只是希望能够报告逃犯已死,而不是必须报告他逃脱了。 (换句话说,两个玩家都不关心逃犯如何生或死。)现在还假设两个玩家都不会因为承担或多或少的风险而获得任何效用或负效用。在这种情况下,逃亡者只需采用他最初的随机化公式,并根据三座桥的不同参数危险级别对其进行加权。每一座桥都应该被视为对逃亡者可能结果的彩票,其中每一次彩票在其效用函数中的项目方面都有不同的预期收益。
从追求者的角度考虑问题。当她选择三座桥上的概率组合时,她将使用她的 NE 策略,这使得逃亡者在他可能的纯策略中漠不关心。对他来说,有石头的桥比安全桥危险1.1倍。因此,当追击者在安全桥等待的可能性是在石桥等待的1.1倍时,他就会对两者漠不关心。对于逃亡者来说,眼镜蛇桥的危险性是安全桥的 1.2 倍。因此,当追赶者在安全桥等待的概率比她在眼镜蛇桥等待的概率高1.2倍时,他就会在这两座桥之间无所谓。假设我们用 s1、s2 和 s3 来表示逃犯在每座桥上的参数生存率。然后,追赶者通过调整她在桥上等待的概率 p1 和 p2 来最小化穿过任何一对桥的净生存率,以便
s1(1−p1)=s2(1−p2)
由于 p1+p2=1,我们可以将其重写为
s1×p2=s2×p1
所以
p1
s1
=
p2
S2
。
因此,追击者通过求解以下联立方程来找到她的NE策略:
1(1−p1) =0.9(1−p2)
=0.8(1−p3)
p1+p2+p3=1
然后
p1=
49
121
p2 =
41
121
p3=
31
121
现在让 f1、f2、f3 代表逃亡者选择各个桥梁的概率。然后逃亡者通过求解找到他的NE策略
s1×f1 =s2×f2
=s3×f3
所以
1×f1=0.9×f2
=0.8×f3
同时与
f1+f2+f3=1
然后
f1=
36
121
f2 =
40
121
f3=
45
121
这两组 NE 概率告诉每个玩家在投掷骰子之前如何衡量其骰子的重量。请注意,也许令人惊讶的结果是,尽管根据假设,逃亡者并没有从赌博中获得乐趣,但他却更有可能使用风险更高的桥梁。这是让追捕者不在乎她在哪座桥上放哨的唯一方法,这反过来又可以最大限度地提高逃亡者的生存概率。
我们能够直接解决这个游戏,因为我们以零和或严格竞争的方式设置效用函数。也就是说,一个参与者的每一次预期效用的增益都代表着另一个参与者的精确对称的损失。然而,这个条件通常可能不成立。现在假设效用函数更加复杂。追捕者最喜欢的结果是她射杀了逃亡者,因此将逃亡者的逮捕归功于他死于落石或蛇咬伤的结果;与他的逃跑相比,她更喜欢第二种结果。逃亡者宁愿被枪杀,也不愿忍受被压碎的痛苦或遭遇眼镜蛇的恐惧。当然,最重要的是,他更喜欢逃跑。假设,逃亡者更关心的是生存,而不是以一种方式而不是另一种方式被杀。我们不能像以前一样仅仅基于了解玩家的序数效用函数来解决这个游戏,因为他们各自偏好的强度现在将与他们的策略相关。
在冯·诺依曼和摩根斯特恩 (1947) 的工作之前,此类情况本质上令分析师感到困惑。这是因为效用并不表示诸如快乐之类的隐藏心理变量。正如我们在 2.1 节中讨论的,效用仅仅是在给定偏好和选择之间关系的某些一致性假设的情况下相对行为倾向的度量。因此,想象将我们玩家的基本偏好(即对强度敏感的偏好)与彼此的偏好进行比较是没有意义的,因为我们没有可以使用的独立的、人际间恒定的标准。那么,我们如何才能对与基本信息相关的博弈进行建模呢?毕竟,正如我们所见,建模游戏需要同时考虑所有玩家的效用。
冯·诺依曼和摩根斯特恩 (von Neumann & Morgenstern, 1947) 工作的一个重要方面就是解决这个问题。在这里,我们将简要概述他们从序数函数构建基数效用函数的巧妙技术。需要强调的是,接下来的内容只是一个概述,以便让作为一个有兴趣了解博弈论的哲学基础及其可应用的问题范围的学生,基数效用不再神秘。提供一本您可以遵循的构建自己的基本实用函数的手册将需要很多页。许多教科书中都可以找到此类手册。
假设我们现在将以下序数效用函数分配给过河逃犯:
逃脱≫4
枪击死亡≫3
落石致死 ≫2
蛇咬伤死亡 ≫1
我们假设他对逃避任何形式的死亡的偏好强于他对死亡原因的偏好。这应该通过以下方式反映在他的选择行为中。在过河游戏这样的情况下,他应该愿意冒更大的风险来增加射击时逃脱的相对概率,而不是增加被蛇咬伤时射击的相对概率。这段逻辑是 von Neumann 和 Morgenstern(1947)解决基数化问题背后的关键见解。
假设我们要求逃亡者从可用的一组结果中选择一个最好的结果和一个最差的结果。 “最好”和“最差”是根据预期收益来定义的,如我们当前的零和游戏示例所示:如果玩家在仅包含两种可能奖品的彩票中进行选择时,他总是选择以下方式,则他的预期收益最大化:最大化最佳结果的概率(称为 W),并最小化最坏结果的概率(称为 L)。现在想象一下扩大可能奖励的集合,使其包括代理认为介于 W 和 L 之间的奖励。我们发现,对于一组包含此类奖品的结果,对它们进行抽奖,这样我们的代理对该抽奖和仅包含 W 和 L 的抽奖之间没有关系。在我们的示例中,这是一个包括被射击和被石头压碎的抽奖。将此彩票称为 T 。我们定义一个从结果到实数(而不是序数)数轴的效用函数 q=u(T),这样,如果 q 是 T 中的预期奖金,那么代理在赢得 T 和赢得彩票 T* 之间是无关紧要的,其中W 出现的概率为 u(T),L 出现的概率为 1−u(T)。假设代理人的行为遵循复合彩票减少原则(ROCL)——也就是说,他不会因为考虑更复杂的彩票而不是简单的彩票而获得或失去效用——T 到 uT* 中结果的映射集给出了von Neumann-Morgenstern 效用函数 (vNMuf),具有 T 中所有结果的基数结构。
我们在这里到底做了什么?我们让代理人通过抽签来选择,而不是直接决定结果,并观察他愿意冒多少额外的死亡风险来改变一种死亡形式相对于另一种死亡形式的几率。请注意,这仅相对于特定于代理的参考点 W 和 L 来简化代理的偏好结构;该过程没有揭示主体之间相对的超序偏好,这有助于明确构建 vNMuf 不会引入潜在的客观心理因素。此外,一场游戏中的两名代理人,或不同情况下的一名代理人,可能会表现出不同的风险态度。或许,在渡河游戏中,没有生命危险的追击者会以她的荣耀来享受赌博,而我们的逃亡者会小心翼翼。然而,在分析过河博弈时,我们不必能够将追捕者的基本效用与逃亡者的基本效用进行比较。毕竟,如果两个智能体能够估计各自分配给另一个智能体的动作的概率,那么它们就可以找到自己的 NE 策略。这意味着每个人都必须知道两个 vNMuf;但他们都不需要尝试比较评估他们所选择的结果。
现在,我们可以填写第 2 节中开始绘制的过桥博弈矩阵的其余部分。如果两个参与者都是风险中性,并且他们所揭示的偏好尊重 ROCL,那么我们就有足够的信息来分配预期效用,通过将原始收益乘以相关概率来表示,作为矩阵中的结果。假设猎人以 x 的概率在眼镜蛇桥等待,以 y 的概率在石桥等待。由于她穿过三座桥的概率之和必须为 1,这意味着她必须以 1−(x+y) 的概率在安全桥处等待。然后,继续为逃亡者分配收益为 0(如果他死了,如果他逃跑则为 1),而猎人则分配相反的收益,我们的完整矩阵如下:
猎人
安全桥 落基桥 眼镜蛇桥
逃犯安全桥 0,1 1,0 1,0
落基桥 0.9,0.1 0,1 0.9,0.1
眼镜蛇桥 0.8,0.2 0.8,0.2 0,1
图12
我们现在可以直接从矩阵中读取有关游戏的以下事实。没有一对纯粹的策略是对对方的最佳回应。因此,游戏唯一的NE需要至少一名玩家使用混合策略。
3.1 信念和主观概率
在我们迄今为止的所有示例和工作中,我们都假设玩家对彩票概率的信念与客观概率相匹配。但在真正的交互式选择情况下,代理人通常必须依赖他们对概率的主观估计或感知。 Savage(1954)是对二十世纪行为和社会科学最伟大的贡献之一,他展示了如何在冯·诺依曼-摩根斯特恩期望效用理论的框架内纳入主观概率及其与风险偏好的关系。事实上,Savage 的成就相当于 EUT 的正式完成。然后,仅仅十多年后,Harsanyi(1967)展示了如何解决涉及 Savage 期望效用最大化的博弈。这通常被认为标志着博弈论作为应用于行为和社会科学的工具的真正成熟,并且当哈萨尼与纳什和塞尔滕一起成为 1994 年颁发给博弈论学家的第一届诺贝尔奖获得者时,也被认为是这样。
正如我们在考虑玩游戏的人需要学习颤手平衡和 QRE 时观察到的那样,当我们对人们的战略互动进行建模时,我们必须考虑到人们通常不确定他们彼此的模型这一事实。这种不确定性反映在他们的策略选择上。此外,可能会专门为了了解玩家对其他玩家的猜测的准确性而采取一些行动。海萨尼对博弈论的扩展包含了这些关键要素。
考虑下面被称为“Selten 的马”的三人不完美信息游戏(以其发明者诺贝尔奖获得者 Reinhard Selten 命名,并因其树的形状;摘自 Kreps (1990),第 426 页):
图13
图13
该游戏有四个 NE:(L,l2,l3)、(L,r2,l3)、(R,r2,l3) 和 (R,r2,r3)。考虑其中的第四个 NE。出现这种情况是因为,当玩家 I 玩 R,玩家 II 玩 r2 时,玩家 III 的整个信息集都脱离了游戏路径,并且玩家 III 做什么对结果并不重要。但如果玩家 III 能够区分节点 13 和节点 14 之间的区别,玩家 I 就不会玩 R。游戏的结构激励玩家 I 努力向玩家 III 提供信息,从而打开她封闭的信息集。玩家 III 应该相信这个信息,因为游戏的结构表明玩家 I 有动力如实传达它。博弈的解决方案将是(现在)完美信息博弈的 SPE:(L,r2,l3)。
将博弈论视为一般理性规范理论一部分的理论家,例如大多数哲学家和经济学家中的精化计划爱好者,已经寻求一种根据一般原则确定该解决方案的策略。请注意,塞尔滕之马中的玩家 III 在选择策略时可能会想知道什么。 “鉴于我得到了一步,我的动作节点是从节点 11 还是从节点 12 到达的?”换句话说,假设玩家 III 有一步棋,他处于节点 13 或 14 的条件概率是多少?现在,如果条件概率是玩家 III 所想知道的,那么玩家 I 和 II 在选择策略时可能做出的猜想就是玩家 III 对这些条件概率的信念。在这种情况下,玩家 I 必须推测玩家 II 对玩家 III 信念的信念,以及玩家 III 对玩家 II 信念的信念,依此类推。这里的相关信念不仅仅是战略性的,就像以前一样,因为它们不仅仅是关于玩家在给定一组收益和游戏结构的情况下会做什么,而是关于他们应该期望其他玩家如何操作的条件概率的理解。
玩家对彼此的期望是合理的,关于条件概率的信念是什么?如果我们遵循 Savage (1954),我们会建议作为一项规范原则,他们应该根据贝叶斯规则进行推理并期望其他人进行推理。这告诉他们如何在给定信息 E 的情况下计算事件 F 的概率(写为“pr(F∣E)”):
pr(F∣E)=
pr(E∣F)×pr(F)
pr(E)
我们将在下面的示例中应用贝叶斯规则。但首先需要对其在博弈论中的一般意义进行一些理论讨论。在第 2.8 节中,我们看到当玩家有学习空间时,博弈论中会引入一系列复杂的情况。