游戏理论(十一)

进化博弈建模者通过运行大型计算机模拟来研究相关性和其他参数约束的影响,其中策略在虚拟环境中一轮又一轮地相互竞争。策略的起始比例以及任何选定的相关程度都可以在程序中简单地设置。然后,人们可以观察其动态随着时间的推移而展开,并测量其保持在任何一种平衡状态的时间比例。这些比例由不同可能平衡的吸引力盆地的相对大小表示。平衡点是动态空间中的吸引点;每个这样的点的吸引力盆地就是空间中的点的集合,从这些点人口将收敛到所讨论的均衡。

在将相关性引入模型时,Skyrms 首先将相关度设置为非常小的 0.1。这导致平衡 (i) 的吸引力盆缩小一半。当相关度设置为0.2时,多态盆地减少到种群开始多态性的点。因此,相关性的微小增加会导致每个人都扮演费曼角色的均衡稳定性的大幅增加。在大多数种群中,少量的相关性是一个合理的假设,因为邻居倾向于彼此互动并互相模仿(无论是遗传原因还是因为故意互相复制的倾向),并且因为遗传和文化相似的动物更容易相互模仿。可能生活在共同的环境中。因此,如果正义能够出现,它将趋于占主导地位且稳定。

政治哲学的大部分内容在于试图产生演绎性的规范性论证,旨在让不公正的代理人相信她有理由公正地行事。 Skyrms 的分析提出了一种完全不同的方法。如果费尔曼采取积极措施保持相关性,他将在动态游戏中表现最好。因此,对正义的道德认可和公正制度的出现都存在进化压力。大多数人可能认为 50-50 的分配是“公平的”,值得通过道德和制度奖励和制裁来维持,因为我们是动态游戏的产物,它促进了我们以这种方式思考的倾向。

进化博弈论最受关注的主题是利他主义,利他主义被定义为有机体在单次交互中降低自身预期适应度但增加其他交互者预期适应度的任何行为。可以说,它在自然界中很常见。然而,考虑到达尔文竞争,它是如何产生的呢?

Skyrms 使用动态囚徒困境作为例子来研究这个问题。这只是在人群中进行的一系列PD游戏,其中一些成员是叛逃者,一些成员是合作者。与进化游戏中的一贯做法一样,回报是根据未来几代中每种策略的预期副本数量来衡量的。

令 U(A) 为策略 A 在总体中的平均适应度。令 U 为全体人口的平均适应度。那么策略A在下一代中所占的比例就是U(A)/U的比值。因此,如果 A 的适应度高于总体平均值,A 就会增加。如果 A 的适应度低于总体平均值,则 A 会减小。

在互动是随机的(即没有相关性)的动态 PD 中,只要周围有合作者,叛逃者的表现就比总体平均水平要好。这是因为,正如我们在 2.4 节中看到的,背叛始终是单场博弈中的占优策略。因此,100%背叛是没有相关性的动态博弈中的ESS,对应于一次性静态PD中的NE。

然而,引入相关性的可能性从根本上改变了情况。我们现在需要计算一个策略的平均适应度,考虑到它满足每个可能策略的概率。在进化PD中,遇到其他合作者的概率高的合作者比遇到其他背叛者的概率高的背叛者做得更好。因此,相关性有利于合作。

为了能够更准确地描述相关性与合作之间的关系(并且为了能够将进化博弈论与决策论中的问题联系起来,这超出了本文的范围),Skyrms 引入了一种新的技术概念。如果在动态空间中其注视点周围存在一个区域,并且从该区域内的任何地方它都会进入注视状态,他称该策略是适应性可批准的。在进化 PD 中,背叛和合作都是可适应性批准的。吸引力盆地的相对大小对于实现相关性的特定机制高度敏感。为了说明这一点,Skyrms 构建了几个示例。

Skyrms 的模型之一通过交互配对过滤器引入了相关性。假设在动态 PD 的第一轮中,个体相互检查并交互或不交互,具体取决于他们发现的内容。在第二轮及随后的轮次中,所有在第一轮中未配对的个体都将被随机配对。在这场博弈中,除非第一轮合作者比例很高,否则背叛的吸引力盆地就很大。在这种情况下,叛逃者在第一轮中未能配对,然后在第二轮中大部分彼此配对并导致彼此灭绝。一个更有趣的模型,因为它的机制不那么人为,不允许个人选择他们的伴侣,但要求他们与最亲近的人互动。由于遗传相关性(或通过复制进行文化学习),个体更有可能与邻居相似。如果这个(有限)群体沿一维(即沿一条线)排列,并且合作者和叛逃者都被随机引入沿该维度的位置,那么我们会得到以下动态。孤立的合作者的预期适应度低于周围的叛逃者,并在当地被驱使灭绝。两个合作者组成的群体的成员有 50% 的概率相互互动,并且每个成员都有 50% 的概率与叛逃者互动。因此,它们的平均预期适应度仍然小于邻近的叛逃者,而且它们也可能面临灭绝。三个合作者组成的群体形成了一个不稳定点,从这个点出发,灭绝和扩张的可能性是相同的。然而,在四个或更多合作者的组中,保证合作者与足以至少替换原始组的合作者的至少一次相遇。在这种情况下,合作者作为一个整体比周围的叛逃者做得更好,并以牺牲他们的利益为代价而增加。最终,合作者们几乎陷入了固定状态——但也并非完全如此。人口边缘的单个叛逃者捕食末端的合作者,并作为小“犯罪群体”生存。因此,我们看到,利他主义不仅可以通过进化博弈的动态来维持,而且通过相关性,甚至可以传播和殖民原本非利他主义的群体。

因此,达尔文动力学为合作提供了合格的好消息。但请注意,只有当个人受制于自己的自然或文化规划并且无法重新评估自己的效用时,这种情况才成立。如果我们的特工变得过于聪明和灵活,他们可能会注意到自己处于 PD 状态,并且最好每个人都叛逃。在这种情况下,它们最终将走向灭亡——除非它们制定出稳定、有效的规范来加强合作。但是,当然,这些正是我们期望在动物种群中进化的结果,这些动物的平均健康水平与其成功的社会合作能力密切相关。即使如此,这些种群也将灭绝,除非他们出于某种原因关心子孙后代。但是,没有一个非感性的理由不以利他主义道德为前提,解释为什么如果每一代人在每次群体变化时都完全取代了前一代人,那么代理人为什么应该关心后代。因此,经济学家在建模跨期分配博弈时使用“重叠世代”模型。第一代中的个体将持续到第五代,为他们想要合作的第三代个体节省资源;到了第 3 代,新个体开始关心第 6 代;等等。

Gintis (2009a) 认为,当我们开始使用进化博弈论来统一行为科学时,我们应该首先使用它来统一博弈论本身。我们在本文前面的几个要点中已经指出,NE 和 SPE 在许多缺乏稳定规范或明确的制度规则的应用中是有问题的解决方案概念,因为代理人只有在他们确信的情况下才有动力去玩 NE 或 SPE。其他代理商也会这样做。如果代理人没有这样的信心,那么应该预见的是普遍的混乱和社会混乱。但现在我们可以将前面几节中的一些线索整合到一起。根据 Aumann (1974) 的结论,相关均衡可以在一定条件下解决贝叶斯学习器的这个问题。金蒂斯通过想象他所谓的“编舞者”的存在来具体化这一点。进化博弈论展示了达尔文选择过程如何充当这样的编排者。

但是,就诸如人类之类的智能战略代理而言,自然的编排者可能会被篡夺,因为代理的目标可能是优化效用函数,而其中的参数与他们的选择历史所依据的适应度标准并不相符。那么参与者需要某种平衡选择机制来避免不协调。文化进化是另一个达尔文选择过程,可能会为它们提供作为焦点的规范。这不足以确保 Harsanyi 原则的应用,而 Harsanyi 原则是确保相关平衡的识别所必需的(Aumann 1987)。一个主要问题是,如果规范依赖于偏好伪造,那么规范就会瓦解。但人们可以通过思维塑造来即时协商新规范。条件博弈论(2.0)提供了这种思维塑造的战略方面的一种模型,该模型还允许参与者了解彼此对预期效用理论的系统性偏离,从而恢复哈萨尼主义的应用条件。

但是,当然,真实的人类经常会以文化陌生人的身份彼此相遇,他们“真正地玩”,而没有事先获得充分信息的预玩机会。当我们想知道博弈论模型在结构良好的市场或严格监管的制度环境之外应用于人类行为的价值时,很大程度上取决于我们认为合理且经经验验证的协调信息和信念的来源。我们何时以及如何假设人们有动机获取此类信息和信念(这通常涉及成本)?这是最近广泛争论的一个主题,我们将在下面的第 8.3 节中对其进行回顾。

8. 博弈论和行为证据

在前面的章节中,我们回顾了将经典(非进化)博弈论视为规范理论而产生的一些问题,该理论告诉人们如果希望在战略情境中保持理性就应该做什么。正如我们所看到的,困难在于我们似乎没有一种解决方案概念可以明确推荐用于所有情况,特别是在代理拥有私人信息的情况下。然而,在上一节中,我们展示了对进化基础的诉求如何揭示了理论学家明确制定的效用函数可以合理地应用于人群的条件,从而产生具有合理且稳定的解决方案的博弈论模型。然而,到目前为止,我们还没有审查来自行为观察或实验的任何实际经验证据。博弈论确实帮助实证研究人员对行为(人类或其他行为)做出新发现吗?如果是的话,这些发现的总体内容是什么?

在解决这些问题时,我们面临着一个直接的认识论问题。没有办法独立于其他建模技术来“单独”应用博弈论。使用科学哲学中的术语标准,人们只能结合有关现象的“辅助假设”来测试一种现象的博弈论模型。至少,如果人们严格地将博弈论纯粹视为数学,没有自己的经验内容,那么就会出现这种情况。从某种意义上说,没有经验内容的理论根本无法接受检验。人们只能担心该理论所依据的公理是否相互一致。然而,数学理论可以根据经验有用性进行评估。有时对博弈论提出的一种哲学批评是,博弈论被解释为一种对行为现象进行建模的数学工具,其应用总是或通常需要对这些现象采取错误的、误导性的或过于简单化的假设。我们预计这种批评在不同的应用背景下会有不同程度的影响力,因为辅助假设有所不同。

结果事情就这样了。博弈论的应用没有一个有趣的领域是完全没有争议的。然而,关于如何使用博弈论(经典的和进化的)来理解非人类动物的行为,普遍比如何运用博弈论来解释和预测人类的战略活动更容易达成共识。在更充分地关注博弈论社会科学之前,让我们首先简要考虑一下围绕博弈论在非人类生物学中的应用而出现的哲学和方法论问题。

争议最少的博弈论模型应用了该理论的经典形式来考虑非人类动物寻求获得与其进化竞赛相关的基本资源的策略:产生本身可能繁殖的后代的机会。为了最大限度地提高其预期的适应性,动物必须在各种中间产品之间找到最佳权衡,例如营养、免受捕食的安全以及在配偶竞争中击败对手的能力。通常可以针对特定环境条件下的特定物种来估计这些产品之间的有效权衡点,并且在这些估计的基础上,可以得出参数和非参数平衡。这类模型在预测和解释有关竞争性觅食、配偶选择、裙带关系、兄弟姐妹竞争、放牧、集体反捕食者警惕和信号、相互梳理和种间相互性(共生)等战略现象的独立经验数据方面有着令人印象深刻的记录。 )。(例如参见Krebs and Davies 1984、Bell 1991、Dugatkin and Reeve 1998、Dukas 1998,Noe、van Hoof 和 Hammerstein 2001。)另一方面,正如 Hammerstein(2003)观察到的那样,互惠及其利用和元开发在社会性非人类动物中比博弈论模型所导致的要少见得多。汉默斯坦对此提出的一种解释是,与我们在上一节中讨论的重要性相比,非人类动物通常没有能力限制其互动伙伴。稳定博弈解的相关性为这一建议提供了理论支持。

为什么经典博弈论比大多数人类行为更直接地帮助预测非人类动物行为?据推测,答案在于辅助假设和现象之间关系的不同程度的复杂性。 Ross (2005a) 提供了以下说明。效用优化问题属于经济学领域。经济理论将优化单位(经济主体)确定为具有不变的偏好领域。生物体的认知复杂性越低,用此类试剂识别整个生物个体的可能性就越大。因此,昆虫(例如)是为方便显示偏好理论的应用而量身定制的(参见第 2.1 节)。然而,随着神经系统变得更加复杂,我们遇到了能够学习的动物。学习可以对动物的行为模式造成足够程度的永久性改变,以至于我们可以在整个改变过程中保留生物个体对单一个体的识别,但代价是解释性的空虚(因为效用函数的分配变得越来越临时化)。此外,不断增加的复杂性使第二个维度上的简单模型变得混乱:认知复杂的动物不仅会随着时间的推移改变它们的偏好,而且受到分布式控制过程的控制,这使它们成为内部代理之间的竞争场所(Schelling 1980;Ainslie 1992;Ainslie 2001)。因此,即使在某一时刻,它们也不是直接的经济主体。在开始使用经济理论的任何部分(包括博弈论)对人们的行为进行建模时,我们必须认识到,任何给定的人与我们为建模目的而构建的经济主体之间的关系总是比简单的身份更为复杂。

动物在认知上变得过于复杂而无法被建模为单一经济主体,并不存在尖锐的交叉点,并且对于所有动物(包括人类)来说,在某些情况下我们可以有效地忽略复杂性的共时维度。然而,当我们从非社会性动物转向非真社会性社会性动物时,我们在建模动态中遇到了阶段性转变。 (这是指具有社会性但不具有社会性的动物,例如蚂蚁、蜜蜂、黄蜂、白蚁和裸鼹鼠,它们通过群体遗传学的根本变化实现合作,使群体内的个体接近克隆。一些已知的例子是鹦鹉、鸦科动物、蝙蝠、老鼠、犬科动物、鬣狗、猪、浣熊、水獭、大象、蹄兔、鲸目动物和灵长类动物。)在他们的情况下,内部控制动态的稳定部分位于个人之外,在群体动态的层面上。对于这些生物,将个体建模为具有单一综合效用函数的经济主体是一种极端的理想化,这只能在方法论上极其谨慎并关注与特定建模练习相关的特定背景因素的情况下才能完成。在这里,博弈论的应用只能在经验上充分的情况下,经济模型在经验上是充分的。

智人是这方面的极端例子。与大多数其他非社会性物种相比,人类个体受到了极端程度的社会控制。与此同时,他们巨大的认知可塑性使他们在不同文化之间存在显着差异。因此,人是所有生物体中最不直接的经济主体。 (因此,可能会被认为具有讽刺意味的是,由于它们据称具有优越的“理性”,它们最初并多年来一直被视为经济机构的典范。)我们将考虑这对博弈论应用的影响以下。

然而,首先,需要对进化博弈论在解释和预测主体群体中战略部署的分布方面的经验充分性进行评论。这种模型既适用于作为自然选择产物的动物(Hofbauer 和 Sigmund 1998),也适用于作为文化选择产物的非真社会性社会动物(尤其是人类)(Boyd 和 Richerson 1985;Young 1998)。在构建此类应用程序时,必须针对当前的特定实例证明两种主要的辅助假设的合理性。首先,人们必须有理由相信,一个人试图解释的倾向是(生物的或文化的,视情况而定)适应性——也就是说,由于他们促进自己的方式而选择和维持的倾向。适应性或更广泛系统的适应性,而不是其他适应的意外或结构上不可避免的副产品。 (有关此问题的一般讨论,请参见 Dennett 1995。)其次,人们必须能够在一组关于不同时间尺度上嵌套进化过程之间相互关系的合理假设的背景下建立建模事业。 (例如,对于具有文化动态的物种,缓慢的遗传进化如何限制快速的文化进化?文化进化如何反馈到遗传进化中,如果它有反馈的话?有关这些问题的精彩讨论,请参阅Sterelny 2003。)关于人类进化应该做出这样的假设的相互冲突的观点是当前人类行为倾向和制度的进化博弈论模型中激烈争论的基础。这就是进化博弈论中的问题与蓬勃发展的行为实验博弈论领域中的问题相遇的地方。因此,在理解刚才提到的争议之前,我们将首先考虑第二个领域,这些争议现在构成了博弈论及其应用基础中最活跃的哲学论证领域。

8.1 实验室中的博弈论

自瑟斯顿(Thurstone,1931)的开创性工作以来,经济学家一直通过对人类和其他动物进行实验室实验来检验理论。近几十年来,此类工作量已变得巨大。其中绝大多数将主题设置在不完全竞争的微观经济问题环境中。由于这正是微观经济学崩溃为博弈论的条件,因此大多数实验经济学都是实验博弈论。因此,很难区分关于微观经济理论的经验充分性的实验动机问题和关于博弈论的经验充分性的问题。

我们在这里只能对大量复杂的文献进行广泛的概述。读者可参考 Kagel 和 Roth (1995)、Camerer (2003)、Samuelson (2005) 的批判性调查以及 Guala (2005) 的方法论综述。对文献进行排序的一个有用的高级原则将其索引到应用博弈论公理的不同辅助假设。在流行的演讲中(例如,Ormerod 1994)经常说,实验数据通常反驳了人们是理性经济主体的假设。这种说法太不精确,无法对结果进行可持续的解释。所有数据都符合这样的观点,即人们是近似经济主体,至少在足够长的时间内允许对特定场景进行博弈论分析,在最小的意义上,他们的行为可以与显示偏好理论兼容地建模(参见第 1 节) 2.1)。然而,RPT 在实证要求方面做得很少,以至于这并不像许多非经济学家想象的那么令人惊讶(Ross 2005a)。在围绕实验证据的一般解释的许多争论中,真正的问题是人们在多大程度上是预期效用的最大化者。正如我们在第3节中看到的那样,预期的效用理论(EUT)通常与游戏理论同时应用,以模拟涉及不确定性的情况(即大多数对行为科学感兴趣的情况)的模型。然而,多种替代效用的替代结构模型将自己赋予了偏好的von neumann-morgenstrant基本化,并且可以根据野蛮人(1954)的主观实用程序的公理来定义。只有当我们认为人们的行为通常无法通过基本的VNMUFS来描述时,游戏理论的经验实用性才会受到质疑。

从理论家的角度来看,实验文献确实表明的是一个通常嘈杂的行为世界。所讨论的噪音源于人们和(人,情况)向量之间的实质异质性。没有单一的结构效用函数,因此所有人的行动可以在所有情况下最大化该结构的功能。在不太要求的情况下面对学习良好的问题,或者是高度制度上结构化的人通常的行为通常就像预期的实用程序最大化器一样。有关理论问题和证据的一般评论,请参见Smith(2008)和Binmore(2007)。有关经验研究示例的扩展顺序,请参见Plott和Smith 1978年讨论的所谓的“连续双重拍卖”实验,以及Smith 1962,1964,1965,1965,1976,1982。结果,可以将古典游戏理论用于这类具有高度可靠性的领域可以预测行为和实施公共政策,这是由游戏理论家设计的数十种非常成功的公用事业和其他资产的政府拍卖,旨在增加公共收入(Binmore and Klemperer 2002)。

(本章完)

相关推荐