游戏理论（十）_数学联邦政治世界观()

如果美国的生存前景变得无望，总统可能不太确定是否能够到达潜艇并取消其攻击命令。当然，打破对称性的价值取决于俄罗斯人是否意识到了潜在的问题。在斯坦利·库布里克的经典电影《奇爱博士》中，世界因意外而被毁灭，因为苏联人建造了一台末日机器，无论他们的领导层是否决心贯彻隐含的疯狂威胁，然后又保守秘密，它都会自动触发报复性打击。结果，当一位明显疯狂的美国上校主动向俄罗斯发射导弹时，美国总统试图让苏联总统相信这次袭击是无意的，后者羞涩地告诉他秘密的末日机器。现在，两位领导人无能为力，只能沮丧地看着世界因博弈论错误而被炸毁。

这个冷战对峙的例子虽然在博弈论及其受欢迎的历史上著名且相当重要，但当时所依赖的分析并不是很微妙。军事博弈理论家几乎肯定是错误的，因为他们一开始就把冷战建模为一次性的PD。一方面，核平衡博弈陷入了更为复杂的全球权力博弈之中。另一方面，对于任何一个超级大国来说，消灭对方同时避免自我毁灭实际上是否是排名最高的结果还远不清楚。如果不是，无论是其中一种还是两种情况，那么这款游戏就不是 PD。愤世嫉俗者可能会认为，双方的运筹学研究人员在一场资金博弈中采取了一种狡猾的策略，他们相互合作，以说服政客将更多资源分配给武器。

在更平凡的情况下，大多数人都会利用亚当·斯密很久以前将其作为其社会秩序理论的核心的无处不在的承诺手段：人们自己的声誉的价值。即使我私下里很小气，我也可能希望在餐馆里给小费，让别人认为我很慷慨，包括我再也不想去的餐馆。我做这种事情越多，我对宝贵声誉的投资就越多，而我可能会因为一次明显的、观察到的卑鄙行为而严重损害这种声誉。因此，我来之不易的慷慨声誉在特定游戏中起到了承诺机制的作用，本身就强制持续进行再投资。随着时间的推移，我的仁慈可能会成为习惯，从而对环境变化不敏感，以至于分析师没有剩余的经验证据来继续将我塑造为偏好吝啬的人。有大量证据表明，人类的超社交性是由进化的生物倾向（大多数人但不是所有人都发现）支持的，这些倾向会在情感上遭受负面八卦和对其的恐惧。人们也天生喜欢八卦，这意味着当他们的承诺装置失效时通过传播消息来惩罚他人是一种社会治安形式，他们认为这种做法成本高昂，也不会乐意接受。这种惩罚形式的一个很好的特点是，与用棍棒打人不同，它可以撤销，而不会对受惩罚者造成长期伤害。这是一个令人愉快的属性，其目的是维持为联合社会项目做出贡献的激励措施；与没有骨折的队友合作通常会更富有成效。因此，宽恕惯例在自然选择为我们建立的这种优雅的承诺机制中也发挥着战略作用。正如第 4 节所讨论的，“宽恕公约”本身就是规范的一个实例，而社区的规范为声誉管理提供了至关重要的社会支架。作为一个近似的概括，人们在进入成年期时会在三种声誉状况之一的投资之间进行选择：（i）大多数多数规范的支持（可能涉及偏好伪造），（ii）有区别地支持多数和多数的混合。小说、少数群体规范（“潮流引领者”，用 Bicchieri (2017) 的术语来说），或 (iii) 个人主义反叛。人们往往认为这三种规范人格类型都是可以解读的，这是获得有用声誉的关键要求。有用声誉的概念应该与普遍认可的声誉的概念区分开来。潮流引领者和反叛者通常会受到广泛的反对，但这本身可以帮助他们避免陷入必须在损害自己声誉和赚取低物质回报之间做出选择的游戏；社会的不满通常会帮助潮流引领者和反叛者相互协调。宗教故事或涉及康德道德“理性”的哲学故事特别有可能在解释规范时被讲述，因为人们不会想到潜在的博弈论基础；正因为如此，所讨论的规范可能会更有效地支持声誉，因为宗教或哲学故事隐藏了个人战略控制声誉的程度。（存在主义哲学家称这种机制为“恶意”）。这些故事会引发真诚的情感，尤其是愤怒，这是一种直接的承诺机制，可以相互增强声誉的投资价值。

尽管所谓的“道德情感”对于维持承诺非常有用，但它们并不是必需的。众所周知，较大的人类机构在道德上非常迟钝。然而，承诺通常对其功能逻辑至关重要。例如，政府试图与恐怖分子谈判以确保在特定场合释放人质，可能会采取“沙中线”战略，以保持强硬的声誉，从而减少恐怖分子发动未来袭击的动机澳大利亚航空公司提供了一个不同的例子。澳洲航空从未发生过致命事故，并且有一段时间（直到它遭遇了一些令人尴尬的非致命事故，它可能担心引起注意）在其广告中对此进行了大量宣传。这意味着，至少在那个时期，它的飞机可能比平均水平更安全，即使最初的优势只是统计上的一点好运，因为它持续的时间越长，其声称完美记录的能力的价值就越高，因此不断激励航空公司在安全保障方面承担更大的成本。它可能仍然有动力格外小心，以防止其死亡记录跨越 0 到 1 之间的神奇声誉线。

如果声誉效应要保证承诺，则必须满足某些条件。一个人的声誉可以在她玩的一系列游戏中具有长期价值，但在这种情况下，她对其价值的关注应该被纳入指定她参与的每个特定游戏的回报中。只有在重复游戏的情况下才能通过玩游戏来建立声誉。那么，声誉对于其培养者的价值必定大于她在重复游戏的任何特定回合中牺牲声誉对于她的价值。因此，玩家可以通过降低每一轮的价值来建立承诺，这样在任何一轮中背叛的诱惑都不会高到足以构成难以抗拒的诱惑。例如，合同双方可以小幅地交换其义务，以减少双方违约的动机。因此，建筑项目的建筑商可以按周或按月分期付款。同样，国际货币基金组织经常向政府小额发放贷款，从而减少政府在资金到位后违反贷款条件的动机；各国政府实际上可能更喜欢这种安排，以消除因不合规使用资金而产生的国内政治压力。当然，我们都熟悉这样的情况：当前一轮的背叛所带来的回报相对于未来合作的声誉的长期价值来说太大了，当我们醒来时，我们发现社团财务主管一夜之间潜逃了。资金。通过关注声誉做出的承诺是社会的粘合剂，但任何这样的天然粘合剂都远非完全有效。

7.进化博弈论

Gintis (2009b, 2009b) 认为“博弈论是统一行为科学的通用语言”是有道理的。这种统一工作有很好的例子。 Binmore（1998，2005a）将社会复杂性增加的历史建模为常见交易游戏中日益有效的均衡的一系列收敛，并被一些人试图通过偏离稳定均衡路径转向新均衡的事件所打断，从而导致周期性的（例如，斯大林试图将他的社会转变为一种平衡，在这种平衡中，人们更关心他们国家未来的工业、军事和政治力量，而不是他们自己的生活。他是从长远来看，他的努力并不成功；然而，他的努力确实造成了一种情况，在这种情况下，几十年来，许多苏联人对其他人的生活的重视程度远不如平时。）博弈论的观点确实似乎在理解现象方面普遍有用。例如，在第 4 节中，我们考虑了刘易斯的认识，即每种人类语言相当于围绕信息传递的协调博弈中的纳什均衡网络。

考虑到他的工作的年代，刘易斯将他的注意力限制在静态博弈论上，在静态博弈论中，代理人被建模为在给定外生固定效用函数的情况下故意选择策略。由于这种限制，他的解释导致一些哲学家错误地追求惯例合理性的一般分析理论（正如 Bickhard 2008 所指出的）。尽管宾莫尔通过职业生涯的贡献多次批评了这一焦点（请参阅参考文献以获取选择），但金蒂斯（2009a）最近以特别清晰和坚韧的方式隔离了根本问题。当应用于动物（包括人类）大脑等自然进化的计算机制时，NE 和 SPE 是脆弱的解决方案概念。正如我们在上面第 3 节中看到的，在具有多个 NE 的协调（和其他）博弈中，玩家所做的经济合理的事情对其他玩家的学习状态高度敏感。一般来说，当玩家发现自己处于没有严格占优策略的博弈中时，他们只有简单的动机去玩 NE 或 SPE 策略，以至于其他玩家可以期望找到他们的 NE 或 SPE 策略。哲学家所寻求的那种战略理性的一般理论是否能够合理地预期涵盖由此产生的意外情况？正如我们在第 3.1 节中回顾的那样，诉诸贝叶斯推理原则是尝试将这种不确定性纳入理性战略决策理论的标准方法。然而，正如宾莫尔（Binmore，2009）在萨维奇（Savage，1954）的带领下所论证的那样，贝叶斯原理只有在所谓的“小世界”中才可能作为理性本身的原则，即在一组环境中风险分布被量化的环境。已知的和可枚举的参数，就像第 3 节中的过河游戏的解决方案一样。在大世界中，效用函数、策略集和信息结构很难估计，并且可能会因由于受偶然的外生影响，贝叶斯规则告诉玩家如何“保持理性”的想法是相当难以置信的。但是，为什么我们应该期望玩家在广泛的社交互动中选择 NE 或 SPE 或顺序均衡策略呢？

正如宾莫尔（Binmore，2009）和金蒂斯（Gintis，2009a）都强调的那样，如果博弈论要被用来模拟实际的、自然的行为及其历史，那么在微观经济学家（而不是宏观经济学家、政治学家、社会学家或社会学家）所依赖的小世界环境之外，科学哲学家）主要是交通，那么我们需要一些关于游戏中均衡的吸引力的说明，即使没有任何分析可以通过驯服所有不确定性来识别它们，从而可以将其表示为纯粹的不确定性再次提及刘易斯的话题，当人类语言发展起来时，没有外部裁判来关心和安排帕累托效率，通过提供协调的焦点。然而不知何故，人们在语言社区内同意使用大致相同的词语和结构来表达相似的事物。任何人的任何明确的、深思熟虑的战略似乎都不太可能在这些过程中发挥作用。尽管如此，博弈论还是为理解语言稳定性提供了基本概念。这是支持金蒂斯对博弈论影响力的乐观态度的一个引人注目的论点。为了理解它，我们必须将注意力扩展到进化博弈。

自梅纳德·史密斯（Maynard Smith，1982）及其合作者的开创性工作以来，博弈论已在进化生物学中得到了卓有成效的应用，其中物种和/或基因被视为参与者。进化（或动态）博弈论随后发展成为一种重要的数学扩展，具有几个不同的子扩展，适用于除生物之外的许多环境。 Skyrms（1996）使用进化博弈论试图回答刘易斯甚至无法提出的问题，即在什么条件下语言、正义概念、私有财产概念以及哲学家感兴趣的其他非设计的普遍现象将被可能会出现。进化博弈论的新颖之处在于，行动并不是由个体个体经过深思熟虑而选择的。相反，智能体通常与特定的策略硬连接，并且策略的成功是根据它在后代的游戏中留下的自身副本的数量来定义的，考虑到人口中其他策略可以使用它的作用分布在特定的频率上。在这种问题设置中，策略本身就是参与者，而执行这些策略的个人则是相对盲目的执行者，他们获得与结果相关的即时成本和收益，不是因为他们选择了所讨论的结果，而是因为祖先他们从他们那里继承了他们的战略部署，并经常从类似游戏的结果中受益。

这里的讨论将紧随 Skyrms 的讨论。这涉及到一般性的限制。上面提到的进化博弈论包括“不同的子扩展”。这意味着，就像经典博弈论一样，它具有多种“解决方案”概念。严格来说，这是不同的动态稳定性概念，是与经典博弈论字面解概念所代表的经济均衡概念不同的均衡概念。大量文献（见下文）将进化博弈的稳定性概念映射到经典解决方案概念上。在当前背景下，回顾稳定性概念的范围将涉及冗余，因为这是 J. McKenzie Alexander 所著的《斯坦福哲学百科全书》姐妹条目的主要任务：博弈论，进化论。这补充了亚历山大（Alexander，2023）中强调哲学问题的更全面的阐述，而亚历山大（Alexander，2023）又依赖于威布尔（Weibull，1995）和萨缪尔森（Samuelson，1997）在经典文本中评论的形式基础。这里总结的 Skyrms 分析仅依赖于稳定性概念之一，即复制器动力学。

考虑自然选择如何改变动物的谱系，改变、创造和毁灭物种。其基本机制是差异繁殖。只要环境保持相对稳定，任何具有遗传特征的动物在生物体种群中增加其后代的预期相对频率，其患病率就会趋于增加。这些后代通常会继承相关特征（由于突变而存在一些变化，并且由于统计噪声而导致频率发生一些变化）。因此，这些特征在人口中所占的比例会随着世代的推移而逐渐增加。其中一些特征可能会被固定，也就是说，最终会接管整个群体（直到环境发生变化）。

博弈论如何参与其中？通常，生物体环境最重要的方面之一是其他生物体的行为倾向。我们可以将每个谱系视为“试图”通过寻找给定其他谱系策略的最佳策略来最大化其生殖适应性（即其独特遗传结构的未来频率）。因此，进化论是非参数分析的另一个应用领域。

在进化博弈论中，我们不再认为个体在从一种游戏转向另一种游戏时会选择策略。这是因为我们的兴趣不同。我们现在关心的不是寻找单个博弈的均衡，而是发现哪些均衡是稳定的，以及它们将如何随着时间的推移而变化。因此，我们现在将策略本身建模为相互对抗。如果一种策略可能会在下一代再次玩游戏时留下更多的自身副本，那么它就比另一种策略“更好”。我们研究随着博弈序列的展开，总体策略分布的变化。

对于复制动力学，我们引入了 Maynard Smith (1982) 提出的新的动态稳定性（“平衡”）概念。一组策略，按特定比例（例如 1/3:2/3、1/2:1/2、1/9:8/9、1/3:1/3:1/6:1/ 6 - 总和为 1）处于 ESS（进化稳定策略）平衡，以防万一（1）没有一个采用一种策略的个体可以通过切换到该比例的其他策略之一来提高其生殖适应性，并且（2）没有突变体演奏完全不同的策略可以在人群中建立自己（“入侵”）。

进化博弈论的原理最好通过例子来解释。斯凯姆斯首先调查了正义感可能产生的条件——为了他的具体分析的目的，正义感被理解为一种认为资源平等分配是公平的倾向，除非在特殊情况下效率考虑表明情况并非如此。他要求我们考虑这样一个群体：个体之间经常见面，并且必须就资源进行讨价还价。从三类人开始：

Fairmen 总是要求正好一半的资源。

贪婪的人总是需要一半以上的资源。当一个贪婪者遇到另一个贪婪者时，他们会为了争夺而浪费资源。

谦虚的人总是需要不到一半的资源。当一个谦虚者遇到另一个谦虚者时，他们会占用少于所有可用资源并浪费一些资源。

总需求总和达到 100% 的每次遭遇都是该单独游戏的 NE。同样，可以存在许多动态平衡。假设贪婪者需要 2/3 的资源，温和者需要 1/3。然后，给定交互的随机配对，以下两个比例是 ESS：

一半人贪婪，一半人谦虚。我们可以在这里计算平均收益。每次遭遇中谦虚获得 1/3 的资源。当贪婪遇到莫黛斯特时，她会得到 2/3，但当她遇到另一个贪婪时，她什么也得不到。所以她的平均收益也是 1/3。这是 ESS，因为 Fairman 无法入侵。当费尔曼遇到莫德斯特时，他得到 1/2。但当费尔曼遇到贪婪时，他一无所获。所以他的平均收益只有1/4。谦虚的人没有动力去改变策略，贪婪的人也没有动力。种群中出现的突变体费尔曼会表现得最差，因此选择不会鼓励任何此类突变体的繁殖。

所有玩家都是 Fairmen。每个人总是获得一半的资源，并且没有人可以通过切换到另一种策略来做得更好。进入这个群体的贪婪者遇到费尔曼并获得平均收益 0。温和者像以前一样获得 1/3，但这小于费曼的 1/2 收益。

请注意，均衡 (i) 是低效的，因为整个群体的平均收益较小。然而，正如低效结果可能是静态游戏的 NE 一样，它们也可能是进化游戏的 ESS。

我们将出现不止一种策略的均衡称为多态性。一般来说，在 Skyrms 的游戏中，任何 Greedy 要求 x 且 Modest 要求 1−x 的多态性都是 ESS。研究正义的学生感兴趣的问题涉及这些不同均衡出现的相对可能性。

这取决于原始种群状态下策略的比例。如果种群开始时有不止一位费曼，那么费曼有一定概率会彼此相遇，并获得最高可能的平均收益。谦虚本身并不能抑制费尔曼的传播；只有贪婪者才会这样做。但贪婪者本身就依赖于谦逊者的存在才能生存。因此，相对于贪婪者和谦逊者而言，人口中公平人的数量越多，公平人的平均表现就越好。这意味着阈值效应。如果费尔曼的比例下降到33%以下，那么他们就会因为见面不够频繁而走向灭绝。如果 Fairmen 的数量上升到 33% 以上，那么他们就会趋向于固定，因为他们在相遇时获得的额外收益弥补了他们在遇到贪婪者时的损失。您可以通过注意到当每种策略被 33% 的人群使用时看到这一点，所有策略的预期平均收益均为 1/3。因此，费尔曼人一旦超过这个门槛，就会将他们推向固定状态。

这一结果表明，在给定某些相对一般的条件下，我们所定义的正义可以动态地产生。如果我们引入相关游戏（不要与第 3.1 节和本文其他地方提到的相关均衡概念混淆），那么对于正义爱好者来说，消息会变得更加令人高兴。

我们刚刚考虑的模型假设策略不相关，也就是说，每个策略与其他策略相遇的概率是它们在总体中相对频率的简单函数。现在，我们研究一下当我们引入相关性时，动态资源分配游戏中会发生什么。假设费尔曼有轻微的能力来区分和寻找其他费尔曼作为互动伙伴。在这种情况下，费尔曼平均表现更好，这必然会降低他们进入固定状态的门槛。

（本章完）

游戏理论（十）

相关推荐

灵感故事短篇合集

穿越斗1我要开挂

穿书之女配她只想苟活

快穿之谁是我的心上人

异世界也是本尊的

斗龙战士之爆裂飞车美乐帝