游戏理论(九)
斯特林与人类现象的比喻借鉴了人们经常遇到与他人互动的背景,而他们的偏好并未预先完全形成。心理学家以“偏好构建”的标签研究了这一点(Lichtenstein and Slovic 2006),反映了人们通过互动建立自己的偏好的直觉。斯特林(Stirling)提供了一个简单的(可以说太简单)的例子,来自Keeney and Raiffa(1976),其中农民只有在不同的气候条件下仅在土地购买的不同气候条件之间形成明显的偏爱,仅鉴于学习妻子的偏好。这个小小的思想实验是合理的,但不理想作为插图,因为它很容易与模糊的概念混合在一起,我们可能会在婚姻理想中对代理的融合进行融合 - 重要的是要区分不同代理团队的偏好有条件的动态。来自个人代理的简单崩溃。因此,让我们构建一个更好的例子,是由Hofmeyr和Ross(2019)绘制的。想象一下,一位公司主席咨询了她的规避风险的董事会,以了解他们是否应该追求危险的敌意收购竞标。比较她可能使用的两个可能的程序:在过程中(i)她在会议前一周向每个董事会成员发送了有关该想法的个人电子邮件;在(ii)的过程中,她在会议上集体地将其浮在他们身上。大多数人都会同意这两个过程可能会产生不同的结果,而主要原因是在过程(i),但不是(ii),有些成员可能会牢记个人意见,即他们没有时间安定下来的话他们收到了彼此愿意在第一次听到该提议的同时在公开场合挑战主席的信息。在两个想象中的过程中,在投票时,都有一组个人偏好,可以通过投票汇总。但是,第二个过程产生的集合中的某些偏好更有可能是基于其他偏好的条件。 Stirling定义的条件偏好是受到有关其他(指定)其他人的偏好(动作)信息影响的偏好(而不是动作)。
斯特林理论中正式形式的第二个概念是一致性。这是指一组偏好(包括一组条件偏好)的争议或不和谐的程度,如果实现了一套均衡偏好。团队的成员或领导者并不总是想通过将所有内部游戏作为保证或HI-LO来最大化和一致性(尽管他们总是希望消除PDS)。例如,经理可能希望鼓励公司中利润中心之间的一定程度的竞争,同时希望成本中心与整个团队完全认同。
Stirling正式定义了三种有序效用函数的表示定理:条件实用程序,一致性和有条件的一致性实用程序。这些可以递归地应用于个人,团队和团队。然后,正式发展的核心是一种理论,即汇总了个人的有条件一致性的偏好,以建立没有外在强加于团队成员的团队选择模型,而是从他们的几个偏好中得出的。在当前情况下说明斯特林的汇总程序时,改变他的术语是有用的,因此可以解释他而不是直接引用他。这是因为斯特林是指“团体”而不是“团队”。 Stirling在CGT上的最初工作完全独立于Bacharach的工作,因此并未在团队推理的背景下进行配置(或我们可能将其重新解释为以团队为中心的选择)。但是巴卡拉赫(Bacharach)的想法提供了一种自然的环境,使斯特林(Stirling)的技术成就构成了游戏理论在社会科学中的适用性的丰富性(参见Hofmeyr和Ross(2019))。然后,我们可以用以下内容来阐明他的五个限制:
(1)条件:团队成员的偏好订购可能会受到其他团队成员的偏好的影响,即可能是有条件的。 (可能会将影响设置为零,在这种情况下,条件偏好排序倒入标准RPT的分类偏好顺序。)
(2)内源性:团队的一致命令必须取决于其子团队的社交互动。 (这种情况确保了团队偏好不仅仅对个人偏好强加。)
(3)无性性:社会影响关系不是互惠的。 (这很可能乍一看是一个奇怪的限制:无论如何,大多数社会影响关系是相互互动的。更重要的是,作为数学的问题,它可以在指示图中代表该团队禁止我们代表另一个代理商影响的代理J我直接影响i。社会影响关系。)
(4)交换性:一致的偏好顺序在表示相对于条件偏好的信息等效的代表性转换下是不变的。
(5)单调性:如果一个子团队更喜欢选择替代方案A而不是B,并且所有其他子团队在A和B之间都是漠不关心的,那么团队不喜欢B而不是A。
在这些限制下,斯特林证明了一个汇总定理,该定理是根据Abbas(2003年,其他互联网资源)开发的新信息来更新实用程序的一般结果。各个团队成员每个人都通过汇总有条件的一致性偏好来计算团队偏好。然后分析师应用边缘化。让XN成为一个团队。令xm = {xj1,…,xjm},x = {xi1,…,xik}为xn的脱节子团队。然后,XM相对于子团队{XM,XK}的边际一致性是通过求和AK获得的
UXM(αm)=
Σ
αk
UXMXK(αm,αK)
单个团队成员XI的边际效用由
UXM(αm)=
Σ
〜ai
uxn(a1,…,an)
其中符号∑〜AI表示除AI(Stirling(2012),第62页)以外的所有参数中,总和是在所有参数上取的。该操作产生了我提出的单个I的非条件偏好,也就是说,根据她的有条件的一致性偏好以及它们的条件信息,即团队的条件一致性偏好。一旦计算了所有EX端的偏好,可以通过标准分析来解决所参与的结果游戏。
正如他所说,斯特林的构造是对标准效用理论的真正概括,以使非条件(“分类”)实用程序为特殊情况。它为团队效用的形式化提供了基础,可以将其与以下任何一个:个人或子团队的预先条件分类效用;个人或子团队的条件效用;或个人或子团队的有条件一致性。一旦每个人在团队选择问题中的偏好都被边缘化,NE,SPE或QRE分析就可以作为解决有关社会影响的完整信息的解决方案。不完整信息的情况可以使用Byes-Nash或顺序平衡来解决。
如果读者一直在努力遵循上述技术构建的总体点,我们可以按以下更高级别的术语来总结条件游戏理论(CGT)的实现。 CGT通过将概率理论的形式语法(通过边缘化的运作)应用于游戏理论并构建图理论表示,对影响流的传播进行了建模。随着社会影响力通过一个小组传播,玩家根据其他玩家的喜好调节了他们的偏好,因此可能会出现小组偏好。群体偏好不是行动的直接基础,而是封装了一种社会模型,该模型结合了代理商之间的关系和相互依赖性。 CGT向我们展示了如何为一个组合其成员的条件和分类偏好的组得出的协调排序,与概率理论中的事件的关节概率与条件和边缘概率确定。因此,正如概率语法的常规应用是一种表达认识者对信念的认识论不确定性的手段一样,将此语法扩展到游戏理论使我们能够代表代理人对偏好的实际不确定性。
CGT的最初解释的关键成就在于代表一致性考虑对平衡确定的影响。社会模型可用于生成群体偏好的操作定义,并定义真正的协调选择。没有假设群体一定要优化其偏好,或者单个代理总是协调其选择。关键只是我们可以正式地表示游戏中的代理商可以做实际的人经常做的事情:适应和解决他们的个人偏好,这是他人喜欢的,以及促进团体的稳定性和效率的原因。因此,团队代理被纳入了游戏理论,而不是被放置为一种外源心理结构,分析师必须在建立社会嵌入者的游戏理论模型之前进行调查。
由于在CGT分析中的代理条件将其对动作而不是对结果的偏好进行条件,因此有条件的游戏不能以广泛的形式表示。 (一个广泛的形式模型必须从分配给终端节点的所有非终端节点的所有非终端节点,即结果。如第3.1节所述,在有关游戏中学习的文献中广泛使用。在该文献中,预播种用于生成通常观察到的信号,这些信号是识别“真实”游戏中相关平衡的基础。这提出了一个有趣的可能性:我们是否可以将CGT用于同样的目的?
我们可能想要的是一个哲学上的原因。在游戏中学习的标准学习模型中,玩家自然被解释为从动作观察中推断出他人的私人偏好和信念。这与在认知科学中非常受欢迎的想法的直觉相吻合,即人类(与其他动物相比,与其他动物相比)的复杂协调壮举部分是因为我们具有“阅读”彼此的想法(Nichols and Stich 2003 2003年) )但是,这个假设最近来自两个密切相关的方向受到了巨大的关键挑战。
首先,它结合了一个高度可疑的想法,即信仰和偏好是“内在”(大脑?)的状态,可以从内部知道,但仅从外部推断出来。认知科学家越来越多地介绍了丹内特(Dennett,1987年)的详细开发,此后(除其他许多)Clark(1997)和Hutto(2008)(2008年)中,信念和偏好是对人们行为的社会构建的解释。以他们的情况和历史为条件,教导孩子自动申请,首先是对他人,然后向自己申请(McGeer 2001,2002)。游戏理论推理解释了为什么这种结构是人类的普遍实践:这是对实际目的真正重要的协调基础,这不是人们的特定思想,而是他们可以相互招募的项目(Ross 2005a)。其次,Zawidzki(2013)有说服力地指出,思维理论所提出的快速推断在彼此之间彼此非常紧密相了解或在紧密约束的机构规则中进行互动,例如在玩团队运动或进行团队运动中进行互动的人,这是不可计算的。一个建立的市场(因此,团队推理最合理的设置类型)。那么,人们至少在很多时候如何顺利地协调呢?一旦我们登上前面的段落,人们就不需要推断“隐藏的”信念和偏好,因为首先没有这样的事情,所以这个显然棘手的问题就消失了。取而代之的是,他们通过持续的微型谈判即时共同建立信念和偏好。一个范例是两个人避免在拥挤的人行道上发生碰撞。我不需要尝试在您同时尝试对我的意图的类似推论的同时推断您打算转向的方式;相反,我们交换了快速信号,使我们能够共同制定互补计划。 (在某些文化中,我们可能会受到规范惯例的帮助,例如,如果一个人是男人而另一个人是女人,那么男人将朝街道的方向发展。该规范的工作原理可能具有性别歧视起源,但它可能不会在认识到这一点的人中放弃,因为拥有一些惯例是有用的,而这种惯例可以根据快速的目光来使用它。将其扩展为通过它们的发生方式提示穿着,也许有些微笑和笑着,以表示更富有的共同意识。可能发生的思维读物是寄生的,在思维方式上是寄生的。
思维变形显然具有一个战略性的维度,这是因为它经常涉及微尺度力量维度的事实 - 如果是您的老板,您有可能撞向或警察,您可能会向后倒退而不是向后倒退。因此,游戏理论应适用于此。但是,鉴于标准游戏理论的应用要求预先指定公用事业,这是有问题的。读者应该立即看到CGT似乎是为了解决这一挑战的命令。
CGT在Stirling(2012)中介绍的CGT需要进行一些修改,以充当游戏理论的思维模型。在Stirling的AI的原始预期设置中,控制是分层的,因此对偏好的影响可以从原点通过网络流向终止值。但是,思维变化过程通常是多向的。因此,罗斯(Ross)和斯特林(Stirling)(2021)提出了所谓的“马尔可夫链建模”(Markov-Chain Modeling)的应用,该应用利用了CGT和贝叶斯网络理论之间的数学同构,以在没有固定方向的情况下结合影响流。因为这放松了AI工程师可能希望保持固定的财产,因此提出的实际上是一种新理论。因此,罗斯和斯特林将其称为“ CGT 2.0”。它的第一个应用,分析用于识别实验室受试者使用的规范的实验游戏,以及估计规范对受试者行为的影响,可以在Ross,Stirling和Tummolini(2023)中找到。
与CGT 1.0不同,CGT 2.0并不是最概念化的作为正式化团队实用程序的方式。它的影响力更广泛。实际上,这是任何预先播放的通用模型,可促进企业对信息不完整的效力识别的识别。因此,如罗斯和斯特林(2023)所示,可以用来识别相关平衡(请参见第3.1节)。实际上,它产生了更强的东西。 Harsanyi(1977)的“ Harsanyi学说”是这个想法的名称,即贝叶斯玩家在主观概率分配中的任何差异都应仅来自不同的信息。这仅取决于行动的观察,而不仅取决于结果的观察。由于CGT对动作的条件,代表CGT预播放结果的过渡矩阵还确定了构成“真实”游戏常见先验的共享信号。因此,在CGT 2.0成功建模思维模型的情况下,我们可以说,思想成立的假设激发了对Harsanyi学说至少至少某些行为游戏的经验相关性的信心。这表明了扎维兹基(Zawidzki)的论点,即思维成形可以强烈支持协调,包括在战略环境中。最后,出于经验目的,相关平衡的局限性依赖于所有参与者都符合预期效用理论的公理的假设。 Aumann(1987)指出,如果代理商在信念上具有主观概率权重,则此假设会破裂。但这实际上是大多数人类实验室受试者的行为方式(Harrison和Ross(2016))。 CGT 2.0允许该限制通过预播放来消除。它结合了Quiggin(1982)和Prelec(1998)开发的主观概率加权理论,并将其与效用的一般模型相结合。因此,这种信念反映在过渡矩阵中,这些矩阵代表了将Harsanyi学说应用于“真实”游戏的知识。因此,相关平衡的推导可以像预期的实用程序最大化器一样进行。
六、承诺
在某些游戏中,玩家可以通过采取行动来改善她的结果,这使得她不可能采取她在相应的同时行动游戏中最好的动作。这些行动被称为承诺,它们可以作为游戏中外部执法的替代方案,否则这些游戏将定居帕累托式的平衡。
考虑以下假设示例(这不是PD)。假设您拥有我的一块土地,我想购买它以扩大我的地段。不幸的是,您不想以我愿意支付的价格出售。如果我们同时搬家(您发布售价,我独立给我的代理商要价),将没有出售。因此,我可能会尝试通过播放开幕式来改变您的激励措施,我宣布我将在我旁边的土地上建造一个腐烂的污水处理厂,除非您出售,从而诱使您降低价格。现在,我将其变成了一个连续的游戏。但是,此举到目前为止什么都没有改变。如果您拒绝面对我的威胁出售,那么执行它并不符合我的兴趣,因为在损害您时,我也会伤害自己。既然您知道这一点,您应该忽略我的威胁。我的威胁令人难以置信,这是一个便宜的话题。
但是,我可以通过承诺来使自己的威胁可信。例如,我可以与一些承诺从工厂提供处理过的污水(肥料)的农民签订合同,但在合同中包括一个逃生条款,只有在我可以加倍我的地块大小的情况下,才释放我的义务与其他用途。现在,我的威胁是可信的:如果您不出售,我致力于建造污水处理厂。既然您知道这一点,那么您现在有动力将我的土地卖给我,以避开其毁灭。
这种情况暴露了非参数和参数最大化逻辑之间的许多基本差异之一。在参数情况下,通过有更多选择,永远不会使代理变得更糟。 (即使一个新的选择要比她开始的选择要差,她也可以忽略它。)但是,如果情况是非参数,那么如果有明显的选择受到限制,那么一个代理商的策略也会受到另一个代理人的影响。科尔特斯(Cortez)对船的燃烧(请参阅第1节)当然是一个例子,这是一种使通常的隐喻字面意义的。
另一个示例将说明这一点,以及跨游戏类型的原理的适用性。在这里,我们将建立一个不是PD的虚构情况,因为只有一个玩家有动力缺陷,但是在没有承诺的情况下,这是一种社会困境,因为它没有承诺,这是可以通过一个可以实现的结果。承诺设备。假设我们两个人希望从国家公园里偷猎一只罕见的羚羊,以便出售奖杯。我们中的一个人必须将动物冲向第二个人,后者在盲人中等待将其射击并将其装载到卡车上。当然,您保证与我分享收益。但是,您的诺言是不可信的。一旦有钱,您就没有理由不将其赶走并从中获得全部价值。毕竟,我不能在没有被捕的情况下向警察抱怨。但是现在假设我将以下开放措施添加到游戏中。在我们狩猎之前,我会用警报钻出卡车,只能通过打孔来关闭该警报。只有我知道代码。如果您试图没有我开车,警报会发出声音,我们俩都会被抓住。您知道这一点,现在有动力等待我。在这里要注意的至关重要的是,您更喜欢我设置警报,因为这使您承诺给我我的份额可信。如果我不这样做,让您的诺言令人难以置信,我们将无法同意首先尝试犯罪,而我们俩都会因出售奖杯而失去利润。因此,您受益于我阻止您在子游戏中做最佳的事情。
现在,我们可以将对PD和承诺设备的分析结合在一起,讨论首先在学术界以外著名的游戏理论的应用。
第一代博弈论学家对冷战期间超级大国之间的核对峙进行了深入研究,其中许多人接受了美国军方直接或间接的资金支持。 Poundstone 1992 提供了这种参与的相对“净化”的历史,长期以来,除了理论家的公开回忆之外,业余历史学家还依赖二手资料。最近,Amadae(2016)发表了一份更具怀疑性和专业性的历史研究,为应用博弈论先驱、冷战核战略发展参与者和冷战核战略发展参与者的更令人毛骨悚然的回忆录提供了学术背景。著名的越南战争五角大楼秘密文件泄露者丹尼尔·埃尔斯伯格 (Daniel Ellsberg) (Ellsberg 2017)。 Erickson (2015) 的历史与这些说法一致,但刺激读者的瞳孔扩张较少。
按照传统的说法,美国和苏联之间的核对峙将以下政策归因于双方。双方都威胁要以毁灭性的反击来回应对方的第一次攻击。到 20 世纪 60 年代末,这对互惠战略实际上意味着炸毁世界,被称为“相互确保毁灭”或“MAD”。当时的博弈论学家反对说 MAD 疯了,因为它设立 PD 的原因是相互威胁令人难以置信。这一诊断背后的理由如下。假设苏联对美国发动第一次打击。那时,美国总统发现他的国家已经被摧毁了。他现在并没有通过炸毁世界来让它复活,所以他没有动力去实施他最初的报复威胁,而现在显然没有达到目的。既然俄罗斯人能够预见到这一点,他们就应该无视报复的威胁,先行打击。当然,美国人处于完全对称的位置,所以他们也应该先发制人。双方都认识到对方的这种动机,因此如果不急于先发制人,就会预料到会发生攻击。因此,我们应该期待的是,因为它是游戏中唯一的NE,所以我们应该期待两个国家之间的竞赛,争夺第一个进攻的机会。明显的含义是世界的毁灭。
这种博弈论分析在冷战期间引起了双方真正的惊愕和恐惧,并被认为在建立战略承诺机制方面产生了一些引人注目的尝试。例如,有一些轶事称,尼克松总统让中央情报局试图让俄罗斯人相信他疯了或经常喝醉,这样他们就会相信他会发动报复性打击,即使这样做不再符合他的利益。同样,苏联克格勃有时被声称在勃列日涅夫晚年捏造了夸大其衰老程度的医疗报告,也是为了达到同样的目的。即使这些故事不是真的,它们的持续流传也表明了对战略承诺逻辑的理解。最终,五角大楼分析人士担心的战略对称性很复杂,而且可能会因美国导弹部署策略的变化而被打破。他们为世界各地的潜艇舰队配备了足够的导弹,足以自行发动毁灭性反击。这使得美国军事通信网络的可靠性变得不那么简单,并因此引入了战略相关的不确定性因素。