游戏理论(十二)

在其他情况下,将人们的行为解释为通常的预期效果,最大程度地提高了对理论构建中普遍性的不必要暴力。如果我们认为受试者根据一个或(通常)更多几种替代方案来最大化,我们可以使用更少的案例限制获得更好的预测(因为它们不直接涉及游戏理论):等级依赖性效用理论(Quiggin 1982,Yaari 1987)或Alpha-Nu实用程序理论(Chew and MacCrimmon 1979)。实际上,第一种替代方案表示一个替代规格系列。其中之一是PRELEC(1998)的规范,已经在积累的大量经验估计中成为统计上最有用的观察到的人类选择的最有用模型,这是在风险和不确定性下。 Harrison和Rutstrom(2008)展示了如何设计和代码最大似然混合模型,这使经验建模者可以将这些决策功能范围应用于单个选择数据集。最终的分析确定了混合物中每个模型最好解释的总选择集的比例。 Andersen等人(2014年)采用这种方法来实现当前的最新状态,证明了在混合物中包括非最大化心理过程的模型以及最大化经济模型的经验价值。在游戏理论的经验应用中可以部署的决策建模方面的这种有效的灵活性减轻了在游戏理论结构本身中寻求调整的最大压力。因此,它与对游戏理论作为行为科学家数学工具包的一部分的解释非常吻合,而不是作为人类心理学的一阶经验模型。

对游戏理论的有用性的更严重威胁是人类和其他动物的系统偏好的证据。这两者都更加严重,因为它超越了人类案例,并且挑战揭示了偏好理论(RPT),而不仅仅是对EUT的不必要的坚定承诺。如第2.1节所述,与EUT不同,RPT是游戏理论的公理基础之一,在非心理学上解释。 (并非所有作家都同意,明显的偏好逆转现象威胁着RPT而不是EUT;但请参阅Camerer(1995),第660-665页和罗斯(2005a)中的讨论,第177-181页。)这在大脑动物中似乎很常见,这是对未来的双曲线折扣(Strotz 1956,Ainslie 1992)。这是一种现象,在该现象中,代理商在与当前参考点的近距离距离更陡峭的距离相比,与更遥远的时间距离相比,未来的奖励更加陡峭。与大多数传统的指数折扣经济模型中发现的想法相比,最好理解这一点,在这种折扣中,距离的变化速率与回报的变化速度与参考资料的回报价值之间存在线性关系。点下降。下图显示了从参考点到将来回报的相同间隔的指数和双曲线曲线。底部绘制了双曲线功能;鞠躬的形状是由于折现率的变化而导致的。

图15

图15

结果是,随着后来的前景更接近可能的消费点,人们和其他动物有时会花费资源来消除以前的行动的后果,这也使它们造成了资源。例如:今天决定是标记一堆本科论文还是观看棒球比赛,但我拖延了,尽管我知道这样做,但我放弃了明天可能会出现的更有趣的可能性(当有同样有吸引力的时候如果没有出现更好的选项)。到目前为止,这可以通过保留偏好的一致性的方式来解释:如果世界可能在今晚结束,但概率很小但非零的概率,那么我宁愿将论文留下的一定程度的风险规避。下图比较了两条指数折扣曲线,较低的曲线是我在完成标记之前观看的游戏价值的较低的曲线,而完成工作后越有价值的游戏较高。两者从参考点具有较高的价值,它们越接近它。但是曲线不会跨越,因此,无论我多么不耐烦,我所揭示的偏好会随着时间的流逝而保持一致。

图16

图16

但是,如果我通过购买明天的游戏票来束缚自己,那么当我没有做可怕的任务时,我就不会这么做,那么我违反了跨期的偏好一致性。更生动地,如果我上周可以选择是否拖延今天,我会选择不这样做。在这种情况下,我的折扣曲线是从上周的参考点中得出的,从今天的角度划出了曲线,而我的偏好却相反。下图显示了这种情况。

图17

图17

这种现象使古典游戏理论对智能动物的应用复杂化。但是,这显然并没有完全使它完全消除,因为人们(和其他动物)通常不会扭转他们的偏好。 (如果这不是真的,那么成功的拍卖模型和其他S的“机制设计”将是神秘的。)有趣的是,旨在解释为什么双曲线折扣的领先理论通常可能会符合RPT的行为,以此为RPT本身对游戏理论的吸引力原则。 Ainslie(1992,2001)已经提出了作为内部谈判利益社区的人们的描述,其中基于短期,中期和长期利益的亚基面临着他们必须解决的冲突,因为如果他们不这样做,并且取而代之的是产生内部霍布斯的崩溃(第1节),避免霍布斯的外部代理商可能会破坏它们。霍布斯暴君的装置无法用于大脑。因此,它的行为(避免系统级的精神错乱时)是一系列自我强制的平衡。也就是说,大脑的内部政治在于“ logrolling”(Stratmann 1997)。然后,这些内部动态受到了更广泛的社交游戏的部分调节和稳定,在这个更广泛的社交游戏中,联盟(作为其传记的时间段的人作为范围的人)被嵌入(Ross 2005a,第334-353页)。 (例如:关于某人作为销售人员的角色的社会期望设置了大脑中logrollrollying流程的行为平衡目标。)这可能会为解释为什么以及对具有相对透明规则的稳定机构的解释提供进一步的相关元素,从而有助于人们更类似于直接的经济代理人,因此经典游戏理论可以将其作为整个单位的可靠应用。

一个重要的谨慎注意事项是在这里。最近的许多行为文献认为,时间上不一致的折扣是人们的标准或默认情况。但是,Andersen等人(2008年)从经验上表明,这源于(i)假设一组人同质的功能形式可以最好地描述其折现行为,并且(ii)未能独立地引起和控制人们的不同水平估计其折扣功能的风险规避。在考虑到这两个考虑因素的一系列人群中,数据表明,时间上一致的折扣描述的选择比时间不一致的选择要高得多。因此,应避免过度的双曲线折现模型的过度化。

8.2神经经济学和游戏理论

如上一节所建议的那样,游戏理论可以找到对大脑内部动力学的新颖应用的想法是由称为Neurowosansonsics的独立动机开发的(Montague and Berns 2002,Glimcher 2003,Ross 2005a,2005a,pp。 320–334,Camerer,Loewenstein和Prelec 2005)。得益于新的非侵入性扫描技术,尤其是功能性磁共振成像(fMRI),最近可以在工作大脑中研究突触活动,同时它们对受控提示做出反应。这使得访问的新途径(尽管仍然是高度间接的途径(Harrison and Ross 2010))到大脑对奖励期望值的计算,这(自然而然)在确定行为中起着至关重要的作用。经济理论用于构建通过这些期望值的突触级计算最大化功能的推导。因此,名称为“神经经济学”。

游戏理论在两个层面的神经经济学中都发挥了领导作用。首先,游戏理论已被用来预测服务奖励系统必须执行的单个神经元和神经元组的计算。在最佳宣传的例子中,Glimcher(2003)和同事们曾训练过FMRI扫描的猴子,他们曾训练过针对计算机玩所谓的“检查游戏”。在检查游戏中,一个玩家面临一系列选择要奖励,在这种情况下,他一定会收到它,或者执行另一个更轻松的动作(“ Shirking”),在这种情况下,他将获得奖励只有当另一个玩家(“检查员”)没有监视他时。假设第一个玩家的(“工人”)行为揭示了各个端的实用功能,如下所示:如果检查员始终监视,他将在所有场合工作,如果检查员从未监视,他将在所有场合逃脱。检查员更喜欢以最低的监视率获得最高的工作量。在这个游戏中,两个玩家的NE唯一是混合策略,因为可以利用另一个玩家策略中的任何模式可以检测到的任何模式。对于任何给定的符合上述约束的玩家的特定效用功能,任何一对策略,在每个试验中,工人在工作和逃避之间都是漠不关心的,或者检查员在监视和不监视之间是无动于衷NE。

将检查游戏分析应用于对或代理组的组要求我们要么独立地证明其实用程序功能在与其游戏相关的所有变量上,在这种情况下,我们可以定义NE,然后测试以查看它们是否成功地最大化了预期效用;或假设它们最大化预期的效用,或遵守其他规则,例如匹配函数,然后从其行为中推断出其效用功能。在不同的经验背景下,这种过程都可以是明智的。但是,如果外源性确定检查员的效用函数,认识论杠杆作用会大大增加。 (例如,警察实施随机的路边检查以捕获酒后驾驶员,通常会有最大的醉酒驾驶发生率,该驾驶是按政策分配给他们的目标,并设定了预算。这些确定了他们的效用功能,鉴于偏好和态度的分布在Glimcher实验的情况下,检查员是一台计算机,因此其程序受到实验控制,并且已知收益矩阵的一面。可以在参数测试设置中确定受试者预期效用的代理,在这种情况下为猴子的果汁喷气。然后,将计算机与猴子的经济模型进行编程,并可以在游戏条件下以其行为搜索可剥削模式的数据,从而相应地改变其策略。通过固定这些变量,可以通过在游戏的各种运行中操纵计算机的实用程序功能来计算和测试猴子的预期效果最大化的NE行为。

猴子的行为在训练之后非常强大(就像人们为货币奖品玩类似游戏的行为一样; Glimcher 2003,第307–308页)。 Glimcher及其同事可以使用训练有素的猴子工作,然后可以在此处执行重要的实验。猴子的工作和逃避行为与视觉显示器的右侧或左侧的训练相关联。在较早的实验中,Platt和Glimcher(1999)确定,在参数设置中,随着果汁的奖励从一个试验块变化到另一项试验,可以训练控制眼睛运动的每个壁神经元的射击速率,以将预期的实用程序编码为预期的效用,从相对于替代运动的预期效用,每种可能运动的猴子。因此,“价值0.4毫升果汁的运动在(在神经射击概率上)的两倍是价值0.2 mL果汁的运动”(第314页)。毫不奇怪的是,当每种运动的果汁量从一个试验块变化到另一个运动时,发射速率也有所不同。

在这种背景下,Glimcher及其同事可以研究猴子的大脑实施NE的跟踪方式。当猴子对计算机进行检查游戏时,鉴于先前的培训,可以在最佳位置设置与逃避的目标,以确定正在研究的特定神经元,而工作目标将出现在无效位置。这允许Glimcher测试以下问题的答案:猴子是否通过保持神经元的发射速率保持不变,而整个猴子的实际和最佳行为都多种多样?数据坚固地给出了答案“是”。 Glimcher合理地将这些数据合理地解释为表明,至少在此任务的皮质区域中,神经发射率在参数和非参数设置中编码了预期效用。在这里,我们明显地证明了与机构或社会惯例无关的环境中经典游戏理论的经验适用性。

进一步的分析将假设更深入。计算机播放检查员的成果顺序与前一天的猴子对手相同,并要求每一步都评估下一步行动中可用的逃避和工作动作的相对期望值。 Glimcher报告说,在单个神经元中稳定的NE点火率周围的小波动与试图跟踪相同NE的计算机估计的预期值之间存在正相关。 Glimcher对此发现的评论如下:

神经元似乎在逐场播放的基础上反映了一项与我们的计算机执行的计算……[a] t a…[相对]……微观量表,我们能够使用游戏理论开始描述区域嘴唇中神经元进行的决策计算进行了决策。 (Glimcher 2003,第317页)

因此,我们发现游戏理论超越了其作为一种技术的技术来构建对进化动态的高级限制或在机构紧身衣中运行的良好代理的行为的技术。在Glimcher的手中,它用于直接建模猴子大脑中的活动。罗斯(Ross)(2005a)认为,这样建模的神经元组不应与阿恩斯利(Ainslie)前面描述的人体内部讨价还价理论中发现的次个人游戏玩法单元相同。这将涉及一种直接的减少,在行为和生命科学方面的经验教会了我们不期望的。此后,这个问题在神经经济学家之间的直接纠纷中就竞争对手的竞争对手解释的竞争对手的解释(McClure等,2004),Glimcher等人。 2007)。到目前为止,证据的重量有利于这样一种观点,即有时将人们的选择分析为在人类次角色代理中的游戏中的均衡,那么所讨论的子人物代理人不应与单独的大脑区域一起识别。不幸的是,相反的解释在不太专业的文献中仍然是最常见的。

现在,我们已经看到了神经经济学应用游戏理论的第一个级别。第二层涉及在神经活动中寻求调节变量,这可能会影响人们在玩游戏时选择策略的选择。这通常涉及重复行为游戏理论文献中的协议,并在游戏过程中使用fMRI扫描仪的研究对象。 Harrison(2008)和Ross(2008b)对这种工作的价值提出了怀疑,这涉及各种不舒服的推断,将观察到的行为与特定的估计神经反应相关联。还可以质疑是否能够成功识别此类关联是否获得了许多可推广的新知识。

让我们提供此类“扫描仪中的游戏”的例子 - 直接涉及战略互动。 King-Casas等。 (2005年)从行为游戏理论(所谓的“信任”游戏)中采取了标准协议,并与主体一起实施了它的大脑,其大脑是使用技术共同扫描的,以链接各自大脑的功能图,称为“ Hypersanning”) 。该游戏涉及两个玩家。以其重复格式,如King-Casas等人所用。实验,第一个球员被指定为“投资者”,第二名是“受托人”。投资者从20美元开始,其中她可以在与受托人一起投资其余部分的同时保留自己选择的任何部分。在受托人的手中,投资金额由实验者增加了两倍。然后,受托人可以根据他认为合适的投资者尽可能多地退还给投资者。该过程进行了十发,玩家的身份保持了匿名。

该游戏具有无限数量的NE。行为经济学的先前数据与人类游戏中的模态NE相一致,即人类游戏中的模态近似于使用“ tit-for-tat”策略的参与者(请参阅第4节),偶尔的缺陷来探究以获取信息的信息,以及某些后置次合作的合作,并以此方式进行。这种探针的表现(有限)耐受。这是一个非常薄弱的​​结果,因为它与多种假设兼容,确切地使用和持续了哪些tit-for-tat的变化,因此在不同的学习条件,机构或跨境中没有推断对潜在动态的许可。文化转移。

当他们在Hyperscanning下运行这款游戏时,研究人员将他们的观察结果解释为如下。当投资者仁慈地回报的信任时,被认为是受托人尾状核(通常被认为是实施中脑多巴胺能系统计算或输出的)的神经元被认为会表现出强烈的反应,也就是说,以增加的慷慨作出反应。随着游戏的进行,据信这些反应已经从反动化转变为预期。因此,推断出由大脑直接构建的经典游戏理论模型所预测的声誉概况。研究结果的另一个方面不能仅通过理论模型来预测,而纯粹的行为观察不足以歧视,这被认为是尾状神经元对恶毒的互惠的反应,也就是说,这是对合作而降低的慷慨 - 在响应合作的范围 - 幅度明显较小。假设这是一种机制,大脑通过它实现tit-for-tat的修饰,以防止偶尔出现缺陷,以永久性地探测信息。

理解这种神经经济学风格的从业者的进步不包括它告诉我们特定类型的游戏类型的内容,而是相比的推断,它促进了关于上下文框架影响人们在玩哪些游戏的方式的方式FMRI或其他类型的工作大脑探针可能是猜想的,使我们能够定量估计战略惊喜程度。关于惊喜本身的相互互动的期望本身可能会受到战略操纵的影响,但这是一个从理论家开始理论上探索的想法(请参阅Ross and Dumouchel 2004)。一些神经经济学家的看法是,我们现在有凭经验检验这种新理论的前景,而不是假设对它们进行建模,这激发了这一研究方面的增长。

8.3游戏的人性理论模型

在上一节中审查的发展使我们进入了经典游戏理论的实验 /行为应用的移动前沿。现在,我们可以返回几段返回的分支点,在这里,这一调查表符合来自进化游戏理论的段落。毫无疑问,与其他非自相社会动物(包括我们最近的亲戚,黑猩猩和笨拙的动物)相比,人类实现了协调的巨大壮举(请参阅第4节)(Tomasello etal。2004)。一个生动的争议,具有重要的哲学意义,并通过游戏理论论点在双方进行了斗争,持续了一段时间,以通过文化适应能够完全解释这种能力,或者通过推断职业早期的遗传变化来更好地解释H. Sapiens。

(本章完)

相关推荐