分析游戏的逻辑(三)
在一个具体的透视图中,策略类似于指示代理如何导航游戏树的程序。 因此,策略的自然逻辑使用程序PDL的命题动态逻辑语言,以后将返回的方法。 随着程序的一般非确定性,这种逻辑让策略推荐一个或多个动作代理应该在每转时接受。 在这种观点中,策略类似于可能持久的计划。
在程序格式中,策略从基本操作开始,表示单个在游戏树中移动。 从那里,可以使用包括顺序组合物π1的操作来创建复杂的程序π;Π2(π1,后跟π2),或选择π1∪iπ2(代理I在动作π1和π2之间拾取)。 此外,用于检查φ是否保持的测试操作?φ使策略能够对状态或对手的过去的特性作出反应。 最后,为了描述沿着游戏树的策略的连续执行,具有程序迭代的操作π*是有意义的,说明Π经常被任意地执行。
然后,PDL的语言具有模态运算符[π],每个程序π都可以从基本操作和刚刚描述的操作中定义。 一个简单的这样的策略建议玩家我在轮到时做一个。 以下公式表示,此策略可确保φ始终保持:
[((?turni;一个)∪(?turnj; movej))*]φ
在此处给出的策略的计划定义与使用有限自动机来定义计算机科学和博弈论的策略(Osborne&Rubinstein 1994;Grädel,Thomas,&Wilke 2002; Ramanujam&Simon 2008)。
2.8同时移动和不完美的信息
在第2.1节的广泛形式游戏中,玩家按顺序移动,并可以根据到目前为止发生的完整信息的决定基础。 另一个极端是战略形式的游戏,当时代理人并行行动或在策略选择的解释中,在实际戏剧中没有拾取信息。 这些极端之间有充足的情景。 例如,公共好游戏,反对非合作者的可选报复(Andrighetto等,2013),例如,一些或所有玩家的时刻结合在一起的一些或所有玩家与信息收集一起移动。 通过将游戏的各种状态限制为玩家可用的信息,可以在顺序游戏中模仿这种并行动作。 将在第3节中讨论所产生的不完美信息的游戏,以及其他不完美信息来源。
进一步的并行动作的逻辑方法采用Stit Logic(Horty&Belnap 1995; Broersen 2009),以及ATL(Alur,Henzinger,&Kupferman 2002)或其认知变体Atel(Van Der Hoek&Wooldridge 2003)。
2.9 Game代数和动态计算逻辑
到目前为止,游戏被视为整体的整体实体,他们整体的理由。 这可能与现实生活代理人概念化游戏有所可能。 为了便于推理,游戏经常被分解为更宽敞的任务,更容易分别处理。 例如,棋手可能知道如何解决不同的结束游戏。 而不是推理大概的情况,直到它的结束,她将通过考虑它们最有可能导致的这些结束游戏中的哪一个来评估中间游戏中的不同选择。 在这个角度来看,复杂的游戏是从单独分析中获利的更简单的游戏。 然后,游戏与从更简单的游戏构建复杂游戏的操作形成代数。 当游戏被视为交互式计算的场景时,加强了这种思考风格,再次使用代数方法(Bergstra,Ponse,&Smolka 2001)。
这是这种方法的说明。 为简单起见,只考虑两个玩家,a和e,后者开始游戏。 一个有影响力的游戏代数具有以下操作,CF。 Parikh(1985)。
g∪g'代理E在播放g和g'之间的选择,即,由两个结果g和g'表示的选择节点表示
g; g'首先播放g,然后是g'
(⋅)d。球员A和E的角色互换
?φ。测试游戏是否有一些属性φ保持。
例如,在中游戏推理中乘坐国际象棋播放器。 为简单起见,将可能的最终游戏限制为GF1和GF2。 然后,玩家可以将中间播放概念化为GMID,其中包含由命题P1或P2标记的结束节点,描述了两个结束游戏所遵循的哪一个。 然后给出完整的剩余棋子树
gcomplete = gmid;((?p1的; gf1)∪(?p2的; gf2))
这款游戏代数的公正公理可在Goranko(2003)和Venema(2003)中找到。 然而,在所谓的程序的命题动态逻辑类比中,对于这个Games的这个代数,也存在一个动态的游戏逻辑,(Parikh 1985)。 它为每个游戏G添加了一个模态{G}φ,其中{g}φ表示在游戏g中,第一玩家e具有强制φ的真实的策略。 对于非确定的游戏的情况,将进一步扩展语言以包括单独的方式{g,i}φ,每个播放器i。 动态游戏逻辑以明显的方式显示复杂游戏监督员在更简单的游戏中的战略能力如何。 这是通过减少法律完成的
{g; g'}φ↔{g} {g'}φ,{g∪g'}φ↔{g}φ∨{g'}φ
为了完整的缩减法律列表,以及此动态游戏逻辑中的公开问题见Pauly(2001),Van Benthem(2014)。 对于其他款式的游戏代数,包括平行成分的形式,CF。 阿布拉姆斯基(1997年)。
应该说,不完美的信息挑战这种比赛代数的方法。 例如,可以必须将更大的游戏分解为较小的游标,其中代理不知道它们所处的哪些标记。在布尔游戏的背景下已经研究了具有不完美信息的游戏代数(Harrenstein等,2001)。 最近的基于功率的游戏代数,具有编码不完美信息的操作,显示出一些与逻辑(Mann,Sandu和Sevenster 2011)的类比可以在Van Benthem,Bezhanishvili和Enqvist(2019B)中找到。
2.10特殊主题
迄今为止,联盟和网络对球员之间的社会或结构关系没有任何表示:他们单独和与所有其他球员的互动。 然而,在许多游戏中,球员团体可以团队联合共同追求目标,可能与其他群体竞争。 联盟是一种自然的,但这里介绍的逻辑框架的非琐碎延伸,因为群体的战略能力可能超过所有成员,参见Peleg(1997),Van de Putte&Klein(2021,2022)和入门联盟权力在游戏中。 在其他社会现象的研究中,该组播者配备了额外的网络结构。 那么代理商的结果或行为将取决于网络邻居所做的(Baltag等,2019; Christoff 2016)。 最后,网络上的游戏与社交网络中的信息流密切相关,这是由Liu,Seligman和Girard(2014)和Seligman和Thompson(2015)的深入研究的。
跟踪本节包含各种各样的游戏视角。 这些不同的关系与他们的匹配语言不同,提供不同的焦点,例如结果,权力或游戏的详细时间演变。 甚至进一步的观点毫无疑问会继续新兴。 这种多样性似乎压倒了,使得领域相当散落。 但是,这里,逻辑的另一个作用,不仅仅是增殖系统,还可以连接它们。 在涉及的语言和级别之间存在各种逻辑翻译。 通常,可以在逻辑中推理一些级别的游戏可以在翻译中精确镜像到另一个级别的逻辑。 此外,这些翻译通常可以在信息更新的操作中跟踪游戏中的更改,第3节中的一个主题。在Van Benthem(2016)和CINà(2017)中的一般逻辑术语中定义和研究了这种情况,并在类别 - 理论术语中定义和研究。在YE(2022)。
到目前为止,无限的游戏,游戏的长度是有限的。 对于许多现实生活场景来说,这种假设是无害的,但有一个值得注意的例外。 一个突出的例子是安全游戏,其中一个球员,警卫,必须确保系统永远不会留下某个状态,而对手试图偏离。 有限游戏的许多技术工具也适用于无限游戏。 但是,许多概念和逻辑不连续性。 例如,由于无限的游戏没有最后的时刻,必须附加成果以完成游戏的完整历史,而不是树的叶子。 关于游戏的推理,那么需要历史记录的时间方式,而且还需要在所有开放的未来历史上进行的方式。 为了分析功率,那么,需要迫使模态的时间版本。 通过这些修改,仍然适用逻辑分析风格。 例如,众所周知,无限游戏的确定性失败(JECH 2003)。 然而,所有游戏都有什么持有的“弱势决定性”的法则,如果我没有策略要迫使一组符合率φ的历史,她的对手J可以确保我将来不会在未来获得这种φ-策略。 通过以下两种公式捕获标准确定和弱确定素之间的差异,这完全符合本节的分析风格:{i}φ∨{j}¬φ(确定)与{i}φ∨{j}g¬{i}φ(弱确定),其中g是'始终在当前历史上的未来的时间模型'。 在CooldeBra(Abramsky 1997; Jacobs 2016)中发现了更自然的使用无限游戏,其中模型是只能从外部观察的无限流程,但未从地面元素中有限地建立。
3.球员的性质
游戏形式可能被视为播放器可以运行的空间。 然而,游戏并不完全由其游戏形式完全决定。 相反,涉及的玩家可能导入与游戏播放相关的其他功能。 例如,玩家可以通过游戏结构的各个方面或通过认知限制来限制他们的观察力。 然而,最引人注目的添加功能是玩家有偏好。 代理商不仅观察到世界或行动。 虽然这些描述了游戏的运动学,但代理商也会评估当前的国家和各种可能的期货。 被偏好推动,这是运动员选择的运动力。 因此,对真正的游戏动态进行突出的解释作用。
本节将重点放在球员的优惠和认知尺寸上。 这些因素对于信息,行动和偏好通常纠缠的理性概念至关重要。 在博弈论中,这些与战略概况均衡的概念中的和谐。
3.1偏好和均衡
游戏树和游戏矩阵指定了在不同时刻的玩家可用的动作。 它们还指示所有可能的结果,也可以作为矩阵中的细胞,或在广泛的游戏中作为叶节点。 但是,要研究什么参与者应该或将在游戏中做些什么,需要进一步的组成部分:玩家的偏好。 此类偏好不仅需要反映结果状态的物质偿还或其他特征。 相反,它们也可能与戏剧本身的过程有关,并且移动导致某种结果。 此外,偏好可能包含不可挽回的主观元素。 即使在游戏中假设相同的角色,不同的球员也可能不同意某些结果的相对可取性(Fehr&Schmidt 1999)。
在静态,结果导向的奥运会上,重大重点是均衡:战略组合,所有球员都能借助他们的喜好和对手的策略。 进一步的动态视角侧重于诸如诸如如何鉴于他们的信仰和欲望的方式逐步涉及各个玩家的逐步局域推理。 这个角度在第4节中占据了。
3.2游戏的偏好逻辑
有关偏好的推理,必须首先指定代理商的偏好适用的内容。 正统账户让偏好仅限于可能的结果(Osborne&Rubinstein 1994)。 然而,逻辑文学中的日益增长的趋势假定代理人,相当关心一般命题的真理价值,而不是描述游戏的进展或结果。 虽然不等同,但两个观点兼容。 这两个部分都将讨论。
在古典图片中,播放器I在游戏树上的偏好是由优先关系≺i范围的偏好而表示。 这种关系通常是假设的传递和反射,但不需要总额。
示例一个偏好的游戏树。
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图8.ⓘ
与较早的游戏形式的模态逻辑一样,一个相对简单的逻辑形式主义可以在游戏中表达机构的相关方面。 它提供了一种低复杂性的语言,用于说明行动和信息的基本功能,而无需进入潜在的定量机制的细节。 更准确地说,具有偏好的游戏自然地支持逻辑与模态运算符[⪯i]解释为:
[⪯i]φ
φ至少保持在所有状态,至少与当前的代理I一样好。
这种类型的逻辑可以表达与游戏相关的各种属性。 例如,它们可以说,所有的状态都比当前的状态更好是φ状态,使朝向φ的状态变为最大化实用程序的必要条件。 它们还可以表达,所有最佳状态都是φ状态,具有公式
⟨⪯i⟩[⪯i]φ
有关Modal偏好逻辑的更多信息,请参阅Hansson(1990,2001),Girard(2008)和Van der Torre(1997)。
模态偏好逻辑具有与游戏自然连接的进一步扩展。 例如,在精致的角度来看,偏好可能导致各种代理的原因,例如标准或目标想要实现。 这导致了结果状态和优先订单之间的偏好关系之间的二元性,描述了代理商的目标。 最终动态帐户,追踪如何在各种输入事件下更改的偏好程度。 有关这两个问题的更多信息,请参阅Liu(2011)。
然而,模态偏好逻辑,解释为任何一种方式,尚未足够丰富,以表达博弈论的基本概念之一。 需要进一步的扩展来处理最佳反应,表明当前玩家的移动是她最符合她的对手的行为。
最佳反应动作是游戏均衡的主要成分。 正式地,纳什均衡是一种策略概况,为每个玩家定影了独特的选择,当所有其他人保持他们的策略时,没有人可以通过单方面变化的策略来改善。 在扩展模态偏好语言中有几种方法可以定义此属性。 一种可能性是简单地介绍一个新的atom bi,说明当前的世界是我可以根据对手的行动实现的最好的球员。 在这种语言中,纳什均衡的特征在于
⋀
i∈players
双。
存在更明确的定义,建立在范·宾馆,Girard和Roy(2009)的严格偏好模式。 然而,也许最简单的照明方法使用来自混合逻辑(Areces和Ten Cate 2007)的交叉点模式,将代理的偏好关系与她在对手的行动之间的不确定性结合,以表征最佳响应和纳什均衡(参见2.6节):
⋀
i∈players
[≺i∩≡i]⊥
表达纳什均衡已经担任战略游戏逻辑的基准(Van der Hoek&Pauly 2007)。 然而,还有其他追逐数据,经常与分析游戏的标准游戏理论概念进行连接。 这些通常旨在找到纳什均衡或至少缩小策略简档,以与某些合理要求兼容的人。 众所周知的这种方法是广泛的游戏的落后归纳,并迭代战略形式游戏的严格主导战略(Osborne&Rubinstein 1994)。 现在将讨论这些,因为它们提出了兴趣的进一步逻辑问题。
3.3在广泛的游戏中向后归纳
这是向后感应的高级描述。 在广泛的游戏形式中,目的是引入基于偏好的基于偏好的关系,表示一些举动是最好的玩家可以在一些给定的状态下做的。 因此,BESTI是玩家I的总移动关系的子集,以合适的方式定义。
对于最终动作,标准决策理论表明,如果没有其他行动导致更好的结果,可以选择最适合活跃的球员。 在将分析扩展到比赛的早期职位时,对于对反对者的未来行为的期望来说,事物至关重要。 取决于所涉及的玩家的类型,存在几项可能的策略。 在认知博弈论中广泛的假设是对理性的共同信念,即,所有所涉及的球员都是理性的,相信他们的对手是理性的,相信他们的对手相信对手是理性的,等等。 符合此假设,以下算法递归地扩展到非终端节点:
每当玩家我要在州S移动时,可以通过比较在此之后发生的情况下,每个人都遵循他们最好的关系,评估可能的选择。 如果这一行动的最佳结果随后是所有玩家的最佳举措,我的最佳关系包括在我的最佳关系中,至少与我可以在S的其他所有举动中一样好,随后所有玩家都会最佳动作。
以下是这种自下而上的程序在实践中的工作方式。
示例向后归纳。
这是说明示例的游戏树图。 扩展描述(图标题中的链接)将描述树。
图9.ⓘ
该程序是经典博弈论的定性版本,其向后感应,基于实用价值观而不是偏好关系(Leyton-Brown&Shoham 2008)。
向后归纳和所得到的最佳关系是用于偏好,信息和动作的复杂纠缠的主要示例。 范围内鉴定了一个关键的模态公理,van Benthem,Van Otterloo和Roy(2006)识别。 最好的*在这里表示所有Besti关系联盟的传递关闭。
(turni∧⟨best⟩[最佳*](完→p))→[movei]⟨best*⟩(end∧⟨⪯i⟩p)
描述具有静态属性的动态过程的限制,此等效物举例说明了在游戏的逻辑分析中发挥着至关重要的作用的特征定理。 可以以类似的逻辑风格分析其他动态透视图(Liu 2011)。
3.4迭代删除占主导地位的策略
类似于战略形式的游戏也存在类似于向后归纳的迭代推理策略。 然而,这些程序通过消除次优操作来解决这些程序而不是定义新的一元移动谓词。 如果有一些其他可用动作B,则标记为次优或主导的动作a,这是不管对手做什么的更好的结果。 在这种情况下,理性的球员应该从她的可接受行为的空间中掉下来,因为她永远不会玩它。
就像向后归纳一样,优势推理具有迭代味道。 假设对理性的共同信念,玩家可以预期他们的对手也从考虑中删除主导的行动。 这样做减少了游戏,可能呈现进一步的移动,如以下示例中所示。 在左右的时间进展中,在丢弃时,移动就会灰色。 玩家的偏好是用数字值表示,最佳,最差4个。
c d
一个1,1 4,3
b 2,2 3,4
c d
一个1,1 4,3
b 2,2 3,4
c d
一个1,1 4,3
b 2,2 3,4
进一步的策略可能成为主导的事实表明重复该程序,将占据策略的删除转移到迭代过程中。 当游戏是有限时,该过程保证在有限时间内收敛。 迭代删除二元偏好关系的主导战略是经典博弈论中所采用的版本的定性变种,其中Accinal效用价值(Leyton-Brown和Shoham 2008)。
密切相关的过程被迭代删除弱统治策略,如果存在一个在一些对手移动的B上占据了一个胜过的B,则删除了一些移动A.在剩余的那些中至少好于此。 与其严格的对应物不同,迭代脱击策略遭受许多技术和概念复杂性,例如迭代删除的订单依赖性(Samuelson 1992; Pacuit&Roy 2011)。