逻辑与概率(一)
首次发布于 2013 年 3 月 7 日星期四;实质性修订 2023 年 8 月 17 日星期四
逻辑和概率论是正式推理研究的两个主要工具,并在哲学、人工智能、认知科学和数学等不同领域得到了卓有成效的应用。本文讨论了结合逻辑和概率论的主要建议,并试图对这个快速发展的领域中的各种方法进行分类。
1. 逻辑与概率论的结合
2.命题概率逻辑
2.1 概率语义
2.2 亚当斯的概率逻辑
2.3 进一步概括
3. 基本概率算子
3.1 不确定性的定性表示
3.2 概率项的和与积
4. 模态概率逻辑
4.1 基本有限模态概率模型
4.2 索引和解释
4.3 概率空间
4.4 定量和定性不确定性的结合
4.5 定量和定性交互的约束
4.6 动力学
5. 一阶概率逻辑
5.1 一阶概率逻辑的例子
5.1.1 量化多个变量
5.1.2 条件概率
5.1.3 概率作为项
5.2 可能世界一阶概率逻辑
5.3 元逻辑
参考书目
学术工具
其他互联网资源
相关条目
1. 逻辑与概率论的结合
乍一看,将逻辑和概率相结合的想法可能看起来很奇怪(Hájek 2001)。毕竟,逻辑涉及绝对确定的真理和推论,而概率论则处理不确定性。此外,逻辑提供了推理的定性(结构)视角(论证的演绎有效性基于论证的形式结构),而概率本质上是定量(数字)的。然而,正如下一节将要展示的那样,概率论预设并扩展了经典逻辑,这是有其自然意义的。此外,从历史上看,一些杰出的理论家,如德摩根(1847)、布尔(1854)、拉姆齐(1926)、德菲内蒂(1937)、卡尔纳普(1950)、杰弗里(1992)和豪森(2003、2007、2009)强调逻辑和概率之间的紧密联系,甚至将他们关于概率的工作视为逻辑本身的一部分。
通过整合定性逻辑和数值概率论的互补观点,概率逻辑能够提供高度表达性的推理解释。因此,它们被应用于研究推理机制的所有领域,如哲学、人工智能、认知科学和数学,也就不足为奇了。这种跨学科流行的缺点是,不同的研究人员以不同的、不相同的方式使用“概率逻辑”等术语。因此,在继续实际讨论各种方法之前,我们将首先描述本条目的主题。
最重要的区别是概率逻辑和归纳逻辑之间的区别。经典上,当且仅当 A 的前提全部为真而其结论为假时,该论证才被认为是(演绎上)有效的。换句话说,演绎有效性相当于保真:在有效的论证中,前提的真实性保证了结论的真实性。然而,在某些论证中,前提的真实性并不能完全保证结论的真实性,但仍然使其极有可能。一个典型的例子是前提“我看到的第一只天鹅是白色的”、……、“我看到的第一千只天鹅是白色的”和结论“所有天鹅都是白色的”的论证。此类论证在归纳逻辑中进行研究,归纳逻辑广泛使用概率概念,因此被一些作者认为与概率逻辑相关。关于归纳逻辑和概率逻辑之间的确切关系有一些讨论,Kyburg (1994) 的引言中对此进行了总结。这里也采用的主导立场(由 Adams 和 Levine (1975) 等人捍卫)是,概率逻辑完全属于演绎逻辑,因此不应该关注归纳推理。尽管如此,大多数关于归纳逻辑的工作都属于“概率保留”方法,因此与第 2 节中讨论的系统密切相关。有关归纳逻辑的更多信息,读者可以参考 Jaynes (2003)、Fitelson (2006)、Romeijn (2011),以及这本百科全书关于归纳问题和归纳逻辑的条目。
我们还将避开有关概率确切本质的哲学辩论。这里讨论的形式系统与概率的所有常见解释兼容,但显然,在具体应用中,概率的某些解释比其他解释更自然。例如,第 4 节中讨论的模态概率逻辑本身对于概率的本质是中立的,但是当它们用于描述转移系统的行为时,它们的概率通常以客观的方式解释,而建模多- 代理人场景最自然地伴随着概率的主观解释(作为代理人的信念程度)。 Gillies (2000)、Eagle (2010) 以及这本百科全书的概率解释条目详细介绍了这个主题。
文献中最近的趋势是较少关注将逻辑和概率论整合或组合成一个单一的、统一的框架,而是在两个学科之间建立桥梁。这通常涉及尝试用概率论的定量术语捕获逻辑的定性概念,反之亦然。我们无法公正地评价这个蓬勃发展领域的各种方法,但感兴趣的读者可以咨询Leitgeb (2013, 2014)、Lin 和 Kelly (2012a, 2012b)、Douven 和 Rott (2018) 以及 Harrison-特雷纳、霍利迪和 Icard(2016 年、2018 年)。该领域的“当代经典”是 Leitgeb (2017),而 van Benthem (2017) 提供了有用的调查和一些有趣的纲领性评论。
最后,虽然概率逻辑的成功很大程度上归功于它的各种应用,但我们不会详细讨论这些应用。例如,我们不会评估概率作为哲学(贝叶斯认识论)或人工智能(知识表示)信仰的形式表示的使用,以及它相对于替代表示的优缺点,例如广义概率论(对于量子理论)、p-adic 概率和模糊逻辑。有关这些主题的更多信息,读者可以查阅 Gerla (1994)、Vennekens 等人。 (2009)、Hájek 和 Hartmann (2010)、Hartmann 和 Sprenger (2010)、Ilić-Stepić 等人。 (2012),以及这本百科全书关于信念的形式表示、贝叶斯认识论、可废推理、量子逻辑和概率论以及模糊逻辑的条目。
有了这些澄清,我们现在就可以看看本文将讨论的内容了。获得具体的概率逻辑系统的最常见策略是从经典的(命题/模态/等)逻辑系统开始,并通过向其添加概率特征,以某种方式对其进行“概率化”。有多种方法可以实现这种概率化。人们可以研究古典语言(没有任何明确的概率运算符)的概率语义,在这种情况下,结果关系本身就具有概率的味道:演绎有效性变成“概率保留”,而不是“真理保留”。这一方向将在第 2 节中讨论。或者,可以将各种概率运算符添加到逻辑语法中。在第 3 节中,我们将讨论一些初步的、相当基本的概率算子示例。第 4 节将探讨模态概率算子的完整表达能力。最后,第 5 节将讨论具有一阶概率算子的语言。
2.命题概率逻辑
在本节中,我们将介绍第一类概率逻辑,用于研究“概率保存”(或双重的“不确定性传播”)问题。这些系统不使用任何概率运算符来扩展语言,而是处理“经典”命题语言 L,它具有一组可数的原子命题和通常的真值函数(布尔)连接词。
主要思想是,有效论证的前提可以是不确定的,在这种情况下,(演绎)有效性不会对结论的(不确定)确定性施加任何条件。例如,前提“如果明天会下雨,我会被淋湿”和“明天会下雨”以及结论“我会被淋湿”的论证是有效的,但如果其第二个前提不确定,则其结论通常会也有不确定性。命题概率逻辑将此类不确定性表示为概率,并研究它们如何从前提“流动”到结论;换句话说,他们不研究真值保存,而是研究概率保存。以下三个小节讨论了处理该问题的越来越通用版本的系统。
2.1 概率语义
我们首先回顾命题语言 L 的概率函数的概念。(在数学中,概率函数通常是为给定集合 Ω 的子集的 σ 代数定义的,并且需要满足可数可加性;参见第 4.3 节。然而,在逻辑上下文中,为逻辑的对象语言“立即”定义概率函数通常更自然(Williamson 2002),因为这种语言是有限的——它的所有公式都有有限的长度——所以它也足以需要有限的可加性。 )概率函数(对于 L)是满足以下约束的函数 P:L→R:
非消极性。对于所有 phi∈L,P(phi)≥0。
同义反复。若 ⊨ψ,则 P(ψ)=1。
有限可加性。若 ⊨Ø(ψ∧ψ),则 P(ψ∨ψ)=P(ψ)+P(ψ)。
在第二个和第三个约束中,⊨符号表示经典命题逻辑中的(语义)有效性。因此,概率函数的定义需要经典逻辑的概念,从这个意义上说,概率论可以说是以经典逻辑为前提的(Adams 1998, 22)。可以很容易地证明,如果 P 满足这些约束,则对于所有公式 ψ ε L 都有 P(ψ) ε [0,1],并且对于所有公式 ψ,ψ ψ L 来说 P(ψ)=P(ψ) 为逻辑上等价(即 ⊨ψ↔ψ)。
我们现在转向概率语义,如 Leblanc (1983) 中所定义。具有前提 Г 和结论 ψ 的论证(此后记为 (Г, ψ))被认为是概率有效的,写作 Г⊨pψ,当且仅当:
对于所有概率函数 P:L→R:
如果对于所有 γ ∈ γ P(γ)=1,则 P(phi)=1。
因此,概率语义用概率函数 P:L→R 代替了经典命题逻辑的估值 v:L→{0,1},其取实单位区间 [0,1] 中的值。因此,true (1) 和 false (0) 的经典真值可以被视为单位区间 [0,1] 的端点,同样,估值 v:L→{0,1} 可以被视为退化概率函数 P:L→[0,1]。从这个意义上说,经典逻辑是概率逻辑的特例,或者说,概率逻辑是经典逻辑的延伸。
可以证明经典命题逻辑在概率语义方面是(强烈)健全和完整的:
Г⊨pψ 当且仅当 Г⊢ψ。
一些作者将概率解释为广义真值(Reichenbach 1949,Leblanc 1983)。根据这种观点,概率逻辑只是一种特殊的多值逻辑,概率有效性归结为“保真”:真理(即概率1)从前提延续到结论。其他逻辑学家,例如 Tarski (1936) 和 Adams (1998, 15),已经指出概率不能被视为广义真值,因为概率函数不是“外延的”;例如,P(ψ∧ψ) 不能表示为 P(ψ) 和 P(ψ) 的函数。关于这个主题的更多讨论可以在 Hailperin (1984) 中找到。
另一种可能性是将句子的概率解释为对其(不确定性)的衡量。例如,句子“Jones is in Spain at the moment”可以具有任意程度的确定性,范围从 0(最大不确定性)到 1(最大确定性)。 (请注意,0 实际上是一种确定性,即关于虚假的确定性;然而,在本条目中,我们遵循 Adams 的术语 (1998, 31),并将 0 解释为最大不确定性。)根据这种解释,可以得出以下定理概率语义的强大健全性和完整性:
定理 1. 考虑一个演绎有效的论证 (Г,ψ)。如果 Γ 中的所有前提都有概率 1,那么结论 phi 也有概率 1。
该定理可以被视为对概率保存(或不确定性传播)问题的第一个非常部分的澄清。它说,如果前提不存在任何不确定性,那么结论也不可能存在任何不确定性。在接下来的两小节中,我们将考虑更有趣的情况,当前提存在非零不确定性时,并询问它如何延续到结论。
最后,应该指出的是,虽然本小节只讨论了经典命题逻辑的概率语义,但也有各种其他逻辑的概率语义,例如直觉命题逻辑(van Fraassen 1981b,Morgan and Leblanc 1983)、模态逻辑( Morgan 1982a、1982b、1983、Cross 1993)、经典一阶逻辑(Leblanc 1979、1984、van Fraassen 1981b)、相关逻辑(van Fraassen 1983)和非单调逻辑(Pearl 1991)。所有这些系统都有一个关键特征:逻辑的语义本质上是概率性的,但概率并没有在对象语言中明确表示;因此,它们在本质上更接近这里讨论的命题概率逻辑,而不是后面章节中介绍的系统。
大多数这些系统不是基于一元概率 P(ψ),而是基于条件概率 P(ψ,ψ)。条件概率 P(ψ,ψ) 被视为原语(而不是像通常那样定义为 P(ψ∧ψ)/P(ψ)),以避免 P(ψ)=0 时出现问题。 Goosens(1979)根据条件概率的原始概念概述了概率论的各种公理化。
2.2 亚当斯的概率逻辑
在上一小节中,我们讨论了概率保存的第一原理,即如果所有前提的概率为 1,则结论的概率也为 1。当然,当前提不是绝对确定时,会出现更有趣的情况。考虑具有前提 p∨q 和 p→q 以及结论 q 的有效论证(符号“→”表示真值条件物质条件)。人们可以很容易地证明
P(q)=P(p∨q)+P(p→q)−1。
换句话说,如果我们知道论证前提的概率,那么我们就可以计算其结论的精确概率,从而为该特定论证的概率保存问题提供完整的答案(例如,如果 P(p∨ q)=6/7 且 P(p→q)=5/7,则 P(q)=4/7)。然而,一般来说,在给定前提概率的情况下,不可能计算出结论的准确概率;相反,我们所能期望的最好结果是结论概率有一个(严格的)上限和/或下限。我们现在将讨论 Adams(1998)计算此类界限的方法。
亚当斯的结果可以更容易地用不确定性而不是确定性(概率)来表述。给定概率函数 P:L→[0,1],相应的不确定性函数 UP 定义为
UP:L→[0,1]: Φ↦UP(Φ):=1−P(Φ)。
如果概率函数 P 从上下文中很清楚,我们通常会简单地写成 U 而不是 UP。在本小节的其余部分(以及下一节)中,我们将假设所有论证都只有有限多个前提(考虑到经典命题逻辑的紧凑性,这不是一个重要的限制)。 Adams 的第一个主要结果最初由 Suppes (1966) 建立,现在可以表述如下:
定理2. 考虑一个有效的论证(Г,ψ)和一个概率函数P。那么结论Ф的不确定性不能超过前提γ∈Г的不确定性之和。正式:
U(φ)≤
Σ
γ ε γ
U(γ)。
首先,请注意,该定理将定理 1 包含为一种特殊情况:如果对于所有 γ ε γ P(γ)=1,则对于所有 γ ε γ U(γ)=0,因此 U(phi)≤ΣU (γ)=0,因此 P(phi)=1。此外,请注意,结论不确定性的上限取决于|Г|,即取决于前提的数量。如果一个有效的论证有少量前提,每个前提只有很小的不确定性(即较高的确定性),那么它的结论也将具有相当小的不确定性(即相当高的确定性)。相反,如果一个有效论证的前提具有较小的不确定性,那么如果该论证具有大量前提,则其结论只能是高度不确定的(这一相反原理的一个著名例证是 Kyburg 的彩票悖论,该悖论在本百科全书的认知悖论条目)。更具体地说,请注意,如果一个有效论证有三个前提,每个前提的不确定性均为 1/11,那么添加一个也具有不确定性 1/11 的前提不会影响论证的有效性,但会提高结论的不确定性从 3/11 到 4/11——从而使结论比最初的情况更加不确定。最后,定理 2 提供的上限是最优的,因为(在正确的条件下)结论的不确定性可以与其上限 ΣU(γ) 一致:
定理 3. 考虑一个有效的论证 (Г, ψ),并假设前提集 Г 是一致的,并且每个前提 γ ∈ Г 都是相关的(即 Г−{γ}⊭ ψ)。那么存在概率函数 P:L→[0,1] 使得
UP( )=
Σ
γ ε γ
上(γ)。
定理 2 提供的上限也可用于定义有效性的概率概念。一个论证 (Г,ψ) 被认为是亚当斯概率有效的,写作 Г⊨aψ,当且仅当
对于所有概率函数 P:L→R: UP(phi)≤Σγ∈ГUP(γ)。
亚当斯概率有效性在概率而不是不确定性方面有另一种等效的表征。这个表征表明,当且仅当前提的概率足够高时,结论的概率可以任意接近 1,(Г,ψ) 才是亚当斯概率有效的。形式上: Γ⊨aphi 当且仅当
对于所有 ϵ>0,存在 δ>0,使得对于所有概率函数 P:
如果 P(γ)>1−δ 对于所有 γ ∈ Γ,则 P(ψ)>1−ϵ。
可以证明经典命题逻辑相对于亚当斯的概率语义学是(强烈)健全和完整的:
Г⊨aψ 当且仅当 Г⊢ψ。
Adams (1998, 154) 还定义了另一种逻辑,他的概率语义学是健全且完整的。然而,该系统涉及非真值函数连接词(概率条件),因此不属于本节的范围。 (有关条件句的概率解释的更多信息,读者可以查阅本百科全书中关于条件句和条件句逻辑的条目。)
考虑以下示例。具有前提 p,q,r,s 和结论 p∧(q∨r) 的论证 A 是有效的。假设P(p)=10/11,P(q)=P(r)=9/11,P(s)=7/11。那么定理 2 说
U(p∧(q∨r))≤
1
11
+
2
11
+
2
11
+
4
11
=
9
11
。
结论不确定性的上限相当令人失望,它暴露了定理 2 的主要弱点。上限如此之高的原因之一是,为了计算它,我们考虑了前提 s,其中相当高的不确定性(4/11)。然而,这个前提是无关紧要的,因为结论已经从其他三个前提得出。因此,我们不仅可以将 p∧(q∨r) 视为有效论证 A 的结论,还可以将其视为(同样有效)论证 A′ 的结论,该论证 A′ 具有前提 p,q,r。在后一种情况下,定理 2 得出的上限为 1/11+2/11+2/11=5/11,这已经低得多了。





