形式认识论(一)

1. 第一个案例研究:证实科学理论

1.1 演绎法

1.2 概率方法

1.2.1 基本构建模块

1.2.2 贝叶斯定理

1.3 定量确认与乌鸦悖论

1.4 先验问题

1.5 总结

2. 第二个案例研究:归纳问题

2.1 冷漠原则

2.2 更新与推理

3. 第三个案例研究:回归问题

3.1 相干性

3.2 基础主义

4.第四个案例研究:知识的局限性

4.1 认知模态逻辑

4.2 可知性悖论(又名丘奇-菲奇悖论)

4.3 自我认识

5.第五个案例研究:社会认识论

5.1 佐尔曼效应

5.2 不信任与两极分化

6.认识论之外的应用

6.1 决策理论

6.2 上帝的存在:微调

6.3 “如果……那么……”的含义

参考书目

学术工具

其他互联网资源

相关条目

1. 第一个案例研究:证实科学理论

科学推理如何发挥作用? 20 世纪初,大量数学知识被一阶逻辑成功重建。许多哲学家在生物学、心理学和物理学等经验科学中寻求类似的推理系统化。尽管经验科学严重依赖非演绎推理,但演绎逻辑工具仍然提供了一个有希望的起点。

1.1 演绎法

考虑这样的假设:所有电子都带有负电荷,在一阶逻辑中表示为 ∀x(Ex⊃Nx)。将某个物体 a 识别为电子后,该假设演绎地需要预测 Na,a 带负电荷:

∀x(Ex⊃Nx)

埃亚

如果我们测试这个预测并观察到,确实,Na,这似乎支持了这个假设。

因此,科学假设检验似乎类似于“反向演绎”(Goodman 1954)。如果我们交换上述推导中的假设和预测数据,我们会得到一个验证的例子:

埃亚

∀x(Ex⊃Nx)

这里的双线代表非演绎推理。在这种情况下,推论非常弱,因为该假设仅在一种情况下得到验证,a。但当我们添加更多实例 b、c 等时,它会变得更强(当然,前提是我们没有发现反实例)。

这些观察结果表明了 Nicod (1930) 的一项提议,并由 Hempel (1945) 进行了著名的检验:

尼科德准则

普适概括由其正例证实(只要没有发现反例):∀x(Fx⊃Gx) 由 Fa∧Ga、Fb∧Gb 等证实。

总的想法是,当预测得到证实时,假设就得到了证实。为了在演绎逻辑中正式捕捉这个想法,我们将预测与逻辑蕴涵等同起来。当一个对象是 F 时,假设 ∀x(Fx⊃Gx) 必然/预测该对象是 G。因此,任何既是 F 又是 G 的对象的发现都证实了该假设。

尼科德标准的一个经典挑战是臭名昭著的乌鸦悖论。假设我们想要检验所有乌鸦都是黑色的假设,我们将其形式化为 ∀x(Rx⊃Bx)。通过对位,这在逻辑上等价于 ∀x(ØBx⊃ØRx)。尼科德标准说,后一种假设可以通过发现任何非黑色和非乌鸦的物体来证实——例如一件红色衬衫,或一条蓝色内裤(Hempel 1937,1945)。但在我部门的大厅里走来走去,注意到非黑色的非乌鸦,这似乎不是验证所有乌鸦都是黑色的合理方法。 “室内鸟类学”(Goodman 1954)怎么可能是好的科学?!

统计假设对预测推论方法提出了第二个更普遍的挑战。假设我们想要检验只有 50% 的乌鸦是黑色的理论。这个假设与乌鸦个体的颜色无关。它可能是黑色的之一,也可能不是。事实上,即使对乌鸦进行了一次非常大规模的调查,结果发现所有乌鸦都是黑色的,这并不与这一假设相矛盾。总有可能 50% 的非黑色乌鸦没有参与调查。 (也许非黑乌鸦非常擅长躲避。)

这一挑战提出了一些重要的教训。首先,我们需要一个比演绎蕴涵更宽松的预测概念。 50% 的假设可能并不意味着对乌鸦的大规模调查将会有一些非黑乌鸦,但它确实强烈地表明了这一预测。其次,作为一种推论,确认是定量的:它以程度为单位。一只黑色的乌鸦并不能很好地支持 50% 的乌鸦是黑色的假设,但大约一半黑一半白的乌鸦的大样本可以支持这一假设。第三也是最后一点,确认程度应该从概率的角度来理解。 50% 的假设并不意味着一只乌鸦很可能是黑色的,但它使得更大的乌鸦群体很可能大约一半是黑色,一半是非黑色。全黑假说预测任何乌鸦样本都有 100% 的概率是全黑的。

定量方法也有望帮助解决乌鸦悖论。最受欢迎的决议称,观察红色衬衫确实证实所有乌鸦都是黑色的,只是数量非常少。因此,乌鸦悖论是一种幻觉:我们将极少量的确认误认为根本没有(Hosiasson-Lindenbaum 1940)。但为了让这个回答令人信服,我们需要一个适当的、定量的确认理论来解释一件红衬衫如何与乌鸦的假设相关,但只是轻微相关。

1.2 概率方法

让我们从确认一个假设就是让它更有可能的想法开始。证据越能增加假设的概率,就越能证实该假设。

那么我们需要的是概率论。标准理论以函数 p 开始,它接受一个命题并返回一个数字 x,即该命题的概率:p(A)=x。要成为概率函数,p 必须满足三个公理:

对于任意命题 A,0≤p(A)≤1.[1]

对于任何同义反复 A,p(A)=1。

对于任何逻辑上不相容的命题 A 和 B,p(A∨B)=p(A)+p(B)。

第一个公理设置概率范围,从 0 到 1,我们可以将其视为从 0% 概率运行到 100% 概率。 [2]第二个公理将同义反复放在这个等级的顶部:没有什么比同义反复更有可能的了。 [3]最后,第三个公理告诉我们如何通过将假设分解为多个部分来计算假设的概率。例如,一个美洲国家首先开发出阿尔茨海默病治疗方法的概率可以通过将北美国家首先开发出治疗阿尔茨海默氏症的概率与南美国家首先开发的概率相加来计算。 [4]

那么条件概率呢?比如假设你在之前的哲学课上表现良好,那么你在下一堂哲学课上表现良好的概率又如何?到目前为止,我们只形式化了绝对概率的概念,p(A)=x。让我们通过定义来介绍条件概率:

定义。给定 A 时 B 的条件概率写为 p(B∣A),并定义为:

p(B∣A)=

p(B∧A)

p(A)

为什么要这样定义呢?一个有用的启发法是将给定 A 的 B 的概率视为类似于 A 可能性中同时也是 B 可能性的部分。例如,假设掷骰为偶数,则在六面骰子上掷出高数字(4、5 或 6)的概率为 2/3。为什么?有 3 种偶数可能性 (2, 4, 6),因此 p(A)=3/6。在这 3 种可能性中,有 2 种也是高数 (4, 6),因此 p(B∧A)=2/6。因此

p(B∣A)=

p(B∧A)

p(A)

=

2/6

3/6

=2/3。

概括这个想法,我们首先将 A 可能性的数量作为一种基线,将 p(A) 放入分母中。然后我们通过将 p(B∧A) 放入分子来考虑其中有多少也是 B 可能性。

顺便请注意,当 p(A)=0 时,p(B∣A) 未定义。乍一看这可能看起来不错。如果 A 不可能为真,为什么要担心 A 为真时 B 的概率呢?事实上,这里潜伏着深层次的问题(Hájek m.s.,其他互联网资源),尽管我们不会停下来探索它们。

相反,让我们利用我们已经奠定的基础来阐述定量确认的正式定义。我们的指导思想是,证据证实一个假设,只要它增加了它的概率。因此,我们通过查看 p(H∣E) 和 p(H) 之间的差异来比较它们:

定义。 E 确认 H 的程度,称为确认度,记为 c(H,E),定义为:

c(H,E)=p(H∣E)−p(H)。

当c(H,E)为负时,E实际上降低了H的概率,我们说E不证实H。当c(H,E)为0时,我们说E相对于H是中性的。

尽管这些简单的公理和定义很小,但足以得出许多关于概率和确认的有趣主张。以下两小节介绍了一些基本但有希望的结果。请参阅技术补充以获取证明。

1.2.1 基本构建模块

让我们从一些基本定理开始,这些定理说明了概率如何与演绎逻辑相互作用:

定理(没有矛盾的机会)。当A是矛盾时,p(A)=0。

定理(矛盾的互补性)。对于任何 A,p(A)=1−p(ØA)。

定理(等价相等)。当A和B逻辑上等价时,p(A)=p(B)。

定理(逻辑结果的条件确定性)当A在逻辑上蕴含B时,p(B∣A)=1。

接下来的三个定理更深入一些,对于建立更有趣的结果很有用:

定理(合取成本概率)。对于任何 A 和 B,p(A)>p(A∧B),除非 p(A∧ØB)=0,在这种情况下 p(A)=p(A∧B)。

思考合取成本概率所说内容的一种方式是,陈述越有力,虚假的风险就越大。如果我们通过添加 B 来强化 A,那么所得到的更强的陈述的可能性就较小。除非,也就是说,如果没有 B,A 就不可能为真。在这种情况下,在 A 中添加 B 并不会改变虚假的风险,因为无论如何,如果没有 B,A 就不可能为真。

定理(合取规则)。对于任何 A 和 B,使得 p(B)≠0,p(A∧B)=p(A∣B)p(B)。

这意味着我们可以通过暂时认为 B 是理所当然的,评估 A 的概率,然后根据结果本身的优点给予结果与 B 的概率同等的权重,来计算两个陈述 A 和 B 一起为真的可能性有多大。

定理(全概率定律)。对于任何 A 和任何概率既不是 0 也不是 1 的 B:

p(A)=p(A∣B)p(B)+p(A∣ØB)p(ØB)。

总概率定律基本上说我们可以通过将 A 分解为两种可能的情况来计算 A 的概率:B 和 ØB。我们考虑如果 B 为真,A 的可能性有多大;如果 B 为假,A 的可能性有多大。然后,我们将每个案例与其成立的概率相乘,然后将结果相加,从而给予每个案例适当的“权重”。为此,p(A∣B) 和 p(A∣ØB) 必须明确定义,因此 p(B) 不能为 0 或 1。

1.2.2 贝叶斯定理

这个经典定理将条件概率 p(H∣E) 与无条件概率 p(H) 联系起来:

p(H∣E)=p(H)

p(E∣H)

p(E)

正如我们稍后会看到的,该定理在哲学上很重要。但它作为计算 p(H∣E) 的工具也很有用,因为右侧的三项通常可以从可用的统计数据中推断出来。

例如,考虑一下 X 大学的一名成绩较高 (E) 的学生是否表明了她参加哲学课程 (H) 的可能性。注册员告诉我们,35% 的学生在某个时候参加过哲学课,因此 p(H)=35/100。他们还告诉我们,全校只有 20% 的学生成绩较高(定义为 GPA 为 3.5 或以上),因此 p(E)=20/100。但他们没有跟踪任何更详细的信息。幸运的是,哲学系可以告诉我们,参加他们课程的学生中有 25% 的成绩很高,因此 p(E∣H)=25/100。这就是应用贝叶斯定理所需的一切:

p(H∣E) =p(H)

p(E∣H)

p(E)

=35/100×

25/100

20/100

=7/16

这高于 p(H)=20/100,因此我们还可以看到,学生的高分证实了她将参加哲学课的假设。

贝叶斯定理的哲学意义是什么?它统一了许多关于证实和科学方法论的有影响力的想法,将它们结合在一个简单的方程式中。让我们看看如何。

理论拟合。不言而喻,理论越符合证据,证据就越支持它。但理论与证据相符意味着什么呢?

当H蕴含E时,理论认为证据必须是真实的,因此证据的发现完全符合理论。我们的形式主义在这种特殊情况下证明了不言而喻的事实,如下所示。当 H 蕴含 E 时,逻辑结果的条件确定性告诉我们 p(E∣H)=1,因此贝叶斯定理变为:

p(H∣E)=p(H)

1

p(E)

如果 p(E) 小于 1,则相当于将 p(H) 乘以大于 1 的比率,这意味着 p(H∣E) 大于 p(H)。此外,由于 1 是分子中可以出现的最大数量,因此 H 蕴含 E 且因此 p(E∣H)=1 的情况最大程度地提高了 H 的概率。换句话说,当该理论尽可能地符合证据。

(但是,如果 p(E)=1 呢?那么 H 可能适合 E,但 ØH 也可以。如果 p(E)=1,我们可以证明 p(E∣H)=1 且 p(E∣Ø H)=1(提示:将总概率定律与矛盾互补性结合起来)换句话说,E 完全符合 H 及其否定,因此它不应该能够区分这两个假设。事实上,在这种情况下 p(H∣E) 与 p(H) 相同,因此 c(H,E)=0。)

当理论与证据不太吻合时怎么办?如果我们将拟合视为 H 预测 E p(E∣H) 的确定性,那么前面的分析就可以很好地概括。假设 H 强烈预测 E,但不是绝对确定:p(E∣H)=1−ε,对于某个小数 ε。再次应用贝叶斯定理,我们有:

p(H∣E)=p(H)

1−ε

p(E)

这又相当于将 p(H) 乘以大于 1 的比率,前提是 p(E) 不接近 1。因此 p(H∣E) 将大于 p(H)。当然,ε越大,确认性就越弱,这与 H 预测 E 的弱点相匹配。

小说预测。另一个不言而喻的事实是,新颖的预测更重要。当一个理论预测了一些我们原本不会预料到的事情时,如果该预测得到证实,它就会得到特别强烈的证实。例如,泊松嘲笑光是波的理论,因为它预测亮点应该出现在某些阴影的中心。此前没有人观察到这样的亮点,这使其成为一个新颖的预测。当这些亮点的存在被证实时,这对波动理论来说是一个福音。

我们的形式化再次证明了不言而喻的道理。假设如前所述,H 预测 E,因此 p(E∣H)=1,或接近如此。一种新颖的预测是 p(E) 较低或至少不是很高的预测。这是一个出人意料的预测。我们之前的分析表明,在这种情况下,我们将 p(H) 乘以贝叶斯定理中的一个大比率。因此 p(H∣E) 明显大于 p(H),使得 c(H,E) 很大。因此,新颖的预测尤其具有证实性。

先前的合理性。最后一个不言而喻的事实是:理论的新证据必须与该理论先前的合理性进行权衡。也许这个理论本质上是难以置信的,令人费解或充满形而上学的色彩。或者也许这个理论已经变得难以置信,因为它与早期的证据相冲突。或者也许这个理论已经相当合理,非常优雅并且与之前的证据非常吻合。无论如何,必须根据这些先前的考虑来评估新的证据。

贝叶斯定理再次证明了这一不言而喻的道理。 p(H∣E) 的计算方法是将 p(H) 乘以因子 p(E∣H)/p(E)。我们可以将因子 p(E∣H)/p(E) 视为衡量证据对 H 的重视程度(或者反对 H,如果 p(E∣H)/p(E) 小于 1) ,然后我们将其与 H 的先前概率 p(H) 相乘,以获得 H 的新的、综合考虑的合理性。如果 H 已经不合理,p(H) 将很低,并且该乘法的结果将小于 H 已经合理且 p(H) 较高时的结果。

让我们停下来总结一下。贝叶斯定理不仅仅是一个有用的计算工具。它还证明了关于确认的三个不言而喻的真理,并将它们统一在一个方程式中。每个不言而喻的真理都对应于贝叶斯定理中的一个术语:

p(E∣H) 对应于理论拟合。假设越符合证据,这个数量就越大。由于该项出现在贝叶斯定理中的分子中,因此更好的拟合意味着 p(H∣E) 的值更大。

p(E) 对应于预测新颖性,或者更确切地说,缺乏预测新颖性。预测越新颖,我们就越不期望 E 为真,因此 p(E) 就越小。由于该项出现在贝叶斯定理的分母中,因此越新颖意味着 p(H∣E) 的值越大。

p(H) 对应于先前的合理性。在发现 E 之前 H 越可信,这个量就越大,因此 p(H∣E) 就越大。

但乌鸦悖论又如何呢?

1.3 定量确认与乌鸦悖论

回想一下乌鸦悖论:所有乌鸦都是黑色的假设在逻辑上等同于所有非黑色物体都是非乌鸦的假设。然而,后者似乎会随着每一次非黑色、非乌鸦的发现而得到证实……红色衬衫、蓝色内裤等。然而,检查邻居晾衣绳上的东西似乎并不是研究鸟类学假设的好方法。 (这似乎也不是对待邻居的好方法。)

经典的定量解决方案源自 Hosiasson-Lindenbaum (1940)。它认为,蓝色内裤的发现确实证实了所有乌鸦都是黑色的假设,只是程度太小以至于我们忽略了这一点。蓝色内裤如何与所有乌鸦都是黑色的假设相关?非正式地说,这个想法是,一个物体如果是一条蓝色内裤,则可能是一只白色乌鸦。当事实证明不是这样的反例时,我们的假设就通过了一种弱检验。我们的正式确认理论是否证明了这种非正式的思维方式是正确的?答案是:“是的,但是……”。

“但是……”对于尼科德标准的命运至关重要(剧透:前景不佳)。但让我们从“是”开始。

我们用一个定理来证明“是”:发现一个不是黑色的非乌鸦的物体,ØR∧ØB,只是稍微提高了所有乌鸦都是黑色的假设的概率,H,如果我们做某些假设。这是定理(证明见技术补充):

定理(乌鸦定理)。如果 (i) p(ØR∣ØB) 非常高且 (ii) p(ØB∣H)=p(ØB),则 p(H∣ØR∧ØB) 略大于 p (H)。

(本章完)

相关推荐