统计哲学(三)
通常,估计与所谓的置信区间相关(参见 Cumming 2012)。为了便于说明,假设
θ
由实数组成并且每个样本
s
带有独特的标签
^
θ
((
s
)
。我们定义集合
r
τ
=
{
s
:
^
θ
((
s
)
=
τ
}
,估计函数具有值的样本集
τ
我们现在可以整理样本空间中的一个区域,其中估计函数
^
θ
离目标不太远,即离真实值不太远
θ
⋆
的参数。例如,
c
⋆
δ
=
{
r
τ
:
τ
ε
[
θ
⋆
-
δ
,,,,
θ
⋆
+
δ
这是给出的报价
}
。
所以这个集合是所有集合的并集
r
τ
为此
τ
ε
[
θ
⋆
-
δ
,,,,
θ
⋆
+
δ
这是给出的报价
现在我们可能会以这样的方式设置这个区域,使其覆盖样本空间的很大一部分,比如说
1
-
α
,通过真实分布测量
p
θ
⋆
。 我们选择
δ
这样
p
θ
⋆
((
c
⋆
δ
)
=
∫
θ
⋆
+
δ
θ
⋆
-
δ
p
θ
⋆
((
r
τ
)
d
τ
=
1
-
α
。
统计民间传说通常设定
α
值 5%。相对于这个数字,大小
δ
说明了估计的质量。如果我们一遍又一遍地重复样本的收集,我们会找到估计器
^
θ
在一个范围内
δ
的真实价值
θ
⋆
95% 的样本中。这导致我们定义对称 95% 置信区间:
c
我
95
=
[
^
θ
-
δ
,,,,
^
θ
+
δ
这是给出的报价
解释与前面相同:通过重复采样,我们找到了真实值
δ
95% 的样本中的估计值。
至关重要的是,我们能够对这一事件提供一个没有问题的频率论解释:
^
θ
ε
[
θ
⋆
-
δ
,,,,
θ
⋆
+
δ
这是给出的报价
,在真实分布的假设下。在一系列估计中,估计器
^
θ
远离
θ
⋆
比
δ
,因此在这个区间之外,将趋向于 5%。该区域越小,估计就越可靠。请注意,该区间是根据未知真值定义的
θ
⋆
。但是,特别是如果间隔的大小
2
δ
与真实参数无关
θ
⋆
,人们很容易将 95% 置信区间与真实值位于以下范围内的频率联系起来:
δ
估计值左右
^
θ
下面我们再回到这个解读。
当然,还有更多的程序用于估计各种统计目标,并且有更多的估计质量表达方式(例如,bootstrapping,参见 Efron 和 Tibshirani 1993)。估计理论通常为估计者提供了丰富的特定情况标准目录,反映了估计者帮助实现的认知和实用目标。然而,估计函数本身并不提供置信准则,重要的是,置信区间也不提供。
3.2 经典统计问题
经典统计在统计哲学中得到广泛讨论。接下来概述了经典方法的两个问题,即它与信念的有问题的接口以及它违反了所谓的似然原理的事实。可以看出许多更具体的问题是从这些一般问题中衍生出来的。
3.2.1 与信念的接口
考虑内曼和皮尔逊的似然比检验。如前所述,检验的显着性或 p 值是一个错误率,如果重复数据收集和检验(假设原假设实际上为真),就会显示出该错误率。值得注意的是,p 值并没有告诉我们任何关于原假设为真的可能性有多大。然而,许多科学家确实以这种方式使用假设检验,并且对于可以或不能从 p 值导出什么存在很多争论(参见 Berger 和 Sellke 1987、Casella 和 Berger 1987、Cohen 1994、Harlow 等 1997, Wagenmakers 2007 年、Ziliak 和 McCloskey 2008 年、Spanos 2007 年、Greco 2011 年、Sprenger即将推出-a)。毕竟,测试会给出拒绝假设或接受假设的建议,这在概念上似乎非常接近给出真假判断。
虽然 p 值的证据价值备受争议,但许多人承认,根据假设的数据概率不能直接用作该假设可信度的指示(参见 Gillies 1971、Spielman 1974 和 1978)。这种用法会陷入所谓的基本费率谬误。品茶女士的例子再次具有启发意义。
基础率谬误
想象一下,我们走遍全国,与众多女士一起进行品茶测试,并且我们发现一位女士猜对了所有五个杯子。难道我们就可以断定这位女士有特殊的品茶天赋吗?问题是,这取决于接受测试的女性中有多少人真正拥有这种特殊才能。如果这种能力非常罕见,那么将五个正确的猜测归结为偶然发生就更有吸引力。相比之下,想象一下所有女士都参加了彩票。类似于一位女士猜对了所有杯子,想象一下一位赢得彩票奖品的女士。当然,中奖的可能性很小,除非与庄家勾结,即具有特殊的品茶能力。但可以肯定的是,如果一位女士中了彩票,这并不是断定她一定犯有欺诈行为并要求逮捕她的充分理由。同样,如果一位女士猜对了所有杯子,我们也不能简单地断定她有特殊能力。
如果我们将参数的估计视为关于应该相信什么的直接建议,那么本质上会出现相同的问题,正如 Good (1983, p. 57) 的例子所阐明的那样,该例子是在品茶背景下提出的。观察到五个正确的猜测后,我们有
^
θ
=
1
作为最大似然估计。但从长远来看,这位女士百分百准确是令人难以置信的。在林德利悖论的讨论中也提出了估计和信念保持复杂关系的观点(Lindley 1957, Spanos 2013, Sprenger fortcoming-b)。简而言之,将经典统计程序的结果转化为信念似乎是错误的。
这一切是否可以归咎于经典统计数据,这是一个有争议的问题。最初,内曼强调他们的程序不能被视为推论,或以其他方式与假设的认知状态有关。他们自己的统计哲学是严格的行为主义的(参见 Neyman 1957),并且可以说,只要科学家放弃他们对经典统计的错误认识使用,问题就会消失。正如前面所解释的,我们可以毫无争议地将错误率与经典程序联系起来,从而与这些程序产生的决策联系起来。因此,对经典统计学的行为和基于错误的理解似乎就很好。然而,统计学家和哲学家都认为,对经典统计学的认知解读是可能的,而且实际上是更好的(例如,Fisher 1955,Royall 1997)。因此,许多人试图重新解释或发展该理论,以便使其与科学家以认识论为导向的统计实践保持一致(参见 Mayo 1996、Mayo 和 Spanos 2011、Spanos 2013b)。
3.2.2 证据的性质
假设检验和估计有时会受到批评,因为它们的结果通常取决于整个样本空间的概率函数,而不仅仅取决于观察到的样本的概率。也就是说,接受或拒绝零假设的决定不仅取决于根据各种假设实际观察到的概率,还取决于对本来可以观察到但没有观察到的事件的概率分配。这个问题的一个众所周知的例子涉及所谓的选择性停止(Robbins 1952,Roberts 1967,Kadane et al 1996,Mayo 1996,Howson and Urbach 2006)。
这里说明了 Neyman 和 Pearson 的似然比检验的可选停止,但可以为 Fisher 的零假设检验以及估计量和置信区间的确定运行类似的故事。
停止任选
想象一下,两名研究人员正在测试同一位女士确定牛奶和茶倒入杯子的顺序的能力。他们都接受零假设,即她是随机猜测的,概率为
1
/
2
,反对她正确猜测的可能性
3
/
4
两人中更勤奋的研究者决定记录六次试验。另一方面,研究人员越不耐烦,最多记录六次试验,但决定停止记录这位女士猜错的第一次试验。现在想象一下,事实上,这位女士猜对了除了最后一个杯子之外的所有杯子。然后,两位研究人员都拥有五次成功和一次失败的完全相同的数据,并且这些数据的可能性对于两位研究人员来说也是相同的。然而,虽然勤奋的研究人员无法拒绝零假设,但不耐烦的研究人员可以。
这可能会让我们觉得很奇怪:统计数据应该告诉我们数据对假设的客观影响,但这里的影响似乎取决于研究人员的抽样计划,而不仅仅是数据本身。正如第 3.2.3 节中进一步解释的那样,两位研究人员的结果有所不同,因为未观察到的样本在程序中的考虑方式存在差异。
有些人会发现这种依赖性是不可接受的:研究人员的意图和计划与数据的证据价值无关。但其他人认为这是正确的。他们认为,数据对假设的影响应取决于获取数据时遵循的停止规则或协议,而不仅仅是假设对这些数据的可能性(例如 Mayo 1996)。令人兴奋的直觉是,坚持停止规则的无关性使得不可能禁止数据收集中的机会主义选择。事实上,经典统计学的捍卫者们与那些坚持认为选择性停止无关紧要的人扭转了局面。他们认为,它开启了通过持续实验等方式推理出既定结论的可能性:只有达到首选结果,我们才可能决定停止实验。然而,正如 Kadane 等人所示。 (1996)并在 Steele(2012)中进一步讨论,只要我们确保使用正确的(在本例中为贝叶斯)程序,持续的实验就不能保证有效。
关于选择性停止的争论最终涉及数据的适当证据影响。这场更广泛辩论的一个核心问题是所谓的可能性原则(参见 Hacking 1965 和 Edwards 1972)。该原则认为,观察到的数据的假设可能性完全确定了这些数据对假设的证据影响。在 Berger 和 Wolpert (1984) 的表述中,似然原理指出两个样本
s
和
s
'
显然当
p
我
((
s
)
=
k
p
我
((
s
'
)
对于所有假设
小时
我
正在考虑中,给定一些常数
k
众所周知,Birnbaum (1962) 从更基本的假设出发证明了这一原理。该证明依赖于条件性假设。假设我们先抛一枚硬币,发现正面朝上,然后做与这个结果相关的实验,记录样本
s
。对比一下我们做实验的情况,发现
s
直接选择,而不是随意挑选。条件性原则指出,第二个样本与第一个样本具有相同的证据影响:我们本来可以找到但没有找到的内容对样本的证据价值没有影响。最近,Mayo(2010)对 Birnbaum 的似然原理推导提出了质疑。
上面概述的经典观点违反了这一点:观察到的数据的影响可能会有所不同,具体取决于其他样本与观察到的样本的概率,因为这些其他样本在确定接受和拒绝区域时发挥作用。另一方面,第 4 节中讨论的贝叶斯过程坚持似然原则:在确定假设的后验分布时,仅考虑观察到的数据的先验和似然。在关于选择性停止的争论以及经典统计和贝叶斯统计之间的许多其他争论中,似然原理是焦点。
3.2.3 游览:可选停止
认为数据揭示的内容比相关假设的可能性所表达的内容更多或其他内容的观点值得详细关注。在此,我们结合选择性停车的争议进一步探讨这个问题。
让我们通过构建两位研究人员的拒绝区域来详细考虑上述两位研究人员的分析。
确定拒绝区域
勤奋的研究者将所有成功和失败的六元组视为样本空间,并以它们的数量作为充分的统计量。六次成功或六次正确猜测的概率为
1
/
2
6
=
1
/
64
在原假设下,这位女士只是猜测,反对的概率
3
6
/
4
6
在备择假设下。如果我们设置
r
<
3
6
/
2
6
,则该样本包含在原假设的拒绝区域中。成功五次的样本的概率为
1
/
64
也在原假设下,反对概率
3
5
/
4
6
替代方案下。通过将似然比降低 3 倍,我们将所有这些样本都包含在拒绝区域中。但这会导致错误拒绝的总概率
7
/
64
,大于 5%。因此,这些样本不能包含在拒绝区域中,因此勤奋的研究人员不会在发现五次成功和一次失败时拒绝原假设。
另一方面,对于缺乏耐心的研究人员来说,样本空间要小得多。除了由六个成功组成的样本外,所有样本均由一系列以失败告终的成功组成,仅系列长度不同。然而,对于勤奋的研究人员来说,长度为 6 的两个样本的概率是相同的。和以前一样,六个成功的样本再次包含在拒绝区域中。同样,五次成功后一次失败的序列也有概率
1
/
64
在原假设下,针对概率
3
5
/
4
6
根据替代方案。不同之处在于,降低将该样本包含在拒绝区域中的似然比会导致仅包含该样本。如果我们将其包含在拒绝区域中,则错误拒绝的概率变为
1
/
32
因此不超过 5%。因此,根据这些数据,悠闲的研究人员可以拒绝这位女士只是猜测的零假设。
考虑一下为什么不耐烦的研究人员会拒绝零假设是有启发性的。凭借他的抽样计划,其他五个成功的样本,即那些阻止勤奋的研究人员将观察到的样本纳入因超过错误概率而拒绝的区域的样本,是无法观察到的。这说明经典统计程序的结果不仅取决于实际数据的可能性,这对于两位研究人员来说确实是相同的。它们还取决于我们未获得的数据的可能性。
在上面的示例中,用于可选停止的协议取决于正在记录的数据,这可能会被认为是令人困惑的。但如果不存在这种依赖性,关于选择性停止的争议也会出现。例如,想象一下第三位研究人员在勤奋的研究人员完成之前进行采样,或者在她开始感到饥饿时进行采样。此外,我们可以假设,每向女士提供一个新杯子,她感到饥饿的概率为
1
2
如果这位饥饿的研究人员完成了六个杯子的系列,她也将能够拒绝原假设。这种拒绝取决于研究人员的生理和心理状态,这似乎与统计程序的客观性不一致:如果她没有保持吃零食的可能性,她就不会拒绝原假设,尽管她实际上并没有休息。正如杰弗里的名言,这确实是一个“了不起的程序”。
然而,案件并不像看上去那么清楚。首先,这位饥饿的研究人员可以说是在同时测试两个假设,一个是关于品茶女士的能力,另一个是关于她自己的饥饿程度。实际样本的组合假设与勤奋的研究人员考虑的简单假设相比具有不同的可能性。上面给出的似然原理表明,这种差异不会影响实际样本的证据影响,但有些人保留了它应该的直觉。此外,在某些情况下,这种直觉被那些坚持似然原则的人所认同,即当停止规则取决于以所讨论的假设尚未表达的方式记录的过程时(参见Robbins 1952,Howson和Urbach 2006,第 365 页)。就我们的例子而言,如果这位女士只是猜测,那么研究人员更有可能因为纯粹的无聊而感到饥饿,而不是如果这位女士的表现远远低于或高于机会水平。在这种情况下,停止行为本身揭示了有关假设的一些信息,这应该反映在假设的可能性中。毕竟,这将使数据对假设的证据影响取决于停止规则。
3.3 对批评的回应
针对上述批评,已有不少回应。其中一些回应有效地将经典统计程序重新解释为仅与数据的证据影响有关。其他回应发展了经典统计理论来解决这些问题。它们的共同核心是它们建立或至少澄清了两个概念领域之间的联系:统计程序涉及物理概率,而它们的结果涉及证据和支持,甚至涉及假设的拒绝或接受。
3.3.1 证据的强度
经典统计通常为我们提供行动建议。错误概率并没有告诉我们在统计程序的基础上应该采取什么认知态度,而是表明如果我们按照这些概率生活,错误的长期频率。具体而言,内曼主张对经典程序进行这种解释。对此,费舍尔(Fisher,1935a,1955)、皮尔逊和其他古典统计学家主张更多的认知解释,许多最近的作者也纷纷效仿。
上述经典统计讨论的核心是可能性的概念,它反映了数据如何影响所讨论的假设。在 Hacking (1965)、Edwards (1972) 和最近的 Royall (1997) 的著作中,可能性被视为统计程序的基石,并给出了认知解释。据说它们表达了数据提供的证据的强度,或者数据对假设的支持程度。 Hacking 在所谓的似然定律(1965,第 59 页)中阐述了这个想法:如果样本
s
更有可能的条件是
小时
0
而不是继续
小时
1
,然后
s
支持
小时
0
超过它所支持的
小时
1
。