统计哲学(二)
2.2.2统计理论
对于目前的关注点,重要的一点是,对概率演算的这些认识论解释中的每一个都伴随着其自身的统计基础计划。总体而言,认知概率与贝叶斯统计是最自然的,这是统计方法的第二个主要理论(Press 2002,Berger 2006; Gelman等人,Gelman等,2013)。贝叶斯统计数据的关键特征直接从认知解释中流动:在这种解释下,有可能将概率分配给统计假设并将这种概率分配,这是我们坚信该假设的强烈表达,即事件的概率。贝叶斯的统计数据使我们能够表达出在数据影响下的逻辑,决策理论或混乱的变化的统计假设的认知态度。
为了说明贝叶斯统计中概率的认知概念,我们简要返回了茶品尝女士的例子。
认知概率
像以前一样,我们表示无效的假设,即那位女士正在随机猜测
h
,以便分配
p
h
给予女士的任何猜测的可能性为1/2。替代方案
h
'
那位女士的表现要比公平的硬币更好。更确切地说,我们可能会规定分布
p
h
'
给出3/4的概率正确。从一开始,我们可能会发现茶品尝女士具有特殊的茶品尝能力是不可能的。为了表达这一点,我们给出了她拥有这些能力的假设,只是她没有能力的可能性的一半:
p
((
h
'
)
=
1
/
3
和
p
((
h
)
=
2
/
3
。现在,将数学细节留给第4.1节,在收到她正确猜出所有五个杯子的数据之后,我们对女士特殊能力的新信念已经逆转了。现在,我们认为这位女士拥有特殊能力的可能性要比她只是一个随机的猜测大约要大约四倍:
p
((
h
'
)
=
243
/
307
≈
4
/
5
和
p
((
h
)
≈
1
/
5
。
带回家的信息是,贝叶斯方法使我们能够以概率分配的态度表达对统计假设的认知态度,并且数据以受调节的方式对这种认知态度的影响。
应该强调的是,贝叶斯统计不是概率认知概念的唯一使用者。实际上,经常对分配给统计假设的概率的理解似乎是荒谬的。但是,完全有可能读取事件或样本空间中的元素的概率,作为认知,完全独立于所使用的统计方法。正如下一部分进一步解释的那样,古典统计的几个哲学发展采用了认知概率,最著名的是基准的概率(Fisher 1955和1956;另请参见Seidenfeld 1992和Zabell 1992和Zabell 1992和Zabell 1992),可能性主义(Hacking 1965,Edwards 1965,Edwards 1972,Royall 1992,Royall 1997)和证据概率(Kyburg 1961),或以其他方式将经典统计的程序与推论和支持联系起来。在所有这些发展中,样本空间上的概率和功能在认识论上被读取,即作为证据强度,支持程度或类似程度的表达。
3。古典统计
可以根据经典统计数据进行分组的程序的收集是广泛的,并且是多方面的。总体而言,经典的统计程序共享了它们仅依赖于样本空间的概率分配的功能。如前所述,这样做的一个重要动机是这些概率可以解释为频率,从中频繁统计的术语是从中起源的。经典的统计过程通常由某些功能在样本空间上定义,在该函数通常依赖于所考虑的假设分配给样本空间的分布。对于可能获得的样本范围,该函数将指向其中一个假设,或者可能指向其中一组,因为在某种意义上是与该样品的最佳拟合。或者,相反,它丢弃了候选人假设,使样本太不可能。
总而言之,经典程序采用数据来缩小一组假设。简而言之,很明显,经典程序可以回应归纳问题。这些数据用于从关于目标系统的薄弱一般性陈述到更强的一般性声明,即从一组候选假设到其中的子集。统计哲学的核心关注点是我们如何理解这些程序,以及我们如何证明它们的合理性。请注意,经典统计的模式类似于消除诱导的模式:鉴于数据,我们丢弃了一些候选假设。确实,经常在与Popper的伪造主义的宽松联系中看到古典统计数据,但这种关联有些误导。在经典程序中,当统计假设使观察到的样本太难以置信时,统计假设被丢弃,这当然与丢弃认为观察到的样本不可能的假设有所不同。
3.1古典统计基础知识
上述已经提供了一个简短的示例和经典统计程序的粗略草图。现在,根据Barnett(1999)作为主要来源,将这些内容更详细地指定。以下重点是两个非常中心的程序,假设检验和估计。第一个与两个统计假设的比较有关,并引用了Neyman和Pearson开发的理论。第二个问题是从集合中选择假设,并采用了Fisher设计的程序。尽管这些数字正确地与经典统计有关,但它们的哲学观点也有所不同。我们返回下面。
3.1.1假设检验
Fisher的无效假设检验的程序已经在上述中进行了简要讨论。让
h
成为兴趣的假设,为了简单起见,让
s
成为有限的样本空间。假设
h
在样品空间上施加分布,表示
p
h
。每个点
s
在空间中代表可能的数据示例。我们现在定义一个函数
f
在识别何时通过标记样品拒绝零假设的样品空间上
s
导致拒绝
f
((
s
)
=
1
,如下:
f
((
s
)
=
{
1
如果
p
h
((
s
)
<
r
,,,,
0
否则。
请注意,拒绝区域的定义,
r
r
=
{
s
:
f
((
s
)
=
1
}
,在假设的假设下取决于数据的概率,
p
h
((
s
)
。这种表达通常称为样品上假设的可能性
s
。我们可以设置阈值
r
出于合适的价值的可能性,因此排斥区域的总概率
r
r
低于给定的错误级别,例如
p
h
((
r
)
<
0.05
。
很快,似乎两个竞争对手假设之间的比较更具信息性,特别是因为如果零假设实际上是错误的,那么关于错误率的说法很少。 Neyman and Pearson(1928,1933和1967)设计了所谓的似然比测试,该测试比较了两个竞争性假设的可能性。让
h
和
h
'
分别为零假设。我们可以通过以下测试功能比较这些假设
f
在样本空间上:
f
((
s
)
=
{
1
如果
p
h
'
((
s
)
p
h
((
s
)
>
r
,,,,
0
否则,
在哪里
p
h
和
p
h
'
是由统计假设确定的样品空间上的概率分布
h
和
h
'
分别。如果
f
((
s
)
=
1
我们决定拒绝零假设
h
,我们接受
h
暂时是如此无视
h
'
。
接受或拒绝假设的决定与所谓的测试意义和力量有关。根据零假设,其意义是概率
h
,获得的数据导致我们错误地拒绝了这一假设
h
:
意义
f
=
α
=
p
h
((
r
r
)
=
∑
s
∈
s
f
((
s
)
p
h
((
s
)
d
s
,,,,
概率
α
也被称为I型误差,通常将其表示为显着性或p值。根据替代假设,权力是概率
h
'
,获得的数据导致我们正确拒绝零假设
h
:
力量
f
=
1
-
β
=
p
h
'
((
f
1
)
=
∑
s
∈
s
f
((
s
)
p
h
'
((
s
)
d
s
。
概率
β
被称为虚假接受零假设的II型误差。最佳测试是将两个错误最小化的测试
α
和
β
。 Neyman和Pearson在其基本引理中证明了该决定具有最佳的意义和权力,并且仅对可能性比率测试功能
f
。也就是说,最佳测试仅取决于比率的阈值
p
h
'
((
s
)
/
p
h
((
s
)
。
茶品尝女士的例子可以简单地说明可能性比率测试。
Neyman-Pearson测试
旁边的假设旁边
h
那位女士正在随机猜测,我们现在考虑了替代假设
h
'
她有机会
3
/
4
正确猜出茶和牛奶的顺序。样品
s
是二进制的5个tubles,记录猜测是正确且不正确的。要确定两个假设的可能性,从而确定每个样本的测试功能的值,我们只需要知道所谓的足够统计数据,在这种情况下,
n
独立于命令。表示女士的特定猜测顺序
n
正确的猜测
t
和
s
n
/
t
,我们有
p
h
((
s
n
/
5
)
=
1
/
2
5
和
p
h
'
((
s
n
/
5
)
=
3
n
/
4
5
,使似然比变成
3
n
/
2
5
。
如果我们要求显着性低于5%,那么可以计算出只有具有显着性的样本
n
=
5
可以包含在拒绝区域中。据此我们可以设定截止点
r
这样
r
≥
3
4
/
2
5
和
r
<
3
5
/
2
5
,例如,
r
=
3
4
/
2
5
。
5% 显着性阈值是统计惯例的一部分,并且通常在考虑功效之前就已确定。请注意,统计过程将预期错误率与拒绝或接受的决定相关联。尤其是内曼以严格的行为主义方式解释这一点而闻名。关于这一点的进一步讨论,请参见第 3.2.2 节。
3.1.2 估算
在本节中,我们简要考虑由 Fisher(1956)首先设计的最大似然参数估计。虽然在前面我们使用了有限的样本空间,但现在我们使用具有无限多个可能样本的空间。因此,样本空间上的概率分布可以用所谓的密度函数来表示,表示为
p
((
s
)
d
s
,从技术上讲,它表示分配给无限小补丁的无限小概率
d
s
围绕点
s
这个概率密度的工作原理很像普通的概率函数。
最大似然估计,简称 MLE,是一种用于确定一组假设中最佳假设的工具,通常称为统计模型。
米
=
{
小时
θ
:
θ
ε
θ
}
是模型,由参数标记
θ
,让
s
是样本空间,并且
p
θ
相关的分布
小时
θ
。然后定义最大似然估计器
^
θ
作为样本空间上的函数:
^
θ
((
s
)
=
{
θ
:
∀
小时
θ
'
((
p
θ
'
((
s
)
d
s
≤
p
θ
((
s
)
d
s
)
}
。
因此,估计器是一组值(通常是单个值)
θ
其中的可能性
小时
θ
关于数据
s
是最大的。我们用以下表示的相关最佳假设
小时
^
θ
这又可以用品茶女士来说明。
最大似然估计
品茶女士案例的自然统计模型由假设组成
小时
θ
对于这位女士可能具有的所有可能的准确性水平,
θ
ε
[
0
,,,,
1
这是给出的报价
。现在猜对的数量
n
以及猜测的总数
t
是足够的统计数据:样本的概率仅取决于这些数字。对于任何特定的序列
s
n
/
t
的
t
猜测与
n
成功,相关的可能性
小时
θ
是
p
θ
((
s
n
/
t
)
=
θ
n
((
1
-
θ
)
t
-
n
。
对于任意次数的试验
t
最大似然估计器则变为
^
θ
=
n
/
t
。
我们假设为这位女士提供的杯子数量固定为
t
这样样本空间又是有限的。最后请注意,
^
θ
是使数据最可能的假设,而不是根据数据最可能的假设。
我们可能会对估计函数提出几个要求。一是估计量必须一致。这意味着对于较大的样本,估计函数
^
θ
收敛到与分布相关的参数值
θ
⋆
数据生成系统的参数,或简称为真实参数值。另一个要求是估计器必须是无偏的,这意味着估计器的期望值与真实参数值之间没有差异。 MLE 过程当然不是唯一用于根据统计数据估计感兴趣参数值的过程。一种更简单的技术是特定目标函数的最小化,例如最小化统计假设的预测与数据点之间的距离的平方和,也称为最小二乘法。 Wald (1950) 首先提出了一个更普遍的观点,通过用损失函数来衡量假设的预测与实际数据之间的差异。平方和和似然度可以作为该损失的表达式。