统计哲学(七)
5.统计模型
在前面的内容中,我们已经看到经典统计和贝叶斯统计有何不同。但这两种主要的统计方法也有很多共同点。最重要的是,所有统计程序都依赖于统计模型的假设,这里指的是任何有限的统计假设集。此外,它们都旨在对这些假设做出结论。例如,经典的似然比检验考虑两个假设,
小时
和
小时
'
,然后提供拒绝和接受的判决,而贝叶斯比较提供这两个假设的后验概率。在贝叶斯统计中,模型提出了一个非常强的假设,而经典统计并没有赋予模型特殊的认知地位:它们只是科学家目前所持有的假设。但总的来说,模型的采用对于任何统计程序来说绝对是核心。
一个自然的问题是,是否可以对统计模型的质量进行评价,以及是否可以对统计程序的起点做出任何判断。当然,某些模型会比其他模型产生更好的预测,或者更好地指导真相。模型的评估涉及科学哲学中的深层问题,因为统计模型通常决定如何概念化和处理所研究的数据生成系统(Kieseppa 2001)。因此,模型选择类似于理论、概念方案甚至整个范式的选择,因此似乎超越了研究理论理性的正式框架(参见Carnap 1950,Jeffrey 1980)。尽管事实上,关于模型选择的一些考虑似乎是统计之外的,从某种意义上说,它们不属于统计处理的范围,但统计学提供了几种处理统计模型选择的方法。
5.1模型比较
事实上,评估统计模型的方法有很多(Claeskens 和 Hjort 2008,Wagenmakers 和 Waldorp 2006)。首先,这些方法需要对统计模型进行比较,但它们通常用于选择一个模型而不是其他模型。在下文中,我们仅回顾引起哲学争论的重要技术:赤池信息准则、贝叶斯信息准则,以及边际似然和后验模型概率的计算,两者都与贝叶斯模型选择相关。我们将使用交叉验证的方法放在一边,因为它们在哲学文献中没有受到过多的关注。
5.1.1 赤池的信息标准
Akaike 的信息准则,简称为信息准则或 AIC,基于经典的统计估计过程(参见 Burnham 和 Anderson 2002,Kieseppa 1997)。它始于一个模型的想法
米
可以通过估计来判断
^
θ
它提供了,更具体地说,是通过该估计与实际生成数据的分布(即真实分布)的接近程度。这种接近度通常等同于估计的预期预测准确性,因为如果估计和真实分布彼此更接近,它们的预测也将更好地相互对齐。在 AIC 的推导中,两个分布的所谓相对熵或 Kullback-Leibler 散度被用作它们的接近度的度量,从而作为估计的预期预测精度的度量。
当然,评估模型的统计学家并不知道真实的分布。如果是这样,那么整个统计分析就毫无用处。然而,事实证明,我们可以对真实分布与特定模型估计的分布之间的差异进行无偏估计,
航空工业协会
[
米
这是给出的报价
=
-
2
日志
p
((
s
∣
小时
^
θ
((
s
)
)
+
2
d
,,,,
其中
s
是样本数据,
^
θ
((
s
)
是模型的最大似然估计 (MLE)
米
,和
d
=
d
我
米
((
θ
)
是模型参数空间的维数。因此,模型的 MLE 以模型质量的表达为特征,即其作用在概念上与估计函数不同。
从上面的表达式可以看出,AIC 较小的模型更可取:我们希望以较小的复杂度代价实现最佳拟合。请注意,模型中的维数或独立参数会增加 AIC,从而降低模型的合格性:如果两个模型对样本实现相同的最大似然,则将首选参数较少的模型。因此,AIC 的统计模型选择可以被视为优先选择简单模型而不是更复杂模型的独立动机(Sober 和 Forster 1994)。但这一结果也招致了一些批评。其一,我们可能会在对与事实的接近程度的估计上强加其他标准,而不仅仅是无偏性,这将导致近似值的不同表达。此外,我们并不总是清楚所审查的模型的实际尺寸是多少。对于曲线拟合,这可能看起来很简单,但对于更复杂的模型或模型空间的不同概念化,事情看起来并不那么容易(参见 Myung 等人 2001,Kieseppa 2001)。
模型选择的一个主要例子是曲线拟合。给定一个样本
s
由平面上的一组点组成
((
x
,,,,
y
)
,我们被要求选择最适合这些数据的曲线。我们假设所考虑的模型具有以下形式
y
=
f
((
x
)
+
ε
,在哪里
ε
是平均值为 0 且标准差固定的正态分布,其中
f
是多项式函数。不同的模型由具有不同参数数量的不同次数的多项式来表征。估计确定了这些多项式的参数。例如,对于 0 次多项式
f
((
x
)
=
c
0
我们估计常数
^
c
0
其中数据的概率最大,并且对于 1 次多项式
f
((
x
)
=
c
0
+
c
1
x
我们估计坡度
^
c
1
和偏移量
^
c
0
现在请注意,总共
n
点,我们总能找到次数多项式
n
与所有点精确相交,从而产生相对较高的最大似然
p
((
s
∣
{
^
c
0
,,,,
……
^
c
n
}
)
然而,应用 AIC,我们通常会发现一些具有多项式次数的模型
k
<
n
是更可取的。虽然
磷
((
s
∣
{
^
c
0
,,,,
……
^
c
k
}
)
会稍微低一些,这在 AIC 中通过较少数量的参数来补偿。
5.1.2模型评估
其他各种著名的模型选择工具都基于贝叶斯统计方法。它们的出发点都是这样的:模型的质量是通过模型在样本数据上的表现来表达的:总体上使样本数据最有可能的模型是优选的。正因为如此,它与前面提到的分层贝叶斯模型有着密切的联系(Gelman 2013)。因此,贝叶斯模型选择工具的中心概念是模型的边际似然,即模型上似然的加权平均值,使用先验分布作为权重函数:
p
((
s
∣
米
我
)
=
∫
θ
ε
θ
我
磷
((
小时
θ
)
磷
((
s
∣
小时
θ
)
d
θ
。
这里
θ
我
是属于模型的参数空间
米
我
。 边际可能性可以与模型的先验概率相结合,
磷
((
米
我
)
,使用贝叶斯定理导出所谓的后验模型概率。评估模型的一种方法,称为贝叶斯模型选择,是通过比较模型的边际似然或后验概率(参见 Kass 和 Raftery 1995)。
通常边际似然不能通过分析计算。通常可以获得数值近似值,但出于实际目的,事实证明采用边际似然的近似值非常有用且足够。这种近似被称为贝叶斯信息准则,简称 BIC(Schwarz 1978,Raftery 1995)。事实证明,这个近似值与 AIC 有着显着的相似之处:
比克
[
米
这是给出的报价
=
-
2
日志
磷
((
s
∣
小时
^
θ
((
s
)
)
+
d
日志
n
。
这里
^
θ
((
s
)
再次是模型的最大似然估计,
d
=
d
我
米
((
米
)
独立参数的数量,以及
n
是样本中数据点的数量。后者的依赖性是与 AIC 的唯一区别,但也是模型评估结果的主要区别。
AIC 和 BIC 的同时存在似乎进一步激发了我们对简单模型而非更复杂模型的直觉偏好。事实上,其他模型选择工具,例如偏差信息标准(Spiegelhalter et al 2002)和基于最小描述长度的方法(Grunwald 2007),也会产生具有惩罚复杂模型的术语的表达式。然而,这并不是说我们从信息标准中知道的维度项耗尽了模型复杂性的概念。在科学哲学中,关于在解释简单性、信息性等概念时模型选择的优点一直存在争论(例如,参见 Sober 2004、Romeijn 和 van de Shoot 2008、Romeijn 等人 2012、Sprenger) 2013)。
5.2 没有模型的统计数据
还有一些统计方法通过专门关注数据或概括所有可能的模型来避免使用特定模型。其中一些技术在描述性统计中得到了适当的定位:它们不涉及数据的推论,而仅仅用于以特定方式描述数据。不幸的是,不依赖于显式模型选择的统计方法在统计哲学中没有引起太多关注,但为了完整起见,这里将简要讨论它们。
5.2.1 减少数据技术
一组方法,对于许多统计学家来说非常重要,旨在减少数据。通常,样本数据非常丰富,例如,由多维空间中的一组点组成。统计分析的第一步可能是找出数据中的显着变异性,以减少分析本身的计算负担。
主成分分析(PCA)技术就是为此目的而设计的(Jolliffe 2002)。给定空间中的一组点,它会找出点变化较大的向量集。例如,考虑平面上的两个点,参数化为
((
x
,,,,
y
)
: 要点
((
0
,,,,
0
)
和
((
1
,,,,
1
)
。在
x
- 方向和
y
-变化方向
1
,但在对角线上变化最大,即
√
2
对角线上的向量称为数据的主成分。在更丰富的数据结构中,并使用点之间变化的更通用的度量,我们可以以类似的方式找到第一个分量。此外,我们可以在减去最后找到的组件的变化后,通过将数据投影到垂直于该组件的平面上来重复该过程。这使我们能够建立一组重要性递减的主要组成部分。
PCA 只是旨在保持数据可管理并查找其中模式的大量技术中的一项,该技术还包括核方法和支持向量机(例如,Vapnik 和 Kotz 2006)。就目前而言,重要的是要强调这些工具不应与统计分析相混淆:它们不涉及样本空间分布的测试或评估,即使它们建立和评估数据模型。这将它们与验证性和探索性因子分析(Bartholomew 2008)等方法区分开来,后者有时被认为是 PCA 的近亲,因为两组技术都允许我们识别样本空间内的显着维度,沿着这些维度数据显示出较大的差异。变化。
统计学家经常使用数据缩减工具来得出数据抽样分布的结论。机器学习和数据挖掘技术已经在科学领域得到了广泛的应用,我们可能期望这些技术在未来会得到均匀的使用,因为现在有大量的数据可用于科学分析。然而,在统计哲学中,对于通过这些技术得出的结论的认知状态还没有多少争论。统计哲学家最好在这里引起一些注意。
5.2.2正式学习理论
正式学习理论提出了一种完全不同的统计方法。这又是一个广阔的研究领域,主要集中在计算机科学和人工智能领域。这里简要提及该学科,作为统计方法的另一个例子,该方法完全避免选择统计模型,而仅识别数据中的模式。我们抛开神经网络理论,它也涉及不依赖于统计模型的预测系统,并专注于学习算法理论,因为所有这些方法都受到了最多的哲学关注。
所罗门诺夫(Solomonoff,1964)在正式学习方面做出了开创性的工作。与之前一样,该设置中的数据由 0 和 1 的字符串组成,并且代理尝试识别这些数据中的模式。因此,例如,数据可能是以下形式的字符串
010101011
……
,挑战在于将该字符串识别为交替序列。所罗门诺夫的中心思想是智能体必须考虑所有可能的可计算模式,因此不需要对统计假设进行限制性选择。所罗门诺夫随后定义了一个正式系统,其中实际上可以考虑所有模式,有效地使用贝叶斯分析以及对所有可计算假设巧妙构建的先验。
这一总体思想也可以在贝叶斯统计和机器学习的交叉领域——贝叶斯非参数学中得到体现(例如,Orbanz 和 Teh 2010,Hjort 等人 2010)。这个想法不是从一开始就指定一组有限的分布,统计分析应该根据数据从中进行选择,而是让数据面临可能的分布的潜在无限维空间。然后,将所考虑的分布集与所获得的数据相关:模型的复杂性随着样本的增加而增长。结果是一个预测系统,它执行在线模型选择,同时对模型的后验进行贝叶斯调节。
当前的形式学习理论是一个活跃的领域,统计学哲学家也对此做出了贡献(例如,Kelly 1996,Kelly et al 1997)。当前关注的特别突出的是,正式学习系统的建立是为了实现充分普遍预测的某种概念,而不将自身局限于一组特定的假设,因此通过对数据中可能的模式集施加最小的约束这是否可能,以及正式学习理论的预测在多大程度上依赖于例如对样本空间结构的隐含假设,这是一个有争议的问题。对此的哲学反思还处于起步阶段。
6.相关主题
科学哲学中有许多主题与该引理所涵盖的主题直接相关。这里提到了一些中心主题,以引导读者了解百科全书中的相关引理。
与统计哲学密切相关的一个非常重要的主题是证实理论,这是一种描述和证明科学理论与经验证据之间关系的哲学理论。可以说,统计理论是确认理论的适当部分,因为它描述并证明了以样本形式获得统计理论和证据之间获得的关系。在证据与理论之间的这种更广泛的关系框架内,将统计程序放置在统计程序上是有见地的。进一步缩小,统计学的哲学是方法论哲学主题的一部分,即有关科学是否以及如何获得知识的一般理论。因此,构思是统计数据是大量科学方法中的一个组成部分,其中包括概念形成,实验设计,操纵和观察,确认,修订,修订和理论化。
从统计数据中或与之紧密相处的科学哲学哲学也有许多特定主题。这些主题之一是测量过程,尤其是根据明显变量的统计事实测量潜在变量。所谓的测量代表理论(Kranz等,1971)依赖于统计数据,尤其是因素分析,以阐明数学结构如何代表经验现象的概念澄清。另一个重要的话题形式是科学哲学是因果关系(请参阅有关概率因果关系的条目和Reichenbach的共同原因原则)。自从Reichenbach(1956)以来,哲学家就采用了概率理论来捕捉因果关系,但是因果关系和统计学方面的最新工作(例如Spirtes等人2001)使概率因果关系理论具有巨大的冲动。同样,统计数据为因果关系的概念分析提供了基础。
还有更多。几种特定的统计技术,例如因子分析和贝叶斯网络理论,邀请了他们自己的概念讨论。科学哲学中的许多主题都可以阐明统计,例如连贯性,信息性和惊喜。反过来,科学哲学哲学上有广泛的讨论,可以使人们对统计数据有适当的理解。其中包括有关实验和干预,机会概念,科学模型的本质和理论术语的辩论。邀请读者咨询有关这些主题的条目,以便进一步了解它们与统计哲学的关系。