统计哲学(二)
3.古典统计
可以在古典统计数据下分组的程序集是巨大而多方面的。 by and mand,典型的统计程序共享它们仅依靠样本空间依赖概率分配的功能。 如所示,这是一个重要的动机是这些概率可以被解释为频率,从中解释频率统计的术语。 经典统计过程通常由样本空间的某种功能定义,其中该函数通常仅取决于所考虑的假设分配给采样空间的分布。 对于可以获得的样本范围,该功能然后指向一个假设,或者也许是一组,因为有些感觉与该样本最合适。 或者,相反,它丢弃候选假设,使样品太不可能。
总之,古典过程使用数据缩小一组假设。 以这种一般的术语提出,显而易见的是,古典程序提供对归纳问题的响应。 数据用于从关于目标系统的弱势陈述到更强的陈述,即从一组候选假设到它们的子集。 统计哲学中的核心问题是我们如何理解这些程序,以及我们如何理解它们。 请注意,古典统计数据的模式类似于消除诱导:鉴于数据,我们丢弃了一些候选假设。 实际上,经典统计论经常看到与波普尔的伪造主义的松散联系,但这种关联有点误导。 在经典程序中,当它们使观察到的样品太不可能时,丢弃统计假设,这当然不同于丢弃认为观察到的样品的假设。
3.1古典统计的基础知识
前面已经提供了一个简短的例子和古典统计程序的粗略草图。 现在,在Barnett(1999)作为主要来源,现在将更详细地指定。 以下重点介绍两个非常中央程序,假设检测和估算。 首先与两个统计假设的比较有关,并调用由奈梅曼和皮尔逊开发的理论。 第二个担心从一套的假设的选择,并采用由Fisher设计的程序。 虽然这些数字与古典统计数据正确相关,但它们的哲学观点分歧。 我们回到下面。
3.1.1假设检测
在前面的情况下已经简要讨论了Fisher的零假设试验的程序。 让H成为感兴趣的假设,并且为了简单起见,让S成为有限的样本空间。 假设H在样本空间上施加分布,表示pH值。空间中的每个点S表示可能的数据样本。 我们现在通过标记导致F(s)= 1的样本S拒绝的样本S来定义识别出缺活假设时的示例空间上的函数f
f(s)= {
1,pH(s)<r,
0otherwise。
请注意,拒绝区域的定义,RR = {S:F(s)= 1},铰接在假设的假设下,pH值下的数据概率。 这种表达通常称为假设对样本S的可能性。 我们可以将阈值R设置为适当的值,使得拒绝RR区域的总概率低于给定的误差水平,例如pH(R)<0.05。
它很快就似乎两个竞争对手假设之间的比较更有信息,特别是因为如果零假设实际上,则可以说误差率很少。 奈曼和皮尔逊(1928,1933和1967年)设计了所谓的似然比测试,这是一个比较两个竞争假设的可能性的测试。 让H和H'分别为零点和替代假设。 我们可以通过以下测试功能F将这些假设进行比较:
f(s)= {
1if
ph'(s)
ph(s)
>r,
0otherwise,
其中pH和pH'是分别由统计假设H和H'确定的样本空间上的概率分布。 如果f(s)= 1我们决定拒绝零假设h,否则我们接受h的时间,所以无视h'。
接受或拒绝假设的决定与测试的所谓显着性和权力有关。 根据空假设h的概率是获得导致我们错误地拒绝这一假设的数据的概率,这
significancef =α= ph(rr)=
σ
s∈s
f(s)ph(s)ds,
概率α可替代地称为I误差,通常表示为重要性或p值。 权力是根据替代假设H'的概率,可以获得导致我们正确拒绝NULL假设H的数据:
powerf = 1-β= ph'(f1键)=
σ
s∈s
f(s)ph'(s)ds。
概率β称为II误差错误接受零假设的误差。 最佳测试是最小化错误α和β的测试。 在他们的基础引理,奈梅和皮尔森证明了该决定具有最佳的意义和动力,并且仅适用于似然比测试功能F.即,最佳测试仅取决于比率pH'(S)/ pH的阈值。
茶花品女士的例子允许简单地说明似然比测试。
Neyman-Pearson测试
旁边的NULL假设H旁边是那位女士随机猜测,我们现在考虑替代假设H',她有机会3/4猜测茶和牛奶的顺序。 样本S是二进制5元组,记录猜测正确和不正确。 为了确定两个假设的可能性,从而对每个样本的测试功能的值,我们只需要知道所谓的足够的统计,在这种情况下,独立于订单的正确猜测N的数量。 表示小女性用Sn / T正确猜测的特定猜测猜测,我们具有pH(SN / 5)= 1/25和pH'(Sn / 5)= 3n / 45,使得似然比变为3n / 25。 如果我们要求重要性低于5%,则可以计算出具有n = 5的样品可以在抑制区域中包括。 因此,我们可以设置截止点R,使得R≥34/ 25和R<35/25,例如R = 34/25。
5%意义的阈值是统计公约的一部分,并且在考虑权力之前经常修复。 请注意,统计程序将预期的错误率与决定拒绝或接受。 特别是奈曼以严格的行为方式来解释这一点。 有关此时的进一步讨论,请参阅第3.2.2节。
3.1.2估计
在本节中,我们通过Fisher(1956)首次设计,简要考虑参数估计最大可能性。 在前面的时候,我们使用了一个有限的示例空间,我们现在使用具有无限可能的样品的空间。 因此,根据所谓的密度函数,表示样本空间的概率分布,其表示的P(S)DS,其技术上讲述的是在点S周围分配给无限的小贴片DS的无限小概率。 这种概率密度与普通概率函数相同。
最大似然估计或短的MLE,是用于确定一组假设中最好的工具,通常称为统计模型。 让m = {hθ:θ∈θ}是由参数θ标记的模型,让s是样本空间,并且pθ与hθ相关联的分布。 然后定义最大似然估计器
θ
作为样本空间的功能:
θ
(s)= {θ:∀hθ'(pθ'(s)ds≤pθ(s)ds)}。
因此,估计器是一个集合,通常是单例,其值为θ的值,其中Hθ在数据S上的Hθ是最大的。 相关的最佳假设我们用h表示
θ
。 这可以再次说明茶品尝女士。
最大可能性估计
茶叶品种女士的案例的自然统计模型由假设HΘ组成,对于女士可能拥有的所有可能的准确性,θ∈[0,1]。 现在正确猜测N和猜测T的总数是足够的统计数据:样本的概率仅取决于这些数字。 对于N个成功的任何特定序列SN / T,Hθ的相关可能性是
pθ(sn / t)=θn(1-θ)t-n。
对于任何数量的试验,那么最大可能性估计器就会成为
θ
= n / t。
我们假设为女士送达的杯子数量是固定的,以便再次采用样品空间。 最后,最后,那
θ
是使数据最有可能的假设,而不是在数据中最可能最可能的假设。
有几种要求我们可能强加于估计功能。 一个是估计师必须保持一致。 这意味着对于较大的样本估计功能
θ
收敛于与数据生成系统的分布θ⋆关联的参数值,或短的真实参数值。 另一个要求是估算器必须是不偏不倚的,这意味着估算器的预期值与真实参数值之间没有差异。 MLE程序肯定不是用于估计统计数据的兴趣参数值的唯一一个。 更简单的技术是特定目标功能的最小化,例如,最小化统计假设预测与数据点之间的距离的平方和,也称为最小二乘法的方法。 通过沃尔德(1950)开发的更通用的角度,通过测量假设的预测和在损失函数方面的预测和实际数据之间的差异提供。 总结正方形和可能性可以作为这种损失的表达。
通常,估计耦合到所谓的置信区间(CF.Cumming 2012)。 为了便于阐述,假设θ由实数组成,并且每个样本s都标有唯一
θ
(s)。 我们定义setrτ= {s:
θ
(s)=τ},估计器函数具有值τ的样本集。 我们现在可以在估算器函数的示例空间中融合一个区域
θ
不太遥远的标记,即,与参数的真实值θ⋆不太远。 例如,
c
⋆
δ
= {rτ:τ∈[θ⋆-δ,θ⋆+δ]}。
因此,该组是所有Rτ的联合,其中τ∈[θ-Δ,θ+Δ]。 现在我们可以以这样的方式设置这个区域,即它覆盖了示例空间的大部分,例如通过真正的分布pθ⋆测量的1-α。 我们选择Δ这样
pθ⋆(c
⋆
δ
)=∫
θ⋆+δ
θ⋆-δ
pθ⋆(rτ)dτ= 1-α。
统计民间幽默通常将α设置为5%。 相对于这个数字,δ的尺寸表明了关于估计的质量的东西。 如果我们一遍又一遍地重复样品的集合,我们会发现估算器
θ
在所有样本的95%的真实值θ⋆的范围内。 这导致我们定义对称95%的置信区间:
ci95 = [
θ
-δ,
θ
+δ]
解释与前述内容相同:重复采样,我们在所有样本的95%的95%中找到估计内的真实值。
至关重要的是,我们可以提供对事件的未讨论的频繁译文
θ
在真正分布的假设下,∈[θνδ,θ⋆+δ]。 在一系列估计中,估算器的一部分
θ
进一步远离θ∞而不是δ,因此在这种间隔之外,趋于5%。 该区域越小,估计越可靠。 注意,本间隔在未知的真值θ⋆方面定义。 然而,特别是如果间隔2δ的大小无关,则诱人将95%置信区间与真实值在估计周围的Δ范围内关联的频率关联
θ
。 下面我们回到了这一解释。
当然还有更多的程序来估计各种统计目标,并且有许多表达式的估计质量(例如,引导,见efron和Tibshirani 1993)。 估计的理论经常配备丰富的现状目录,用于估算者的特定情况标准,反映了估计者有助于实现的认识和务实的目标。 但是,本身本身就没有提出了信仰的指导方针,重要的是,置信区间也不是。
3.2古典统计问题
统计哲学中广泛讨论了古典统计。 在概述了典型方法的两个问题中,概述了机智,其有问题的界面与信仰的问题以及违反所谓的似然原则的事实。 可以看到许多更具体的问题从这些一般的问题中获得。
3.2.1与信仰的界面
考虑Neyman和Pearson的似然比测试。 如所示,测试的意义或p值是如果重复数据收集和测试,则会表现出的错误率,假设零假设实际上是真的。 值得注意的是,P值并没有告诉我们任何关于无效假设的真实性的事情。 然而,许多科学家确实以这种方式使用假设测试,并且有很多争论可以通过P值并且不能从P值衍生出来(CF.Berger和Sellke 1987,Casella和Berger 1987,Cohen 1994,Harlow等1997,2007年,Ziliak和McCloskey 2008,Spanos 2007,Greco 2011,Helpenger即将到来A)。 毕竟,该测试导致建议拒绝假设或接受它,这似乎概念上非常接近,以判决真相或虚假。
虽然p值的证据价值很多争论,但许多人承认,根据假设的数据概率不能直接使用,以指示如何使假设是如何(Cf.Gillies 1971,Spielman 1974,Spielman 1974和1978)。 这种用法运行到所谓的基本速率谬误。 茶品酒女士的例子再次有益。
基率谬误
想象一下,我们通过大量的女士们向该国进行茶花尝试,我们找到了一个特定的女士,他们猜测所有五个杯子。 我们应该得出结论,这位女士有一种品尝茶的特殊才能吗? 问题是,这取决于那些经过测试的女士们实际上有特殊人才。 如果能力非常罕见,将五个正确的猜测降至机会发生是更有吸引力的。 相比之下,想象一下,所有女士们都进入了彩票。 类似于一位猜测所有杯子的女士,考虑一位赢得彩票之一的女士。 当然,赢得奖品是非常不可能的,除非一个是博彩师,即具有特殊茶叶的模拟能力。 但肯定是如果一位女士赢得彩票,这并不是一个有效的理由,得出结论,她必须承诺欺诈和呼吁她被捕。 同样,如果一位女士正确猜到所有杯子,我们就不能简单地得出结论,她有特殊能力。
基本上,如果我们考虑参数的估计作为关于相信的直接建议的参数的估计,则会出现同样的问题,如在茶叶品尝背景下在此呈现的良好(1983,第57页)的例子所明确的情况下。 观察五个正确的猜测后,我们有
θ
= 1作为最大可能性估计器。 但是,这位女士将长期将是100%准确的。 在林德利悖论(Lindledle 1957,Spanos 2013,Sprenger Fortcoming-B)的讨论中也提出了估计和信仰保持复杂关系的观点。 简而言之,将古典统计程序的结果转化为信仰似乎是令人不安的。
辩论是否可以归咎于古典统计数据。 最初,奈曼强调,他们的程序不能被视为推论,或者以其他方式与假设的认知状态有关。 他们自己的统计哲学是严格的行为主义者(参见Neyman 1957),可能有人认为,如果只有科学家放弃他们对古典统计数据的错误认知使用,问题就会消失。 如上所述,我们可以通过古典过程无助于突出误差率,因此具有从这些过程中流出的决定。 因此,对古典统计数据的行为和基于错误的理解似乎很好。 然而,统计学家和哲学家都认为,古典统计数据的认知阅读是可能的,实际上是优选的(例如,费舍尔1955,Royall 1997)。 因此,许多人试图重新诠释或发展理论,以便将其与科学家的认识学统计学实践保持一致(参见Mayo 1996,Mayo和Spanos 2011,Spanos 2013B)。
3.2.2证据的性质
假设试验和估计有时批评,因为它们的结果通常取决于整个样本空间上的概率函数,而不是专门对观察样本的概率。 也就是说,接受或拒绝无效假设的决定不仅仅取决于根据各种假设的实际观察的概率,而且还取决于可能已经观察到但不是未观察到的事件的概率分配。 这个问题的众所周知的例证涉及所谓的可选停止(罗宾人1952,罗伯斯1967,Kadane等1996,Mayo 1996,Howson和Urbach 2006)。
此处为奈梅曼和皮尔逊的似然比测试说明了可选停止,但是可以为Fisher的零假假设测试运行类似的故事,并用于确定估计和置信区间。
可选停止
想象一下,两位研究人员都在测试同一位女士的能力,以确定牛奶和茶被倒在她的杯子里的顺序。 他们都招待了零假设,以至于她猜测随机猜测,概率为1/2,反对她猜测的概率,概率为3/4。 这两项的勤奋研究员决定记录六项试验。 另一方面,在大多数六项试验中,另一方面研究人员记录的更不耐烦,但决定停止录制女士错误地猜测的第一次试验。 现在想象一下,在实际情况下,这位女士猜测所有杯子都正确。 然后,两位研究人员都有五个成功的完全相同的数据和一个故障,这两个研究人员的可能性也是如此。 但是,虽然勤奋的研究人员不能拒绝零假设,但急性研究员可以。
这可能会像特殊的话一样攻击我们:统计数据应该告诉我们数据对假设的客观影响,但这里的影响似乎取决于研究人员的抽样计划,而不仅仅是数据本身。 如第3.2.3节进一步解释的,两位研究人员的结果因未观察到的样本的差异而异。
有些人会发现这种依赖性不可接受:研究人员的意图和计划与数据的证据价值无关。 但其他人认为这是正确的。 它们认为数据对假设的影响应该取决于获得它的停止规则或协议,而不仅仅是对这些数据的可能性(例如Mayo 1996)的可能性(例如,Mayo 1996)。 激励直觉是,坚持停止规则的无关,使得无法在数据收集中禁止机会主义选择。 事实上,古典统计的捍卫者转向那些维持可选停止的人无关紧要的表格。 他们提出了通过例如持续实验来推理推理的可能性,例如,我们可能决定仅在达到首选结果时停止实验。 但是,如Kadane等人所示。 (1996)并进一步讨论了Steele(2012),持续实验并不能保证有效,只要我们确保使用正确的,在这种情况下,在这种情况下,程序。
对可选停止的辩论最终关注数据的适当证据影响。 在这一更广泛的辩论中的一个核心问题是所谓的似然原则(参见1965年和1972年的爱德华兹)。 这一原则具有观察到的数据假设的可能性完全解决了这些数据对假设的证据影响。 在Berger和Wolpert(1984)的制定中,当考虑到一些常数k时,当PI(S)= KPI(S')的PI(S)= KPI(s')完全相同的可能性原理指出。 丰富的,Birnbaum(1962)提供了来自更多基本假设的原则的证据。 这种证明依赖于条件的假设。 说我们首先折腾硬币,发现它降落了头部,然后做出与此结果相关的实验,记录样本s。 将此与我们进行实验的情况进行比较,直接找到S,而无需随机挑选它。 条件原则指出,第二个样本与第一个样本具有相同的证据影响:我们本可以发现的,但没有发现,对样品的证据价值没有影响。 最近,Mayo(2010)已经发出了Birnbaum的衍生原则。
上面草图的古典视图需要违反这一点:观察到的数据的影响可能根据其他样本的概率而不同,因为在确定接受和拒绝区域时,其他样品正在发挥作用。 另一方面,第4节中讨论的贝叶斯程序维护了可能原则:在确定假设的后部分布,只有观察到的数据物质的可能性。 在争论的辩论中,在古典和贝叶斯统计数据之间的许多其他辩论中,可能性原则是焦点。
3.2.3游览:可选停止
该数据显示更多或别的东西,而不是由发出的假设的可能性表达的措施,详细关注。 在这里,我们进一步调查了这个问题,参考了可选停止的争议。
让我们考虑通过构建对它们两者的抑制区域的一些数值细节的研究人员的分析。
确定拒绝区域
勤奋的研究人员认为所有6元成功和失败作为样本空间,并将其数字作为足够的统计数据。 在零假设下,六个成功或六个正确猜测的事件概率为1/26 = 1/64,即女士仅在替代假设下猜测36/46的可能性。 如果我们设置R<36/26,那么该样本包含在禁止空假设的区域中。 五个成功的样品在唯一的假设下具有1/64的概率,而替代方案的概率为35/46。 通过降低因子3的似然比,我们包括抑制区域中的所有这些样本。 但这将导致7/64的错误拒绝的总可能性大于5%。 因此,这些样品不能包含在拒绝区域中,因此勤奋的研究人员在找到五个成功和一个故障时不会拒绝零假设。
另一方面,对于耐急的研究人员来说,样本空间要小得多。 除了由六个成功组成的样本外,所有样本包括一系列以故障结尾的成功,仅在系列的长度中不同。 然而,长度六个样本的概率与勤奋的研究人员相同。 如前所述,六个成功的样本再次包括在拒绝区域中。 类似地,五个成功的序列随后是一个故障的概率也在零假设下的概率为1/64,根据替代方案的概率为35/46。 差异在于降低抑制区域中的似然比以包括该样品的抑制导致仅包含该样品。 如果我们在拒绝区域中包含它,则错误抑制的概率变为1/32,因此不超过5%。 因此,在这些数据的基础上,悠闲的研究人员可以拒绝这位女士只是猜测的空假设。