对概率的解释
当空间是无穷无尽的时,通过吸引最大熵的信息理论原则,可以坚持经典理论的精神,通过Jaynes(1968年)冠军的漠不关心原则的概括。 熵是缺乏概率函数缺乏“信息性”的衡量标准。 越浓缩的是功能,熵越少; 它越散布,熵越大。 对于概率的离散分配p =(p1,p2,......),p的熵定义为:
-
σ
一世
pilogpi
(有关此公式的更多解释,请参阅信息条目。)
最大熵的原则禁止我们从所有概率函数的家庭中选择,这一致符合我们的背景知识,最大化此数量的功能。 在选择最无关的概率函数的特殊情况下,这只是先前讨论的熟悉的“平面”经典作业。 在无限案件中,事情变得更加复杂,因为在违反标准概率微积分的痛苦(以可数地添加性)疼痛时,不能对可燃性的痛苦进行平坦的分配。 相反,我们可以拥有的最佳序列是逐步更鼓舞的分配,其中没有一个真正平坦的。 然后,我们必须强加一些进一步的约束,使该字段变为较小的家庭,其中存在最大熵的分配。[3] 该约束必须从外部施加作为背景知识,但没有任何一般理论,应该在其中应用外部约束。 有关最大熵和批判的数学结果,请参阅Seidenfeld(1986)。
让我们现在转向无数无限的空间。 很容易 - 全部易于为如此空间中的点分配相同的概率:每个变得概率0.由于许多点在较大的集合中被聚集在一起时出现非琐碎的概率。 如果有最多的团块,Laplace的经典理论可能会再次吸引:如果证据对称对这些团块进行对称,则每个都会得到相同的概率份额。
输入Bertrand的悖论(1889)。 它们都出现在不可数空间中,并打开给定问题的替代参数化,这些参数化与彼此不线性相关。 一些演示是不必要的奥术; 长度和地区足以表明这一点。 以下示例(从Van Fraassen 1989调整)很好地说明了Bertrand样式悖论如何工作。 一家工厂生产侧长度之间的立方体; 随机选择的立方体在0到1/2之间的侧长的可能性是什么? 经典的intepetation的答案显然是1/2,因为我们想象一个生产过程,这些过程均匀地分布在侧长度。 但问题可以获得等效的重述:工厂生产的立方体,面积在0到1平方英尺之间; 随机选择的立方体在0到1/4平方英尺之间的面积面积有什么概率? 现在,答案显然是1/4,我们想象一个生产的生产过程均匀分布在面积上。 这已经是灾难性的,因为我们不能允许同样的事件来拥有两个不同的概率(特别是如果这种解释是允许的!)。 但是,差了,因为问题可能会再次重述:工厂生产的立方体在0到1立方英尺之间; 随机选择的立方体在0到1/8立方英尺之间的体积有什么概率? 现在,答案显然是1/8,我们想象一个生产过程均匀分布在体积上。 等待所有无限相等的对问题的相等重新制定(就第四,第五,...长度的力量而言,并且实际上就长度的每个非零真实值指数)。 那么,是有问题的事件的概率?
悖论出现,因为漠不关心的原则可以以不兼容的方式使用。 我们没有证据表明,在其躺在[1/2,1]中的间隔[0,1/2]中,反之亦然,这些证据表明在[1/2,1]中,或反之亦然,因此原理要求我们为每个概率为1/2。 不幸的是,我们也没有证据表明,在任何其他人中的任何四个间隔中的任何一种中,都没有得到躺在的四个间隔中的任何一种,所以我们必须给每个概率为1/4。 事件'侧长位于[0,1/2]'中,仅在仅重新筛选时接收不同的概率。 因此,对于问题的所有其他重新装修来说,这是如此。 我们不能同时满足任何一对这些约束,更不用说它们。
Jaynes试图节省漠不关心的原则,并将最大熵的原则扩展到连续案例,其不变条件:在我们具有相同知识的两个问题中,我们应该分配相同的概率。 他认为这是一个一致性要求。 对于任何问题,我们都有一组可接受的转变,那些将问题变为等同的形式。 在问题中未指明各种细节; 它的等效配方以不同的方式填写细节。 Jaynes的不变条件竞标我们为等价命题分配相同的概率,彼此允许的允许转型来的相应的重新制作。 满足此条件的任何概率分配都称为不变的分配。 理想情况下,我们的问题将具有独特的不变分配。 要确定,事情并不总是理想的; 但有时它们是,在这种情况下,这肯定是贝尔特兰风格问题的进展。
在任何情况下,对于许多花园 - 品种问题,不需要这样的技术机械。 假设我告诉你,一个奖品是三个门之一,你可以选择一个门。 这似乎是一个范式的情况,其中漠不关心的原则运作良好:你选择右门的可能性是1/3。 似乎令人难以置信,我们应该担心一些问题的重复化,这将产生不同的答案。 要肯定的是,Bertrand风格的问题警告,我们对漠不关心的原则有极限。 但是,可以说我们必须小心不要夸大其适用性。
概率票价的经典理论如何了解我们的充足性标准? 让我们开始受理。 (Laplacean)古典概率遵守非消极性和标准化,但它们仅是有限的添加剂(De Finetti 1974)。 因此,他们没有遵守完整的Kolmogorov概率微积分,但它们提供了对基本理论的解释。
假设可能是原则上可以确定可能性空间的经典概率。 他们与理性代理人的归立关系; 正如我们上面所看到的那样,循环关注的是,这种关系是空缺的,而不是在认识学中立位置约束理性代理的归信,它们只是记录它们。
没有补充,经典理论不与频率信息接触。 然而,硬币发生在一系列试验中,可能的结果保持不变。 事实上,即使我们有强大的经验证据表明硬币偏向概率的冠军,说,0.6,很难看出,毫安的经典理论如何适应这一事实 - 对于现在的十种可能性,其中六个是有利的头? Laplace确实以继承的规则补充了理论:“因此,我们发现一旦发生了一系列次数,下次将再次发生的概率等于通过Unity划分相同的数量而增加的这个数字,增加了两个单位。” (1951,19)是:
PR(在N +第1次试验中的成功。Succeses)=
n + 1
n + 2
因此,归纳学习是可能的 - 尽管不是通过经典概率本身,而是感谢这一进一步的规则。 我们必须询问是否可以通过这样一个简单的公式捕获此类学习,对于所有域和事件也是如此。 当我们讨论以下逻辑解释时,我们将返回此问题。
科学显然调用了看起来经典的各种点概率。 Bose-eInstein统计数据,费米 - DIRAC统计数据和Maxwell-Boltzmann统计数据通过考虑可以分配给各种粒子的方式,然后将漠不关量的原则应用于该集合的不同细分替代品,Bertrand风格。 麻烦的是,Bose-Einstein统计算法适用于一些颗粒(例如光子)而不是其他颗粒,Fermi-Dirac统计数据适用于不同的粒子(例如电子),而Maxwell-Boltzmann统计数据不适用于任何已知的统计数据颗粒。 由于经典解释将拥有它,因此无法确定先验。 此外,古典理论旨在在无知面前产生概率分配。 但是很好(1973)写道:
如果我们真的无知,关于一组替代方案,那么我们也对替代品的组合和替代方案的细分也无知。 然而,在应用于替代方案或其组合或其细分时,漠不关心的原则产生不同的概率分配(170)。
这将我们带到了关于古典解释的主要争议的主要点之一。 批评者指责从无知提取信息的漠不关心的原则。 支持者答复说,它相当编纂了这些无知应该认识到的方式 - 对于除了相同分配的概率之外的任何事情将代表一些知识。 批评者反复回复,在完全无知的状态下,最好分配不精确的概率(可能在整个[0,1]间隔内),或者完全估算概率的分配。
3.2逻辑/证据解释
3.2.1逻辑解释
概率的逻辑理论保留了经典解释的想法,即通过检查可能性空间可以确定概率。 然而,它们以两种重要方式概括:可以分配不等权重的可能性,并且可以计算任何证据,对称平衡的概率。 实际上,在其各种顾客中,逻辑解释寻求全面地封装的支持或确认,即一条证据E在给定的假设H上赋予哪一条证据H,我们可以写入C(H,E)。 在这样做时,它也可以作为概括的演绎逻辑及其概念的概念,以完全的推理理论,配备有与H相关的“含义”的概念。 它通常被称为“归纳逻辑”理论,虽然这是一个错误的人:没有要求E在任何感觉的“归纳”证据中为h。 “非演绎逻辑”将是一个更好的名称,但这忽略了演绎逻辑的含义和不相容关系的事实也被适用于确认函数分别取1和0的极端情况。 在任何情况下,逻辑解释都提供了归纳框架的重要意义。
逻辑概率的早期支持者包括约翰逊(1921),凯恩斯(1921)和Jeffreys(1939/1998)。 然而,到迄今为止,对逻辑概率的最具系统研究是通过Carnap进行的。 他对逻辑概率的制定始于正式语言的构建。 在(1950/1962)中,他考虑了一类非常简单的语言,该语言由有限数量的逻辑上独立的Monadic谓词(命名属性)组成,适用于数个人常量(命名个人)或变量以及通常的逻辑连接。 最强大的(一致)的陈述,可以在给定语言中描述所有个人,因为语言的表现力量允许。 它们是每个个人的完整描述的连词,每个描述本身都是包含语言的每个谓词的恰好出现(否定或未被否定)的结合。 称之为最强的陈述状态描述。
由于每个句子都会自动扩展到所有句子的衡量标准的概率测量,因为每个句子相当于状态描述的分离; M反过来突然引起确认功能C( - , - ):
c(h,e)=
是(h&e)
是(e)
对于M的无限很多候选人,因此C,即使是非常简单的语言。 Carnap通过坚持认为唯一可显着区别于彼此的唯一区分个人的唯一差异,不仅仅是一个定性的差异,而且不仅仅是差异。 呼叫结构描述一个最大的状态描述集,每个全部可以通过各个名称的一些置换从另一个置换。 M *分配每个结构描述等测量,其又在其组成状态描述之间平等划分。 它给予均匀状态描述的重量大于异质的态度,从而根据指令合理的归纳实践,“奖励”个人之间的均匀性。 诱导的C *允许从经验中感应学习。
例如,考虑一个具有三个名称,a,b和c的语言,以及针对此语言的一个谓词f。州描述是:
1。发&fb&fc
2。¬fa&fb&fc
3。发&¬fb&fc
4。发&fb&¬fc
5。¬fa&¬fb&fc
6。¬fa&fb&¬fc
7。发&¬fb&¬fc
8。¬fa&¬fb&¬fc
有四种结构描述:
{1},“一切都是f”;
{2,3,4},“两个fs,一个¬f”;
{5,6,7},“一个f,两个¬fs”; 和
{8},“一切都是¬f”;
测量M *将数字分配给状态描述如下:首先,每个结构描述都分配了一个相等的权重,1/4; 然后,将属于给定结构描述的每个状态描述分配给分配给结构描述的权重的相等部分:
状态描述。结构描述。重量。M *
1. FA.FB.FC
一切都是f。1/4。1/4
2.¬fa.fb.fc
3.fa.¬fb.fc
4.FA.FB.¬FC
}二。 两个fs,一个¬f。1/4。{
1/12
1/12
1/12
5.¬fa.¬fb.fc
6.¬fa.fb.¬fc
7.FA.¬FB.¬FC
}三。 一个f,两个¬fs。1/4。{
1/12
1/12
1/12
8.¬fa.¬fb.¬fc
iv。 一切都是¬f。1/4。1/4
请注意,M *为均匀状态描述1和8提供更大的权重,而不是异构状态。 这将在归纳支持中表现出来,假设可以从适当的证据陈述中获得。 考虑假设陈述H = FC,在8个状态描述中的4中真实,具有先验概率M *(H)= 1/2。 假设我们检查个人“A”并发现它有财产F - 呼叫此证据e。 直观地,e有利(虽然弱)归纳证据的h。 我们有:m *(h&e)= 1/3,m *(e)= 1/2,因此
c *(h,e)=
是*(h&e)
是*(e)
=
2
3
。
这大于先验概率m *(h)= 1/2,因此已经确认了假设。 可以证明,通常M *产生一定程度的确认C *,其允许从经验中学习。
但是,请注意,由于初始措施的合适选择定义了无限的许多确认功能,允许从经验中学习。 我们没有理由认为c *是正确的选择。 然而,Carnap索赔C *脱颖而出,简单自然。
他以后将他的确认功能概括为Cλ的连续功能。 定义一系列谓词是一组谓词,使得对于每个单独的,恰好的一个成员适用,并且考虑包含有限数量的家族的一阶语言。 Carnap(1963)专注于只有一个地方谓词的语言的特殊情况。 他沿着关于确认函数C的一系列公理,包括所概率微积分本身的那些,对称的各种公理(例如,C(h,e)在个人的置换中保持不变,以及任何家庭的谓词)和保证凹陷感应学习的公理,以及对相对频率的长期收敛。 它们意味着,对于家庭{pn},n = 1,...,k(k>2):
Cλ(个人S + 1是PJ,第一个SJ S个人是pj)
=
(sj +λ/ k)
s +λ
,
其中λ是正的实数。 λ的值越高,影响的证据越少:从观察到的诱导因对各个S + 1的每个K可能性而被逐步淹没。
我转向在文献中提供的Carnap计划的各种反对意见,并指出这仍然是一个热闹的辩论领域。 (参见Maher(2010)对这些异议的一些反驳以及该计划的防御;请参阅Fitelson(2006)进行整体评估该计划。)首先,有没有正确的λ,或者另一种方式,如何“归纳”确认功能是? 这里的关注是λ的任何特定设置是任意的,以损害Carnap的声明提供概率的逻辑概念。 此外,事实证明,对于任何此类设置,无限宇宙中的通用声明总是收到零确认,无论(有限)证据如何。 许多人发现这是违反直觉,因为自然法则无数的情况显然可以得到证实。 专家员(1992)讨论避免不受欢迎的结果的前景。
显着地,Carnap的对称性的各种公理几乎没有逻辑真理。 此外,罚款(1973,202)辩称,我们不能施加进一步的对称性约束,这些限制似乎与Carnap一样可符号,在不一致的痛苦中。 Goodman(1955)教导我们:未来在某些方面的尊重是琐碎的; 这将相似于所有方面是矛盾的。 我们可以继续:可以使概率分配尊重一些对称性是微不足道的; 可以尊重所有对称性是矛盾的。 这威胁到整个逻辑概率计划。
另一个名德曼课程是诱导逻辑对谓词的含义必须敏感,强烈建议诸如Carnap等纯粹的句法方法注定注定。 斯科特和Krauss(1966)使用模型理论在制定逻辑概率方面的逻辑概率和更现实的语言而不是卡内普。 尽管如此,在许多人中,仍然,发现许多人似乎是一种管道梦,至少如果我们想分析任何真实兴趣的任何论点的“逻辑概率” - 或者在日常生活中。
逻辑概率可允许。 它很容易显示,它们满足有限的添加性,并且给定它们在有限的句子上定义,对数量添加性的扩展是微不足道的。 鉴于语言的选择,给定的确认功能的值是可靠的; 因此,如果这种语言足够丰富,所以可以确定相关概率。 逻辑概率理论的整个点是爆炸放大推断,尽管在语言选择和Λ的选择中给出了明显的任意性 - 因此,在确认函数的选择中 - 一个人可能会想知道它如何实现这一目标。 确认功能的武断问题也妨碍了逻辑解释可以真正阐明概率和频率之间联系的程度。
此外,任意问题,延迟了逻辑概率与理性信任之间的任何引人注目的联系。 即使在选择确认函数之后,仍然存在另一个问题 卡纳普要求E成为一个人的总证据 - 在一个人的处置时最大的信息,最强烈的命题是肯定的。 但是,由于杰弗里(1992年)所说,也许学习并没有以这种“基岩”命题的形式出现 - 也许它仍然涉及在分区上的一个人的主观概率的转变,而没有分区的任何单元。 那么可能是哪一个所列的最强烈的命题是由TaItology T-表达 - 几乎没有对“总证据”的有趣概念。[4]
与“对科学”标准的适用性有关,由于Lakatos引起的一点。 通过Carnap的灯光,假设的确认程度取决于所说的假设的语言,并定义了确认功能。 但科学进步通常会带来科学语言的变化(例如,添加新的谓词和删除旧的),而这样的变化将带来相应的C值的变化。 因此,科学的生长可能推翻任何特定的确认理论。 这里有一些蛇在这里吃自己的尾巴,因为应该突出逻辑概率来突出科学理论的确认。
我们已经看到后来的卡纳帕休息了他之前的愿望,以找到独特的确认功能,允许连续的这种功能显示出广泛的归纳谨慎性。 逻辑概率的各种批评者认为他不够远 - 即使他后来的系统也限制了归纳学习,超出了合理所需的东西。 这回顾了20世纪之间的经典辩论,凯恩斯,一个着名的逻辑概率,以及一个同样着名的对手的Ramsey。 Ramsey(1926年; 1990年)对逻辑概率的任何非琐碎关系持怀疑态度是持怀疑态度:他说他无法辨别他们自己,而其他人则不同意他们。 这种怀疑主义使他制定了他对概率的主观解释的极大影响力,不久讨论。
3.2.2证据解释
但是,人们可能坚持认为,即使它们不是逻辑,也存在具有非琐碎的概率证据关系。 鉴于我们的证据,鉴于我们的证据,鉴于我们的证据,鉴于我们的证据似乎似乎似乎似乎似乎似乎似乎似乎似乎似乎似乎似乎似乎仍然是一种客观意义。 在犯罪调查中,可能有一个事实是可用证据如何支持各种嫌疑人的内疚。 这似乎并不是物理学的问题,也没有任何人思考的物理学,也没有什么样的世界的事实结果。 它似乎是一个重要的概率。
更一般地说,蒂莫西威廉姆森(2000,209)写道:
鉴于科学假设H,我们可以清晰地问:目前证据有可能是如何有可能的? 我们询问证据有多少钱讲述或反对假设。 我们不询问真相的物理机遇或频率h。 即使是其客观的真理机会,拟议的性质也可能是非常不可能的。然而,即使是真理的机会是1.这与明显的观点相当一致,即在H上的证据可能包括有关客观机会或频率的证据。 同样,在询问有可能的H是如何存在的证据,我们没有询问任何人的实际信仰程度。 目前的证据可能会强烈反对H,即使每个人都是非理性的,也可能会肯定的。