归纳逻辑
当一个假设指出Bs中的比例是RK时,由二项式分布公式给出抽样样品比例f(a,s)= m / n的相关可能性:
p [f(一个,s)=是/n|c⋅f(一个,b)=rk⋅b]
=
n!
是!(n-是)!
r
是
k
(1-rk)n-是。
现在,我们应用贝叶斯估计规则BE-D,如下:
p [v≤f[一个,b]≤q|c⋅f[一个,s] =是/n⋅b]
≥
1
1 + k×[
1
σ
u⋅z
j =v⋅z
p [e|hj⋅c⋅b]
σ
z
我= 1
p [e|hi⋅c⋅b]
-1]
,
其中分母中的总和的总和由公式给出,
σ
u⋅z
j =v⋅z
p [e|hj⋅c⋅b]
σ
z
我= 1
p [e|hi⋅c⋅b]
=
σ
u⋅z
j =v⋅z
r
是
j
(1-rj)n-是
σ
z
我= 1
r
是
一世
(1-ri)n-是
,
其中(v⋅z)和(u⋅z)是间隔[v,u](即(v⋅z)/ z = v和(u⋅z)/ z = u)的相应整数。
这些大笔的二项因素难以直接计算。 幸运的是,它们与一个更容易可计算的公式密切近似,即用于标准化的β发布。 那是,
σ
u⋅z
j =v⋅z
r
是
j
(1-rj)n-是
σ
z
我= 1
s
k
一世
(1-丝)n-是
≊beta[v,u:是+ 1,(n-是)+1]
=
∫
u
v
rm(1-r)n-多药耐药
∫
1
0
sm(1-s)n-的MDS
。
可以使用众所周知的数学和电子表格程序轻松计算该归一化β分布函数的值。 例如,由一个这样的电子表格程序提供的此函数的版本采用beta.dist(x,α,β,true)。 它将归一化β分布的值从0到X计算到X,其中目的α= M + 1,β=(N-M)+1。 输入值True告诉程序从0到x计算积分(而False会告诉程序以点x计算密度函数的值)。 使用此功能的函数,通过输入以下公式,我们计算V和U之间的归一化β分布的值:
beta.dist [u,是+ 1,(n-是)+ 1,真正]
-beta.dist [v,是+ 1,(n-是)+ 1,真正]。
为简单起见,我们将上述公式称为BD(U,V,M,N)。 因此,要使电子表格程序计算为m,n,v和u的特定值的p [V≤F[a,b]≤u|c⋅f[a,s] = m / n = m /n⋅b]。我们只需要将此公式与这些值一起输入在现有概率的比率上具有上限K的值:
1
1 + k×(
1
bd(u,v,是,n)
-1)
在许多真实情况下,它至少是最初的符号,即真正的频率值位于V和U之间的感兴趣区域内,因为它在该区域之外的位置。 在这种情况下,k的值必须小于或等于1。然而,即使上限k对这些前锋的比率相当大,任何中等大的样本大小都会驱动后概率p [V≤F[a,b]≤q≤q|c⋅f[a,s] = m /nəb]接近1,对于相当窄的边界V和u。 通过Beta分布计算的下表说明了这两者
p [f(一个,b)=。62±.05|c⋅f(一个,s)=是/ n =.62⋅b]
和
p [f(一个,b)=。62±.025|c⋅f(一个,s)=是/ n =.62⋅b]
在一系列不同的样本尺寸n,并在宽范围的k值范围内。
来自b = n的样本s的大小,
样本中的数量s = m:
在整个表中m / n = .62。在哪里
p [f(一个,b)=s|c⋅b]
p [f(一个,b)=r|c⋅b]
所有r,都是这样的
.62-q≤r≤62+ q和s<.62-q或s> .62 + q,
p [f(一个,b)=。62±q|c⋅f(一个,s)=是/n⋅b]≥
先
比率k
↓。n→
(m)→。400
(248)800
(496)1600
(992)3200
(1984)6400
(3968)12800
(7936)
1。q = .05→
q = .025→。0.9614
0.6982 0.9965
0.8554 1.0000
0.9608 1.0000
0.9964 1.0000
1.0000 1.0000
1.0000
2。q = .05→
q = .025→。0.9256
0.5364 0.9930
0.7474 0.9999
0.9246 1.0000
0.9929 1.0000
0.9999 1.0000
1.0000
5。q = .05→
q = .025→。0.8327
0.3163 0.9827
0.5420 0.9998
0.8306 1.0000
0.9825 1.0000
0.9998 1.0000
1.0000
10。q = .05→
q = .025→。0.7133
0.1879 0.9661
0.3717 0.9996
0.7103 1.0000
0.9656 1.0000
0.9996 1.0000
1.0000
100。q = .05→
q = .025→。0.1992
0.0226 0.7402
0.0559 0.9963
0.1969 1.0000
0.7371 1.0000
0.9962 1.0000
1.0000
1,000。q = .05→
q = .025→。0.0243
0.0023 0.2217
0.0059 0.9639
0.0239 1.0000
0.2190 1.0000
0.9637 1.0000
1.0000
10,000。q = .05→
q = .025→。0.0025
0.0002 0.0277
0.0006 0.7277
0.0024 0.9999
0.0273 1.0000
0.7261 1.0000
0.9999
100,000。q = .05→
q = .025→。0.0002
0.0000 0.0028
0.0001 0.2109
0.0002 0.9994
0.0028 1.0000
0.2096 1.0000
0.9994
1,000,000。q = .05→
q = .025→。0.0000
0.0000 0.0003
0.0000 0.0260
0.0000 0.9940
0.0003 1.0000
0.0258 1.0000
0.9943
10,000,000。q = .05→
q = .025→。0.0000
0.0000 0.0000
0.0000 0.0027
0.0000 0.9433
0.0000 1.0000
0.0026 1.0000
0.9457
表:后概率下限
p [f(一个,b)=。62±q|c⋅f(一个,s)=是/ n =.62⋅b],
对于从B随机抽取的尺寸N的样本S.
此表中的所有概率条目都准确到四个小数位。 表格'1.0000'的这些条目实际上代表了小于1.0000的概率值。
请注意,即使在现有概率的比率K,k的比率非常大,也足够大的样本量克服了现有概率之间的这种差异。 为了说明这一点,让我们专注于位于间隔f(a,b)=。62±.025(即间隔.595≤f(a,b)≤645)的那些假设。 在这种情况下,K是所有先前概率的比率上的一个上限,
k≥p[f(一个,b)=ri|c⋅b] / p [f(一个,b)=rj|c⋅b],
这样的RJ位于间隔内.62±025和RI位于间隔内.62±025。 对于k = 1,000,这意味着某些特定频率假设f(a,b)= k / z在该间隔之外(即,有些假设有k / z<.62-.025或有k / z>.62 + .025)可能具有在本间隔内的特定假设的前沿高达1000倍的概率高达1000倍。 但在间隔之外的特定假设没有比间隔内的任何假设大超过1000倍。 表格展示即使在这些前的比例的上限是极端的那样,也是足够大的样本大小,n = 6400,导致后验概率的合理下限:
p [f(一个,b)=。62±.025|c⋅f(一个,s)= 3968 /6400⋅b]≥.9637。
甚至对于这种比例的真正极值的前极值,k = 10,000,000,N = 12800的样本大小导致后部的体面下限:
p [f(一个,b)=。62±.025|c⋅f(一个,s)= 7936 /12800⋅b]≥.9457。
2.5。 贝叶斯估计用于连续的替代假设
让我们考虑一下关于一系列独立证据结果的统计假设的简单示例。 假设我们拥有翘曲的硬币,并希望在以标准的无偏见方式折叠时确定其对头部转动头的倾向。 考虑两个假设,总部和人力资源,该HQ和人力资源厅称,当折腾时,硬币的机会(或施力)分别是Q和R。 让C报告硬币以正常方式抛出n次,让e表示恰好M发生头部结果。 假设这种掷骰子的结果是概率自由的(由B的断言)。 因此,各自的可能性采用通常的二项式形式
p [e|hr⋅c⋅b] =
n!
是!×(n-是)!
×rm(1-r)n-是,
然后,规则RB产生以下公式,其中似然比是相应二项式术语的比率:
p [hq|c⋅e⋅b]
p [hr|c⋅e⋅b]
=
qm(1-q)n-是
rm(1-r)n-是
×
p [hq|c⋅b]
p [hr|c⋅b]
例如,当硬币被抛出n = 100次并提出头部m = 72次,与H3 / 4相比的假设H1 / 2的证据是由似然比给出的
p [e|h1 /2⋅c⋅b]
p [e|h3 /4⋅c⋅b]
=
[(1/2)72(1/2)28]
[(3/4)72(1/4)28]
= .000056269。
这些证据强烈反驳了H1 / 2(公平硬币)假设关于H3 / 4(偏向4/4号)假设,规定,对这两个假设的先前招收性的评估不会使后者假设开始极其难以置信。 在这种情况下,只要H1 / 2最初不再比H3 / 4 - 即,所以P [H1 / 2 ||] / p [H3 / 4 |]≤100 - 后概率必须小于或等于.0056269:
p [上半年/2|cn⋅en⋅b]
p [h3的/4|cn⋅en⋅b]
≤.000056269×100 = .0056269
但是,请注意,H1 / 2的这种强烈偏复不是绝对的驳斥。 额外的证据可以扭转有利于它的头部结果的总比例。
在这样的情况下,在所有竞争的假设在连续区域内,贝叶斯估计规则BE-C提供了评估假设的证据支持的另一种有用的方法。 在硬币折腾案例中,替代假设H的相关区域是形式HR的所有假设的类,其中每个这样的假设表明每个硬币折叠的头部的机会是r。 所以,当C表示硬币被扔了n次时,并且e表示这些折叠正常产生的头部(并且b表示折叠是独立的,并且相同分布),继续采用二项式形式:
p [e|hr⋅c⋅b] =
n!
是!×(n-是)!
×rm(1-r)n-是。
让H [v,U]表达假设,即陆地头部抛出的倾向是v和u之间的间隔的一些实数。 然后,将规则BE-C应用于此问题,我们的目标是评估表格的后验概率
p [h [v,u]|c⋅e⋅b] =∫
u
v
p [hq|c⋅e⋅b] dq
≥
1
1 + k×[
1
∫
u
v
rm(1-r)n-多药耐药
∫
1
0
qm(1-q)n-mdq
-1]
,
其中k是先前概率密度函数的值比的上限,
k≥p[hq|c⋅b] / p [hr|c⋅b],
当R位于V和U之间的间隔内,并且Q在此间隔之外呈现。
事实证明,比率
∫
u
v
rm(1-r)n-多药耐药
∫
1
0
qm(1-q)n-mdq
在该等方程中,是归一化的β-分布函数(讨论前)的定义,其应用于N试验中的M阳性结果。 我们可以使用众所周知的电子表格应用程序来计算V和U之间的特定值之间的标准化β分布的值,使用先前定义的公式BD(U,V,M,N)。
因此,我们具有下限的下面的下面的后界,头部的倾向在界限V和u之间的间隔内位于间隔内。
p [h [v,u]|c⋅e⋅b]≥
1
1 + k×(
1
bd(u,v,是,n)
)
。
以下是通过该公式计算的一些例子。 在每种情况下,V的值和u的值已被选择在低于和高于.72,我们假设是样本中的比例,m / n = .72。 以下每个后部概率都借鉴了M和N的指定值,以及K的指定值
k。ñ。米后概率
1 100 72 p [h [.63,.81]|c⋅e⋅b]>。956
p [h [.60,.84]|c⋅e⋅b]>。992
10 100 72 p [h [.59,.85]|c⋅e⋅b]>。959
p [h [.56,.88]|c⋅e⋅b]>。994
100 100 72 p [h [.56,.88]|c⋅e⋅b]>。946
p [h [.53,.91]|c⋅e⋅b]>。994
1 1000 720 p [h [.69,.75]|c⋅e⋅b]>。965
p [h [.68,.76]|c⋅e⋅b]>。995
10 1000 720 p [h [.68,.76]|c⋅e⋅b]>。953
p [h [.67,.77]|c⋅e⋅b]>。995
100 1000 720 p [h [.67,.77]|c⋅e⋅b]>。956
p [h [.66,.78]|c⋅e⋅b]>。997