辛普森的悖论
辛普森的悖论是一种统计现象,当人口分为群体时,人口中的两个变量之间的关联消失或逆转。 例如,两个变量可以在群体中呈正相关,但在所有群体中是独立的甚至是甚至否定相关的。 从数学和概率理论的角度来看,展示悖论的病例是毫无疑问的,但仍然令人惊讶地袭击了许多人。 此外,悖论对一系列依赖概率的区域具有影响,包括决策理论,因果推断和进化生物学。 最后,悖论有许多情况,包括流行病学以及歧视研究,了解悖论对于从数据中汲取正确的结论至关重要。
以下文章提供了悖论的数学分析,解释了其在因果推理和推理中的作用,比较了使悖论似乎矛盾的理论,并在不同域中调查其应用。
1.简介
2.定义和数学表征
2.1辛普森的悖论品种
2.2必要和充分的条件
3.辛普森的悖论和因果推断
3.1概率因果关系和辛普森的悖论
3.2具体辩论:因果互动,平均效果,调解员
3.3 DAG和因果标识性
3.4混淆和珍珠对悖论的分析
3.5含义
4.什么让辛普森的悖论矛盾?
5.应用程序
5.1非分类数据和线性回归
5.2流行病学和荟萃分析
5.3决策理论和肯定的原则
5.4生物学和自然选择的哲学
5.5政策问题:解释歧视数据
5.6使用统计数据来评估任务性能
6.结论
参考书目
学术工具
其他互联网资源
相关条目
1.简介
我们从悖论的插图与具体数据开始。 表1中的数字总结了对整体人群的医疗(n = 52)的效果,并分开为男女:
全人口,n = 52。男人(m),n = 20。女性(¬m),n = 32
成功失败(¬S)成功率。成功。失败。成功率。成功。失败。成功率
治疗(T)20。20。50%8。5。≈61%12. 15。≈44%
控制
(¬t)6。6。50%4。3。≈57%2。3。≈40%
表1:辛普森的悖论:人口水平(积极,消极,独立)在群体水平变化的关联类型。 从辛普森原文示例(1951)所采取的数字。
对于博览会的事项,我们假设这些频率是对潜在概率的无偏见估计。 治疗在整体人口的水平上看起来无效,但它导致比男性和女性的控制更高的成功百分比(61%对男性的61%和40%的妇女的40%)。 将这些比例作为条件概率,T =治疗,S =成功/恢复,以及M =男性亚群,我们获得
p(s|t)= p(s|¬t)
但同时,
p(s|t,是)>p(s|¬t,是)
p(s|t,¬m)>p(s|¬t,¬m)
我们应该使用治疗吗? 当我们了解患者的性别时,我们可能会管理治疗,而当我们不了解患者的性别时,它看起来并不像正确的事情 - 虽然我们知道患者是男性还是女性!
在Karl G. Pearson(1899)和乔治U.解释这种关联逆转,导致现象被标记为“辛普森的悖论”。 然而,这种现象比在群体中总体种群和阳性关联的独立性更广泛; 例如,关联也可以颠倒。 Nagel和Cohen(1934:Ch.16)提供了这种逆转的例子,作为逻辑学生练习的一部分。
了解悖论对于绘制统计数据的正确结论至关重要。 为了给予最近涉及悖论的例子(Kügelgen,Gresele,&Schölkopf[参见其他互联网资源]),早期的数据显示,意大利Covid-19的病例比在中国的情况更高。 然而,在每个年龄组中,中国的死亡率比意大利更高。 因此,似乎对各国病毒的比较严重程度相反的结论,这取决于一个人是否比较整个人群或年龄分区的人口。 对发生的事情进行适当的分析是这种情况,这对使用统计数据来告知政策至关重要。
在下文中,第2节解释了悖论的不同品种,阐明了它们之间的逻辑关系,并识别悖论时可能发生的精确条件。 虽然该部分侧重于悖论的数学表征,第3节重点介绍其因因果推断中的作用,其对因果关系的概率理论的影响,以及通过基于定向的非循环图的因果模型的分析(DAGS:柔软,甘肃,&scheines 2000; Pearl 2000 [2009])。
基于这些不同的方法,第4节讨论了使辛普森的悖论看起来矛盾的原因不同的分析,以及它在人类推理中揭示了什么样的错误。 本节还报告了对推理和推理悖论的普遍性的实证发现。 第5节调查应用统计(回归模型),生物学哲学,决策理论和公共政策的悖论的发生和解释。 例如,辛普森的悖论在分析数据以测试种族或性别歧视(Bickel,Hammel和O'Connell 1975)时相关。 第6节将我们的调查结果包装起来。
2.定义和数学表征
本节展示了辛普森的悖论如何在数学上表征,在其发生的条件下,以及如何避免。 我们首先考虑引言中的具体示例,以便建立将通过更多技术结果指导我们的直觉。
表1中的数据可以转化为成功或恢复率,显示治疗的男性比未处理的男性更高的恢复率(大约61%对57%),以及女性的相同(44%与40%)。 两个观察是理解为什么这种积极关联在汇总数据中消失的关键。 首先,未经处理的男性的回收率仍然高于接受治疗的女性的恢复率(57%与44%),这表明不仅处理,而且性别也是复苏的相关预测因素。 其次,虽然治疗组是多数女性(27与13),但对照组是多数男性(7与5)。 非正式地说话,缺乏人口水平之间的人口水平相关性来自男性(i)更有可能从治疗中恢复,并且(ii)不太可能在治疗组中。
当我们使用条件概率来表示给予治疗和/或亚贫困的恢复率时,这变得明显。 通过总概率的定律,给予治疗和控制的总体回收率可以作为亚群中的回收率的加权平均值:
p(s|t)= p(s|t,是)p(m|t)+ p(s|t,¬m)p(¬m|t)
p(s|¬t)= p(s|¬t,是)p(m|¬t)+ p(s|¬t,¬m)p(¬m|¬t)
从表1中堵塞以通过这些方程计算总体回收率,我们看到第一行是治疗男女的成功率的加权平均值(61%和44%),而第二行是两种对照组成功率的加权平均值(57%)和40%)。 这些平均数是每组中的男性和女性的百分比加权,并且在现在的情况下,组之间的性别差异导致两种平均值为50%。 由于这些重量可能是不同的,因此治疗可能会提高男性和女性的成功概率,而不是在合并的人群中进行。
后来我们将表明,如果对性别治疗的相关性被破坏的情况(例如,通过平衡两种条件下的性别率),群体中的阳性关联不能消失。 然后,每行中的权重是相同-P(m |t)= p(mμt)-and亚间隔的关联被保留用于聚合数据(第2.2节中的定理1)。 事实上,没有这样的相关性规定了辛普森的悖论。
2.1辛普森的悖论品种
SIMPSON的悖论可能发生各种类型的数据,但经典地,它是关于2×2应急表的制定。 让di =(ai,bi,ci,di)是表示2×2次次次次次次差表的真实数字的四维向量,以便在第i个亚群中的治疗和成功,让
d =
n
σ
我= 1
di =(σai,σbi,σci,σdi)
是在N个子间设置的聚合数据。 如表2所示,应阅读这些数据。
人口D = D1 + D2。亚潜伏期D1。亚潜水病D2
成功失败(¬S)成功失败(¬S)成功失败(¬S)
治疗(T)A1 + A2。B1 + B2。A1。B1。A2。B2
没有治疗(¬t)C1 + C2。D1 + D2。C1。D1。C2。D2
表2:摘要表示2×2次差管表,具有亚步骤D1和D2。
让α(di)是衡量人口DI和s之间的概率关联的强度。[1] 根据惯例,α(di)= 0对应于变量之间的关联,α(di)>0表示正相关,α(di)<0 a负面。 这最好转化为条件
α(di){
>0。如果和只有ifaidi>bici;
= 0。如果和只有ifaidi = bici;
>0。如果和只有ifaidi<bici。
条件AIDI>BICI相当于说第一行(“处理条件”)的成功率高于第二行(“控制条件”)的成功率:
人工智能/(人工智能+双)>ci /(ci + di)。
将所有这一切应用于表1中的数据集,我们看到α(d)= 0虽然α(d1)>0和α(d2)>0。 这是Samuels(1993)呼叫协会逆转(AR)的特殊情况。 如果且仅存在群体,使得所有分区亚间隔子的关联是(i)正(ii)负数,或(iii)零,并且群体中的关联类型与群体的关联类型不匹配。 在数学上写出这一点,这意味着数据集D =Σ
n
我= 1
DI以下两个条件之一持有,
α(d)≤0andα(di)≥0∀1≤i≤n
α(d)≥0andα(di)≤0∀1≤i≤n
其中至少一个不平等必须严格。 协会逆转是辛普森的悖论(Bandyopadhyay等,2011; Blyth 1972,1973)以及最常见于推理心理学的人,或者通过分析悖论的哲学家来说(例如,Cartwright 1979; Eells 1991; Malinas 2001)。
当亚步骤中没有关联时,发生了一个重要的特殊情况,但在整个数据集中出现了一个关联:
α(di)=0∀1≤i≤nbutα(d)≠0
参考统计学家乔治U. Yule(1903:132-134)的先锋工作,米特拉尔(1991)叫这个Yule的协会悖论(YAP)。 它是具有常见原因的变量之间的虚假相关性,即无条件地所属的变量(α(d)≠0)但是给定常见原因的值(α(di)= 0)。 例如,睡在一个人的衣服中与第二天早上头疼有关。 然而,一旦我们根据前一天晚上的酒精摄入量分层,关联消失:鉴于同一水平的酗酒,脱床前的人会有同样的头痛,因为那些坚持衣服的人。
最后,辛普森的悖论最普遍版本的是由良好和米特(1987年)鉴定的融合悖论(AMP)。 这种悖论发生在总体关联程度越大(或更小)比群体中的每种程度或数学上,或数学上,
α(d)>
最大值
1≤i≤n
α(di)或α(d)<
最小值
1≤i≤n
α(di)。
AMP挑战了一般人群的关联程度,因为“个人亚群的”总和“,必须陷入最小和在该水平上观察到的最大关联程度之间。 悖论的逻辑强度与其一般性和出现频率反向相关:yap⇒ar⇒amp。 将在第5.1节中讨论非分类数据的悖论(例如,双变量数据)的悖论。
2.2必要和充分的条件
我们继续表征辛普森的悖论的数学条件。 我们已经建议由于治疗变量与分区变量与分区变量之间的相关性而产生的悖论,我们现在可以更准确地说:
定理1(Lindley&Novick 1981; Mittal 1991):如果α(d)>0和关联反转发生,则由属性m和¬m,(即α(d1),α(D2)≤0),然后也是
m与s和t呈正相关; 要么
m与¬S和¬t呈正相关。
由于定理1明确,M和T之间的相关性足以排除关联逆转(因此也是yap)。 它还排除了悖论更通用的融合悖论吗? 答案取决于哪个关联的衡量标准选择α。 司司长帕德索常见地对待关联作为治疗和未经治疗之间成功率的差异,但这只是许多可能性之一(Fitelson 1999)。 虽然M和T之间的关联缺乏足以为大多数措施排除放大器(包括差异测量),但它不会为所有措施排列,因为我们现在将解释。 读者不兴趣的具体细节可能会跳到以下部分。
以下是数据集的一些广泛使用的关联措施(A,B,C,D):
πd=
一种
一个+ b
-
c
c + d
πy=
广告bc
氮气
πr=日志(
一种
一个+ b
⋅
c + d
c
)πw=日志(
一种
一个+ c
⋅
b + d
b
)
πo=日志
广告
bc
πc=日志(
d
c + d
⋅
一个+ b
一种
)
这些措施中的一些可以制定概率,并已被建议作为临床试验的因果实力和结果措施的措施(Edwards 1963; Eells 1991; Feedelson&Hitchcock 2011; Greenland 1987; Peirce 1884; Sprenger 2018; Sprenger&Stegenga 2017)。 例如,Πd= p(s`t)-p(s`t)表示差异和πr= p(s`t)/ p(s`t)的处理和控制条件的成功率比。 Πw可以被解释为证据的预后重量,即治疗提供成功(即,作为log-bayes因素),Πy是yule的(1903)关联的衡量标准,Πo是熟悉的流行病学数据的对数量比分析和πci.j. 好的(1960)因果强度的测量。
我们现在考虑不同的实验设计规定了不同措施AMP的程度。 假设在群体中均匀地分配给治疗和控制条件。 在这种情况下,在每个亚潜水费所分配给治疗和控制条件的人的比率等于,实验设计称为行均匀。 具体地,必须有一个λ>0,使得对于任何亚父沉积i
人工智能+双=λ(ci + di)
特别是,行均匀性大致如我们的样本大,我们从人口中随机进行样本。
试验的行均匀设计确保潜在混淆M和治疗变量T的独立性,由定理1,它规定了关联逆转。 此外,行均匀的设计足以排除广泛的关联措施的放大器:
定理2(GOOD&MITTAL 1987):如果数据集D =Σdi满足行均匀性,则避免衡量πd,πr,πw和πc和πc的合并悖论。 对于log-odds比率Πo不避免它。
一些研究还表现出柱均匀的设计,在所有群体中成功和失败的比例是恒定的:
人工智能+ ci =λ(双+ di)
然后,M独立于S.柱均匀性,可以在案例控制研究中发生,其中包括各种子步骤(例如,不同的医院),其中一个人与解释性属性的人数不匹配,如在RCT中。 相反,对于具有某种属性的人(例如,一种特定形式的癌症),一个人选择没有这种属性的人数。 专栏均匀设计避免了AR,但在呈现的关联措施中,只需要为ΠM排除放大器。
关联措施
避免amp? πdπrπoπyπwπc
行均匀设计。是。是。不。是。是。是
柱均匀的设计。不。不。不。是。不。不
这两个是是是是是是
表3:概述行和列均匀设计如何避免用于各种关联措施的融合悖论。
表3总结了所有关联措施的性质,相对于AMP和不同形式的实验设计。 将在第5.2节中讨论何未排除amp的行,既不何种均匀设计,其中何未排除放大器的何种行为。
我们现在确定数据表现逆转时的最后一个基本条件。 看看图1,其显示了以图形方式处理和控制的成功比例。
一个图:链接到下面的扩展说明
图1:结合逆转发生的必要条件的几何表示。 如果比例如左图中的命令命令,则可能会发生悖论; 如果它们在右图中被命令时,它不会发生。 [图1的扩展描述在补充中。]
在两个例子中,治疗成功率是两种亚步骤大于控制成功率。 该订单何时保留在整体层面? 我们知道每个条件(治疗/控制)的总成功率受到亚本子中的成功率:
事实1:假设AI,BI>0对于所有1≤I≤N。 然后也
最小值
爱
人工智能+双
≤
σ
n
j = 1
aj
σ
n
j = 1
(aj + bj)
≤max
爱
人工智能+双
这一事实直接从总概率(省略的证明)的法律中,它为我们提供了一个简单的必要条件,即结合逆转(AR):再次转向图1,它意味着每个条件的总成功率必须在实线上。 因此,AR不能发生在图1的右侧部分,但如果比例如图1的左侧排序,则可能发生。通常,当以下条件保持时,避免了AR:
最大值
1≤i≤n
爱
人工智能+双
<
最小值
1≤i≤n
ci
ci + di
要么
最小值
1≤i≤n
爱
人工智能+双
>
最大值
1≤i≤n
ci
ci + di
满足(RH)的任何数据集将被称为行均匀。 相比之下,对于违反条件(RH)的任何给定的比例集,我们可以找到表现出这些相同比例的数据集,以便确实发生AR(通过伪造群体的大小;在Mittal 1991中的Lemma 3.1)。 然而,既不是行均匀性,也不是柱同质性的类似条件,也不是它们的结合足以避免钾态悖论放大器。