辛普森的悖论

转回关于概率框架的平均效果的辩论,这一事实包括Dupré的(1984)对批评者(1983:54)等批评者的平均影响的自由态度,他将其视为“抱歉的借口”因果概念“(虽然查看Hitchcock 2003:13-15,和Hausman 2010:56,用于进一步细微差别)。 当然,阳性平均效果与降低许多群体中显着的效果的可能性相容。 这反映了分区变量可以与感兴趣的原因相互作用的事实。 但这种可能的相互作用不会使效果不那么真实,因为整个人口的平均效果。

这将我们带来了辛普森的悖论是否威胁因果关系的客观性问题。 正确理解,它没有。 肯定是,原因可以提高其在一种人群中其作用的概率,并将其降低在另一个人群中,或者它可以在整个人口中具有积极效应,但不能在其一些群体中具有积极的效果。 但它并不好像这些因果关系中的一些是真实的,因此哲学家必须在其中发现真正的关系的特权背景上下文。 这是关于不同人群可以具有不同互动背景因素的因果关系的事实,因此平均效果将在群体中真正不同。

4.什么让辛普森的悖论矛盾?

辛普森的悖论不是一个悖论,即呈现不一致的合理命题,其中至少必须拒绝一个。 如第2.2节所示,数学并未排除在群体水平上逆转的关联。 Bandyopadhyay等。 (2011)有助于区分三个问题,可以询问辛普森的悖论:

为什么或在什么意义上是辛普森的悖论是悖论?

对悖论的适当分析是什么?

面对悖论的典型案例时,应该如何进行?

问题(i)基本上是关于推理心理学的问题:一个人必须提供为什么(数学innocent)关联逆转似乎涉及许多人。 这些账户有助于确定有效的推理形式,以导致个人错误地排除关联逆转,从而提供问题答案(ii)。 这种分析可以区分细线不同的推理形式,并将门打开到经验工作测试,人类是否系统地未能参加特定差异。

第3.4节已经提出了对悖论的一个分析。 论珍珠的因果分析,悖论的外观从因果和概率推理之间的汇集产生。 如果一个人解释服用药物提高恢复的概率作为干预药物的因果陈述,将使患者更容易恢复,并合理地假设服用药物对性别没有影响,那么药物不能降低男性中的恢复概率女性。 但是,当然,如果一个人考虑普通的条件概率而没有任何实践员,则可能发生这种逆转。 因此,悖论的外观导致伴随常规条件概率与表示干预结果的条件概率。

珍珠答复(ii)对(iii)立即影响。 在评估两个变量x和y之间的关系并确定是否应该基于某些变量(或变量集)z分区,仅当执行此操作时,一个应该基于z分区,使其能够识别x和y之间的因果关系。此答案预先提出分区人口是识别因果关系。 关于如何鉴于悖论的问题鉴于上下文,并且鉴于一个愿望的意愿绘制的案例。

Pearl(2014)呈现出支持他对悖论分析的几个原因。 首先,他认为这是由悖论引起的令人惊讶的是,悖论是仅仅是数学误差的结果,这既不是为什么悖论“已经捕获了统计学家,数学家和哲学家超过一个世纪的哲学”(2014年:9)难以避免避免错误的困难,即使他们已经意识到这一点。 只有通过因果语义,才能证明当因果关系解释条件概率时,辛普森的逆转不会发生。 其次,他指向辛普森(1951)观察,判断汇总或非汇总人群是否与评估相关性有关取决于频率代表的故事。 珍珠通过表明一个人是否应该由概率决定,而是由产生概率的因果模型来划分群体,而是通过产生概率来占据这一故事 - 相对论。 这些因果模型单独通过条件概率来区分。

Bandyopadhyay等。 (2011)拒绝珍珠对悖论的因果分析,捍卫替代数学解释。 他们注意到,悖论可能似乎不会调用任何因果概念的悖论。 例如,假设我们采取表1中的比例,不要指男性和女性人群治疗/非治疗组中的回收/不回收患者的比例,而是在两个袋子中的大或小大理石中的红色和蓝色大理石的比例。 假设在任何一个袋子中,大型大理石的红色比比比小大理石更高。 Bandyopadhyay等。 似乎声称在这种情况下,发现这一点令人惊讶的是,我们要将袋子倒入一个盒子,小大理石比大的大型比例更高。 如果有悖论仍然表现出惊讶的话,尽管与因果关系无关,那么悖论的一般解释也不是因果的。[9]

Bandyopadhyay等。 将悖论重构为比率和比例:当它是这种情况时

a1 + b1的

b1的

c1 + d1的

d1的

的a2 + b2的

b2的

c2的+ d2

d2

- 作为成功比例作为治疗和控制在群体中的成功比例,比较表2 - 许多人期望这些平等在整体人群中保存:

a1 +的a2 + b1的+ b2的

b1的+ b2的

c1 + c2的+ d1的+ d2

d1的+ d2

正如我们从第2节所知的那样,这种情况不一定。 Bandyopadhyay等。 在此问题上与大学生进行了一项调查:只有12%给出了正确的答案,即通过自己的等式(6),不要约束等式的真实值(7)。

鉴于广泛的文献揭示了易受概率的看似错误的人才可能是概率的推理(例如,Kahneman,Slovic,&Tversky 1982),这一提案可以通过吸引力来解释辛普森的悖论概率推理中的错误是合理的。 然而,Bandyopadhyay等。 请勿指定此错误是什么。 或者,更具体地,他们不提出有效的推理形式,即在将猎物造成蚊子时,就会被错误地吸引悖论。 人们期望在合并的人口中保留群体的比率的事实只是表明人们被悖论欺骗。 当他们被欺骗时,它不会照亮他们正在制作的潜在错误。 在这个意义上,Bandyopadhyay等。 不要回答他们的第二个问题。 他们还通过自己入场,不提供(III)的一般答案。 他们认为这是他们的账户,因为他们认为(iii)的讨论应该从(i)和(ii)的讨论中离婚。

最近,Fitelson(2017)提出了辛普森悖论的确认理论解释。 他的分析依赖于识别鉴定,随着提出的(主体)的命题概率识别确认。 然而,“证据E确认假设H”的表单的陈述通常是关于背景知识k评估,这可能导致含糊不清。 特别是,Fitelon区分了确认声明的假定和联合读数。 在我们的跑步示例中,这些陈述如下:

假设(e提高了给定的概率k):如果一个是女性,那么接受治疗增加了一个人的恢复机会。

结合(e∧k提出了H的概率):作为一个女性治疗 - 接收器增加了一个人的恢复机会。

虽然假定和联合读数重合用于一些确认的账户(例如,Carnap的确认程度为条件概率),但它们可以产生不同的结果以确认为升值率。 对于我们的数据在表1中,假设读数是真的:如果一个人在女性亚群中,接受治疗而不是在对照组中增加了一个人的恢复机会。 然而,在联合读数上,声明是错误的:与男性或未收到治疗的一组个体相比,女性治疗接收者不太可能恢复(12/27)(12/27)(16/25)。 更重要的是,虽然假设读数允许关联逆转,但在联合读数上,它不能是作为女性治疗接收器并且是男性治疗接收器的情况提出了恢复的概率,但是作为一种治疗接收器Simpliciter没有(Fitelson 2017:300-302)。

Fitelson的确认 - 辛普森的悖论的理论解释是,在考虑学习个人性别的证据相关性时,就没有关注了确认声明的假定和联合读数之间的差异。 在联合阅读中,不能关联逆转,因为对于许多确认账户没有差异,因此人们错误地认为,即使他们依赖于假定阅读,人们也不会有这样的逆转。

Bandyopadhyay等。 和Fitelson声称,由于辛普森的悖论的制定本身并不吸引因果考虑,因此是一个优选为悖论找到一个非因果解释。 最终,它是一个经验问题,无论悖论是否可以被概率推理的错误算是,或者因为珍珠表明,由于对因果和概率推理的汇集来说。 解开这些假设的一个概念障碍是,例如,当第三变量m与处理t(即p(tμm)= p(t)不相关时,当第三变量m不相关时存在系统的关系,可以没有逆转(另见第2.2节中的定理)。 辛普森的悖论是否遵循了纯粹的概率解释? 不一定。 替代假设是,所述认知剂没有了解相关的条件概率,但确实知道m不是t的原因(p(t | d | p))= p(t)),抢占关联逆转的发生。 悖论的来源是否是因果的问题,不能纯粹通过吸引它所产生的数学条件来解决。 相反,这取决于实质性心理假设关于因果和概率假设在人类推理中的作用。[10]

关于悖论的经验证据表明,推理的推理(即,具有因果关系的第三种变量)通常很艰难,并且也没有考虑到其相关性,即使提供其相关性的突出线索(Fiedler,Walther,Freytag,&镍2003)。 其他研究指出了因果模型的促进作用,统计培训和高动力(Schaller 1992; Waldmann&Hagmayer 1995),但在辛普森的任务中遇到的推理们的重要困难使其不太可能悖论的正确分析问题很快将经验凭经验决定。

5.应用程序

5.1非分类数据和线性回归

等级点

平均(GPA)分布等级。口头SAT得分

1992 2002 1992 2002

一个+ 5%7%619 607

12%17%575 565

不14%17%546 538

b 52%47%486 479

c 17%11%434 424

所有等级。100%100%501。516

表4:从Rinott&Tam(2003)采取的美国高中的口头SAT分数数据。

辛普森的悖论不仅限于分类数据:它也可能出现基本数据并出现在标准模型中进行定量分析。 着名的例子是SAT分数分析 - 在美国的大学入学考试结果作为学生的高中级数(GPA)的职能。 数据在表4中给出:总结了1992年至2002年的总体平均升高,但对于每个GPA组(A + / A / ......),SAT平均值下降。 然而,这种现象非常自然。 一旦高中就有一点级通胀,每组就会失去最优秀的学生,以降低每组SAT平均水平。 但是,这当然是符合其总体平均值相等的,甚至从501到516上升,就像我们的数据集一样。 “学生变得更加愚蠢”的分层数据是错误的。 由于等级通胀等社会的发展影响了成绩分布和SAT分数,因此在学习时间随着时间的推移学习SAT得分时,人们不应在学生的GPA上(比较从第3.4节的后门标准)。[11]

具有智轴的y轴的图表,从70到130和咖啡杯x轴的试验日,从0到5的试验到5.虚线从约0杯和75 iq到5杯和130 iq的点。 8个点簇出现在线。

图4:一种线性回归模型,说明了SIMPSON的帕拉德曲线,用于双体基准数据。 每个值集群对应于单个人(重复测量)。

类似的例子如图4所示,适应了基耶特,弗兰提诺,沃尔多普和鲍尔斯泊贷(2013年)。 该图显示了智商测试在智智测试时的咖啡摄入量。 假设咖啡实际上略微降低了性能,因为它使饮酒者更加紧张,更少集中。 与此同时,咖啡摄入量与教育水平相同(建筑工人太忙于饮用咖啡!)和教育水平与测试表现相同。 当我们对不同个人反复测量性能时,我们认为他们的性能对他们的咖啡摄入量略有负面影响。 然而,(无条件)的性能作为咖啡摄入功能的回归模型表明误导性地,咖啡消耗强烈提高了性能! 混淆的原因是隐藏的协变量,教育水平对咖啡消费和表现的因果影响。 类似于第2节的结果,SIMPSON在线性模型的悖论可以通过回归系数的不等式(例如,PEARL 2013)之间的不等式形式地表征,其发生取决于所涉及的因果关系的性质变量。

5.2流行病学和荟萃分析

SIMPSON在各种形式的悖论引起了流行病学文献中的大量关注,因为它与确定和估算医疗治疗的效果规模以及暴露于风险因素的影响(例如,吸烟,酒精)对医学危害的影响。

随机对照试验方法(RCT)的方法之一是消除潜在混淆对一个人是否被治疗的影响。 这在第2.2节中描述为行均匀设计(用于与分类数据的实验)。 例如,如果我们确保治疗和对照组中的两种性别比例相同,我们都知道与那些第三种变量相同的相应逆转(AR),并且也不能发生逆转(AR),而且帕拉德悖论(AMP)也是不可能发生的排除了许多措施。

然而,(Log-)赔率比,流行病学研究中流行效果大小的衡量标准,显示出偏差行为。 每当第三种变量(=亚泊素属性)影响治疗水平(定理2.4,SAMUELS 1993)时,均匀地分配个人治疗和控制条件可可靠地产生赔率比率的赔率比。 因此,差距是特别棘手的关联度量。 格陵兰岛(1987)给出了与行均匀设计的所有子本群体相等的赔率比的指导典范,但在汇集数据时减半。

元分析问题,例如汇集各种研究,用于确定干预或风险因素的整体效果大小,对辛普森的悖论表示特别有趣的扭曲。 这些研究应该如何汇总? 朴素,有人可能会建议汇集来自所有研究的数据并将其视为一个大型研究。 如果研究人群非常相似并且数据来自RCT,则这可能会解决,其中治疗/控制比通常为50:50。 如果这确实如此,那么整个数据集是行均匀,避免了AR(以及大多数措施,放大器),如第2.2节所示。 但对于非实验数据,没有理由认为治疗/控制比例在研究中是相等的。 因此,池池时,效果方向的方向可以颠倒(例如,参见Hanley&Théria2000; Reintjes,Boer,Pelt,&Mintjes-de Groot 2000;Rücker&Schumacher 2008)。

没有汇集数据的另一个原因是,研究群体通常是异因的,并且基于数据的基础上计算关联强度(即,效果大小)可以偏向于最大样本大小的研究方向上的估计,而该研究中的患者的特征不需要作为一个整体代表目标群体。 特别是,虽然在研究水平的患者通常随机分配到治疗或对照组,但这不能说总数据(凯特2002)。 因此,通过在统计模型中引入统计模型的随机效应,基于对效果而不是汇集数据来进行适当的荟萃分析,而不是通过固定效果模型或(例如,如果研究群体是异因的)。 如何对流行病学研究进行荟萃分析的问题也纠结了协会或效应规模措施(Altman&Deeks 2002; Cates 2002; Greenland 1987),在第2.2节中讨论的问题。

5.3决策理论和肯定的原则

Blyth(1972)认为,辛普森的悖论还构成了决策理论的肯定原则,或者至少限制其范围大幅度的悖论。 这一原则应该在不确定性下指导理性决策,并被野蛮人说明如下:

确定原则(STP)“如果您肯定更喜欢G到F要么知道所获得的事件B,或者知道事件B没有获得,那么你肯定更喜欢G到F”。 (萨维奇1954:21-22)

在他所谓的反例中,Blyth将B和¬B表示为两种亚群(例如,两家不同的医院)。 假设治疗T与每个亚群的恢复r正相关。 在这种情况下,假设具有相同的赔率,我们宁可在治疗组(动作g)中的患者恢复而不是对对照组(动作f)的患者的恢复 - 另一种人是否处于B组或组。 因此,由于我们在亚群中更倾向于F至F,并且由于所有患者在B组或¬B中,我们也可以通过确定原理来推断,当我们不知道患者是否在B组或组¬B时,我们也可以推断g。 但是,如果发生联盟逆转,则错误地误认为:与上述情况完全兼容,即未处理过的患者的恢复总频率较高的情况更高! Blyth(1972:366)结束了

肯定的原则似乎不适用于f或g在f或g [...]内采取的任何行动的情况,允许在与[b]依赖的事件上顺序基础。

另见Malinas(2001)讨论。

(条件)信仰程度的程度仅代表(条件)令令赌注,Blyth的推理是引人注目的。 关联逆转意味着

p(r|t)<(r|¬t)

虽然

p(r|t,b)>(r|¬t,¬b)

p(r|t,b)>(r|¬t,¬b),

因此,对T上的条件下注(给定各种水平的B)偏好并不意味着对T的无条件下注的偏好(参见第2节)。 然而,野蛮肯定没有打算确定原则是概率的定理。 为了将其评估为指导正确决策的原则,我们必须考虑预测变量(这里:治疗/控制)的情况代表通过多条路径影响结果的适当行为。

Jeffrey(1982)召回萨维奇(1954:21)一名商人的例子,他们认为,无论民主或共和党候选人是否将赢得即将举行的市长选举,那么购买物业是有利的。 杰弗里的扭曲是,商人的效用不仅取决于物业交易,还取决于选举结果。 具体而言,购买该物业提出了他不喜欢的民主党人赢得的机会。 在这种情况下,他肯定会在选举后购买房产,无论结果如何,但他可能会在选举之前避免购买。

为了回应这一挑战,Jeffrey(1982:720)限制了肯定的原则,以案件

选择一个行为或另一个行为被认为没有促进或阻碍出于任何可能的自然状态的倾向,而这反映在来自行为的国家的概率独立。

也就是说,购买财产不应改变我们赢得选举的理性信仰程度。 珍珠(2016)考虑这一响应“矫枉过正”,注意到概率协会并不是表达因果倾向的好方法。 因此,他提出了一种因果肯定原则,我们在第3.4节中遇到了B发生,一个人倾向于。 斜体条件可确保分区变量不是干预的效果,从而规定了SIMPSON的逆转(参见第3.4节)。 请注意,珍珠的配方,但不是杰弗里的制定允许将(因果)确定的原则应用于观察数据,其中各国和行为可能在统计上依赖,而不会表明真实的因果关系(例如,由于自我选择效应)。

在此目的中,我们假设对某种情况相关的因果事实的了解。 其中代理人缺乏此类知识的情景提高了决策理论的额外并发症。 代理商通常无法确保所有的混淆都被占据了,因此重复逆转的可能性提出了关于何时应采取尚未经过实验测试的有希望的政策(Peters,Janzing,&Schölkopf2017:174-175)。 一个明显的问题是,代理人可能无法确定她的行动是否为干预(例如,在Newcomb方案中),因为它可能不明确她是否可以操纵一个变量,以使其独立于其先前的原因(Stern 2019)。 辛普森的悖论是否在此类决策背景下提出了新颖的困难尚未探索。 有关进一步讨论的决策理论和因果决策理论的条目。

(本章完)

相关推荐