科学研究与大数据(二)

这就提出了这样的问题:此类数据分析系统产生的知识是否是人类可以理解的,如果是的话,它会产生什么形式的可理解性。当然,从大数据中获取知识可能不会增加人类理解力,特别是如果理解力被理解为一种认知技能(de Regt 2017)。对于那些等待新型智能机器崛起的人来说,这可能不是问题,他们可能会以人类无法做到的方式掌握新的认知工具。但正如 Nickles、Nicholas Rescher (1984)、Werner Callebaut (2012) 和其他人指出的那样,即使在这种情况下,“我们也不会达到无视角的科学”(Nickles 即将出版)。虽然交织在这些系统中的人类历史和假设可能很难解开,但它们仍然会影响其结果。无论这些探究过程是否接受严格的审查,它们的目的、对地球上生命的影响和意义都应该接受。正如 Dan McQuillan(2018)所说,大数据分析的日益自动化可能会促进人们对新柏拉图主义机械形而上学的接受,在这种形而上学中,人工智能“发现”的数学结构将胜过对人类经验的任何吸引力。卢西亚诺·弗洛里迪 (Luciano Floridi) 在他对信息圈的分析中呼应了这一直觉:

信息和通信技术提供的巨大机遇伴随着理解它们并以正确方式利用它们的巨大智力责任。 (2014 年:七)

这些考虑与 Paul Humphreys 长期以来对计算机模拟认知不透明的批评(Humphreys 2004、2009)相似,特别是他对他所谓的基本认知不透明的定义:

当且仅当考虑到 X 的性质,X 不可能知道该过程的所有认知相关元素时,一个过程本质上对 X 来说是认知上不透明的。 (汉弗莱斯 2009:618)

关于科学中建模、计算和模拟的作用的大量哲学学术研究强调了认知不透明这一普遍问题的不同方面:例如,缺乏对正在建模的世界的具体部分的实验访问的影响(Morgan 2005)帕克 2009;测试模拟中使用的计算方法的可靠性的困难(Winsberg 2010;Morrison 2015);不透明性和正当性之间的关系(Durán & Formanek 2018);与计算分析中实现的机械推理相关的黑盒形式(Craver 和 Darden 2013;Bechtel 2016);以及关于计算方法和相关专业知识的内在局限性的争论(Collins 1990;Dreyfus 1992)。罗马·弗里格(Roman Frigg)和朱利安·雷斯(Julian Reiss)认为,这些问题并不构成探究性和建模性质的基本挑战,实际上,与科学中众所周知的传统方法论问题相结合(Frigg&Reiss 2009)。是否同意这一立场(Humphreys 2009; Beisbart 2012),大数据分析显然将计算和统计方法推向了极限,从而将边界突出显示到技术增强的人类能够了解和理解的技术。

4。(大)数据的性质

因此,大数据分析的研究阐明了研究过程的要素,这些要素无法通过求助于正式工具来完全控制,合理化甚至考虑。

一个这样的元素是以机器可读格式呈现经验数据所需的工作,该格式与手头的软件和分析工具兼容。需要选择,清洁和准备数据以进行统计和计算分析。将数据与噪声分开,聚类数据涉及的过程使其具有处理能力,并且整合不同格式的数据被证明是高度复杂且理论上结构化的,如James McAllister(1997,2007,2011)和Uljana Feest所证明的那样(2011年)在数据模式,Marcel Boumans和Leonelli对跨领域的聚类原则的比较以及James的比较Griesemer(即将到来的)和玛丽·摩根(Mary Morgan)的数据集对数据集的分析。 Suppes对他所说的数据生产和处理活动的“令人困惑的复杂性”感到非常关注,以至于他担心哲学家不会欣赏统计数据和确实可以帮助科学家将数据从这种复杂性中抽象出来的方式。他描述了大量的研究组件和活动,用于准备建模数据作为“实用方面”,其中包括“无涉及正式统计数据的实验设计的每一个直觉考虑”(Suppes 1962:258),并将其定位为最低的步骤他的模型层次结构(在其巅峰的另一端)是理论的模型。尽管最近努力恢复了归纳性建模和推理的方法(Mayo&Spanos 2009b),但许多哲学家都共享了这种方法,他们认为数据生产和处理过程是如此混乱,以防系统性分析。这解释了为什么与模型和理论相比,数据在科学哲学上的考虑很少。

但是,如何定义和确定数据的问题对于理解大数据在科学研究中的作用至关重要。现在让我们考虑两种哲学观点 - 代表性观点和关系观点,它们都与大数据的出现兼容,但重点是该现象的不同方面,对了解数据在推论推理中的作用的重要意义而且,正如我们将在下一部分中看到的,作为证据。代表性视图将数据解释为现实的可靠表示,这些表示是通过人与世界之间的相互作用产生的。无论研究目的如何,生成数据的交互都可以在任何社交环境中进行。示例范围从生物学家测量实验室中单元的圆周以及在Excel文件中指出结果,到计算班级学生人数并在课堂登记册中抄录的老师。这些交互中的数据算作是在世界的描述和/或测量过程中创建的对象。这些对象可以是数字(Excel文件)或物理(类寄存器),并形成与自然世界的特定互动的足迹。用Ian Hacking(1992)和Hans-JörgRheinberger(2011)的话说,这个足迹 - “痕迹”或“标记”,分别是分析研究和提取新见解的关键参考点。这就是数据构成经验知识合法基础的原因:数据的产生等同于可用于系统研究的世界“捕获”世界的特征。根据代表性方法,数据是具有固定且不可变化的内容的对象,其含义以现实的表示,需要通过适当的推论方法进行调查并逐步研究并揭示其含义。可以对单元格的数据进行建模,以测试形状与细胞的弹性,渗透性和弹性的相关性,从而产生证据基础,以了解细胞对细胞的信号传导和发育。可以通过在其他学校收集的类似数据来汇总班级学生的数据,从而产生证据基础,以评估该地区的学生的密度及其出勤率。

这反映了数据的直觉,尤其是当它们以数值测量的形式或图像(例如照片)形式出现时,以某种方式反映了它们创建的现象以记录下来的现象,从而提供了可以在受控条件下研究的现象的快照研究。它还反映了数据作为研究的“原始”产品的概念,它们与对现实的不介导的知识一样接近。这有意义地将真实值分配给数据是无可辩驳的证据来源,即如果发现数据支持给定索赔的数据,那么索赔就可以证实,至少只要没有其他数据被发现,反驳。此观点中的数据代表了获取知识和这种客观性的客观基础,即超越人类经验的知识的能力 - 是使知识经验的原因。这个立场与大数据对科学很有价值的想法非常吻合,因为它促进了知识的(广泛理解的)归纳性积累:通过可靠方法收集的数据会产生一系列准备好的事实,并且更多的事实是,更多的事实是彼此产生和联系,可以提取更多的知识。

长期以来,哲学家已经承认,数据并不代表自己,并且不同类型的数据需要不同的工具来解释和准备(Bogen 2009 [2013])。根据代表性观点,有正确且错误的解释数据方法,负责数据分析的人需要发现这些数据。但是,在大数据领域中,“正确”的解释是什么,其中一致将数据视为移动实体,至少在原则上可以以无数不同的方式和不同的目标重复使用?也许比科学史上的任何其他时间都多,当前的动员和重复使用大数据强调了数据解释的程度,以及随之而来的任何数据代表的程度 - 可能取决于概念,物质的不同之处和调查的社会条件。对大数据跨环境传播的分析表明,所涉及的人的期望和能力不仅决定了数据的解释方式,还决定了最初被视为“数据”的方式(Leonelli&Tempini即将出版)。数据作为具有固定和上下文独立含义的对象的代表性观点与这些观察结果不一致。

另一种方法是拥抱这些发现并将数据的概念完全作为现实的固定表示。在关系观点中,数据是被视为科学主张的潜在或实际证据的对象,至少在原则上可以审查并考虑到(Leonelli 2016)。分配给数据的含义取决于它们的出处,其物理特征以及这些特征的代表以及用于可视化它们和捍卫特定解释的动机和工具。因此,数据的可靠性取决于用于生产和分析的过程的信誉和严格性。数据的呈现;在数据库中识别,选择并包括(或排除)的方式;提供给用户重新定义的信息对产生知识并显着影响其内容至关重要。例如,数据格式的变化(显然参与数字化,数据压缩或档案过程)可能会对何处,何时以及将数据作为知识来源产生重大影响。

该框架承认,任何对象都可以用作基准,也可以根据情况停止使用,这取决于情况,这是用于从各种来源挑选和混合数据的大数据分析师所熟悉的考虑。关系观点还解释了如何根据研究的观点来解释它,同一数据集可以用来代表世界的不同方面(“现象”以詹姆斯·博格斯(James Bogen)和詹姆斯·伍德沃德(James Woodward,1988)为特征。从数据生产和分析的角度考虑科学询问的整个周期时,正是在数据建模的阶段,特定的表示值归因于数据(Leonelli 2019b)。

数据的关系观点鼓励人们注意数据的历史,突出显示它们的持续演变,有时甚至是根本性的变化,以及此功能对数据的功能的影响,以确认或驳斥假设。它解释了记录数据管理和转换过程的关键重要性,尤其是在数字渠道范围广泛的大数据中,并以不同的方式和格式进行了分组和解释。它还解释了对生产,策划和分析数据的专业知识的越来越多的认识,这对于对科学内外大数据的有效解释是必不可少的;以及关于数据共享的潜在影响以及有关数据的质量,有效性和安全性的科学问题的潜在影响之间的社会和道德问题之间的不可思议的联系(Boyd&Crawford 2012; Tempini&Leonelli,2018)。

根据人们对数据的看法,对大数据可以对科学做什么的期望会发生巨大变化。代表性的观点可容纳大数据的思想,以提供科学史上最全面,可靠和生成的知识基础,凭借其纯粹的规模和异质性。关系观点并没有做出这样的承诺,而是将重点放在任何给定点,如何和原因的这些数据中得出的推论。

5。大数据和证据

代表性和关系观点同意的一件事是数据作为知识主张或干预措施的经验证据的关键认识角色。尽管有关于证据本质的哲学文献(例如,Achinstein 2001; Reiss 2015; Kelly 2016),但是数据与证据之间的关系受到了较少的关注。可以说,这是由于许多哲学家对数据的代表性观点的隐性接受。在代表性观点中,在研究这些数据可以证明的内容之前,对数据的识别是:换句话说,数据是“ givens”,如该单词的词源所示,并且推论方法负责确定是否以及如何将可用于研究人员可用的数据用作证据以及什么。因此,哲学关注的重点是形式上的方法,以挑出错误和误导性的解释,以及概率和/或解释性的关系,这是无误地认为是证据体系和一个给定的假设之间的关系。因此,证据上的许多广泛哲学工作完全避免了“数据”一词。彼得·阿辛斯坦(Peter Achinstein)的开创性工作是一个很好的例子:它讨论了观察到的事实和实验结果,以及在哪些条件下,科学家是否有理由相信此类事实,但没有提及数据和相关的处理实践(Achinstein 2001)。

相比之下,在关系视图中,只有当对象被视为具有价值作为证据时,才能将其识别为基准。证据成为数据识别的类别,而不是像表示视图中的数据使用类别(Canali 2019)。因此,证据是数据概念的构成,不能与数据脱离。这涉及接受给定对象可以用作证据的条件,从而将其视为基准可能会发生变化;而且,如果这一证据角色完全停止,该对象将恢复为普通的非数据项目。例如,在偏远地区,游客拍摄的植物的照片可能会成为探究该特定地区植物形态的证据。然而,大多数植物的照片从未被视为对世界的特征和功能进行调查的证据,而那些随后可能被丢弃为无趣的人,或者与所提出的问题不再相关。

该视图解释了特征大数据使用的流动性和重新利用,并且有可能最初生成的目的是为了作为证据而生成的对象。考虑Mayo和Spanos的“证据最少的科学原则”,他们定义如下:

数据X0如果H的方法或过程很少或根本没有发现H中的缺陷,即使H是错误的,则它们提供了差的证据。 (Mayo&Spanos 2009b)

该原理与数据的关系视图兼容,因为它结合了用于生成和过程数据的方法可能没有针对假设h的测试的案例。在H中,在将数据用作H的证据时(我将回到下一节中假设在处理证据中的作用)。

关系观点还强调了数据格式和操纵与数据处理作为证据的实践的相关性,从而将注意力放在单独的数据对象的特征上,而将注意力集中在这些特征附加和启用的代理上。诺拉·博伊德(Nora Boyd)提供了一种概念化数据处理的方法,作为推论过程不可或缺的一部分,因此我们应该如何理解证据。她为此目的介绍了“证据线”的概念,她将其定义为:

一系列经验结果,包括数据收集的记录和所有随后的数据处理产品,这些数据处理在某些最终的经验约束过程中生成。 (Boyd 2018:406)

因此,她提出了一个证据的概念,该概念既包含数据和处理数据的处理方式,并且确实强调了评估数据时使用的辅助信息的重要性,其中包括

关于数据记录的出处以及将它们转换为它们的处理工作流程的元数据。 (2018:407)

当她结束时,

一系列证据及其相关的元数据构成了我所说的“丰富证据”。然后,证据语料库由许多如此丰富的证据组成。 (2018:407)

因此,关系观点促进了一种功能性和上下文主义的证据作为证据作为特定知识项目的认股权证的方式(可以是命题主张,以及诸如特定决策或行为方式/方式的行动/方式,操作)。这一与Reiss(2015)捍卫的证据的上下文观点,约翰·诺顿(John Norton)在归纳上吸引人的呼吁(2003年)的多种推理推理的纠结行为以及Hasok Chang的重点是理解证据证明索赔所需的认知活动(2012年)(2012 )。艾莉森·维利(Alison Wylie)以这些想法和斯蒂芬·图尔明(Stephen Toulmin)的开创性研究(1958年)为基础,在评估推论脚手架方面迈出了进一步的一步对于新的主张; Wylie 2017)需要理解其数据,以强大的方式来解释它们,并在面对新发现时修改解释。该分析使Wylie能够制定一组强大的证据推理的条件,其中包括证据链中的认知安全性,因果锚定和因果关系的数据,用于证据的数据,以及明确的表达,以明确表达校准的理由来校准。涉及的仪器和方法(Chapman&Wylie 2016; Wylie即将到来)。杰西·赖特(Jessey Wright)对神经科学家用来理解大脑功能磁共振成像的多种数据分析技术的评估也得出了类似的结论:

不同的数据分析技术揭示了数据中的不同模式。通过使用多种数据分析技术,研究人员可以产生局部稳健的结果。 (Wright 2017:1179)

Wylie和Wright的分析说明了与数据的关系方法如何促进对“良好证据”的规范理解,该方法是基于判断的依据,这是人类对情境化和评估证据主张的意义的特权。南希·卡特赖特(Nancy Cartwright)对哲学理论和政策方法的批评雄辩地表达了这种证据观点的优势,这些哲学理论和政策方法不承认证据推理的局部和背景性质。正如她指出的那样,

我们需要一个概念,可以为确定假设的可能性时要考虑的内容提供指导,而不是要求我们已经知道有关在各种证据上假设的概率的重要事实的概念。 (Cartwright 2013:6)

因此,她提出了一个不太限制的证据概念,考虑了结合和选择证据的困难,并允许对哪种证据类型的上下文进行判断(最适合手头的询问)(Cartwright 2013,2019)。赖斯对务实的证据理论的提议类似地旨在

认真对待科学实践[..],无论是就其对科学实践条件的知识提供了更大的知识,以及开发与执业科学家相关的见解的目标。 (Reiss 2015:361)

基于对数据的处理方式和汇总方式的研究,可以更好地表征数据和证据之间的关系,这对于满足这些需求可能会大有帮助。正如詹姆斯·伍德沃德(James Woodward)恰当地争论的那样,数据与主张之间的证据关系不是“纯粹的正式,逻辑或先验事项”(Woodward 2000:S172-173)。这再次不安,期望大数据分析可以使科学发现自动化并使人类判断多余。

6。大数据,知识和查询

现在让我们回到数据驱动的询问的想法,通常被认为是对假设驱动的科学的对立面(例如Hey等人,2009年)。凯文·埃利奥特(Kevin Elliot)及其同事提供了假设驱动的询问的简短历史(Elliott等人,2016年),强调了科学机构(包括资助计划和出版物场所)如何推动研究人员迈向波普利亚的概念,以此作为询问的概念,作为构成和测试的探究概念强有力的假设。大数据分析清楚地表明,可以说培根对假设在科学中的作用的理解。理论期望不再被视为推动探究过程和经验输入的过程被认为是确定研究方向和现象以及相关假设的主要基础。

(本章完)

相关推荐