科学研究与大数据(一)
1. 什么是大数据?
2. 推断数据模式:统计和软件的作用
3. 人类与人工智能
4.(大)数据的本质
5. 大数据和证据
6. 大数据、知识与探究
7. 因果关系与预测之间的大数据
8. 事实/价值的区别
9. 大数据风险和数据科学伦理
10. 结论:大数据和良好的科学
参考书目
学术工具
其他互联网资源
相关条目
1. 什么是大数据?
我们正在见证社会生活的逐步“数据化”。人类活动以及与环境的相互作用正在被越来越有效地监测和记录,产生巨大的数字足迹。由此产生的“大数据”是研究的宝库,越来越复杂的计算工具正在开发中,以从这些数据中提取知识。一个例子是使用从癌症患者获取的各种不同类型的数据,包括基因组序列、生理测量和个体对治疗的反应,以改善诊断和治疗。又比如,整合交通流量、环境地理条件、人类行为等数据,为无人驾驶汽车制定安全措施,以便在遇到不可预见的事件时(比如在寒冷的天气里,一个孩子突然冲到街上) ,可以及时分析数据以识别并生成适当的响应(汽车充分转向以避开儿童,同时也最大限度地减少在冰上打滑和损坏其他车辆的风险)。另一个例子是对特定人群营养状况和需求的了解,可以通过将商业服务(例如超市、社交媒体和餐馆)产生的食品消费数据与来自公共卫生和社会服务的数据相结合来提取,例如血液检查结果和与营养不良相关的住院摄入量。在每一种情况下,数据和相关分析工具的可用性都为研究和新形式探究的发展创造了新的机会,人们普遍认为这对整个科学产生了变革性的影响。
反思此类案例对研究的哲学理解的重要性,一个有用的起点是考虑“大数据”一词在当代科学话语中的实际含义。定义大数据的方法有多种(Kitchin 2014,Kitchin & McArdle 2016)。也许最直接的表征是以数字形式生成并可以通过计算工具进行分析的大型数据集。因此,与大数据最常见的两个特征是容量和速度。卷是指用于归档和传播数据的文件的大小。速度是指生成和处理数据的速度。研究创建的数字数据体正在以惊人的速度增长,而且人类认知系统可能无法掌握,因此需要某种形式的自动分析。
然而,容量和速度也是大数据最有争议的特征。所谓的“大容量”或“高速度”取决于快速发展的数据生成、存储、传播和可视化技术。基因组测序和基因表达数据的高通量生产、存储和传播就是例证,其中数据量和速度在过去二十年中急剧增加。同样,当前对大数据的理解是“任何无法在 Excel 电子表格中轻松捕获的数据”,随着新的分析软件的建立,势必会迅速发生变化,使用电子表格捕获数据的想法也将成为过去。此外,数据大小和速度没有考虑研究人员使用的数据类型的多样性,其中可能包括不是以数字格式生成的数据或其格式不易计算处理的数据,这强调了数据来源的重要性(即,数据生成和传播的条件)到推理和解释的过程。如下所述,对数据物理特征的强调掩盖了数据解释对数据使用环境的持续依赖,包括特定的查询、价值观、技能和研究情况。
另一种方法是不根据其物理属性来定义大数据,而是根据它们可以做什么和不能做什么来定义大数据。在这种观点中,大数据是从各种不同来源收集的数据的异构集合,通常(但并非总是)采用适合算法处理的数字格式,以生成新知识。例如,boyd 和 Crawford (2012: 663) 将大数据视为“搜索、聚合和交叉引用大型数据集的能力”,而 O'Malley 和 Soyer (2012) 则重点关注询问和相互关联不同类型数据的能力,目的是能够将它们作为单一证据进行查阅。上面给出的变革性“大数据研究”的例子都很容易符合这种观点:在这些情况下,并不是因为有大量数据可用,而是因为大量数据可以被调动起来。来自多种来源(医疗记录、环境调查、天气测量、消费者行为)。这个帐户解释了与大数据相关的其他特征“v-words”,包括:
数据的格式和用途多种多样,可能包括动物组织样本、自由文本观察、湿度测量、GPS 坐标和血液测试结果等不同的对象;
真实性,理解为大数据的质量和可靠性能够得到保证的程度。高容量、高速度和多样性的数据存在包含不准确、错误和无法解释的偏差的巨大风险。如果缺乏适当的验证和质量检查,这可能会导致知识主张的证据基础具有误导性或完全错误(Floridi & Illari 2014;Cai & Zhu 2015;Leonelli 2017);
有效性,表明针对预期用途选择了适当的数据。选择特定数据集作为证据基础需要充分且明确的理由,包括利用相关背景知识来识别该背景下的数据(例如,Loettgers 2009,Bogen 2010);
波动性,即尽管档案技术发生变化,数据仍然可用、可访问和可重新解释的程度。鉴于用于生成和分析数据的格式和工具有过时的趋势,以及更新数据基础设施以保证长期数据访问所需的努力(Bowker 2006;Edwards 2010;Lagoze 2014;Borgman 2015),这一点意义重大。 );
价值,即社会不同阶层赋予大数据的多方面意义,这既取决于数据的预期用途,也取决于历史、社会和地理环境(Leonelli 2016,D'Ignazio 和 Klein 2020)。除了科学价值之外,研究人员还可以根据数据的预期用途以及使用数据的历史、社会和地理环境,赋予数据经济、道德、声誉甚至情感价值。参与管理和资助研究的机构也有评估数据的方法,这可能并不总是与研究人员的优先事项重叠(Tempini 2017)。
该功能列表虽然并不详尽,但强调了大数据不仅仅是“大量数据”。大数据的认知力量在于它们能够在不同的研究群体、方法论途径和理论框架之间架起桥梁,而这些研究群体、方法论途径和理论框架由于概念碎片化、社会障碍和技术困难而难以联系起来(Leonelli 2019a)。事实上,对大数据的吸引力往往来自于技术、概念和社会上同时具有挑战性的调查情况,以及现有方法和资源已被证明不足或不足的情况(Sterner & Franz 2017;Sterner, Franz, & Witteveen 2020)。
这种对大数据的理解植根于研究人员处理大型复杂数据集的悠久历史,天文学、气象学、分类学和人口统计学等领域就是例证(参见 Daston 2017 年收集的数据集;Anorova 等人 2017 年;Porter & Chaderavian) 2018;以及 Anorova 等人 2010,Sepkoski 2013,Stevens 2016,斯特拉瑟 2019 年等)。同样,生物医学研究,特别是流行病学、药理学和公共卫生等子领域,有着处理大量、高速、多样性和波动性数据的广泛传统,其有效性、准确性和价值经常受到患者、政府的协商和质疑。 、资助者、制药公司、保险公司和公共机构(Bauer 2008)。在整个二十世纪,这些努力刺激了收集、排序、可视化和分析数据的技术、机构和工具的发展,例如:标准分类系统和格式;敏感数据管理和安全的指南、工具和立法;以及长期集成和维持数据收集的基础设施(Daston 2017)。
这项工作最终将计算技术、建模工具和统计方法应用于大数据(Porter 1995;Humphreys 2004;Edwards 2010),由于监督学习、模型拟合、深度神经网络、搜索和优化方法、复杂的数据可视化以及现在与人工智能相关的各种其他工具。其中许多工具都基于算法,其功能和结果根据特定数据样本进行测试(这一过程称为“训练”)。这些算法被编程为从每次与新数据的交互中“学习”:换句话说,它们有能力根据输入系统的新信息来改变自己,从而更加适应它们正在分析的现象并改进它们的算法。预测未来行为的能力。这种变化的范围和程度取决于用于构建算法的假设以及相关软件和硬件识别、访问和处理与所讨论的学习相关的信息的能力。然而,这些系统存在一定程度的不可预测性和不透明性,可能会发展到违背人类理解的程度(更多内容见下文)。
还出现了新的机构、通信平台和监管框架来收集、准备和维护此类用途的数据(Kitchin 2014),例如各种形式的数字数据基础设施、旨在协调和改善全球数据格局的组织(例如,研究数据联盟),以及新颖的数据保护措施,例如欧盟于 2017 年推出的《通用数据保护条例》。这些技术和机构共同提供了在更广泛的范围内组装和解释数据的机会,同时也有望在数据分析中提供更精细的粒度。 [1]它们使研究人员能够将自己的发现与世界各地学术领域内外无数其他人的发现联系起来,从而扩大了任何调查的范围。通过增强数据的移动性,它们有助于重新利用数据来实现最初生成数据时可能无法预见的各种目标。通过改变数据在研究中的作用,它们本身就提高了其作为有价值的研究成果的地位。这些技术和方法论的发展对数据、推理过程和科学知识的哲学概念化,以及研究的进行、组织、管理和评估方式具有重大影响。我现在转向这些哲学问题。
2. 推断数据模式:统计和软件的作用
大数据通常与数据驱动研究的理念联系在一起,其中学习是通过数据的积累和应用方法从这些数据中提取有意义的模式来实现的。在数据驱动的探究中,研究人员应该使用数据作为归纳推理的起点,而不依赖于理论先入之见——倡导者将这种情况描述为“理论的终结”,与理论驱动的方法相反,在理论驱动的方法中,研究包括检验假设(Anderson 2008,Hey et al. 2009)。至少原则上,大数据构成了有史以来最大的数据池,因此是搜索相关性的有力起点(Mayer-Schönberger & Cukier 2013)。对数据驱动方法的可信度至关重要的是用于从数据推断模式并评估这些模式是否有意义以及首先可能涉及什么“意义”的方法的有效性。因此,一些哲学家和数据学者认为
大数据最重要和最显着的特征是它对统计方法和计算分析手段的使用(Symons & Alvarado 2016:4)
例如机器学习工具、深度神经网络和其他“智能”数据处理实践。
强调统计数据作为从数据中提取的模式的有效性和可靠性的关键判定因素并不新鲜。逻辑经验主义的倡导者寻找逻辑上无懈可击的方法来确保数据推理的安全性和合理性,他们发展概率理论的努力与二十世纪上半叶科学中统计推理的巩固同时进行(Romeijn 2017) 。 20 世纪 60 年代初,Patrick Suppes 通过他在数据模型的产生和解释方面的工作,在统计方法和科学哲学之间建立了开创性的联系。作为一位深入实验实践的哲学家,Suppes 对数据分析的关键统计程序(例如数据缩减和曲线拟合)的手段和动机感兴趣。他认为,一旦数据为统计建模做好了充分的准备,所有激发数据处理的关注点和选择就变得与它们的分析和解释无关。这启发他区分理论模型、实验模型和数据模型,并指出这些不同的探究组成部分受不同的逻辑支配,不能以直接的方式进行比较。例如,
任何给定实验的数据模型的精确定义都要求存在实验程序意义上的数据理论,以及所研究现象的经验理论的普通意义上的数据理论。 (苏佩斯 1962:253)
Suppes 将数据模型视为必然的统计数据:即对象
旨在合并有关实验的所有信息,这些信息可用于理论充分性的统计测试。 (苏佩斯 1962:258)
他对数据模型的正式定义反映了这一决定,将同质性、平稳性和顺序等统计要求确定为识别数据模型 Z 并评估其充分性的最终标准:
Z 是实验 Y 数据的 N 倍模型当且仅当存在集合 Y 和 Y 子集上的概率测度 P,使得
是
=
⟨
是
,
磷
⟩
�
=
⟨
�
,
�
⟩
是实验理论的模型,Z是Y的N元组,Z满足同质性、平稳性和有序性的统计检验。 (1962:259)
这种对数据模型的分析将统计方法描述为数据和理论之间的关键渠道,因此也是推理的关键组成部分。
在随后的哲学著作中,广泛提倡将统计作为讨论数据推理的切入点。著名的例子包括黛博拉·梅奥(Deborah Mayo),她在她的《错误与实验知识的增长》一书中问道:
数据模型中应该包含什么?最重要的约束是需要允许对拟合度进行统计评估(预测和实际数据之间)的数据模型; (梅奥 1996:136)
Bas van Fraassen 也接受了数据模型的概念,即“总结数据中发现的相对频率”(Van Fraassen 2008:167)。密切相关的是强调统计作为检测数据集中与特定假设相关的错误的手段,其中最突出的是 Mayo 和 Aris Spanos 倡导的错误统计推理方法(Mayo & Spanos 2009a)。这种方法与大数据研究中对数据分析计算方法的重视相一致,并支持这样的观点:推理工具和方法越好,从数据中提取可靠知识的机会就越大。
然而,在解决大数据计算分析带来的方法论挑战时,统计专业知识需要辅以人工智能相关算法的训练和应用方面的计算能力,包括机器学习以及其他数学程序。数据(Bringsjord 和 Govindarajulu 2018)。例如,考虑过度拟合的问题,即数据集中模式的错误识别,机器学习算法采用的训练技术可能会大大放大这种问题。无法保证经过训练可以从给定数据集中成功推断模式的算法在应用于其他数据时也会同样成功。解决这个问题的常见方法涉及数据和训练方法的重新排序和分区,以便可以比较相同算法对数据不同子集的应用(“交叉验证”),结合来自不同训练的算法(“集成”)或使用超参数(其值在数据训练之前设置的参数)来准备用于分析的数据。
处理这些问题反过来又需要
熟悉所讨论的数学运算、它们在代码中的实现以及此类实现背后的硬件架构。 (洛瑞 2017:3)
例如,机器学习
旨在构建能够开发自己的数据分析或描述方法的程序,而不是采用现成的解决方案,例如基于规则的演绎或更传统的统计回归。 (洛瑞 2017:4)
换句话说,统计学和数学需要由编程和计算机工程专业知识来补充。因此,技能的集合产生了一种特定的认识论研究方法,其广泛的特点是强调探究手段作为研究目标和产出的最重要驱动力。 Sabina Leonelli 将这种方法描述为以数据为中心,“更多地关注研究进行的过程,而不是最终结果”(Leonelli 2016:170)。按照这种观点,程序、技术、方法、软件和硬件是探究的原动力,也是对其结果的主要影响。约翰·西蒙斯(John Symons)和杰克·霍纳(Jack Horner)更具体地关注计算系统,认为大部分大数据研究都是由软件密集型科学而不是数据驱动的研究组成:也就是说,科学依赖于软件的设计、开发、部署和使用,因此包含软件特有的程序、推理类型和错误,例如尝试将现实世界的量映射到离散状态机或近似数值运算时产生的问题(Symons & Horner 2014: 473)。软件密集型科学可以说得到了算法理性的支持,算法理性侧重于算法的可行性、实用性和效率,通常通过参考具体的探究情况来评估(Lowrie 2017)。
3. 人类与人工智能
算法在数学结构和支撑概念承诺方面存在巨大差异,需要对数据科学和相关应用中使用的计算工具和软件的具体细节进行更多的哲学工作——计算机科学哲学中的新兴工作提供了一种极好的方法。向前(特纳和安吉斯 2019)。然而,很明显,给定的算法是否成功应用于手头的数据取决于无法通过统计甚至计算方法控制的因素:例如,数据的大小、结构和格式、数据的性质用于划分数据的分类器、决策边界的复杂性以及调查的目标。
在数学哲学的有力批评中,克里斯蒂安·卡鲁德和朱塞佩·隆戈认为,更多数据必然会产生更多信息的假设存在一个根本问题:
非常大的数据库必须包含任意相关性。这些相关性的出现只是由于数据的大小,而不是数据的性质。 (卡鲁德和隆戈 2017:595)
他们的结论是,大数据分析根据定义无法区分虚假相关性和有意义的相关性,因此对科学研究构成威胁。一个相关的担忧,有时被数据科学家称为“维数诅咒”,涉及给定数据集的分析在复杂性和所考虑的变量数量方面可以扩大到何种程度。众所周知,例如,在对样本进行分类时考虑的维度越多,可以准确概括这些维度的数据集就越大。这表明,一方面数据的数量和质量与另一方面需要数据作为证据的研究问题的类型和广度之间存在持续的、紧密的依赖关系。
确定推理方法和数据之间的匹配性需要高水平的专业知识和情境判断(机器学习中的这种情况被称为“没有免费的午餐定理”)。事实上,过度依赖软件进行推理和数据建模可能会产生非常有问题的结果。 Symons 和 Horner 指出,在大数据分析中使用复杂的软件会使误差幅度变得不可知,因为没有明确的方法来对它们进行统计测试(Symons & Horner 2014:473)。具有高条件性的程序的路径复杂性对标准纠错技术施加了限制。因此,除了测试代码中的所有路径之外,没有有效的方法来表征软件中的错误分布,但由于代码的复杂性,这在绝大多数情况下是不现实且难以处理的。
在大数据分析中有效、负责任地使用人工智能工具,而不是充当替代品,需要对人类智能进行战略性运用,但要做到这一点,应用于大数据的人工智能系统需要能够接受审查和修改。情况是否如此,以及谁最有资格进行这种审查,都存在争议。托马斯·尼克尔斯 (Thomas Nickles) 认为,用于数据分析的日益复杂和分布式算法遵循了长期科学尝试超越人类认知极限的脚步。由此产生的认知系统可能不再为人类所理解:一种“外星智能”,其中“人类的能力不再是认知成功的最终标准”(尼克尔斯即将出版)。这种不受约束的认知有望从以前难以想象的数据量中进行强大的推理。然而,将这种推理置于情境中并进行审查的困难使人们对结果的可靠性产生了怀疑。不仅是机器学习算法变得越来越难以评估:除了编程代码的复杂性之外,计算数据分析还需要一个由分类、模型、网络和推理工具组成的整个生态系统,这些工具通常具有不同的历史和目的,并且与彼此之间以及它们一起使用时的效果还远未被理解,而且很可能无法追踪。