科学研究与大数据(三)

对数据作为研究的核心组成部分的重点对科学知识最好的哲学观点之一构成了重大挑战。根据这种观点,我将标记为以理论为中心的科学观点,科学知识由对世界的真实信念合理。这些信念是通过旨在测试描述或解释现实方面的陈述的有效性和可靠性的经验方法获得的。因此,科学知识被概念化为固有的命题:算作在书籍和期刊上发表的索赔是什么,通常也将其作为假设驱动的询问的解决方案。这种观点承认科学研究中方法,数据,模型,工具和材料的重要性,但最终将其视为一端的手段:实现对世界的真实主张。赖兴巴赫(Reichenbach)在发现和理由的上下文中的开创性区别在于这一立场(Reichenbach 1938)。理论中心主义将研究组成部分(例如数据和相关的实践技能)视为对发现必不可少的研究组成部分,更具体地是科学工作的混乱,不合理的部分,涉及价值判断,反复试验,纠正,直觉和探索以及在其中现象的现象。被调查可能没有稳定。相比之下,索赔的理由涉及所进行的研究的合理重建,以便符合确定的推论推理规范。重要的是,在理由的背景下,仅明确地报告和讨论了支持利益主张的数据:其他所有内容(包括在探究过程中产生的绝大多数数据)都失去了发现的混乱背景。[2] [2]

最近的科学哲学,尤其是建模和实验的哲学,通过强调模型,方法和干预方式作为研究成果而不是简单工具的作用,并强调扩大对科学知识的哲学理解以包括在内的重要性,从而挑战了理论中心主义。这些要素与命题主张一起。大数据的兴起提供了另一个机会,可以重新理解科学知识的理解,不一定集中于理论并包括非属性组成部分 - 因此,在卡特赖特(Cartwright 2019)。解释以数据为中心方法的一种方法确实是将知识的概念作为能力,例如由约翰·​​杜威(John Dewey)等早期实用主义者促进的知识概念,而Chang最近被重新强调了,他们特别强调了它是更广泛的类别,在该类别中,对知识的理解 - 需要放置信息(Chang 2017)。

解释大数据兴起的另一种方法是,面对哲学上的批评的袭击,归因于归纳主义,这是对几个世纪以来无理论推理的措施。例如,乔恩·威廉姆森(Jon Williamson,2004:88)认为,自动化的进步,加上大数据的出现,对归纳主义主义的科学哲学具有合理性。沃尔夫冈·皮埃奇(Wolfgang Pietsch)同意这一观点,并提供了一个复杂的框架,以了解大数据和相关机器学习方法(例如决策树)促进了哪种归纳推理(Pietsch 2015)。在约翰·斯图尔特·米尔(John Stuart Mill)之后,他称这种方法变化诱导是在大数据方法和探索性实验中都具有共同点的,尽管前者可以处理大量变量(Pietsch 2015:913)。 Pietsch得出的结论是,可以通过确定哪些理论假设变化诱导作品(2015:910FF)来解决机器学习中理论上的问题。

其他人则不太倾向于将理论上的含义视为可以通过数据密集型方法来减轻的问题,而是将其视为经验探究过程的本构部分。回到有关观点和实验的广泛文献(Gooding 1990; Giere 2006; Radder 2006; Massimi 2012),Werner Callebaut强行强烈地认为,最复杂和标准化的测量体现了特定的理论观点,而且这与Big True and Ite and Ite and Ite and Ite and Ite and Ite and Ite and Ite and an数据(Callebaut 2012)。埃利奥特(Elliott)及其同事强调,概念化大数据分析是一种理论风险,鼓励人们对经验研究的态度不合适,作为一种

“捕鱼探险”很有可能导致胡说八道或虚假相关性,依靠在数据分析方面没有足够专业知识的科学家,并且产生了收集方式偏见的数据。 (Elliott等人2016:880)

为了解决遗传分析中相关的忧虑,肯·沃特斯(Ken Waters)提供了“理论知觉”探究的有用表征(Waters 2007),可以调用该探究以强调理论如何告知理论如何从大数据中提取有意义的模式,但确实如此。不一定确定数据密集型科学的起点或结果。这并不能解决理论实际扮演的角色的问题。 Rob Kitchin(2014)提议将大数据视为与假设脱离框架内的新假设产生方式相关联。 Leonelli更持怀疑态度的尝试匹配大数据和多样化的大数据方法,并具有特定类型的推论逻辑。她宁愿专注于大数据分析中工作中的理论仪器在多大程度上取决于有关如何订购和分类数据的概念决策,并提出这样的决定可以引起特定的理论形式,她称之为分类理论( Leonelli 2016)。

这些分歧表明,大数据引起了人们对知识和探究性质的多样化的理解,以及相互基于不同推论方法的复杂迭代。再次用艾略特及其同事的话说

试图在假设驱动的科学和数据密集型科学之间进行尖锐的区分是误导的。这些研究模式实际上不是正交的,并且通常在实际科学实践中交织在一起。 (Elliott等人2016:881,另请参见O’Malley等人,2009年,Elliott 2012)

7。因果关系和预测之间的大数据

另一个认识论辩论与对大数据的反思密切相关,涉及以数据为中心的探究形式出现的特定类型的知识,尤其是预测性和因果知识之间的关系。

大数据科学在可以支持的预测的规模和力量中被广泛视为革命性。也许毫不奇怪,对这一立场的哲学上复杂的防御源于数学哲学,Marco Panza,Domenico Napoletani和Daniele Struppa主张大数据科学,因为它在预测性的知识中造成了重要的转变,因此数学分析可以屈服,从而屈服,从而产生大数据科学。在更广泛的知识生产过程中。他们认为,大数据分析的全部目的是无视因果知识:

通过将数据自动拟合到模型的过程中找到答案,这些模型超出了问题本身的实际解决方案。 (Napoletani,Panza和Struppa 2014:486)

这种观点与对“理论之死”(Anderson 2008)和“相关性”(Mayer-Schoenberg and Cukier 2013)的简单普遍论述不同,因为它不能侧移与知识和概括有关的约束,这些约束是从大数据分析中提取。那不勒斯塔尼,潘扎和斯特鲁帕认识到,数学推理过度确定的经验输入的能力存在不可避免的紧张局势,以便为数据的任何可能解释提供理由。用他们的话

鉴于其发展过程的巨大潜在变异性,我们如何获得对历史现象的有意义的理解的问题。 (Napoletani等人2014:487)

他们的解决方案是澄清理解现象不是预测推理的目标,这是不可知科学的一种形式:“在没有结构化和一般理解的情况下进行预测和分析的可能性”(Napoletani等人,2011:12)。因此,算法合理性的不透明度成为其关键优点,也是基于大数据基于大数据的预测成功成功的原因。虽然“这种现象可能永远对我们的理解隐藏”(同上:5),但数学模型和算法在大数据上的应用仍然可以为明确指定的问题提供有意义和可靠的答案,这比较相似,这是相似的如果是错误的模型(Wimsatt 2007)。示例包括使用“强迫”方法,例如正则化或扩散几何形状来促进从混乱的数据集中提取有用的见解。

这种观点与将科学理解作为科学的关键目的的说法是不一致的(de regt 2017),直觉是研究人员最终对此感兴趣的是

通过机器学习技术生成的不透明数据模型是否将输入和输出之间发现的关系算作解释。 (Boon 2020:44)

例如,在生物学哲学中,人们可以充分认识到,大数据有助于有效提取模式和趋势,并且能够建模和预测生物或生态系统在未来可能如何表现非常重要,尤其是在更多内部应用领域,例如生物医学或保护科学。同时,研究人员有兴趣了解观察到的相关性的原因,并通常将预测模式作为启发式方法探索,发展和验证有关实体和过程结构和功能的因果主张。 Emanuele Ratti(2015)认为,在癌症基因组学经常使用的全基因组关联研究中的大数据挖掘实际上可以支撑机械推理,例如,通过支持消除性推断以开发机械性假设并帮助探索和评估用于分析的概括来分析和分析概括。数据。

同样,Pietsch(2016)提出使用变分归纳作为一种方法来建立大数据模式之间的因果关系,重点关注哪些分析策略可以可靠地预测和有效地操纵现象。

通过对流行病学数据来源和处理的研究,Stefano Canali 相反强调了从大数据分析中得出机械论主张的困难,特别是在数据多种多样且体现了不兼容的观点和方法论的情况下(Canali 2016,2019)。与此相关的是,组织大数据的语义和逻辑挑战使人们有理由怀疑从这些数据中提取的因果关系的可靠性。就物流而言,拥有大量数据并不等于拥有全部数据,培养全面性的错觉是一种危险且可能具有误导性的策略,特别是考虑到在开发和应用高数据以外的数据管理标准时遇到的挑战。 -“组学”方法的吞吐量结果(另见下一节)。对数据的偏向性和可靠性的持续担忧反映在数据库管理者在使数据库用户能够评估这些属性方面的关注上;研究人员本身(特别是在生物和环境科学领域)对评估互联网上数据的质量给予了重视(Leonelli 2014,Fleming et al. 2017)。在语义方面,我们回到了上一节中讨论的数据分类作为大数据分析理论支架的作用。对数据进行排序和可视化的分类学努力为从这些数据中提取的因果推理提供信息(Sterner & Franz 2017),并且本身可以构成一种基于比较推理的自下而上的方法,用于为数据模型分配意义,特别是在目前还没有对所调查现象的错误理论或解释(Sterner 2014)。

许多关于从大数据中提取的因果知识和预测知识之间关系的哲学工作都来自生命科学哲学,这并非巧合,在生命科学哲学中,公理化理论的缺乏引发了对推论中理论形式和功能多样性的复杂观点。此外,生物数据的内容和格式都是异构的;推理。经过策划和重新调整目的,以满足高度不同和分散的认知社区的需求;并给策展人带来了跟踪复杂、多样和不断发展的有机结构和行为的具体挑战,这些结构和行为与不断变化的环境的关系很难以任何稳定性来确定(例如,Shavit & Griesemer 2009)。因此,在这个领域,实验研究的一些核心方法和认知问题——包括探索性实验、抽样和因果机制的探索——仍然是以数据为中心的探究的关键部分。

8. 事实/价值的区别

在本文的开头,我将“价值”列为大数据的主要特征,并指出评估程序在识别、处理、建模和解释数据作为证据方面的关键作用。识别和协商不同形式的数据价值是大数据分析不可避免的一部分,因为这些评估实践决定了哪些数据可以在什么条件下以及出于什么目的向谁提供。研究人员选择将哪些数据(和数据源)视为可靠的数据(和数据源)不仅与他们的研究目标和解释方法密切相关,而且与他们的数据生产、打包、存储和共享方法密切相关。因此,研究人员需要考虑他们的数据对自己和他人的未来研究可能有什么价值,以及如何增强这种价值——例如通过决定公开哪些数据、如何公开、何时公开以及以何种格式公开;或者,每当处理公共领域已有的数据(例如社交媒体上的个人数据)时,就是否应该共享和使用数据以及如何共享和使用数据做出决定。

无论人们如何概念化价值实践,很明显,它们在数据管理和分析中的关键作用阻止了价值和“事实”(理解为数据为其提供证据依据的命题主张)之间的轻易区分。例如,考虑一位研究人员,他既重视开放性以及广泛数据共享的相关实践,又重视科学严谨性,这需要严格监控数据解释条件的可信度和有效性。大数据动员和分析的规模和方式在这两种价值观之间造成了紧张。虽然对开放性的承诺可能会激发人们对数据共享的兴趣,但对严谨性的承诺可能会阻碍它,因为一旦数据在网上自由流通,就很难控制它们的解释方式、由谁以及使用哪些知识、技能和工具研究人员如何应对这种冲突会影响哪些数据可用于大数据分析以及在哪些条件下可用。同样,对不同数据集进行三角测量和比较的程度取决于产生数据和相关分析工具的知识产权制度。公共资助的研究人员通常无法获得私有数据;大数据分析中使用的许多算法、云系统和计算设施只有那些拥有足够资源购买相关访问和培训的人才能访问。因此,无论大数据分析得出什么结论,都很大程度上取决于影响数据池及其分析的社会、金融和文化约束。

考虑到现有对事实/价值区别的哲学批判(例如,Douglas 2009),以及关于科学价值的现有文献——例如海伦·朗吉诺(Helen Longino)对本构性和正如她 1990 年出版的《科学作为社会知识》一书中所提出的,情境价值观也很可能适用于这种情况。同样,众所周知,研究的技术和社会条件强烈影响其设计和结果。就大数据而言,尤其令人担忧的是,由于对数据分析能力的过度预期,人们会隐藏或回避支持大数据提取的方法、基础设施和算法的估值选择。

考虑使用高通量数据生成工具,该工具使研究人员能够轻松生成适合计算分析的格式的大量数据。就像其他技术一样,研究人员有强烈的动机采用此类工具来生成数据;即使此类工具不是进行调查的良好手段或什至不适当的手段,也可能会这样做。 Ulrich Krohs 使用术语“便利实验”来指代所采用的实验设计,不是因为它们是进行特定研究的最合适的方式,而是因为它们很容易且广泛可用,因此是研究人员追求的“便捷”方式他们的目标(Krohs 2012)。

对便利性的诉求可以扩展到数据密集型分析的其他方面。并非所有数据都同样容易通过现有算法以数字方式收集、传播和链接,这使得某些数据类型和格式比其他数据类型和格式更方便进行计算分析。例如,研究数据库通常显示资源丰富的实验室在研究传统中的输出,这些实验室处理“易于处理的”数据格式(例如“组学”)。事实上,现有的资源、基础设施和技能分配决定了研究用大数据的生产、传播和使用方面的高度不平等。拥有大量财务和技术资源的大公司正在引领数据分析工具的开发和采用,使世界各地的许多公共资助的研究成为该领域创新的接收端。人们普遍将数据革命视为透明、民主和社会平等的预兆,与此相反,能够访问和使用数据技术的人和不能访问和使用数据技术的人之间的数字鸿沟继续扩大。这种划分的结果是与某些分组和地理位置相关的数据稀缺,这再次限制了可用数据资源的全面性。

在庞大的大数据基础设施生态系统中,很难跟踪这种扭曲并评估其对数据解释的重要性,特别是在通过诉诸不同价值观而构建的异构数据源混合在一起的情况下。因此,对方便的数据集和分析工具进行系统聚合通常会产生一个大数据池,其中相关的来源和形式的偏差无法定位和解释(Pasquale 2015;O'Neill 2016;Zuboff 2017;Leonelli 2019a)在这样的背景下,关于事实与价值分离的争论,甚至是对知识中认知价值和非认知价值的作用的明确区分生产——在不损害整个大数据科学大厦的情况下变得非常难以维护。然而,考虑到这种方法已经渗透到所有领域的研究的程度,可以说,在不对科学本身的合法性提出质疑的情况下批评大数据科学的价值结构是不可能的。更具建设性的方法是接受大数据科学在多大程度上扎根于人类的选择、兴趣和价值观,并确定这如何影响关于知识、真理和方法的哲学观点。

9. 大数据风险和数据科学伦理

最后,至少要考虑大数据研究带来的一些风险和相关伦理问题,这一点很重要。正如上一节已经提到的,对强大机构或公司收集的大数据的依赖风险引起了重大的社会关注。与将大数据和开放数据视为民主社会参与研究的先兆的观点相反,科学研究的管理和资助方式并没有受到大数据的挑战。相反,某些类型的数据(例如个人数据)的日益商品化和巨大价值与不同国家、人口群体和科学界之间权力和知名度不平等的加剧有关(O'Neill 2016;Zuboff 2017)迪纳齐奥和克莱因,2020)。那些不仅可以访问数据而且可以使用数据的人之间的数字鸿沟正在扩大,导致从数字鸿沟状态发展到“数据鸿沟”状态(Bezuidenout et al. 2017)。

此外,数据私有化对研究领域及其产生的知识产生了严重影响。首先,它影响传播哪些数据以及传播哪些期望。企业通常只发布他们认为商业价值较低且需要公共部门协助解释的数据。这对可在线访问的数据的来源和类型造成了另一种扭曲,而更昂贵和复杂的数据则被保密。甚至鼓励公民(包括研究人员)与数据库和数据解释网站互动的许多方式也往往会鼓励参与,从而产生进一步的商业价值。社会学家最近将这种类型的社会参与描述为一种剥削形式(Prainsack & Buyx 2017;Srnicek 2017)。反过来,这些利用数据的方式增强了其经济价值而不是科学价值。当涉及从事分析工作的公司之间的个人数据交易时,数据作为商业产品的价值(包括对访问某些数据有助于开发新产品的速度和效率的评估)通常优先于科学数据。数据的代表性和可靠性以及分析方式等问题。这可能会导致做出的决策在科学上存在问题,或者根本没有兴趣调查所做假设和所使用流程的后果。这种缺乏兴趣很容易转化为对歧视、不平等和所考虑数据中潜在错误的无知。这种类型的无知具有高度的战略性和经济生产力,因为它使得数据的使用无需担心社会和科学影响。在这种情况下,对数据质量的评估缩减为对数据对客户所需的短期分析或预测的有用性的评估。该系统没有任何激励措施来鼓励评估数据分析的长期影响。这里的风险在于,数据商业伴随着数据与其背景之间日益加剧的分歧。随着时间的推移,对数据传输历史、其情感或科学价值的多元性以及对其起源的重新评估的兴趣往往会随着时间的推移而消失,取而代之的是对数据财务价值的日益增长的把握。

(本章完)

相关推荐