科学研究与大数据(完结)
数据源和聚合工具的多样性也会带来风险。数据环境的复杂性使得确定基础设施的哪些部分需要更新或因新的科学发展而受到质疑变得更加困难。当考虑到科学研究各个领域的数据库数量时,情况会变得更糟,每个数据库都包含影响数据流通和互操作性的假设,并且通常不会以可靠和定期的方式更新。为了提供所涉及的数字的概念,著名的科学出版物《核酸研究》每年都会出版一期关于与分子生物学相关的新数据库的特刊,其中包括:2015 年 56 个新基础设施、2016 年 62 个、2017 年 54 个和 82 个2018 年。这些只是生命科学领域每年开发的数百个数据库中的一小部分。这些数据库依赖短期资金的事实意味着,尽管它们早已失效,但仍有越来越多的资源可供在线查阅。对于信任数据库的数据库用户来说,如果不检查数据库是否得到主动维护,这种情况并不总是可见。这些基础设施什么时候会变得过时?考虑到管理方式的差异以及识别和比较其先决条件、用于构建它们的理论和脚手架的挑战,编织越来越广泛的相互依赖的基础设施会涉及哪些风险?其中风险之一是保守主义猖獗:坚持回收旧数据,随着时间的推移,其特征和管理元素变得越来越模糊,而不是鼓励生产具有专门响应用户需求和情况的特征的新数据。在生物学和医学等研究生物的学科中,因此根据定义不断发展和发展,对旧数据的这种信任尤其令人担忧。例如,十年前、二十年前甚至一百年前收集的真菌数据并不能可靠地解释同一物种真菌现在或未来的行为(Leonelli 2018)。
卢西亚诺·弗洛里迪(Luciano Floridi)所谓的信息圈(数字技术的引入正在改变世界的方式)的研究人员正在意识到大数据的破坏性潜力,以及迫切需要集中精力积极、周到地管理和使用数据。改善人类状况的方法。用弗洛里迪自己的话说:
信息通信技术带来了巨大的机会,然而,这需要理解这项技术并以最适当的方式使用它的巨大智力责任。 (Floridi 2014:vii;另见英国科学院和皇家学会 2017)
鉴于这些发现,必须将伦理和社会问题视为与数据管理和分析相关的技术和科学要求的核心部分。数据的道德管理不仅仅可以通过规范研究商业和个人数据管理来实现,也不能通过引入研究融资监控来实现,尽管这些都是重要的策略。为了保证以最科学和最具社会前瞻性的方式使用大数据,有必要超越伦理概念,将其视为与研究无关的事物。对数据科学的伦理影响的分析应该成为那些处理数据以及用于查看和分析数据的方法的背景和活动的基本组成部分。道德评估和选择隐藏在数据管理的各个方面,包括那些看似纯粹技术性的选择。
10. 结论:大数据和良好的科学
这篇文章强调了对大数据的日益重视如何标志着以数据为中心的研究方法的兴起,在这种方法中,动员、整合、传播和可视化数据的努力被视为对发现的核心贡献。数据中心主义的出现凸显了收集、分类和解释数据以及围绕这些过程的概念、技术和机构所面临的挑战。高通量测量仪器和智能手机应用程序等工具正在快速生成大量数字格式的数据。原则上,这些数据可以立即通过互联网平台传播,任何拥有宽带连接的人都可以在几秒钟内访问这些数据。然而,在实践中,数据的获取充满了概念、技术、法律和道德方面的影响;即使可以授予访问权限,也不能保证这些数据可以有效地用于促进进一步的研究。此外,为分析大数据而开发的数学和计算工具的功能和假设往往不透明,导致结果的科学意义和可信度可能难以评估。这增加了人们的担忧,即大数据科学可能会建立在并最终支持使人类的聪明才智受制于外星、人工智能和最终难以理解的智能的过程。
也许本文中讨论的大数据科学最具挑战性的方面是它在多大程度上偏离了基于个人能动性和认知能力(当代科学哲学的大部分内容都以此为基础)的理性理解。任何一个数据集产生知识的力量都在于它可以在多大程度上与其他数据集链接:这就是为 GPS 位置或测序数据等数字对象赋予高认知价值的原因,也是从各种数据集进行广泛数据聚合的原因源转化为高效的监视工具。社交媒体、政府数据库和研究存储库等数据生产和传播渠道在全球化、相互关联和分布式网络中运作,其运作需要广泛的技能和专业知识。开发大数据基础设施和分析所涉及的决策的分布式性质使得任何个人都不可能对所产生的知识的质量、科学意义和潜在社会影响进行监督。
因此,大数据分析可能构成分布式认知系统的最终实例。这在哪里留下了责任问题?许多个人、团体和机构最终共同承担特定数据使用的概念解释和社会结果的责任。大数据治理的一个关键挑战是找到在这个复杂网络中分配责任的机制,以便能够挑出、纠正和适当制裁错误和无根据的决策,以及彻头彻尾的欺诈、不道德、滥用、歧视或误导行为思考数据的复杂历史、处理和使用可以鼓励哲学家避免采用非历史的、脱离语境的方法来解决证据问题,而是考虑以下方法,处理数据(尤其是大数据)所涉及的技能、技术和实践对于理解经验知识的形成至关重要。