信息(八)
在抽象的层面上,KDD字段关注的是制定数据理解的方法和技术。 KDD过程解决的基本问题是映射低级数据(通常太多,无法轻松理解和消化),这些形式可能更紧凑(例如,简短的报告),更抽象(例如,是生成数据的过程的描述性近似或模型),或更有用的(例如,是估计未来情况值的预测模型)。该过程的核心是将特定数据挖掘方法应用于模式发现和提取。 (Fayyad,Piatetsky-Shapiro,&Smyth 1996:37)
当前的许多研究都集中在为数据集选择最佳计算模型的问题。 Kolmogorov复杂性的理论是研究学习和理论构建作为数据压缩形式的有趣方法论基础。直觉是,仍然解释数据的最短理论也是观测值概括的最佳模型。在这种情况下,至关重要的区别是一部分和两部分代码优化之间的区别:
一部分代码优化:如果我们遵循其定义,那么Kolmogorov复杂性理论的方法论方面将变得清晰。我们从一个格式良好的数据集y开始,然后选择适当的通用机器UJ。 uj表达式(
 ̄
钛
x)= y是一个真实的句子,它为我们提供了有关y的信息。制定测量理论的第一步是通过限制句子来描述空白输入的计算:
UJ(
 ̄
钛
∅)= y
这种限制对于证明不变性至关重要。由此,原则上无限的句子类别,我们可以在表示为程序时测量长度。我们选择形式的(可能有多个)
 ̄
钛
最短。长度l(
 ̄
钛
)最短的描述是y信息内容的衡量标准。从某种意义上说,当数据集生长到无限的长度时,选择另一台图灵机分配的信息内容将永远不会变化超过限制中的常数。 Kolmogorov复杂性根据对通用计算设备上产生数据集的一组指令的最短描述来衡量数据集的信息内容。
两部分的代码优化:请注意,通过将自己限制在具有空输入的程序中,并专注于程序的长度而不是其内容,我们就获得了我们的度量的不变性质量,但我们也失去了很多表现力。忽略了产生数据集的实际程序中的信息。因此,随后的研究集中在使藏在科尔莫戈罗夫复杂性测量中的解释力的技术上。
解释贝叶斯定律提出了一种可能的方法。如果我们将香农关于最佳代码的概念与贝叶斯定律相结合,我们将获得有关最佳模型选择的粗略理论。令H为一组假设,让X为数据集。使用贝叶斯法律,此分布下的最佳计算模型将是:
mmap(x)=argmaxm∈H
p(m)p(x.m)
P(x)
这等同于优化:
Argminm∈H -logp(m)-logp(x rogp)
在这里,-LOGP(M)可以将其解释为Shannon的最佳模型代码的长度,将-LOGP(X.M)解释为最佳数据对模型代码的长度;即,借助模型解释的数据。这种见解在所谓的:
最小描述长度(MDL)原理:解释数据集的最佳理论是将理论(模型代码)描述中的总和最小化的总和,以及与理论编码的数据集(模型代码模型代码的数据)。
MDL原理通常被称为Ockham剃须刀的现代版本(请参阅Ockham的William of Ockham上的条目),尽管Ockham的剃须刀的原始形式是本体论原则,与数据压缩无关(Long 2019)。在许多情况下,MDL是一种有效的启发式工具,该理论的数学特性已经进行了广泛的研究(Grünwald2007)。 Ockham的Razor和两部分代码优化仍然是过去十年中的大量辩论的主题(例如Domingos 1998; McAllister 2003)。
Solomonoff,Kolmogorov和Chaitin在20世纪六十年代发起的作品的哲学含义是基本和多样的。例如,所罗诺夫提出的普遍分布m将所有可能的数学知识编码,并且根据经验观察的更新原则上将汇聚为我们世界的最佳科学模型。从这个意义上讲,将通用图灵机作为我们信息测量理论的基础的选择具有哲学上的重要性,特别是科学方法论。通用图灵机的选择可以看作是我们方法论的一组偏见的选择。大约有两所学校:
可怜的机器:选择一台小型通用图灵机。如果机器很小,它也是通用和通用的,因为没有空间可以对机器编码任何偏见。此外,对小型机器的限制会在另一台机器上模拟一台机器时给出小开销,因此您获得的Kolmogorov复杂性的版本具有较小的渐近缘的测量值。 Hutter明确捍卫了“天然”小型机器的选择(Hutter 2005; Rathmanner&Hutter 2011),但Li和Vitányi(2019)似乎暗示着使用小型模型。
Rich Machine:选择一台明确反映您对世界的知识的大型机器。对于算法复杂性的发明者Solomonoff而言,通用图灵机的选择是通用先验的选择。他捍卫一种进化的学习方法,在他已经发现的东西之前,代理商不断适应。您的参考文融机的选择独特地表征了您的先验信息(Solomonoff 1997)。
两种方法都有其价值。对于严格的数学证明,差的机器方法通常是最好的。对于有限数据集的实际应用,丰富的模型策略通常会获得更好的结果,因为糟糕的机器每次压缩数据集时都必须“重新发明车轮”。这导致了以下结论:Kolmogorov的复杂性固有地包含了有关科学偏见的理论,因此意味着一种方法论,应明确提出并激发先验的可接受通用模型类别。在过去的十年中,已经有许多建议来定义数据集中结构(或模型)信息量的正式测量单位。
美学措施(Birkhoff 1950)
精致(Koppel 1987; Antunes等,2006; Antunes&Fortnow 2003)
逻辑深度(Bennet 1988)
有效的复杂性(Gell-Mann,Lloyd 2003)
有意义的信息(Vitányi2006)
自我激烈(Wolpert&MacReady 2007)
计算深度(Antunes等,2006)
事实(Adriaans 2008)
三个直觉主导了研究。当…
其创建(复杂,计算深度)涉及一定数量的计算;
在两部分的代码优化(有效的复杂性,事实性)下,模型代码和数据代码之间存在平衡;
它具有内部相变(自我差异)。
这样的模型会惩罚最大熵和低信息含量。这些直觉之间的确切关系尚不清楚。在过去的几年中,有意义的信息问题已经进行了广泛的研究,但是基于压缩技术的模型选择的通用方法的雄心似乎是误导的:
观察:基于两部分代码优化的有意义信息的度量永远不会在Kolmogorov复杂性的意义上不变(Bloem etal。2015,Adriaans 2020)。
即使我们将自己限制在诸如总体功能之类的较弱的计算模型中,也是如此,但需要更多的研究。尽管在基于重复观察的基础上创建的数据集的经验设置中,但该方法似乎仍然是该方法的先验数学理由,尽管两部分的代码优化仍然是一种有效的方法。可能与结构信息理论相关的现象,目前不理解的是:与其复杂性相关的可满足性问题的硬度过渡(Simon&Dubois 1989; Crawford&Auton 1993)和相位过渡的表现图灵机与它们的复杂性有关(Crutchfield&Young 1989,1990; Langton 1990; Dufort&Lumsden 1994)。
6.5决定论和热力学
在新兴的热力学科学的背景下,在19世纪开发了许多信息理论的基本概念。人们对Kolmogorov的复杂性与香农信息之间的关系有一个合理的了解(Li&Vitányi2008;Grünwald&Vitányi2008; Cover&Thomas 2006),但是在热力学和Shannon-Kolmogorov信息中熵概念之间的统一是非常不可能的。从一些非常典型的见解(Harremoës&Topsøe2008; Bais& Farmer 2008)。 Fredkin and Toffoli(1982)提出了所谓的台球计算机来研究热力学中的可逆系统(Durand-Lose 2002)(请参阅信息处理和热力学熵的条目)。可行的实验可以证实可能具有很高概率的理论模型(例如,焦耳的绝热膨胀,请参见Adriaans 2008)。
出现的问题是:
从热力学的角度来看,什么是计算过程?
计算的热力学理论可以用作非平衡动力学理论吗?
对我们宇宙的物理描述所需的实数的表现力是否表达?
这些问题似乎很困难,因为热力学研究的150年研究仍然使我们在热力学理论本身的核心中具有许多概念上的脱节(请参阅《时间及时的热力学不对称》的条目)。
在有限的计算过程中,我们无法访问实数,但它们确实在我们对热力学过程的分析中发挥了作用。最优雅的物理系统模型是基于连续空间中的功能。在这样的模型中,几乎所有空间中的所有点都带有无限量的信息。然而,热力学的基石是有限的空间具有有限的熵。基于量子信息理论,没有根本理由可以假设在自然界本身在这个层面上从未使用过实数的表现力。这个问题与数学哲学(直觉和更柏拉图观点)中研究的问题有关。关于计算和信息性质的一些更哲学讨论,这个问题至关重要(Putnam 1988; Searle 1990)。该问题还与自然描述中的相变(例如热力学与统计力学)以及抽象水平的概念有关(Floridi 2002,2019)。
在过去的十年中,在分析这些问题时已经取得了一些进展。一个基本的见解是,时间和计算过程之间的相互作用可以在抽象的数学层面上理解,而不会承受某些预期的物理应用的负担(Adriaans&van Emde Boas 2011)。中心是确定性程序不会生成新信息的见解。因此,物理系统的确定性计算模型永远无法说明自然界信息或熵的增长:
观察:鉴于Adriaans和van Emde Boas(2011)的基本定理以及量子物理学本质上是对我们现实的结构,量子物理学本质上是随机描述的假设,因此可以将宇宙描述为确定性计算机的拉普拉斯假设。
像牛顿物理学这样的确定性理论将热力学的统计学降低导致熵的概念与确定计算机处理的信息根本不同。从这个角度来看,热力学的数学模型基本上是实数空间上的微分方程,似乎在表达不够的水平上运行。更先进的数学模型,以考虑量子效应,可能会解决一些概念上的困难。在亚原子上的性质似乎本质上是概率的。如果概率量子效应在真实台球球的行为中起作用,那么辩论是否会在理想球制成的抽象气体中增加,似乎有些学术。有理由假设量子水平的随机现象是宏观量表的概率来源(Albrecht&Phillips 2014)。从这个角度来看,宇宙在任何规模上都是天文数量的恒定来源。
6.6逻辑和语义信息
了解信息的理解的逻辑和计算方法都扎根于二十世纪初的哲学研究的“语言转弯”,而基础研究问题源于弗雷格的工作(1879年,1892年,请参见条目,请参阅条目关于逻辑和信息)。量化真实句子中信息的野心,如Popper,Carnap,Solomonoff,Solomonoff,Kolmogorov,Kolmogorov,Chaitin,Rissanen,Koppel,Schmidthuber,Li,Li,Vitányi和Hutter等研究人员的工作中很明显。实际上,香农的信息理论是唯一明确声称是非语义的现代方法。最近的定量信息衡量了Kolmogorov的复杂性(其雄心勃勃地将所有科学知识编纂为普遍分布)和量子信息(及其对物理系统的观察概念)固有地假定语义成分。同时,可以开发语义理论的定量版本(请参阅信息的语义概念的输入)。
算法复杂性理论的核心直觉,即对象的直觉或含义可以是计算,最初是由Frege(1879,1892)提出的。表达式“ 1 + 4”和“ 2 + 3”具有相同的扩展名(bedeutung)“ 5”,但具有不同的意图(SINN)。从这个意义上讲,一个数学对象可以具有不同含义的无穷大。有不透明的上下文需要这种区别。考虑“约翰知道log222 = 2”的句子。显然,Log222表示特定计算的事实在这里相关。句子“约翰知道2 = 2”似乎具有不同的含义。
Dunn(2001,2008)指出,逻辑中信息的分析与直觉和扩展的概念无关。在皇家港口逻辑(1662)和米尔(1843),布尔(1847)和皮尔斯(Peirce)(1868)(1868年)的著作(1868年)的著作(1868年)中,意图与扩展之间的区别已经预计,但弗雷格(Frege)(1879年,1892年)在逻辑上系统地引入了。从现代的意义上讲,谓词的扩展,例如“ X是单身汉”,只是我们领域中的单身汉的集合。这种直觉与谓词的含义有关,并允许我们源于“约翰是单身汉”的事实,即“约翰是男性”和“约翰未婚”。显然,这种现象与模态操作员的世界解释和信息概念都有关系。单身汉也是男性的,即,在约翰是单身汉的每个可能的世界中,他也是男性: 。
模态操作员的世界解释(Kripke 1959)与Carnap(1947)介绍的“国家描述”的概念有关。状态描述是一种结合,它完全包含每个原子句或其否定之一(请参见第4.3节)。定义对状态描述的良好概率措施的野心是Solomonoff(1960,1997)开发算法信息理论的动机之一。从这个角度来看,Kolmogorov的复杂性,其数据类型(程序,数据,机器)的分离及其对描述过程效果的真实句子的关注基本上是语义理论(Adriaans 2020)。如果我们评估表达:这立即清楚:
UJ(
 ̄
钛
x)= y
如第5.2.1节中所述
 ̄
钛
x)表示UJ在阅读自我删除描述后,表示计算Ti(X)的结果
 ̄
钛
机器TJ。在信息图的背景下(请参阅信息的语义概念的条目),可以将此表达式解释为语义信息:如下:
通用图灵机UJ是计算发生的上下文。在计算语义的模态解释中,它可以解释为可能的计算世界。
符号序列
 ̄
钛
X和Y是形成良好的数据。
顺序
 ̄
钛
是对程序的自我设计描述,可以将其解释为一部分形成良好的教学数据。
顺序
 ̄
钛
X是一种直觉。序列y是相应的扩展。
uj表达式(
 ̄
钛
x)= y表示程序的结果
 ̄
钛
x在世界上,uj是y。这是一句真话。
句子uj的逻辑结构(
 ̄
钛
x)= y可与真实的句子相提并论:
在对地球的经验观察的背景下,您可以在东部天空中看到的明亮星星是维纳斯
Mutatis mutandis一个人可以发展以下解释:UJ可以看作是一种环境,例如,它使对地球上的科学观察的偏见有偏见,Y是延伸金星,
 ̄
钛
X是“您可以在东部天空中看到的明亮的明星”。该直觉由Ti组成,可以将其解释为一些一般的天文观察程序(例如,教学数据),X提供了良好的数据,这些数据告诉一个地方(早晨在东部天空中明亮的星星)。
这表明,根据信息概念的信息概念的信息图,信息图和计算方法的更多面向信息理论和计算方法之间的可能统一。我们描述了一些研究问题:
什么是一个良好的逻辑系统(或一组系统),它正式地使我们对诸如“知识”,“相信”和“被告知”之类的概念之间的关系直觉。有提案作者:Dretske(1981),Van Benthem(2006; van Benthem&de Rooij 2003),佛罗里达州(2003,2011)等。将这些概念仔细映射到我们当前已知逻辑(结构,模态)的景观上,可能会阐明不同建议的优点和缺点。
目前尚不清楚将环境数据与其他数据分开的特定差异(在亚里士多德的意义上)是什么,例如,如果有人在海滩上使用鹅卵石来计算一个人观察到的海豚数量,那么对于不知情的通行证者来说可能是不可能的通过判断这些石头收集是否是环境数据。
教学数据的类别似乎太狭窄了,因为它可以将我们对计算是什么的特定解释封锁。在大多数情况下,图灵等效的计算范式不是教学的,尽管人们可能会捍卫图灵机程序是这样的数据的观点。
目前尚不清楚我们如何应对图灵完整系统自我参考方面所固有的本体论对偶性:图灵机在同一时间的数据上运行,这些数据是程序的表示,即教学和非教学性和非教学性。
目前尚不清楚如何仅根据真实陈述来定义信息的理论如何处理量子物理学中的基本问题。 Schrödinger的猫同时死亡并活着包含这种理论中的任何信息的逻辑模型如何不一致?
6.7含义与计算
自从笛卡尔(Descartes)以来,我们周围有意义的世界可以简化为物理过程的想法一直是西方哲学中的主要主题。历史上相应的哲学自我反思整齐地遵循以下技术发展:人类的思想是自动机,是一台图灵机器,最终是量子计算机吗?广泛讨论这些问题不是这里的地方,但是信息哲学中的相应问题是相关的:
开放问题:含义可以简化为计算吗?
这个问题与哲学上的更一般性问题交织在一起,其答案直接迫使人们对哲学的更实证主义或更诠释学的方法之间的选择,以及对知识理论,形而上学,美学和伦理学的影响。这也影响我们每天做出的直接实践决策。医生的行动是否应以基于证据的医学或Caritas的概念为指导?患者是一个有意识地过着有意义生活的有意识的人,还是最终只是需要修复的系统?