信息(八)

第一个语句只需指定数字的名称。 第二个陈述给出了局部描述,该描述是建设性的,信息压缩和唯一。 1000th fibonacci编号有209位,所以描述“1000th fibonacci号码”比数字的实际名称更有效。 此外,我们有一个算法来构造数字。 这可能不是第三语句中的描述的情况。 我们不知道是否存在违反Goldbach猜想的第一个号码,但如果它确实,描述可能很好,因此可以成为临时的,因此没有任何线索来构建数字。 这升起了猜想,即存在有效的临时描述有效的数据:

猜想:存在由非建设性唯一有效描述压缩的数字,即,可以有效地检查描述的说明的有效性,但是除了通过系统搜索之外,可以从描述中有效地构造数字。

猜想是所谓的P与NP论文的更通用变体(参见第6.3节)。 如果一个替换术语“有效”术语“有效”一词获得了P≠nP论文的制定。

6.2有限套件有效搜索

当我们限制自己有效地搜索有限套件时,部分描述的问题和施工与搜索仍然存在。 似乎自然地假设当一个人有一组数字时,那么人们还拥有关于集合成员和其子集的所有信息,但这不是真的。 一般来说,一组数字中的信息量的计算是一个高度琐碎的问题。 我们提供一些结果:

LEMMA SET S的子集Aa⊂s可以包含与设置本身的设置有条件的信息。

证明:考虑所有自然数的集合S小于n的所有自然数。 位于位中的描述性复杂性是log2n + c。 现在通过选择随机选择S的一半元素来构造一个。 观察:

我(a|s)= log2(nn / 2)

我们有:

描绘→∞i(a|s)n =描绘→∞log2(nn / 2)n = 1

该集合的条件描述性复杂性将是:i(a ||)≈n+ c本来+ c。 ◻

直接后果是我们在合并两组时可以丢失信息。 甚至更强大的结果是:

LEMMA:集合的元素可以包含比设置自身更多的信息。

证明:考虑自然数的集合较小,然后是2N。 S的基数是2N。 该组的描述性复杂性是LOGN + C位,但是对于S的一半元素,我们需要n位来描述它们。 ◻

在这种情况下,设置本身的描述是非常可压缩的,但它仍然包含非可压缩元件。 当我们合并或拆分数字集或拆分或删除元素时,对信息量的影响一般难以预测,甚至可能是无解扣的:

定理:在设置理论操作下的信息不是单调

证明:lemmas的立即后果。 ◻

这表明信息概念遍及日常生活。 当约翰在口袋里有两个苹果时,他似乎可以做任何他想要的东西,但事实上,一旦他选择了两者之一,他就创造了(新的)信息。 搜索问题的后果很清楚:我们可以始终有效地对元素和集合的集合集执行有限的搜索。 因此,当我们通过部分描述搜索这样一组子集,则结果生成(新)信息。 此分析Prima Facie似乎强迫我们接受数学中的简单描述,使我们能够通过系统搜索来识别复杂对象。 当我们寻找该对象时,我们只有有关它的一些信息,当我们终于找到它时,我们的信息会增加到搜索对象的全部事实集。 这与我们目前的信息理论(Shannon和Kolmogorov)冲突:允许我们通过确定性搜索有效地识别对象的任何描述包含关于对象的所有相关信息。 然后搜索过程的时间复杂性是无关紧要的。

6.3 P与NP问题有问题,描述性复杂性与时间复杂性

在过去的十分之一时,数学家一直在思考一个相关的问题:假设我是否能够容易地检查我是否找到了我正在寻找的东西,找到这样的对象有多难? 在数学和计算机科学中,似乎是一个相当类的决策问题,不能在多项式时间中建设性地解决,其中C是常数并且x是输入的长度),但仅通过系统搜索溶液空间的大部分时间,这可能需要指数时间,t(x)= cx。 这种差异大致恰好与从那些那些没有计算可行的问题的分离。

存在此类问题的问题已经被帧为可以在时间多项式中可以解决的决策问题的可能等值,这是可以在将时间多项式中检查解决方案的问题的输入到输入中的NP的输入。 (Garyy&Johnson 1979;另请参阅Cook 2000 [oir]以获得良好的介绍。)

示例:众所周知的例子中的众所周知的例子是所谓的子集和问题:给定有限一组自然数S,是否有一个子集S'1,总和最多k? 很明显,当有人提出解决问题的解决问题时,我们可以轻松检查X的元素是否加入k,但我们可能必须检查几个S的子集,以便自己找到这样的解决方案。

这是所谓的决策问题的一个例子。 答案是一个简单的“是”或“否”,但可能很难找到答案。 观察到问题的配方条件到S具有描述性复杂性逻辑+ C,而S的大多数随机子集具有条件的描述性复杂性。 因此,添加到k的任何子集的子集可能具有更大的描述性复杂性,然后是搜索问题的制定。 在这个意义上,搜索似乎生成信息。 问题是,如果这样的设置存在,则搜索过程被界定,因此有效,这意味着短语“添加到k的第一子集”是足够的描述。 如果p = np然后kolmogorov复杂性和集合s'的levin复杂性,我们发现大致重合,如果p≠np则在某些情况下kt(s')kt(s')。 两个位置,搜索的理论生成新信息以及它没有的理论,从不同的角度来违反直觉。

似乎非常艰难的P与NP问题,一直是计算机科学和数学的丰富研究来源,尽管已经出版了哲学相关性。 Scott Aaronson的报价说明了一个解决方案可能具有深刻的哲学影响:

如果P = NP,那么世界将是一个比我们通常认为它的深刻不同的地方。 在“创意跨利赛”中没有特殊价值,在解决问题并在发现后识别解决方案之间没有基本差距。 每个人都能欣赏交响乐的人将是莫扎特; 每个可以遵循逐步论据的人都将是高斯...... (Aaronson 2006 - 在其他互联网资源中)

实际上,如果p = np,那么每个对象都有一个没有太大且易于检查的描述也很容易找到。

6.4模型选择和数据压缩

在目前的科学方法论中,科学过程的顺序方面在实证周期中正式化,这根据De Groot(1969),具有以下阶段:

观察:观察有关其原因的现象和探究。

诱导:对现象的假设的概括解释的制定。

扣除:对测试假设的实验的配方(即,如果为true,请确认它们,如果为false则反驳它们)。

测试:收集假设和数据的过程。

评价:对数据的解释和理论的制定 - 一个讨论的论点,呈现实验结果作为现象最合理的解释。

在信息理论的背景下,观测集是数据集,我们可以通过在此数据集中观察规则来构造模型。 科学旨在建立真实模型的现实。 这是一个有意义的语义风险。 在21世纪,理论地层和测试的过程将由在大型数据库上的大型数据库的计算机自动完成。 图灵奖得主吉姆灰色丛生的电子科学新兴学科作为科学的第四个数据驱动范例。 其他人是经验,理论和计算。 由于这种基于数据的自动理论建设的过程是科学方法的一部分,因此信息哲学(Adriaans&Zantinge 1996; Bell,Hey,&Szalay 2009;嘿,丹Ly和Tolle 2009)。 许多知名的学习算法,如决策树归纳,支持向量机,归一化信息距离和神经网络,使用基于熵的信息措施来提取大数据库的有意义和有用的模型。 数据库中的学科知识发现的名称(KDD)是关于大数据研究计划的野心的见证。 我们引用:

在一个抽象的水平,KDD字段涉及开发用于了解数据感的方法和技术。 由KDD进程寻址的基本问题是映射低级数据(通常过于大量的,以便轻松地理解和消化)进入可能更紧凑的其他形式(例如,短暂的报告),更摘要(例如,描述的描述性近似或模型生成数据),或者更有用(例如,用于估计未来情况值的预测模型)。 在该过程的核心,是在模式发现和提取的特定数据挖掘方法的应用。 (Fayyad,Piatetsky-Shapiro,&Smyth 1996:37)

大部分当前研究侧重于选择数据集的最佳计算模型的问题。 Kolmogorov复杂性理论是一种有趣的方法基础,用于研究学习和理论建设作为一种数据压缩形式。 直觉是仍然解释数据的最短理论也是观察概括的最佳模型。 在这一环境中的一个至关重要的区别是一个和两部分代码优化之间的区别:

单零件代码优化:如果我们遵循其定义,Kolmogorov复杂性理论的方法论是清楚的。 我们从一个形成良好的数据集y开始,然后选择合适的通用机器UJ。 表达式UJ(¯tix)= y是一个真正的句子,使我们提供关于y的信息。 测量理论的开发中的第一次举动是通过限制对空输入计算的句子的限制来强迫所有表达的句子的指导或程序部分:

uj(¯ti∅)= y

这种限制对于不变性证明至关重要。 从这一点,原则上是无限,我们可以在代表作为程序时测量长度的句子。 我们选择最短的形式¯ti(可能有多个)。 这种最短描述的长度L(¯ti)是Y的信息内容的度量。 它在意义上是渐近的,当数据集y生长到无限长度时,通过选择另一个图灵机的选择分配的信息内容永远不会在极限中变化超过一个常数。 Kolmogorov复杂性测量根据在通用计算设备上生成数据集的数据集的最短描述的最短描述的数据集的信息内容。

两部分代码优化:请注意,通过将自己限制为具有空输入的程序和对节目长度而不是他们的内容,我们获得了我们的措施的不变性,但我们也失去了很多表达力。 忽略了产生数据集的实际程序中的信息。 因此,随后的研究专注于制定解释性的技术,隐藏在Kolmogorov复杂度措施中,显式。

通过对贝叶斯定律的解释提出了一种可能的方法。 如果我们将Shannon与贝叶斯定律的最佳码的概念结合起来,我们得到了关于最佳模型选择的粗略理论。 让H成为一组假设,让X成为数据集。 使用贝叶斯定律,该分布下的最佳计算模型是:

mmap(x)=argmaxm∈hp(是)p(x|m)p(x)

这相当于优化:

argminm∈h-logp(是)-logp(x|m)

这里可以解释为shannon sense和-logp(x |m)中最佳模型代码的长度作为最佳数据到模型代码的长度; 即,数据解释了模型的帮助。 这个洞察力是在所谓的:

最小描述长度(MDL)原理:解释数据集的最佳理论是最小化理论(模型代码)和与理论编码的数据集(数据到模型代码)的数据集中的比例中的总和。

MDL原则通常被称为ockham剃刀的现代版本(参见奥克姆威廉的进入),尽管在其原始形式的Octham的剃刀中是一个本体原则,与数据压缩有关(长2019年)。 在许多情况下,MDL是一个有效的启发式工具,并且广泛研究了理论的数学特性(Grünwald2007)。 仍然MDL,OCKAM的剃刀和两部分代码优化一直是过去二百元(例如,Domingos 1998; Mcallister 2003)的相当争论的主题。

由Solomonoff,Kolmogorov和Chaitin在20世纪六十年代发起的工作的哲学含义是基本和多样化的。 例如,Solomonoff提出的普遍分布M编纂所有可能的数学知识以及在实证观察的基础上更新时,原则上会融合到我们世界的最佳科学模式。 在这个意义上,可以选择通用图灵机作为我们信息衡量理论的基础,具有哲学的重要性,专门用于科学方法论。 可以看到通用图灵机的选择可以被视为我们方法的一组偏差的选择。 大约两所学校:

机器可换机器:选择一个小型通用图灵机。 如果机器很小,它也是通用和通用的,因为没有空间将任何偏置对机器进行编码。 此外,当对小机器的模拟时,对小机器的限制提供了小的开销,因此您获得的Kolmogorov复杂性的版本,可以获得渐近余量的测量。 Hutter明确地捍卫“自然”小机器的选择(哈特2005; rathmanner&huth 2011),而且李和vitányi(2019)似乎建议使用小型模型。

丰富的机器:选择一台大型机器,明确反映了您已经了解世界的知识。 对于Solomonoff,算法复杂性的发明者,通用图灵机的选择是通用之前的选择。 他捍卫了一种进化的学习方法,其中代理人经常在他已经发现的内容之前适应。 选择您的参考图案机器唯一地表征了您的先验信息(Solomonoff 1997)。

两种方法都有其价值。 对于刚性数学证明,较差的机器方法往往是最好的。 对于有限数据集的实际应用程序,丰富的模型策略往往会得到更好的结果,因为每次压缩数据集时都必须“重新发明轮子”。 这导致了Kolmogorov复杂性固有地含有关于科学偏见的理论,因此意味着一种方法,其中应明确地制定和激励优质的普遍模型。 在过去的二十分之田中,已经有许多建议定义数据集中的结构(或模型)信息量的正式测量单位。

审美措施(Birkhoff 1950)

精致(Koppel 1987; Antunes等人2006; Antunes&Fortnow 2003)

逻辑深度(本网关1988)

有效的复杂性(Gell-Mann,Lloyd 2003)

有意义的信息(Vitányi2006)

自我不相似(Wolpert&Macready 2007)

计算深度(Antunes等,2006)

事实(Adriaans 2008)

三个直觉主导了这项研究。 什么时候一个字符串“有趣”

一定数量的计算涉及其创建(复杂性,计算深度);

在两部分代码优化下的模型代码和数据代码之间存在平衡(有效复杂性,事实);

它具有内部阶段过渡(自我不相似)。

此类模型惩罚最大熵和低信息内容。 这些直觉之间的确切关系尚不清楚。 在过去几年中,有意义的信息的问题已经过广泛研究,但是对基于压缩技术的模型选择的普遍方法的野心似乎被误导:

观察:基于两部分代码优化的有意义信息的衡量标准在Kolmogorov复杂性的意义上永远不会是不变的(Bloem等,2015,Adriaans 2020)。

即使我们将自己限制为较弱的计算模型,这似乎是这种情况,即使总功能的计算模型,而且需要更多的研究。 对于该方法似乎没有先验的数学理由,尽管两部分代码优化在基于重复观察的基础上创建的数据集的经验设置中继续是有效的方法。 可能与结构信息理论有关的现象,目前是不明白的:相位过渡与他们复杂性有关的满足性问题(Simon&Dubois 1989; Crawford&Auton 1993)和阶段过渡与其复杂性有关的具体机器的表现力(Crutchfield&Young 1989,1990; Langton 1990; Dufort&Lumsden 1994)。

6.5确定主义和热力学

信息理论的许多基本概念是在九世纪在热力学科学的背景下开发的。 对Kolmogorov复杂性和Shannon信息之间的关系有合理的理解(Li&Vitányi2008;Grünwald&Vitányi2008;封面和托马斯2006),但熵概念之间的统一除了一些非常临近的Hoc Insights(Harremońs和Topsøe2008)外,热力学和Shannon-Kolmogorov信息非常不完整; Bais&Farmer 2008)。 Fredkin和Toffoli(1982)已经提出所谓的台球电脑,以研究热力学的可逆系统(Durand-Lose 2002)(参见信息处理和热力学熵的条目)。 可能具有高概率的理论模型具有可行的实验(例如,Joule的绝热扩张,见Adriaans 2008)。

(本章完)

相关推荐