信息(四)
4.1 波普尔:信息作为可证伪程度
20 世纪上半叶,维也纳学派的逻辑实证主义研究纲领使经验主义这一较旧的项目焕发了活力。其目标是在直接观察和关于这些观察的陈述之间的逻辑关系的基础上重建科学知识。奎因 (1951) 重新激发了康德对经验主义的旧批判。在逻辑实证主义的框架内,归纳法无效,因果关系永远无法客观地建立。波普尔在《研究的逻辑》(1934) 中提出了他著名的划界标准,并明确将其定位为休谟归纳问题的解决方案 (Popper 1934 [1977: 42])。作为一般定律制定的科学理论永远无法得到明确验证,但只需一次观察即可证伪。这意味着,如果一个理论更丰富,并且有更多机会被证伪,那么它就“更”科学:
因此可以说,一个理论所传达的经验信息量,或者说它的经验内容,随着其可证伪程度的增加而增加。(Popper 1934 [1977: 113],原文重点)
在波普尔的研究计划中,这句话表明,在香农提出他的信息理论十多年前,衡量科学理论中经验信息量的野心就已经被认为是一个哲学问题。科学理论被认为是一组逻辑陈述。波普尔意识到,理论的经验内容与其可证伪性有关,而这又与理论中陈述的概率有关。经验信息越多的理论越不可能成立。波普尔将逻辑概率与数值概率区分开来(“数值概率用于博弈论和概率理论以及统计学”;波普尔 1934 [1977: 119])。在一段对后来信息概念的发展具有纲领性的文章中,他定义了逻辑概率的概念:
陈述的逻辑概率与其可证伪性相辅相成:它随着可证伪性程度的降低而增加。逻辑概率 1 对应于可证伪性程度 0,反之亦然。(波普尔 1934 [1977: 119],重点为原文)
可以将数值概率解释为适用于子序列(从逻辑概率关系中挑选出来),可以根据频率估计为其定义一个测量系统。 (Popper 1934 [1977: 119],原文重点)
Popper 从未成功制定出一个良好的形式理论来衡量这种信息量,尽管他在后来的著作中提出香农的信息理论可能有用(Popper 1934 [1977],404 [附录 IX,来自 1954])。这些问题后来在科学哲学中得到发展。构象理论研究归纳理论以及证据“支持”某一理论的方式(Huber 2007 [OIR])。虽然卡尔纳普的工作推动了科学哲学和信息哲学的重要发展,但这两个学科之间的联系似乎已经消失。Kuipers (2007a) 中没有提到信息理论或信息哲学中任何更基础的工作,但这两个学科肯定有重叠的领域。 (例如,参见 Kuipers (2007b) 和 Rathmanner & Hutter (2011) 对所谓的“黑乌鸦悖论”的讨论。)
4.2 香农:以概率定义信息
在两篇具有里程碑意义的论文中,香农(1948;Shannon & Weaver 1949)描述了消息系统 A 的通信熵:
H(P)=−∑i∈Apilog2pi
这里 pi 是消息 i 在 A 中的概率。这正是物理学中吉布斯熵的公式。使用以 2 为底的对数可确保代码长度以位(二进制数字)为单位进行测量。很容易看出,当所有消息都具有相同的概率并因此具有典型性时,系统的通信熵最大。
单个消息 x 中的信息量 I 由以下公式给出:
I(x)=−logpx
这个公式可以解释为玻尔兹曼熵的倒数,涵盖了我们对信息的一些基本直觉:
消息 x 发生的概率为 px,介于 0 和 1 之间。
如果 px=1,则 I(x)=0。如果我们确定会收到一条消息,那么它实际上根本不包含任何“新闻”。消息的概率越低,它包含的信息越多。像“明天太阳会升起”这样的消息似乎比“耶稣是凯撒”这样的消息包含的信息更少,正是因为第二个陈述不太可能得到任何人的辩护(尽管它可以在网上找到)。
如果两个消息 x 和 y 不相关,则 I(x 和 y)=I(x)+I(y)。信息是广泛的。两个组合消息中的信息量等于各个消息中信息量的总和。
信息作为概率的负对数是唯一完全满足这些约束的数学函数(Cover & Thomas 2006)。香农提供了一个理论框架,其中二进制字符串可以解释为包含一定量信息的(编程)语言中的单词(参见 3.1 语言)。表达式 -logpx 准确地给出了消息 x 的最佳代码的长度,从而形式化了旧的直觉,即当频繁字母获得较短的表示时,代码效率更高(参见 3.2 最佳代码)。对数作为将乘法简化为加法(参见 3.3 数字)是系统广泛属性的自然表示,早在 19 世纪物理学家就已将其用作对数(参见 3.4 物理学)。
香农的定义明确没有涵盖的信息的一个方面是解释为命题的消息的实际内容。因此,“耶稣是凯撒”和“月亮是由绿色奶酪制成的”这两个语句可能携带相同数量的信息,但它们的含义却完全不同。信息哲学中的大部分努力都用于制定更具语义的信息理论(Bar-Hillel & Carnap 1953;Floridi 2002、2003、2011)。尽管香农的提议最初几乎被哲学家完全忽视,但在过去的十年里,它们对哲学问题的影响已经变得巨大。Dretske(1981)是最早分析香农理论的哲学含义的人之一,但各种逻辑系统和信息理论之间的确切关系仍然不清楚(参见6.6逻辑和语义信息)。
4.3 所罗门诺夫、柯尔莫哥洛夫、柴廷:信息作为程序的长度
将一组陈述与一组观察联系起来并定义相应概率的问题由卡尔纳普(1945 年、1950 年)提出。他区分了两种形式的概率:概率 1 或“确认度”P1(h;e) 是两个句子、假设 h 和句子 e 之间的逻辑关系,它们报告了一系列观察结果。这种类型的陈述要么是分析性的,要么是矛盾的。第二种形式,概率 2 或“相对频率”,是统计概念。用他的学生所罗门诺夫(1997 年)的话来说:
卡尔纳普的概率模型始于一长串符号,它是对整个宇宙的描述。通过他自己的形式语言分析,他能够为可能代表宇宙的任何可能的符号串分配先验概率。
卡尔纳普使用的分配概率的方法并不通用,并且严重依赖于所使用的代码系统。只有当我们能够为“任何可能的符号串”分配一个通用概率时,才能开发出使用贝叶斯规则的一般归纳理论。在 1960 年的一篇论文中,所罗门诺夫 (1960, 1964a,b) 首次勾勒出了这个问题的解决方案。他提出了现在所谓的通用概率分布的概念:将所有可能的有限字符串的集合视为通用图灵机 U 的程序,并根据在 U 上输出 x 的最短程序 p 的长度来定义符号串 x 的概率。
算法信息论的这一概念后来由 Kolmogorov (1965) 和 Chaitin (1969) 分别独立发明。 Levin (1974) 将普遍先验概率的数学表达式发展为普遍的(即最大的)下半可计算半测度 M,并证明了 M(x) 的负对数与 x 的 Kolmogorov 复杂度一致,直到加对数项。复杂度度量的实际定义是:
Kolmogorov 复杂度字符串 x 的算法复杂度是当它在通用图灵机 U 上运行时产生 x 的最小程序 p 的长度 l(p),记为 U(p)=x:
K(x):=minp{l(p),U(p)=x}
算法信息论(又名 Kolmogorov 复杂度理论)已发展成为一个丰富的研究领域,具有广泛的应用领域,其中许多与哲学相关(Li & Vitányi 2019):
它为我们提供了一个通用的归纳理论。使用贝叶斯规则,可以对奥卡姆剃刀进行现代重新表述,即最小描述长度(Rissanen 1978、1989;Barron、Rissanen 和 Yu 1998;Grünwald 2007、Long 2019)和最小消息长度(Wallace 2005)。请注意,Domingos(1998)反对这些原则的普遍有效性。
它使我们能够为单个对象制定概率和信息内容。甚至是单个自然数。
它为数据压缩学习理论奠定了基础(Adriaans 2007)。
它从不可压缩性的角度给出了字符串随机性的定义。这本身就带来了一个全新的研究领域(Niess 2009;Downey 和 Hirschfeld 2010)。
它使我们能够根据理论的随机性缺陷制定一个客观的先验预测值度量:即,最佳理论是使数据在理论条件下看起来随机的最短理论。(Vereshchagin & Vitányi 2004)。
也有缺点:
算法复杂度是不可计算的,尽管在很多实际情况下可以近似,并且商业压缩程序在某些情况下接近理论最优值(Cilibrasi & Vitányi 2005)。
算法复杂度是一种渐近度量(即,它给出一个正确的值,直到常数)。在某些情况下,这个常数的值对于实际用途来说是禁止使用的。
尽管就随机性缺陷而言,最短的理论总是最好的理论,但数据集的增量压缩通常不是一种好的学习策略,因为随机性缺陷不会随着压缩率单调下降(Adriaans & Vitányi 2009)。
算法信息论提供的定义的普遍性取决于通用图灵机概念的普遍性,因此最终取决于对丘奇图灵论题的解释。
对象的柯尔莫哥洛夫复杂度不考虑实际计算对象所需的时间。在此背景下,莱文提出了一种惩罚计算时间的柯尔莫哥洛夫复杂度变体(Levin 1973, 1984):
莱文复杂度字符串 x 的莱文复杂度是长度 l(p) 与在通用图灵机 U 上运行时产生 x 的最小程序 p 的计算时间对数之和,记为 U(p)=x:
Kt(x):=minp{l(p)+log(time(p)),U(p)=x}
算法信息论已迅速被接受为信息的基本理论。Cover 和 Thomas (2006) 在《信息论》中著名的介绍指出:“……我们认为柯尔莫哥洛夫复杂度(即 AIT)比香农熵更为根本”(2006:3)。
Solomonoff (1997) 和 Chaitin (1987) 已经提出了算法复杂性理论是人工智能(和知识理论)一般理论的基础这一观点。一些作者认为数据压缩是支配人类认知的一般原则(Chater & Vitányi 2003;Wolff 2006)。Hutter (2005, 2007a,b) 认为 Solomonoff 的形式化和完整理论从根本上解决了归纳问题。Hutter (2007a) 和 Rathmanner & Hutter (2011) 列举了大量围绕归纳的经典哲学和统计问题,并声称 Solomonoff 的理论解决或避免了所有这些问题。可能是因为其技术性质,该理论在很大程度上被哲学界忽视了。然而,它是 20 世纪信息理论最基本的贡献之一,并且显然与许多哲学问题相关,例如归纳问题。
5. 系统性考虑
从数学意义上讲,信息与测量具有有限但无限维度的系统类别(粒子系统、文本、代码、网络、图形、游戏等)的广泛属性有关。这表明可以对各种信息理论进行统一处理。在《信息哲学手册》中,区分了三种不同的信息形式(Adriaans & van Benthem 2008b):
信息-A:
知识、逻辑、信息性答案所传达的内容
信息-B:
概率、信息论、定量测量
信息-C:
算法、代码压缩、定量测量
由于最近的发展,信息-B(香农)和信息-C(柯尔莫哥洛夫)之间的联系得到了相当好的理解(Cover & Thomas 2006)。本文中介绍的历史材料表明,对信息-A(逻辑、知识)的反思在历史上比迄今为止普遍了解的要复杂得多。事后看来,逻辑实证主义的研究纲领可以被描述为试图将可能世界逻辑解释与概率推理结合起来(Carnap 1945、1950;Popper 1934;有关最新方法,请参阅 Hutter 等人 2013)。现代设计贝叶斯认识论的尝试(Bovens & Hartmann 2003)似乎并没有意识到二十世纪上半叶所做的工作。然而,尝试统一信息 A 和信息 B 似乎是一项可行的练习(Adriaans 2020)。此外,由于 Gell-Mann & Lloyd (2003) 的工作(另见:Bais and Farmer 2008),热力学和信息论之间的联系变得更加紧密。Verlinde(2011、2017)甚至提出将重力简化为信息(参见条目信息处理和热力学熵)。
5.1 信息哲学是数学哲学的延伸
关于信息概念的主要定义,如香农信息、柯尔莫哥洛夫复杂性、语义信息和量子信息,当我们将其解释为数学哲学的延伸时,统一信息哲学的方法是可能的。对“什么是数据?”和“什么是信息?”等问题的回答源于对“什么是集合?”和“什么是数字?”等相关问题的回答。事后看来,我们可以发现数学哲学中的许多未解决的问题都围绕着信息概念。
如果我们看看信息和计算的基础,有两个概念至关重要:数据集的概念和算法的概念。一旦我们接受这些概念作为基础,其余的理论数据和计算就会自然展开。人们可以在这里“插入”自己最喜欢的认识论或形而上学立场,但这实际上并不影响计算和信息哲学的基础问题。人们可能坚持形式主义、柏拉图主义或直觉主义的数学宇宙观(参见数学哲学条目),但仍然同意有效计算的基本概念。计算理论由于其有限性和建构主义性质,似乎或多或少地存在于这些理论重叠的共同基础上。
5.1.1 信息作为一种自然现象
信息作为一种科学概念,在我们每天测量事物时与自然打交道的背景下自然而然地出现。例子包括用棍子测量物体的大小、用手指数数、用绳子画直线等普通动作。这些过程是长度、距离、数字、直线等抽象概念的锚点,这些抽象概念构成了科学的基石。这些概念植根于我们对现实的具体体验,这一事实保证了它们的适用性和实用性。信息处理的最早痕迹是围绕计数、管理和会计概念发展起来的。
示例:计数棒
最基本的信息测量设备之一是使用计数棒进行一元计数。计数棒大约在 20,000 年前就已开始使用。当一个假想的史前猎人杀死一只鹿时,他可以通过在一块木头上划出“|”来记录这一事实。这种棒上的每一个划痕都代表一个物体/物品/事件。一元计数的过程基于将符号连接成序列的基本操作。这种测量方法说明了信息广泛性概念的一个原始版本:序列的长度是计数项目数量的度量。请注意,这种顺序计数过程是非交换和非结合的。如果“|”是我们的基本符号,⊕ 是连接运算符,那么符号序列的形式如下:
((…(|⊕|)…)⊕|)⊕|)
序列末尾总是会连接一个新的符号。
这个例子有助于理解上下文在信息分析中的重要性。棍子上的划痕本身可能没有任何意义,但只要我们决定这样的划痕代表另一个物体或事件,它就会变成一个有意义的符号。当我们在这样的背景下操作它时,我们就会处理信息。原则上,一个简单的划痕可以代表我们喜欢的任何事件或物体:符号是常规的。
定义:符号是一种标记、符号或单词,用于指示、表示或理解为代表一个想法、对象或关系。
符号是符号操作系统与世界联系在一起的语义锚点。请注意元语句:
符号“|”表示对象 y。
如果为真,则指定语义信息:
它是 格式正确的:该语句具有特定的语法。
它是 有意义的:只有在故意在例如计数棒或岩石上划出“|”以标记明确定义的事件的上下文中,它才有意义。
它是 真实的。
符号操作可以采取多种形式,并不局限于序列。在史前时期可以找到许多不同形式的信息处理的例子。
示例:在美索不达米亚数羊
随着城市化进程,早期的会计系统在公元前 8000 年左右出现在美索不达米亚,使用粘土代币来管理牛群(Schmandt-Besserat 1992)。不同形状的代币用于不同类型的动物,例如绵羊和山羊。注册后,代币被装在一个球形粘土容器中,外面有代表其内容的标记。容器被烘烤以使注册永久生效。因此,早期的书写形式出现了。公元前 4000 年以后,为了保持顺序,标记被挂在一根绳子上。
从集合到字符串的历史转变很重要。它是一种更复杂的信息编码形式。形式上,我们可以区分几个复杂程度的标记组合:
容器中相似标记的无序集合。这代表一个集合。标记可以在容器中自由移动。标记的体积是唯一相关的质量。
容器中不同类型的标记的无序集合。这代表所谓的多集。体积和频率都相关。
字符串上类型标记的有序集合。这代表符号序列。在这种情况下,字符串的长度是相关质量。