信息(四)
算法信息论(又名柯尔莫哥洛夫复杂性理论)已发展成为一个丰富的研究领域,具有广泛的应用领域,其中许多与哲学相关(Li & Vitányi 2019):
它为我们提供了归纳法的一般理论。贝叶斯规则的使用允许在最小描述长度(Rissanen 1978, 1989;Barron, Rissanen, & Yu 1998;Grünwald 2007,Long 2019)和最小消息长度(Wallace 2005)方面对奥卡姆剃刀进行现代重新表述。请注意,Domingos (1998) 反对这些原则的普遍有效性。
它使我们能够制定单个对象的概率和信息内容。甚至个别自然数。
它为数据压缩学习理论奠定了基础(Adriaans 2007)。
它根据不可压缩性给出了字符串随机性的定义。这本身就导致了一个全新的研究领域(Niess 2009;Downey & Hirschfeld 2010)。
它使我们能够根据理论的随机性缺陷制定预测价值的客观先验度量:即,最好的理论是使数据看起来随机条件于该理论的最短理论。 (Vereshchagin 和 Vitányi 2004)。
也有缺点:
算法复杂性是无法计算的,尽管在许多实际情况下它可以被近似,并且商业压缩程序在某些情况下接近理论最优值(Cilibrasi & Vitányi 2005)。
算法复杂性是一种渐近度量(即,它给出的值在常数范围内都是正确的)。在某些情况下,该常数的值在实际用途中是禁止使用的。
尽管就随机性缺陷而言,最短理论始终是最好的理论,但数据集的增量压缩通常不是一种好的学习策略,因为随机性缺陷不会随着压缩率单调减少(Adriaans & Vitányi 2009)。
算法信息论提供的定义的普遍性取决于通用图灵机概念的普遍性,从而最终取决于对丘奇图灵论文的解释。
对象的柯尔莫哥洛夫复杂度没有考虑实际计算该对象所需的时间。在这种情况下,Levin 提出了一种 Kolmogorov 复杂度的变体,它会惩罚计算时间(Levin 1973,1984):
Levin 复杂度 字符串 x 的 Levin 复杂度是长度 l(p) 与在通用图灵机 U 上运行时产生 x 的最小程序 p 的计算时间的对数之和,记为 U(p) =x:
Kt(x):=
分钟
p
{l(p)+log(时间(p)),U(p)=x}
算法信息论作为信息的基础理论已被迅速接受。 Cover 和 Thomas(2006)在信息论中著名的介绍指出:“……我们认为 Kolmogorov 复杂性(即 AIT)比香农熵更基本”(2006:3)。
Solomonoff (1997) 和 Chaitin (1987) 已经提出了算法复杂性理论是人工智能一般理论(和知识论)的基础的观点。一些作者辩称数据压缩是支配人类认知的一般原则(Chater & Vitányi 2003;Wolff 2006)。 Hutter (2005, 2007a,b) 认为所罗门诺夫形式化且完整的理论本质上解决了归纳问题。 Hutter (2007a) 和 Rathmanner & Hutter (2011) 列举了大量围绕归纳法的经典哲学和统计问题,并声称所罗门诺夫的理论解决或避免了所有这些问题。可能由于其技术性质,该理论在很大程度上被哲学界忽视。然而,它是二十世纪对信息论最基本的贡献之一,并且显然与许多哲学问题相关,例如归纳问题。
5. 系统性考虑
在数学意义上,信息与测量具有有限但无限维度的系统类别(粒子系统、文本、代码、网络、图形、游戏等)的广泛属性相关。这表明对各种信息理论进行统一处理是可能的。在《信息哲学手册》中,区分了三种不同形式的信息(Adriaans & van Benthem 2008b):
信息-A:
知识、逻辑、信息丰富的答案所传达的内容
信息-B:
概率、信息论、定量测量
信息-C:
算法、代码压缩、定量测量
由于最近的发展,信息 B(香农)和信息 C(柯尔莫哥洛夫)之间的联系已得到相当好的理解(Cover & Thomas 2006)。本文提供的历史材料表明,对信息 A(逻辑、知识)的反思在历史上比迄今为止普遍所知的更加交织在一起。事后看来,逻辑实证主义的研究计划可以被描述为试图将逻辑的可能世界解释与概率推理结合起来(Carnap 1945, 1950;Popper 1934;最近的方法参见 Hutter et al. 2013)。现代设计贝叶斯认识论的尝试(Bovens & Hartmann 2003)似乎没有意识到二十世纪上半叶所做的工作。然而,尝试统一信息 A 和信息 B 似乎是可行的做法(Adriaans 2020)。此外,由于 Gell-Mann & Lloyd (2003) 的工作(另见:Bais 和 Farmer 2008),热力学和信息论之间的联系也变得更加紧密。 Verlinde (2011, 2017) 甚至提出了信息引力的简化(参见信息处理和热力学熵的条目)。
5.1 信息哲学作为数学哲学的延伸
对于信息概念的主要定义,如香农信息、柯尔莫哥洛夫复杂性、语义信息和量子信息,当我们将其解释为数学哲学的延伸时,信息哲学的统一方法是可能的。 “什么是数据?”等问题的答案和“什么是信息?”然后从一个人对“什么是集合?”等相关问题的回答演变而来。和“什么是数字?”事后看来,我们可以观察到数学哲学中的许多开放性问题都围绕着信息的概念。
如果我们审视信息和计算的基础,就会发现有两个至关重要的概念:数据集的概念和算法的概念。一旦我们接受这些概念作为基础,其余的理论数据和计算就会很自然地展开。人们可以在这里“插入”自己最喜欢的认识论或形而上学立场,但这并不会真正影响计算和信息哲学中的基本问题。人们可能会坚持一种形式主义、柏拉图式或直觉主义的数学宇宙观(参见数学哲学条目),并且仍然同意有效计算的基本概念。计算理论由于其有限性和建构性本质,似乎或多或少地存在于这些理论重叠的共同点上。
5.1.1 信息作为一种自然现象
信息作为一个科学概念,在我们每天测量事物时与自然打交道的背景下自然而然地出现。例如,常见的动作,例如用棍子测量物体的大小,用手指计数,用一根绳子画一条直线。这些过程是抽象概念(如长度、距离、数字、直线)的锚点,构成科学的基石。这些概念植根于我们对现实的具体经验,这一事实保证了它们的适用性和有用性。信息处理的最早痕迹是围绕计数、管理和会计的概念演变而来的。
示例:计数棒
最基本的信息测量设备之一是使用计数棒的一元计数。计数棒在大约 20,000 年前就已被使用。当一个假设的史前猎人杀死一只鹿时,他可以通过划痕“|”来记录这一事实。在一块木头上。这样一根棍子上的每一笔都代表一个对象/项目/事件。一进制计数的过程基于将符号串联成序列的初等运算。这种测量方法说明了信息广泛性概念的原始版本:序列的长度是对计数项目数量的度量。请注意,这种顺序计数过程是不可交换和非关联的。如果“|”是我们的基本符号,⊕是我们的串联运算符,那么符号序列的形式如下:
((…(|⊕|)…)⊕|)⊕|)
新符号总是连接在序列的末尾。
这个例子有助于理解上下文在信息分析中的重要性。棍子上的划痕本身可能没有任何意义,但一旦我们确定这样的划痕代表另一个物体或事件,它就变成了一个有意义的符号。当我们在这样的背景下操纵它时,我们就处理信息。原则上,一个简单的划痕可以代表我们喜欢的任何事件或物体:符号是传统的。
定义:符号是指示、表示或被理解为代表想法、对象或关系的标记、符号或文字。
符号是语义锚,符号操纵系统通过它与世界联系在一起。观察元语句:
符号“|”表示对象 y。
如果为 true,则指定语义信息:
它格式良好:该语句具有特定的语法。
它是有意义的:仅在划线“|”的上下文中实际上是故意在例如计数棒或岩石上制作的,以标记明确定义的事件,它具有意义。
这是真实的。
符号操作可以采取多种形式,并且不限于序列。在史前时代可以找到许多不同形式的信息处理的例子。
示例:在美索不达米亚数羊
随着城市化进程,公元前 8000 年左右,美索不达米亚出现了早期的会计系统,使用粘土代币来管理牲畜(Schmandt-Besserat 1992)。不同形状的标记用于不同类型的动物,例如绵羊和山羊。注册后,代币被包装在一个球形粘土容器中,外部有代表其内容的标记。容器被烘烤以使注册永久化。因此,早期的书写形式出现了。公元前 4000 年之后,令牌被挂在一根绳子上以保持秩序。
从集合到字符串的历史转变非常重要。它是一种更复杂的信息编码形式。形式上我们可以区分令牌组合的几个复杂程度:
容器中相似标记的无序集合。这代表一个集合。令牌可以在容器中自由移动。代币的数量是唯一相关的质量。
容器中不同类型令牌的无序集合。这代表所谓的多重集。音量和频率都是相关的。
字符串上类型标记的有序集合。这代表了一个符号序列。在这种情况下,字符串的长度是一个相关的质量。
5.1.2 符号操作和广泛性:集合、多重集和字符串
符号序列比多重集编码更多信息,并且多重集比集合更具表现力。因此,书写本身的出现可以被视为寻找行政数据最具表现力的表现形式的探索。当测量消息序列中的信息时,区分重复、顺序和分组方面非常重要。信息的广泛方面可以根据这种结构操作来研究(参见子结构逻辑条目)。我们可以根据符号序列上定义的运算符来研究消息集。
定义:假设 m、n、o、p、... 是符号,⊕ 是张量或串联运算符。我们定义序列的类:
任何符号都是一个序列
如果 α 和 β 是序列,则 (α⊕β) 是序列
对于序列,我们在符号串联级别定义以下基本属性:
收缩:
(m⊕m)=m。
收缩破坏了序列中有关频率的信息。物理解释:同一符号的两次出现在连接时可以折叠为一次。
交换性:
(m ⊕n)=(n ⊕ m)
交换性破坏了有关序列顺序的信息。物理解释:符号连接时可能会交换位置。
关联性:
(p⊕(q⊕r))=((p⊕q)⊕r)
关联性破坏了有关序列中嵌套的信息。物理解释:符号连接时可以重新组合。
观察:具有收缩性、交换性和结合性的序列系统的行为类似于集合。考虑以下方程:
{p,q}∪{p,r}={p,q,r}
当我们将集合建模为两个序列 (p⊕q) 和 (p⊕r) 时,相应的含义是:
(p⊕q),(p⊕r)⊢((p⊕q)⊕r)
证明:
((p⊕q) ⊕(p⊕r)) 连接
((q⊕p) ⊕(p⊕r)) 交换律
(((q⊕p)⊕p) ⊕r) 结合性
((q⊕(p⊕p)) ⊕r) 结合性
((q⊕p) ⊕r) 收缩
((p⊕q) ⊕r) 交换律
集合、多重集合和字符串的结构方面可以根据以下属性来表述:
集合:消息序列在收缩性、交换性和结合性下折叠成集合。集合是对象的集合,其中每个元素仅出现一次:
{a,b,c}∪{b,c,d}={a,b,c,d}
以及与哪个顺序不相关的:
{a,b,c}={b,c,a}。
集合与我们日常天真的信息概念相关联,即新的、以前未知的信息。仅当我们收到以前未见过的消息时,我们才会更新我们的集合。这种信息概念在顺序和频率方面都是健忘的。消息集无法重建。这种行为与集合的外延性概念相关:我们只对元素的相等性感兴趣,而不是频率。
多重集:消息序列在交换性和结合性下折叠成多重集。多重集是对象的集合,其中相同的元素可以多次出现
{a,b,c}∪{b,c,d}={a,b,b,c,c,d}
以及与哪个顺序不相关的:
{a,b,a}={b,a,a}。
多重集与香农信息中定义的资源敏感信息概念相关联。我们对消息的频率感兴趣。这个概念在顺序方面是健忘的。每次收到消息时我们都会更新集合,但我们忘记了序列的结构。这种行为与信息广泛性的概念相关:我们都对元素的相等性和频率感兴趣。
序列:序列是关联的。序列是有序多重集:aba≠baa。存储消息序列的整个结构。序列与定义为符号序列长度的柯尔莫哥洛夫复杂度相关。
集合可以被解释为对象可以在其中自由移动的空间。当相同的物体彼此靠近时,它们就会塌陷成一个物体。多重集可以解释为对象可以自由移动的空间,但对象总数保持不变。这是广泛性的标准概念:空间的总体积保持不变,但内部结构可能有所不同。序列可以被解释为对象在其中具有固定位置的空间。一般来说,序列比派生多重集包含更多信息,派生多重集比关联集包含更多信息。
观察:序列和多重集概念之间的相互作用可以被解释为一块蜡的可塑性的形式化,它作为信息的范式遍及哲学史。不同的序列(形式)是同一多重集(物质)的表示。蜡块的体积(绳子的长度)是恒定的,因此是蜡中可以表示的信息量(即符号序列)的度量。从量子物理学的角度来看,蜡块的稳定性似乎是一种新兴的特性:当大量的物体被操纵时,原子水平上物体的统计不稳定性似乎会趋于平衡。
5.1.3 集合和数字
数学中的集合概念被认为是基本概念。任何可识别的离散对象的集合都可以被视为一个集合。当我们分析基本陈述时,集合论和信息概念之间的关系就变得清晰起来:
e∈A
其中读取对象 e 是集合 A 的一个元素。观察该语句,如果为真,则表示一条语义信息。它格式正确、有意义且真实。 (参见有关信息语义概念的条目)信息概念已经在数学的基本构建模块中发挥作用。哲学问题“什么是集合?” ti esti 问题的答案是由 Zermelo-Fraenkel 公理隐式确定的(参见集合论条目),其中第一个是外延性:
如果两个集合具有相同的元素,则它们相等。
数学概念由一组公理隐式定义的想法是由希尔伯特提出的,但并非没有争议(参见弗雷格-希尔伯特争议的条目)。定义是隐含的这一事实意味着我们只有集合的例子,而无法制定任何定义它们的肯定谓词。集合的元素不一定是物理的、抽象的、空间的或时间的、简单的或真实的。唯一的先决条件是能够对成员资格做出明确的判断。集合概念的这种隐式定义并不是没有问题的。我们可能会定义乍一看似乎是适当集合的对象,但仔细检查后似乎内部不一致。这是以下基础:
罗素悖论:这个悖论激发了对数学基础的大量研究,它是克里特岛哲学家埃佩门尼德斯(约公元前 6 年)提出的说谎者悖论的一个变体,他显然指出克里特岛人总是说谎。这些悖论的症结在于以下概念的结合:普遍性、否定性和自我参照性。
任何不是克里特岛的人都可以说所有克里特岛人总是撒谎。对于克里特岛人来说,这是不可能的,因为该陈述具有普遍的负面自我指涉性质。如果该陈述是正确的,那么他就没有说谎,这使得该陈述不真实:这是一个基于自我矛盾的真正悖论。沿着同样的思路,罗素创造了所有不属于其自身的集合的集合的概念,其成员资格无法确定。显然,所有集合的集合是集合论中不允许的对象。一般来说,在哲学和数学中,系统验证系统内关于自身的陈述的程度是有限的。 (有关进一步的讨论,请参阅罗素悖论的条目。)
集合概念的隐式定义意味着该类本身本质上是开放的。对于对象的数学定义,它们是否定义了一个集合尚不清楚或存在很大争议。
现代数学哲学始于集合方面的弗雷格-罗素数论(Frege 1879, 1892, Goodstein 1957,参见替代公理集合论条目)。如果我们接受对象类的概念是有效且基本的,以及对象类之间一一对应的概念,那么我们就可以将数字定义为等数类的集合。
定义:两个集合 A 和 B 是等数的,A∼B,如果它们之间存在一一对应关系,即函数 f:A→B,使得对于每个 a∈A 都恰好有一个 f(a) εB。
任何一组(比如四个)对象都会成为数字 4 的表示,对于任何其他对象组,我们可以通过定义与示例集的一对一对应关系来建立定义数字 4 的等价类的成员资格。
定义:如果A是有限集合,则SA={X∣X∼A}是所有与A等数的集合的类。相关的泛化操作是基函数: |A|=SA={X∣X∼A }=n。这定义了与集合 A 关联的自然数 |A|=n∈N。
我们可以通过选择适当的数学示例对象来填充它来重建数学宇宙的大部分,首先假设存在一个唯一的空集 ∅ 代表数字 0。这使我们存在一个只有一个成员的集合{∅} 代表数字 1,重复此构造,{∅,{∅}} 代表 2,整个自然数集合 N 就出现了。初等算术是根据皮亚诺公理定义的:
零是一个数字。
如果 a 是数字,则 a 的后继也是数字。
零不是数字的后继。
后继者相等的两个数本身也相等。
(归纳公理。)如果数字集合 S 包含零,并且还包含 S 中每个数字的后继,则每个数字都在 S 中。
出现的数学宇宙的碎片相对没有争议,柏拉图主义者和建构主义者可能都同意其基本优点。在Peano的公理上,我们可以定义更复杂的函数,例如添加和乘法,这些功能在N和逆函数,减法和分裂上封闭,这些功能未关闭,并导致整数z和合理数Q。