信息(三)
“信息”作为告知的性格,
即,作为对象通知代理商的能力。当教我毕达哥拉斯定理的行为使我提供有关该定理的信息时,自然而然地假设将定理解释的文本实际上“包含”了此信息。文本有能力在我阅读时通知我。从同样的意义上讲,当我从老师那里收到信息时,我有能力将此信息传输给另一个学生。因此,信息成为可以存储和测量的东西。这个作为抽象群众的最后一个信息概念在现代社会中广泛接受,并在19世纪发现了其确定的形式,使Sherlock Homes能够进行以下观察:“……朋友Lestrade将信息掌握在他手中他自己不知道”(“贵族单身汉的冒险”,柯南·道尔(Conan Doyle),1892年)。尽管仍然存在信息和诸如存储,收集,计算和教学之类的信息之间的关联,但与“形式”和“信息”等技术哲学观念的关联已经消失了。
3。现代信息理论的基础
事后看来,许多与最佳代码系统有关的概念,理想的语言以及计算语言之间的关联是自十七世纪以来的哲学反思中经常出现的。
3.1语言
主教约翰·威尔金斯(Maat 2004)提出了通用“哲学”语言的最精致的建议之一(Maat 2004):“关于真实性格和哲学语言的文章”(1668年)。威尔金斯的项目由一个精心设计的符号系统组成,据说与现实中明确的概念有关。诸如此类的建议使哲学家对语言与思想之间的深厚联系敏感。经验主义的方法论使人们可以将语言的发展作为一种传统迹象体系,从人类思想中的思想之间的关联来看。目前称为符号基础问题的问题(任意标志如何获得主体间的含义)是18世纪在语言起源问题的背景下,这是18世纪最严重的问题之一。多元化的思想家是Vico,Condillac,Rousseau,Diderot,Herder和Haman做出了贡献。中心问题是语言是先验的(上帝)还是是构造的,因此是人本人的发明。典型的是由皇家普鲁士科学院于1769年发布的比赛:
En Supsant Les HommesRasternésàLeursAccultésNaturelles,sont-ils enétatd'发明家le langage? et par quels moyens parviendront-ilsd'euxmêmes-cette发明?
假设男人被抛弃了自然学院,他们是否能够发明语言,他们将以什么方式来获得本发明?[1]
争议持续了一个多世纪,没有任何结论。 [2]
从哲学上讲,更相关的是莱布尼兹(Leibniz)(1646–1716)在所谓的特征宇宙中的工作:通用逻辑微积分的概念,这将是科学推理的理想工具。莱布尼兹(Leibniz)哲学中的一个核心前提是,这种完美的科学语言原则上是可能的,因为世界的完美本质是上帝的创造(比率essendi = cognoscendi cognoscendi,存在的起源是知识的起源)。沃尔夫(1679–1754)拒绝了这一原则,他提出了更具启发性的特征综合作用(van Peursen 1987)。这些想法必须等待像Boole(1854年,对思想定律的调查),Frege(1879年,Begriffsschrift),Peirce,Peirce(1886年在1886年已经建议可以使用电路来处理逻辑操作)和Whitehead和Russell, (1910–1913,Mathematica Principia)寻找一种更富有成果的治疗方法。
3.2最佳代码
自书打印的发明以来,字母频率在某种语言中有所不同。与“ X” S或“ Q” S相比,打印机需要更多的“ E” S和“ T” S来排本英语文本。自十七世纪以来,这些知识被广泛用于解码密码(Kahn 1967; Singh 1999)。 1844年,阿尔弗雷德·韦尔(Alfred Vail)的塞缪尔·莫尔斯(Samuel Morse)的助手确定了新泽西州莫里斯敦(Morristown)当地报纸上使用的字母频率,并用它们来优化摩尔斯码。因此,最佳代码理论的核心已经建立在香农建立其数学基础之前(Shannon 1948; Shannon&Weaver 1949)。历史上重要但在哲学上的重要性不大的是查尔斯·巴巴奇(Charles Babbage)为构建计算机的努力(1821年的差异引擎和1834- 1871年的分析引擎),以及Ada Lovelace(1815–1852)的尝试,以设计被认为是第一个被认为是第一台的东西分析引擎的编程语言。
3.3个数字
表示数字的最简单方法是通过一单系统。在这里,数字的表示的长度等于数字本身的大小,即数字“ ten”表示为“ \\\\\\\\\\\\ \”。经典的罗马数字系统是一个改进,因为它包含不同数量级的不同符号(一个= i,ten = x,00 = c,千= m)。该系统具有巨大的缺点,因为原则上,一个人需要无限量的符号来编码自然数,并且由于此数字相同的数学操作(添加,乘法等)以不同的数量级采取不同的形式。大约500 ce零数字是在印度发明的。使用零作为占位符,我们可以用有限的符号(一个= i,ten = 10,百万= 100 = 100,千= 1000等编码一个无穷大的数字)。从现代的角度来看,只要我们有0作为占位符和有限数量的其他符号,就可以实现无限的位置系统。我们的正常小数组系统具有十个数字“ 0、1、2、3、4、5、6、7、8、9”,代表255五十五的数字为“ 255”。在二进制数系统中,我们只有符号“ 0”和“ 1”。在这里,两百五十五名表示为“ 11111111”。在具有16个符号(0、2、3、4、5、6、7、8、9,A,a,b,c,d,e,f)的十六进制系统中。请注意,这些表示形式的长度有很大的不同。使用此表示,数学操作可以标准化,无论我们要处理的数字数量级,即,对数学函数的统一算法处理的可能性(加法,减法,乘法和划分等)都与此类算法相关联位置系统。
位置编号系统的概念是由波斯数学家Al-Khwarizmi(约780 –CA。850CE)带到欧洲的。他在数字上的主要工作(公元820年)被翻译成拉丁语,因为在十二世纪,他是Liber Algebrae et almucabola,这使我们在其他方面赋予了“代数”一词。我们的“算法”一词源自他名字的拉丁语形式Algoritmi。位置数字系统简化了商业和科学计算。
1544年,迈克尔·史蒂菲尔(Michael Stifel)介绍了Arithmetica Integra(1544)中数字指数的概念。因此,8可以写为23和25为52。指数的概念立即表明对数的概念是其逆函数:logbba = a。 Stifel比较了算术序列:
-3,-2,-1,0,1,2,3
其中术语1与几何序列有1个差异:
1
8
,
1
4
,
1
2
,1,2,4,8
其中术语的比率为2。指数符号使他能够将第二个表的值重写为:
2-3,2-2,2-1,20,21,22,23
结合了两个表。可以说这是第一张对数桌子。约翰·纳皮尔(John Napier,1550–1617)在他的主要作品(Napier 1614)中开发了更确定和实用的对数理论。他创造了术语对数(徽标 +算术:数字比率)。从算术和几何进程之间的匹配中可以明显看出,对数将产物减少到总和:
logb(xy)= logb(x)+logb(y)
它们还将分歧减少到差异:
logb(x/y)= logb(x)-logb(y)
和产品的力量:
logb(xp)= plogb(x)
布里格斯(Briggs)(1624)出版了对数表(对数表)后,这种促进复杂计算的新技术迅速获得了流行。
3.4物理学
伽利略(1623)已经提出,对热和压力等现象的分析可以减少到对基本颗粒运动的研究。在经验方法中,这可以被认为是一个问题,即如何将物体热量或气体的次要质量减少到颗粒的运动中。 Bernoulli(1738年出版的流体动物学)是第一个发展一种气体理论的人,其中用宏观观察到的现象描述了遵守牛顿力学定律的颗粒系统的微晶格,但要提出智力上的努力,有足够的数学处理。克劳西乌斯(Clausius,1850年)在两次碰撞之间提出了粒子的平均自由路径的概念时,做出了结论性的步骤。这为麦克斯韦(Maxwell)的统计处理打开了道路,麦克斯韦(Maxwell)于1857年提出了他的分布,这是物理学的第一条统计法。 Boltzmann开发了将所有概念联系在一起的权威公式(尽管实际公式是由Planck造成的,但刻在他的墓碑上):
s = klogw
它描述了系统的熵s,以可能的微晶格数量的对数,与系统的可观察到的宏观状态一致,其中k是众所周知的玻尔兹曼常数。从所有简单的角度来看,这种公式对现代科学的价值几乎不能被高估。从信息理论的角度来看,“ logw”一词可以通过各种方式来解释:
作为系统中的熵量。
由于数量的长度与宏观观察一致的所有可能的微晶体所需的长度。
作为最佳索引的长度,我们需要确定系统的特定当前未知微晶格,即,它是我们“缺乏信息”的量度。
作为与宏观观察一致的系统任何典型特异性微晶格的概率的衡量标准。
因此,它将对数的添加性与熵,概率,典型性和信息的广泛品质联系起来,这是使用数学来分析自然的基本步骤。后来吉布斯(Gibbs,1906)完善了公式:
s = -
Σ
我
Pilnpi,
其中pi是系统在ITH微晶格中的概率。该公式由Shannon(1948; Shannon&Weaver 1949)采用,以表征信息系统的通信熵。尽管熵和信息的数学处理之间存在密切的联系,但此事实的确切解释从那以后一直引起争议(Harremoës&Topsøe2008; Bais&Farmer 2008)。
4。信息哲学的发展
现代信息理论出现在20世纪中叶,在特定的智力氛围中,科学与学术哲学部分之间的距离非常大。一些哲学家表现出一种特定的反科学态度:海德格尔(Heidegger),“死亡的wissenschaft denkt nicht”。另一方面,来自维纳·克雷斯(Wiener Kreis)的哲学家公开抹黑了传统哲学,因为它处理了幻觉问题(Carnap 1928)。
逻辑实证主义的研究纲领是基于经验主义和逻辑学最新进展的结合对哲学的严格重建。也许正是由于这种知识氛围,信息理论的早期重要发展是在脱离主流哲学反思的情况下发生的。一个里程碑是 Dretske 在八十年代初的工作(Dretske 1981)。自世纪之交以来,人们对信息哲学的兴趣大大增长,这主要是受到卢西亚诺·弗洛里迪(Luciano Floridi)关于语义信息的工作的影响。此外,量子计算理论的快速发展和相关的量子信息概念也对哲学反思产生了影响。
4.1 波普尔:作为可证伪程度的信息
二十世纪上半叶维也纳国家的逻辑实证主义研究计划重振了旧的经验主义计划。它的目标是在直接观察和这些观察陈述之间的逻辑关系的基础上重建科学知识。康德对经验主义的旧批评被蒯因(1951)复兴了。在逻辑实证主义的框架内,归纳法是无效的,因果关系永远无法客观地建立。波普尔在他的《研究逻辑》(Logik der Forschung,1934)中阐述了他著名的分界标准,并将其明确定位为休谟归纳问题的解决方案(Popper 1934 [1977:42])。表述为一般规律的科学理论永远无法得到明确证实,但仅通过一次观察就可以证伪它们。这意味着如果一个理论更丰富并提供更多被证伪的机会,那么它就“更”科学:
因此,可以说,理论所传达的经验信息量或其经验内容随着其可证伪程度的增加而增加。 (Popper 1934 [1977: 113],强调原文)
在波普尔研究计划的背景下,这句话表明,在香农提出他的信息理论之前十多年,测量被视为一组逻辑陈述的科学理论中的经验信息量的雄心已经被认为是一个哲学问题波普尔意识到理论的经验内容与其可证伪性有关,而这又与理论中陈述的概率有关。具有更多经验信息的理论的可能性较小。波普尔将逻辑概率与数值概率区分开来(“它用于游戏和机会理论以及统计学”;Popper 1934 [1977:119])。在一段对信息概念后来的发展具有纲领意义的段落中,他定义了逻辑概率的概念:
一个陈述的逻辑概率与其可证伪性是互补的:它随着可证伪性程度的降低而增加。逻辑概率 1 对应于可证伪度 0,反之亦然。 (Popper 1934 [1977: 119],强调原文)
可以将数值概率解释为应用于子序列(从逻辑概率关系中挑选出来),可以根据频率估计为其定义测量系统。 (Popper 1934 [1977: 119],强调原文)
波普尔从未成功地提出一个好的形式理论来衡量这种信息量,尽管他在后来的著作中表明香农的信息理论可能有用(Popper 1934 [1977], 404 [附录 IX, from 1954])。这些问题后来在科学哲学中得到发展。构象理论研究归纳理论以及证据“支持”某种理论的方式(Huber 2007 [OIR])。尽管卡尔纳普的工作推动了科学哲学和信息哲学的重要发展,但这两个学科之间的联系似乎已经消失。 Kuipers (2007a) 中没有提到信息论或信息哲学中的任何更基础的工作,但这两个学科肯定有重叠的领域。 (参见 Kuipers (2007b) 和 Rathmanner & Hutter (2011) 对所谓黑乌鸦悖论的讨论。)
4.2 香农:用概率定义的信息
在两篇具有里程碑意义的论文中,Shannon (1948;Shannon & Weaver 1949) 描述了消息 A 系统的通信熵:
H(P)=−
Σ
i∈A
pilog2pi
这里pi是A中消息i的概率。这正是物理学中吉布熵的公式。使用以 2 为底的对数可确保代码长度以位(二进制数字)为单位进行测量。很容易看出,当所有消息具有相同概率且具有典型性时,系统的通信熵最大。
单个消息 x 中的信息量 I 由下式给出:
I(x)=−logpx
这个公式可以解释为玻尔兹曼熵的倒数,涵盖了我们对信息的一些基本直觉:
消息 x 的发生概率为 px,介于 0 和 1 之间。
如果 px=1,则 I(x)=0。如果我们确定收到一条消息,那么它实际上根本不包含任何“新闻”。消息的概率越低,它包含的信息就越多。像“明天太阳将升起”这样的消息似乎比“耶稣是凯撒”这样的消息包含的信息少,正是因为第二个陈述不太可能被任何人捍卫(尽管可以在网络上找到)。
如果两个消息 x 和 y 不相关,则 I(x 和 y)=I(x)+I(y)。信息很广泛。两个组合消息中的信息量等于各个消息中的信息量之和。
作为概率的负对数的信息是唯一完全满足这些约束的数学函数(Cover & Thomas 2006)。香农提供了一个理论框架,其中二进制字符串可以解释为包含一定量信息的(编程)语言中的单词(参见 3.1 语言)。表达式 -logpx 准确地给出了消息 x 的最佳代码的长度,因此形式化了旧的直觉,即当频繁的字母得到较短的表示时,代码会更有效(参见 3.2 最佳代码)。对数作为乘法简化为加法(参见 3.3 数字)是系统广泛属性的自然表示,并且在 19 世纪已被物理学家使用(参见 3.4 物理学)。
香农的定义明确未涵盖的信息的一方面是被解释为命题的消息的实际内容。因此,“耶稣是凯撒”和“月亮是由绿色奶酪制成的”这句话可能携带相同的信息量,但它们的含义却完全不同。信息哲学的很大一部分努力都致力于制定更多语义信息理论(Bar-Hillel & Carnap 1953;Floridi 2002、2003、2011)。尽管香农的提议最初几乎完全被哲学家们忽视,但在过去的十年里,它们对哲学问题的影响已经显而易见。 Dretske (1981) 是最早分析香农理论的哲学含义的人之一,但各种逻辑系统和信息理论之间的确切关系仍然不清楚(见 6.6 逻辑和语义信息)。
4.3 Solomonoff、Kolmogorov、Chaitin:信息作为程序的长度
Carnap (1945, 1950) 解决了将一组陈述与一组观察结果联系起来并定义相应概率的问题。他区分了概率的两种形式:概率1或“确认程度”P1(h;e)是两个句子之间的逻辑关系,假设h和报告一系列观察结果的句子e。这种类型的陈述要么是分析性的,要么是矛盾的。第二种形式,概率2或“相对频率”,是统计概念。用他的学生所罗门诺夫(Solomonoff,1997)的话来说:
卡尔纳普的概率模型始于一长串符号,这些符号描述了整个宇宙。通过他自己的形式语言分析,他能够为任何可能代表宇宙的符号串分配先验概率。
卡纳普使用的分配概率的方法并不通用,并且在很大程度上取决于所使用的代码系统。只有当我们能够为“任何可能的符号串”分配通用概率时,才能发展出使用贝叶斯规则的一般归纳理论。在 1960 年的一篇论文中,所罗门诺夫 (Solomonoff, 1960, 1964a,b) 第一个勾勒出该问题解决方案的轮廓。他提出了现在所谓的通用概率分布的概念:将所有可能的有限字符串的集合视为通用图灵机 U 的程序,并根据最短程序的长度定义符号串 x 的概率p 在 U 上输出 x。
算法信息论的概念后来由 Kolmogorov (1965) 和 Chaitin (1969) 分别独立发明。 Levin (1974) 开发了通用先验概率的数学表达式作为通用(即最大)下半可计算半测度 M,并表明 M(x) 的负对数与 x 的 Kolmogorov 复杂度一致,直到加性对数项。复杂性度量的实际定义是:
柯尔莫哥洛夫复杂度 字符串 x 的算法复杂度是在通用图灵机 U 上运行时产生 x 的最小程序 p 的长度 l(p),记为 U(p)=x:
K(x):=
分钟
p
{l(p),U(p)=x}