计算语言学(一)

“人类知识以语言表达。 所以计算语言学非常重要。“ -Mark斯莱德曼,ACL总统址(2007)

计算语言学是从计算的角度来了解书面和口语的科学和工程学科,并在批量或对话环境中建立有利于流程和生产语言的文物。 在语言是一种镜子的范围内,对语言的计算理解也提供了思维和智慧的洞察力。 由于语言是我们最自然和最通用的通信手段,因此语言主管计算机将极大地促进我们与各种机器和软件的互动,并以真正满足我们的需求,广大文本和互联网资源的方式投入我们的指尖。

以下文章概述了计算语言学的目标和方法(在历史角度),然后详细阐述了语言结构和分析的基本概念(第2节),解释(第3-5节)和语言使用(第6-7节),如以及自然语言处理中的语言(第8节),统计和机器学习技术的知识(第9节)和杂项应用(第10节)。

1.简介:计算语言学的目标和方法

1.1计算语言学的目标

1.2计算语言学方法

2.语法和解析

2.1结构层次结构

2.2语法

2.3解析

2.4应对句法歧义

3.语义表示

3.1逻辑家意义代表方法

将语言与逻辑相关联

主题角色和(新)戴维森表示

表达问题

Canonicalization,主题角色(再次)和基元

3.2心理上的意义方法

代表性的方法

连接主义方法

3.3统计语义

3.4在实践中哪种语义?

4.语义解释

4.1映射句法树到逻辑表格

4.2从属于语法的角色

4.3应对语义歧义和缺点

5.发表意义

5.1处理参考和各种形式的“缺失材料”

5.2建立连接

5.3处理比喻语言

5.4综合方法

前景

6.语言生成

7.了解和参与,对话

8.获取语言知识

8.1手动知识编码

8.2知识提取文本

8.3众包

9.统计NLP

10.应用程序

10.1机器翻译(再次)

10.2文档检索和聚类应用程序

10.3知识提取和总结

10.4情绪分析

10.5聊天和友好的对话代理人

10.6虚拟世界,游戏和互动小说

10.7自然语言用户界面

基于文本的问题回答

数据库前端

推论(基于知识的)问题回答

基于语音的Web服务和助手

10.8协作问题求解器和智能导师

10.9启用语言的机器人

参考书目

学术工具

其他互联网资源

相关条目

1.简介:计算语言学的目标和方法

1.1计算语言学的目标

计算语言学的理论目标包括制定语法和语义框架,用于表征语言的方式,从而实现句法和语义分析的计算易诊实现; 发现处理技术和学习原则,用于利用语言的结构和分布(统计)属性; 并且在大脑中发生了语言处理和学习的认知和神经透明度的可编程计算模型。

该领域的实际目标是宽泛的。 一些最突出的是:在某些所需主题上有效的文本检索; 有效的机器翻译(MT); 问题回答(QA),从简单的事实问题到需要推动和描述性或话语答案的人(可能是符合理由); 文字摘要; 分析主题,情绪或其他心理属性的文本或口语; 用于完成特定任务的对话代理(购买,技术麻烦拍摄,旅行计划,安排维护,医疗建议等); 最终,创建具有人类竞争力的计算系统,在对话中获取语言和从文本获取知识。

1.2计算语言学方法

在计算语言学中的理论和实践研究中采用的方法往往绘制了理论语言学中的理论和结果,哲学逻辑,认知科学(特别是精神语言学)和计算机科学。 然而,从20世纪50年代中期到1970年代中期的早期工作往往是相当的理论中立,主要关切是发展为MT和简单QA这样的应用的实用技术。 在MT中,核心问题是词汇结构和内容,对特定域的“子宫语言”的表征(例如,天气预报),以及从一种语言转换到另一语言(例如,使用相当ad hoc图形转换语法或转移语法)。 在QA中,关注特征在特定域中遇到的问题模式,以及这些问题模式对答案可能存储的形式的关系,例如在关系数据库中。

到20世纪60年代中期,许多研究人员通过越来越多的通用计算机而顽固的研究人员,并受到人类人工智能梦想的启发,是设计旨在真正语言理解和对话的设计系统。 所用的技术和理论内限变化很大。 依赖语言或认知理论的程序的一个例子是Joseph Weizenbaum的伊丽莎计划,旨在模拟(或漫画)罗杰精神病学家。 Eliza依赖于将用户输入匹配到存储的模式(简短的单词序列与输入的编号插槽交叉,从输入填充),并返回与匹配的输入图案相关联的一组输出模板之一,从输入中实例化。 虽然Eliza及其现代的Chatbot后裔常常依靠仅仅欺骗,但可以认为人类的口头行为是以伊丽莎的方式对某种程度的反思,即,我们在某些情况下以“预编程”或公式方式起作用例如,在交换问候时或在吵闹的派对中回应其内容,除了偶尔的话语外,挑战了我们。

研究人员在大脑中的思想中提出了一种非常不同的语言处理的看法。 例如,M. Ross Quillian(1968)提出了一种基于通过关系链路的概念网络(通常对应于名词的传播激活)的“扩展激活”(通常对应于动词的感测量)的“扩展激活”(通常对应于动词的感官或介词)。 这位“语义记忆”模型的变体由Rumelhart,Lindsay和Norman(1972)等研究人员追求,并仍然是语言和认知的计算模型中的积极研究范式。 另一种心理上启发的工作线在20世纪60年代开始,并追求了罗杰施纳克和他的伙伴二十多年的追求,但在他的情况下,目标是完整的故事理解和推崇问题回答。 这项工作的中央宗旨是,句子含义的代表和世界知识围绕几次(例如11)个动作原语,以及推动的主要是主要与这些原语相关的规则; (一个类似的观点的突出指数是Yorick Wilks)。 也许Schank的工作中最重要的方面是认可,语言理解和推理严重依赖于大量背景知识,包括许多“脚本”的知识(熟悉的熟悉的复杂事件,如餐厅,展开)和计划(人们试图完成目标的原型方式)(Schank&Abelson 1977)。

在20世纪60年代中也出现的更纯粹的AI启发方法是在悲伤的Sam(Lindsay 1963),先生(Raphael 1968)和学生(Bobrow 1968)等系统中举例说明。 这些特色的设备,如模式匹配/转换,用于分析和解释英语的受限子集,以关系层次结构和属性值列表的形式和基于图形搜索,正式扣除协议和数值代数的QA方法的知识。 一个有影响力的想法,稍后出现的是AI系统的知识应该是手术地构成的,而不是声明方式 - 知道某些东西是能够执行某些功能(Hewitt 1969)。 例示方法的两个相当令人印象深刻的系统是SHRDLU(Winograd 1972)和Lunar(Woods等,1972),它包含复杂的程序化语法和语法到语义映射规则,并且能够运行在他们的“微域”(表上的模拟块)和月球岩石数据库中相当强大。 此外,SHRDLU的精彩规划能力,由Microplanner Goal-Chaining语言(Prolog的前兆)启用。 所有这些方法仍然存在的困难是扩大语言覆盖范围和解析和解释的可靠性,以及大多数情况下,从微微弥散物中移动,或者覆盖几段文本,更加多样化的域名。 扩大的大部分难度都归因于“知识获取瓶颈” - 编码或获取无数事实和规则的难度明显需要更普遍的理解。 含有几篇文章的经典系列在最后两段中提到的早期工作是Marvin Minsky的语义信息处理(1968)和Schank和Colby的思路和语言计算机模型(1973)。

自20世纪70年代以来,普遍存在的趋势远离纯粹的程序方法,旨在以更加理解的理论基础更加易懂,模块化,可重复使用的形式编码大部分语言和世界知识。 这种趋势是通过综合语法 - 语义框架的出现来实现的,例如广义短语结构语法(GPSG),头驱动短语结构语法(HPSG),词汇功能语法(LFG),树 - 相邻的语法(标签)和组合分类语法(CCG),在每种情况下,在每种情况下,都会对解析的计算途径进行了接近的理论关注,以及从语法到语义的映射。 后者领域最重要的发展中,理查德蒙塔格的深刻洞察力进入语言的逻辑(特别是普遍)语义,以及汉斯·昆明和伊里Heim的话语代表理论(DRT)的发展,提供了系统性的,语义上的语义正式叙述。

自然语言处理的几乎所有方面都始于20世纪80年代后期,在1995年底几乎完成:这是转向基于语料库的统计方法(例如,通过季度计算出现在主题上的两个特殊问题的出现。1993年的语言学)。 新的范例是通过越来越多的可用性和发出的机器可读文本和语音数据的批量来实现的,并且由于越来越意识到语言分布特性的重要性,强大的新统计学学习技术的发展,以及希望以来,这些技术将克服自成本以来困扰计算语言学(更广泛AI)的可扩展性问题。

基于语料库的方法确实在制作全面,中等准确的语音识别员,演讲部分(POS)标签,解析器中非常成功,用于学习的概率术语 - 结构语法,甚至是MT和基于文本的QA系统和摘要系统。 然而,语义处理被限制为相当浅的方面,例如从文本(例如,地点,日期,犯罪者,受害者等的特定事件的提取特定数据(例如,恐怖主义轰炸)或提取论证类型的群,关系来自Text Corpora的元组或释义集。 目前,基于语料库的统计方法仍然占主导地位,但似乎越来越朝着与基于语料库的统计方法集成语言的正式逻辑方法,以实现更深入的理解和语言理解和对话系统的智能行为。 还有努力将连接人员和神经网络方法与象征性和逻辑的努力结合起来。 以下部分将详细阐述上面触及的许多主题。 计算语言学的一般参考是Allen 1995,Jurafsky和Martin 2009,以及Clark等人。 2010。

2.语法和解析

2.1结构层次结构

语言在多个级别中结构,从语言语言的语言,可以映射到手机的语言(建立语言的可区分连续声音)。 相当于给定语言的手机组(如果互换)是语言的音素,则相当于给定语言的手机(不影响听者识别的单词)。 音素反过来是语素的成分(最小有意义的单词段),这些组成部分提供了单词的组成部分。 (在书面语言中,一个说出字符,图形,音节和单词。)单词被分组为短语,例如名词短语,动词短语,形容词短语和介词短语,这是句子的结构组件,表达了完整的想法。 在较高的水平下,我们具有各种类型的话语结构,尽管这通常比较低级别的结构宽松。

在所有这些结构级别的语言分析中已经开发了技术,尽管空间限制不允许严重讨论单词水平以下的方法。 然而,应该指出的是,在20世纪80年代和1990年代为语音识别开发的技术在转向新的语料库的基于语料库的统计方法时,在转向上述新的统计方法方面是非常有影响力的。 一个关键的想法是隐藏的马尔可夫模型(HMMS),它的模型“嘈杂”序列(例如,电话序列,音素序列或单词序列),仿佛由“隐藏”底层状态及其转换产生概率。 单独或分组,连续隐藏状态模型更摘要,从观察到的噪声序列中提取更高级别的成分,例如来自手机的音素,来自音素的单词,或来自单词的部分语音。 生成概率和状态转换概率是此类模型的参数,重要的是这些可以从训练数据中学习。 随后,可以使用诸如维特比算法的快速动态编程算法,有效地应用于对新数据的分析。 这些相当成功的技术随后推广到更高级别的结构,很快影响NLP上的所有方面。

2.2语法

在考虑如何表示,分析和使用语法结构之前,我们应该询问我们在首先考虑特定语法的“正确”,或特定句子“语法”的基础。 当然,这些主要是语言学的问题,但我们给出的答案肯定会对计算语言学产生后果。

传统上,正式的语法旨在捕捉语言学家的直觉,尽可能简明扼要地掌握良好的良好,这也可以允许关于特定语言的概括(例如,英语问题中的主题辅助反演)和语言(例如,符合标称主题,动词和宣言的标称对象的一致排序,宣言的务实中性主条款)。 关于语言学家的具体良好的判断,值得注意的是,这些在很大程度上不仅彼此一致,而且还与非语言学家的判断 - 至少为“明显的语法”和“明确不明语言”的句子(Pinker 2007)。 此外,发现传统的短语结构支持优雅的成分理论,意思是传统理论方法的信任。

然而,传统的正式语法一般没有全面涵盖任何一种语言,并且在良好的良好和不良成本之间造成了尖锐的界限,因为实际上人们(包括语言学家')许多句子的语法判断是不确定的或等因素。 此外,当我们寻求处理“在野外”的句子时,我们希望在语言,方言和错误和邋and的语言,语言和错误的语言中的区域,流派特异性和依赖依赖性变化(例如,拼写错误,未卸下句子,犹豫和修理演讲,非母语扬声器产生的错误组成排序,以及母语扬声器的僵化错误,例如“为您和我” - 在主题中敏捷地瞄准“你和我”的产品位置)。 因此,语言学家在大多数实际应用中需要进行变异的理想语法。 通常满足这种需求的方式是通过允许大量的短语结构规则,而不是语言定义会制裁 - 10,000或更多规则而不是几百个。 这些规则不是由语言学家(计算或其他方式)直接提供的,而是可以“读出”的书面或口语语言的语言,这些语言由培训的注释器(如语言学研究生)与其基本的短树结构装饰。 无监督的语法收购(通常以POS标记的培训语料表开始)是另一个大道(见第9节),但结果易于令人满意。 结合统计培训和解析技术,这种语法的松动导致包括语法缺陷的句子的相当不同的概念:它不一定是由语法拒绝的,而是一个人的分析需要一些很少使用的规则。

如第1.2节所述,计算语言学中使用的语法的表示从程序中使用的语法与正式语言学中开发的那些,以及由计算导向的语言学家开发的系统性,令人透明的可抵押型。 例如,Winograd的Shrdlu程序,例如,在他的Programmar语言表达中包含代码,

解析句子,尝试解析名词短语(NP); 如果这失败,则返回nil,否则尝试解析动词短语(vp),如果此,如果此失败,或在剩余单词中取得成功,则返回nil,否则返回成功。

类似地,Goods的Lunar语法基于某种程序性解释的转换图(增强过渡网络或ATN),其中句子子图可能包含标有NP的边缘(使用NP子图分析NP),然后是边缘标记为VP(类似地解释)。 在这两种情况下,都注册了本地特征值(例如,NP和NP和VP的数量和人员),并检查协议作为成功的条件。 密切相关的形式主义是,明确的条款语法(例如,Pereira&Warren 1982),它雇用了Prolog来断言“事实”,例如,如果输入字序列包含从索引I1到索引I2和VP的NP从索引I2到索引I3到达,然后输入包含从索引I1到索引I3的句子。 (再次,特征达成约束也可以纳入这样的断言。

目前,语法结构的最常用的声明表明是由NOAM Chomsky(1956,1957)所定义的无内容语法(CFG),因为它们的简单性和有效的可解析性。 乔姆斯基曾认为只有深层语言表征是无与伦比的,而表面形式是由转换生成的(例如,英语钝化和问题形成)产生,导致非上下文的语言。 然而,它后来表明,一方面,允许不受限制的恰当的变革语法用于计算棘手的难以和甚至是不可识别的语言,另一方面,在呼吁呼吁改变分析中,可以在一个方面处理乔马斯基的现象通过使用合适的功能在句法类别规范中使用的无系统框架。 值得注意的是,无限的运动,例如最终动词对象的表观运动在“哪辆车所做的杰克敦促您购买?”的情况下,就可以在/ NP [WH]的类型/ NP [WH]的间隙(或斜线)特征方面进行分析在两个嵌入的VPS中,提供一种途径,用于将前面物体的类别匹配到腾空对象位置的类别。 在非变革语法框架内,因此讲述无限的(或长途)依赖性而不是无限的运动。 同时应该指出的是,至少一些自然语言被证明是轻微的上下文敏感的(例如,荷兰语和瑞士德国展览跨串行依赖性,其中一系列名义“NP1 NP2 NP3 ......”需要以同样的顺序匹配,随后的一系列动词“v1 v2 v3 ...”)。 似乎允许大约正确的温和上下文敏感度的语法框架包括头部语法,树邻接语法(标签),组合分类语法(CCG)和线性索引语法(LIG)。 头部语法允许插入短语头部(例如,VP的初始动词,NP的最终名词或句子的VP)和已经存在的补充; 他们是头部驱动短语结构语法(HPSG)的历史前身,一种统一语法(见下文),在计算语言学中受到了很多关注。 但是,不受限制的HPSG可以生成递归才能令人令人携带(仅仅是半可判定的)语言。

(本章完)

相关推荐