计算语言学(十一)

推论(基于知识的)问题回答

我们已经注意到基于文本的QA系统和NL前端的某些有限的推理能力,用于数据库,例如在涉及的条款之间使用简单的语义关系确认候选答案和问题之间的征询关系的能力,以及从数据库中排序或分类数据集的能力并计算平均值甚至创建统计图表。

然而,这种有限的专业推断方法远远缩短了基于象征知识的一般推理,这长期以来一直是AI问题的答案。 创建真正推理的QA系统的最早努力之一是L. Stephen Coles(Coles 1972)的Englaw项目。 Englaw旨在作为一种系统的原型,该系统可能被科学家和工程师使用,以获取有关物理法律的信息。 它为128个重要的物理定律提供了一kB的公理(一阶逻辑),借助参考文本手动编码。 问题(例如“在Peltier效应中,通过变换语法解析器的逻辑呈现为逻辑的热量依赖于电流的逻辑,以及将短语模式映射到逻辑表达式的逻辑中的逻辑。 该系统没有发展到实际有用的程度,但其推理和NLP技术的整合及其选择性地检索推理QA的公理的方法是值得注意的。

旨在实现实际目标的后续更大规模系统的一个例子是BBN的Janus系统(Ayuso等,1990)。 这是为了海军战役应用程序,可以回答有关船舶的地点,准备,速度和其他属性的问题,允许随着时间的推移而变化。 它将英文查询映射到一个非常富有表现力的初始表示语言,具有“内涵”运营商,以将公式与可能的世界相关联,而可能映射到NIKL描述逻辑,这证明了针对目标所需的大多数推论各种QA。

在时间上跳跃,我们注意到由Wolfram研究开发的基于Web的Wolfram | Alpha(或Wolframalpha)答案引擎,由1500万行的数学数学代码组成,用于策划数据库,模型和算法成千上万的不同领域。 (Mathematica是由英国科学家斯蒂芬Wolfram开发的数学上导向的高级编程语言。)该系统主要倾斜,主要朝向定量问题(例如,“,”法国的GDP是什么?“,或”表面是什么月亮区域?“)并且经常提供图表和图形以及更直接的答案。 使用Mathematica的模式匹配和符号操作能力来完成对应用于各种已知对象的函数的函数的解释。 但是,在撰写本文时,英语的理解并非特别强劲。 例如,“林肯在死亡时多大了?”,“在林肯死亡的时候?” 虽然在许多误区的情况下,虽然在许多情况下,但是,Wolfram | alpha显示足够的检索信息以允许推理答案。 相关的缺点是Wolfram | alpha的定量技能并未补充具有显着的定性推理技能。 例如,“苏格拉底是一个男人吗?” (再次,在撰写本文时)提示显示有关苏格拉特的摘要信息,包括图像,但没有直接回答问题。 仍然,Wolfram | Alpha的定量能力不仅在独立模式中有趣,而且还可用作搜索引擎(如Microsoft Bing)的增强和基于语音的个人助理(如Apple的Siri(见下文)。

另一个QA系统享有广泛的认可,因为它在危险中的电视胜利! 测验显示是IBM的“Watson”(Ferrucci 2012; Ferrucci等,2010; Baker 2011)。 像Wolfram | Alpha,这是一个感觉蛮力程序,由Java,C ++,Prolog和其他语言中的大约一百万行代码组成,由20名研究人员和软件工程师在三年内创建的。 该程序在Ninety IBM Power 750服务器上并行运行3000个进程,并从Wordnet,Wikipedia(及其结构衍生物Yago和Dbpeia),叙述,新闻版等来源访问200万页文章和文学文本,达到了几种人类知识。 (这转化为大约1010个氏块块 - 一个可能大约2个数量级大的数字大于任何人类所处的基本事实的数量。)

Watson而不是依赖于任何单个语言或语义分析,或者判断所检索的通道和文本“掘金的相关性和文本”掘金“的相关性,包括多种方法对问题和候选答案,包括问题分类方法,焦点实体检测,解析,块,词汇分析,逻辑形式计算,指导确定,关系检测,时间分析以及涉及双关语,anagram和其他曲款的曲折的讨论答案对的特殊方法! 不同的问题分析分别用于检索相关文件,并从这些文件中的段落和句子中获得,分析和分享潜在答案。 一般而言,产生了许多问题的候选答案,他们的分析提供了数百个特征,其权重由应用于过去危险语料库的ML方法学习了与相应的置信水平获得的排名答案! 问题和答案(或正式,答案和问题,根据Jeopardy的特殊思想!协议)。 Watson的摇头基于其潜在答案的置信水平和复杂的回归模型。

Watson如何适应我们的推论知识QA的标题? 它实际上是否了解它产生的问题和答案? 尽管对危险的表现令人印象深刻! 冠军,沃森的原因,并在仅限禁区中理解英语。 该计划利用了危险目标的事实! 问题通常是一个命名实体,如吉米卡特,伊斯兰堡或加尔各答的黑洞,尽管其他类型的短语是偶尔的目标。 Watson可能会发现多个句子提及所需类型的特定实体,其句法和语义特征接近问题的特征,从而使命名实体成为一个没有真实理解这个问题的合理答案。 例如,“最近的历史”问题要求美国向共产主义全面承认的总统(2012年Ferrucci 2012)可能会在这些判决中零零

虽然他是1978年与中国与中国完全外交关系恢复的总统,但Jimmy Carter从未访问过那个国家......(纽约时报,1981年6月27日)

要么

两国核科学家之间的交流在吉米卡特总统于1978年在吉米卡特正式认可的中国开始迈出。(纽约时报,2001年2月2日)

虽然这些句子之间的联系是间接的(例如,依赖于解决他和吉米卡特的解决方案,以及与认可和共产主义与中国共产主义和共产主义的外交关系的解决方案,但对这些链接的正确分析不是成功的要求 - 就足以呈现答案jimmy carter的群体(因为他们的单词和短语内容和许多其他特征)来提供比任何竞争的群集更大的净重。 这种类型的统计证据组合基于所存储的文本似乎不太可能提供一种甚至熟悉的理解的道路,即甚至一年级的人背叛回答简单的勤义问题,例如“在下雨时如何弄湿?”,或“如果你吃饼干,会发生什么到饼干?” 同时,以沃森的方式利用的庞大数据库可以弥补各种应用中的推理弱点,而IBM正在积极重新开发Watson作为医生的资源,应该能够提供甚至专家的诊断和治疗可能性可能没有触手可及。 然而,总而上,基于真正理解和基于知识的推理的开放式QA的目标在很大程度上是未实现的。

基于语音的Web服务和助手

基于语音的服务,尤其是在移动设备上,是一种快速扩展的应用区域。 服务范围从组织者(用于杂货名单,会议时间表,提醒,联系人列表等),到汽车“信息娱乐”(路由,交通状况,危险警告,iTunes选择,在附近的餐馆和其他场地等),到能够使用其他杂项应用程序,如电子邮件听写,拨打联系人,财务交易,预订,维基百科访问,帮助办公室服务,健康建议和一般问题回答。 其中一些服务(如拨号和iTunes选择)落入免提控制的类别,并且在运输(包括无人驾驶或飞行车),物流(资源部署)和制造业中,这种控制变得越来越重要。 此外,Chatbot技术和友好的对话代理(如第10.5节所述)正作为更具体的基于语音服务的普遍支持。

这些服务中的关键技术当然是语音识别,其准确性和适应性逐渐增加。 最便宜,狭义的系统(例如,简单的组织者)利用对用户输入来识别,解释和响应这些输入的强烈期望; 因此,它们类似于菜单驱动的系统。 更通用的系统,例如可以处理路由,音乐请求,搜索场地等的汽车讲话者等,依靠更高级的对话管理功能。 这些允许主题交换机,并且可能用于用户的注意力状态(例如,如果驾驶员需要参加驾驶员,则延迟回答驾驶员的问题)。 最新的“嗡嗡声”周围环绕着先进的语音助手,特别是iPhone的Siri(其次是Android的Iris,真实知识的EVI,谷歌现在和其他人)。 虽然以前的语音控制和检测系统,如Android的Vlingo,虽然是许多相同的功能,Siri增加了个性和改进的对话处理和服务集成 - 用户觉得它们与活泼的合成字符而不是应用程序进行交互。 除Nuance SR技术外,SIRI还包括由Calo(学习和组织的认知助理)从2003 - 2008年开展的Calo(认知助理)项目推动的复杂技术(Ambite等,2006年;卡洛[查看其他互联网资源])。 这些技术包括NLU,ML,目标导向和不确定推断,本体,规划和服务代表团的方面。 但是,虽然委派到Web服务,包括Wolfram | Alpha QA或Chatbot技术提供了相当大的稳健性,并且有关时间表,购买和其他有针对性的服务存在重大推理,但普遍了解仍然非常浅,因为用户很快发现。 严重误解的轶事例子是“叫我一个救护回答的救护车”,我会称你为“救护车”。 然而,这些早期(有点)智能化的用户社区的强烈兴趣和需求可能会加剧和加速对更生命的虚拟代理人的研究,并更有了解和常识。

10.8协作问题求解器和智能导师

我们讨论协作问题解决系统(也称为“混合倡议”或“面向任务为导向的”对话系统)和教程对话系统(即,对话中的辅导系统,因为这两者都是如此取决于他们旨在的域的相当深刻的表示或模型,以及他们与之互动的用户的精神状态。

然而,我们应该立即注意到协作问题解决系统通常处理比教程系统更少的可预测的域情况和用户输入,因此前者更加强调灵活的对话处理而不是后者。 例如,紧急疏散(Ferguson和Allen 1998,2007)的合作者需要处理一个动态变化的域名,同时处理可能发生的许多对话状态,具体取决于参与者的共享和私人信仰,目标,计划任何特定点的意图。 相比之下,在物理辅导(例如,Jordan等,2006; Litman和Silliman 2004)中,学习者可以通过具有撰写指示的学习目标网络,并对应于这些目标,有限状态可以设计对话模型,该模型将学生输入分类在对话中的每个点,并生成可能适合该输入的准备好的响应。

因此,辅导对话系统更接近商业实用性并不令人惊讶,并且在各种评估中具有相对于传统指令的学习益处,而不是用于现实应用的协作问题。 为众多域和潜在客户建立了教程对话系统,从K-12受试者提供计算机扫盲和新手编程,定性和定量物理,电路分析,机械运行,心血管生理学,火灾损伤控制船舶,谈判技巧等(例如,请参阅Boyer等,2009; Pon-Barry等,2006)。 在最成功的辅导系统中,正在阅读导师(例如,彩色和贝克2007; COLE等人,2007),因为呈现给学习者的材料(以“脚手架”方式)在这种情况下对设计相对简单,以及响应学习者,特别是当它们主要由读取呈现的文本大声朗读时,相对容易评估。 对于培养阅读理解的更雄心勃勃的目标,核心问题是设计对话,以使学习者的贡献可预测,同时也使得互动教育有效(例如,AIST和MOSTOW 2009)。

一些辅导系统,尤其是针对儿童的辅导系统,使用动画角色来提高学习者的参与感。 事实上,这种增强实际上对患有耳聋的儿童学习者的系统是必不可少的(学习者观察到的虚拟代理人的嘴巴和舌头运动可以帮助铰接而令人用铰接),自闭症或阿留(Massaro等,2012; COLE等。2007)。 同样,如果辅导专门针对人际交往技能,那么生活的人物(虚拟人)的实施成为系统开发不可或缺的一部分(例如,Core et al。2006; Campbell等,2011)。

建模用户在辅导系统中的心态主要是确定有目标概念和技能的问题,或者尚未被用户获得,并诊断可能发生的误解,以至于迄今为止会议成绩单。 最近的一些实验系统还可以将它们的策略适应用户的明显情绪,例如沮丧或无聊,这可能被用户的输入,语音或通过计算机视觉分析的面部表情或手势揭示。 其他原型系统可以通过纳入关于对话国家,对话行为和更深刻的语言理解的任务导向对话系统的想法和技术来追求更全面的心理建模。

在面向任务为导向的对话系统中,如已经注意到的,对话建模更具挑战性,因为这些系统预计不仅有助于解决手头的域问题,而且要了解用户的话语,信仰和意图,并在人类中持有自己喜欢,混合主动对话。 这需要域模型,一般增量协作计划方法,对话管理,在所选域中模拟合理的交际交互,以及彻底的语言理解(特别是意图识别)。 原型系统已成功为域而成,如路线规划,航空旅行规划,驾驶员和行人指导,控制和运营外部设备,紧急疏散和药物建议(例如,Allen等,2006; Rich和Sidner 1998;Bühler和Minker 2011;弗格森和艾伦1998年,2007年),这些拥有非常重大的实际承诺。 然而,可以处理各种合理性复杂的问题的系统,尤其是需要对人类认知和行为的广泛勤杂朗知识的系统,目前似乎似乎就遥不可及。

(本章完)

相关推荐