计算语言学(六)
(4.1)
野餐的每个孩子都烧烤了一名维纳。
(4.2)
野餐的每个孩子都在看热气球开销,
似乎以不太可能被捕获为单词级别的统计规律性的方式依赖世界知识。
习惯性和通用句子呈现出特别具有挑战性的消歧问题,因为它们可能涉及时间/常规歧义(如上所述),此外可能需要增加量化副词和对表面形式缺失的量化结构域的约束。 例如,
(4.3)
赛马(通常)纯种时(通常)Skittish
没有量化的副词经常是明确的常规,嵌入了一般来说纯种赛马的纯种赛马。 (因此一般似乎是隐含的默认状语。)但是当量化副词存在时,句子承认,根据哪个纯种赛马在哪个纯种赛马在特征上进行了诸如效果的效果纯种赛马的常规遭受了频繁的Skitthish剧集。 如果我们通过在起始门上取代纯种,那么只有Skittish的episodic读数仍然可用,而通常可能对赛马进行量化,这意味着许多人在起始门上习惯性地进行了习惯性的方式,或者它可能会在起始门的情况下量化,暗示一般的赛马在这种情况下往往却闻到; 此外,在起跑门上的正式意识明显取决于关于赛马场景的知识。
这种判决提出的解释性挑战是(或应该是)在计算语言学中非常关注,因为人们对世界的一般知识最自然地以通用和惯常句子的形式表达。 系统的解释和消除此类判决的系统将立即提供一种汇集大量知识的方式,从诸如词典,百科全书和人群索赔的资料,例如开放思维中的通用索赔的资料来源汇集大量知识库常识(例如,Singh等人2002; Lieberman等人2004; Havasi等,2007)。 许多理论家假设这种句子的逻辑形式应该是三方结构,其中量化是定量对象或情况,限制量化域的restrictor,以及对域元素进行断言的核范围(主条款)。(例如,见Carlson 2011;科恩2002;或Carlson&Pelletier 1995)。 挑战在于指定从表面结构到这种逻辑形式的映射。 虽然上面所示的含糊不清的许多原则是合理的理解,但是仍然缺乏一般的解释性算法。 看来,这种算法将涉及逐步阐述最初不完整的,模棱两可的逻辑形式,而不是直接的语法语义转换,因为正确的形式化取决于超越语法:它们包括诸如卡尔森的个人级别/舞台层面区别在动词短语和他的物体级/善良层面区别在动词论证中(Carlson 1977,1982)以及诸如给定/新区分的务实特征(受短语影响重音),词汇预设,语言背景和背景知识。
5.发表意义
语义解释(计算和消除逻辑表格)之间的分界线和话语理解文本感 - 是一个相当任意的。 然而,对理解过程的严重情境和知识依赖性方面,例如解析视力解答,解释上下文依赖的名义化合物,填充“缺失”的材料,确定隐含的时间和因果关系(以及其他“一致性关系”),解释松散或比喻语言,当然,与预先存在的知识集成了语言上导出的信息,通常被称为话语处理的方面。
5.1处理参考和各种形式的“缺失材料”
语言已经进化以尽可能高效地传达信息,结果避免了冗长的识别描述和其他冗长的措辞,其中较短的描述。 这种趋势的一个方面是在阿帕拉看到的,在较早,潜在的更具描述性NP和后来的apaphoric代词或明确的NP之间的辛芯片的现象(具有类似的决定员)。 (偶尔也会看到反向测序,偶尔也可以看到。瓦解“),但机器有问题。
确定视力的(CO)指数可以以各种方式接近,如语义歧义的情况。 已提出的语言和精神语言学原则包括“经历术语”C“原则的性别和数量协议(例如,如果其指指的是解析树中的一个祖先的兄弟姐妹,则这一原则必须是代名词)(非)反身约束(例如,主题和对象不能在一个简单的条款中是经济的,例如”约翰指责他发生事故“),新神分/显着性(更近期/突出的引用是首选),并居中(最有可能的术语话语中的代理化是”关注中心“)。 一种早期启发式算法,采用这种类型的若干特征来解释一个兴趣者是霍布斯(1979)。 但是选择偏好也很重要。 例如,在句子中,“他撞到了含有覆盆子糖浆的酱船,溢出它”,“代词可以确定与覆盆子糖浆而不是酱船,因为溢出更喜欢液体(或松散的骨料)作为它的对象。 随着替代的延续,“......敲门,”科技的选择将被逆转,因为敲门优先雄厚的东西和直立作为它的物体。 更微妙的世界知识也可能涉及,如特里·威格雷德的众所周知的例子,“城市议会拒绝了妇女游行许可,因为他们担心/倡导的暴力,”他们可以参考市议会或妇女,这取决于动词的选择和妇女诱发的相应刻板印象。 另一个并发症们涉及对实体的收集,相关实体(如零件),命题和事件的引用,这些事件可以成为代词(例如它们,这)或明确的NPS(例如这种情况或房屋的门))而没有出现明确作为名词短语。 与其他含糊的其他歧义一样,核心歧义已经用统计技术解决。 这些通常考虑到这样的因素,以及所提到的那些因素,以及诸如先前动态和发生的前提频率,以及使用这些特征,以及在制定前一种方面的概率证据(例如,Haghhighi&Klein 2010)。 模型的参数是从Coreference关系和必要的语法分析注释的语料库中学到的。
短暂地回到标称形式的形式N n的化合物,注意到与使用富集的词典,启发式规则或统计技术相近的冰桶或冰雕塑 - 某些化合物可以获得各种含义上下文的功能。 例如,兔子家伙可以在关于戴着兔子诉讼的一家人的故事中引用完全不同的事情,或者关于兔子饲养员的一个关于兔子饲养员的故事,或者是来自外太空的大型智能洛链。 这样的实施例揭示了复合标称解释和神视分辨率之间的某些平扰:至少在更困难的情况下,N n解释取决于先前看到的材料,并且遵守以前材料的关键方面(在当前示例中,穿着兔子套装的概念作为兔子的育种者,或作为类似兔子的生物)。 换句话说,像Apaphora分辨率一样,N N解释是最终依赖的,无论是知识是否来自事先文本,也是来自预先存在的背景知识库。 在粉丝等人的工作中可以看到这个视图的强大版本。 (2009),假设在技术背景下,甚至许多看似常规的化合物都需要基于知识的阐述。 例如,在化学背景下,假设HCl溶液需要阐述类似:碱是碱性结构成分是HCl分子的溶液。 提供算法(并经验测试),从修改的N.从修改N中搜索与修改n的关系路径(经过某些一般约束),选择这种关系路径作为N N化合物的含义。 由于作者注意,这基本上是一种扩展激活算法,他们建议更全面应用此方法(参见综合解释方法的第5.3节)。
虽然化学者和某些标称化合物可以被视为语义含量的缩写编码,但是其他形式的“速记”释放了语义必需的材料,要求读者或听者填补它。这种类型的一个普遍存存现象是当然省略号,如前面的句子(2.5)和(2.6),或通过以下示例所示。
(5.1)
莎士比亚弥补了文字,所以你可以。
(5.2)
菲利克斯低于我的压力。
在(5.1)中,vp的一个位置保持器构成单词(在倒句中),(5.2)(5.2)默认地包含像压力量下的最终谓词,那里该量x需要与所经历的(更大)的压力相关菲利克斯。 解释省略力需要填写缺失的材料; 这通常可以在表面级别发现作为连续单词的序列(如在间隙和裸椭圆示例2.5和2.5中),但如(5.1)和(5.2)所示,可以代替(或另外)需要调整进口材料以语义上适合进入新背景。 当进口材料包含引用表达式时,出现进一步的并发症,如下面的(5.2)的变型:
(5.2')
菲利克斯从老板的压力下比我的压力更大。
这里缺少的材料可以指代菲利克斯的老板或我的老板(分别称为严格和邋and),这是可以通过仅包含一个或两个,λ的逻辑形式来捕获的区别。 - 示意性地,
λx[x是否从Felix的BOSS更大的压力下,
相对于
λx[x在x的老板的压力下较大]。
两种读数可以被认为是从击败他的老板首先施加的那样,然后填充精选的材料,以及这些操作的反向排序(Dalrymple等人1991;另见Crouch 1995; Gregory和Lappin 1997)。 其他具有挑战性的省略号是事件省略号,如(5.3)(忘了忘记带来的地方),完全丧留叛乱句,如(5.4)和(5.5),以及类似的verbless句子(5.6)和(5.7):
(5.3)
我忘记了钥匙
(5.4)
因此这个提议
(5.5)
5月28日从罗切斯特到奥兰多的航班?
(5.6)
怜悯。
(5.7)
Delta如何飞行?
在应用中,在可能的情况下,通过(a)在可能的情况下,处理其他形式的省略的省略的省略的省略的阶段依赖性期望关于在话语中可能发生的信息和语音行为的类型,例如航空旅行顾问中的航班信息的要求; (b)将话语解释为迄今为止建立的域特定知识陈述的增强或修改。 到目前为止,基于语料库的省略方法主要集中在识别文本中的VP省略量的情况,并找到相应的先行材料,因为与计算正确的逻辑形式分开的问题(例如,请参阅Hardt 1997; Nielsen 2004)。
另一种难敏缺失的物质现象是隐含争论的现象。 例如,在句子中
(5.8)
一些一氧化碳从排气中泄漏到汽车中,但其浓度太低而无法造成任何危险,
读者需要在汽车内部的空气中概念性地扩展其集中的浓度,并危害汽车的居住者。 在该示例中,浓缩(化学意义)的效果的词汇知识是指一些介质中的一些物质的浓度至少可以提供需要填充的“槽”,并且在危险的情况下适用类似的评论。 然而,并非所有槽的所有填料都明确地通过文本 - 所指的一氧化碳提供一种填料,但是汽车内部的空气,以及汽车的潜在乘员(以及它们而不是说,那个室内装潢将在风险)是世界知识的推动问题。
最后,在某些情况下常见的另一种形式的速记是转喻,其中与预期参考的术语与该指示者一起代表。 例如,在机场背景下,
(5.9)
这次航班574吗?
可能是“这是航班574航班的离开休息室吗?” 同样,在适当的上下文中,樱桃可以代表樱桃冰淇淋,宝马可以代表宝马的股票市场指数:
(5.10)
我想要两勺樱桃。
(5.11)
宝马玫瑰4分。
与其他类型的欠缺化一样,转喻已经从基于知识和基于语料库的角度来看的。 能够承担的知识包括选择偏好(例如,一般的公司没有实际上升),词汇概念层次结构(例如,由Wordnet提供),关于通常遇到的转喻关系类型的通用知识,例如部分-For整体,换地,用户对象,产品obers等产品等(Lakoff和Johnson 1980),何时猜测这种关系的规则(例如,Weischedel和1983年Sondheimer)命名 - 殷勤知识,以及关于相关实体的知识(例如,公司可能有股票市场指数,该指数可能会上升或下降)(例如,Bouaud等人1996; Onyshkevych 1998)。 基于语料库的方法(例如,参见Markert和Nissim 2007)通常使用许多这些知识资源,以及语言和统计特征,如POS标签,潜在的替补附近的POS标签,依赖路径和搭配。 至于解释过程的其他方面(包括解析),使用深层域知识用于定义的域,在足够窄的域中可以非常有效,而基于语料库的浅方法可以更好地缩放到更宽的域,但是易于达到人类标准缺乏较短的性能平台。
5.2建立连接
文本和口语不包括孤立的句子,而是连接,相互关联的话语,形成连贯的全部 - 通常,一个时间和因果性结构叙述,系统描述或解释,一系列指令,或结论的结构化论证(或在对话中,如稍后所讨论的,质疑答复交易所,请求后面的请求,混合倡议计划等)。
这种结构在连续条款的成对水平上已经明显,例如
(5.12)
约翰看着天空。 它与雷电是黑暗的。
(5.13)
约翰在天空中抬头,决定沿着他的雨伞。
在(5.12)中,我们了解到John的看着天空时间暂时重叠天空中的暗云的存在(即,暗云情况至少包含看起来的活动结束)。 在更深层次的水平上,我们也明白约翰认为天空与雷霆的天空变得黑暗,并且自然认为约翰把云拿走了一个即将发生的风暴的先驱,就像我们自己一样。 在(5.13)中,两个条款似乎报告了连续事件,而且,第一个事件被理解为导致导致的第二次决定是由他在看天空时所看到的 基于我们对遮阳伞的天气和函数的知识,以及“每个人”拥有那种知识的事实,我们进一步推断了约翰感知潜在的雨林,并打算在迫在眉睫的游览中与他的雨伞抵挡任何雨。
这些例子表明,解释扩展的多字致言论取决于叙述惯例和世界知识; (类似于描述性,教学或争论文本)。 特别地,作为(5.12)中的静态观察之后的动作句通常建议我们注意到的动作情况重叠,并且先后报告的动作或事件,如(5.13),通常建议时间测序,也许是一个因果关系,特别是如果其中一个这两个条款不是一个加权行动。 这些暗示推断可能会反映叙述者对令人吻合状的贪婪原则的依从性,尽管这种观察是从计算的角度来看的帮助。 具体任务是制定叙事和其他形式的话语的一致性原则,并以可用形式阐明各种粒度的特定简明语义特性,这些特定粒度有助于一致性。
因此,在文献中提出了各种类型的修辞或相干关系(在文献之间),例如,霍布斯(1979),Groxz&Sidner(1986),以及曼和汤普森(1988)。 拟议的一致性关系是阐述,举例说明,平行和对比等。 我们将对修辞结构进行进一步讨论第6节(语言生成)。
5.3处理比喻语言
“我”在八个球后面,前面的曲线,骑着波浪,躲避子弹并推动信封。 我正在接受任务,关于信息和关注药物......我是我的那一刻,在边缘,在顶部和雷达下。 高概念,低调,中距离弹道传教士。“ -george Carlin(“生活值得失败”,第一次在HBO播出,2005年11月5日)
我们已经评论了处理转喻,其通常被称为语音的数字 - 一个单词或短语站在除了字面意义之外的东西。 然而,虽然转喻基本上是销钉装置,但其他比喻模式,例如隐喻,显着,习语,讽刺,拟人化或夸张(超越)传达含义,特别是内涵,不容易以其他方式传送。 我们在这里专注于隐喻,因为它是一种更多的几个其他世界形态的一种。 此外,它已经收到了计算语言学家的最大关注,因为可以使比喻隐喻普遍的语言,文字和隐喻使用之间没有尖锐的划分(例如,Wilk 1978; Carbonell 1980; Lakoff和Johnson 1980年; Barnden 2006)。 例如,虽然可以观察“温度掉落”的虽然涉及与减少同义的下降感,但是它也可以被视为与将降低温度降低到下降物体的传统比较。 作为允许这种类型的示例的一种方式,Wilk提供了一个处理范例,其中将选择范例(例如丢弃的对象的物理对象约束)被视为仅仅是偏好而不是公司要求。
然而,处理隐喻需要的偏好不仅仅是放松; 它既依赖上下文和深刻的知识依赖。 例如,
(5.14)
他扔了毛巾
可以是一个曼德拉莫特拉特的文字描述,一个拳击手的处理程序符号行为的文字描述,或者在任何困难的努力中承认失败的股票比喻。 但要充分掌握隐喻意义,包括惩罚,注定争夺的内涵,需要一个拳击比赛的生动概念。
在计算上接近隐喻时,一些作者,例如Dedre Gentner(参见Falkenhainer等,1989),所以根据共享属性和关系结构(允许不和谐的结构),直接附加到概念上比较。 例如,在将原子与太阳系比较时,我们观察电子和核之间的旋转关系,在一方面和行星和阳光下另一方面。 但其他人指出,隐式比较可以铰接在间接达到的性质上。 在此视图中,寻找一个概念的隐喻是在一系列步骤中远离知识网络中的原始概念的过程,每个步骤将一些当前特征转换为相关的。 这是Hofstadter等人称为“滑动”的过程。 (1995)。 其他人(例如,Martin 1990,在Lakoff和Johnson 1980上绘制)强调了从一个概念到另一个概念中隐喻地桥接的传统方式的预先存在的知识,例如将非生物作为生物。
鉴于隐喻对上下文和广泛知识的依赖性,而无数困难仍然面临着语言理解的各个方面,并不令人惊讶的是,在上下文中没有加工隐喻的一般系统存在,更不用说创造性地使用比喻。 尽管如此,Martin的MIDAS计划能够在基于语言的UNIX顾问的背景下解释各种隐喻,依靠关于域的知识和关于隐喻映射,在KODIAK知识表示语言中手工编码。 此外,其他几个程序已经证明了分析或生成隐喻的各种示例的能力,包括结构映射引擎(SME)(Falkenhainer等,1989),满足*(FASS 1991),Att-Meta(Barnden 2001),业力(Narayanan 1997)和其他人。 最近,VEALE和HAO(2008)使用从WordNet和Web收集的属性进行了一种基于滑动的粘贴方法的实证研究。 在类似的精神,但以SME为灵感,核心(2008)实施了“潜在关系映射引擎”(LRME),以找到两个可能可比描述(相同尺寸)的元素之间的最佳映射; 这个想法是使用基于Web的共同发生统计来衡量,而不仅仅是任何两个给定的概念的属性相似性(例如电子和行星),而且还有任何两个给定对概念的关系相似性(例如电子:核和行星:太阳),在优化映射时使用这些作为指标。