2.复述识别与文本蕴涵(Paraphrase Recognition and
Textual Entailment)
同复述生成关系密切的一个问题就是度量给定的两个短语或者文本片段之间的语义相
似度。一个更加复杂的任务是从给定的两个文本中抽取或这识别出相互是复述关系的句子,
这些任务的构想都属于复述抽取或者识别这一类别,特别是识别,在许多 NLP 问题中非常
有 帮 助 。这 些应 用的 例子 就有文本到文本 (text-to-text)的 生 成 和 信 息 抽 取 (information
extraction)。
text-to-text 生成应用依赖于复述识别。对于一个多文档摘要系统,发现冗余信息是非常
关键的,因此来自不同文档的两个句子有可能具有相同的语义内容,在摘要的过程中,很重
要的是不能重复相同的信息。Barzilay and McKeown 在 2005 年通过发现复述部分来消除冗
余表示,整合成单个的连贯的句子。识别具有相同语义内容在文本简化(text simplification)
系统中也是很重要的。
Textual entailment:一段文本 T 蕴涵一个前提 H,如果人类读到 T 也就暗示 H 也为真。
此时,复述识别可以认为是双向的蕴涵。但是有一个问题,不能保证蕴涵的假设 H 能够包
含给定文本 T 相同的语义内容。例如:
T: Yahoo’s buyout of Overture was finalized.
H1: Yahoo bought Overture.
H2: Overture is now owned bu Yahoo.
最后复述和文本蕴涵是紧密联系在一起的。
3.基于语料库的复述(Paraphrasing with Corpora)
基于语料库的复述生成方法已经在过去发展迅速,得到广泛的应用。根据语料库的不同
类型,来区分不同的复述生成方法:单个单语语料库、单语对比语料库、单语平行语料库以
及双语平行语料库。
在具体深入复述生成方法之前,先介绍分布相似度的动机是非常有意义的。在不同类型
的语料库基础上,分布相似度是一极其流行的技术用于复述生成。