中文蕴涵图的构建和跨语言融合提高了无监督学习的性能

108 浏览量更新于2023-12-01 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文基于汉语蕴涵图的Li TianyioSabine Webero Mohammad Javad HosseinioLiane GuillouoMark Steedmano爱丁堡大学信息学院tianyi.li ed.ac.ukwww.example.com@www.example.com，wwws.weber @sms.ed.ac.ukexample.comjavad.hosseini@wwwed.ac.uk，{lguillou，steedman}@inf.ed. ac. uk摘要谓词蕴涵检测是文本问答系统中的一个重要任务，以往的工作主要是从类型化的开放关系三元组中无监督地学习蕴涵图。在本文中，我们提出了第一个管道，用于构建中文蕴涵图，其中涉及一种新的高召回率开放关系提取（ORE）方法和第一个中文细粒度实体分类数据集下的FIGER类型本体。通过在Levy-Holt数据集上的实验，我们验证了我们的中文蕴涵图的强度，并揭示了跨语言的互补性：在并行Levy-Holt数据集上，中文和英文蕴涵图的集成优于两个单语图，并将无监督SOTA提高了4.7个AUC点。1介绍谓词蕴涵检测对于自然语言理解的许多任务都是重要的，包括阅读理解和语义分析。假设我们希望通过找到实体A和A之间的关系V来回答一个问题，B.通常，V不能直接从参考中找到-引用段落或数据库，但可以在A和B之间找到另一种关系U，其中U包含V（例如，假设U是buy，V是own）。如果我们可以用谓词蕴涵检测来识别这一点，那么我们就可以回答这个问题。为了检测谓词蕴涵，先前的工作已经探索了类型化蕴涵图的无监督学习（ Szpektor 和Dagan，2008; Berant等人，2009）。，2011，2015; Hosseini等人，2018年，2019年，2021年）。蕴涵图是有向图，其中每个节点表示关系的谓词，并且从节点U到节点V的边表示蕴涵图是基于分布包含假设（ DIH）构建的（Dagan et al. ，1999; Geffet and Dagan，2005;现在在Google Research。Herbelot and Ganesalingam ， 2013;KartsaklisandSadrzadeh，2016）. 谓词根据其参数的类型进行消歧虽然以前关于蕴涵图的工作大多局限于英语，但在其他语言中构建重要性是双重的：对于该语言，原生蕴涵图将促进其中的NLU;对于跨语言推理，不同语言中的蕴涵图托管可利用的互补信息。特别是，我们认为，通过联合咨询强蕴涵图在多种语言中，可以得到改进的推理在所有参与的语言。在本文中，我们选择中文作为我们的目标语言来构建蕴涵图，因为它距离英语足够远，表现出丰富的互补性，同时相对较高的资源。构建中文蕴涵图的主要挑战是从原始语料库中提取可靠的类型化关系三元组作为强输入。这涉及开放关系提取（ORE）和细粒度实体类型（FET），我们将在下面讨论。ORE从句子中提取谓词-论元三元组，其中先前的工作直接使用基于规则的方法而不是句法分析器（Fader et al. ，2011; Etzioni et al. ，2011年;Angeli等人，2015），或用于远程监督（Cui et al. ，2018; Stanovsky et al. ，2018;Kolluru et al. ，2020）。ORE面临的挑战在很大程度上可归因于“开放关系”的定义不佳。汉语中的位置词，由于词性比较模糊，许多关系的语言中国ORE的先前工作（Qiu和Zhang，2014; Jia et al. ，2018）定义了开放关系的狭窄集合，未能识别许多关系结构。相反，我们提出了一种新的依赖性为基础的ORE方法，我们声称提供了全面的关系结构覆盖。arXiv：2203.06264v1 [cs.CL] 2022年3月+v：mala2277获取更多论文FET为提取的关系的参数分配类型中文FET的挑战主要在于缺乏合适的类型本体的数据集：太粗糙的类型集不足以消除歧义，太粒度的类型集会导致蕴涵图中灾难性的稀疏性Hosseini et al. （2018），我们使用流行的FIGER类型集（Ling和Weld，2012），并通过标签映射构建CFIGER，这是第一个FIGER标记的中国FET数据集。在此数据集上建立的实体分类模型显示了令人满意的准确性，并有助于谓词消歧。我们通过翻译在 Levy-Holt 蕴涵数据集（Levy和Dagan，2016;Holt，2019）结果表明，我们的中文蕴涵图的性能大大优于基线，并与英文图相当。我们验证了我们的跨语言互补性假设与英语和汉语图之间的集成，在那里我们表现出明显的优势，比单语图1，并设置一个新的SOTA无监督谓词蕴涵检测。我们的贡献如下：1）提出了一种新的中文ORE方法，该方法比以前的SOTA方法对更广泛的关系敏感，并建立了一个中文FET数据集，这是FIGER类型本体下的第一个数据集;2）构建了第一个中文蕴涵图，与英文蕴涵图相当; 3）揭示了蕴涵图的跨语言互补性。22背景和相关工作谓词蕴涵检测一直是一个活跃的研究领域。Lin （ 1998 ） ; Weeds and Weir （ 2003 ） ;Szpektor and Dagan（2008）提出了各种基于计数的蕴涵分数; Berant et al. （2011）提出通过用传递性约束关闭类型蕴涵图来“全球化”类型蕴涵图;Hosseinietal.（2018）提出了一种具有软传递性约束的更具可扩展性的全局学习方法;Hosseinietal. （2019年，2021年）进一步完善了标准和上下文链接预测的蕴涵分数。我们的工作与Hosseini等人密切相关。[1]当两个单语图都用平行语料库训练时，这种效果仍然很明显，验证了这种增益背后的互补性，而不是涉及的额外语料库。看到7.2更多讨论2我们的代码和数据集可以在github.com/Teddy-Li/ChineseEntGraph（2018年），在ORE和FET中对中文进行了关键调整。他们的ORE方法基于CCG解析器（Reddy et al. ，2014），而我们的是基于依赖解析器（Zhang et al. ，2020年）;他们的FET是通过将实体链接到维基百科条目来完成的，而我们使用神经实体类型来完成任务。Dependency 解析比 CCG 解析提供的信息少，并且需要更重的适配。然而，中文依赖解析器目前比 CCG 解析器更可靠（ Tse 和Curran，2012）。之前的中国ORE方法（Qiu和Zhang，2014; Jia等人，，2018）基于依赖性解析器，但它们忽略了ORE所必需的许多常见构造。在§3中，我们提出了迄今为止最全面的中国ORE方法基于链接的实体类型化可以比神经方法更准确，因为只要链接是正确的，类型标签就是准确的。然而，当前的中文实体链接方法需要翻译（Pan et al. ，2019年）或搜索日志（傅等人，2020）。两者都损害了链接的准确性，后者随着规模的扩大而变得昂贵得令人望而却步另一方面，自从Ling和Weld（2012）的开创性工作以来，神经细粒度实体类型化已经迅速发展（Yogatama et al. ，2015; Shimaoka et al. ，2017; Chen et al. ，2020年），对FIGER类型集有共同兴趣。对于中国，Lee et al.（2020）构建了一个超细粒度的实体类型数据集，基于此，我们通过标签映射构建了Weber和Steedman（2019）将英语和德语的蕴涵图对齐，并表明英语图可以帮助德语蕴涵检测。然而，这种效果是来自真正的互补性，还是仅仅来自英语图形更强的我们更进一步，并表明互补性可以在两个方向上利用：英语，更高的资源语言，蕴涵检测也可以受益于合奏达到新的高度。作为相关资源，Ganitkevitch et al. （2013）创建了一个多语言对称释义数据库;相比之下，蕴涵图是有方向的。最近，Schmitt和Schütze（2021）提出通过快速学习来微调谓词蕴涵数据集上的语言模型。与我们的蕴涵图相反，他们的方法是有监督的，这带来了过度拟合数据集工件的危险（Gururangan et al. ，2018）。另一个相关的研究链，例如SNLI（Bowmanet al. 2015年），关注更多+v：mala2277获取更多论文∧→一般的NLI任务，包括上位词检测和逻辑推理，如A B B，但很少涵盖需要谓词蕴涵的外部知识的情况（Hosseini et al. ，2018）。结论是，蕴涵图的目标是作为一个强大的资源，从文本语料库中引入的方向谓词蕴涵。3中文开放关系抽取我们基于DDParser构建ORE方法（Zhang etal. ，2020），一个SOTA中文依赖解析器。我们从它的输出中挖掘关系三元组，通过识别依赖路径中的模式。依赖于中心动词的语义，依赖模式的实例可以从非常恰当的关系到勉强可以接受的关系。受我们构建蕴涵图的下游任务的激励，我们追求更高的召回率，并基于关系频率假设（ RelationFrequencyAssumption ）将它们纳入：不太恰当的关系发生频率较低，并且当它们发生时不太可能参与蕴涵，因此它们可以忽略不计。由于缺乏普遍接受的“关系”基准或标准3.1中文ORE在LM驱动的依赖解析器上进行开放关系抽取的任务虽然这些基本的和本质的语义关系的定义初看起来微不足道，但需要详细的分析。（第5节）4.下面，我们强调了我们确定的5个额外的问题，并通过示例5进行了解释。A. 作为“的”结构的PP修饰语例如，在“咽炎（pharyngitis）成为（becomes）发热（fever）的（De）原因（cause）; Pharyngitisbecomes the cause of fever”中同样的道理也适用于这一主题，尽管在某种程度上受到更多的限制。对于像 “ 苹果（ Apple ）的（ De ）创始人（ founder ）是（is）乔布斯（Jobs）;苹果的创始人是乔布斯（The founder of Apple is Jobs）”这样的句子B. 有界依赖在汉语中，特别是控制结构，是用一个隐蔽的不定式标记来表示的，相当于英语中的除了直接关系外，我们还发现了以下• VP的顺序：对于像“我（I）去（go-to）诊所（clinic）打（take）疫苗（vaccine）;我去诊所打疫苗（vaccine）”这样的句子在这里，我们通过将中心动词的主语复制到后面的动词来提取关系（I，take，vaccine）• 主语控制动词：举个著名的例子“Jia et al.（2018）是最新提出的ORE依赖路径上的方法他们定义了一组规则来提取关系模式，他们称之为依赖语义范式（DSNFs）3。然而，他们的DSNF集是不详尽的，有点不准确。我们在下文中指出，汉语的许多语言特点需要更原则的解释，更多的构式需要考虑为关系，有些构式需要排除。这些观察是从一个多源新闻语料库中得到的，我们用它来构建蕴涵图[3]我们建议读者参阅附录A中的简要摘要。[4]由于蕴涵图的构建是完全无监督的，因此源语料库独立于第6节中的评估。特别是，第6节中使用的Levy-Holt数据集由短句组成，这是一种截然不同的体裁，涉及更简单的结构，每个句子只有一个关系，上面讨论的从属结构很少（相关统计数据见附录J[5]请读者参阅附录H中的图表说明。[6]这里和下面的例子都与英语的隐喻配对，必要时还可以与释义配对;关系三元组作为英语的隐喻（忽略了屈折变化）。[7]这些关系在频繁的谓词论元组合中更为恰当，而在不频繁的谓词论元组合中则不那么恰当。与关系频率假设一致，不太合适的关系在统计上也不太显著。+v：mala2277获取更多论文一个（a）剧本（play）; I want to try to beginto write a play在这种情况下，我们提取出关系序列，如（ I ， want ， try ）、（ I ，want·try，begin）、（I，want·try·begin，write ）、（ I ， want·begin·try·write ， aplay）。值得注意的是，上述关系与Jiaet al.（2018）C. 关系从句在汉语中也有修饰结构的形式，对修饰结构也要提取附加关系例如，在D. 名词性复合词关系可以从名词性复合词中得到解释，其中 NP 有两个连续的 Jia 等人（2018）为这些NP提取了（德国，总理，默克尔）等关系。然而，他们忽略了这样一个事实，即省略了“的”的介词复合词在汉语中的例如，在具有嵌套PP修饰语的NP中，如我们退一步，对这样的结构加以限制：只有当NP中的三个词都是名词（但不是代词），第三个词是中心词，第二个词是“PERSON”或“TITLE”，第一个词是“PERSON”时，它才是关系，如（ Merkel ， is·X·De·Chancellor ，Germany）。其他方面，这样的NP很少主持幸福的关系.E. Copula with Covert ObjectsCopula后面有时会跟以“De”结尾的修饰语例如：“玉米做（make）的（De）;这个装置是用木头做的在这些情况下，在指示符“的（De）”之后存在宾语在没有真实对象的情况下，VOB标签被赋予然而，真正的谓词是为了解决这个问题，我们用（Corn，is·from·X·introduce·De·pro，America）这样的关系代替直接关系，它是构式A的中间部分。3.2我们的ORE方法考虑到上述构造，我们在DDParser之上构建ORE方法对于词性标签，我们使用StanfordCoreNLP中的POS标记器（Manning et al. ，2014）。我们通过在谓词的附加修饰语中寻找否定关键字来检测否定：对于具有奇数个否定匹配的谓词，我们向它们插入否定指示符，将它们视为与非否定谓词分开的谓词。4中文细粒度实体分类如先前的工作所示（ Berant et al. ， 2011;Hosseini et al. ，2018），谓词的参数的类型为此，我们需要一个细粒度的实体类型化模型来将参数分类为具有充分区分性但数量众多的类型。Lee et al.（2020）提出了CFET数据集，这是一个超细粒度的中文实体类型数据集。他们将实体标记为近似6，000种自由形式类型和10种一般类型。不幸的是，它们的自由形式类型对于谓词消歧来说太碎片化了，而且它们的通用类型也太模糊了。我们转向FIGER（Ling and Weld，2012），一个常用的类型集：我们通过标签映射用FIGER类型重新注释假设有大约6，000个超细粒度类型，只有112个FIGER类型（第一层中有49个），我们可以合理地假设每个超细粒度类型可以明确地映射到单个FIGER类型。例如，超细粒度类型基于这个假设，我们手动创建两者之间的映射，并使用映射重新注释CFET数据集。我们将重新标注的数据集称为CFIGER，因为它是第一个中文数据集，+v：mala2277获取更多论文宏观F1（%）dev测试CFET与CFET数据集-24.9CFET与CFIGER数据集75.775.7HierType与FIGER数据集-82.6HierType与CFIGER数据集74.874.5表1：CFIGER数据集的基线模型的F1得分，与提出它们的数据集的结果相比。报告宏观F1评分，因为其在两个基线中均可用。FIGER标签。与CFET一样，该数据集由4.8K人群注释数据（平均分为人群训练，人群开发和人群测试）和来自Wikipedia8的1.9M远程监督数据组成。对于训练集，我们结合了 crowd-train 和Wikipedia子集;对于开发集和测试集，我们分别使用crowd-dev和crowd-test。我们训练两个基线模型：CFET，具有CFET数据集的基线模型 ; HierType （ Chen et al. ， 2020 ），一个SOTA英语实体打字模型。结果显示在表1中：在CFIGER数据集上， HierType模型的 F1 得分略低于英文的FIGER数据集;相反，由于类型标签较少，CFET基线的F1得分在CFIGER上增加，使其与更复杂的HierType模型相当这意味着我们的CFIGER数据集是有效的中国细粒度实体类型，并可能有助于跨语言实体类型的基准。对于下游应用程序，我们仍然采用HierType模型，因为它在经验上更适合我们的新闻语料库。如后面的部分所示，最终的FET模型可以极大地帮助消除谓词歧义。5中国蕴涵图我们从2016年10月从133个新闻网站抓取的316K 新闻文章的多源新闻语料库类似于Hosseini 等人使用的 NewsSpike 语料库。（2018），Webhose语料库包含短时间内的多源非小说类文章。这意味着它在一组集中的事件上也有丰富的可靠和多样的关系三元组，非常适合构建蕴涵图。我们通过标点符号将文章切成句子，限制最大句子长度为8有关详细统计数字，请参阅附录B。9https://webhose.io/free-datasets/chinese-news-articles表2：我们的中文蕴涵图（EG Zh）与Hosseini等人的英文图的比较。（2018）（EGEn）. |表示谓词的数量。|denotes the number of predicates.500个字符（中文Bert的最大序列长度我们丢弃句子短于5个字符的句子，以及句子都短于5个字符的文章应用过滤器后，我们剩下313，718篇文章，如表2所示。对于Webhose中的这314K有效文章，我们获取它们的CoreNLP POS标签并将其馈送到§3中的ORE方法中，以提取开放关系三元组。然后，使用HierType模型（Chen et al. ，2020）在§4中，我们键入所提取的关系的所有参数;我们用其主语-宾语类型对来键入每个谓词，例如person-event或food-law;根据先前的工作，我们仅考虑第一层FIGER类型;当输出多个类型标签时，我们将所有组合视为该谓词的有效类型。最后，我们采用Hosseini等人的蕴涵图构造方法。（2018），仅考虑二元关系10。我们的中文蕴涵图的详细统计数据如表2所示：与EGEn相比，我们的图建立在略多于一半的文章数量上，但我们有大约70%的关系三元组数量，并且建立了一个包含更多谓词的图总的来说，我们的EGZh与EGEn的规模相当。我们还考虑使用另一个更大的语料库CLUE语料库来构建中文蕴涵图，但由于计算资源的限制，较大的语料库由Xu et al.（2020）构建，是Webhose语料库的8倍，最初用于训练中文语言模型。我们提供了从[10]我们鼓励感兴趣的读者也查阅附录D，以了解侯赛尼等人的简介。（2018年）。11我们的计算环境在附录I中有详细说明。EGZhEGEn获取的文章数量313,718546,713使用的三元组数量7,621,99410,978,438同品种器械数量363,349326,331类型对的数量，其中：子图存在942355|子图|> 100442115|子图|> 1，00014927|子图|> 10，000267+v：mala2277获取更多论文·CLUE语料库作为我们发布的一部分，并鼓励感兴趣的读者在这个更大的语料库上构建自己的中文蕴涵图，因为我们期望它表现出更强的性能，并与使用相同语料库预训练的语言模型驱动的模型进行有趣的比较。6评估设置6.1基准和基线我们使用流行的Levy-Holt数据集（Levy和Da-gan，2016;Holt，2019）上的谓词蕴涵检测任务来评估我们的中文蕴涵图的质量我们使用与Hosseini等人相同的开发/测试配置。（2018年）。我们通过机器翻译将Levy-Holt数据集转换为中文，然后对翻译后的前提假设对进行评估。我们痛苦地意识到翻译会增加噪音;作为回应，我们对Levy-Holt开发集的100个条目进行了人工评估，作为翻译质量的代表我们发现，89/100的条目，注释标签保持正确;其中，74/100的条目，翻译的含义是准确的反映英文原文12。除了人工评估，我们将在第7节中进一步讨论机器翻译的效果。在Levy-Holt数据集上，任务是：输入一对关于相同论点的关系三元组，一个前提和一个假设，并判断前提是否包含假设。例如，给定前提为了将Levy-Holt数据集转换为中文，我们将每个关系三元组连接成一个伪句子，使用Google翻译将伪句子翻译成中文，然后使用§3中的ORE方法将它们解析回中文关系三元组。如果返回多个关系，我们检索最具代表性的，通过只考虑那些谓词覆盖HEAD词的关系。13为了对汉语关系三元组进行分类，我们再次使用HierType模型来收集它们的主语-宾语类型对。前提和假设需要采用相同类型的参数，因此我们将它们可能的类型对的交集作为有效对（除非交集为空，其中12更多详细信息，请查看附录G。13详见附录C。我们采取联合行动）。我们搜索这些有效类型对的蕴涵子图，寻找从前提到假设的蕴涵边，并返回与这些边相关联的蕴涵分数。当从多个子图中找到边时，我们取它们的最大分数;当在任何有效的类型对中都没有找到边时，我们回到任意类型对的平均分数。我们将我们的中国蕴涵图与一些强基线进行比较：BERT：我们将翻译后的前提-假设对（作为原始的伪句子），并在[CLS] token上计算它们的预训练BERT表示之间的余弦相似度这是一个强基线，但对称;Jia：我们以与§ 5相同的方式构建蕴涵图，但使用Jia等人的基线ORE方法。（2018）;因此，Jia et al. （2018）方法也用于分析翻译的Levy-Holt伪句以进行评估;DDPORE：类似于Jia基线，但使用DDParser（2020）的基线ORE方法。6.2跨语言合奏为了检验我们的中文蕴涵图（EGZh）和英文图（EGEn）（2018）之间的互补性，我们集成了来自两个图preden和predzh14的预测。我们用四种集成策略进行实验：从英语到汉语和汉语到英语的词汇顺序，最大池和平均池。preden_zh=preden+γθ（preden）predzhpredzh_en=γpredzh+Θ （ predzh ）predenpredmax=MAX（preden，γpredzh）predavg=AVG（preden，γpredzh）其中Θ（）是布尔函数IsZero，γ是中文和英文图的相对权重。γ是在Levy-Holt dev集上调整的超参数，在0.0和1.0之间搜索，步长为0.1。例如，假设我们的前提是“he，shopped in，the store”，假设我们的假设假设我们在英语图中找到一条来自“shop”的边在”to“go to”中，评分为pred _ en = 0。6、我们14+v：mala2277获取更多论文†⬦表3：曲线下面积值启用利维霍尔特图1：EG Zh、集合和基线的Levy-Holt检验集上的P-R曲线; Jia（2018）基线远远落后于其他人，因此为了图的清晰性而省略。7.1实验结果中文蕴涵图（EGZh）及其基线、英文蕴涵图集成和消融研究。 EG En 是来自（ Hosseini et al. ，2018 ） ; EG En ++ 是来自（ Hosseiniet al. ， 2021年）。根据开发集结果，使用* 的词条使用中文词元基线;使用英语词元基线的词条使用英语词元基线;使用的词条是最佳集成策略。在中文图中找到从“在·X·购物“到“前往“的边，评分为pred _ zh = 0。第七章那么我们将preden_zh=0 。 6 ， predzh_en=0 。 7 ，predmax=0。7，predavg=0。65岁除了与EG En集成之外，我们还将我们的蕴涵图与SOTA英语图EG En ++（Hosseini et al. ，2021 年）。我们在这里和下面称后者为Entrance ++7结果和讨论为了测量我们构建的中国蕴涵图的性能，我们遵循先前的工作，报告了针对连续较低置信阈值绘制的精确-召回（P-R）曲线，以及它们的曲线下面积（AUC），对于具有以下特征的范围精度>50%。语言特定的词元基线通过词元化前提/假设的精确匹配来设置召回的左边界对于我们的中国蕴涵图（EGZh）及其基线，边界元由中国引理基线设置.对于集合，为了获得与先前工作可比较的AUC值，而不是过于乐观，我们使用英语引理基线。如表3所示，在中国Levy-Holt数据集上，我们的EGZh图大大优于BERT预训练基线。EGZh也远远领先于具有基线ORE方法的蕴涵图，证明了我们的中国ORE方法相对于以前的SOTA的优越性。EG Zh 和 EG En 是用相同的算法构建的（Hosseini et al. ，2018），并在并行数据集上进行评估。从57%的数据中学习，EGZh的AUC正好是英语的57%。注意，使用翻译数据集低估了中文蕴涵图：在Levy-Holt测试集中的12，921个关系对中，只有9，337个被解析为有效的中文二元关系。这意味着，对于中文蕴涵图，召回率的上限不是100%，而是72.3%，AUC的上限也是如此。此外，汉语Levy-Holt语言的语义风格也给本机构建的蕴涵图带来了选词上的缺口，导致了更多的错配。考虑到这种额外的噪声，EGZh的性能意味着我们的管道非常好地利用了源语料库中的信息。中英文蕴涵图的集成为无监督谓词蕴涵检测提供了一种新的SOTA方法使用所有4个集成策略，在两个单语图上都得到了改进;使用Ensemble AVG，在dev-set上最好，测试集改进的幅度超过5个点。此外，当与EGEn ++集成时，我们得到了 24.2 点的测试集 AUC（Enclusion ++ AVG），将SOTA提高了4.7点。AUC（%）dev测试BERT*贾（2018）*DDPORE（2020）*EGZh*5.50.99.815.73.22.45.99.42018年，EGEn ++（2021）EnvelopeEn_ZhEnvelopeZh_EnEnvelopeMAXEnvelopeAVG Envelope++AVGEnvelope20.723.328.3（γ：0.第八章）27.4（γ：0.九、29.9（γ：0.第八章）30.0（γ：1.（0）31.2（γ：0.第三章16.519.521.221.522.122.1†24.2†EGZh-型*11.17.0+v：mala2277获取更多论文7.2消融研究在表3中，我们还提供了三项消融研究，以验证我们方法的一致性在第一个消融研究中，EGZh-型，我们拿走实体类型并训练一个无类型的蕴涵图。在这种情况下，我们损失了2.4个AUC点。这意味着，我们的实体类型化方法，如§4，确实有助于消除蕴涵图中谓词的歧义。在第二个消融研究中，DataConcat设置，我们从额外数据的影响中分离出跨语言的复杂性。我们将NewsSpike语料库机器翻译成中文，将Web文档机器翻译成英文.我们使用NewsSpike + translated- Webhose构建了一个英文图结果显示，虽然这两个图表都使用了来自另一边的数据，但它们仍然远远落后于我们上面的 Encourage 设置。此外，我们将两个DataConcat图集成为“DataConcat Esb”，在这种情况下，最佳开发集设置是MAX en-0.1，γ= 0。二、在测试集上，该集合提供25.0点的AUC ，这比 DataConcat En 高 7.2 点，比非DataConcat图更宽。上述比较表明，跨语言集成的成功不能通过将所有数据粘在一起形成单语图来复制在第三个案例研究中，BackTrans Esb，我们从机器翻译的效果中分离出跨语言互补性。机器翻译可能是嘈杂的，但它也可能将源语言中的同义词映射到目标语言中的相同单词为了突出这种效果，我们将中文Levy-Holt数据集翻译回英文，并在原始和反向翻译的Levy-Holt数据集上进行预测。如表3的最后一块所示，在这种情况下的收益只是边际的，这表明跨语言的互补性是我们成功的原因，而同义词效应不是。总之，从蕴涵检测实验中，我们了解到：1）我们的汉语蕴涵图在单语环境中是强的，ORE方法和实体类型的贡献; 2）汉语和英语之间的跨语言互补性清楚地显示出来。15我们最初尝试使用谷歌翻译进行翻译尾图，其中集合的效果在中等精度范围内最显著（见图1）。我们希望在更多的语言中集成强蕴涵图将导致进一步的改进。7.3跨语言合奏的案例研究作为对上述讨论的补充，我们进一步分析了我们的合奏与案例研究，以了解我们的合奏成功的原因对单语图。我们将我们的Entrance_AVG的预测与英语单语EGEn的预测进行比较，两者的精度都我们将预测差异分为四类：真阳性、假阳性、真阴性、假阴性。阳性是集合将预测标签从阴性切换到阳性的情况，对于阴性则反之亦然;True表示切换是正确的，False表示切换是不正确的。由于Ensem- ble_AVG和EGEn之间的预测差异是由EGZh驱动的，因此在表4中，我们根据EGZh做出与EGEn16不同的预测的直接原因来分解每类差异：• 译后同句：前提和假设在关系结构上变得相同，这只会发生在肯定的情况下;• 翻译错误：由于翻译错误，前提或假设变得无法解析为关系;这只会发生在否定句中;• 词汇化：预测的差异归因于复杂关系词汇化的跨语言差异;• ORE错误：翻译后，前提和假设中的真关系具有相同的论点，但由于ORE错误而被误解;• 蕴涵的证据：差异归因于两个图中蕴涵的不同证据;这与我们的EGZh最相关。如图所示，我们的大部分性能增益来自EGZh中蕴涵的额外证据;与直觉相反，翻译在合奏中发挥了积极的作用，尽管不是主要贡献者。我们把这归因于这样一个事实，即机器翻译系统倾向于将语义相似的句子翻译成相同的目标句子，尽管这种相似性仍然是对称的，而不是方向性的。我们已经在第三次消融中特别指出了这种效应这些大型语料库，但转向百度翻译而不是更慷慨的免费配额。附录E中给出了每类原因的16个示例。+v：mala2277获取更多论文EGZhTP（+）FP（-）TN（+）FN（-）+/-与预防有关的原因，其中：+52-28+42-47+19·翻译+52-2800+24·翻译错误00+42-47-5词汇化+29-54+16-12-21ORE错误+8-20+8-5-9蕴涵证据+109-95+86-40+60总+198-197+152-104+49表4：我们的合奏和英语单语图之间的不同预测的细分。“TP”, “FP”, “TN”, “FN” represent我们的研究已经证实，这种影响对我们的成功来说是微不足道的。在表4中，对于蕴涵证据的差异和TOTAL的差异，阳性的精确度低于阴性。也就是说，TP/（TP+FP）低于TN/（TN+FN）。这并不奇怪，因为积极的和否定有不同的基线开始：积极试图纠正错误的否定从EGEn，其中17%的所有否定是假的;否定试图纠正错误的肯定，其中35%的所有肯定是假的（如在我们的案例研究的设置中所规定的）。在这种情况下，可以预期，我们的蕴涵证据对于阳性的正确率为109/（109+ 95）=53%，而更好的86/（86+40）=68%正确率底片。这些结果支持了我们的贡献。8结论我们已经提出了一个构建中国蕴涵图的管道在此过程中，我们提出了一种新的高召回率开放关系提取方法，并通过标签映射建立了一个细粒度的实体类型数据集。作为我们的主要结果，我们已经表明：我们的中文蕴涵图与英文图相当，其中无监督BERT基线表现不佳;中文和英文蕴涵图之间的集成大大优于单语图，并为无监督蕴涵检测设置了一个未来的工作方向包括多语言限定图对齐和谓词消歧的替代方法。确认作者要感谢Jeff Pan的帮助讨论和匿名评论者，他们宝贵的反馈。这项工作得到了ERC高级奖学金GA 742137 SEMANTAX的部分支持，这是信息学研究生院和爱丁堡大学华为实验室的Mozilla博士奖学金。引用Gabor Angeli ， Melvin Jose Johnson Premkumar 和Christopher D.曼宁2015. 利用语言结构进行开放域信息抽取 . 在 Proceedings of the 53rd AnnualMeeting of the Association for ComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing（Volume 1：Long Papers），pages 344-354，Beijing，China.计算语言学协会。Jonathan Berant 、 Noga Alon 、 Ido Dagan 和 JacobGoldberger。2015年。蕴涵图的有效全局学习。Computational Linguistics，41（2）：249乔纳森·贝兰特，伊多·达根，雅各布·戈德伯格。2011. 类型化蕴涵规则的全局学习。计算语言学协会第49届年会论文集：人类语言技术，第610-619页，美国俄勒冈州波特兰市。计算语言学协会。Samuel R. Bowman ， Gabor Angeli ， ChristopherPotts，and Christopher D.曼宁2015. 一个用于学习自然语言推理的大型注释语料库。在2015年自然语言处理经验方法会议的会议中，第632-642页计算机语言学协会。陈同飞，陈云墨，本杰明·范杜梅。2020. 通过多层次学习排序的层次实体分类。在计算语言学协会第58届年会的会议记录中，第8465-8475页，在线。计算语言学协会。+v：mala2277获取更多论文崔雷，魏富如，周明。2018. 神经开放信息提取。在 Proceedings of the 56th Annual Meeting of theAssociationforComputationalLinguistics（Volume 2：Short Papers），pages 407-413，Melbourne，Australia.计算语言学协会。Ido Dagan ， Lillian Lee 和 Fernando C. N. 佩雷拉 .1999. 基于相似性的词共现概率模型。MachineLearning，34（1）：43- 69.Oren Etzioni，Anthony Fader，Janara Christensen，Stephen Soderland ， and Mausam Mausam. 2011.开放式信息提取：第二代。在第二十二届人工智能国际联合会议的会议记录 - 第一卷，IJCAIPress.安东尼·法德尔，斯蒂芬·索德兰，奥伦·埃齐奥尼。2011. 识别开放信息提取的关系。在Proceedingsof the 2011 Conference on Empirical Methods inNatural Language Processing，第1535-1545页，爱丁堡，苏格兰，英国。计算语言学协会。Xingyu Fu，Weijia Shi，Xiaodong Yu，ZianZhao，and Dan Roth. 2020. 低资源跨语言实体链接的设计挑战。在2020年自然语言处理经验方法会议（EMNLP）上，第6418-6432页。计算语言学协会。Juri Ganitkevitch，Benjamin Van D

下载后可阅读完整内容，剩余1页未读，立即下载