统一低比例关系抽取的匹配预训练

27 浏览量更新于2023-12-01 收藏 666KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文统一低比例关系抽取的匹配预训练刘方超1，3，林宏宇1，林伟，韩先培1，2，4，曹博喜1，3，孙乐1，21中文信息处理实验室2计算机科学中国科学院软件研究所，北京，中国3中国科学院大学，中国4北京人工智能研究院，中国北京{fangchao2017,hongyu,xianpei,boxi2020,sunle}@iscas.ac.cn摘要低镜头关系抽取（Low-Shot RelationshipExtraction，RE）的目标是在样本很少甚至没有样本的情况下识别新的关系，这在实际应用中至关重要。少炮和零炮反辐射是两种典型的低炮反辐射任务，这两种任务看似目标相似，但要求计算的基础能力不同。在本页中-Label实例关系语义相似性(a) Zero-Shot辅助核算Ins.例如关系语义学相似性(b) 少射RE在此基础上，我们提出了多选择匹配网络来统一低镜头关系抽取。为了填补零镜头和少镜头RE之间的空白，我们提出了三重释义Meta训练，它利用三重释义来预训练零镜头标签匹配能力，并使用元学习范式来学习少镜头实例摘要能力。实验结果表明，该方法在3个不同的低镜头RE任务上的性能明显优于强基线，在少镜头 REleader- board1上的性能最好。1介绍关系抽取（RelationExtraction，RE）的目的是抽取上下文中两个给定实体之间的关系.构建RE 模型的最流行的方法是基于监督学习（ Zeng et al. ， 2014; Baldini Soares et al. ，2019）。尽管有监督的关系抽取方法具有优越的性能，但其数据瓶颈严重制约了其在实际应用中对更多关系类型的应用。因此，低镜头关系提取成为近年来逆向工程领域的研究热点有两种主流的学习范式在低镜头关系提取中被广泛研究，即零镜头RE（Levy et al. ，2017）和少量RE（Hanet al. ，2018）。少镜头关系抽取的目标是仅用少量的示例来识别新关系类型的实例，而零镜头关系抽取则更具渐进性，它只使用外部示例，*通讯作者。1https://thunlp.github.io/2/fewrel2_nota.html图1：零激发RE和少激发RE之间的差异。(a)零镜头需要标签语义匹配的能力，而（b）少镜头需要支持实例（Sup. Ins.）总结。知识和新关系的名称或定义由于低激发RE只需要非常有限的人工标注数据，因此它可以有效地缓解传统RE中的数据瓶颈，因此受到了极大的关注。然而，即使有类似的目标，零镜头RE和少镜头RE实际上需要不同的基本能力。具体来说，零拍RE是建立在标签语义匹配能力，这需要模型，以充分利用给定的新关系的标签语义，并匹配关系和查询的基础上，他们的底层语义。而少镜头RE是建立在实例语义总结能力的基础上的，这需要一个模型通过总结来自少镜头实例的关键信息来快速推广到新的关系。由于这一根本差异，当前最先进的架构被分别学习以处理这两个低拍摄RE任务。对于零镜头RE，最流行的解决方案是将其转换为文本蕴涵（Obamuyide和Vlachos，2018; Sainz等人。，2021）、单词预测（Brown et al. ，2020 ）或 MRC 问题（ Levy et al. ， 2017;Bragget al. ，2021），并使用来自这些任务的外部资源来预训练标签语义匹配能力。然而，关系抽取和这些任务之间的分歧将不可避免地降低性能. 此外，MRC和tex-arXiv：2203.12274v1 [cs.CL] 2022年3月+v：mala2277获取更多论文≤ ≤ ≤≤实际蕴涵体系结构每次只能处理对于少镜头RE，当前的方法主要集中于从几个说明性实例中总结出更好的原型（ Snell et al. ，2017），或者学习一个可以在几个步骤内推广到新类型的模型（Finn et al. ，2017年）。这些方法需要少量的实例来微调或总结原型，因此不能直接应用于零炮RE。因此，当前的关系提取模型不能有效地和高效地应用于所有低拍摄RE设置。在本文中，我们提出了统一的低镜头关系提取，通过回归关系提取的本质。从根本上说，关系抽取可以被看作是一个多项选择任务。给定上下文中的两个实体，RE系统需要从一组预定义的关系类型中匹配最合适的关系-完成多项选择匹配所需的信息可以从关系名称的表面形式或从少量实例中总结出来。受此启发，我们提出了用于统一低激发RE的多选择匹配网络（MCMN），如图2所示。具体地说，MCMN将所有候选关系解压缩转换为多项选择提示。然后将输入实例与多选择提示连接起来，并通过预先训练的编码器来获得输入实例和候选关系的语义表示。最后，MCMN通过直接匹配关系表示和实例表示进行关系抽取。为了使MCMN同时具备标签语义匹配能力和实例语义总结能力，本文提出通过三元组释义Meta预训练对MCMN进行预训练，该元预训练包含以下两个关键部分：1）文本-三元组文本释义模块，它可以生成大规模的伪关系抽取数据，以预训练MCMN的标签语义匹配能力; 2）元学习风格训练算法，它使MCMN具有实例语义总结能力，以快速推广到不同的关系抽取任务。特别地，给定大规模的原始文本，三重释义首先通过OpenIE提取（主语、谓语、宾语）三重（Cui et al. ，2018）工具包。然后基于使用RDF到文本生成模型来生成所提取的三元组，即原始文本的释义。通过这种方式，我们可以通过收集生成的句子和三元组中的谓词来获得大规模的伪注释该语料库通过将释义与相应的谓词进行匹配，有效地预训练了MCMN的标签语义匹配能力。此外，为了丰富MCMN的实例语义总结能力，这样的预训练进行元学习范式。也就是说，MCMN被要求在每次迭代时学习不同的关系提取任务，使得MCMN不能通过直接记忆特定的目标关系来过度拟合预训练语料库为了评估我们的方法，我们对三个相当不同的RE任务进行了实验：零镜头RE，少镜头RE和非上述关系的少镜头RE。实验结果表明，本文提出的方法在这三个任务上都优于以往的方法我们的源代码是可用的上https://github.com/fc-liu/MCMN。这项工作的主要贡献是：• 我们提出了MCMN，一个统一的架构，低镜头关系提取的基本制定关系提取使用多选择匹配范例。• 我们提出用三元组 - 释义 Meta 训练对MCMN进行预训练，从而丰富了MCMN对零镜头RE和少镜头RE的标签语义匹配能力和实例语义概括• 我们全面研究了MCNN在三种不同的关系提取任务上的性能，包括零镜头，少数镜头和少数镜头与非上述关系提取，其中MCMN优于强基线模型。2背景在本节中，我们制定关系提取任务和低激发RE设置，包括零激发RE和少激发学习RE。关系提取。假设输入文本T=[t1，t2，.，tn]包含n个令牌，e1=[i，j]和e2=[k，l]指示实体对跨度，其中1我j，j< kl和l n。关系实例被定义为x=（T，e1，e2）。例如，元组（+v：mala2277获取更多论文→我我相似性分数实例表示法…[choice]其他人的CEO [sep]蒂姆·库克是苹果公司的CEO。图2：我们的多选择匹配网络（MCMN）的图示。Inc.”、“蒂姆·库克”、“苹果公司”）是关系实例。关系提取的目的是学习映射函数：f：xy，其中y是关系类。例如，我们想要映射（“蒂姆·库克是苹果公司的首席执行官”）。、“蒂姆·库克”、“苹果公司”）到其关系类传统的RE任务通常预先定义类空间Y并注释大量实例来训练模型。然而，在现实场景中，目标关系类型在不同的任务中是不同的，并且大多数新的关系缺乏注释，使得监督范式不适用。在这方面，如何将模型转换为新的任务变得至关重要。低拍关系提取。低镜头关系提取要求模型识别新的关系与非常少的样本。有两种主流的低拍摄RE任务，包括：零射击该任务旨在进行关系提取，除了一些外部知识z（或边信息）（如关系描述）之外，没有任何注释实例。模型应该只通过外部知识传递知识并提取输入实例x的目标关系yt少枪RE 该任务的目的是进行关系抽取，每个新的关系只有几个注释的实例。每个少量RE任务包含支持集S = S1，.， N为N的关系。对于关系式i，Si=S0，.，S K包含K个带注释的实例。模型应该学习传递知识，并通过N路K-shot支持集提取目标关系yt，例如x3多选择匹配网络在本节中，我们将介绍我们的多选择匹配网络（ MCMN ）。与传统的统一模型不同，MCMN采用了一种更加高效、轻量的解码模块.以下是详细的描述。3.1多选提示从根本上说，关系抽取可以被看作是一个多项选择任务。灵感来自最近的先进的即时学习（布朗等人。， 2020;Schick 和 Schütze ，2021），我们通过直接连接所有关系名称或描述来为每个关系提取任务构建多选择提示。形式上，多项选择提示采用以下形式：[C]rel 1 [C] rel 2. [C]相对氮其中[C]是以下关系的占位符分隔符。例如，在图2中，目标RE任务包含三个新的关系：employee_of、ceo_of和others，然后将它们的关系描述连接在一起，形成多项选择提示“[C][C]其他人的CEO。在获得多项选择提示后，我们将其与输入句子一起送入实例编码器，并将分隔符[C]处的表示视为其后续关系的表示。3.2实例编码器在实例编码之前，我们将多项选择提示与每个输入实例连接成一个句子，并使用[SEP]标记将它们分隔开。此外，我们遵循（BaldiniSoares et al. ，2019），并分别用[e1]、[/e1]、[e2]和[/e2]包装给定的实体对。对于图2中的示例，编码器的整个输入是：[C][e1] Tim Cook [/e1]是[e2] Apple [/e2]的CEO. [SEP]“.然后我们通过一个Transformer对整个句子x进行编码（Vaswani et al. ，2017年）编码器：h[CLS]，h[C]，...， h[SEP]= H（x），（1）其中h是x中每个标记的输出嵌入，d是隐藏状态的维数。这些标记嵌入然后用于多选择匹配和模型预测。[选择]+v：mala2277获取更多论文|Σ我（主题1，预测1，目标1）（主题2，预测2，目标2）…OpenIE释义正倒向模型原始文本（Subjn，Predn，Objn）三胞胎三重数据集实例��∗三重释义∗小说关系∗�� −（）��∗←�� − ∇ ℒ （）抽样任务查询快速自适应（少拍）好吧，好吧~好吧��、��∗��~��∊��[cls][sep]解释文本。[sep]图3：多项选择匹配训练策略框架。（a）三元组-释义构造对三元组-释义对进行元训练;（b）对三元组-释义三元组进行Meta训练;（c）在线任务元训练对每个测试任务执行在线元训练。3.3多项选择匹配与预测多选匹配模块将输入的实例与对应关系进行匹配。对于每个关系类型，我们使用[C]标记的隐藏状态来表示每个以下关系：雷岛其中hreli是关系i的表示，并且在那里，我（）等于1，如果y i是黄金类，否则I（. ）=0。三个阶段的培训过程将在下一节中详细描述4多选择匹配网络的训练策略如上所述，零次射击和少数射击所需的能力本文主要h[C]i 是第i个[C]标记的隐藏状态。为提出三重释义Meta预训练，输入文本，我们简单地平均[e1]和[e2]的隐藏状态以获得实例表示X：X= avg（h[e1]，h[e2]）。（三）然后我们在实例和每个关系之间执行匹配操作D（x，y i）=<$X − hreli<$2。（四）在这个等式中，我们采用欧几里德距离来度量相似性，每个关系对应的概率为：联合学习零镜头RE所需的标签语义匹配能力以下是预培训框架的详细描述4.1三重释义结构为了赋予MCMN标签语义匹配能力，需要结合关系语句和关系类型的不幸的是，现有RE数据集中高度有限的关系类型可能导致特定关系上的过拟合，并损害P（y |x; θ）= exp（−D（x，y i））.（五）MCMN的推广在本文中，我们支持-提出三重释义，以产生大规模的最后，我们选择具有最大概率的关系y，作为预测：y=argmaxP（yix;θ）。（六）我3.4训练损失我们通过最小化以下损失函数来采用端到端的训练方式：NL（x，y）（θ）=−I（yi）logP（yi|xi;θ），（7）i=1Nj=1 exp（−D（x，yj））+v：mala2277获取更多论文MCMN的预训练数据来自原始文本。图3（a）展示了三重释义模块的整个过程，该模块从大规模原始文本中提取pre-icates作为关系描述。然后，我们利用提取的关系三元组，以产生进一步的多选择匹配预训练的复述句子。现将详细情况介绍如下。关系三元组提取。大多数完整的句子至少包含一个关系三元组，+v：mala2277获取更多论文SLL← −L包括主语、谓语和宾语。句子中的谓语对应的是主语和宾语之间的属性或关系，可以看作是一种关系的具体表现。因此，为了从开放域文本中抽取大规模的三元组，我们使用OpenIE模型2对维基百科的文章集合进行抽取。考虑例句：服务将其历史记录追溯到一个名为PlayNET的在线服务。 OpenIE模型提取了所有可能的三元组：（在线服务，称为PlayNET）和（服务，跟踪，其历史）。我们从原始文本中收集所有提取的谓词来表示对应的关系，防止模型过度拟合特定的关系类型。这些三元组进一步用于释义生成和预训练。释义生成。将谓词作为关系进行匹配的一个缺点是OpenIE提取的谓词通常是当前句子的一个跨度为了消除这种捷径，我们遵循最近的几项工作（ Agarwal et al. ， 2021; Liuet al. ，2021）以生成释义文本来匹配谓词。具体来说，对于提取的三元组，我们首先用对应于主语、谓语和宾语的特殊标记“[H]、[R]、[T]“来包装它们然后我们输入经过包装的三元组文本来生成释义文本。在我们的实现中，我们采用T5 3（Raffel et al. ，2020）作为生成器，并在WebNLG数据集上对其进行预训练（Gardent etal. ，2017年）。例如，我们将（一个在线服务，称为PlayNET）包装为“[H]一个在线服务[R]称为 [T] PlayNET” ，然后生成释义文本playnet is a online service。生成释义后，我们将其与相应的谓词进行匹配以进行预训练。4.2 三重释义Meta预训练预训练批处理中的每个实例都包含释义文本和相应的谓词跨度。此外，如图3（a）所示，我们将当前mini-batch中的所有谓词连接起来作为多项选择提示，并遵循公式7中的训练损失来预训练MCMN，其中当yi是对应的谓词时，I（yi）等于1，否则，I（yi）=0。·算法1用于少炮预测的MCMNRequire：n：在线期间的微调epochRequire：θ：元学习模型参数Require：：支持集，xq：查询实例Require：α：学习率1：θJ=θ#保存原始模型2：对于范围（n）中的历元，3：#计算支持集的损失：4：S=E（x，y）∈S（x，y）（θ）5：#更新模型参数：6：θ <$θ <$αθθ S7：结束8：y=fθ（xq）#预测查询实例9：θj=θJ#恢复原始模型10：返回y5实验5.1数据集和任务设置我们对三个低拍摄关系提取任务进行实验：零拍摄RE（布拉格等人。，2021）、少射RE（Bragg et al. ，2021）和更具挑战性的少数镜头RE与非上述（NOTA）（高等人，，2019b）。这些任务都是基于FewRel数据集（Hanet al. ，2018年），这是通过远距离对齐维基数据三元组维基百科的文章。FewRel数据集包含100种关系类型，每种类型包含700个实例。标准FewRel设置采用64/16/20分数的分割，对应于训练/验证/测试集，其中训练和验证集是公开可访问的，而测试集不是。以下是每个评估任务的详细设置。零镜头和少镜头关系提取设置。我们遵循标准的Flex基准设置，将FewRel的训练集和验证集分为65个关系的训练集，5个关系的验证集和10个关系的测试集。测试任务通过FLEX官方工具包4进行采样和处理。具有NOTA关系设置的少量RE。传统的少镜头RE任务的缺点是，他们忽略了其他关系的存在，即所有的查询实例被假定为表示在支持集中的给定关系之一。Gao等人（2019 b）指出这个问题，并添加2https://github.com/dair-iitd/OpenIE-standalonehttps://github.com/UKPLab/plms-graph2text3https://github.com/allenai/flex+v：mala2277获取更多论文Zero-shot少样本Avg.模型Acc. ±ci。STD.Acc. ±ci。STD.UniFew（Bragg et al. ，2021年）UniFew-meta（Bragg et al. ，2021年）52.5±2.0 9.779.4± 1.9 9.279.2±1.5 7.587.2±1.2 5.765.983.3MCMN w.仅预培训MCMN66.6±1.7 8.782.9±1.36.674.4±1.5 7.687.4±1.25.670.585.1使用NOTA进行少量拍摄Avg.模型5-1-Shot 0.155-方式5-拍摄0.155-1-Shot 0.55-方式5-拍摄0.5Proto（CNN）（Gao et al. ，2019年b）60.5977.7940.0061.6660.01Proto（BERT）（Gao et al. ，2019年b）70.0283.7945.9475.2168.74Bert-Pair（Gao et al. ，2019年b）77.6784.1980.3186.0682.06排行榜第二名（匿名）79.5386.3179.9981.9281.94排行榜第三名（匿名）67.9781.9474.8578.1275.72MCMN（排行榜第一88.4089.9184.5685.3287.05表1：零激发、少激发和NOTA RE任务的少激发的结果（%）。我们报告准确性（Acc.），置信区间（ci.），和标准偏差（Std.，越低越好），并且仅精确度用于NOTA任务的少量发射。其中查询实例不表达任何给定关系的评估。在我们的实验中，我们遵循FewRel基准测试的默认设置，并在NOTA率为15%或50%的5路15-shot任务上评估我们的方法5.2基线和评估基线方法。对于零次和少量RE任务，我们将我们的模型与 UniFew （ Bragg et al. ，2021），基于T5的统一少拍学习模型（Raffelet al. ，2020）。该模型将每个少量分类任务转换为机器阅读理解格式，并通过生成来预测结果通过对大规模MRC数据进行预训练，该模型在零次和少量任务上都达到了很好的性能。对于具有NOTA关系任务的少量RE，我们将我们的模型与 Bert- Pair （ Gao et al. ，2019b），用于少量RE任务的实例对匹配框架。该模型同时计算查询实例和每个支持实例之间的相似性和相异性得分，然后聚合每个关系的相似性得分和NOTA关系的相异性得分Gao et al.（2019 b）基于CNN和BERT的原型网络的结果也被报道。评价对于零发射和少发射RE任务，我们遵循FLEX基准并相应地报告准确度、置信区间和标准偏差。所有这些报告的结果都来自官方的Flex工具包。对于具有NOTA关系的少量RE任务，我们遵循FewRel 2.0基准并报告相应的准确性四种不同的设置。5.3超参数和实现细节在三元组构建阶段，我们从维基百科的文章中提取关系三元组并生成对应的释义文本。总的来说，我们生成了大约一百万个三元组和释义文本对.在三元释义Meta训练期间，我们使用5e-6的学习率，1 e-6的权重衰减，0.5的辍学率，以及具有0.95权重衰减的在在线任务元训练期间，我们使用 5e-6 的学习率，以及FewRel NOTA任务为1或2，FLEX任务为45，同时保持其他超参数相同。我们使用Roberta-large（Liu et al. ，2019）来初始化我们的模型。此外，为了更好地赋予我们的模型低拍摄能力，我们采用注释的FewRel数据（Han etal. ，2018）作为额外监督的元训练程序。5.4总体结果表1显示了三个不同RE任务的总体结果从这个表中，我们可以看到：• 三重释义预训练MCMN优于以前的方法在所有三个RE任务，并实现国家的最先进的perfor-mance。与强基线方法相比，MCMN取得了显著的性能改善。在零镜头和少数镜头RE任务中，具有三重释义预训练的MCNN平均比基线方法至少高出 1.8%。在具有NOTA任务的少数镜头RE中+v：mala2277获取更多论文模型Zero-shot少样本Avg.多选择匹配网络的工作在低激发RE任务中是相当适用的。此外，我们注意到纯三重释义预训练模型的性能低于没有三重释义预训练的MCMN为了研究这个问题，我们分析了三重释义数据，发现许多生成的文本仍然由单词组成，表2：我们的方法在以下部位FLEX RE 基准， Sup.Meta 是 Supervised MetaTraining的缩写我们的方法比以前的最佳方法平均至少高出4.99%，并在排行榜上取得• 我们的三重释义预训练在低拍摄RE任务上取得了令人鼓舞的结果与其他预训练策略（如使用大型注释MRC数据集预训练的UniFew模型）相比，三元组释义预训练在零射击RE任务上实现了更好的性能。此外，三元组释义可以进一步增强MCMN，以在所有三个低拍摄RE任务上实现新的最先进的结果，并在下一节中进行详细分析。• MCMN执行比以前的方法更强大。在零次和少量任务中，我们的方法比基线方法执行更低的标准差和更浅的置信区间，这意味着我们的方法在不同任务中的预测更稳定。5.5仔细的分析在本节中，我们进行了几个实验，以深入分析我们的方法。零发射和少发射RE任务的消融研究。为了评估我们的方法的每一部分在零次和少次RE任务上的效果，我们在Flex测试集上分别进行了三重复述预训练、MCMN和没有三重复述预训练的MCMN的实验。如表2所示，我们可以看到，纯三元组释义预训练模型优于RoberTa-large模型，具有显着的余量，并且与没有三元组释义预训练的MCMN相比，利用MCMN模型，在零激发和少量激发设置下至少提高了1.9%。实验结果表明，三重释义预训练方法可以显著提高模型的泛化能力和性能，谓语，虽然表达与原来的句子有很大这仍然可能导致捷径学习问题。最重要的是，谓词的表达式与关系名称有很大的不同这些问题共同导致性能不佳幸运的是，三重释义预训练阶段可以正确地初始化MCMN并利用最终性能。少数发射NOTA RE任务的消融研究。我们还进行了详细的分析，我们的方法，在少数镜头NOTA RE任务。如表3所示，纯三元组释义预训练模型还可以提高roberta-large初始化模型的性能，并且平均利用受监督的尽管我们在三重释义预训练期间没有考虑NOTA关系，但该期间也可以有助于进一步的监督Meta训练期间，这表明在三重释义预训练期间学习的此外，我们注意到，在NA率为0.5的任务中，纯三重释义预训练模型的性能下降严重。这可能是由于测试任务中负性成分所占比例较大所致。幸运的是，这个问题可以通过在线适应期来缓解。零射击NOTA RE任务。该实验研究了我们的方法在FewRel NOTA任务上的零射击性能。从表3中，我们惊讶地发现，我们的方法也优于以前的国家的最先进的几杆NOTA模型，即使在零杆条件。这也表明我们的方法在低拍摄RE任务中是有效的，并且在不同的设置中足够鲁棒。多选择匹配网络的计算效率。实验比较了该方法与基于MRC的方法的计算效率.每个模型都在Flex测试集上进行测试，包括零次和少量RE任务。零炮设置的模型只需要推断-acc标准acc.STD.罗伯塔15.65.121.47.318.5三重Para预训练66.68.774.47.670.5MCMN，不带预训练 81.06.785.35.783.2MCMN82.9 6.687.4 5.685.1+v：mala2277获取更多论文模型使用NOTA进行Avg.罗伯塔27.3727.8816.3816.5022.03三重Para预训练69.0070.5943.9943.6656.81MCMN，不含预训练87.8990.3683.2283.1086.14MCMN88.4089.9184.5685.3287.05MCMN，不含预训练（0次）83.0884.1083.6183.4583.56MCMN（0-shot）85.1185.4582.7282.1683.86表3：FewRel NOTA基准上MCMN的消融研究结果（%）。三重Para对应于三重释义。然而，在少数镜头设置中的两个模型都需要对支持集进行微调，这涉及耗时的反向传播操作。为了公平比较，我们为每个模型使用单个TITAN RTX GPU，并保持其他计算环境相同。因此，UniFew需要647分钟（超过10小时）才能完成测试预测，而我们的方法大约需要80分钟才能获得表1中的结果，这将速度提高了大约一个数量级这种效率差异的主要原因是，UniFew作为生成模型，涉及自回归解码器来生成结果，而我们的方法直接匹配关系和实例表示来给出结果。6相关作品关系提取。最近成功的监督关系提取方法（Zeng et al. ，2014; Zhou等人，2016）严重依赖于大量的注释数据。然而，数据标注的瓶颈严重限制了这些监督方法对实际场景的适应。最近的研究从低激发学习的角度回答了这个难题，主要集中在零激发和少激发RE任务。在本文中，我们选取了三个具有代表性的子场任务，包括零次RE 、少次 RE和具有NOTA关系的少次RE，对我们的方法进行了零拍关系提取。Levy等人（2017）首先介绍了零镜头关系提取任务，并对其调整了基于机器阅读理解（MRC）的范式。沿着这条路线，已经提出了其他基于 MRC 的方法（Cetoli，2020; Bragg et al. ，2021年）。零激发RE的另一范例是基于匹配的（Socher etal. ，2013年），它属于基于文本蕴涵的方法（ Obamuyide 和 Vlachos ， 2018 年 ; Sainz 等人。，2021），以及基于表示匹配的方法（Chen和Li，2021;Dong等人，2021年）。基于文本蕴涵的方法将关系描述与输入句子连接起来，以评估它们是否蕴涵相同的语义关系;基于表示匹配的方法将关系和实例单独编码到相同的语义空间中，但不能处理NOTA关系。少镜头关系提取。Han等人（2018）首先提出了少镜头关系提取任务，并采用了几种元学习方法（Munkhdalai和Yu，2017; Snell等人，2017）。，2017; Satorras and Estrach，2018;Mishra et al. 最近关于少数镜头RE的工作主要围绕基于度量的方法（Vinyals等人，2018年）。，2016），例如基于原型的方法（BaldiniSoares et al. ， 2019; Ye and Ling ， 2019;Gao et al. ，2019 a）和基于Meta学习的方法（Finn et al. ，2017年）。此外，Gao et al.（2019 b）通过少数域自适应（DA）和非上述（NOTA）任务扩展了FewRel挑战，这些任务更具挑战性，更接近现实世界的应用。少枪RE与NOTA。尽管NOTA关系在常规监督 RE 任务中是常见的（ Zhang et al. ，2017），由于标签不一致问题，在少数镜头场景中有很大不同。作为一个例子，考虑一个表达关系r的实例在任务A中，关系r不包括在支持集中，因此模型学习该实例与NOTA关系之间的语义映射。但是在关系r被包括在支持集中的另一个任务B中，从任务A学习的模型可以继续将该实例与NOTA关系匹配。由于困难，解决这个问题的尝试很少。据我们所知，Bert-Pair（Gao et al. ，2019 b）是该任务的唯一公开方法，我们的工作是第一个将零拍、少拍、少拍与NOTA任务统一起来的方法。5-1-Shot 0.155-方式5-拍摄0.155-1-Shot 0.55-方式5-拍摄0.5+v：mala2277获取更多论文7结论在本文中，我们提出了多选择匹配网络来统一低镜头关系提取。MCMN引入了一个多选择提示，以制定关系提取作为一个多选择范例。为了使MCMN具有不同的零镜头和少镜头能力，我们提出了三重释义Meta预训练，它利用三重释义来预训练零镜头标签匹配能力，并使用元学习范式来学习少镜头实例摘要能力。在三个不同的RE任务上的实验结果表明，MCMN的性能大大优于强基线模型。确认我们感谢所有评论者的深刻建议。本研究得到了中国科学院战略重点研究计划（ XDA27020200）和国家自然科学基金（62106251和62076233）的资助。伦理思考这篇论文没有特别的伦理考虑。引用Oshin Agarwal 、 Heming Ge 、 Siamak Shakeri 和Rami Al-Rfou。2021. 知识增强语言模型预训练基于知识图的合成语料库生成。在计算语言学协会北美分会2021年会议的会议记录中：胡曼语言技术，第3554-计算语言学协会。Livio Baldini Soares，Nicholas FitzGerald，JeffreyLing，and Tom Kwiatkowski. 2019. 匹配空白：关系学习的分布相似性。在第57届年会的会议记录中，第2895-2905页，意大利佛罗伦萨。计算语言学协会。乔纳森·布拉格，阿尔曼·科汉，凯尔·罗，伊兹·贝尔特·阿吉. 2021. FLEX：统一少数NLP的评估。在神经信息处理系统的。汤姆湾 Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，GirishSastry ， AmandaAskell ， SandhiniAgarwal，ArielHerbert-Voss，GretchenKrueger，Tom Henighan，Rewon Child，放大图片作者：Daniel M. Ziegler，Jeffrey Wu，Clemens Winter ， Christopher Hesse ， MarkChen ， Eric Sigler ， Mateusz Litwin ， ScottGray，Benjamin Chess，Jack Clark，ChristopherBerner，Sam Mc- Candlish，Alec Radford，IlyaSutskever，and Dario Amodei. 2020年。语言模型是少数的学习者。CoRR，abs/2005.14165。阿尔贝托·塞托利2020. 探索FewRel的零拍摄极限。第28届国际计算语言学会议论文集，第1447-1451页国际计算语言学委员会。陈志尧和李正德。 2021. BERT-BERT ：Towardszero-shotrelationextractionwithattributerepresentation learning.在计算语言学协会北美分会2021年会议论文集：人类语言技术，第3470-3479页，在线。计算语言学协会。崔雷，魏富如，周明。2018. 神经开放信息提取。在 Proceedings of the 56th Annual Meeting of theAssociationforComputationalLinguistics（Volume 2：Short Papers），pages 407-413，Melbourne，Australia.计算语言学协会。董曼青，潘春光，罗志鹏。2021. Mapre：一种有效的语义映射方法，用于低资源关系抽取。Chelsea Finn Pieter Abbeel和Sergey Levine 2017. 模型不可知元学习用于深度网络的快速适应。在Proceedings of the 34th InternationalConference onMachine Learning ， Vol.70 ofProceedings ofMachine Learning Research ， pages 1126-1135中。PMLR。高天宇，韩旭，刘志远，孙茂松。2019年a。混合注意力为基础的原型网络，为嘈杂的少数镜头关系分类。AAAI人工智能会议论文集。高天宇、韩旭、朱浩、刘志远、李鹏、孙茂松和周杰。2019年b. FewRel 2.0：面向更具挑战性的少镜头关系分类。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（ EMNLP-IJCNLP ）的会议中，第 6250-6255页，中国香港。计算语言学协会。Claire Gardent ， Anastasia Shimorina ， ShashiNarayan ， and Laura Perez-Beltrachini. 2017.WebNLG挑战：从RDF数据生成文本。在第10届自然语言生成国际会议的开幕式上，第124-计算机语言学协会+v：mala2277获取更多论文Xu Han ， Hao Zhu ， Pengfei Yu ， Ziyun Wang ，Yuan Yao，Zhiyuan Liu，and Maosong Sun.2018年FewRel：一个具有最先进评估的大规模监督少镜头关系分类数据集。在2018年自然语言处理经验方法会议上，第4803- 4809页，比利时布鲁塞尔。计算语言学协会。Omer Levy，Minjoon Seo，Eunsol Choi，and LukeZettlemoyer. 2017. 基于阅读理解的零镜头关系抽取。在第21届计算自然语言学习会议（CoNLL2017）的会议记录中，第333-342页计算语言学协会Fangchao Liu ， Lingyong Yan ， Hongyu Lin ，Xianpei Han，and Le Sun. 2021. 开放关系提取的元素干预。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议的会议记录（2011年：长文），第4683计算语言学协会.Yinhan Liu，Myle Ott，Naman Goyal，Jingfei Du，Man-dar Joshi，Danqi Chen，Omer Levy，MikeLewis ， LukeZettlemoyer ， andVeselinStoyanov.2019. Roberta：一个鲁棒优化的bert预训练方法。Nikhil Mishra 、 Mostafa Rohaninejad 、 Xi Chen 和Pieter Abbeel。2018. 一个简单的神经集中Meta学习者。在国际学习代表会议上。Tsendsuren Munkhdalai和Hong Yu。2017. Meta网络。第34届国际机器学习会议论文集，第70卷，第2554-2563页。PMLR。Abiola Obamuyide和Andreas Vlachos。2018. 作为文本蕴涵的零镜头关系分类。在事实提取和验证（FEVER）第一次研讨会的会议记录中，第72-计算语言学

下载后可阅读完整内容，剩余1页未读，立即下载