嵌入空间正则化和数据扩充的连续少镜头关系学习方法

63 浏览量更新于2023-11-30 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文基于嵌入空间正则化和数据扩充的Chengwei QinQin和Shafiq Joty秦成伟南洋理工大学Salesforce研究{chengwei003@e.ntu，srjoty@ntu}. edu.sg摘要现有的持续关系学习（CRL）方法依赖于大量的标记训练数据来学习新任务，这在实际场景中很难获得，因为获得大的和有代表性的标记数据通常是昂贵和耗时的。因此，该模型需要用很少的标记数据学习新的关系模式，同时避免灾难性地忘记以前的任务知识。在本文中，我们将这个具有挑战性但又实用的问题表述为连续少镜头关系学习（CFRL）。基于对新出现的小样本任务的学习往往会导致特征分布与复杂任务的学习分布不兼容的发现我们的方法推广到新的少数拍摄任务，并避免灾难性的忘记以前的任务，通过强制关系嵌入的额外约束，并通过添加额外的相关数据在一个自我监督的方式。通过大量的实验，我们证明了我们的方法在CFRL任务设置中可以11介绍关系提取（RE）旨在检测句子中两个实体之间的关系，例如，预测句子“Kamala Harris出生于加利福尼亚州奥克兰，1964年10月20日”中的关系出生日期卡玛拉·哈里斯和1964年10月日的两个实体。它是搜索和问答等下游任务的基本步骤（Dong et al. ，2015; Yu et al. ，2017年）。传统上，RE方法是通过考虑一组固定的静态关系来构建的（Miwa和Bansal，2016; Han等人，2017）。，2018 a）。然而，与实体识别类似，RE也是一种1代码和型号可在图1：连续关系学习（CRL）和连续少镜头关系学习（CFRL）的区别。除了第一个任务有足够的训练数据外，后续的新任务都是CFRL中的少镜头任务。相反，CRL假设每个任务都有足够的训练数据。开放词汇问题（Sennrich et al. ，2016），其中关系集随着新关系类型随着新数据的出现而保持增长。一个潜在的解决方案是将RE形式化为连续关系学习或CRL（Wang et al. ，2019）。在CRL中，模型通过一系列任务学习关系知识，其中关系集从当前任务到下一个任务动态变化。由于持续学习中存在灾难性遗忘现象（ McCloskey and Cohen ， 1989;French ，1999），该模型在新任务和先前任务上都有在这种现象中，模型在学习新的关系模式后忘记了以前的关系知识。解决CRL中灾难性遗忘的现有方法可分为三类：(i) 基于正则化的方法，（ii）基于架构的方法，以及（iii）基于存储器的方法。最近的工作表明，基于记忆的方法，从以前的任务中保存几个关键的例子到记忆中，并在学习新任务时重用它们，在NLP中更有效（Wang et al. ，2019; Sun et al. ，2020）。成功的基于内存的CRL方法包括EAEMR（Wang et al. ，2019），MLLRE （ Obamuyide 和 Vlachos ， 2019 ），EMARhttps://github.com/qcwthu/Continual_Fewshot_Relation_Learning（Han et al. ，2020）和CML（Wu et al. ，2021年）。arXiv：2203.02135v1 [cs.CL] 2022年3+v：mala2277获取更多论文尽管这些方法有效，但它们的一个主要这在需要连续学习的真实场景中是难以满足的，因为为每个新关系获取大的标记数据集是昂贵的并且有时对于快速部署是不切实际的（例如， RE来自新冠肺炎（COVID-19）等新兴事件发生期间的新闻文章）。事实上，持续学习的主要目标之一是通过利用以前获得的知识快速适应新的环境或任务，这是人类智能的标志（Lopez-Paz和Ranzato，2017）。如果新的任务是少数拍摄，现有的方法遭受过度拟合，如稍后在我们的实验中所示（§4）。考虑到人类可以从少量的例子中获得新的知识，预计模型可以在数据较少的新任务上很好地我们把这个问题称为连续少镜头关系学习（ContinualFew-shot Relation Learning，简称CFRL）。事实上，关于CFRL，Zhanget al.（2021），Zhu etal.（2021）和Chen and Lee（2021）最近介绍了计算机视觉中增量少镜头学习的方法基于以下观察，即新出现的少量任务的学习可能导致新数据的失真特征分布，这与先前的嵌入空间不兼容（Ren et al. ，2020），提出了一种基于嵌入空间正则化和数据增强（ERDA）的CFRL模型。特别是，我们提出了一个多利润损失和成对的利润损失，除了交叉熵损失，在嵌入空间中施加进一步的关系约束我们还引入了一种新的对比损失，以更有效地从记忆数据中学习。我们提出的数据增强方法从未标记文本中选择相关样本，为少数任务提供更多的关系知识。实证结果表明，我们的方法可以显着优于以前的国家的最先进的方法。总之，我们的主要贡献是：• 据我们所知，我们是第一个考虑CFRL的。我们定义了CFRL问题，并构建了一个基准的问题。• 我们提出了一种基于嵌入空间正则化和数据增强的CFRL• 通过大量的实验，我们证明了我们的方法相比，现有的有效性，并深入分析我们的结果。2相关工作常规的RE方法包括监督的（Ze-lenko et al. ，2002; Liu et al. ， 2013; Zeng et al. ， 2014;Miwa and Bansal，2016）、半监督（Chenetal. ，2006; Sun et al. ，2011; Hu et al. ，2020）和远程监督方法（Mintz et al. ，2009; Yao etal. ，2011; Zeng et al. ，2015; Han等人，2018a）。这些方法依赖于预定义的关系集，并且在出现新关系的真实场景中具有局限性已经有一些专注于关系学习的努力，而没有预定义的类型，包括开放的RE（Shinyama和Sekine，2006; Etzioni 等人， 2008 ）。，2008; Cui etal. ，2018; Gao et al. ，2020）和持续关系学习（ Wangetal.， 2019;ObamuyideandVlachos，2019; Han et al. ，2020; Wu et al. ，2021年）。持续学习的目的是从一系列的任务中学习知识.CL 试图解决的主要问题是灾难性的获取（McCloskey和Cohen，1989），即，该模型在学习新任务后会忘记以前的知识。缓解该问题的现有方法主要可以分为三类。首先，基于正则化的方法对神经权重的更新施加了约束，这些神经权重对复杂任务很重要，以减轻灾难性遗忘（Li和Hoiem，2017年; Kirkpatrick等人，2017年）。，2017; Zenke et al. ，2017;Ritter et al. ，2018）。第二，基于体系结构的方法动态地改变模型体系结构，以获取新的信息，同时记住以前的知识（Chen et al. ，2016;Rusuet al. ， 2016; Fernando et al. ， 2017;Mallya et al. ，2018）。最后，基于记忆的方法保持记忆以保存先前任务的关键样本以防止遗忘（ Rebuffi et al. ， 2017; Lopez-PazandRanzato，2017; Shin et al. ，2017; Chaudhryetal. ，2019）。这些方法主要集中在学习单一类型的任务。最近，研究人员考虑终身学习语言（孙等人）。，2020;Qin和Joty，2022），其中模型预计将不断从不同类型的任务中学习。少样本学习（Few-Shot Learning，FSL）主要解决样本数较少的问题，但存在过拟合问题。为了解决这个问题，现有的方法已经探索了三个不同的方向：（i）基于数据的方法使用先验知识来将数据增加到少数镜头集（Santoroet al. ，2016; Benaim and Wolf，2018; Gao etal. ，2020年）;(ii) 基于模型的方法使用先验知识来减小假设空间（Rezaldet al. ，2016年;+v：mala2277获取更多论文火车测试∪i=1.MM Mi=1火车不M火车不TT火车火车=D∈∈CITD不T−TTTT TT不˜Triantafillou等人，2017; Hu et al. ，2018年）;以及(iii) 基于算法的方法试图找到更合适的策略来在整个假设空间中搜索最佳假设（Hoffman etal. ，2013; Ravi and Larochelle，2017; Finn etal. ，2017年）。摘要CRL中的现有工作涉及包含足够训练数据的任务序列，主要集中在减轻模型在新任务上训练时对先前关系知识的在几个工作图2：我们的CFRL框架。数据增强组件仅用于少量任务（k>1）。镜头学习主要利用先验知识，在训练集Dk上训练少拍任务解决新的少数拍摄任务的过度拟合与这些工作相比，我们的目标是解决一个更具挑战性但更实用的问题CFRLK. 在学习了k之后，期望模型在k和之前的k上都表现良好1任务，因为模型将在Dk=模型需要学习关系模式Ki=1我测试由所有已知的关系组成，从一系列的几个镜头的任务不断。3方法在本节中，我们首先正式定义CFRL问题.然后，我们提出了我们的方法CFRL。3.1问题定义CFRL包括从一系列任务中学习T=（T1，. . .，Tn），其中每个任务Tk具有其学习克岛例如， Rk=kRi. 这需要该模型克服了对先前知识的灾难性遗忘，并利用很少的标记数据很好地学习新知识。为了克服灾难性的遗忘问题，=1，2、... 在学习过程中，保存了先前任务的一些关键样本。当模型正在学习Tk时，它可以访问存储在存储器M 1中的数据，...，Mk−1。由于没有数量自身训练集Dk，验证集Dk，k测试集Dk火车D有效任务的大小，内存的大小M被约束为test. 每个数据集包含多个样本{（x i，y i）}|D|，y i属于哪个标签要小。因此，模型必须仅从训练集Dk 中选择关键样本来保存任务k的关系集Rk。相对于CFRL假设，除了第一个任务有足够的数据进行训练之外，后续的新任务都是少数的，这意味着它们只有很少的标记实例（见图2）。①的人。例如，考虑有三个关系学习任务1、2和3，它们具有对应的关系集R1、R2和R3，每个关系集具有10个关系。在CFRL中，我们假设现有任务1有足够的训练数据（例如，对于R1中的每个关系100个样本），而新任务2和3是很少的，只有很少的样本（例如， 5）对R2和R3中的每个关系进行采样。假设关系数他们在K。在我们的CFRL设置中，每个关系只允许在内存中保存3.2总体框架我们的CFRL框架如图2和Alg所示。1描述了整个培训过程（框图见附录A.1）。在时间步k，给定任务k的训练数据Dk，取决于任务是否是少数拍摄，该过程分别具有四个或三个工作一般的学习过程（第3.3节）有三个步骤，适用于所有的任务。如果该任务是一个少数镜头任务（k >1），我们应用一个额外的每个少次任务的样本数为N，每个关系的样本数为K，我们称这种设置为N路创建扩充训练集Dk的步骤初始任务（k=1），我们有一个Dk不. 为K火车不断学习。问题设置CFRL与真实场景一致，我们通常具有用于现有任务的足够数据，对于任何任务k，我们使用siamese模型来生成-将每个新关系riRk编码为riIRd以及句子，并训练模型，但只有很少的标记数据作为新的任务出现。火车为了获取新闻的相关信息，CFRL中的模型预计首先学习1好吧，它有足够的训练数据来获得数据（§3.3.2）。为了克服遗忘，我们为每个关系ri∈Rk选择良好的关系信息提取能力，K火车并更新内存Mk（§ 3.3.3）。克鲁克判决然后在时间步k，模型将最后，我们结合了D-Train和M就像火车一样-D从D.+v：mala2277获取更多论文火车TM1：SCCITD火车∈火车火车˜L∈LLΣ×Σ|R|SΣ火车Σ·LRk保存在Mk中火车K火车CSΣL14：Hk=Dk合并两个数据源算法1在时间步长k处的训练过程• BERT 我们采用BERT底座，有12层，需要：当前任务k的训练集D k和关系集R k，当前记忆体k-1和已知关系集Rk-1，模型θ，相似度模型π，以及未标记的文本语料库。如果k==1，则d个初始任务110M参数。由于新的任务很少，我们只微调了第12个编码层和额外的线性层。我们在实体周围2：火车K火车‘@’ for the tail entity) in a given labeled3：elsedfew-shot任务4：从Dk中的每个样本中使用π选择相似样本，并将其存储在A中列车火车以提高编码器我们使用[CLS]标记特征作为输入序列的表示。第5章：一个女人=ADk6：如果结束7：我对每个关系riRk初始化8：对于i = 1，. . . ，iter1 do9：UPDATEθ，新的Dk d训练新的任务10：结束11：SELECT关键样本来自D k对于每个关系ri ∈12：巴莱克克-1K3.3.2使用新数据在时间步k，为了更好地理解新关系，我们在扩展数据集Dk. 模型fθ首先编码每个新关系的名称rj∈Rk到它的R =RRdk−1k13：Mk=MMd更新内存表示rj∈IR向前传球克15：对于i = 1，. . . ，iter2 do16：UPDATEθ，阿利翁Hk17：每个关系的UPDATERiRik18：结束然后，我们通过最小化来优化参数（θ）引入一个损失新模型，该模型由交叉熵损失、多边缘损失和成对边缘损失组成交叉熵损失ce用于关系分类如下。|Rˆk|分析数据以学习新的关系模式，记住以前的知识（§3.3.4）。我们δKj =1 yi，rjexp（g（fθ（xi），rj））logkexp（g（fθ（xi），rl））也同时更新所有（xi，yi）∈D列l=1（一）关系，这就意味着使一个边界通过当前模型。迭代地完成学习和更新以用于收敛。对于少量任务中的数据增强（§ 3.4），我们使用微调的BERT从未标记的维基百科语料库中选择具有高关系相似性得分的可靠样本（Devlin et al. ，2019），其用作关系相似性模型π。在一致性的利益，我们首先提出了一般的学习方法，其次是增强过程的少数拍摄学习。3.3一般学习过程我们首先介绍编码器网络，因为它是其中，R_k是步骤k处的所有已知关系的集合，g（k）是用于测量两个向量之间的相似性的函数（例如，余弦相似性或L2距离），δa，b是克罗内克δ函数-如果a等于b，则δ在推理中，我们选择关系标签，具有与输入句子的最高相似性（等式10）。（八）。为了确保一个例子与真实关系具有最高的相似度，我们还设计了两个基于边缘的损失，这增加了一个例子和真实标签之间的分数，同时降低了错误标签的分数。第一种是多利润损失，定义为：是整个框架的基本组成部分3.3.1编码器网络Lmm=（xi，yi）∈D k|Rˆk|j=1，j/=tiMax.0，（二更）暹罗编码器（fθ）的目的是从输入中提取输入可以是带标签的句子或关系的名称。我们采用两种编码器：为了与以前的工作进行公平的比较，我们使用与Han等人相同的架构。（2020年）。它采用GloVe嵌入（Pen-ningtonet al. ，2014），并通过Bi-m1−g（fθ（xi），rti）+g（fθ（xi），rj）<$其中，ti是R k中的正确关系index，满足ri=yi，并且m1是裕度值。mm损失试图确保类内紧凑性，同时增加类间距离。的第二个是成对边际损失Lpm：最大的。0，m2−g（fθ（xi），rti）+g（fθ（xi），rsi）<$KLSTM（Hochreiter和Schmidhuber，1997）。（xi，yi）∈D列（三）=D+v：mala2277获取更多论文LLL∈LLLL火车RJ∈RJ火车RJ火车火车测试火车˜˜J其中m2是Lpm的裕度，si=arg maxsg（fθ（xi），rs）s.t.si=ti，最接近然后，使用（x_i，y_i）和P_i来计算基于误差的对比损失L_con，如下所示。错误的标签下午损失惩罚案件其中最接近的错误的相似性得分Lcon=λmax。0，m3−g（fθ（x<$i），rt<$i）+标签高于正确标签的得分（x<$i，y<$i）∈MBtg（fθ（x<$Pi），r<$）J（六）（Yang et al. ，2018）。mm和pm都有改善模型的识别能力（§4.4）。（x<$Pi，y<$i）∈Pij ti在Tk上学习的总损失定义为：Lnew=λceL ce+λ mmL mm+λ pmL pm（4）其中，λce、λmm和λpm分别是元件损耗的相对权重3.3.3选择存储器在使用Eq. （4），我们用它来选择一个新的关系的样本。具体来说，对于每个新关系rjR k，我们通过对D k中标记为r j的所有样本的嵌入求平均来获得质心特征 cj ，如下所示。其中ti是满足rti=yi的关系式inde而m3是con的裕度值。这一损失强制模型将有效关系与硬否定关系区分开来，以便模型学习更精确和细粒度的关系知识。此外，我们还使用§3.3.2中定义的三个损耗ce、mm和pm来更新Bt上的θ。内存数据的总损失是：L=λceL ce+λ mmL mm+λ pmL pm+λ conL con（7）其中λce、λmm、λpm和λcon是相应损耗的相对权重。更新关系嵌入在Hk上训练模型两步后，我们使用c=1f（x）（5）oryMk来更新所有的关系嵌入ri|D k|θi（xi，yi）∈Dk知道自己的关系。对于RiRk关系，我们可以-年龄的关系名和内存的嵌入（通过使fθ向前传递其中D k={（xi，yi）|（xi，yi）∈ Dk，yi= rj}.然后我们从Dk选择最接近cj数据以获得其更新的表示ri。的迭代地进行θ的训练和ri作为信息量最大的样本，并将其保存在数据库Mk中。注意，选择是从Dk中完成的，而不是从扩展集合Dk中完成的。3.3.4通过记忆减轻遗忘由于学习新的关系模式可能会导致对以前知识的灾难性遗忘（参见第4节中的基线），我们的模型需要从记忆数据中学习以减轻遗忘。我们将扩展集De k和=M掌握新的关系模式，同时减轻对以前知识的灾难性遗忘3.3.5推理如果在Dk中输入xi，我们计算xi与所有已知关系之间的相似性，并选择具有最高相似性得分的关系：yi= arg maxg（fθ（xi），r）（8）r∈Rk3.4针对少镜头任务的数据增强全存储器数据Kj=1j到H k到对于每一个少镜头任务Tk，我们的目标是获得更多的数据允许模型学习新的关系知识并巩固以前的知识。但存储器数据有限，仅包含一个样本每个关系。为了从如此有限的数据中有效地学习，我们设计了一种新的方法来生成硬负样本集Pi为M中的每个样本。阴性样本是动态生成的从Hk中抽取一个小批Bt后，我们把Bt中的所有存储器数据看作MBt。对于MB中的每个样本（xi，yi），我们将其头实体eh或RJ+v：mala2277获取更多论文CCSS我Jj=1通过从未标记的核心中选择可靠的样本脓与标记的实体之前，一般学习-过程（第3.3节）开始。我们使用关系相似性模型π和维基百科中的句子来实现这一点模型π（稍后描述）将句子作为输入并产生归一化向量表示。两个向量之间的余弦相似度用于度量两个对应句子之间的相对相似度。更高的相似性意味着两个感官-我不是尾实体ET与RAN的对应实体在同一批次Bt中随机选择样品，在iv e样本集Pi={（x<$Pi，y<$i）}|Pi|.时态更有可能有同样的关系label. 我们提出了两种新的选择方法，它们是互补的。+v：mala2277获取更多论文火车S用x表示，并将每对表示为x，x。那我们就˜˜火车Qj=1VCSVVTT火车不SCC不我我我我其中，xj与我J我J我J我J模型可以减轻灾难性遗忘，SCC(a) 对于Dk中的每个实例（xi，yi），我们提取其实体对（eh，et），其中eh是头实体，et是尾实体。由于具有相同实体对的句子更有可能表达相同的关系，我们J j=1其中π（x）是从BERT的最后一层获得的x的归一化表示。然后，我们通过最小化二进制交叉熵损失L 预训练来优化Sπ的参数π，如下所示。-logσ（x，x）−Σlog（1−σ（x′，x′））I jI j（xi，xj）∈Cp（x'i，x'j）∈Cn首先收集候选集合Q={x≠ 0}| Q|从C，阿吉岛Xi. 如果Q是一个非空集，我们对Q中的所有xj使用π来获得xj，xi的相似性得分sj。在获得所有对的分数之后，我们挑选相似性分数sj高于预定义阈值α的实例xj作为新样本，并将它们标记为关系yi。然后将所选择的实例作为附加数据扩充到Dk(b) 通过相似性搜索增强硬实体匹配有时可能限制太多。例如，即使句子因此，在实体匹配返回空的情况下，我们使用Faiss（Johnson etal. ，2017年）。给定查询向量qi，它可以有效地哪里p是阳性批次，n是负数批次这一目标试图确保这一判决具有相同实体对的对比具有不同实体对的对具有更高的4实验我们定义的基准和评估指标，CFRL在介绍我们的实验结果之前。4.1基准和评估指标由于CFRL的基准需要有足够的关系和数据，并且适合于少量学习，因此我们基于FewRel创建了 CFRL 基准（ Han et al. ， 2018 b ）。FewRel是一个针对少镜头RE的大规模数据集，它包含80个关系，每个关系有数百个样本我们将80个关系随机分为8个任务，每个任务包含10个关系搜索前K最高的向量{vj}K（10路）。为第一个任务准备足够的数据在一个大的向量集的相似性得分。在我们的例子中，qi是xi的表示，包含了中的句子的表示。我们使用π来获得这些表示;不同之处在于它是预先计算的，而qi是在训练期间获得的。我们用yi标记前K个最相似的实例，并将它们增加到Dk。为了训练π，受Soares et al.（2019）的启发，我们采用了一种对比学习方法来微调BERT基础模型，其句子已经用实体标记。基于具有相同实体对的句子更有可能编码相同关系的观察，我们使用包含相同实体的句子对对于否定句，我们不使用包含不同实体的所有句子对，而是选择仅共享一个实体的句子对1，我们对每个关系抽取100个样本。所有后续任务2，…，8个是少镜头关系，对于每个关系，我们分别进行了2镜头、5镜头和10镜头的实验来验证我们方法的有效性。此外，为了证明我们的方法的通用性，我们还创建了一个基于TACRED数据集的CFRL基准（Zhang et al. 2017年，仅包含42个关系。我们过滤掉特殊关系除了第一个任务包含6个关系外，所有其他任务都有5个关系（5路）。与FewRel类似，我们在1中每个关系随机抽取100个示例，并进行5次和10次实验。度量在时间步长k，我们通过关系分类accu来评估模型性能。在测试集Dk=k上的rac y我看到的所有实体作为硬底片（即， pair（x i，x j），其中任务ik测试i=1测试e h=e h和e t/=e t或e t=e t和e heh）。{T}i=1。该指标反映了我们随机抽取与阳性样本相同数量的阴性样本，以平衡训练。对于一个输入对（xi，xj），我们计算simi-根据以下公式计算larity score1用很少的数据就能很好地获取新知识由于模型性能可能会受到任务序列和少量训练样本的影响，我们每次使用不同的随机种子运行每个实验6次，以确保随机任务或-σ（xi，xj）=1 +exp（−S(xi) TSπ（九）（xj））der和模型初始化，并报告平均值π（十）+v：mala2277获取更多论文·方法任务索引1 2 3 4 5 6 7 8第92章. 78 52. 十一点半08 24. 33 19. 83 16. 90 14. 三十六十二。3492.第一次约会7876. 2969岁3964岁75六十4557. 六十四五十二。8050. 03(a) 10路双摄806040202 4 6 8任务指标(b) 10路10发806040202 4 6 8任务指标ERDA JointTraining IDLVQ_C EMAR EMR SeqRun对10路5次 CFRL 进行 FewRel基准测试。 ERDA显著优于IDLVQ-C，p值为<0。001.准确度和方差。我们进行配对t检验以获得统计学显著性。4.2模型设置基线模型设置如附录A.2所示。我们将我们的方法与以下基线进行比较：• SeqRun只在新任务的训练数据上微调模型，而不使用任何数据。它可能面临严重的灾难性遗忘，并作为一个下限。• 联合训练将所有以前的样本存储在内存中，并针对每个新任务的所有数据训练模型它在CRL中用作上限。• EMR（Wang et al. ，2019）保持用于存储来自先前任务的所选样本当训练一个新的任务时，EMR会将新的训练数据和记忆数据结合起来。• EMAR（Han et al. ，2020）是CRL的最新技术，它采用记忆激活和重新巩固来减轻灾难性遗忘。• IDLVQ-C（Chen和Lee，2021）引入量化参考向量来表示先前的知识，并通过对量化向量和嵌入空间施加约束来减轻灾难性它最初是为图像分类提出的，在增量少数镜头学习中具有最先进的结果。4.3主要结果我们使用与EMAR相同的设置比较不同方法的性能（Han et al. ，2020），其使用Bi-LSTM编码器。我们还报告的结果与BERT编码器。FewRel基准测试我们在表1中报告了10路5次拍摄的结果，而图3显示了10路2次拍摄和10路10次拍摄图3：FewRel基准测试中10路2次和10次设置的每个时间步长的比较结果。对于两种设置，ERDA显著优于IDLVQ-C，p值为<0。001. 方差报告为浅色区域。图4：IDLVQ-C和ERDA在两个阶段的t-SNE可视化。颜色表示不同的关系类，数字是关系索引。显示了学习第一个任务后四个基类的初始嵌入在上排。由于第一个任务的数据是足够的，这两种方法都可以获得可分离的嵌入空间。下面一行显示了在学习新的几次任务后，四个基类和两个新类（Id 5和9）的嵌入与IDLVQ-C相比，ERDA表现出更好的类内紧凑性（圆圈区域）和更大的类间距离（见5和9之间的距离，以及9和65之间的距离）。设置. 2从结果中，我们可以观察到：我们提出的ERDA优于以前的基础-线在所有CFRL设置，这表明我们的方法的优越性。简单地用新的少数样本微调模型会导致准确性迅速下降，因为严重的过拟合和灾难性的遗忘。尽管EMR和EMAR采用了记忆模块来减轻遗忘，但由于它们需要大量的训练数据来学习新任务，因此它们的性能仍然会迅速下降。与EMR和EMAR相比，IDLVQ-C稍微好一点，因为它引入了量化向量，可以更好地表示少镜头任务的嵌入空间。然而，IDLVQ-C并不必然地将来自不同关系的样本在嵌入空间和上空间中推得很远。2为了避免视觉混乱，我们在表1中仅报告了6次运行的平均得分，并参考附录中的表6和表5了解不同任务顺序的方差和详细结果。准确度（%）EMR92. 78 69. 1456 2450 03 46. 50 43. 2139 8837. 51亿玛85. 20 62. 02 52. 四十五四十八。95 46. 七七四十四。33 40. 7539. 04IDLVQ-C 92. 23 69. 1557 42 51. 66 49. 3146 24 42. 254056Erda92. 5779. 1770四三六五。0161. 0657. 五十四五十四。8853. 23表一：各时间点不同方法的准确度（%）+v：mala2277获取更多论文··LLLL4.3.1五向五射6040202 4 6 8任务指标4.3.25路10发806040202 4 6 8任务指标100908070605040(a) 10路双摄2 4 6 8任务指标100806040(b) 10路10发2 4 6 8任务指标ERDA JointTraining IDLVQ_C EMAR EMR SeqRunERDA JointTraining IDLVQ_C EMAR EMR SeqRun图5：5路5次和10次设置下TA-CRED基准测试的每个时间步长的比较结果。ERDA显著优于IDLVQ-C，p值< 0。001两个设置方差报告为浅色区域。图6：不同方法与BERT编码器在FewRel基准测试中10路2次和10次设置的比较结果。 ERDA显著优于IDLVQ-C，p值=0。005，并且显著优于p值=0的EMR。002为10发设置。用于参考向量的定年方法可能不是最佳的。ERDA通过嵌入空间正则化和自监督数据增强，大大优于IDLVQ-C。为了验证这一点，我们使用t-SNE显示了IDLVQ-C和ERDA的嵌入空间（Van der Maaten和Hinton，2008）。我们随机选择四个班级(a) 五向五射806040202 4 6 8任务指标(b) 5路10发806040202 4 6 8任务指标从FewRel的第一个任务和新任务的两个类，并在图4中可视化这些类的测试数据。可以看出，通过ERDA获得的嵌入空间显示出更好的类内紧性和更大的类间距离。与CRL不同，联合训练并不总是作为CFRL的上限，因为数据分布非常不平衡。得益于用很少的数据学习特征分布的能力， ERDA和IDLVQ-C在2次训练设置中的表现都优于联合训练。然而，随着少量样本数量的增加，IDLVQ-C的性能远远落后于联合训练，而ERDA仍然表现得更好。在5次射击设置中，ERDA可以获得比联合训练更好的结果，这验证了自监督数据增强的有效性（更多信息请参见第4.4节）。尽管ERDA在10次射击设置中的表现不如联合训练，但其结果仍然比其他基线好得多。在学习了所有的少镜头任务后，ERDA在2镜头、5镜头和10镜头设置下分别比IDLVQ-C高出9.69%、12.67%和11.49%此外，ERDA的相对增益随着新少炮数的增加而不断增大任务这证明了我们的方法在处理较长序列的CFRL任务的能力TACRED基准测试图5显示了TACRED上的5路5次和5路10次测试结果我们可以看到，这里也ERDA优于所有其他方法的大幅度验证了强大的图7：5路5拍和10拍设置的不同方法与BERT编码器在TACRED基准测试中的结果。ERDA的p值=0。004，显著优于EMAR（p值= 0）。02为10发设置。我们提出的方法的泛化能力。BERT的结果我们在图6中显示了FewRel上不同方法的BERT 结果，用于10路2次和10次拍摄，表4用于10路5次拍摄（附录）。图7中示出了针对5路5次发射和10次发射的TACRED基准测试的结果。从结果中，我们可以观察到ERDA在使用BERT编码器的所有CFRL设置中都优于以前的4.4消融研究我们进行了几次消融，以分析ERDA不同组件在FewRel10路5次激发设置上的特别是，我们通过每次移除一个组件来研究ERDA的其他七个变体：（a）多边缘损失mm，（b）成对边缘损失pm，（c）基于边缘的对比损失con，（d）整个2阶段数据增强模块，（e）增强的实体匹配方法，（f）增强的相似性搜索方法，以及（g）内存。从表3中的结果，我们可以观察到所有组件都提高了我们模型的性能。具体来说，mm产生约1.51%的每平方英尺的提升，因为它带来了相同的样本ERDA JointTraining IDLVQ_C EMAR EMR SeqRun准确度（%）准确度（%）准确度（%）+v：mala2277获取更多论文LLLLLLL最大吸收波长00.01 0.02 0.05 0.1 0.2 0.5 1.051.第51章大结局95±1。1552 66±1。23 53. 38±0。63 53. 10±0。69 53. 23±1。49 52. 99±0。79 52. 13±1。50 52. 27±1。07表2：在FewRel基准测试（10路5次）上学习具有不同λ con的所有任务后的准确度（%）。在不同的关系分布之间强制较大的距离的同时PM使准确率提高了3.18%，这表明了与最近错误标签的对比效果con的采用导致了1.28%的改进，这表明为记忆数据生成硬负样本有助于更好地记住以前的关系知识。为了更好地研究con的影响，我们使用不同的λcon进行实验，结果如表2所示。我们可以看到，当λ con = 0时，该模型达到了53.38的最佳精度。02当当λ con= 0时，精度仅为52.13。五、在公元-此外，不带条件的变量的性能比所有其他变量的性能都要差，这证明了L条件的有效性。数据增强模块将性能提高了1.72%，因为它可以从未标记的文本中提取信息样本，为少量任务提供更多没有实体匹配或相似性的变体的结果搜索验证两种数据增加方法通常是彼此互补的。有人可能会说，与其他模型相比，数据增强模块增加了ERDA的复杂性然而，精明的读者可以发现，即使没有数据增强，ERDA在所有任务上都明显优于IDLVQ-C（比较ERDA w.o.DAERDA在CRL下的性能虽然ERDA是为CFRL设计的，但我们也评估了嵌入空间正则化（“ERDAw.o. 在CRL设置中。我们在FewRel中为每个任务的每个关系抽取100个示例，并将我们的方法与最先进的方法EMAR进行比较。结果如图8所示。我们可以看到，ERDA在所有任务中的性能都优于EMAR1.25-4.95%，证明嵌入正则化可以作为CRL的通用方法。5结论我们已经引入了连续少拍关系学习（CFRL），这是一个具有挑战性但又实用的问题，模型需要不断地用很少的标记数据学习新的关系知识方法任务索引1 2 3 4 5 6 7 8Erda92. 57 79. 1770 四三六五。0161. 06 57. 五十四五十四。8853. 23W.O.mm 91. 六七七八。3870. 21637760。23563253. 4551. 72W.O.下午 91. 3775. 8067. 1161. 135714540451. 5950. 05W.O.con 91. 63 79. 05 69. 28 63. 86 59. 66 56. 68 54. 125195W.O. DA 92. 5777. 8469. 7663. 7458. 31561253215151W.O. EM 92. 5778. 33 70.1764. 1859. 6357. 1054. 1852. 39W.O. SS92. 5778. 56 69.94 63.9859. 8556. 9253. 7552. 27W.O. M 91。9577. 5966. 4757. 0851. 0847. 3643. 8840. 32表3：FewRel基准上的消融（10向5次激发）。6次运行的方差报告见附录中的表7。我们展示了对“w.o. 附录A.4中的M9590858075701 2 3 4 5 6 7 8任务指标图8：ERDA（我们的）和EMAR（Han et al. ，2020）在CRL设置下的FewRel基准上。我们将80个关系随机分为8个任务，每个任务包含10个关系。我们为每个关系抽取100个样本。从这个图中，我们可以观察到ERDA在所有CRL任务中都优于EMAR。针对CFRL中的过拟合和灾难性遗忘问题，提出了一种新的方法ERDA。ERDA在具有创新损失的嵌入空间中施加关系约束，并以自我监督的方式为少量任务添加额外的信息数据，以更好地掌握新的关系模式并记住先前的知识。广泛的实验结果和分析表明，ERDA显着优于以往的方法在所有CFRL设置在这项工作中调查。在未来，我们希望研究将元学习与CFRL结合起来的方法。引用Sagie Benaim和Lior Wolf。2018. 一次性无监督跨域翻译。神经信息处理系统进展31：神经

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

嵌入空间正则化和数据扩充的连续少镜头关系学习方法

基于深度学习的正则化矩阵分解推荐系统.pdf

机器学习中嵌入空间是什么

多样性和一致性嵌入学习

连续嵌入和紧嵌入的区别

泛函分析中的连续嵌入和紧嵌入是什么意思

基于GCN的知识图谱嵌入方法和基于TransH的知识图嵌入方法对比、各自的优缺点、适用数据形式

为何不同的数据所求的相空间延迟时间和嵌入维度不同

表示学习和嵌入有什么区别

TransC算法对于每个关系，都可以学习一个关系嵌入向量代码表示

试解释相空间重构中求嵌入维度的Cao氏方法

机器学习 嵌入编码分类

利用知识图谱的嵌入向量进行多目标优化推荐详细步骤以及每个步骤数据的输入与输出格式，其中嵌入方法为transH、优化方法为遗传算法

机器学习嵌入式实现_机器学习中的嵌入

python为图片嵌入并提取嵌入文字数据

利用TransH嵌入方法将具有属性的知识图谱实体转换成嵌入向量示例代码

泛函分析中的稠密嵌入是连续嵌入吗

生成器所用的数据是嵌入器生成的对吗？嵌入器用的是原始一元数据？

精通正则表达式pdf

最新资源

机器学习嵌入编码分类