快速关系抽取模型：卷积编码器和改进的二进制标记框架

184 浏览量更新于2024-02-04 收藏 728KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文××FastRE：使用卷积编码器和改进的级联二进制标记框架东南大学计算机科学与工程学院，李国正1，陈旭4，王鹏1，2，3，谢家峰1，罗启清1，3，12东南大学3东南大学4腾讯公司{gzli，pwang，xjf，qiqingluo} @ seu.edu.cn，bigxuchen@tencent.com摘要最近从文本中提取关系的工作取得了优异的性能。然而，大多数现有的方法不太关注效率，使得它仍然具有挑战性的快速提取关系从海量或流文本数据在现实的场景。主要的效率瓶颈是这些方法使用基于transformer的预训练语言模型进行编码，这严重影响了训练速度和推理速度。针对这一问题，提出了一种基于卷积编码器和改进的级联二进制标记框架的快速关系抽取模型（FastRE）。与以前的工作相比，Fas- tRE采用了几个创新，以提高效率，同时也保持了良好的性能。具体地说，FastRE采用了一种新颖的卷积编码器结构，结合了扩展卷积、门控单元和残差连接，在保持令人满意的性能的同时，显著降低了训练和推理的计算量。此外，为了改进级联二进制标记框架，FastRE首先引入了类型-关系映射机制，以提高标记效率和减轻关系冗余，然后采用位置相关的自适应阈值策略，以获得更高的标记准确率和更好的模型泛化能力。实验结果表明，FastRE在效率和性能之间取得了很好的平衡，与最先进的模型相比，训练速度提高了3-10，推理速度提高了7-15，参数提高了1/100，而性能仍然具有竞争力1。1介绍关系抽取旨在识别文本中实体之间的关系最近的研究表明，*通讯作者1我们的代码可在https://github.com/seukgcode/FastRE上获得在追求卓越性能方面取得了很大进展 [Weiet al. ，2020;Ren等人，2021]。然而，在现实的环境中，RE模型往往被要求同时保持高性能和快速度。例如，金融投资者需要从大量的实时新闻、金融和政治数据中有效地提取关系三元组，以构建知识图[Donget al. #20140;帮助做出决定。遗憾的是，大多数现有的方法缺乏考虑模型训练和推理所消耗的时间，并且不能有效地从文本中提取关系。早期RE研究应用近似频率计数和降维来加速未监督RE中的相似性计算[Takaseet al. ，2015年]，并采用神经元学习方法来加速RE [Tran和Kavuluru，2019年]。各种基于CNN的方法[Zenget al. ，2014;dos Santos等人2015年]也在解决这一问题方面取得了成效。然而，这些努力未能解决RE对性能和效率的挑战。RE 性能的最新进展 [Weiet al. ， 2020;Wang 等人，2020;Suiet al. ， 2021;Zhenget al. ， 2021;Renet al. ，2021;Huguet Cabot和Navigli，2021]主要是由于采用了带有Transformer的编码器[Vaswaniet al. ，2017]基于预训练的语言模型（PLM），如BERT [Devlinet al. ，2019]和BART [Lewiset al. ，2020]，其具有捕获长距离依赖性和上下文语义特征的强大能力。然而，Transformer中基于令牌对的注意操作需要消耗大量的时间和GPU内的内存。此外，PLM的内存消耗限制了模型训练和推理期间的批量大小，这意味着模型被限制在有限的计算资源内设置相对较小的批量大小。虽然这在训练中不是一个严重的问题，但它限制了推理中的并行处理能力。为了解决编码器中的计算效率问题，我们设计了一种新的卷积结构，而不是使用它通过扩张卷积[Yu和Koltun，2016]、门控单元[Dauphinet al. ，2017]和残余连接[Heet al. ，2016]。首先，扩张卷积相对于网络深度指数地增加了网络输出的接收区域，这导致获得大幅缩短的计算路径并捕获任意长距离的依赖性。换句话说，使用扩张卷积-arXiv：2205.02490v1 [cs.CL] 2022年5月+v：mala2277获取更多论文××·--ZT{}{}R {}∈ E ∈Rlution可以用更少的层实现vanilla卷积的高效率。其次，门控单元用于控制哪些信息应该通过层次结构的层传播。然后使用残差连接来避免梯度消失，以实现深度卷积网络。我们的卷积编码器不仅大大减少了模型训练和推理所消耗的时间，而且保证了在RE中的竞争性能。另一方面，最近的工作也显示了级联二进制标记框架的有效性[Weiet al. ，2020]，用于解决重叠RE。然而，这种框架有两个缺点：关系冗余和泛化能力差[Zhengetal. ，2021]。关系冗余，即对所有关系抽取尾实体此外，由于级联二进制标记框架将多标签问题简化为二进制分类问题，因此需要启发式阈值调整并引入边界决策错误。针对上述问题，本文引入了实体类型到预定义关系（类型-关系）的映射机制和位置相关的自适应阈值策略，改进了级联二进制标注框架。具体地说，保持了头实体类型与预定义关系之间的映射，在确定头实体类型的同时，也确定了其潜在的对应关系。在此机制下，避免了在预测重叠关系时遍历所有关系。此外，将实体类型信息合并到 RE 中可以提高性能 [Zhong 和 Chen ，2021]。当执行二进制标记时，位置相关的自适应阈值处理用针对句子中不同位置的可学习阈值代替全局阈值。阈值是用基于秩的损失函数学习的[Zhouet al. ，2021]，其在训练中将正类分数推到阈值以上并将负类分数拉到阈值以下。并且标记器将具有比其位置相关阈值高的分数的位置设置为1，或者将具有较低分数的位置设置为0。这种简单的策略避免了阈值调整，并使阈值可调不同的标记位置，这导致更好的泛化。在本文中，我们提出了一个简单而快速的关系提取，模型，FastRE，以显着减少培训和推理时间，但保留竞争力的表现。据我们所知，FastRE是解决RE中效率和性能之间总之，本文的主要贡献有三个方面：• 本文提出了一种新的卷积编码器，该编码器结合了扩展卷积、门控单元和残差连接，大大降低了计算量，同时保持了令人满意的性能。• 通过引入类型-关系映射机制和位置相关自适应阈值，改进了级联二值标注框架，解决了关系冗余和泛化能力差的问题。• 在公开数据集上的实验结果表明，与传统的基于正则表达式的推理算法相比，Fas- tRE的训练速度提高了3-10倍，推理速度提高了7-15倍，参数减少了1/100。最先进的型号，而性能仍然具有竞争力，即，它甚至在NYT 10和NYT 11上略有改善2方法2.1问题表述和模型概述给定预定义关系集=r1，r2，.，r N，对于包含实体集合 = e1，e2，.，e M，其中实体类型集=t1，t2，.，t K，关系提取任务旨在提取关系三元组=（ei，rk，ej），其中N表示关系的数量，M表示实体的数量，K是实体的数量类型，以及ei，ej，rk。FastRE的原理如图1所示。FastRE由卷积编码器和改进的级联二进制标记框架组成。卷积编码器包含L堆叠Block（），其由两个扩张卷积组成：门控单元和残余连接。相比改进后的级联二进制标注框架在原框架的基础上，增加了基于实体类型的类型-关系映射机制，并针对不同位置采用了位置相关的自适应阈值首先，卷积编码器有效地将由词嵌入Xg和位置嵌入Xp组成的输入句子X转换成句子表示H.随后，经由两个不同的多头自注意层基于H生成两个单独的辅助特征Hh和Ht然后FastRE利用前馈网络（FFN）获得所有的头实体及其类型。具体地，句子表示H和头部实体辅助特征Hh被连接并馈送到FNN。然后，对于每个实体类型，FastRE计算每个标记的得分作为头部实体的开始和结束位置。利用自适应阈值化，具有比其位置相关阈值更高的分数的位置被设置为1。通过映射机制，FastRE确定与当前头实体类型对应的潜在关系.最后，类似于头部实体标注，利用句子表示H、尾部实体辅助特征Ht和头部实体特征Fh，FastRE利用另一个FFN来获取所有的尾实体，并在Z中形成所有的关系三元组。2.2卷积编码器从理论上讲，我们可以实现类似于 Transformer[Vaswaniet al. ，2017]通过堆叠足够的香草卷积层。但是太多的参数会带来太多的计算量。因此，我们选择了扩张卷积[Yu和Koltun，2016]，因为增加卷积中的接收区域可以用更少的层实现香草卷积的高效率然而，预先确定的接受区域阻止后续层详细检查先前的信息我们通过使用门控单元来缓解这个问题[Dauphinet al. ，2017年]，以选择低级标记和短语的重要特征。为了实现深度网络，我们采用了剩余连接[Heet al. ，2016]以避免梯度消失。+v：mala2277获取更多论文泰勒·斯威夫特Taylor Swift[泰勒·斯威夫特，出生地，宾夕法尼亚州]PER-出生地输入句子映射机制关系三元组[泰勒·斯威夫特，出生地，宾夕法尼亚州][泰勒·斯威夫特，出生日期，1989年]Xg+的[宾夕法尼亚州，建立，雷丁医院][雷丁医院，位于宾夕法尼亚州Xp1编码器001Y我D D块×升σ+Yi+1FFNFFNFhHCCHHHH多头自我注意Ht多头自我注意PER-泰勒·斯威夫特-宾夕法尼亚州ORG -雷丁医院时间-1989PER-出生地PER-出生日期Taylor Swift出生于1989年，宾夕法尼亚州的雷丁医院D：扩张Conv1dσ：Sigmoid函数标签：Gated Unit：剩余连接自适应阈值AT-开始AT-结束得分-开始得分-结束自适应阈值AT-开始AT-结束得分-开始得分-结束∈·∈∈··⊗∈∈∈IJIJ我IJIJIJ我IJ000PER-启动00010出生地-开始000PER结束00010出生地-结束卷积编码器改进的级联二进制标记框架图1：FastRE的整体结构。令X=[x1，x2，...，xn]表示输入句子，其中xiRd是具有维度d 的第i 个标记嵌入，由GloVe 嵌入组成[Pennington et al. ，2014]X g和可训练位置嵌入X p。编码器包含 L 个堆叠的 Block （）。句子表示 H=[w1，w2，.，通过下式获得：H=Block（···（Block（X）（1）第i个令牌的表示第i个Block（）在第i个Block（）中，编码器包含两个具有扩张率d1的扩张卷积、门控单元和残差连接。它包含d卷积核大小为ks。我们将扩张卷积表示为DilatedConv（·）将输入X∈Rn×d映射到输出cade二进制标记框架[Weiet al. ，2020]。此外，FastRE引入了类型关系映射机制和位置相关的自适应阈值来克服缺点（即，关系冗余和差的一般化[Zhenget al. ，2021]）的级联二进制标记框架。因为卷积编码器共享最多的参数，所以它平等地对待句子中的每个标记，而不太关注句子中最重要的部分。因此，FastRE通过两个多头自注意生成两个独立的辅助特征[Vaswaniet al. ，2017]层分别用于头部实体标记和尾部实体标记。以头部实体辅助特征Hh为例：不是a，b∈Rn×d：Ya= DilatedConva（X）（2）QKHH =softmax（softmax）（5）Yb= DilatedConvb（X）（3）对于所有Block（），我们通过填充确保输出维度与输入维度匹配。类似于[Gehringet al. ，2017]，我们在Y a，Y b上实现门控单元，并添加从Bl ock（·）输入到其输出的残差连接：Yi=Yasigmoid（Yb）+X（4）其中表示逐元素乘法，Yi是第i个块的输出和第（i+1）个块的输入。很明显，Q =Wq·H+bq（6）K=Wk·H+bk（7）V=Wv·H+bv（8）其中d k=d是注意力键的维数。Wq，Wk，WvRd×d，bq，bk，bvRd是权重，偏向查询、键和值以获得表示Q、K、VRn×d。对于中心实体标记，我们将句子表示H和中心实体辅助特征Hh连接为因此，句子表示H等于Y，其为[[w1，wh]，...， [wn，wh]]。然后我们计算出L1n最后一个Block（·）的输出。2.3改进的级联二进制标记器第i个标记分别作为类型为tj∈ TFastRE首先标记所有头实体，然后标记它们的对应实体，奥霍斯=Whs·[wi，wh]+bhs（九）响应关系和尾部实体，这是一个典型的案例，奥合埃=Whe·[wi，wh]+bhe（十）K+v：mala2277获取更多论文IJLIJPN∈HΣΣikR∈R <$R·LIJIJIJ我我IJB其中表示第i个标记是具有类型tj的头部实体的开始的分数。直觉上，不同的位置应该有不同的阈值-表1：数据集统计。数据集编号关系火车有效试验老年人，例如，实体边界处的阈值可以不同于其它字的边界调整一个全局的NYT10NYT11291270,33962,648--4006369由于依赖性，阈值导致次优结果NYT242456,196 5,000 5,000对验证集数据分布的影响，这会导致测试结果令人满意，推广性差。提高标记准确性和模型泛化，我们使用分两部分：自适应阈值策略，自动学习阈值。标记器仅在位置的分数高于其位置相关阈值时才将位置设置为1对于所有启动po-=1（|D|Lhj+Ltj |H）（十五）位置ps类型为tj的头实体的∈ T在位置Si∈Dhj∈ZiSi∈Dtj∈Zii[1，n]，我们将正类（即期望标记为1的位置）表示为i，将负类表示为i。我们设置一个AT类来存储所有关于AT类型的开始位置，其中位置i表示为pi;AT。在训练期间，开始标记丢失如下：n3实验3.1数据集、基线和设置我们在三个广泛使用的公共关系提取数据集上评估FastRE：NYT10 [Takanobuet al. ，2019年]，Ls=−log（IJexp（oij））经验值NYT11 [Takanobuet al. ，2019]和NYT24 [Zenget al. ，2018]。这些数据集的统计数据见表1。i=1ps∈Pin-log（i=1pik∈Pi <${pi;AT}exp（oi;AT））ps∈Ni <${pi;AT}exp（oik）（十一）我们用[PER]、[]、[ORG]和[OTH]来表示这四个字。实体类型，并基于每个关系的语义确定实体类型与预定义关系之间的映射机制。其中，oiAT表示位置i处的阈值。请注意，开始和结束标记需要不同的阈值，并遵循相同的损失函数。头部实体标记丢失是起始标记丢失Ls和结束标记丢失Le之和：我们将FastRE与最先进的关系提取模型进行了比较：（1）基于标记的模型已被广泛研究，例如NovelTagging[Zhenget al. ， 2017] ， CasRel [Weiet al. ， 2020] ，TPLinker [Wanget al. ，2020]和hhPRGC [Zhenget al. ，2021]。（2）生成基础模型S eLh=Lh+Lh（12）最后，我们需要识别关系和尾实体。将关系提取任务转换为生成任务，例如CopyRE [Zengetal. ，2018]，WDec [Nayak和Ng，我们设置一个实体类型嵌入层V∈RK×dt，2020]和SPN [Suiet al. ，2021]。(3)其他强有力的基线相对位置嵌入层Vp不∈Rn×d。一是将关系提取任务投射到强化学习的角度，例如HRL[Takanobuet al. ，2019]，或表获得头部实体开始和结束标记特征Wa、Wb从H，从Vt导出头部实体类型特征wt，并且从Vp导出相对位置特征wp、wp。则填充框架，如GRTE [Renet al. ，2021]。标准的微精确度、召回率和F1分数是（w+wp），（w一+wp）和用于评估结果。与现有的相比aabbwt连接形成使用模型，我们遵循以前的工作[Takanobuet al. ，2019年;头部实体特征WH。通过类型-关系映射机制，根据当前实体类型确定潜在关系集，结合实体类型信息，更准确地识别尾实体。我们将句子表示H，tail en连接起来，Wei等人，2020]并在所有三个数据集上使用部分匹配。为了评估模型的鲁棒性和稳定性，我们在所有数据集上使用相同的超参数设置。具体来说，FastRE使用300维GloVe嵌入[Penningtonetal. ，2014]作为初始词向量，实体辅助特征和头部实体特征d=128隐藏维度。内核大小k和类型embed-[[w，wt，wh]，.， [w，wt，wh]]。因此，我们计算-s11nnDing维数dt分别为3和64FastRE适用于6将第i个标记的得分延迟为具有潜在关系r j的尾实体的开始和结束位置'，分别为：stackedBlock（），每层的膨胀率为1，2，4，1，1，1。我们的模型使用AdamW[Loshchilov和Hutter，2019]进行了优化，使用学习率1 e-3和线性温奥特斯=Wts·[w，wt，wh]+bts（十三）上[Goyalet al. ，2017年]的第一个6%的步骤，其次是一个ote=Wte·[wi，wt，wh]+bte（十四）卷积层之间的速率为0.1。所有的超-ij ij在这项工作中报告的参数是基于结果其中表示第i个标记是具有关系rj的尾实体的开始的分数。类似于头部实体标记损失，我们根据等式（12）直S线性衰减到0。我们应用dropout [Srivastavaet al. ，2014年]+v：mala2277获取更多论文接计算尾部实体标记损失t。设D表示所有的句子，Zi表示句子Si中所有的关系三元组. 损失函数L由验证集。其他参数随机初始化。根据CasRel [Weietal. ， 2020] ， TPLinker [Wanget al. ， 2020] 和 GRTE[Renet al. ，2021]，则输入句子的最大长度被设置为100。我们训练FastRE 60 epoch，批量大小为32，所有实验都在NVIDIA RTX 2080Ti GPU上进行。+v：mala2277获取更多论文†×××××表2：主要结果。基线是用原始论文中提供的源代码生成的。基线的其余结果来自原始文献。所有模型的结果均为随机三次的平均值。火车推断。分别表示每个数据集上的总训练时间（min）和推理时间（s）型号NYT10 NYT11 NYT24CasRel [Wei et al. ，2020]<$PRGC [Zheng etal. ，2021年]表3：推理效率的比较。复杂度是相对于序列长度n和关系集大小k的理论解码复杂度。在SPN中，c是与k无关的常数，通常小于k。在FastRE中，m表示实体类型的数量。参数表示默认配置下正式实现获得的模型参数个数推断。（1/8）表示批量大小为1和8时每个实例的推理时间（ms）以粗体标记的结果表示推断批次大小设置为128。模型复杂性NYT10NYT11NYT24参数推断。（八分之一）参数推断。（八分之一）参数推断。（八分之一）CasRel [Weiet al. ，2020年]O（kn）107，729K66.2/-107，698K62.9/-107，720K65.3/-TPLinker [Wanget al. ，2020年]O（kn2）109，626K104.7 /47.5109，548K97.5/42.5109，603K103.2 /47.0SPN [Suiet al. ，2021年]O（cn）141，754K197.4 /50.2140，648K199.2 /51.6141，429K198.9 /50.7PRGC [Zhenget al. ，2021年]O（n2）108，931K132.6 /33.3108，891K127.1 /30.6108，919K130.7 /32.1GRTE [Renet al. ，2021年]O（kn2）119，450K97.5/43.8119，166K98.8/44.2119，387K98.3/44.1FastRE（我们的）O（Mn）→O（Mn+kn）1，096 K12.9/ 5.9 /4.61，092 K11.7/ 5.5 /4.41，095 K12.8/ 5.8 /4.63.2主要结果根据表2所示的主要结果，FastRE与现有的基于BiLSTM和BERT的模型相比，该模型非常有效，在NYT10和NYT11上取得了优异的特别是，FastRE在所有数据集上的训练和推理速度方面都优于现有模型，这证明了我们的卷积编码器在效率方面的优势。例如，FastRE的推理速度比PRGC快7倍，比PRGC快15倍CasRel和其他基于BERT的模型一样多。FastRE的训练速度为PRGC的3，TPLinker的10以上。请注意，除了PRGC，其他基于BERT的模型的训练时间在不同的数据集上差异很大。FastRE在所有数据集上所需的训练时间都很接近，尽管这些数据集具有不同的相关性编号。这主要是因为引入了映射机制。从PRGC的结果来看，它首先预测关系，然后提取实体，减轻关系冗余通常会导致相对稳定的训练时间。此外，FastRE在NYT10和NYT11上的性能明显优于我们观察到FastRE在NYT24上的性能不如基于BERT的模型。我们认为造成这种现象的潜在原因有两个：（1）FastRE的表达能力不足，（2）NYT24的不合理性。首先，FastRE采用简单有效的结构来逼近大型的基于Transformer的结构，以加快模型训练和推理速度，这限制了它的表达能力。尽管如此，FastRE仍然优于基于BiLSTM的模型，如WDec，并接近CasRel，这意味着基于卷积的结构在RE任务上实现了与预训练模型BERT相当的表达能力。此外，数据集的不合理性会极大地影响模型的性能。如[Zhanget al. ，2020]指出，NYT24测试集中超过90%的三元组在其训练集中重新出现，这很容易被现有模型过拟合，并显着限制了验证模型泛化的能力。我们认为这些基于BERT的模型通过记忆频繁重复出现的训练集三元组而在NYT24中获得高分，这是因为BERT具有很强的表达和拟合能力，这导致了过拟合而不是更好的泛化。3.3推理效率从表3的结果来看，FastRE的总参数几乎是其他基线的1/100，这保证了更快的前向计算速度和后向传播更新速度。因此，很少有参数精密度Rec.F1火车推断。精密度Rec.F1火车推断。精密度Rec.F1火车推断。[Zhenget al. ，2017年]59.3 38.1 46.4--46.9 48.9 47.9--62.4 31.7 42.0--78.0 69.0 73.252126650.3 58.1 53.94482489.9 89.1 89.5420327TPLinker[Wanget al. ，2020年]80.180.266.466.572.672.798429019113456.254.455.156.355.755.3973267161291.089.991.890.991.490.4885272235161CopyRE [Zenget al. ，2018年]56.9 45.2 50.4--34.7 53.4 42.1--61.0 56.6 58.7--WDec[Nayak和Ng，2020]84.6 62.1 71.6-------94.5 76.2 84.4--SPN [Suiet al. ，2021年]79.5 67.1 72.851620252.7 55.4 54.03801993.3 91.8 92.5473254HRL [Takanobuet al. ，2019年]71.4 58.6 64.4--53.8 53.8 53.8-------GRTE[Renet al. ，2021年]79.8 67.6 73.289017653.6 58.2 55.88431792.5 92.7 92.6795221FastRE（我们的）78.0 70.1 73.810018.454.1 58.7 56.3871.689.6 86.3 87.99623.0+v：mala2277获取更多论文×⊗可以帮助FastRE实现快速推理。此外，与大多数模型相比，FastRE具有较低的理论解码复杂度当存在较少的实体类型（m k）和较少的平均对应关系数时，FastRE具有比CasRel更低的解码复杂度。虽然SPN具有最低的解码复杂度，但基于BERT的编码器和非自回归解码器成为最消耗的部分，并限制了其推理效率。我们将所有基于BERT的模型的批量大小设置为8，以评估并行处理能力。与[Renet al. ，2021]，TPLinker，SPN和GRTE具有相似的推理速度。FastRE在推理过程中比其他模型快得多。结果还表明，FastRE的单线程速度仍然比其他模型快得多。同样，虽然CasRel在整个推理阶段花费的时间最长，但它显著图2：迭代时间（ms）和NYT11上的总迭代次数。表4：NYT10上的结构检索。参数表示模型参数的数量。火车表示直到收敛的总训练时间（min），以及推断。表示总推理时间。例如，L=3，di=1，2，4表示编码器具有3个堆叠块，并且膨胀率分别为1，2，4。比其他基于BERT的模型更快，当处理一个sin时，通过一个简单的实例，说明了级联二进制标记框架的有效性。当FastRE的批量大小为8时，FastRE的速度约为PRGC的5.5。由于模型结构简单，参数规模小，可以将批量增加到128个，从而获得更快的推理速度，显示出优越的并行处理能力。3.4收敛效率为了评估模型的收敛效率，我们分析了NYT11上不同模型的迭代时间和总迭代次数，如图2所示。由于不同的模型需要不同的批量大小进行训练，因此我们使用具有默认批量大小配置的官方实现。请注意，某些模型（如CasRel和TPLinker）将总历元设置为100，但当模型性能不再改善时，可以执行提前停止例如，CasRel通常在30个时期内收敛。因此，我们只计算模型收敛的时间，而不是epoch的总数，这与另一种分析完全不同[Renetal. ，2021]。我们相信，我们的评估可以更准确地反映真实的收敛效率。结果表明，FastRE在这两个方面都优于其他模型。FastRE消耗最少的迭代时间，因为它需要最少的计算和最少的参数。请注意，SPN中的迭代时间比其他基于BERT的模型少，但它需要更多的迭代来收敛，因为它将RE任务转换为复杂的二分匹配问题，并且与其他模型相比包含最多的参数。GRTE也有类似的缺点，它采用迭代的方式进行繁琐的表格填充，并且在所有模型中需要最多的迭代。直观地说，FastRE应该有很少的迭代收敛与少得多的参数比基于BERT的模型。但结果表明，FastRE算法在迭代次数上不如PRGC算法有优势这种现象促使我们在未来采取更有效的培训策略。3.5结构搜索我们进行了结构搜索实验，如表4所示。将堆叠块数设置为3可以大大加快模型速度，但会导致严重的性能下降。通过改变不同块的膨胀率，我们观察到，模型参数火车推断。F1FastRE（L=6，di=1，2，4，1，1，1） 1096 K 100 18.4 73.8L=3，di=1，2，4 800 K 50 13.7 68.6L=6，di=1，1，1，1，1，1 1096 K 100 17.5 71.5L=6，di=1，2，4，8，16，32 1096 K 100 18.9 70.9L=9，di=1，2，4，1，1，1 1392 K 150 28.3 74.1适当的膨胀率在改善最终性能方面起着重要的作用。例如，当不使用扩张卷积（扩张率设置为1）或扩张率设置过大时，性能会严重下降。这是因为扩张卷积很难通过简单地以指数方式增加扩张率来捕获长距离依赖性CNN的几个参数无法捕获如此多的信息，盲目增加接受区域将导致更差的结果。因此，在一定数量的膨胀卷积层之后，我们将其余层替换为香草卷积层，以缩小接受区域进行微调。此外，继续增加堆叠块的数目，性能提高不大，但大大降低了模型的收敛速度和推理速度。因此，FastRE采用6个堆叠块，并将膨胀率设置为1，2，4，1，1，1，这是一种平衡速度和性能的结构。3.6消融研究我们进行了消融实验，以证明FastRE中每个组件的有效性，F1评分（%）见表5。值得注意的是，每个组件对效率的影响并不明显（自适应阈值除外），因此我们仅讨论消融结果对性能的影响。我们将所有的膨胀率设置为1。扩展卷积可以用更少的参数和更快的速度捕获更多的局部上下文在没有扩张卷积的情况下，捕获长距离依赖性的能力显著降低，导致整体性能下降。门控单元我们移除等式（ 4 ）中的门控单元部分（sigmoid（Yb））。使用门控单元的目的是控制信息流，选择最重要的信息。+v：mala2277获取更多论文××表5：FastRE中组件的消融研究。模型NYT10 NYT11 NYT24FastRE73.856.387.9- 扩张卷积71.554.886.3- 门控单元69.453.284.2- 残差连接70.854.485.9- 映射机制72.254.486.4- 自适应控制73.0 55.5 87.0动态的。删除门控单元比删除扩张卷积和剩余连接对性能的影响更大。我们去除等式（4）中的剩余连接部分（+X）。通常，残差连接可以防止梯度消失，但它仍然对性能有积极的影响。剩余连接在多层神经网络中的多个通道中工作，从而简化学习过程和更好的泛化。映射机制没有映射机制，也就是说，我们将所有实体类型设置为[ANY]，[ANY]可以映射到所有关系，这会导致性能的小幅下降。然而，映射机制的一个缺点是，它只能处理从关系到实体类型的映射是唯一确定的情况。更普遍的方法值得在未来探索。我们对所有位置执行sigmoid操作并调整全局阈值。我们发现，使用全局阈值提高了验证集上的F1分数。而全局阈值下的测试集F1得分比自适应阈值下的结果低近1%，表明自适应阈值的使用使模型具有更好的泛化能力。我们还观察到，使用自适应阈值损失的收敛速度Sigmoid操作简单，但存在不平衡类问题，因为它会产生大量的0位置，影响收敛速度。基于秩的自适应阈值损失平衡了损失中正类和负类的贡献，使训练更容易和更快。3.7讨论其他基线和基准一些最新的工作，如REBEL [HuguetCabot和Navigli，2021]和R E R E[Xieetal. ，2021]在基线实验中没有解决。这两种模型具有相当的性能，但与FastRE相比效率较低。REBEL（BART-作为主干）不能在我们的实验设置中运行，因为它需要更多的计算资源。REBEL中的参数是400，因为FastRE和REBEL主要关注性能而不是效率，这与我们的工作目标不同FastRE在NYT 10（73.8 vs 73.8）和NYT 11（56.3 vs 56.2）上实现了与RERE相当的性能，而推理速度比RE RE快20。原因是 RE RE采用流水线抽取，在关系分类和实体抽取中使用两个独立的BERT模型。此外，我们还进行了系统的实验，其他基准，如ADE和WebNLG，结果一致支持我们的工作结果。由于篇幅所限，我们无法报告所有结果。FastRE的目标是在保持良好性能的同时提高RE效率它采用简单的架构来实现性能和效率之间的平衡，因为增加模型复杂度将降低效率。我们对NYT 24进行了检验，发现在测试集和训练集中有90.49%的三联体这将导致基于BERT的模型和基于Seq2seq的模型由于死记硬背和暴露偏差而获得高分。因此，NYT24上的结果不适合于检验模型的推广性。最后，将CasRel中的BERT编码器直接替换为卷积编码器，在三个基准测试中性能分别下降了1.8%、0.7%、3.3%，说明卷积编码器在RE任务中的表现能力不如BERT。综上所述，FastRE由于其简单性而具有一定的表示能力，但它实现了更好的泛化，并且更适合和适用于像NYT11而不是NYT24这样的无偏数据集FastRE提高了训练和推理速度，同时保持了良好的性能，这可能是梯度技术所解释首先，我们可视化了两个独立的自我注意层上的注意分数分布，发现实体边界的分数在两个层上都显著高于其他词的分数，这为后续的实体预测突出了边界特征。其次，我们收集输入的损失梯度，并计算输入中每个词向量的梯度范数在对每个词的梯度范数进行归一化后，我们发现句子中的重要谓词（表示实体之间的关系）总是获得更高的（相对）梯度范数，而平凡的连词和介词的梯度范数接近0。4结论本文提出了一种简单快速的关系抽取模型FastRE，它可以显著减少训练和推理时间，同时保持竞争力。本文提出了一种结合扩张卷积、门控单元和残差连接的卷积编码器。我们还改进了级联二进制标记框架的类型-关系映射机制和位置相关的自适应阈值。实验结果表明，FastRE实现了更快的训练和推理速度相比，最先进的模型，而性能是有竞争力的。确认我们感谢匿名评论者的深刻评论。这项工作得到了第十三个五年全军通用信息系统装备预研项目（批准号：31514020501、31514020503）。所有意见都是作者的意见，并不反映提案国的观点。+v：mala2277获取更多论文引用[Dauphin et al. Yann N Dauphin，Angela Fan，MichaelAuli和David Grangier。门控卷积网络的语言建模。在ICML，2017年。[Devlin et al. Jacob Devlin，Ming-Wei Chang，Ken- tonLee，and Kristina Toutanova. BERT：用于语言理解的深度双向转换器的预训练。在NAACL，2019年。[Dong et al. 董欣，Evgeniy Gabrilovich，Geremy Heitz等人，知识库：一种网络规模的概率知识融合方法。InSIGKDD，2014.[dos Santos et al. ， 2015] C cero dos Santos ， BingXiang，and Bowen Zhou.通过卷积神经网络排序对关系进行分类。在ACL，2015年。[Gehring et al. Jonas Gehring ， Michael Auli ， DavidGrangier等人，卷积序列到序列学习。在ICML，2017年。[G o yaletal. ，2017]PriyaGo yal，PiotrDolla'r，RossGir-shick，and et al. Accurate，large minibatch sgd：Train-ingimagenetin1hour.arXiv 预印本 arXiv ：1706.02677，2017。[He et al. 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR，2016年。[Huguet Cabot和Navigli，2021] Pere-Llu 'ıs Huguet Cabot和Roberto Navigli。REBEL：端到端语言生成的关系提取EMNLP的发现，2021年。[Lewis et al. 2020] Mike Lewis ， Yinhan Liu ， NamanGoyal，MarjanGhazvininejad，AbdelrahmanMohamed，Omer Levy，Veselin Stoyanov，and LukeZettlemoyer.BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练。在ACL，2020年。[Loshchilov 和 Hutter ， 2019] Ilya Loshchilov 和 FrankHutter。解耦权重衰减正则化。2019年，在ICLR。[Nayak和Ng，2020] Tapas Nayak和Hwee Ng。联合实体和关系提取的编码器-解码器体系结构的有效建模在AAAI，2020年。[Pennington et al. Jeffrey Pennington ，Richard Socher，and Chri

下载后可阅读完整内容，剩余1页未读，立即下载