并行实例查询网络用于命名实体识别

105 浏览量更新于2023-11-30 收藏 19.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yongliang Shen1∗, Xiaobin Wang2, Zeqi Tan1, Guangwei Xu2,Pengjun Xie2, Fei Huang2, Weiming Lu1†, Yueting Zhuang1PERLOCFAC0并行实例查询网络用于命名实体识别01浙江大学计算机科学与技术学院 2阿里巴巴达摩院 {syl,luwm}@zju.edu.cn xuanjie.wxb@alibaba-inc.com0摘要0命名实体识别(NER)是自然语言处理中的一项基本任务。最近的研究将命名实体识别视为阅读理解任务，手动构建类型特定的查询来提取实体。这种范式存在三个问题。首先，类型特定的查询每次推理只能提取一种类型的实体，效率低下。其次，不同类型实体的提取是隔离的，忽略了它们之间的依赖关系。第三，查询构建依赖于外部知识，难以应用于具有数百种实体类型的现实场景。为了解决这些问题，我们提出了并行实例查询网络(PIQN)，它建立了全局和可学习的实例查询，以并行方式从句子中提取实体。每个实例查询预测一个实体，通过同时输入所有实例查询，我们可以并行查询所有实体。实例查询不是从外部知识构建的，而是可以在训练过程中学习它们不同的查询语义。对于模型的训练，我们将标签分配视为一对多的线性分配问题(LAP)，并动态地将黄金实体分配给具有最小分配成本的实例查询。在嵌套和平面NER数据集上的实验证明，我们提出的方法优于先前的最先进模型1。01引言0命名实体识别(NER)旨在识别特定实体类型的文本片段，例如人物、地点、组织。它已被广泛应用于许多下游应用，如实体链接(Ganea和Hofmann，2017;Le和Titov，2018)和关系抽取(Li和Ji，2014;0*雷锋网(公众号：雷锋网)按：本文为雷锋网编译，转载请注明来源。原文链接：https://github.com/tricktreat/piqn。0(a) 类型特定查询 (b) 实例查询0模型0上下文0所有实体0模型0上下文0PER实体0PER 查询实例查询0图1：(a)对于一个句子，类型特定的查询每次只能提取一种类型的实体，因此模型需要多次运行。(b)相反，基于实例的查询可以同时输入到模型中，并且可以并行提取所有实体。此外，并行方式可以建模不同类型实体之间的交互。0Miwa and Bansal , 2016 ; Shen et al. , 2021b).传统的命名实体识别方法基于序列标注，为句子中的每个单词分配一个标签。然而，嵌套实体的单词具有多个标签，因此这些方法无法识别嵌套实体。最近，Ju等人(2018); Straková等人(2019);0Wang等人(2020a)使用不同的策略重新设计序列标注模型以支持嵌套结构。Luan等人(2019);Tan等人(2020); Li等人(2021);Shen等人(2021a)不是对每个单词进行标注，而是对文本片段进行分类任务，Straková等人(2019);Paolini等人(2021); Yan等人(2021);Tan等人(2021)将NER视为序列生成或集合预测任务，并设计编码器-解码器模型生成实体。最近，Li等人(2020b); Mengge等人(2020);Zheng等人(2021)将NER任务重新定义为机器阅读任务，并在平面和嵌套数据集上取得了良好的性能。如图1(a)所示，他们将句子视为上下文，并从外部知识构建类型特定的查询来提取实体。例如，对于句子"美国总统巴拉克∙奥巴马和他的妻子度过了八年"。0arXiv:2203.10545v1[cs.CL]20Mar20220+v:mala2277获取更多论文0在“白宫”中，Li等人(2020b)以自然语言形式构建了特定于PER的查询-“在文本中找到人物实体，包括单个个体或群体”，以提取PER实体，如“美国总统”、“巴拉克∙奥巴马”。然而，由于查询是特定于类型的，每次推理只能提取一种类型的实体。这种方式不仅导致预测效率低下，而且忽略了不同类型实体之间的内在联系，如“美国”和“美国总统”。此外，特定于类型的查询依赖于手动构建的外部知识，这使得难以适应具有数百种实体类型的现实场景。在本文中，我们提出了并行实例查询网络(PIQN)，其中全局和可学习的实例查询取代了特定于类型的查询以并行提取实体。如图1(b)所示，每个实例查询预测一个实体，可以同时输入多个实例查询以预测所有实体。与以前的方法不同，我们不需要外部知识将查询构建成自然语言形式。实例查询可以在训练过程中学习不同的查询语义，如与位置相关或与类型相关的语义。由于实例查询的语义是隐含的，我们无法事先为其分配金标实体作为标签。为了解决这个问题，我们将标签分配视为一对多的线性分配问题(Burkard and Çela,1999)，并设计了一种动态标签分配机制来为实例查询分配金标实体。我们的主要贡献如下：0•与需要多轮查询的特定于类型的查询不同，我们的模型采用可以并行提取所有实体的实例查询。此外，并行查询的风格可以建模不同类型实体之间的交互。0•在训练过程中，实例查询不依赖于外部知识来构建自然语言形式的查询，而是学习与实体位置和实体类型相关的查询语义。0•为了训练模型，我们设计了一种动态的一对多标签分配机制，在训练过程中动态地将实体分配为实例查询的标签。一对多的方式允许多个查询。0预测相同实体，可以进一步提高模型性能。0•实验证明，我们的模型在几个嵌套和扁平的NER数据集上始终达到最先进的性能。02 相关工作0传统的NER方法可以分为三类，包括基于标记的方法、基于超图的方法和基于跨度的方法。典型的序列标注方法(Huang等，2015)为每个标记预测标签，并且难以处理嵌套NER。一些工作(Alex等，2007；Wang等，2020a)通过设计特殊的标记方案，将序列标注模型调整为嵌套实体结构。与线性序列上的解码不同，基于超图的方法(Lu和Roth，2015；Muis和Lu，2017；Katiyar和Cardie，2018)基于实体嵌套结构构建超图，并在超图上解码实体。跨度方法首先通过枚举(Sohrab和Miwa，2018；Luan等，2019)或边界识别(Zheng等，2019；Tan等，2020)提取跨度，然后对跨度进行分类。基于这些方法，Shen等人(2021a)将NER视为先定位实体，后标记实体的联合任务，并提出了一个两阶段的实体识别器。最近提出了三种新颖的NER范式，将命名实体识别重新定义为序列生成、集合预测和阅读理解任务。Yan等人(2021)将NER定义为实体跨度序列生成问题，并使用带有指针机制的BART(Lewis等，2020)模型处理NER任务。Tan等人(2021)将NER定义为实体集合预测任务。与Straková等人(2019)不同，他们利用非自回归解码器预测实体集合。Li等人(2020b)；Mengge等人(2020)将NER任务重新定义为MRC问答任务。他们利用语义先验信息构建特定于类型的查询来提取实体类别。与Li等人(2020b)；Jiang等人不同。0（2021年），我们的方法尝试在实体级别进行查询，在这里自适应地学习实例查询的查询语义，并同时提取所有类型的实体。值得注意的是，Seq2Set（Tan等，2021年）与我们的方法非常不同：（1）0+v:mala2277获取更多论文(1)α = softmaxHWq(HWk)T√h+ M(3)+v:mala2277获取更多论文0Seq2Set试图消除seq2seq框架中指定实体解码顺序引入的错误偏差，并提出了一个实体集预测器，而我们遵循MRC范式，专注于使用实例查询提取实体。（2）Seq2Set是一种编码器-解码器架构，而我们的模型丢弃了解码器，只保留编码器，如Wang等人（2022a）中所述，这加速了推理并允许查询和上下文之间的完全交互。（3）Seq2Set使用二分图匹配来计算实体集级别的损失，而我们专注于为每个实例查询分配标签，并提出了一种一对多的动态标签分配机制。03方法0在本节中，我们首先介绍第3.1节中的任务形式化，然后描述我们的方法。如图2所示，我们的方法由三个组件组成：编码器（第3.2节），实体预测（第3.3节）和动态标签分配（第3.4节）。编码器同时对句子和实例查询进行编码。然后对于每个实例查询，我们使用实体指针和实体分类器分别进行实体定位和实体分类。为了训练模型，我们引入了一种动态标签分配机制，将金标实体分配给实例查询。03.1任务形式化0我们使用（X，Y）表示一个训练样本，其中X是由一组三元组Y = {} G-1k =0标记的N个单词组成的句子。Ylk∈[0，N-1]，Yrk∈[0，N-1]和Ytk∈E是第k个实体的左边界、右边界和实体类型的索引，其中E是一个有限的实体类型集合。在我们的方法中，我们设置M（M>G）个全局且可学习的实例查询I =RM×h，每个查询（表示为大小为h的向量）从句子中提取一个实体。它们被随机初始化，并且可以在训练过程中自动学习查询语义。因此，我们定义任务如下：给定一个输入句子X，目标是基于可学习的实例查询I提取实体Y。03.2编码器0模型输入由两个序列组成，句子X的长度为N，实例查询I的长度为M。编码器将它们连接成一个序列并同时对它们进行编码。0输入嵌入我们根据以下方式计算输入的标记嵌入Etok、位置嵌入Epos和类型嵌入Etyp（Etok，Epos，Etyp∈R（N+M）×h）：0E tok = Concat(V, I)0Epos = Concat(Pw，Pq)0E typ = Concat([U w] N, [U q] M)0其中V∈RN×h是单词序列的标记嵌入，I∈RM×h是实例查询的向量，Pw∈RN×h和Pq∈RM×h是单独的可学习位置嵌入。Uw和Uq是类型嵌入，[∙]N表示重复N次。然后输入可以表示为H0 = Etok+ Epos + Etyp∈R（N+M）×h。0单向自注意力正常的自注意力会让句子与所有实例查询进行交互。这样，随机初始化的实例查询可能会影响句子编码并破坏句子的语义。为了使句子的语义与实例查询隔离开来，我们将BERT（Devin等，2019年）中的自注意力替换为单向版本：0OW-SA（H）=αHWv（2）0其中 W q , W k , W v ∈ R h × h 是参数矩阵，M ∈ { 0 , − inf } ( N + M ) × ( N + M )是注意力分数的掩码矩阵，其中 M中的元素设置为 0 表示保留的单元，设置为 −inf 表示移除的单元。在我们的公式中， M的右上子矩阵是一个大小为 ( N × M ) 的全 −inf矩阵，其他元素为零，这可以防止句子编码关注实例查询。此外，实例查询之间的自注意力可以建模它们之间的连接，从而增强它们的查询语义。经过BERT编码后，我们通过两个双向LSTM层和 L个额外的Transformer层进一步对单词级别的序列进行编码。最后，我们将 H ∈ R ( N + M ) × h分成两部分：句子编码 H w ∈ R N × h和实例查询编码 H q ∈ R M × h 。03.3 实体预测0每个实例查询可以预测句子中的一个实体，通过M 个实例查询，我们可以同时预测最多 M个实体。实体预测(0, 0, GPE)···(2, 3, PER)(11, 13, FAC)···012M-2M-1···01···2Barack Obama(2, 3, PER)PERFACGPE···L[2] & R[2]L[1]R[1]L[M-1]R[M-1]T[1]T[M-1]T[2](M-2M-3M-4V[CLS]P0UwIM-1UqPM-1IM-2UPM-2 qIM-3UPM-3qIM-4UPM-4 q········· I2UP2 qI1UP1qI0UP0qV[SEP]PN-1UwVHouse PN-2 UwVWhite PN-3 UwVthe PN-4 Uw··· ··· ··· VObama P4 UwVBarack P3 UwVPresident P2UwVU.S.P1UwYG-2 YG-1Y0Y1-1.7-0.6-1.0-1.2-2.7-0.8-0.9-1.2-2.8-1.1-1.0-1.2-1.9-0.9-0.7······-2.9-0.8-1.0-0.7-2.812···11······Y = ( Yk , Yk , Yk )000010001000000······1000100010YG-2 YG-1Y0Y1None ······P tP lPrwwwwwwwwwqqqqqqqM-1Sδij = ReLU(Hqi W qδ + Hwj W wδ )(4)P δij = sigmoid(SδijWδ + bδ)(5)0匈牙利算法0无0最优分配 ( * ) π0分配 None 标签0实体指针0实体分类器0编码器0句子 M 实例查询0k 成本 i k = + + (0标记0位置0类型0分配矩阵 ( A )0实体0预测0动态标签0分配0成本矩阵 ( Cost )0可分配数量 ( q )0G 真实实体0M个标记的实例查询0M个未标记的实例查询0图2：模型的整体架构。0可以看作是边界预测和类别预测的联合任务。我们分别为它们设计了实体指针和实体分类器。0实体指针对于第 i 个实例查询 H q i，我们首先通过两个线性层将查询与句子的每个词进行交互。第 i 个实例查询和第 j个词的融合表示计算如下：0其中 δ ∈ { l, r } 表示左边界或右边界， W q δ ,W w δ ∈ R h × h是可训练的投影参数。然后我们计算句子中第 j个词是左边界或右边界的概率：0其中Wδ∈Rh和bδ是可学习的参数。0实体分类器实体边界信息对于实体类型很有用。我们使用Pδi= [Pδi0, Pδi1, ..., PδiN-1]，δ∈{l,r}来加权所有单词，然后与实例查询连接起来。0查询。第i个实例查询的边界感知表示可以计算如下：0Sti = ReLU(HqiWqt; PliHw; PriHw)0其中Wqt∈Rh×h是可学习的参数。然后我们可以得到第i个实例查询查询的实体属于类别c的概率：0Ptic = exp(StiWct + bct) / ∑c'∈Eexp(StiWc't + bc't)0其中Wc't∈Rh和bc't是可学习的参数。最后，第i个实例查询预测的实体是Ti = 。Tli= argmaxj(Plij)和Tri =argmaxj(Prij)是左边界和右边界，Tti =argmaxc(Ptic)是实体类型。我们对所有实例查询进行实体定位和实体分类，以并行提取实体。如果多个实例查询定位到相同的实体但预测不同的实体类型，我们只保留具有最高分类概率的预测。0+v:mala2277获取更多论文(9)1[ ˆY δ = j] log P δ̸Lt = −03.4训练的动态标签分配0动态标签分配由于实例查询是隐式的（不以自然语言形式存在），我们无法提前为它们分配黄金实体。为了解决这个问题，我们在训练过程中动态地为实例查询分配标签。具体来说，我们将标签分配视为线性分配问题。任何实体都可以分配给任何实例查询，产生一些可能因实体-查询分配而变化的成本。我们将将第k个实体（Yk = ）分配给第i个实例查询的成本定义为：0Costik = - ∑PtiYtk + ∑PliYlk + ∑PriYrk0∑(8)0其中Ytk，Ylk和Yrk分别表示第k个实体的实体类型、左边界和右边界的索引。需要通过将至多一个实体分配给每个查询，并将至多一个查询分配给每个实体的方式来尽可能多地分配实体，以使分配的总成本最小化。然而，一对一的方式不能充分利用实例查询，许多实例查询没有被分配给黄金实体。因此，我们将传统的LAP扩展为一对多的方式，其中每个实体可以分配给多个实例查询。这个一对多LAP的优化目标定义为：0min0M -1 ≤0k=0 Aik Costik0s.t.对于所有的i和k，Aik≤1，Aik=qk，Aik∈{0,1}。0其中A∈{0,1}M×G是分配矩阵，G表示实体的数量，Aik=1表示第k个实体分配给第i个实例查询。qk表示第k个黄金实体的可分配数量，Q=∑kqk表示所有实体的可分配数量。在我们的实验中，不同实体的可分配数量是平衡的。然后，我们使用匈牙利（Kuhn，1955）算法解决方程9，得到具有最小总成本的标签分配矩阵。然而，实例查询的数量大于实体标签的可分配总数（M>Q），因此其中一些实例查询将不会被分配给任何实体标签。我们将它们分配为“None”标签。0为了扩展分配矩阵的一列，新的列向量a设置如下：0ai =0� 0 , � k A ik = 1 1 , � k A ik = 0(10)0基于新的分配矩阵ˆA ∈ { 0 , 1 } M × ( G+1)，我们可以进一步获得M个实例查询的标签ˆY= Y. indexby( π � )，其中π � = arg max dim =1( ˆ A )是标签索引向量0在最优分配下的实例查询。0训练目标我们在§3.3中计算了M个实例查询的实体预测，并在§3.4中得到了它们的标签ˆY，使得总分配成本最小。为了训练模型，我们定义了边界损失和分类损失。对于左边界和右边界预测，我们使用二元交叉熵函数作为损失：0L b = − �0M0N −0+ 1 [ ˆ Y δ i � = j ] log � 1 − P δ ij � (11)0对于实体分类，我们使用交叉熵函数作为损失：0M− 1 0i =00c ∈E 1 [ ˆ Y t i = c ] log Pt ic (12)0其中1 [ ω]表示指示函数，当ω为真时取1，否则为0。参考Al-Rfou等人（2019年）和Carion等人0（2020年），我们在每个单词级transformer层之后添加了Entity Pointer和EntityClassifier，并且我们可以在每个层获得两个损失。因此，训练集D上的总损失可以定义为：0L = �0D0τ =1 L τ t + L τ b (13)0其中L τ t，L τb是第τ层的分类损失和边界损失。对于预测，我们只在最后一层进行实体预测。04 实验设置04.1 数据集0为了提供所提出模型的有效性的实证证据，我们进行了实验0+v:mala2277获取更多论文0模型ACE040准确率召回率 F10Li等人（2020b年）85.05 86.32 85.980Wang等人（2020a年）86.08 86.48 86.280Yu等人（2020年）87.30 86.00 86.700Yan等人（2021年）87.27 86.41 86.840Yang和Tu（2022年）86.60 87.28 86.940Tan等人（2021年）88.46 86.10 87.260Shen等人（2021a年）87.44 87.38 87.410PIQN 88.48 87.81 88.140模型ACE050准确率召回率 F10Lin等人（2019年）76.20 73.60 74.900Luo和Zhao（2020年）75.00 75.20 75.100Li等人（2021年）- - 83.000Wang等人（2020a年）83.95 85.39 84.660Yan等人（2021年）83.16 86.38 84.740Yu等人（2020年）85.20 85.60 85.400Yang和Tu（2022年）84.61 86.43 85.530Li等人（2020b年）87.16 86.59 86.880Shen等人（2021a年）86.09 87.27 86.670Tan等人（2021年）87.48 86.63 87.050PIQN 86.27 88.60 87.420模型GENIA0准确率召回率 F10Lin等人（2019年）75.80 73.90 74.800Luo和Zhao（2020年）77.40 74.60 76.000Wang等人（2020b年）78.10 74.40 76.200Yang和Tu（2022年）78.08 78.26 78.160Li等人（2020b年）† 81.14 76.82 78.920Wang等人（2020a年）79.45 78.94 79.190Yan等人（2021年）78.87 79.6 79.230Tan等人（2021年）82.31 78.66 80.440Yu等人（2020年）81.80 79.30 80.500Shen等人（2021a）80.19 80.89 80.540PIQN 83.24 80.35 81.770模型KBP170准确率召回率 F10Ji等人（2017）76.20 73.00 72.800Lin等人（2019）77.70 71.80 74.600Luo和Zhao（2020）77.10 74.30 75.600Li等人（2020b）80.97 81.12 80.970Tan等人（2021）84.91 83.04 83.960Shen等人（2021a）85.46 82.67 84.050PIQN 85.67 83.37 84.500模型NNE0准确率召回率 F10Li等人（2020b）‡ 53.13 56.67 54.840Wang和Lu（2018）77.40 70.10 73.600Ringland等人（2019）91.80 91.00 91.400Tan等人（2021）‡ 93.01 89.21 91.070Shen等人（2021a）‡ 92.86 91.12 91.980Wang等人（2020a）† 92.64 93.53 93.080PIQN 93.85 94.23 94.040表1：嵌套NER任务的结果。†表示在相同预处理数据集上的复现，‡表示我们在未报告的数据集上运行代码。0在包括五个嵌套NER数据集（ACE04、ACE05、KBP17、GENIA和NNE）和三个扁平NER数据集（FewNERD、CoNLL03和OntoNotes）以及一个中文扁平NER数据集（MSRA）的八个英文数据集上进行实验。FewNERD和NNE是具有大量实体类型的数据集，分别包含66个和114个细粒度实体类型。有关数据集的统计信息，请参见附录A。04.2 实现细节0在我们的实验中，我们在编码器中使用了预训练的BERT（Devlin等人，2019）。为了公平比较，我们在ACE04、ACE05、NNE、CoNLL03和OntoNotes上使用bert-large，在KBP17和FewNERD上使用bert-base，在GENIA上使用biobert-large，在中文MSRA上使用chinese-bert-wwm。对于所有数据集，我们训练模型30-60个epochs，并使用Adam优化器（Kingma和Ba，2015）和线性warmup-decay学习率调度。我们使用正态分布N(0.0,0.02)初始化所有实例查询。有关更详细的参数设置，请参见附录B，有关所有基线模型，请参见附录C。04.3 评估指标0我们使用严格的评估指标，当实体边界和实体类型同时正确时，将实体确认为正确。我们使用精确率、召回率和F1分数来评估性能。我们还在§5.2和附录D.2中报告了实体定位和实体分类子任务的F1分数。当左右边界被正确预测时，我们认为定位是正确的。基于准确定位的实体，我们然后评估实体分类的性能。05 结果与分析05.1 性能0总体性能表1展示了提出模型和基线模型在嵌套NER数据集上的性能。我们观察到与先前最先进模型相比，在嵌套NER数据集上取得了显著的性能提升。0+v:mala2277获取更多论文0在GENIA、ACE04、ACE05、KBP17和NNE数据集上，我们的模型分别取得了81.77%、88.14%、87.42%和84.50%的F1分数，改进幅度分别为+1.23%、+0.73%、+0.37%、+0.45%和+0.96%。我们的模型可以应用于扁平NER。如表2所示，我们的模型在FewNERD和中文MSRA数据集上取得了最先进的性能，改进幅度分别为+1.44%和+0.88%。在CoNLL03和OntoNotes数据集上，我们的模型也取得了可比较的结果。与基于类型特定查询的方法（Li等人，2020b）相比，我们的模型在GENIA、ACE04、ACE05和KBP17数据集上的改进幅度分别为+2.85%、+2.16%、+0.54%和+3.53%。我们认为有三个原因：（1）不再依赖外部知识注入语义，实例查询可以自适应地学习查询语义，避免对质量不同的手工构造查询的敏感性。（2）每个查询不再预测一组特定类型的实体，而只预测一个实体。这种方式通过更精确的查询语义将查询细化到实体级别。（3）实例查询并行输入模型进行编码和预测，不同的实例查询可以利用实体之间的内在联系。0推理速度我们比较了ACE04和NNE上的推理速度，如表4所示。与类型特定查询方法（Li等人，2020b）相比，我们的模型不仅提高了性能，还获得了显著的推理加速。特别是在具有114个实体类型的NNE数据集上，我们的模型加速了30.46倍，性能提高了+39.2%。这是因为Li等人(2020b)需要为每个类型特定查询进行一次推理，而我们的方法对所有实例查询执行并行推理，只需要运行一次。我们还比较了之前的最先进模型(Tan等人，2021；Shen等人，2021a)，我们的方法仍然更快且性能更好。05.2消融研究0在本节中，我们分析了PIQN中不同组件的影响。如表3所示，我们有以下观察结果：(1)与按出现顺序静态标签分配相比，动态标签分配在定位、分类和NERF1分数上显示出显著改进，ACE04上的NERF1分数提高了+5.71%，GENIA上提高了+8.84%。这表明将标签分配建模为LAP0模型 FewNERD0精确率召回率 F10Ding等人(2021) 65.56 68.78 67.130Shen等人(2021a)‡ 64.69 70.87 67.640Tan等人(2021)‡ 67.37 69.12 68.230PIQN 70.16 69.18 69.670模型英文 CoNLL030精确率召回率 F10Peters等人(2018) - - 92.220Devlin等人(2019) - - 92.800Li等人(2020b)� 92.47 93.27 92.870Yu等人(2020)� 92.85 92.15 92.500Shen等人(2021a) 92.13 93.73 92.940PIQN 93.29 92.46 92.870模型英文 OntoNotes0精确率召回率 F10Li等人(2020b)� 91.34 88.39 89.840Yu等人(2020)� 89.74 89.92 89.830Yan等人(2021) 89.99 90.77 90.380Xu等人(2021) 90.14 91.58 90.850PIQN 91.43 90.73 90.960模型中文 MSRA0精确率召回率 F10Devlin等人(2019) - - 92.600Li等人(2020b)† 90.38 89.00 89.680Shen等人(2021a)‡ 92.20 90.72 91.460Tan等人(2021)‡ 93.21 91.97 92.580PIQN 93.61 93.35 93.480表2：�atNER任务结果。�表示(Yan等人，2021)复现的结果，†表示在相同预处理数据集上的复现，‡表示我们在未报告的数据集上运行代码。0问题在训练过程中实现了对实例查询的最优标签的动态分配，消除了预先指定标签时的错误偏差。此外，一对多的标签分配比一对一更有效，ACE04上的F1分数提高了+3.86%，GENIA上提高了+0.51%。(2)单向自注意力阻止了句子编码对实例查询的关注，ACE04上的F1分数提高了+0.98%，GENIA上提高了+0.57%。这说明了保持句子的语义与查询无关的重要性。相反，查询之间的语义交互是有效的，ACE04上的F1分数提高了+0.92%，GENIA上提高了+0.67%。主要原因是同一句子中的实体密切相关，实例查询之间的交互可以捕捉它们之间的关系。0+v:mala2277获取更多论文1.20.00.5.0.5.02.53.0#25#42#28#39#53#11#13#25#30#430.0750.1000.1250.1500.1750.2000.2250模型 ACE04 GENIA0位置F1 类别F1 精确率召回率 F1 位置F1 类别F1 精确率召回率 F10默认 92.23 91.53 88.48 87.81 88.14 84.43 87.83 83.24 80.35 81.770无动态LA 88.22 88.29 80.95 83.99 82.43 77.01 81.90 73.56 72.30 72.93 无OvM LA 89.22 87.61 87.04 81.68 84.2883.87 87.38 83.02 79.57 81.26 无单向SA 91.90 90.62 87.56 86.75 87.16 84.11 87.21 82.94 79.53 81.20 无查询交互91.84 90.42 88.21 86.26 87.22 83.87 87.05 83.15 79.15 81.100表3：消融研究。（1）w/o动态LA：将动态标签分配替换为静态标签分配，即按照实体在句子中出现的顺序为实例查询分配标签。（2）w/o OvMLA：将一对多的标签分配替换为一对一，即将每个实体可以分配给的查询数量设置为1。（3）w/o One WaySA：使用原始BERT对句子和实例查询进行编码。（4）w/o QueryInteraction：通过屏蔽它们之间的注意力权重来消除实例查询之间的交互。0模型 ACE04 NNE0加速 F1 加速 F10Li等人（2020b）1.00×85.98 1.00×54.840Tan等人（2021）1.40×87.26 22.18×91.070Shen等人（2021a）0.96×87.41 11.41×91.980PIQN 2.16×88.14 30.46×94.040表4：ACE04和NNE上的推理速度。所有实验都在一张单独的NVIDIA RTXA6000图形卡上进行，具有48G的图形内存。05.3 分析0为了分析训练中实例查询学习到的查询语义，我们随机选择了几个实例查询，并分析了它们预测的实体的位置和类型。0标准化实体中心位置0密度0查询ID0图3：不同位置实体分布的核密度估计。0实体位置我们对实体的预测中心位置进行标准化，并使用核密度估计绘制不同查询的预测实体位置的分布，如图3所示。我们观察到不同的实例查询关注不同位置的实体，这意味着实例查询可以学习与实体位置相关的查询语义。0例如，实例查询#28和#39更倾向于在句子开头预测实体，而#11和#53更倾向于在句子末尾预测实体。0实体类型我们统计了不同实例查询和它们预测的不同实体类型的共现。为了消除实体类型的不平衡，我们在实体类型轴上对共现矩阵进行了归一化。如图4所示，不同的实例查询对不同的实体类型有偏好。例如，实例查询#11和#13更倾向于预测PER实体，#30和#43更倾向于预测VEH实体，#25和#49更倾向于预测WEA实体，#12更倾向于预测FAC实体，而#35更倾向于预测LOC实体。0实体查询ID0PERGPEORGLOCFACEEH0实体类型0图4：实例查询和不同实体类型之间的共现统计0我们还分析了辅助损失、动态标签分配机制以及实体定位和分类的性能，请参见附录D。06 案例研究0表5显示了关于模型预测的案例研究。我们的模型可以识别嵌套实体和0+v:mala2277获取更多论文1 (24, 28, ORG) ← 0 23 33 45 51 (27, 28, GPE) ← 2 3 19 26 27 46 50 (15, 15, GPE) ← 9 11 14 42······ (0, 30, ORG) ← 10 20 24 37 53 55 (12, 30, ORG) ← 16 22 47 57None ← 1 12 13 15 17 21 29 30 31 32 34 35 40 49 52 592 (39, 42, ORG) ← 0 2 15 19 26 27 29 35 46 49 50 (17, 17, PER) ← 1 10 20 22 24 32 37 47 53 55 57 (33, 34, PER) ← 6 9 11 12 14 18 34 38 42 48 59 (36, 42, PER) ← 8 17 25 28 30 31 36 40 54 56 58None ← 3 4 5 7 13 16 21 23 33 39 41 43 44 45 51 523 (0, 1, PER) ← 1 10 20 24 32 37 47 53 55 (12, 13, ORG) ← 2 3 19 26 27 35 46 49 50 (7, 8, PER) ← 4 7 12 18 38 39 41 43 44 (6, 10, ORG) ← 5 6 9 11 14 21 48 57 59 (7, 7, GPE) ← 8 25 28 30 31 36 40 54 56 58None ← 0 13 15 16 17 22 23 29 33 34 42 45 51 520# 带有金实体预测的句子 ← 实例查询ID0[ 0 许多强大的国际公司和商业机构，如 [ 12 日本 15 ] GPE 的 [ 15 伊藤局015 ] ORG , [ 17 韩华集团022 ] ORG , [ 24 美国 28 ] GPE 的 [ 27 Jeffrey Group030 ] ORG . 参加了乌鲁木齐谈判会议。0例如，随着即时通讯迁移到手机或手持计算机组织者，[17消费者17 ] PER不希望在这些设备上安装多个服务，[33 Brian Park 34 ] PER说，[ 39雅虎！40 ]ORG通信服务的高级产品。0[ 0 Hector Rodriguez 1 ] PER告诉[6委内瑞拉消费者保护机构10 ] ORG，[ 12 BridgetonFirestone 13 ]ORG多个月来都知道轮胎缺陷，并应该对事故负责。0表5：案例研究。在左列中，右下角的标签表示实体类型，上标表示左边界词和右边界词的位置。在右列中，我们展示了实例查询和预测实体之间的对应关系。0长实体表现良好。在案例1中，长度为31的实体或具有三级嵌套结构的实体被准确预测。并且由于一对多的动态标签分配机制，每个实体可以由多个实例查询预测，这保证了实体预测的高覆盖率。然而，该模型对句子的理解能力仍然不足，主要表现在以下几个方面：（1）对特殊短语的理解不足。案例2中的“Yahoo！CommunicationsServices”被错误分类为ORG，但实际上“Yahoo！”是ORG。（2）过于关注局部语义。案例3中，模型将“委内瑞拉消费者”误分类为PER，忽略了长短语“委内瑞拉消费者保护机构”的完整语义，应该是ORG。（3）对形态变化不敏感。模型混淆了“委内瑞拉”和“委内瑞拉”，并将前者误认为GPE，案例3中的错误。07 结论0在本文中，我们提出了用于嵌套NER的并行实例查询网络，其中一组实例查询同时输入模型，并可以并行预测所有实体。实例查询可以在训练过程中自动学习与实体类型或实体位置相关的查询语义，避免了依赖外部知识的手动构建。为了训练模型，我们设计了一种动态标签分配机制。0为这些实例查询分配金标实体。在嵌套和扁平的NER数据集上的实验证明，所提出的模型达到了最先进的性能。0致谢0本工作得到浙江省重点研发计划（编号2021C0

下载后可阅读完整内容，剩余1页未读，立即下载