对比学习在小样本环境下的命名实体识别

34 浏览量更新于2023-12-01 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文CONTAI NER：通过对比学习的少镜头命名实体识别放大图片作者：Sarkar Snigdha Sarathi Das，Arzoo Katiyar，RebeccaJ.Passonneau，Rui Zhang宾夕法尼亚州立大学{sfd5525，arzoo，rjp49，rmz5227}@psu.edu摘要在低资源域进行实体标注时，小样本环境下的命名实体识别是必不可少的.现有的方法只能从源域中学习类特定的语义特征和中间表示。这影响了对看不见的目标域的概括性，导致次优性能。为此，我们提出了 CONTAI NER ，一种新的对比学习技术，它优化了Few-Shot NER的令牌间分布距离。而不是优化类特定的属性，CON-TAI NER优化了一个广义的目标，区分令牌类别的基础上，他们的高斯分布嵌入。这有效地消除了源于训练域的过拟合问题。我们在几个传统的测试域（ OntoNotes ， CoNLL'03 ， WNUT '17 ，GUM）和一个新的大规模少镜头NER数据集（Few-NERD）的实验CONTAI NER的源代码将在以下网址提供：https://github.com/psunlpgroup/CONTaiNER。1介绍命名实体识别（NER）是一项基本的自然语言理解任务，它识别非结构化文本中的提及跨度，并将其分类到预定义的实体类集合中。尽管具有挑战性，但最近基于深度学习的方法（ Huang et al. ， 2015; Ma and Hovy ， 2016;Lample et al. ，2016; Peters等人，2018; Devlinet al. ，2018年）取得了令人印象深刻的业绩。由于这些有监督的NER模型需要大规模的人类注释数据集，因此可以在资源约束设置中有效执行NER的少数技术最近引起了很多关注。图1：一个标记（Is- lands）与GUM（Zeldes，2017）例句中所有其他标记的对比学习动态。CONT AI NER减少了相同类别的标记之间的嵌入距离（PLACE），同时增加了不同类别之间的距离（QTY）。和O）。少镜头学习涉及从很少的标记示例中学习看不见的类（Fei-Feiet al. ，2006; Lake et al. ，2011; Bao et al. ，2020）。为了避免与有限的可用数据过度拟合，元学习已经被引入以关注如何学习（Vinyals et al. ，2016; Bao et al. ，2020 ）。 Snell 等人（ 2017 ）提出了Prototypical Networks来学习度量空间，其中特定未知类的示例围绕单个原型聚类。虽然它主要部署在计算机视觉中，但 Fritzler 等人（2019）和Hou等人（2019）（2020）还使用原型网络进行少量NER。另一方面，Yang和Katiyar（2020）提出了一种监督NER模型，该模型学习类特定的特征，并将中间表示扩展此外，他们还采用了维特比解码的变体“StructShot”。少镜头NER提出了一些独特的挑战，使其比其他少镜头学习任务更加困难。首先，作为序列标记任务，NER需要根据一致的上下文以及标签内的依赖性进行标签分配（Lample etal. ，2016;Yangand Katiyar，2020）.其次，在NER中，不引用任何定义的实体集的标记被标记为外部（O）。因此，在训练实体集中标记为0的令牌对于原型网络，这挑战了实体考试的概念arXiv：2109.07589v2 [cs.CL] 2022年3月+v：mala2277获取更多论文（一）（十）（一）（十）（十）--|--|联系我们这些问题都集中在一个原型上。至于基于最近邻的方法，如Yang和Katiyar（2020），它们最初是“预训练”的因此，训练的权重将与源类紧密联系，网络将投射训练集O-令牌，以便它们在嵌入空间中聚类。这将迫使嵌入在测试集中丢弃许多与其真实目标实体相关的有用特性第三，在少数镜头设置中，没有足够的样本可以从中选择验证集。这降低了超参数调整的能力，这特别影响了基于模板的方法，其中及时选择对于良好性能至关重要（Cui等人，2009）。，2021年）。事实上，由于没有保留验证集，许多早期的少数作品都质疑他们的策略是否真的是 “ 少数 ” （ Perez et al. ， 2021年）。为了应对这些挑战，我们提出了一种新的方法，CONTAI NER，利用对比学习的力量来解决少镜头NER。CONTAI NER试图减少相似实体的知识嵌入距离，同时增加不相似实体的知识嵌入距离（图1）。这使得CONTAI NER能够更好地捕获标签依赖性。此外，由于CONTAI NER是用广义目标训练的，因此它可以有效地避免现有方法难以克服的O-令牌陷阱最后，CONTAI NER不需要任何数据集特定的提示或超参数调整。先前工作中使用的标准设置（Yang和Katiyar，2020年）在不同评估设置的不同领域都能很好地与传统的对比学习者（Chenet al. ，2020;Khosla et al. ，2020），优化点嵌入之间的相似性目标，CONT AI NER优化分布发散有效地建模高斯嵌入。虽然点嵌入只是优化样本距离，高斯嵌入面临着额外的需要更少的数据来实现最佳性能的均衡化（Bojchevski和Günnemann，2017）。受高斯Em- bedding的这些独特品质的启发，在这项工作中，我们利用高斯Em- bedding进行对比学习，用于少镜头NER。最近邻分类方案在评估过程中显示，平均而言，CONTAI NER在广泛的测试中显著优于以前的SOTA方法，最高可达13%的绝对F1点。特别是，我们在Yang和Katiyar（2020）提出的域内和域外实验中广泛测试了我们的模型，并在各种数据集（CoNLL '03，OntoNotes 5.0，WNUT '17，I2B2）中进行了测试我们还测试了我们的模型，最近提出的用于Few-Shot NER - Few-NERD的大型数据集（Ding et al. ，2021年），其中CONT AI NER优于所有其他SOTA方法，在排行榜上树立了新的基准结果。我们的贡献概括如下：(1) 我们提出了一种新的少镜头 NER 方法CONTAI NER，利用对比学习来推断其高斯嵌入的分布距离。据我们所知，我们是第一个在命名实体识别的对比学习(2) 我们证明了CONTAI NER表示更适合于适应看不见的新类，即使支持样本的数量很少。(3)我们使用多个数据集和评估方案在广泛的实验中广泛测试CONTAINER几乎在每一种情况下，我们的模型在很大程度上优于目前的SOTAs建立新的基准测试结果。2任务制定给定n个令牌的序列x1，x2，. . . NER旨在将每个令牌xi分配给其对应的标签标签yi。对于Few-shot NER，在源域中使用标记集{Cs}训练模型通过方差估计保持类分布的约束因此，高斯嵌入显式建模实体类分布，这不仅促进了广义特征表示，但也有助于在少样本目标域适应。高斯嵌入的先前工作也表明，映射到密度捕获表示不确定性（Vilnis和McCallum，2014）并表达自然的不对称性（Qian et al. 2021年），同时表现出更好的性别-并在数据稀缺的目标域中进行测试，其中i、j是不同标签的索引。以来CsCd=，这是非常具有挑战性的模型推广到看不见的测试标签。在N路K次设置中，在目标域C d=N中存在N个标签，并且每个标签与具有K个示例的支持集相关联。标记方案为了公平比较CON- TAI NER与以前的SOTA模型，我们遵循IO标记方案，其中I型表示+v：mala2277获取更多论文图2：我们提出的基于高斯嵌入对比学习的CONTAINER框架的说明：（i）使用训练NER标签PER和DATE在源域中进行训练，（ii）使用目标NER标签ORG和LOCATION微调目标域，（iii）通过最近邻支持集标签将标签转换为测试样本表示所有令牌都在实体内部，O型表示所有其他令牌（Yang和Katiyar，2020; Ding et al. ，2021年）。与SOTA模型在Few-NERD排行榜中进行比较（Ding et al. ，2021），我们adpot事件评估所做的作者。在这里，通过计算多个测试片段的微F1分数来评估模型。每一集由一个K-shot支持集和一个K-shot未标记查询（测试）集组成，以进行预测。虽然Few-NERD明确设计用于发作评估，但传统的NER数据集（例如，OntoNotes、CoNLL因此，从实际测试数据中采样测试事件会扰乱可能不代表实际性能的真实分布因此，Yang和Katiyar（2020）提出从原始开发集中采样多个支持集，并将其用于原始测试集中的预测。我们也将这种评估策略用于这些传统的NER数据集。3方法CONT AI NER利用对比学习来优化不同令牌实体表示之间的分布差异。这种对比不是专注于标签特定的属性，而是显式地训练模型来区分不同类别的标记。此外，本文还提出了一种改进的高斯嵌入方法，点表示有效地让CONTAI NER对实体类分布进行建模，这激发了令牌的广义表示。最后，它让我们仔细地微调我们的模型，即使是少量的样本，而不会过度拟合，这对于域适应来说是必不可少的。如图2所示，我们首先在源域中训练我们的模型接下来，我们使用少样本支持集来微调模型表示，以使其适应目标领域。CONTAI NER的训练和微调在算法1中示出。最后，我们使用实例级最近邻分类器进行测试集的推理。3.1模型图2显示了我们模型的关键组件。为了生成句子标记的上下文化表示，CONTAI NER结合了预训练的语言模型编码器PLM。为了与现有方法进行适当的比较，我们使用BERT（Devlinet al. ，2018）作为我们的PLM编码器。因此，给定n个令牌[x1，x2，. . . ，xn]，我们将PLM的最终隐藏层输出取为中间表示hi∈Rl′。[h1，h2，. . . ，hn]= PLM（[x1，x2，. . . ，x n]）（1）然后，这些中间表示通过简单的投影层进行改变，以生成嵌入。与Simplified不同（Chen etal. ，2020年），使用投影点嵌入进行对比学习，我们假设令牌嵌入+v：mala2277获取更多论文≈NN.Σ−XXNX∈X ∈ X2pQ如果模型没有关于目标的∈∈1遵循高斯分布。具体来说，我们使用投影网络fμ和fμ来生成高斯分布参数：exp（−d（p，q））/|Xp|（xq，yq）∈Xp（六）µi=fµ（hi），i= ELU（f（hi））+（1+）（2）l（p）=−log（xq，yq<$）∈X，p/=qexp（−d（p，q））其中μiRl，Rl×l表示平均值，分别为高斯嵌入的对角协方差（非零元素仅沿矩阵的对角线）; f µ和f被实现为ReLU，然后是单层网络; ELU为指数线性单元;和e−14为数值稳定性。3.2源域训练为了计算对比损失，我们考虑了样本批次中所有有效令牌对之间的KL分歧如果两个记号xp和xq具有相同的标号yp=yq，则它们被认为是正例.给定它们的高斯嵌入（μp，μp）和（μq，μq），我们可以计算它们的KL-发散如下：DKL[Nq|| Np]= DKL[N （ μq ， μq ） ||N（µp，μp）]= Tr（π−1π）这样我们就可以计算出分布的潜水员-该批次中所有标记对的gence（算法1：第7-10行）。我们不按Chen等人提出的任何归一化因子来缩放对比损失。（2020），因为我们没有发现它有利于优化。3.3使用支持集微调到目标域在源域中训练之后，我们使用少量目标域支持样本微调我们的模型，遵循与训练阶段类似的过程。由于我们只有几个样品进行微调，我们采取了一批。当多个少数拍摄样本（例如，5-shot）可用于目标类，该模型可以通过优化高斯嵌入的KL-散度来有效地适应新的域，如在Eq.四、相比之下，对于1次拍摄的情况下，它证明了具有挑战性的模型，以适应目标类分布。+（µp−µq）T−p1（µp−µq）l +log|布吕普||格|(3)由于目标类的分布（来自直接训练或间接来自源域训练，其中目标类实体被标记为O型），单个示例可能不足以推导出目标类分布的方差因此，对于1次拍摄场景，我们优化DJ（p，q）=||µp−µq||2、平方KL发散的两个方向都被计算，因为它不是对称的。1d（p，q）=（D KL[N|| N]+ DKL[N|| N]）2嵌入分布的平均值之间的欧氏距离当模型具有关于所涉及的目标类的直接/间接先验知识我们仍然优化了分布的KL散度2qpp q(4)类似于五枪的场景。我们首先在具有训练数据树的资源丰富的源域中训练我们的模型。在每个训练步骤中，我们从批量大小为b的训练集中随机抽取一批序列（没有替换）tr。对于每个（xi，yi），我们得到了它的Gaus sian嵌入（µi，i）通过将对应的令牌序列引导通过模型（算法1：第3-6行）。我们找到样本p的批内正样本p，然后计算xp相对于批内所有其他有效令牌的高斯嵌入损失：Xp={（x q，y q）∈ X |y p= y q，pq}（5）我们在表7中证明，使用平方欧几里德距离进行优化，在1次拍摄场景中可以获得更尽管如此，在所有具有5次拍摄支持集的情况下，优化高斯嵌入之间的KL散度可以为我们提供最佳结果。早期停止微调与一个小的支持集运行过拟合的风险，并没有访问一个举行了验证集，由于在目标域中的数据稀缺，我们不能保持对饱和点，我们需要停止微调标签。为了缓解这种情况，我们依赖于计算出的对比损失，并将其作为我们的早期停止标准，耐心为1。（算法1：第16-17行，第24行）+v：mala2277获取更多论文XXΣX ∈ XX ∈ XX ∈ XX ∈ XLLLLX ∈ XL我11：更新|X|i∈X我我X∈X∈X算法1：CONTAI NER的训练和微调要求：培训数据tr、支持数据sup、培训损失函数dtr、微调损失函数dft、fµ、f、PLM1：//在源域2：对于采样（无替换）小批量TRDO3：对于所有i （xi，yi），4：μi=fμ（PLM（xi））//[等式[1]5：Eli = ELU（f|（PLM（xi）+（1 + g）//[等式二、6：结束7：对于所有i （xi，yi）做8：如等式中计算l（i）。 5和69：结束10： Ltr=1l（i）数据集域#类发送数量OntoNotes一般1876KI2B2'14医疗23140KCoNLL'03新闻420KWNUT'17社会65K胶混合113.5KFEW-NERD维基百科66188千表1：数据集维特比解码大多数以前的作品（侯等人。，2020; Yang and Katiyar，2020; Ding etal. 、fµ、f、PLM12：结束13：//对目标域进行Ltr使用CRF（Laffe et al. ，2001），其移除错误预测以改进性能。因此14：Lprev=∞15：Lft=Lprev−1//Stable我们还采用维特比解码的推理16：当ft<普雷夫杜17：prev=ft18：对于所有i （xi，yi）supdo19：使用等式计算µi和i一、二20：结束21：对于所有i （xi，yi），22：如等式中计算l（i）。 5和623：结束//第4，5阶段与抽象的过渡分布，如StructShot（Yang和Katiyar，2020）。对于转换概率，通过计算它们在训练集中的出现来估计三个抽象标签O、I和I-other然后，对于目标域标签集，这些转换概率24：Lft=1l（i）|X超级|i∈X25：通过反向传播更新fμ，fμ，PLM，以减少ft第26章：结束27：返回PLM并丢弃fµ，f3.4实例级最近邻推理在分别用训练数据和支持数据对网络进行训练和微调之后，我们提取预训练的语言模型编码器PLM用于推理。类似于Simplified（Chen etal. ，2020），我们发现投影层之前的表示实际上包含比最终输出表示更多的信息，这有助于更好的性能，因此fµ和f投影头不用于推理。因此，我们从PLM计算测试数据的表示，并找到用于推断的最近邻支持集表示（Wang et al. ，2019; Yang and Katiyar，2020）.每个sup的PLM表示hsup能力被均匀地分配到相应的目标分布中。从最近邻推断阶段计算发射概率。将域转移结果（表3）与其他任务（表2、4、5）进行比较，我们发现，有趣的是，如果测试数据中没有涉及显著的域转移，则对比学习允许CONTAINER自动提取标签依赖性，从而避免了额外的Viterbi解码阶段的要求。4实验设置为了评估，我们使用跨不同领域的数据集：通用（ OntoNotes 5.0 （ Weischedel et al. ，2013））、医学（I2B2（Stubbs和Uzuner，2015 ））、新闻（ CoNLL'03 （ Sang 和 DeMeulder ， 2003 ））、社会（ WNUT'17（Derczynski等人，2013））、医学（I2B2（Stubbs和Uzuner，2015））、新闻（CoNLL'03 （ Sang 和 De Meulder ， 2003 ））、社会（WNUT'17（Derczynski等人，2013））、社会（ WNUT'17 （ Derczynski 等人，2013））。，2017））。我们还测试了GUM（Zeldes，2017），它代表了各种各样的文本：访谈，新闻文章，工具文本和旅游指南。域的混杂使其成为一个挑战-端口令牌supJsup正在创建要处理的数据集 Ding等人（2021）争论（x j ，y j ）可以如Eq. 1.一、同样，对于测试数据测试，我们得到PLM表示h测试，其中x测试test. 在这里，我们为xtest分配与PLM表示空间中最近的支持令牌相同的标签：这些数据集的分布可能不适合于少镜头能力的适当表示。因此，他们提出了一个新的大规模数据集Few-NERD，其中包含66个细粒度实体和8个粗粒度实体，比以前的数据集丰富得概通过反向传播来减少2021）注意到我们的性能改进-+v：mala2277获取更多论文我supsupsup要y测试=arg min测试超级2（七）这些数据集在表1中给出。yk其中（xk ，yk）∈Xsup+v：mala2277获取更多论文1发5发Proto28.5± 9.2 27.3± 12.3 21.4± 9.7 25.7 44.0± 2.151.6±5.9 47.6 ±2.8 47.7StructShot 30.5± 12.328.8± 11.2 20.8± 9.9 26.7 47.5± 4.053.0±7.9 48.7 ±2.7 49.8容器32.2± 5.3 30.9± 11.632.9± 12.7 32.0 51.2± 5.955.9±6.2 61.5± 2.7 56.2+维特比32.4 ± 5.130.9±11.633.0± 12.832.151.2±6.056.0 ±6.261.5± 2.756.2表2：OntoNotes上标签集扩展中的F1分数。组A、B、C是实体类型的三个不相交的集合。结果与Yang和Katiyar（2020）相比略有不同，因为他们使用了与我们不同的支持集样本（公开1发5发I2B2 CoNLL WNUT GUM平均值I2B2 CoNLL WNUT GUM平均值前13.4± 3.0 49.9± 8.6 17.4± 4.9 17.8± 3.524.617.9±1.861.3±9.122.8±4.519.5 30.4±NNShot 15.3± 1.661.2±10.422.7±7.410.5±2.927.422.0±1.574.1±2.327.3±5.415.91.8 ± 34.8StructShot 21.4± 3.862.4±10.524.2± 8.0 7.8± 2.1 29.030.3±2.174.8±2.430.4±6.513.3±1.3 37.2容器16.4± 1.757.8±10.724.2±2.917.9±1.829.124.1±1.972.8±2.027.7±2.224.4±2.237.3+维特比21.5±1.761.2± 10.727.5±1.918.5 ±4.932.236.7 ±2.175.8 ±2.732.5 ±3.825.2 2.7±42.6表3：以OntoNotes作为源域的域扩展中的F1分数。结果与Yang和Katiyar（2020）相比略有不同，因为他们使用了与我们不同的支持集样本（公开不可用）基线我们比较了CONTAI NER与最先进的Few-Shot NER模型在几种设置的不同数据集我们首先在Yang和Katiyar（2020）提出的标签集扩展和域转移任务中测量传统NER数据集的模型性能然后，我们在Few-NERD中评估我们的模型（Dinget al. ，2021）数据集，并将其与Few- NERD排行榜基线进行比较。类似于Ding et al. （2021），我们采用基于原型网络的Pro-toBERT（Snell et al. ，2017; Fritzler etal. ，2019; Hou et al. ，2020年），基于最近邻的度量方法NNShot，利用嵌入空间中类内样本的局部性，以及额外的基于Viterbi解码的Structshot（Yang和Kati-yar，2020年）作为主要SOTA基线。4.1标记集扩展设置Few-Shot NER的一个常见用例是新的实体类型可能出现在同一个现有的文本域中。因此（Yang和Katiyar，2020）提出使用OntoNotes（Weischedel et al. ，2013）数据集。现有的18个实体类分为三组：A、B和C，每组有6个类。在样本支持集较少的各组中测试模型，而在其余两组中训练模型。在训练过程中，所有测试组实体都被替换为O标记。由于源域和目标域是相同的，因此训练阶段将引入一些关于看不见的目标实体的间接信息。因此，在微调期间，的CONTAI NER，我们优化输出嵌入之间的KL-发散，如在Eq. 四、我们使用相同的实体类拆分正如Yang和Katiyar（2020）所使用的那样，并使用基于bert的cased作为所有模型的骨干编码器由于许可的原因，他们不能共享抽样的我们在表2中显示了这些结果。我们看到，在不同的实体组中， CONTAI NER 的表现优于目前的SOTA高达12.75绝对F1点，这是性能的实质性改善4.2域名转移设置在这个实验中，在源域上训练的模型被部署到以前看不见的新文本域。在这里，我们将OntoNotes（通用）作为我们的源文本域，并评估 I2 B2 （医疗）， CoNLL （新闻），WNUT（社交）域中的Few-Shot性能（Yang和Katiyar ， 2020 ）。我们还评估了 GUM（Zeldes，2017）数据集的性能，因为它特别具有挑战性。我们在表3中显示了这些结果。虽然所有其他领域与OntoNotes几乎没有交集，但 CoNLL 中的目标实体完全包含在OntoNotes实体中，这使其与监督学习相当。4.3少NERD设置对于少数镜头设置，丁等人。（2021）提出了两种不同的设置：Few-NERD（IN-TRA）和Few-NERD（INTER）。在少数NERDA组B组C组Avg.A组B组C组Avg.19.3 ±3.922.7 ±8.918.9 ±7.920.330.5 ±3.538.7 ±5.641.1 ±3.336.7+v：mala2277获取更多论文∼模型5路10路平均值1×2杆5分10秒 1张2张5张10张结构镜头ProtoBERT35.9223.4538.8341.9325.3819.7626.3934.6131.6329.94NNShot31.0135.7421.8827.6729.08容器+维特比40.4340.4053.7053.7133.8433.8247.4947.5143.8743.86表4：FEW-NERD（INTRA）中的F1评分。模型5路10路平均值1×2杆5分10秒 1张2张5张10张结构射击57.3357.1649.4649.39 53.34ProtoBERT44.4458.8039.0953.9749.08NNShot54.2950.5646.9850.0050.46容器+维特比55.9556.161.8361.9048.3548.3657.1257.1355.8155.87表5：FEW-NERD（INTER）中的F1评分。（INTRA）训练集、开发集和测试集根据粗粒度类型进行划分。结果，属于People、Art、Product、MISC粗粒度类型的细粒度实体类型被放在训练集中，Event、Building粗粒度类型被放在开发集中，而ORG、BLOG被放在测试集中。因此，就粗粒度类型而言，train、dev和test set类之间没有重叠。另一方面，在Few-NERD（INTER）中，粗粒类型是共享的，尽管所有细粒类型相互不相交。由于共享粗粒度类型的限制，Few-NERD（IN-TRA）更具挑战性。由于任何模型的少镜头性能都依赖于采样的支持集，因此作者还为Few-NERD（INTRA）和Few-NERD（INTER）发布了训练，开发，测试分割。我们使用这些提供的数据集分割来评估我们的模型性能，所有模块都使用bert-base-uncased作为主干编码器。如表4和表5所示，CON-TAI NER在这两项测试中都在排行榜上建立了新的基准结果。5结果和分析我们谨慎地分析了我们模型的不同组成部分，并证明了在CONTAINER计划中所做的设计选择。我们还研究了第4节中讨论的结果，这些结果给出了一些关于一般少镜头NER的直觉。5.1总体结果表2-5表明，总的来说，在每一种情况下，CONTAI NER令人信服地优于所有其他基线方法。这种改进在具有挑战性的情况下尤其明显，在这种情况下，所有其他基线方法都表现不佳。例如，FEW-NERD（intra）（表4）是一个具有挑战性的场景，其中对应于训练集和测试集的粗粒度实体类型不重叠。因此，其他基线方法面临着巨大的性能打击，而CONTAINER仍然表现良好。在标签集扩展（表2）中，我们看到了类似的性能趋势- CONTAI NER在所有方面都表现良好。同样，在域转移到一个非常具有挑战性的看不见的文本域，如 GUM（Zeldes，2017）时，基线模型表现很差;但CONTAI NER 设法以显著的幅度持续优于SOTA模型更仔细地分析这些结果，我们注意到，虽然CONTAI NER在几乎所有测试中都超过了其他基线，但在5次测试中更为突出。显然，CONTAI NER能够更好地利用多个少量样本，这要归功于通过对比高斯嵌入优化进行的分布建模。在这种情况下，请注意，StructShot实际上在1次激发CoNLL结构域适应和12次激发FEW-NERD（INTER）病例中获得了略高的F1分数。在CoNLL中，目标类是训练类的子集，因此基于监督学习的特征提取器有望在预测中获得优势另一方面，Ding et al.（2021）仔细调整了基线的超参数，如Struct-Shot，以获得最佳性能。我们也可以以类似的方式提高性能，但是为了在不同的少数拍摄设置中实现模型的一致性然而，即使在这些情况下，CONTAINER也表现出相当的性能，同时在其他测试中表现出色。5.2培养目标传统的对比学习器通常优化点嵌入的余弦相似性（Chen et al. ，2020）。虽然这已经被证明在图像数据中工作得很好，但在更具有挑战性的NLU任务中，如Few- Shot NER，它提供了低于标准的性能。在OntoNotes标签集扩展中，我们比较了使用欧氏距离和余弦相似度的点嵌入与使用高斯嵌入和 KL- 发散的CONTAINER我们在附录中的表8中报告了这些性能。基本上，高斯嵌入导致在训练期间学习广义表示，这更适合于对少样本目标域进行微调在附录C中，我们通过比较t-SNE表示，+v：mala2277获取更多论文嵌入和高斯嵌入。5.3模型微调作为一个对比学习器，CONTAI NER可以利用极小的支持集，通过微调来改进其表示。为了仔细检查微调的效果，我们进行了一个案例研究，OntoNotes标签扩展任务使用PERSON，DATE ， MONEY ， EQUIPMENT ， FAC ，PRODUCT目标实体。W/O Finetuning W/Finetuning单次拍摄31.7632.905次射击56.9961.48表6：有和没有CONTAI NER的如表6所示，我们看到微调确实提高了少数拍摄性能。此外，在5炮预测中，微调效果更为显著，表明CONTAINER微调过程可以充分利用目标域中可用的少量样本。5.4建模标签重复性分析结果，我们观察到域转移（表3）从使用维特比解码中看到性能的一些良好增益。相比之下，标签集扩展（表2）和FEW-NERD（表4、5）从使用维特比解码几乎没有得到改进这表明了CONTAI NER的一个有趣特性在域转移过程中，文本域在训练集和测试集中没有重叠。因此，额外的Viterbi解码实际上提供了关于标签依赖性的额外信息，给我们带来了一些很好的改进。否则，训练域和目标域在标签集扩展和FEW-NERD中都有大量重叠因此，该模型可以间接地学习标签依赖，通过批内对比学习。因此，除非在目标文本域中存在显著的移位，否则即使不采用额外的Viterbi解码，我们也可以实现最佳性能6相关作品Meta Learning 通过匹配网络（ MatchingNetworks）在计算机视觉中普及了少镜头学习的想法（Vinyals et al. ，2016）。随后，原型网络（Snell et al. ，2017年），其中类原型表示是有学问的。根据最接近的原型给测试样品贴上标签后来，这项技术在其他领域也取得了成功。另一方面，Wang et al.（2019）发现简单的特征变换在少数拍摄图像识别中非常有效。这些基于度量学习的方法也被部署在不同的NLP任务中（Geng et al. ，2019; Bao et al. ，2020; Han 等人， 2018; Fritzler et al. ，2019）。对比学习通过将阳性样本与阴性样本进行对比来取得早期进展（ Hadsell et al. ， 2006;Dosovitskiy等人，2014; Wuet al. ，2018）。Chen等人（2020）通过改进对比学习的思想，并借助现代图像增强技术来学习鲁棒的特征集，提出了Simplified。Khosla et al.（2020）也利用这一点来提高监督学习的性能还探索了用于学习表示的批内负采样（ Doer-sch 和Zisserman ， 2017; Ye 等人， 2017 年）。，2019）。存储实例类表示向量是另一个流行的方向（Wu et al. ，2018; Zhuang et al. ，2019年;Misra和Maaten，2020年）。Vilnis和McCallum（2014）首先探索了将单词嵌入学习为高斯分布的想法尽管作者使用了基于RANK-SVM的学习对象而不是现代深度上下文建模，但他们发现在高斯空间中嵌入密度后来，Bojchevski和Günne-mann（2017）在图表示中利用了高斯嵌入。除了最先进的性能，他们发现高斯嵌入在归纳学习中非常有效，可以用很少的训练数据生成看不见的节点。此外，高斯Em-bedding之间的KL-发散允许明确考虑更好地表示包含、相似性或蕴涵的非对称距离（Qian et al. ，2021年），并保留单词之间的层次结构（Athiwaratkun和Wilson，2018年）。少镜头NER已建立的少镜头学习方法也已应用于命名实体识别。Fritzler等人（2019）利用亲典型网络（Snell等人，2017年，为少数民族。受简单特征提取器和最近邻推理的效力的启发（Wanget al. ，2019; Wiseman和Stratos，2019）在少数镜头学习中，Yang和Katiyar（2020）使用了超+v：mala2277获取更多论文用于少镜头NER的基于viewedlearner的特征提取器将其与抽象转换标签Viterbi解码配对，他们在少镜头NER任务中实现了当前的SOTA结果。 Huang等人（2020）提出了少镜头NER的噪声监督预训练。然而，这种方法需要访问大规模的噪声 NER 数据集，例如 WiNER（Ghaddar和Langlais，2017）进行监督预训练。承认不足和评价方案的差异少拍NER，丁等。（2021）提出了一个专门为这项任务设计的大规模数据集。 Wang等人（2021）探索了少射NER的模型蒸馏。但是，这需要访问大型未标记数据集以获得良好的性能。最近，基于提示的技术也在该领域中浮出水面（Cuietal. ，2021年）。然而，这些方法的性能在很大程度上依赖于所选择的提示符。正如作者所指出的，性能增量可能是巨大的（高达19%的绝对F1点），这取决于提示。因此，在没有大的验证集的情况下，它们的适用性在真正的少次学习中变得有限（Perez et al. ，2021年）。7结论我们提出了一个基于对比学习的框架CONTAINER，它对高斯嵌入进行建模，并优化了令牌间分布距离。这个广义的目标帮助我们建模类不可知的特征提取器，避免了以前的少镜头NER方法的陷阱。CONTAI NER还可以利用少样本支持数据来适应新的目标领域。在多个传统和最近的几次NER数据集中进行的广泛评估表明，CONTAI NER的性能始终优于之前的SOTA，即使在复杂的场景中也是如此。虽然我们研究了基于分布优化的对比学习在Few-Shot NER中的有效性，但研究其在其他领域的潜力也将特别有趣。确认我们感谢ACL Rolling Review评审员提供的有用反馈。我们还要感谢张楠、张然然和秋田昌丹对本文的深刻评论。道德声明通过CONTAI NER，我们利用基于高斯嵌入的对比学习实现了怎么--然而，总体性能与利用完整训练数据集的监督NER相比仍然相当低因此，它仍然没有准备好部署在高风险领域（例如医疗领域，I2B2数据集），在未来的研究中留下了很大的改进空间。引用本·阿西沃拉特昆和安德鲁·戈登·威尔逊2018.层次密度顺序嵌入。 arXiv 预印本 arXiv ：1804.09843。Yujia Bao ， Menghua Wu ， Shiyu Chang ， andRegina Barzilay. 2020年。具有分布特征的少样本文本分类在ICLR。亚历山大·波伊切夫斯基和斯蒂芬·古尼曼。2017年。图的深度高斯嵌入：通过排名的无监督归纳学习。arXiv预印本arXiv：1707.03815。TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton. 2020.视觉表征对比学习的一个简单框架。在ICML。崔乐阳、吴宇、刘健、杨森、张跃。2021.使用bart.arXiv预印本arXiv：2106.01760进行基于模板的命名实体识别。Leon Derczynski，Eric Nichols，Marieke van Erp，and Nut Limsopatham. 2017. wnut2017的结果分享了关于新的和新兴实体识别的任务。在第三届嘈杂的用户生成的文本研讨会论文集，第140Ja

下载后可阅读完整内容，剩余1页未读，立即下载