神经命名实体识别中的边界平滑技术：克服过度自信，提升模型校准

57 浏览量更新于2023-11-30 收藏 696KB PDF 举报

边界平滑

模型校准

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文命名实体识别中的边界平滑朱恩伟1，2 和Jinpeng Li1，2，1中国科学2中国科学院大学宁波生命健康产业研究院{zhuenwei,lijinpeng}@ucas.ac.cn摘要神经命名实体识别（NER）模型很容易遇到过度置信问题，这会降低识别性能和校正。受标签平滑的启发和NER工程中边界注释的模糊性的驱动，我们提出了边界平滑作为基于跨度的神经NER模型的正则化技术它将标注跨度中的实体概率重新分配给周围的实体概率。建立在一个简单但强大的基线上，我们的模型在八个著名的NER基准测试中取得了1进一步的实证分析表明，边界平滑有效地缓解了过度自信，改善了模型校准，并带来了更平坦的神经极小值和更平滑的损失景观。1介绍命名实体识别（ NER ）是自然语言处理（NLP）的基本任务之一，受到了广泛的研究。作为一种常见的设置，只有当一个实体的类型和两个边界完全匹配地面实况时，它才被认为是正确识别的。与实体类型相比，边界的注释更加模糊，更容易出错，并且会引起更多的不一致。例如，CoNLL 2003任务包含四种实体类型（即，人、地点、组织、杂项），这些很容易区分。然而，实体提及的边界可能是模糊的，因为“边界词”（例如，文章或修改器）。需要作出相当大的努力，逐案具体说明“黄金标准做法”。表1列出了CoNLL 2003年的一些例子。*通讯作者。1我们的代码可以在https://github.com/syuoni/eznlp上找到。文本边界词[2019 - 04 - 15][2019 - 04 -15][2019 - 04 - 05][2019 - 04 - 05][2019 -05 - 05][2019 - 05][2019 - 05 - 05][2019 -05][2019 - 0 [Harry Schearer]PERPerson title[[John Doe]PER，Jr.[PERName appositive表1：CoNLL 2003注释指南和潜在替代方案的示例。金色注释标记为蓝色[*]，而备选注释标记为红色[*]。注释指南。2此外，一些研究还报道，不正确的边界是实体识别错误的主要来源（Wang etal. ，2019;Eberts and Ulges，2020）.最近，基于跨度的模型在NER研究中越来越受欢迎，并取得了最先进的（SOTA）结果（Eberts和Ulges，2020; Yu et al. ，2020; Li等人，2021年）。这种方法通常枚举所有候选跨度并将其分类为实体类型（包括“非实体”类型）;注释的跨度是稀缺的，并且被分配以作为实体的这在相邻跨度的分类目标之间产生了明显的锐度，因此可能会困扰神经网络的可训练性。此外，经验证据表明，这些模型容易遇到过度自信的问题，即，预测实体的置信度远高于其正确性概率。这是一种错误校准的表现（Guo et al. ，2017年）。灵感来自标签平滑（Szegedy et al. ，2016;Müller等人，2019年），我们提出边界平滑作为基于跨度的神经NER模型的正则化技术。通过显式地从带注释的跨度中重新分配实体概率，2https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html。arXiv：2204.12031v1 [cs.CL] 2022年4月+v：mala2277获取更多论文对于周围的，边界平滑可以有效地减轻过度自信，并导致一致的更好的性能。具体来说，我们的基线采用了来自基础大小（768隐藏大小，12层）的预训练Transformer的上下文化嵌入，以及Yu等人提出的biaffine解码器。（2020年）。通过边界平滑，我们的模型在四个英文NER数据集（CoNLL 2003，OntoNotes 5，ACE 2004和ACE 2005）和两个中文 NER 数据集（ Weibo NER 和 ResumeNER）上的性能优于传统的SOTA，在另外两个中文NER数据集（OntoNotes 4和MSRA）上的性能也优于传统的SOTA这样广泛的实验支持我们提出的技术的有效性和鲁棒性。此外，我们还证明了边界平滑可以帮助训练好的NER模型保持校准，使得产生的置信度可以更好地表示预测实体的精度这对应于标签平滑对图像分类任务的影响（Müller et al. ，2019）。此外，可视化结果定性地表明，边界平滑可以导致更平坦的解决方案和更平滑的损失景观，这通常与更好的泛化和可训练性相关（Hochreiter和Schmidhu-ber，1997; Li et al. ，2018）。2相关工作命名实体识别主流NER系统被设计为识别平面实体并基于序列标记框架。Col-Lobert等人（2011）在基于神经网络的序列标签模型中引入了线性链连续随机场（CRF），可以对相邻标签之间的转移概率进行显式编码。许多研究人员遵循这项工作，并采用LSTM作为编码器。此外，字符级表示通常用于英语任务（Huang et al. ，2015; Lampleet al. ，2016; Maand Hovy，2016; Chiu and Nichols，2016），而词汇信息对汉语的NER有帮助（Zhang andYang ， 2018; Ma et al. ， 2020; Li 等人，2020a）。嵌套NER允许一个标记属于多个实体，这与普通序列标记框架相冲突 Ju等人（2018年）拟扁平实体。Li et al.（2020 b）将嵌套NER重新表述为机器阅读理解任务。Shen等人（2021）提出通过计算机视觉中广泛使用的两阶段对象检测方法来识别嵌套实体。近年来，出现了一系列关于基于跨度的模型的文献，这些模型与平面和嵌套实体兼容，并实现了SOTA性能（Eberts和Ulges，2020; Yu等人，2019）。，2020; Li等人，2021年）。这些模型通常枚举所有可能的候选文本跨度，然后将每个跨度分类为实体类型。在这项工作中，biaffine模型（Yu et al. ，2020年）被选择和重新实施，略有修改作为我们的基线，因为它的高性能和兼容性与边界平滑。此外，预训练的语言模型，也被称为语境化嵌入，也被广泛引入到NER模型中，并显着提高了模型性能（ Peters et al. ， 2018;Devlin et al. ，2019）。默认情况下，它们在我们的基线Szegedy等. （2016）提出了标签平滑作为正则化技术，以提高ImageNet上Inception网络的准确性。通过显式地为非真实标签分配一个小概率，标签平滑可以防止模型对预测过于自信，从而提高泛化能力。它被证明是标准交叉熵损失的有用替代方案，并且已被广泛采用以对抗过度自信（Zoph et al. ，2018; ChorowskiandJaitly，2017; Vaswani et al. ，2017），改进模型校准（Müller et al. ，2019），和去噪不正确的标签（Lukasik et al. ，2020）。我们提出的边界平滑技术适用于实体边界，而不是标签。这是由观察到实体边界更加模糊并且在NER工程中注释不一致所驱动的。3据我们所知，这项研究是第一个专注于NER模型的平滑正则化效果的研究。使用堆叠的LSTM-CRF来预测从内部到外部实体。Straková等人。（2019）将嵌套实体内每个令牌的BILOU标签连接起来，这使得LSTM-CRF可以像[3]我们注意到，Shen et al.（2021）也为非实体但部分匹配的跨度分配了权重;然而，边界平滑还正则化了实体跨度的权重，这对于减轻过度自信至关重要。+v：mala2277获取更多论文∈∈∈∈ΣIJ−≤3方法3.1双仿射解码器基于神经网络的NER模型通常将输入标记编码为表示序列x=x1，x2，. . .，xT，然后将这些表示解码为任务输出，即，由类型和边界指定的实体列表我们遵循Yu et al.（2020）并使用biaffine解码器。具体地，表示x分别由两个前馈网络仿射01234开始56789012345678 9得到两个表示hs∈RT×d，heRT ×d，对应于开始和跨度的端部位置。对于c个实体类型（包括端(a) 硬边界0123sTe s e4rij=（ hi）Uhj+W（hi<$hj<$wj−i）+b，（1）开始5其中wj−i∈Rdw是来自专用可学习矩阵的第（ j−i）宽度嵌入; U ∈Rd×c×d ， WRc× （ 2d+dw），bRc是可学习的参数。然后将Rij馈送到softmax层：6789012345678 9y=softmax（rij），（2）其产生所有实体类型上的预测概率。地面真值yijRc是一个独热编码的vector，如果索引与注释的实体类型相对应，则值为1因此，可以通过所有候选跨度的标准交叉熵损失来优化模型：端(b) 平滑边界图1：硬边界和平滑边界的示例. 例句有十个标记和两个跨度为（1，2）和（3，7）的实体，分别用红色和蓝色着色。第一子图呈现硬边界的实体识别目标第二子图呈现了平滑边界的对应目标，其中跨度（1，2）以大小1被平滑，并且跨度（3，7）以大小2被平滑。LCE=−0≤i≤j TyTlog g（yi j）.（三）完全有可能是一个实体，而所有在推理时间内，被预测为“非实体”的跨度首先被丢弃，并且剩余的跨度根据其预测置信度进行排名。如果置信度较低的跨度与置信度较高的跨度的边界冲突，也将被丢弃。更多详情请参阅Yu et al.（20203.2边界平滑图1a可视化了具有两个注释实体的示例句子的基础事实yij有效的候选跨度覆盖矩阵的上三角区域。在现有的NER模型中，标注的边界被认为是绝对可靠的。因此，每个带注释的范围都被分配未注释的跨度被分配零概率。我们将这种概率分配称为硬边界，但这可能不是最佳选择。如前所述，实体边界可能是模糊的和不一致的，因此围绕注释的一个的跨度应该有小的概率是实体。图1b显示了yi j，即y ij的边界平滑版本。具体地说，给定一个注释实体，概率1的一部分被分配给它周围的跨度，剩余的概率1被分配给最初注释的跨度。使用平滑大小D，到注释实体的曼哈顿距离为d（dD）的所有跨度平均共享概率<$/D。后+v：mala2277获取更多论文ΣIJ在这种实体概率重新分配中，跨度的任何剩余概率被分配为我们称之为平滑边界。因此，双仿射模型可以通过边界平滑正则化交叉熵损失来优化：BiLSTM有一层和200个隐藏大小，丢失率为0.5。biaffine解码器遵循Yu et al. （2020），仿射层的隐藏大小为150，丢失率为0.2。我们还引入了一个跨度宽度嵌入大小25. 请注意，预训练的语言模型是所有的基本尺寸（768隐藏尺寸，12层），LBS=−0≤i≤j TyTlog g（yi j）.（四）并且该模型没有任何附加的辅助嵌入;这种配置相对简单，根据经验，阳性样品（即，地面实况实体）稀疏地分布在候选跨度上。例如，CoNLL2003数据集有大约3.5万个实体，在378万个候选跨度中仅占0.93%。通过明确地将概率分配给周围的跨度，边界平滑防止模型将所有概率质量集中在稀缺的正样本上。这直观地有助于缓解过度自信。此外，硬边界的分类目标之间的积极的跨度和周围的显着的锐度，虽然他们共享类似的上下文表示。平滑边界提供了跨跨度的更连续的目标，这在概念上与偏好连续解的神经网络的归纳偏差更兼容（Horniket al. ，1989）。4实验4.1实验设置数据集我们使用四个英文 NER 数据集：CoNLL 2003 （ Tjong Kim Sang 和 Veenstra ，1999 ）， OntoNotes 54 ， ACE 20045 和 ACE20056;和四个中国 NER 数据集： OntoNotes 47 ，MSRA（Levow，2006），微博NER（Peng和Dredze，2015）和简历NER（Zhang和Yang，2018）。其中，ACE 2004和ACE 2005是嵌套的NER任务，其余是扁平任务。对于英语语料库，我们使用RoBERTa（Liu etal. ，2019），随后是BiL-STM层以产生情境化表示。对于中文，我们选择用整词掩码预训练的BERT（Cui et al. ，2019）。4https://catalog.ldc.upenn.edu/LDC 2013 T19;数据分割遵循Pradhan等人（2013年）。5https://catalog.ldc.upenn.edu/LDC 2005 T09;数据分割遵循Lu和Roth（2015）。6https://catalog.ldc.upenn.edu/LDC 2006 T06;数据分割遵循Lu和Roth（2015）。7https://catalog.ldc.upenn.edu/LDC 2011 T03;数据分割遵循Che et al. （2013年）。与相关工作相比。在{ 0}中选择了边界平滑参数。1，0。2，0。3};平滑尺寸D选择在{1，2}。所有模型均由AdamW优化器（Loshchilov和Hutter ， 2018 ）进行训练， L2 范数为 5.0（Pascanu等人，2018年）。，2013）。这些模型被训练了50个epoch，批量大小为48。学习率在随机初始化的权重上在1 e-3和3e-3之间搜索，在预训练的权重上在8 e-6和3e-5之间搜索;在前20%的步骤中应用线性预热的调度器，然后是线性衰减。如果预测的实体的类型和边界与地面实况完全匹配，则该实体被认为是正确的。超参数根据开发集上的F1分数进行调优，评估指标（查准率、查全率、F1分数）在测试集上报告。4.2主要结果表2给出了对四个英文数据集的评价结果，其中CoNLL 2003和OntoNotes 5是平面NER语料库，而ACE 2004和ACE 2005包含高比例的嵌套实体。与以前的SOTA系统相比，我们的简单基线（Roberta-base+ BiLSTM +Biaffine）实现了同等或略差的性能。实验结果表明，在强基线条件下，边界平滑可以有效地提高不同数据集实体识别的F1得分。在边界平滑的帮助下，我们的模型比以前的SOTA系统的最佳值高出0.2到0.5个百分点。表3给出了四个中文数据集的结果，这些数据集都是平面NER语料库。同样，边界平滑一致地提高了所有数据集的基线模型性能（BERT-base- wwm + BiLSTM + Biaffine）。此外，我们的模型优于以前的SOTA+v：mala2277获取更多论文†††††2003年全国劳动力清单Peters等人（2018年）Akbik等人（2018年）- -93.07Devlin等人（2019年）- -92.8Straková等人（2019年）- -93.38Wang等人（2019年）- -93.43Li等人（2020年b）92.3394.6193.04Yu等人（2020年）93.793.393.5基线基线+BSOntoNotes 5模型预处理Rec.F1Chiu和Nichols（2016）86.0486.5386.28Li等人（2020年b）92.9889.9591.11Yu等人（2020年）91.191.591.3基线90.3192.1391.21基线+BS91.7591.7491.74ACE 2004模型预处理Rec.F1Li等人（2020年b）ACE 2005Li等人（2020年b）Yu等人（2020年）85.285.685.4Shen等人（2021年）86.0987.2786.67基线86.56基线+基本标准87.15表2：英文命名实体识别的结果。BS表示边界平滑。这意味着模型是用训练和开发分裂来训练的在微博和Re-BERNER数据集上分别提高了2.16 和 0.55 个百分点，在 OntoNotes 4 和MSRA上取得了相当的F1成绩请注意，几乎所有以前的系统都在序列标记框架内解决了这些任务;这项工作通过引入基于跨度的方法并在多个中国NER基准上建立SOTA结果来增加文献。在上述八个数据集中的五个数据集中，集成边界平滑显著提高了准确率，召回率略有下降，从而获得更好的整体F1分数。这与我们的预期一致，因为边界平滑OntoNotes 4Li等人（2020年a）--81.82Li等人（2020年b）82.9881.2582.11陈和孔（2021）79.25 80.6679.95Wu等人（2021年）--82.57基线82.03基线+基本标准82.83MSRA模型精确度Rec.F1张和杨（2018）93.5792.7993.18Ma等人（2020年）95.7595.1095.42Li等人（2020年a）––96.09Li等人（2020年b）96.1895.1295.75Wu等人（2021年）––96.24基线95.8295.7895.80基线+BS96.3796.1596.26微博NER模型精确度Rec.F1张和杨（2018）––58.79Ma等人（2020年）––70.50Li等人（2020年a）––68.55Shen等人（2021年）70.1168.1269.16陈和孔（2021）––70.14Wu等人（2021年）––70.43基线68.6574.4071.41基线+BS70.1675.3672.66简历NER模型精确度Rec.F1张和杨（2018）94.8194.1194.46Ma等人（2020年）96.0896.1396.11Li等人（2020年a）--95.86Wu等人（2021年）--95.98基线96.34基线+BS96.66表3：中文命名实体识别的结果。BS表示边界平滑。在识别实体时不鼓励过度自信，这隐含地导致模型建立更关键的阈值来接纳实体。如果使用预先训练好的语言模型，大多数性能增益相对来说是微不足道的。然而，边界平滑可以有效地和一致地适用于不同的语言和数据集。此外，它很容易实现并集成到任何基于跨度的神经NER模型中，几乎没有副作用。4.3消融研究我们对 CoNLL 2003 、 ACE 2005 和 ResumeNER数据集（包括模型精确度Rec.F1Lample等人（2016年）––90.94Chiu和Nichols（2016）†91.39–91.85–91.6292.22模型精确度Rec.F1张和杨（2018）76.3571.5673.88Katiyar & Cardie（2018）73.671.872.7Straková等人（2019）†–85.05–86.3284.4085.98Yu等人（2020年）87.386.086.7Shen等人（2021年）87.4487.3887.41基线87.54基线+基本标准87.98模型精确度Rec.F1Katiyar & Cardie（2018）70.670.470.5Straková等人（2019）†–87.16–86.5984.3386.88+v：mala2277获取更多论文关于我们+ BS93.65BS（g= 0.1，D= 2）93.4587.15 96.33表4：平滑参数的消融研究。报告F1分数BS和LS分别表示边界平滑和标签平滑平面/嵌套和英文/中文数据集），以评估边界平滑参数和D的效果，以及我们的NER系统的其他组件。边界平滑参数我们使用0. 1，0。2，0。3和1、2中的D;相应的结果报告在表4中。两个超参数的大多数组合可以实现比基线更高的F1分数，这表明边界平滑的鲁棒性。另一方面，最佳平滑参数在数据集之间是不同的，这可能与文本的语言/域、实体类型和注释方案（例如，平坦或嵌套NER）。因此，如果在实践中希望新的NER任务具有最佳性能，则需要进行超参数调整。标签平滑我们在跨度分类器中用标签平滑代替边界平滑与基线相比，拉贝尔平滑不能改善，甚至可能损害模型的性能（见表4）。如上所述，我们假设典型实体类型之间的语义差异非常明显，因此在它们之间进行平滑是无效的。预训练语言模型我们测试通过边界平滑获得的每单位增益是否对不同的基线具有对于英语数据集，我们使用BERT（Devlin et al. ，2019）的基础和大尺寸，和RoBERTa（刘等。，2019）的大尺寸（1024隐藏尺寸，24层）。结果表明，边界平滑可以使CoNLL2003和ACE 2005的F1分数分别增加0.1- 对于中文，我们使用MacBERT（Cui et al. 、基线w/MacBERT-base 96.41+ BS96.75基线w/MacBERT-大号96.46+ BS96.75基线（不含BiLSTM）93.1386.2296.24+ BS93.3086.5896.56表5：模型结构的消融研究。报告F1BS表示边界平滑。2020）的基础和大尺寸，边界平滑仍然表现积极和一致，与简历NER的0.2-0.3%的F1分数的改善（见表5）。值得注意的是，边界平滑实现的性能增益大致相当于将预训练语言模型从基本大小切换到大大小的增益。这表明，边界平滑的效果是相当可观的，虽然性能的改进似乎在幅度上很小。此外，我们的研究结果表明，RoBERTa大大优于原来的BERT英语NER。这可能是因为（1）RoBERTA是在更多的数据上训练的;(2)RoBERTa专注于令牌级任务（即，掩蔽语言建模）通过去除序列级目标（即，下一个句子预测），因此，它特别适合于序列内下游任务，例如，NER。这也是为什么我们选择罗伯塔作为我们的基线的原因BiLSTM层我们删除了BiLSTM层，直接将预训练语言模型的输出输入到biaffine解码器中结果表明，这不会改变边界平滑的积极效果（见表5）。此外，缺少BiLSTM层将导致三个数据集的 F1分数下降约0.3%，0.5%和0.1%2003年全国劳动力清ACE2005简历NER2003年全国劳动力清ACE2005简历NERBS（g= 0.1，D=1）93.5086.6596.63BS（g= 0.2，D=1）93.5686.9696.66基线（带BERT底座）91.8484.51基线，带BERT-大号92.9285.83+ BS93.0886.33基线w/RoberTa-大号93.6687.82+ BS93.7788.02BS（g= 0.2，D=2）93.3986.9996.62BS（g= 0.3，D=2）93.5786.7196.28LS（α= 0.1）93.4386.3196.31LS（α= 0.2）93.3786.1796.38+v：mala2277获取更多论文= 0.0，ECE =0.063= 0.1，ECE =0.034= 0.2，ECE == 0.3，ECE =0.1555进一步深入分析5.1过度自信与实体校准模型性能（例如，accu- racy或F1分数）当然是重要的。然而，模型预测的置信度在许多应用中也是令人感兴趣的。例如，当它要求预测实体高度可靠时（即，精确度比召回度更优先），我们可以过滤掉具有低于特定阈值的置信度的实体然而，Guo et al. （2017）指出，现代神经网络校准不良，并且通常对其预测过于自信。所谓校准，是指模型产生的预测置信度能够代表真实正确概率的程度。我们发现神经NER模型也很容易变得错误和过度自信。我们观察到，在标准交叉熵损失的情况下，发展损失和F1分数在训练后期都增加，这与通常认为的损失和F1分数应该向相反方向变化的看法相反这种现象类似于Guo等人描述的图像分类中的负似然性和准确性之间的脱节。（2017年）。我们假设模型对它的预测变得过于自信，包括不正确的预测，这导致了损失的增加（更多细节见附录A）。正式调查过度自信是-1.00.80.60.40.20.01.00.80.60.40.20.0= 0.0，ECE = 0.072= 0.1，ECE = 0.013= 0.2，ECE = 0.061= 0.3，ECE = 0.1580.0 0.2 0.4 0.6 0.81.0信心(a) 2003年全国劳动力清单0.0 0.2 0.4 0.6 0.81.0信心(b) OntoNotes 5因此，我们绘制了可靠性图，并计算了预期校准误差（ECE）。简而言之，对于NER模型，我们将所有预测实体按相关置信度分组为10个bin，然后计算每个bin的准确率如果模型经过良好校准，则精密度应接近每个分组的置信水平（更多详细信息请参见附录B图2比较了CoNLL 2003和OntoNotes 5上具有不同平滑度的模型之间对于基线模型（ε=0），精确率远低于相应的置信水平，表明显著的过度自信。通过引入边界元平滑并增加平滑度，过度置信逐渐减轻，并转移到欠置信（k= 0.3）。一般情况下，模型给出最佳可靠性图时，0.2. 此外，基准模型的ECE为在CoNLL 2003和OntoNotes 5上，分别为0.072和0.063;当k = 0.1时，ECE降低图2：CoNLL 2003和OntoNotes 5上已识别实体的可靠性图。结果在十个箱上计算。到0.013和0.034。总之，边界平滑可以防止模型对预测实体变得过于自信，并导致更好的校准。此外，如前所述，如果在解码时具有较低置信度的跨度与具有较高置信度的跨度冲突，则丢弃具有较低置信度的跨度通过更好的校准，该模型可以获得F1分数的非常微小但一致的增加5.2损失景观可视化边界平滑如何提高模型性能？我们最初证明边界平滑可以对不一致的注释实体边界进行降噪（Lukasik et al. ，2020年），但未能找到足够的证据精度精度+v：mala2277获取更多论文10001000100080080080060060060040040040020020020001.0 0.5 0.0 0.51.001.0 0.5 0.0 0.51.001.0 0.5 0.0 0.5 1.0(a) CoNLL 2003，CE（b）CoNLL 2003，BS（g= 0.1）（c）CoNLL 2003，BS（g= 0.2）10001000100080080080060060060040040040020020020001.0 0.5 0.0 0.51.001.0 0.5 0.0 0.51.001.0 0.5 0.0 0.5 1.0(d) OntoNotes 5，CE(e) OntoNotes 5，BS（g=0.1）(f) OntoNotes 5，BS（g= 0.2）图3：CoNLL 2003和OntoNotes 5上损失景观的可视化。培训、开发和测试损失分别用橙色、绿色和红色表示。CE和BS分别表示交叉熵和边界平滑。当我们将边界噪声注入训练数据时，性能改善并没有显著8如前所述，正样本在候选跨度中在没有边界平滑的情况下，带注释的跨度被认为是具有全概率的实体，而所有其他跨度被分配有零概率。这在标注的跨度和周围的目标之间产生了明显的锐度边界平滑跨连续跨度重新分配实体概率，这减轻了尖锐性并导致更连续的目标。从概念上讲，这样的目标更适合于偏好连续解的神经网络的归纳偏差（ Hornik et al. ，1989）。Li等人（2018）已经表明，剩余连接和良好调整的超参数（例如，学习率、批量大小）可以产生更平坦的最小值和更少的混乱损失景观，这说明了更好的泛化性和可训练性。他们的发现提供了重要的见解，8另一方面，这不能排除边界平滑的去噪效果，因为合成的边界噪声与真实噪声的分布不同。非凸神经损失函数的性质图3显示了在Li等人（2018）之后，CoNLL2003和OntoNotes 5上具有不同平滑度的模型的损失景观简而言之，对于训练模型，参数的方向被随机采样、归一化和固定，并且损失景观通过在该方向上采样来计算（更多细节请参见附录C可视化结果定性地表明，标准交叉熵的解决方案是相对尖锐的，而边界平滑可以帮助达到更平坦的最小值。由于许多理论研究将平坦性视为模型推广的有希望的预测器（Hochreiter和Schmidhuber，1997; Jiang等人，2005），因此，平坦性是一个非常重要的参数。，2019），这一结果可以解释为什么边界平滑可以提高模型性能。此外，边界平滑与更平滑的地貌相关联直觉上，这种几何性质表明潜在的损失函数更容易训练（Liet al. ，2018）。我们认为，基于跨度的NER目标的尖锐性可能是尖锐的原因，+v：mala2277获取更多论文和混乱的损失情况。边界平滑可以有效地缓解图像的尖锐性，从而得到具有较好泛化能力和可训练性的丢失图像.6结论在这项研究中，我们提出边界平滑作为基于跨度的神经NER模型的正则化技术。边界平滑重新分配从注释跨度到周围跨度的实体概率。它可以很容易地集成到任何基于跨度的神经NER系统中，但始终带来更好的性能。我们的模型建立在一个简单但强大的基线上（一个基本大小的预训练语言模型，后面是BiLSTM层和双仿射解码器），在八个著名的NER基准测试上实现了SOTA结果，涵盖了英语和汉语，平面和嵌套的NER任务。此外，实验结果表明，边界平滑导致更少的过度自信，更好的模型校准，更平坦的神经极小值和更平滑的损失景观。这些属性合理地解释了性能的改善。我们的研究结果揭示了平滑正则化技术在NER任务中的作用如前所述，边界平滑通常会增加整体F1分数，但召回率会略有下降;因此，对于召回敏感的应用程序，使用它时未来的工作将边界平滑应用到更多基于跨度的NER模型的变体中，并研究其在更广泛的信息提取任务中的效果。确认我们感谢Yiyang Liu在数据处理方面所做的努力，以及匿名评论者的深刻评论和反馈。本课题得到了国家自然科学基金项目（No.62106248）、宁波市科技服务业示范项目（No.2020F041）、宁波市公共服务技术基金项目（ No.20106248 ）的资助。2021S152）。引用艾伦·阿克比克邓肯·布莱斯和罗兰·沃勒。2018. 用于序列标记的上下文字符串嵌入。第27届国际计算语言学会议论文集，第1638-1649页，美国新墨西哥州圣达菲。计算语言学协会。放大图片作者：Wanxiang Che，Mengqiu Wang，Christopher D.曼宁，刘婷。2013. 具有双语约束的命名实体识别。在计算语言学协会北美分会2013年会议的会议记录中，第52-62页计算语言学协会。陈春和方空。2021. 增强实体边界检测以提高中文命名实体识别率。在第59届计算语言学协会年会和第11届自然语言处理国际联合会议（第2卷：短文）的会议记录中，第20计算语言学协会Jason P.C. Chiu 和 Eric Nichols 。 2016. 使用双向LSTM-CNN进行命名实体识别。计算语言学协会的翻译，4：357Jan Chorowski和Navdeep Jaitly。2017.在序列到序列模型中实现更好的解码和语言模型集成。在INTERSPEECH 2017中，第523Ronan Collobert 、 Jason Weston 、 Léon Bottou 、Michael Karlen 、 Koray Kavukcuoglu 和 PavelKuksa。2011.自然语言处理（几乎）从零开始。Journal of Machine Learning Research ， 12（ARTICLE）：2493-2537.崔一鸣，车万象，刘婷，秦冰，王世进，胡国平.2020. 再论汉语自然语言处理的预训练模型。在计算语言学协会的调查结果：EMNLP 2020，第657-668页，在线。计算语言学协会。Yiming Cui，Wanxiang Che，Ting Liu，Bing Qin，Ziqing Yang ， Shijin Wang ， and Guoping Hu.2019.中文BERT的整词屏蔽预训练。arXiv预印本arXiv：1906.08101。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。Markus Eberts和Adrian Ulges。2020. 基于跨度的联合实体和关系提取与Transformer预训练。第24届欧洲人工智能会议论文集，圣地亚哥德孔波斯特拉，西班牙。郭川，普赖斯，孙宇，温伯格. 2017. 关于现代神经网络的校准。在第34届机器学习国际会议论文集，第70卷，+v：mala2277获取更多论文机器学习研究论文集，第1321-1330页。PMLR。Sepp Hochreiter和Jürgen Schmidhuber。1997.平坦极小值。Neural Computation，9（1）：1柯特·霍尼克，麦克斯韦·斯廷奇科姆，和哈伯特·怀特. 1989. 多层前馈网络是通用的逼近器。Neural networks，2（5）：359-366.黄志恒，徐伟，于凯。2015.用于序列标记的双向LSTM-CRF 模型。 arXiv 预印本 arXiv ：1508.01991。YidingJiang ， BehnamNeyshabur ， HosseinMobahi，Dilip Krishnan，and Samy Bengio. 2019.Fantas-tic推广措施和在哪里找到他们。arXiv预印本arXiv：1912.02178。Meizhi Ju，Makoto Miwa，and Sophia Ananiadou.2018. 嵌套命名实体识别的神经分层模型。在计算语言学协会北美分会2018年会议论文集：人类语言技术，第1卷（长文），第1446-1459页计算语言学协会。阿尔祖·卡蒂亚和克莱尔·卡迪2018. 重新审视嵌套命名实体识别。在计算语言学协会北美分会2018年会议的会议记录中：人类语言技术，第1卷（长纸），第861-871页，新奥尔良，路易斯安那州。计算语言学协会.纪尧姆·兰普尔，米格尔·巴列斯特罗斯，桑迪普·萨勃拉曼尼亚，川上和也，克里斯·戴尔.2016年。命名实体识别的神经架构。在计算语言学协会北美分会2016年会议的会议记录中：人类语言技术，第260-270页，加利福尼亚州圣地亚哥。计算语言学协会。吉娜·安妮·莱沃2006. 第三届国际汉语处理大赛：分词与命名实体识别. 第五届SIGHAN中文语言处理，第108-计算语言学协会。Fei Li ， Zhichao Lin ， Meishan Zhang ， andDonghong Ji.2021. 基于跨度的联合重叠和不连续命名实体识别模型。在Proceedings of the 59thAnnualMeetingoftheAssociationforComputationalLinguisticsandthe11thInternationalJointConferenceonNaturalLanguage Processing（Volume 1：Long Papers）中，第4814计算语言学协会。Hao Li ， Zheng Xu ， Gavin Taylor ， ChristophStuder，and Tom Goldstein.2018年可视化神经网络的损失景观。在第32届神经信息处理系统国际会议集，第6391Xiaonan Li，Hang Yan，Xipeng Qiu，and XuanjingHuang. 2020 年 a 。 FLAT ：使用扁平点阵Transformer的中文NER.在计算语言学协会第58届年会的会议记录中，第6836-6842页，在线。计算语言学协会。李小雅，冯景荣，孟

下载后可阅读完整内容，剩余1页未读，立即下载