利用专家指导的对抗性增强来提高命名实体识别的泛化能力

192 浏览量更新于2023-12-01 收藏 571KB PDF 举报

命名实体识别

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文利用专家指导的对抗性增强来提高命名实体识别的泛化能力Aaron Reich1，2，Jiaao Chen1，Aastha Agrawal1，Yanzhe Zhang1，DiyiYang11佐治亚理工2Pionetechs，Inc.{areich8，jchen896，aagrawal319，z_yanzhe，dyang888}@gatech.edu摘要命名实体识别（NER）系统通常在分布数据上表现出很好的性能，但在从移动分布中提取的示例上表现不佳。评估NER模型泛化能力的一种方法是使用对抗性示例，其中很少考虑与命名实体相关的特定变化。为此，我们建议利用专家指导的攻击来改变实体令牌及其周围的上下文，从而改变它们的实体类型作为对抗性攻击。使用专家指导的语义学，我们增强了CoNLL2003测试集，并手动注释它，以构建一个高质量的挑战集。我们发现，在CoNLL2003训练数据上训练的最先进的NER系统在我们具有挑战性的集合上每隔一段时间就急剧下降。通过在对抗性增强训练示例上进行训练并使用mixup进行正则化，我们能够显着提高挑战集的性能，并改善我们使用OntoNotes数据评估的域外泛化。我们已经在https://github.com/GT-SALT/Guided-Adversarial-Augmentation上公开发布了我们的数据集和代码。1介绍深度学习模型在许多自然语言处理（NLP）问题上取得了很大的成就（Bahdanau et al. ，2016; Devlinet al. ，2019）。然而，最近的许多工作表明，这些模型往往依赖于虚假的相关性，不一定是因果工件。因此，这些模型在分布内测试集上表现良好，但在分布外数据上可能表现出巨大的性能下降（例如，真实世界数据）（Tu et al. ，2020; Kaushikand Lipton，2018; Poliak et al. ，2018; Gururanganet al. ，2018; Zhang et al. ， 2019; Glockner et al. ，2018）。以前的作品已经构建了对基准的泛化的adversar- ial例子最先进的 NLP 模型对分布外示例的能力（ Kaushik et al. ， 2020; Zhanget al. ， 2019;Glockner et al. ，2018）。提出的方法，如随机字交换（Jin et al. ，2020年）和在文本末尾添加句子（Jia和Liang，2017年）没有考虑与命名实体相关的独特语言特性和变化。作为涉及实体的语义类别的分类组织，地点）（Nadeau和Sekine，2007年），净入学率仍然需要改进的基准，真正的泛化。以前的作品（Bernier-Colborne和Langlais，2020; Fu et al. ， 2020; Stanislawek et al. ，2019）已经表明，在不同场景中具有不同实体标签的词通常导致NER模型频繁发生错误。这在特定领域应用中可能尤其成问题，在这些领域中，这种挑战性情况是常见的。例如，在训练用于政治文本挖掘的NER模型时，区分克林顿（人）和克林顿基金会（组织）的类别是非常重要的。我们利用这一点作为设计专家指导的启发式语言模式的灵感，为NER创建高质量的对抗性数据集。利用这种专家指导的知识，我们提出了一个对抗性增强的自动化程序。我们使用这个自动化过程首先从测试数据中生成对抗性示例由于这些自动生成的对抗性示例中的一些可能在语法或语义方面缺乏质量，因此我们仅手动选择具有高质量的示例来验证具有挑战性的测试集。在这个具有挑战性的测试集上，最先进的NER系统的性能严重下降为了减轻这种退化，我们首先使用所提出的算法来增强训练示例（而无需手动过滤数据以获得质量），这被证明是有效的。我们进一步利用mixup（Zhanget al. ，2018; ChenarXiv：2203.10693v1[cs.CL] 2022年3月+v：mala2277获取更多论文等人，2020）作为正则化技术来内插原始示例和增强示例的表示，导致更平滑的决策边界和改进的泛化能力（Lee et al. ，2020; Wang等人，2021b）。2相关工作生成对抗性示例对抗性数据增强（Chen etal. ，2021）严重影响模型的预测，而不改变人类的判断。它被广泛用于测试模型的泛化能力（Wang 等人，2021a）。例如，Jia和Liang（2017）通过插入分散注意力的句子来欺骗阅读理解系统Belinkov和Bisk（2018）利用合成或自然的错别字来攻击基于字符的翻译模型。然而，很少有先前的作品已经探索了专门针对NER的对抗性示例 Gui等人（2021）通过连接句子、交换/插入/删除实体中的随机字符、与词汇表外实体的实体交换以及跨类别交换来执行增强。Zeng等人（2020）也采用了随机实体交换方法，但仅选择相同标签的实体在这项工作中，我们有目的地改变实体类型，通过添加/删除标记在预定义的单词短语集，并改变周围的上下文。对抗性训练和混淆提高模型在对抗性示例上的性能的一种方法是将对抗性示例纳入其训练（对抗性训练，Goodfellow et al. ，2014）。然而，这可能不会提高模型的泛化能力，因为模型仅学习专注于操纵的硬示例（Lee et al. ，2020）。一种解决方案是将mixup Zhang et al.（2018）与对抗训练（Lee et al. ，2020; Wang等人，2021b）。通过线性插值训练数据及其相关标签，mixup能够通过在这些插值数据点上进行训练来提高分类器在对抗训练的背景下，混合被利用来形成不同的对抗示例（Wang et al. ，2021b）和对抗性特征上的预防过拟合（Lee et al. ，2020），从而提高整体泛化能力。在这项工作中，我们使用mixup来插值原始示例和专家指导的对抗示例，以提高泛化能力的模型。3专家指导的Advertisement生成当前的NER模型通常处理一个实体经常被分配到相同标签的明确情况。通过使用重叠类别（Fu et al. ，2020），然后可以测试模型，以查看它们是否只学习令牌和标签之间的虚假相关性。对于通过改变实体类型来构造对抗性示例，我们定义了三个组件：（i）资格检查：我们只增加有资格改变其实体类型的(ii)实体令牌更改：通过添加或删除某些预定义的令牌，我们将原始令牌的实体(iii)EntityContext Change：为了处理二义性标记，我们进一步添加了一些对应于目标实体类型的预定义上下文注意，在不同场景中使用的预定义单词/短语/上下文形成不同的预定义单词短语集合，其中嵌入专家知识。在自动生成过程中，我们从相应的词短语集合中随机抽样。表1包含专家指导的对抗性增强的示例。下面定义了这三个组成部分，以便在向每种目标实体类型（组织、人员、地点）过渡时使用：对于向ORGANIZA-TION的转换，如果实体仅包含一个令牌（例如，在这种情况下，EntityTo- ken Change指的是在一些标记后面或之后插入经常使用的单词和短语，以形成一个组织（例如：在“巴西“之后加上这样的单词和短语形成一组大小为44的单词和短语，包括用于ORGANIZATION的实体上下文改变涉及在新形成的组织实体之后插入合适的上下文，诸如这样的短语形成大小为42的集合位置与转换到ORGA-NIZATION不同，我们希望确保LOCATION类型的增强实体是真实世界的位置。为了实现这一点，我们结合了killbility检查和实体标记更改：我们首先定义一个单词短语集，其中包含连接到某个位置时可能形成组织的单词和短语，例如+v：mala2277获取更多论文----过渡计数示例地点或人员→组织机构510每年，巴西有500名新的整形外科医生毕业，医学生来自世界各地的学生来这里学习。每年有500名新的整形外科医生从巴西大学毕业，来自世界各地的医学生来到这里学习。组织机构→位置99慕尼黑再保险公司说要分拆股票。放大：慕尼黑组织或位置→人员391原文：小马队尽管没有受伤，但还是赢了托尼的首发防守铲球西拉古萨，角卫雷布坎南和后卫昆廷科亚特。增强：小马队扎尔达里和她的球队赢得了胜利，尽管没有受伤的首发防守铲球托尼西拉古萨，角卫雷布坎南和后卫昆廷科亚特。表1：专家指导的过渡类型，用于产生NER的对抗性增强。原始实体用蓝色表示，实体标记更改用红色表示。实体上下文更改用棕色表示。请注意，实体上下文更改并不总是应用于到ORGANIZATION的转换。我们还提供了挑战集的统计数据。美国）。这样的短语形成一套大小82.然后，我们通过查找包含此类短语之一的组织实体来执行资格检查，并通过删除这些短语来更改其实体类型（例如，从 “MunichRe“中删除）. 实体上下文变更涉及在实体之后插入自然上下文，例如我们有16个这样的背景。与转换到ORGANIZA类似，如果实体仅包含一个令牌（例如“Colts“），则示例被认为有资格转换到PERSON在这种情况下，实体标记改变用于插入的这种预定义的主题形成大小为152的集合，包括诸如“Dutra“和“Martin“的示例然后，针对个人的实体上下文改变涉及在新形成的实体之后插入合适的上下文这样的短语形成大小为49的集合。我们在附录（表4）中提供了更多单词短语的示例，GitHub存储库包含完整的集合。请注意，自动增强的对抗性示例可能缺乏语义和语法质量。例如，可能存在语法问题，或者随机插入的上下文可能与当前上下文冲突。因此，我们只将它们用于对抗训练（第4节）。为了构建具有挑战性的测试集，我们从增强的测试数据集中手动选择高质量的示例（第 5.1节）。4混淆对抗性示例对抗性训练通过直接在广告上训练来提高模型然而，对抗性的例子，这样的训练可能会伤害泛化（Raghunathan et al. ，2019）或导致对抗特征的过度拟合（Lee et al. ，2020）（在我们的情况下是预定义的单词短语）。为此，我们利用 mixup （ Zhang et al. ， 2018; Verma etal. ，2019年），以减轻这些问题，并进一步提高泛化的基础上对抗训练（李等。，2020）。给定一对数据点（x，y）和（xJ，yJ），其中x表示数据点，y表示其在one-hot表示中的标签，mixup（Zhang et al. ，2018）通过数据及其标签的插值创建一个新的数据点，如下所示，λ来自beta分布：x=λx+（1−λ）xJ（1）y=λy+（1−λ）yJ（2）在这项工作中，（x，y）是一个适合启发式增强的训练示例，并与其启发式修改版本（xJ，yJ）配对。由于文本数据是离散的，不能在输入空间中混合，因此在隐藏空间中计算两个示例的插值。Chen et al. （2020），设hm=h1. hn是第m层之后的隐藏表示，其中它们是令牌表示的级联。原始示例中第m层处的每个令牌的隐藏表示hm用hmJ线性内插，h m j是增强示例中每个令牌的表示，比率为λ：hm=λhm+（1−λ）hmJ（3）然后hm被传递到第（m+1）层r，最终输出logit的标签以相同的比例混合m是从8，9，10中随机抽样的。混合参数λ从β分布中采样：λ<$B（α，β），其中α和β决定+v：mala2277获取更多论文beta分布的偏态在这项工作中，我们使用两种不同的beta分布来对λ进行采样。对于每对数据点，生成两个混合数据点。一个数据点更接近原始示例，另一个更接近对抗示例。更多详情请参见附录B5实验5.1数据集和预处理分销数据集（ ID ）我们使用 CoNLL 2003（Tjong Kim Sang和De Meulder，2003），采用Chen等人的BIO标记方案。（2020年）。为了在最近的基于 Transformer 的模型（如BERT）中使混淆成为可能，我们为特殊标记[SEP]、[CLS]和[PAD]指定了签名标签。默认情况下，所有模型都在ID训练集上进行训练我们在表2的第三列中报告了ID测试集的结果。挑战集（Challenge Set，CS）对于挑战集，由两名具有语言学背景并熟悉NER任务的研究生手工构造由专家引导的增广变换后目标是通过手动标记质量（高或低）并进行小的校正来构建仅包含高质量数据点的具有挑战性的测试集。在注释完整的增强数据集之前，他们对50个示例的样本大小进行了测试注释，然后，他们手动注释了完整的增强测试集，这导致了一组具有挑战性的1000个高质量数据点。除了在ID训练集上进行训练以及在ID测试集和挑战集上进行测试之外，我们还在域外数据集上进一步测试了我们提出的方法的少量泛化能力： OntoNotes （ Weischedelet al. ，2011 ）。在这种设置中，所有模型都从OntoNotes（Weischedel et al. ，2011）训练集（连同ID训练数据）。在训练之后，我们通过使用由OntoNotes测试集的50个示例组成的OOD测试集来测试它们的域外泛化所有数据点都必须遵循实体令牌占所有令牌的百分比大于49%的条件这个条件的目的是允许评估模型注意OntoNotes比CoNLL 2003有更细粒度的实体类别，因此我们将OntoNotes标签映射到CoNLL2003标签，以便数据与我们的模型兼容。5.2基线和模型设置我们训练了六种类型的模型：（1）BERTBase（De-vlin et al. ，2019）仅基于原始训练示例（BERT）的模型;（2）基于原始训练示例和用专家指导的对抗性推理增强的训练示例的BERT基础模型（BERT+AT）;（3）具有0.5的丢弃概率的BERT+AT模型（Hinton et al. （4）利用令牌感知虚拟对抗训练的BERT基础模型（TAVAT，Li和Qiu，2020），基于梯度的对抗训练技术（BERT + TAVAT）;(5) 一个 BERT Base 模型，使用 Gui 等人（2021）提出的基于文本的对抗性攻击进行训练，利用他们定义的NER变换（Ap-pencilC）（BERT + TextFlint）;（6）一个BERT Base模型，利用mixup将原始训练示例与专家指导的对抗性示例进行线性插值（BERT + AT +Mixup）。请注意，使用mixup的模型不会在更多的数据点上进行训练，因为给定一对数据点，会生成两个混合数据点（参见第4节）。为了测试使用所提出的对抗性增强的模型的泛化能力，我们改变了用于所提出的对抗性训练和TextFlint的对抗性增强示例的百分比（合格示例总数的 10% 、 30% 、 50% 和 100% ）（Gui et al. ，2021年）。我们还使用较小的预定义单词短语集来增加训练数据，排除了CS构建中使用的总单词短语的25%。5.3结果和分析CS如表2所示，BERT在CS上测试时具有显著的性能下降，并且先前的对抗训练方法未能提高CS上的性能，这证明了所提出的新挑战。毫不奇怪，BERT+AT可以显着提高模型如CS所示，消除混淆可以持续改善它虽然先前的对抗训练严重损害了模型+v：mala2277获取更多论文百分模型IDCSOODN/A伯特90.8271.8058.72N/ABERT + TAVAT91.8270.14-百分之十BERT + AT90.3786.1661.09BERT + AT+脱落90.184.9761.86BERT + AT+混合90.7988.7967.47BERT + TextFlint88.8554.0466.67百分之三十BERT + AT90.8486.4260.76BERT + AT+脱落90.9386.9161.6BERT + AT+混合90.8587.3069.46BERT + TextFlint89.7160.3265.88百分之五十BERT + AT90.8587.5062.18BERT + AT+脱落90.1988.8860.83BERT + AT+混合90.9288.0067.47BERT + TextFlint89.5553.4965.48百分百BERT + AT90.5287.7457.76BERT + AT+脱落90.1688.4560.25BERT + AT+混合90.5390.2167.07BERT + TextFlint87.3159.1269.05表2：原始CoNLL 2003测试集（ID）、拟定测试集（CS）和域外测试集（OOD）的F1评分。所有结果在3次运行中取平均值。'-'表示训练不稳定，导致模型崩溃。请注意，在第三和第四列中，模型是在CoNLL 2003训练数据（以及它们的增强版本，如果对抗训练可用）上训练的。在第五列中，模型是在CoNLL 2003训练数据和OntoNotes训练数据中的5次射击示例（以及它们的增强版本，如果对抗训练可用）上训练的。所提出的对抗性增强提供了。对于消融研究，我们进行了使用mixup插值ID训练数据点对的实验，并观察到与我们的方法相比存在很大的性能差距（参见附录中的图1这证明了混合原始示例和专家指导的对抗版本的策略OOD在少量泛化实验中，虽然原始BERT在OOD上表现不佳当有限的例子被增强时，BERT + AT的性能仅略优于BERT，这可能表明缺乏泛化是由于对所提出的增强进行了天真的对抗训练。然而，BERT+AT+Mixup显著提高了性能，表现为实现了最佳性能（69.46），同时在大多数设置中也优于除了学习更平滑的决策边界之外，我们还假设内插表示提高了对抗性示例表示的质量这个假设是基于这样一个事实，即增强的例子的质量有时是有限的。因此，在隐空间中对原始数据进行插值，有助于提高插值质量。6结论这项工作提出了一个专家指导的对抗性增强NER包括改变实体类型的战略选择和修改的令牌及其上下文。在CoNLL 2003上使用这种增强策略，并人工过滤生成的示例的质量，我们构建了一个高质量的挑战性测试集的NER任务。我们表明，SOTA NER systems遭受戏剧性的性能下降时，我们的挑战集进行评估。除了简单地使用所提出的增强进行对抗性训练之外，我们还证明了利用原始示例及其增强版本之间的混合可以在分布数据、具有挑战性的数据集以及对域外数据的少量泛化上优于最先进的基线。确认我们要感谢匿名评论者的有益评论，以及佐治亚理工学院SALT实验室的成员的反馈。+v：mala2277获取更多论文引用德米特里·巴赫达瑙，赵京铉，和尤恩·本吉奥.2016.神经机器翻译通过联合学习来对齐和翻译。Yonatan Belinkov和Yonatan Bisk。2018. 合成噪声和自然噪声都会破坏神经机器翻译。在国际学习代表会议上。Gabriel Bernier-Colborne 和 Phillippe Langlais2020年。HardEval：专注于挑战令牌以评估NER的鲁棒性。第12届语言资源与评估会议论文集，第1704-1711页，法国马赛。欧洲语言资源协会。Jiaao Chen ， Derek Tam ， Colin Raffel ， MohitBansal，and Diyi Yang. 2021. 自然语言处理中有限资料学习之资料扩充实证研究。陈佳傲，王正辉，田冉，杨子超，杨迪义。2020.基于局部可加性的半监督神经网络数据。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。傅金兰，刘鹏飞，张琪，黄玄静2020. 重新思考神经模型的泛化：命名实体识别案例研究。麦克斯·格洛克纳，韦德·施沃茨，尤阿夫·戈德堡.2018. 用需要简单词汇推理的句子打破nli系统。Ian J. Goodfellow ， Jonathy Shlens ， and ChristianSzegedy. 2014. 解释和利用反面例子。陶贵、王晓、张琦、刘勤、邹义成、周欣、郑睿、张冲、吴勤卓、叶嘉诚、庞泽雄、张永新、李争艳、马若天、费子初、蔡瑞健、赵军、胡新武、严志恒、谭义定、胡元、卞启元、刘志华、朱博林、秦山、邢晓宇、傅锦兰、张跃、彭敏龙、郑晓青、周亚倩、魏忠宇、邱希鹏、黄宣静。2021. TextFlint：用于自然语言处理的统一多语言健壮性评估工具包。Suchin Gururangan ， Swabha Swayamdipta ， OmerLevy ， Roy Schwartz ， Samuel Bowman ， andNoah A.史密斯2018. 自然语言推理数据中的注释伪影。在计算语言学协会北美分会2018年会议论文集：人类LanguageTechnologies ， Volume2 （ ShortPapers ）， pages 107-112 ， New Orleans ，Louisiana.计算语言学协会。杰弗里 ·E Hinton ， Nitish Srivastava ， AlexKrizhevsky，Ilya Sutskever，and Ruslan R.萨拉赫特-迪诺夫。2012. 通过防止特征检测器改进神经网络。罗宾贾和珀西梁。2017. 用于评估阅读理解系统的对抗性考试。Di Jin，Zhijing Jin，Joey Tianyi Zhou，and PeterSzolovits. 2020. 伯特真的强壮吗？对文本分类和蕴涵进行自然语言攻击的强大基础。Divyansh Kaushik，Eduard Hovy，and Zachary C.利普顿。2020. 学习与反事实增强数据的。Divyansh Kaushik和Zachary C.利普顿2018. 阅读理解需要多少阅读量？对流行基准的批判性调查。2018年自然语言处理经验方法会议论文集，第5010-5015页，比利时布鲁塞尔。计算语言学协会。SaehyungLee ， HyungyuLee ， andSungrohYoon.2020年。对抗顶点混淆：走向更好的对抗鲁棒泛化。在IEEE/CVF计算机视觉和模式识别会议集，第272Linyang Li和Xipeng Qiu。2020年。Tavat：用于语言理解的令牌感知虚拟对抗训练。David Nadeau和Satoshi Sekine 2007. 命名实体识别与分类。 Lingvis-tictionary Investigationes ， 30（1）：3AdamPoliak ， JasonNaradowsky ， AparajitaHaldar ， RachelRudinger 和 BenjaminVanDurme。2018. 假设只是自然语言推理的基线。作者： Aditi Raghunathan ， Sang Michael Xie ，Fanny Yang，John C. Duchi和Percy Liang 2019.对抗性训练可能会损害概括。Tomasz Stanislawek ， Anna Blewska ， Alicja Wój-cicka，Daniel Ziembicki，and Przemyslaw Biecek.2019. 命名实体识别-是否存在玻璃天花板？在Proceedingsofthe23rdConferenceonComputationalNaturalLanguageLearning（CoNLL），第624-633页，中国香港。计算语言学协会。埃里克 ·F Tjong Kim Sang 和 Fien De Meulder 。2003. CoNLL-2003共享任务简介：独立于数据库的命名实体识别。在HLT-NAACL 2003年第七届自然语言学习会议论文集，第142-147页。+v：mala2277获取更多论文−−图立夫，加里马·拉尔瓦尼，斯潘达纳·盖拉，何禾。2020. 使用预先训练的语言模型对虚假相关性的鲁棒性的实证研究。 CoRR ，abs/2007.06778。Vikas Verma、Alex Lamb、Christopher Beckham、AmirNajalan 、 IoannisMitliagkas 、 AaronCourville、David Lopez-Paz和Yoonne Bengio。2019. 流形混淆：通过内插隐藏状态得到.Boxin Wang，Chejian Xu，Shuohang Wang，ZheGan，Yu Cheng，Jianfeng Gao，Ahmed HassanAwadallah ， and Bo Li.2021 年 a. AdversarialGLUE：语言模型。在第三十五届神经信息处理系统会议上，数据集和基准跟踪（第2轮）。Haotao Wang，Chaowei Xiao，Jean Kossaifi，Zhid-ing Yu ， Anima Anandkumar ， and ZhangyangWang.2021b的最后一页。Augmax：用于鲁棒训练的随机增强的对抗组合。神经信息处理系统的进展，34。拉尔夫·韦舍德尔、爱德华·霍维、米切尔·马库斯、玛莎·帕尔默、罗伯特·贝尔文、萨米尔·普拉德汉、兰斯·拉姆肖和薛念文。2011. OntoNotes：一个用于增强处理的大型训练语料库。斯普林格。Xiangji Zeng，Yunliang Li，Yuchen Zhai，and YinZhang. 2020. Counterfactual generator：一种弱监督的命名实体识别方法.在2020年自然语言处理经验方法会议（EMNLP）中，第7270计算语言学协会张宏毅， Moustapha Cisse ， Yann N. Dauphin 和David Lopez Paz。2018. mixup：超出了风险最小化。张远，杰森·鲍德里奇，何鲁恒。2019. 爪子：从单词 scrambling 中释义对手。 CoRR ，绝对值/1904.01130。A专家引导增强当专家指导的增强应用于示例时，实体的新标签现在是地面真值标签。如果模型基于原始实体和上下文的剩余部分与新增强文本中的原始标签之间的虚假相关性这演示了增强示例图1：ID数据与ID数据的随机混合与ID数据与专家指导的增强数据的混合;性能取决于CSB混合实现细节和超参数调优在从beta分布中采样λ之后，我们通过应用λ=max（λ，1λ）来修改它，这保证了要使用的λ不小于0。五、较大的λ可以保证所得到的混合数据点（x∈ x=λx+（1λ）x（J）是更接近x的一条直线。我们使用两个不同的beta分布来对混合参数进行采样，一个用于混合原始示例（原始示例为x，增强示例为xJ），另一个用于混合随机增强示例（增强示例为x，原始示例为xJ）。对于对应于混合参数采样的两个beta分布中的每一个的两个超参数α和β，我们首先将它们分别设置为200和5。我们尝试减少β分布的偏斜，将α降低到150，同时将β保持在5。然后，我们进一步实验通过将α减小到130来增加其偏斜，同时将β增加到值7和9。在少量泛化实验中，我们的mixup实现使用了四种不同的beta分布来对混合参数进行采样：类似地，两种用于分布内的原始和增强训练示例，两种用于域外的原始和增强训练示例。CTextFlint NER任务特定转换使用的四个 TextFlint NER 任务特定转换是ConcatSent 、 EntTypos 、 CrossCate- gory 和SwapLonger。ConcatSent涉及到+v：mala2277获取更多论文百分模型挑战组百分之十BERT + AT88.53BERT + AT+脱落83.98BERT + AT+混合88.54百分之三十BERT + AT91.16BERT + AT+脱落93.08BERT + AT+混合93.09百分之五十BERT + AT88.74BERT + AT+脱落93.38BERT + AT+混合92.48百分百BERT + AT92.97BERT + AT+脱落93.77BERT + AT+混合92.33表3：当在训练期间没有单词短语时，挑战组上的F1分数;所有结果在3次运行中平均。把两个句子连接成一个较长的句子。EntTypos涉及交换 / 删除 / 添加随机字符到实体。CrossCategory涉及到实体与可以被不同标签标记的实体的交换。SwapLonger涉及用较长的实体替换较短的实体。由于在本工作期间，只有ConcatSent和EntTy- pos可通过TextFlint框架使用，因此我们为实验重新实现了CrossCategory和SwapLonger。D无词短语实验在表3中，我们提供了在训练期间使用所有单词短语进行对抗性增强时的结果与25%的单词短语被用于训练的设置相比（表2），模型的性能显著下降。模型可能已经学习了来自单词短语集合的单词与实体标签之间的虚假相关性，而不是学习语言关系。这表明，即使BERT这种ETAVAT超参数的调整令牌感知虚拟对抗训练（TAVAT）特有的超参数，例如广告对抗训练步长、扰动的约束范围、对抗步长和初始化范围使用Li和Qiu（2020）中的值进行调整。F实验细节：F.1所用计算基础设施的描述GEFORCE RTX 2080 CUDA版本：11.0F.2运行时• 培训时间：2 - 2小时半。• 推理：3分钟或更少F.3参数BERT包含1.1亿个参数。F.4用于无5次射击训练的超参数• BERT：最大序列长度256，批量大小8，训练周期数10，adam迭代= 1 e-08，学习率=5e-05，权重衰减=0.0• 所有 dropout 模型在嵌入、编码器和potential中的所有全连接层的dropout概率都设置为0.5。• 混淆10%增强数据：– 原始示例：α=130β =9– 增广示例：α=200β =5• 混淆30%增强数据：+v：mala2277获取更多论文目标实体单词短语集示例组织实体令牌更改实体上下文更改交通运输厅|储备银行|工人党|公司及其部长，|的明星球员|及其服务|政府官员位置实体令牌更改实体上下文更改上诉法院|证券交易所|联合|无线电领先的新闻编辑室|的乡村|曲棍球队人实体令牌更改实体上下文更改Doorn|利亚诺|布隆霍斯特|艾纳维|胡耶|Sidhu|贝迪埃的公司|和其他政客|，一个有成就的球员表4：来自预定义单词短语集合的更多示例;竖线（|）用于分隔单词短语。– 原始示例：α=150β =5– 增广示例：α=200β =5• 混淆50%增强数据：– 原始示例：α=130β =7– 增广示例：α=200β =5• 混淆100%增强数据：– 原始示例：α=150β =5– 增广示例：α=200β =5• TAVAT模型：adv init mag=0.2，advlr=0.05，adv max norm=0.5，advsteps=2，adv train=1F.5用于5次射击训练• 混淆10%增强数据：– 原始示例：α=150β =5– 增广示例：α=200β =5– 原始OOD示例：α=200β =5– 增强OOD示例：α=130β =7• 混淆30%增强数据：– 原始示例：α=200β =5– 扩充示例：α=150β =5– 原始OOD示例：α=200β =5– 增强OOD示例：α=130β =7• 混淆50%增强数据：– 原始示例：α=150β =5– 增广示例：α=200β =5– 原始OOD示例：α=200β =5– 增强OOD示例：α=130β =7• 混淆100%增强数据：– 原始示例：α=130β =5– 增广示例：α=200β =5– 原始OOD示例：α=200β =5–• TAVAT 模型， 5 次训练： adv initmag=0.2 ， advlr=0.05 ， advmaxnorm=0.5，adv steps=2，adv train=1F.6数据集• 语言：中文（简体）• CoNLL 2003的训练集：示例数：14041• CoNLL 2003的开发集：示例数：3250• CoNLL 2003测试集：示例数：3453

下载后可阅读完整内容，剩余1页未读，立即下载