自然语言中否定词的分析及其对自然语言理解任务的影响

103 浏览量更新于2023-12-01 收藏 18.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0自然语言理解语料库中否定词的分析0Md Mosharaf Hossain，8 Dhivya Chinnappa，U和Eduardo Blanco 708 北德克萨斯大学计算机科学与工程系，汤姆森路透7亚利桑那州立大学计算机与增强智能学院0mdmosharafhossain@my.unt.edu dhivya.infant@gmail.com eduardo.blanco@asu.edu0摘要0本文分析了六个自然语言理解任务中的八个流行语料库中的否定词。我们表明，与通用英语相比，这些语料库中的否定词很少，并且其中的少数否定词通常是不重要的。实际上，人们通常可以忽略否定词而仍然做出正确的预测。此外，实验结果表明，使用这些语料库训练的最先进的Transformer在包含否定词的实例上获得的结果明显较差，尤其是如果否定词很重要。我们得出结论，当存在否定词时，需要新的语料库来解决自然语言理解任务。01 引言0自然语言理解（NLU）是一个用于指称需要文本理解的任何任务的总称。例如，问答（Rajpurkar等，2016年），信息提取（Stanovsky等，2018年），共指消解（Wu等，2020年）和机器阅读（Yang等，2019年）等任务都属于自然语言理解的范畴。声称一个系统理解自然语言的门槛是不断变化的。通常通过指出最先进的模型无法获得良好的结果来证明需要新的语料库。经过多年的稳定改进，更强大的模型最终获得了所谓的人类表现水平，此时会创建新的、更具挑战性的语料库。许多自然语言理解任务的语料库包含由注释者生成的语言，而不是从独立于语料库创建过程的文本中检索到的语言。这些语料库确实有用，并且促进了巨大的进步。然而，注释者生成的示例存在评估系统的风险，因为这些示例使用的合成语言不代表真实语言。例如，注释者是0当被要求写一篇与某事物相矛盾的文本时，人们很可能使用否定词，尽管野外存在矛盾，但并不一定有否定词（Gururangan等，2018年）。最近，Kwiatkowski等人（2019年）提供了一个大型的问答语料库，其中包含自然问题（即由真实信息需求的人提出的问题），以鼓励在更现实的场景中进行研究。这与以前的语料库形成了对比，在以前的语料库中，问题是在告诉答案后由注释者编写的（Rajpurkar等，2016年）。在本文中，我们探讨了八个语料库中的否定词在六个流行的自然语言理解任务中的作用。我们的目标是检查否定词在这些任务中是否发挥了应有的作用。令我们惊讶的是，我们得出结论，否定词在回答以下问题时几乎被忽视：101.NLU语料库中是否包含与通用文本一样多的否定词？（它们没有）；02.NLU语料库中的否定词在解决任务中起到了作用吗？（它们没有）；03.使用NLU语料库训练的最先进的Transformer是否在包含否定词的实例中面临挑战？（它们有，尤其是如果否定词很重要）。02 背景和相关工作0我们使用涵盖六个任务的八个语料库，下面对其进行总结，并在表2中进行示例。我们选择了两个问答语料库：CommonsenseQA（Talmor等，2019年）和COPA（Roemmele等，2011年）。CommonsenseQA包含需要一定常识的多项选择问题（5个候选答案）。COPA提供了一个前提（例如，“那个人摔断了脚趾”）和一个问题（例如，“这是什么原因？”），系统必须在两个合理的选择之间进行选择（例如，“他的袜子破了一个洞”或“他的脚上掉下了一把锤子”）。01代码和数据可在https://github.com/mosharafhossain/negation-and-nlu找到。0arXiv:2203.08929v1[cs.CL]16Mar20220+v:mala2277获取更多论文0对于文本相似性和释义，我们选择了QQP2和STS-B（Cer等，2017年）。QQP由问题对组成，任务是确定它们是否是释义。STS-B由文本对组成，任务是确定它们的语义相似度，得分范围从0到5。我们为其余任务选择了一个语料库。对于推理，我们使用QNLI（Rajpurkar等，2016年），该任务是确定文本是否是问题的有效答案。我们使用WiC（Pilehvar和Camacho-Collados，2019年）进行词义消歧。WiC的任务是确定两个相同词的实例（在两个句子中，表2中的斜体）是否具有相同的含义。对于共指消解，我们选择了WSC（Levesque等，2012年），该任务是确定代词和名词短语是否是共指的（表2中的斜体）。最后，我们使用SST-2（Socher等，2013年）进行情感分析。该任务是确定来自电影评论集合的句子的情感是积极还是消极。为了方便起见，我们使用GLUE（Wang等，2018年）和SuperGLUE（Wang等，2019年）基准测试中的格式化版本进行工作。唯一的例外是CommonsenseQA，它不是这些基准测试的一部分。相关工作先前的研究表明SNLI（Bowman等，2015年）和MNLI（Williams等，2018年）存在注释错误（例如，否定是矛盾的强烈指标）（Gururangan等，2018年）。文献还表明，包括否定线索在内的简单对抗性攻击非常有效（Naik等，2018年；Wallace等，2019年）。Kovatchev等人（2019年）分析了11个释义系统，并表明当存在否定时，它们的结果明显较差。最近，Ribeiro等人（2020年）表明否定是商业情感分析中的一个语言现象之一。几项先前的研究调查了transformer在存在否定时进行推理的（缺乏）能力。例如，Ettinger（2020年）得出结论，BERT在存在否定时无法完成句子。BERT在处理自然语言推理任务（即确定蕴含和矛盾）时也面临着单调性和否定的挑战（Geiger等，2020年；Yanaka等，2019年）。Warstadt等人02 https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs0#句子。%含否定的句子0问答CommonsenseQA 12,102 14.5 COPA 1,000 0.80相似性和释义QQP 1,590,482 8.1 STS-B 17,256 7.10推理QNLI 231,338 8.70词义消歧WiC 14,932 8.20共指消解WSC 804 26.20情感分析SST-2 70,042 16.00通用英语所有句子830万22.6-29.9仅问题456,21415.8-20.20表1：自然语言理解语料库中句子数量和含否定句子的百分比。除WSC外，所有语料库中的否定句子数量远少于通用英语文本。0（2019年）显示了BERT在包含负极性项的句子中进行可接受性判断时的局限性。与我们的工作最相关的是，Hossain等人（2020年）分析了三个自然语言推理语料库中否定的作用：RTE（Dagan等，2006年；Bar-Haim等，2006年；Giampiccolo等，2007年；Bentivogli等，2009年）、SNLI和MNLI。在本文中，我们提出了类似的分析，但我们超越了自然语言推理，并与涵盖六个自然语言理解任务的八个语料库一起工作。03个研究问题和分析0问题1：自然语言理解语料库是否包含与通用英语文本一样多的否定？为了自动识别否定线索，我们使用最大的语料库ConanDoyle-neg（Morante和Daelemans，2012）训练了一个否定线索检测器。该线索检测器基于RoBERTa预训练语言模型（Liu等，2019），我们在附录A中提供了有关架构和训练过程的详细信息。我们的线索检测器取得了迄今为止最好的结果：F1：93.79 vs.92.94（Khandelwal和Sawant，2020）。ConanDoyle-neg（以及我们的线索检测器）识别常见的否定线索，如no、not、n't和never，词缀否定线索，如impossible和careless，以及词汇否定线索，如deny和avoid。0+v:mala2277获取更多论文We observe that (a) all negations in WiC andWSC are unimportant, and (b) the percentagesof unimportant negations in CommonsenseQA,SST-2, QQP, STS-B, and QNLI are substantial:45.1%, 63%, 97.4%, 95.6%, and 97.7%, respec-tively. These percentages indicate that one cansafely ignore (almost) all negations and still solvethe benchmarks. Despite the fact that negations are0示例是否重要？0CmmsnsQA0[. . .]他（约翰）以前从未见过这位女士。他们是什么关系？C）不认识。0当你旅行时，如果有意外费用，你应该怎么办？E）带钱。0QQP0有哪些不那么无聊的宝宝派对游戏？是的。哪些宝宝派对游戏实际上很有趣？0谁是斯瓦拉杰∙马哈拉吉的哲学导师？否定。斯瓦拉杰∙马哈拉吉的未知事实是什么？0STS-B0国务卿科林∙鲍威尔表示与伊朗的接触不会停止。4.3。国务卿科林∙鲍威尔昨天表示将继续与伊朗保持接触。0首先，一个存在可以是非物质的，但不一定在你的脑海中。3.4。区别是巨大的，因为并非所有非物质的东西都存在于思想中。0QNLI0BSkyB与谁合作，因为它不是联盟的一部分？是的。尽管BSkyB被排除在[...]之外，但BSkyB能够加入ITVDigital的免费接收替代方案Freeview，它持有相等的股份[...]0拉瓦锡耶在哪一年发表了他关于燃烧的研究成果？否定。在一个实验中，拉瓦锡耶观察到当锡和空气在一个封闭容器中加热时，总体重量没有增加。0SST-20这不是终极的大萧条时期的黑帮电影。否定。0Whaley决心让你沉浸在纯粹、无休止的悲惨中，令人筋疲力尽。否定。0WiC0这项立法的目的是促进经济。相同。好的意图是不够的。0WSC0山姆和艾米热烈相爱，但艾米的父母对此感到不满，因为他们只有15岁。是的。0表2：我们使用的自然语言理解语料库验证数据集中包含否定（下划线标出）的示例。第三列显示示例的预期答案（根据任务的选择、判断或得分）。最后一列指示否定是否重要。0表1：（a）我们使用的八个语料库和（b）通用英语中包含否定的句子的百分比。我们从Hossain等人（2020）那里获取后者百分比（所有句子），他们在在线评论、对话和书籍中运行了一个否定线索检测器。此外，我们还提供了问题中的百分比。在所有自然语言理解语料库中，除了WSC（0.8%–16%）之外，否定要比通用英语（22.6%–29.9%）更少见。请注意，否定在主要包含问题的语料库中也被低估（通用英语：15.8%–20.2%；COPA：0.8%，QQP：8.1%）。0Q2：自然语言理解语料库中的（少数）否定在解决任务中起到作用吗？在证明否定在自然语言理解语料库中的代表性不足之后，我们探讨了它们所包含的少数否定是否重要。对于来自任何语料库的实例，如果删除否定会改变真实情况，我们认为该否定是重要的。换句话说，如果可以忽略一个否定并仍然解决手头的任务，则该否定是不重要的。表2列出了重要和不重要否定的示例。0我们观察到（a）WiC和WSC中的所有否定都是不重要的，（b）CommonsenseQA、SST-2、QQP、STS-B和QNLI中不重要否定的百分比相当高：45.1％、63％、97.4％、95.6％和97.7％。这些百分比表明（几乎）可以安全地忽略所有否定并仍然解决基准测试。尽管否定是0我们手动检查了每个语料库验证集中包含否定的所有实例中的否定，除了QQP，我们检查了1000个（共5196个）。请注意，COPA在验证集中没有任何否定，而且许多语料库中包含否定的实例很少（CommonsenseQA：184个，STS-B：225个，QNLI：852个，WiC：99个，WSC：52个，SST-2：263个）。我们选择使用验证集进行工作，因为我们想要比较是否重要时的结果（Q3），并且某些语料库的测试集的真实情况不公开。0+v:mala2277获取更多论文3https://super.gluebenchmark.com/leaderboard+v:mala2277获取更多论文0示例是否重要？0CommonsenseQA0句法0如果一个人不想要邻居，他们会住在哪里？D � A) 住宅区，B) 社区，C) 火星，D) 树林，E) 郊区0老师在他们的什么地方不容忍考试期间的噪音？E � A) 电影院，B) 保龄球馆，C) 工厂，D) 商店，E) 教室0形态0什么可能导致自杀未遂失败？B � A) 死亡，B) 中断，C) 流血，D) 憎恨，E) 死亡0住在无家可归者收容所的条件如何？A � A) 有时糟糕，B) 快乐，C) 呼吸，D) 年龄增长，E) 死亡0STS-20句法0尽管令人联想到现代爱情生活的空洞状态，但这部电影从未超出单调的哀鸣。否定。0即使你不认为（基辛格）比大多数当代政治家更有罪，他在法庭审判中肯定会让人乐此不疲。肯定。0形态0观看体验相当不愉快。否定。0对于不熟悉五旬节的做法，尤其是地狱之屋的戏剧现象的人来说，这是一个启发性的经历。肯定。0表3：包含验证数据集CommonsenseQA和SST-2中的句法和形态否定（下划线）的示例。0CmmnsnsQA COPA QQP STS-B QNLI WiC WSC SST-20无否定验证集 0.60 0.73 0.90 0.92 / 0.91 0.93 0.67 0.63 0.94 有否定验证集 0.53 n/a 0.91 0.85 / 0.84 0.91 0.640.59 0.930重要（来自Q2的样本）0.47 n/a 0.73 0.57 / 0.62 0.67 n/a n/a 0.86 不重要（来自Q2的样本）0.62 n/a 0.920.85 / 0.84 0.92 0.64 0.59 0.950表4：使用RoBERTa评估带有否定和不带否定的所有实例以及我们详细分析的带有否定的实例样本（重要和不重要）的结果。由于数据集不平衡，我们报告了除STS-B之外的所有任务的宏F1分数，对于STS-B，我们报告了Pearson和Spearman相关系数。结果在有否定的情况下稍低，并且在有重要否定的情况下显著降低。0尽管在WSC和WiC中否定不重要，但它们确实会影响实验结果（详见问题3的细节）。我们还分析了两种主要类型的否定：句法否定（not、no、never等）和形态否定（即前缀如un-、im-和-less）。为此，我们使用了CommonsenseQA和SST-2，这两个语料库中不重要否定的比例较低（分别为45.1%和63%），低于我们使用的其他语料库（97.4%–100%）。表3提供了这两种否定类型的示例。也许并不令人意外的是，句法否定比形态否定更常见（CommonsenseQA：88.6% vs11.4%，SST-2：71.9% vs28.1%）。更重要的是，句法否定在SST-2中更常重要（42.3% vs23%），而在CommonsenseQA中，句法和形态否定的重要性大致相等（55.2% vs52.4%）。问题3：使用NLU语料库训练的最先进的transformers是否面临包含否定的实例的挑战？我们使用RoBERTa进行实验（Liu等人，2019）。更多0具体而言，我们使用Phang等人（2020）的实现，并使用每个语料库的训练集训练模型。有关这些模型和超参数的详细信息，请参阅附录B。我们选择RoBERTa而不是其他transformers，因为在SuperGLUE基准测试的前10个最佳提交中有4个使用了RoBERTa。0表4呈现了使用相应验证集评估模型的结果。在所有语料库中，RoBERTa在具有否定的验证实例上的结果略差；唯一的例外是QQP（F1：0.90 vs0.91）。这些结果导致结论：否定可能只对最先进的transformers构成小的挑战。然而，通过对问题2中分析的样本中的重要和不重要否定进行评估，我们得到了不同的结果。实际上，在具有这两种否定的所有任务中，我们观察到结果大幅下降。具体而言，我们得到了27%的结果下降0在包含QNLI中重要否定的实例中，F1得分为0.92，而不包含重要否定的实例中的得分为0.67；在STS-B中，得分降低了33%/26%；在CommonsenseQA中，得分降低了24%；在QQP中，得分降低了21%；在SST中，得分降低了9%。此外，尽管WiC和WSC中的所有否定都不重要，但与没有否定的实例相比，我们观察到具有否定的实例的性能下降（WiC：0.64 vs 0.67，WSC：0.59 vs0.63）。我们得出结论，使用现有的NLU语料库训练的transformers在包含否定的实例中面临挑战。这些结果提出了两个重要的问题供未来研究：对于RoBERTa来说，否定是否是一种困难的现象？解决自然语言理解任务需要多少包含否定的实例？04 结论0我们分析了涵盖六个任务的八个自然语言理解语料库中否定的作用。我们的分析结果显示：（a）除了WSC之外，所有语料库几乎不包含否定，或者包含的否定只占一般文本中发现的否定的31%至54%；（b）这些语料库中的少数否定通常是不重要的；（c）当否定很重要时，RoBERTa的结果明显较差。0我们的分析还提供了一些证据，表明创建能够正确处理否定的模型可能需要新的语料库和更强大的模型。对于新的语料库的需求源于问题1和问题2的答案。对于更强大的模型的正当性则更加微妙。我们指出，不重要否定的百分比（第3节）只是重要否定结果下降（表4）的一个弱指标。例如，尽管45%和97%的否定都是不重要的，但我们观察到CommonsenseQA和QQP中的重要否定结果分别下降了24%和21%。0否定会颠倒真值，因此在存在否定时，任何自然语言理解任务的解决方案都应该具有鲁棒性。为此，我们未来的工作包括两个研究方向。首先，我们计划为这六个任务创建基准，其中包含包含否定的实例（50/50分割为重要/不重要）。其次，我们计划进行探测实验，以调查预训练的transformers是否捕捉到否定的含义（以及在哪里）。这样做可能有助于我们发现理解否定和推理的潜在解决方案。0致谢0本材料基于国家科学基金会在授予号1845757下的支持。本材料中表达的任何观点、发现、结论或建议都是作者的观点，不一定反映NSF的观点。本研究使用的TitanXp由NVIDIA公司捐赠。高性能计算办公室还提供了计算资源。此外，我们还利用了Chameleon平台（Keahey等，2020年）的计算资源。我们还感谢审稿人的有见地的评论。0参考文献0Roy Bar-Haim，Ido Dagan，Bill Dolan，LisaFerro，Danilo Giampiccolo，Bernardo Magnini和IdanSzpektor。2006. 第二届PASCAL文本蕴涵挑战.在第二届PASCAL挑战工作坊上识别文本蕴涵的论文中，卷6，页码6-4。威尼斯。0Luisa Bentivogli，Peter Clark，Ido Dagan和DaniloGiampiccolo。2009. 第五届PASCAL文本蕴涵挑战。0Samuel R. Bowman，Gabor Angeli，ChristopherPotts和Christopher D. Manning。2015.用于学习自然语言推理的大型注释语料库.在2015年经验方法在自然语言处理中的会议论文中，页码632-642，里斯本，葡萄牙。计算语言学协会。0Daniel Cer，Mona Diab，Eneko Agirre，IñigoLopez-Gazpio和Lucia Specia。2017.SemEval-2017任务1：语义文本相似度多语言和跨语言重点评估.在第11届语义评估国际研讨会（SemEval-2017）论文中，页码1-14，温哥华，加拿大。计算语言学协会。0Ido Dagan，Oren Glickman和BernardoMagnini。2006. Pascal文本蕴涵挑战.在第一届机器学习挑战国际会议上：评估预测不确定性视觉对象分类和识别文本蕴涵的论文中，MLCW'05，页码177-190，柏林，海德堡。斯普林格出版社。0Allyson Ettinger。2020.BERT的不足之处：从一套新的语言模型心理语言学诊断中得到的教训. 《计算语言学协会交易》（Transactions of theAssociation for Computational Linguistics），8:34-48。0Atticus Geiger，Kyle Richardson和ChristopherPotts。2020.神经自然语言推理模型部分嵌入词汇蕴涵和0+v:mala2277获取更多论文0否定.在第三届黑盒NLP研讨会上分析和解释神经网络用于NLP的论文中，页码163-173，在线。计算语言学协会。0Danilo Giampiccolo，Bernardo Magnini，IdoDagan和Bill Dolan。2007.第三届PASCAL文本蕴涵挑战.在ACL-PASCAL文本蕴涵和改写研讨会论文中，页码1-9，布拉格。计算语言学协会。0Suchin Gururangan, Swabha Swayamdipta, OmerLevy, Roy Schwartz, Samuel Bowman, and Noah A.Smith. 2018. 自然语言推理数据中的注释错误.在第2018届北美计算语言学协会会议：人类语言技术第2卷（短文）中，页码107-112，新奥尔良，路易斯安那州。计算语言学协会。0Md Mosharaf Hossain，VenelinKovatchev，Pranoy Dutta，Tiffany Kao，ElizabethWei和Eduardo Blanco。2020.通过否定的视角分析自然语言推理基准.在2020年经验方法在自然语言处理中的会议论文中，页码9106-9118，在线。计算语言学协会。0Kate Keahey，Jason Anderson，Zhuo Zhen，PierreRiteau，Paul Ruth，Dan Stanzione，MertCevik，Jacob Colleran，Haryadi S. Gunawi，CodyHammock，Joe Mambretti，AlexanderBarnes，François Halbach，Alex Rocha和Joe Stubbs.2020.从变色龙实验平台中吸取的教训。在2020年USENIX年度技术会议论文集中（USENIX ATC '20）。USENIX协会。0Aditya Khandelwal和Suraj Sawant. 2020.NegBERT：一种用于否定检测和范围解析的迁移学习方法。在第12届语言资源和评估会议论文集中，页码5739-5748，法国马赛。欧洲语言资源协会。0Venelin Kovatchev，M. Antonia Marti，MariaSalamo和Javier Beltran. 2019.用于释义识别的定性评估框架。在2019年国际自然语言处理最新进展会议论文集中，页码568-577，瓦尔纳，保加利亚。INCOMA有限公司。0Tom Kwiatkowski，Jennimaria Palomaki，OliviaRedfield，Michael Collins，Ankur Parikh，ChrisAlberti，Danielle Epstein，Illia Polosukhin，JacobDevlin，Kenton Lee，Kristina Toutanova，LlionJones，Matthew Kelcey，Ming-Wei Chang，AndrewM. Dai，Jakob Uszkoreit，Quoc Le和Slav Petrov.2019.自然问题：用于问答研究的基准。《计算语言学协会交易》，第7卷，页码452-466。0Hector J. Levesque，Ernest Davis和LeoraMorgenstern. 2012.Winograd模式挑战。在第十三届知识表示和推理原理国际会议论文集中，页码552-561。AAAI出版社。0Yinhan Liu，Myle Ott，Naman Goyal，JingfeiDu，Mandar Joshi，Danqi Chen，Omer Levy，MikeLewis，Luke Zettlemoyer和Veselin Stoyanov. 2019.Roberta：一种经过优化的鲁棒性Bert预训练方法。arXiv预印本arXiv:1907.11692。0Roser Morante和Walter Daelemans. 2012.0ConanDoyle-neg：对ConanDoyle故事中否定线索及其范围的注释。在第八届语言资源和评估国际会议论文集中，页码1563-1568，土耳其伊斯坦布尔。欧洲语言资源协会（ELRA）。0Aakanksha Naik，Abhilasha Ravichander，NormanSadeh，Carolyn Rose和Graham Neubig. 2018.自然语言推理的压力测试评估。在第27届国际计算语言学会议论文集中，页码2340-2353，新墨西哥州圣菲。计算语言学协会。0Jason Phang，Phil Yeres，Jesse Swanson，HaokunLiu，Ian F. Tenney，Phu Mon Htut，ClaraVania，Alex Wang和Samuel R. Bowman. 2020. jiant2.0：用于通用文本理解模型研究的软件工具包。http://jiant.info/。0Mohammad Taher Pilehvar和JoseCamacho-Collados. 2019.WiC：用于评估上下文敏感含义表示的上下文词汇数据集。在第2019届北美计算语言学协会会议论文集中，卷1（长篇和短篇），页码1267-1273，明尼阿波利斯，明尼苏达州。计算语言学协会。0Pranav Rajpurkar，Jian Zhang，KonstantinLopyrev和Percy Liang. 2016.SQuAD：用于文本机器理解的10万多个问题。在2016年经验方法在自然语言处理中的会议论文集中，页码2383-2392，德克萨斯州奥斯汀。计算语言学协会。0Marco Tulio Ribeiro, Tongshuang Wu, CarlosGuestrin, and Sameer Singh. 2020.超越准确性：使用CheckList对NLP模型进行行为测试。在第58届计算语言学年会论文集中，页码4902-4912，线上。计算语言学协会。0Melissa Roemmele，Cosmin Adrian Bejan和Andrew SGordon。2011年。可行替代选择：常识因果推理评估。在AAAI春季研讨会：常识推理的逻辑形式化论文集中，页码90-95。0+v:mala2277获取更多论文0Richard Socher，Alex Perelygin，Jean Wu，JasonChuang，Christopher D. Manning，AndrewNg和ChristopherPotts。2013年。递归深度模型用于情感树库的语义组合。在2013年经验方法会议论文集中，页码1631-1642，美国华盛顿州西雅图。计算语言学协会。0Gabriel Stanovsky，Julian Michael，LukeZettlemoyer和IdoDagan。2018年。监督式开放信息抽取。在第2018年北美计算语言学协会会议论文集：人类语言技术，卷1（长篇论文）中，页码885-895，路易斯安那州新奥尔良。计算语言学协会。0Alon Talmor，Jonathan Herzig，NicholasLourie和JonathanBerant。2019年。CommonsenseQA：针对常识知识的问答挑战。在第2019年北美计算语言学协会会议论文集：人类语言技术，卷1（长篇和短篇论文）中，页码4149-4158，明尼苏达州明尼阿波利斯。计算语言学协会。0Eric Wallace，冯石，Nikhil Kandpal，MattGardner和SameerSingh。2019年。通用对抗触发器用于攻击和分析NLP。在2019年经验方法会议和第9届国际联合自然语言处理会议（EMNLP-IJCNLP）论文集中，页码2153-2162，中国香港。计算语言学协会。0Alex Wang，Yada Pruksachatkun，NikitaNangia，Amanpreet Singh，Julian Michael，FelixHill，Omer Levy和SamuelBowman。2019年。Superglue：用于通用语言理解系统的更具粘性的基准。在第32届神经信息处理系统中，页码3261-3275。Curran Associates, Inc.0Alex Wang，Amanpreet Singh，JulianMichael，Felix Hill，Omer Levy和SamuelBowman。2018年。GLUE：自然语言理解的多任务基准和分析平台。在2018年EMNLP研讨会BlackboxNLP：分析和解释神经网络用于NLP的论文集中，页码353-355，比利时布鲁塞尔。计算语言学协会。0Alex Warstadt，Yu Cao，Ioana Grosu，WeiPeng，Hagen Blix，Yining Nie，AnnaAlsop，Shikha Bordia，Haokun Liu，AliciaParrish，Sheng-Fu Wang，Jason Phang，AnhadMohananey，Phu Mon Htut，PalomaJeretic和Samuel R.Bowman。2019年。研究BERT对语言的了解：五种带有NPI的分析方法。在2019年经验方法会议和第9届国际联合自然语言处理会议论文集中。0（EMNLP-IJCNLP），页码2877-2887，中国香港。计算语言学协会。0Adina Williams，Nikita Nangia和SamuelBowman。2018年。一个广覆盖的句子理解推理挑战语料库。在第2018年北美计算语言学协会会议论文集：人类语言技术，卷1（长篇论文）中，页码1112-1122。计算语言学协会。0魏武，王飞，袁艾莉，吴飞和李继伟。2020年。CorefQA：基于查询的跨度预测的共指消解。在第58届计算语言学年会论文集中，页码6953-6963，线上。计算语言学协会。0Hitomi Yanaka，Koji Mineshima，DaisukeBekki，Ken- taro Inui，Satoshi Sekine，LashaAbzianidze和Jo- hanBos。2019。HELP：用于识别神经模型在单调性推理中的缺点的数据集。在第八届词汇和计算语义联合会议（*SEM2019）论文集中，页250-255，明尼阿波利斯，明尼苏达州。计算语言学协会。0An Yang，Quan Wang，Jing Liu，Kai Liu，YajuanLyu，Hua Wu，Qiaoqiao She和SujianLi。2019。增强预训练语言表示以丰富知识用于机器阅读理解。在第57届计算语言学年会论文集中，页2346-2357，意大利佛罗伦萨。计算语言学协会。0否定线索检测0我们通过利用RoBERTa（基础架构；12层）预训练模型（Liu等人，2019年）开发了一个否定线索检测器（论文中的第3节）。我们在ConanDoyle-neg（Morante和Daelemans，2012年）语料库上对系统进行微调。在微调过程中，否定线索使用BIO（B：线索开始，I：线索内部，O：线索外部）标记方案进行标记。来自RoBERTa最后一层的上下文表示被传递到一个全连接（FC）层。最后，条件随机场（CRF）层产生标签的输出序列。我们的模型在测试集上产生以下结果：93.26精确率，94.32召回率和93.79 F1。神经模型在一块NVIDIA TeslaK80的单个GPU上平均需要大约两个小时进行训练。表5提供了模型实现上述结果所需的调整超参数列表。代码可在https://github获得。0com/mosharafhossain/negation-and-nlu。0+v:mala2277获取更多论文0超参数0最大时期数 50 批次大小 10学习率（RoBERTa）1e-5学习率（FC，CRF）1e-3权重衰减（RoBERTa）0.00001权重衰减（FC）0.001 梯度裁剪 5.0热身时期数 5 耐心 15 丢弃率 0.50表5：用于针对ConanDoyle-neg（Morante和Daelemans，2012年）语料库微调线索检测器的超参数。FC和CRF分别指的是全连接和条件随机场层。0Hp-1 Hp-2 Hp-30CmmnsnsQA 10 16 1e-5 COPA 5016 1e-5 QQP 3 16 1e-5 STS-B 1016 1e-5 QNLI 3 8 1e-5 WiC 10 161e-5 WSC 200 16 1e-6 SST-2 3 161e-50表6：用于针对每个语料库单独微调RoBERTa的超参数。Hp-1，Hp-2和Hp-3分别指的是训练过程中使用的时期数、批次大小和学习率。当使用Phang等人（2020年）的实现时，我们使用其他超参数的默认设置。0B用于每个NLU任务微调系统的超参数0我们使用Phang等人（2020年）的实现，并针对每个语料库单独对RoBERTa（基础架构；12层）（Liu等人，2019年）模型进行微调。我们在每个基准测试中使用默认的超参数设置，除了一些微调。表6显示了每个基准测试的调整超参数。0+v:mala2277获取更多论文

下载后可阅读完整内容，剩余1页未读，立即下载