LOVE:基于字形的预训练词嵌入用于增强NLP系统的鲁棒性

134 浏览量更新于2023-11-30 收藏 909KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文使用LOVE输入词汇外嵌入使语言模型以很小的成本变得陈力虎1，Gaël Varoquaux2，Fabian M. Suchanek11LTCI Télécom Paris Institut Polytechnique de Paris，France2苏打水，Inria Saclay CEA Université Paris-Saclay，法国{lihu.chen，fabian.suchanek}@ telecom-paris.fr@inria.fr摘要最先进的NLP系统用词嵌入来表示输入，但当面对词汇表外（OOV）词时，这些词是脆弱的。为了解决这个问题，我们遵循模仿类模型的原则，通过学习预先训练的嵌入的行为，只使用单词的表面形式来生成未见过单词的向量。我们提出了一个简单的对比学习框架LOVE，它扩展了现有预训练语言模型（如BERT）的单词表示，并使其在很少的额外参数下对OOV具有鲁棒性。广泛的评估表明，我们的轻量级模型实现了类似甚至更好的-90.085.080.075.070.065.060.0sST2fastText快速文本+爱伯特BERT + LOVE0.0 0.2 0.4 0.6 0.8排印概率在原始数据集和损坏的变体上，性能都比之前的竞争对手更好。此外，它可以以即插即用的方式与FastText和BERT一起使用，显著提高了它们的鲁棒性。1介绍词嵌入将词表示为向量（ Mikolov et al. ，2013a，b; Pennington et al. ，2014）。它们在神经网络方法中发挥了重要作用，为许多自然语言处理（NLP）任务带来了令人印象深刻的性能增益。这些方法使用固定大小的vocabulary。因此，他们只能处理在训练中看到的单词。虽然这在许多基准数据集上工作得很好，但真实单词corpora通常噪音更大，并且包含词汇表外（OOV）单词，即，稀有词、特定领域的词、俚语词和有错别字的词模型性能随着看不见的单词而大大恶化，并且微小的字符扰动可以翻转模型的预测（Liang et al. ，2018; Belinkovand Bisk ， 2018; Sun et al. ，2020; Jin et al. ，2020）。简单的实验（图1）表明，将错别字添加到数据集会大大降低文本分类模型的性能图1：现有单词嵌入因为我们逐渐将错别字添加到数据集中。使用我们的模型LOVE来生成OOV单词的向量，使模型更加健壮。为了缓解这个问题，开创性的工作是在大规模数据集上用形态特征（子词标记）预训练词嵌入（ Wi-eting et al. ， 2016; Bojanowski etal. ， 2017; Heinz-erling and Strube ， 2017;Zhang et al. ，2019）。在这个方向上最突出的作品之一是 FastText （ Bojanowski et al. ，2017），其将字符n-gram合并到skip-gram模型中。使用FastText，可以通过对n-gram向量求和来输入未看到的单词的向量然而，这些子字级别的模型带来了巨大的成本：从头开始进行预训练的要求因此，已经开发了几种简单的方法，例如，MIM-ICK（Pinter et al. ，2017），BoS（Zhao et al. ，2018）和KVQ-FH（Sasakiet al. ，2019）。这些算法只使用虽然MIMICK类模型可以有效地减少预训练代表的参数arXiv：[中文准确度（%）二〇二二年+v：mala2277获取更多论文插补预训练嵌入词汇表外学习模型这是一种时尚，可以增强现有的语言模型。我们发现，使用LOVE为未见过的单词生成向量可以将FastText和BERT在嘈杂文本上的性能提高约1.4-6.8个百分点，而不会影响它们的在下文中，第2节讨论了相关的工作，第3节介绍了算法，第4节介绍了我们的方法，第5节展示了我们的实验，第6节总结。该ap-把我的名字拼错了图2：我们的轻量级OOV模型LOVE学习预训练嵌入的行为（例如，FastText和BERT），然后能够为未看到的单词输入向量。LOVE可以以即插即用的方式增强现有单词表示的鲁棒性然而，为了解决这些问题并减轻OOV问题，仍然存在两个主要挑战。首先，模型仍然局限于复杂性和性能之间的权衡：原始的MIMICK是轻量级的，但不能产生高质量的词向量。BoS和KVQ-FH获得了更好的词表示，但需要更多的参数。其次，这些模型不能与现有的预训练语言模型（如BERT）一起使用。正是这些模型，然而，我们欠这么多的进展领域（彼得斯等人。，2018; Devlinet al. ，2019; Yanget al. ，2019; Liu et al. ，2020）。到目前为止，这些高性能的模型在处理罕见单词（Schick和Schütze，2020），拼写错误（Sun等人，2019）和其他错误时仍然很脆弱。，2020）和领域特定词（El Boukkouri et al. ，2020）。我们正面解决了这两个挑战：我们设计了一个新的对比学习框架来学习预先训练的嵌入的行为，称为LOVE，L学习Out-of-VOccasionE嵌入。我们的模型建立在节省内存的字符和子字的混合输入，而不是n-gram字符。它通过一个轻量级的位置注意力模块对输入进行编码。在训练过程中，LOVE使用了新型的数据增强和硬否定生成。然后，该模型能够产生高质量的单词表示，是强大的字符扰动，而consum-ING只有一小部分的现有模型的成本。例如，具有6.5M参数的LOVE可以获得与具有超过900M参数的原始FastText模型相似的表示更重要的是，我们的模型可以用于即插即用本发明包含额外的实验和分析。我们的代码和数据可以在https：//github.com/tigerchen52/LOVE2相关工作2.1字符级嵌入为了解决OOV问题，一些方法在预训练期间将字符级特征注入到词嵌入中（Wieting etal. ， 2016; Caoand Rei ， 2016; Bojanowski etal. ，2017; Heinzer-ling and Strube，2017; Kimet al. ，2018; Li et al. ，2018; Üstün et al. ，2018; Piktus et al. ， 2019; Zhuet al. ， 2019;Zhang et al. ，2019; Hu et al. ，2019）。这些方法的一个缺点是它们需要从头开始在大规模语料库上进行预训练。因此，已经开发了更简单的模型，其直接模仿良好训练的词嵌入来为OOV词估算向量。这些方法中的一些仅使用单词的表面形式来生成未见过单词的嵌入（Pinteret al. ，2017; Zhao et al. ，2018; Sasakiet al. ， 2019; Fukuda et al. ， 2020; Jinman etal. ，2020年），而其他人使用表面和上下文信息来创建OOV向量（Schick和Schütze，2019a，b）。在这两种情况下，模型都需要过多的参数。快速文本，例如，使用~ 200万个n-gram字符，用于估算未见过单词的向量2.2预训练语言模型目前，最先进的单词表示是预先训练的语言模型，例如 ELMo （ Peters et al. ， 2018 ），BERT（Devlin et al. ，2019）和XLnet（Yanget al. ，2019），其采用子字以避免OOV问题。然而，BERT在面对罕见的单词（Schick和Schütze，2020）和拼写错误（Sun等人）时是脆弱的。，2020）。为了使BERT更鲁棒，Charac- terBERT（El Boukkouri et al. ，2020）和Char-BERT（Ma et al. ，2020）将字符级特征注入BERT，并从+v：mala2277获取更多论文∈/∈ VΣǁ−··我我我2抓痒.你知道该方法可以显著提高BERT的性能和鲁棒性，但需要在大量数据上预先训练自适应的Transformer。另一项关于打击拼写错误的工作建议在下游模型之前放置一个单词校正器（Pappii et al. ，2019），这是有效的和可重复使用的。这种方法的主要缺点是，字校正器产生的错误会传播到下游任务。例如，将“aleph”转换为“alpha”可能会事实上，使用单词校正器会导致BERT在SST数据集上的性能下降（0.5-2.0个百分点）（Socher et al. ，2013）。2.3对比学习对比学习的起源可以追溯到3预赛3.1类Mimick模型给定预训练的词嵌入，并给定 OOV 词，MIMICK的核心思想（Pinter et al. ，2017年）是使用词的表面形式来估算OOV词的嵌入，以便模仿已知嵌入的行为。 BoS（ Zhaoetal. ， 2018 ）、 KVQ-FH （ Sasaki et al. ，2019 ），鲁棒回退估计（ Fukuda et al. ，2020）和PBoS（Jinman et al. ，2020）工作类似，我们称之为模仿类模型。形式上，我们有一个固定大小的词汇集V，嵌入矩阵W∈ R| V| ×m，其中每行是单词w的单词向量uwRm。一个类似mimick的模型的目的是为任意的单词w赋予一个向量vw。mimick类模型的训练目标是最小化uw和vw对之间的回到贝克尔和辛顿（1992年）和布罗姆利等人的工作。（1993年）。该方法具有Ldis =1（u|w ∈V|w∈V，vw（1）在自我监督这里，λ（·）是距离函数，例如，欧盟-图像表示学习（Oord et al. 、2018; Hjelm et al. ，2018; He et al. ，2020年;陈clidean距离=uw距离-vw02或余弦等人，2020; Grill et al. ，2020）。对比学习框架通过将正对拉在一起并将负对分开来从未标记的数据中学习表示对于训练，阳性对通常通过采取相同样本的两个随机增强版本并将小批量内的其他增强示例视为阴性示例来获得（Chen et al. ，2017，2020）。最广泛使用的损失是信息损失（或对比损失）（Hjelm etal. ，2018; Lo-geswaran and Lee，2018; Chen etal. ，2020年;他等人，2020）。虽然许多方法采用对比学习来表示句子（Giorgiet al. ，2020; Wu et al. ，2020; Gao et al. ，2021），它迄今尚未被应用于单词表示。输入编码器丢失n= 1cos（uw，vw）。向量vw是由以下等式生成：vw=φ（φ（w）），对于w∈V或w∈/V（2）在这里，Wu（）是基于单词的表面形式将w映射到子单元列表的函数（例如，字符或子字序列）。之后，序列被馈送到函数φ（）中以产生向量，内部结构可以是CNN，RNN或简单的求和函数。经过训练后，该模型可以为任意单词输入向量。表1显示了三个类似mimick的模型的一些特性。3.2对比学习对比学习方法在图像表示方面取得了显著的成功（Oord et al. ，2018; Chen et al. ，2020）。这些的核心思想米米克（2017年）BoS（2018）KVQ-FH（2019）字符序列{s，p，e，l，l}n元子字{spe，pel，ell}自适应n元子字{spe，pel，ell}RNNsLdis总支出请注意，方法的一个重要方面是鼓励正对的学习表示接近，而将来自采样的负对的表示推开。广泛使用的对比损失（ Hjelm et al. ， 2018;Logeswaran and Lee，2018; Chen et al. ，2020;Heet al. ，2020）定义为：表1：不同的模仿类模型的细节，单词拼写作为一个例子。esim（uTu+）/τlcl=−logesim（uTu+）/τ+logesim（uTu−）/τ（3）W+v：mala2277获取更多论文···∈这里，τ是温度参数，sim（）是诸如余弦相似度的相似度函数，并且（ui，u+）、（ui，u-）分别是正对和负对（假设所有向量被归一化）。在训练过程中，通常通过对同一样本进行扩增来获得阳性对，并且阴性样本是小批次中的其他样本这个过程学习在一定程度上对噪声因素保持不变的表示4我们的方法：爱LOVE（LearningOut-of-VocabularyEmbeddings）利用对比学习的原理，最大限度地提高目标向量和生成向量之间的相似性，并将否定向量对分开。图3显示了我们框架的概述。它的灵感来自视觉表征学习（Chen etal. ，2020），但不同之处在于，正对中的一个是从预先训练的嵌入获得的，而不是使用两个增强版本。在这个框架中，我们采用了五种新颖的词级此外，我们发现在训练过程中添加硬否定可以有效地产生更好的表示。我们在编码器层之后删除了非线性投影头，因为它的改进是针对视觉领域中的此外，我们的方法不是一个无监督的对比学习框架，而是一个监督学习方法。我们的框架从原始词汇表中提取一个词，数据例如，“misspelling”在去掉一个字母“s”后变成了“mispelling”。接下来，我们从原始单词的预训练嵌入中获得目标向量，并为损坏的单词生成向量这两个向量是一对正样本，我们最大化它们之间的相似性，同时使负对（同一小批次中的其他样本）的距离尽可能大。如前所述，我们使用对比损失作为目标函数（公式3）。我们将在下面详细介绍框架中的五个关键要素（类似于表1中的要素）：输入法，编码器，损失函数，数据增强和硬否定的选择。4.1输入法我们的目标是使用表面形式来为单词赋予向量。因此，问题是如何设计第3.1来表示每个输入单词。 MIMICK（Pinteret al. ，2017）直接使用字符序列（见表1）。然而，这丢失了词素的信息，即，一系列的字符共同构成了一个意义。因此， FastText （ Bojanowski etal. ，2017）采用字符n-gram。然而，这样的n元语法是高度冗余的。例如，如果我们使用长度为3到5的子串来表示单词拼写错误，我们得到一个包含24个n-gram字符的列表因此，像BERT一样，我们使用WordPiece（Wu et al. ，2016），词汇量大约为30000，以获得输入单词的有意义的子单词。对于单词拼写错误，这产生{miss，##pel，##ling}。然而，如果我们只是交换两个字母（比如打字错误），那么序列就完全不同了： {mi ， ##sp ，##sell，##ing}。因此，我们同时使用字符序列和子字（图A1）。我们缩小我们的词汇量，通过词干提取所有单词，只保留每个单词的基本形式，并通过删除带有数字的单词这将词汇量从30 000减少到21 257 ，而不会太多地降低性能（第 A.1节）。4.2编码器现在让我们设计3.1节中提到的函数φ（）。我们正在寻找一个可以编码局部特征和全局特征的函数。局部特征是字符n-gram，它提供了对字符交换或遗漏等微小变化的鲁棒性。全局特征结合了局部特征，而不管它们之间的距离。对于拼写错误的单词，可以通过结合单词开头和结尾的局部信息来获得前缀和后缀的错误模式。传统的CNN、RNN和自我注意力不能同时提取这种局部和全局信息。因此，我们设计了一个新的位置注意模块。假设我们有一个前面提到的混合输入序列和一个对应的嵌入矩阵VR| V|其中d是向量的维数。然后，输入可以由向量列表表示：X ={x1，x2，.，xn} ∈ Rn×d，其中n是+v：mala2277获取更多论文.Σ∈L·“拼写错误”最大化相似性“拼写错误”编码器图3：LOVE的框架，以单词拼写错误为例。输入的长度。为了提取局部信息，我们首先采用位置注意来获得n-gram正对之间的距离（接近度）特征，然后将它们馈送到传统的自我关注层中，以将它们组合成全局l对齐， E（x，y）双极正n（ux，uy）（6）路上了这可以写成：X<$=SA（PA（X））WO（4）这里，ppos是正对的分布。均匀性测量学习的表示是否均匀分布在超球体中：这里，SA是标准的多头自我注意，PA是位置注意。WO∈RdV×dOl均匀，logE（x，y）i. d.p数据e-t·（ux，uy）（7）是一个可训练的参数矩阵，其中dV是SA和PA中的值的维数，d O是X的维数。至于位置注意，我们采用绝对正弦嵌入（Vaswaniet al. ，2017）来计算位置相关性：这里，pdata是数据分布，t >0是参数。这两个性质与我们预期的词表示是一致的：积极的词对应该保持接近，消极的词对应该彼此远离，最终分散在超球上。PA（X）=SoftmaxPPT布吕德（XWV）（5）4.4数据扩充和硬否定我们的积极词对是由数据aug-这里，P∈Rn×d是位置嵌入，WVRd×dV是相应的参数。eters。关于编码器的更多细节在附录C. 4中。4.3损失函数在本节中，我们重点讨论损失函数（）。模仿类模型通常采用均方误差（MSE），它试图给具有相同表面形式的单词类似的嵌入。然而，MSE只会拉近正单词对，而不会将负单词对分开。因此，我们使用对比损失代替（等式3）。Wang和Isola（2020）发现对比损失优化了两个关键属性：对齐和均匀性。对齐描述了预期的mentation，它可以通过使用现有数据来增加训练样本的数量我们使用各种策略（图4）来增加训练样本的多样性：（1）交换两个相邻字符，（2）删除一个字符，（3）插入一个新字符，（4）根据键盘距离替换一个字符，（5）用同义词替换原单词。前四个增强最初是为了防止对抗性攻击而设计的（Pappii et al. ，2019）。我们增加了同义词替换策略，以保持语义相似的词接近嵌入空间具体来说，通过从像FastText这样的预先训练的嵌入式中重新提取最近的邻居来数据增强预训练嵌入+v：mala2277获取更多论文--12n12n--每个子字：E_out={e_out，e_out，...， eout}。怎么--掉期下跌插入键盘同义词图4：单词拼写错误的不同增强的插图。否定词对通常从小批量中随机选择然而，我们训练我们的模型对硬否定（或困难否定）具有特别的弹性，即，具有相似表面形式但不同含义的单词（例如，拼写错误和消除）。为此，我们通过选择不是同义词并且具有小编辑距离的单词对，向小批量4.5模仿动态嵌入预先训练的语言模型（例如， ELMo（Petersetal. ，2018）和BERT（Devlin et al. ，2019））基于特定上下文动态地生成单词表示，这不能被直接模仿。为此，我们有两种选择：我们可以在多层注意力之前学习BERT中输入嵌入的行为，或者模仿静态提取嵌入（Bommasani etal. ，2020;Gupta and Jaggi，2021）.我们用BERT作为例子来解释这两种方法。假设我们在将WordPiece应用于句子后有一个子词序列：W= w1，w2，.，w n.对于子字序列W，BERT首先将其表示为子字嵌入的列表：Ein= esub，esub，...，esub. 我们将这种静态表示称为BERT的输入我们称这种方法为mimick- ing输入嵌入。为了便于实现，我们只从那些没有被分割成碎片的单词中学习在该步骤之后，BERT将多层多头注意力应用于输入嵌入Ein，这产生了用于然而，这些语境表征根据输入句子而变化，我们不能直接从它们中学习相反，我们选择模仿BERT中提取的静态嵌入，这些静态嵌入是通过汇集（最大或平均）不同句子中单词我们称之为模仿提取嵌入的方法。后者允许更好的单词表示，而前者不需要在大规模语料库上进行训练。我们的实证研究表明，模仿蒸馏嵌入的表现只会稍微好一点。因此，我们决定学习BERT的输入嵌入，这是简单而有效的4.6即插即用我们的模型的一个主要优点是它可以作为其他模型的插件对于像FastText这样具有静态单词嵌入的模型，可以简单地使用我们的模型来生成未见过单词的向量。对于像BERT这样具有动态单词嵌入的模型，如果单个单词被标记为几个部分，例如，拼写错误 = {miss ，##pel，##ling}，则我们将其视为OOV单词。然后，我们将子词的嵌入替换为由我们的模型在注意力层之前产生的单个嵌入。我们最终的增强BERT模型有768个维度和16M个参数。请注意，BERT基础模型具有约110 M参数，其蒸馏模型具有约550 M参数。5实验5.1评价数据集评价词的表现形式主要有两种方法：内在的和外在的。内在评估直接测量词之间的句法或语义词簇中的词相似度。外部评估测量作为下游任务的输入特征的词嵌入命名实体识别（NER）和文本分类。几项研究表明，内在和外在评估结果之间没有一致的相关性（Chiu etal. ，2016; Faruqui et al. ，2016; Wang等人，2019）。因此，我们评估我们的代表性的内在和外在的指标。具体来说，我们使用8个内在数据集（6个单词相似性和2个单词聚类任务）： RareWord （ Luong et al. ， 2013 ）、SimLex（Hill et al. ，2015）、MTurk（Halawiet al. ， 2012 ）、 MEN （ Bruni et al. ，2014），WordSim（Agirremi sspelling ->heterographymisspe lling-> misspe llingmi sspelling-> mo sspellingmisspel ling-> missple ling错误的拼写->错误的拼写+v：mala2277获取更多论文参数嵌入其他RareWordSimLex词汇相似度MTurkMENWordSimSimVerb词簇APBLESSAvg快速文本（2017）969M-48.130.466.978.168.225.758.071.555.9电影MIMICK（2017）9M517K27.115.932.536.515.07.559.372.033.2BoS（2018）500M-44.227.455.865.553.822.141.839.043.7KVQ-FH（2019）12M-42.420.455.263.453.116.439.142.541.6爱6.3M200K42.235.062.068.855.129.453.251.549.7表2：内在任务的表现，以Spearman的ρ和词相似性和聚类的纯度来衡量在模仿类模型中表现最好的是粗体，其次是下划线。参数嵌入其他sST2原创+错别字先生原创+错别字CoNLL-03原创+错别字BC2GM原创+错别字Avg快速文本（2017）969M-82.360.573.362.286.466.371.853.469.5编辑距离969M--67.4-68.3-76.2-66.6-电影MIMICK（2018）9M517K69.762.373.661.468.065.256.656.764.2BoS（2018）500M-79.772.673.669.579.568.666.461.571.5KVQ-FH（2019）12M-77.871.472.966.573.170.446.253.566.5爱6.3M200K81.473.274.466.778.669.764.763.871.6表3：外在任务的性能，分别以文本分类和NER的准确性和F1（五次不同学习率）来衡量。错别字是由OCR引擎的模拟错误生成的（Ma，2019）。编辑距离和LOVE生成词向量的速度分别为380秒/万字和0.9秒/万字等人， 2009 ）、 Simverb （ Agirre et al. ，2009）、AP（Al-muhareb，2006）和BLESS（Baroni和Lenci，2011）。我们使用四个外部数据集（2个文本分类和2个NER任务）：SST2（Socher et al. ，2013）、MR（Pang和Lee，2005 ）、 CoNLL-03 （ Sang 和 De Meulder ，2003）和BC 2GM（Smith et al. ，2008）。值得注意的是，RareWord数据集包含许多长尾词，而BC2GM是一个特定领域的NER数据集。所有数据扩充和排印模拟均由NLPAUG1实现。附录B提供了关于我们的数据集和实验设置的更多细节。5.2内在任务的结果表2显示了8个内在任务的实验结果与其他mimick类模型相比，我们的模型在8个数据集上获得了最好的平均得分，同时使用了最少的参数。具体来说，我们的模型在5个单词相似性任务上表现最好，在单词聚类任务上表现第二好虽然我们的模型和原始FastText之间存在差距，但我们发现我们的性能是可以接受的，因为我们的模型小了100倍5.3外部任务的结果表3显示了四个下游数据集及其损坏版本的结果。在这个实验中，我们引入了另一个重要的基线：编辑距离。对于每个损坏的单词，我们发现1https://github.com/makcedward/nlpaug使用编辑距离从词汇表中提取最相似的单词，然后使用检索到的单词的预训练向量考虑到时间成本，我们只使用FastText中出现的前20K个单词（2M单词）作为参考词汇。通过模拟OCR后的错误来生成错别字对于原始数据集，与其他mimick类模型相比，我们的模型在2个数据集上获得了最好的结果，在NER数据集上获得了第二好的结果。对于损坏的数据集，FastText模型的性能下降了很多，我们的模型是第二好的，但与BoS的分数非常与其他类似mimick的模型相比，我们的6.5M模型获得了最好的平均得分。虽然编辑距离可以有效地恢复单词的原始含义，但它比我们的模型耗时400倍。5.4耐用性评价在这个实验中，我们通过逐渐添加模拟的OCR 后错别字来评估我们模型的鲁棒性（Ma，2019）。表4显示了SST 2和CoNLL-03数据集的性能。我们观察到，我们的模型可以提高原始嵌入的鲁棒性，而不会降低其性能。此外，我们发现我们的模型可以使FastText比其他常用的方法对看不见的单词更鲁棒：一个通用的UNK令牌或字符级的神经网络表示。图5显示了鲁棒性-+v：mala2277获取更多论文SST2 CoNLL-03排印概率原始10% 30% 50% 70% 90%原始10% 30% 50% 70% 90%平均静态嵌入fastText82.368.259.856.757.860.386.481.678.973.970.263.470.0快速文本+爱82.179.874.974.268.867.286.384.781.877.573.171.376.8动态嵌入伯特91.588.278.974.769.060.191.289.886.283.479.976.580.7BERT + LOVE91.588.383.777.472.763.389.988.386.184.380.878.382.1表4：在模拟的OCR后错别字下对文本分类和NER的鲁棒性评估（不同学习率的五次运行我们分别对SST 2和CoNLL-03使用了未封装和封装的BERT基模型。706050403020100CoNLL-03数据集参数RareWordSST2嵌入其他The original LOVE 6.3M 200K 42.2 81.4改变输入法仅使用Char 299K 200K 17.7 71.5仅使用Subword 6.0M 200K 25.3 76.0改变编码器图5：在打字错误下基于FastText的不同方法的评估。检查不同的策略。FastText+LOVE在SST 2和CoNLL-03数据集上都有一致的改进。与此同时，LOVE对原始数据集的性能只会有轻微的降级。5.5消融研究我们现在改变我们的架构中的组件（输入法，编码器和损失函数），以证明我们的架构的有效性。输入法为了验证我们的混合输入策略的效果，我们将其与其他两种表5显示了Mixed方法实现了更好的表示，任何删除字符或子字信息的操作都会降低性能。编码器。为了对输入序列进行编码，我们定义了位置注意模块（PAM），它首先提取类似于ngram的局部特征，然后使用自注意将它们组合在一起，而不受距离限制。表5显示PAM表现最好，这验证了我们在单词中合并局部和全局部分的策略。同时，参数的数量表5：LOVE结构的消融研究，测量为Spearman相比之下，PAM是可以接受的我们在附录C.4中可视化PAM的注意力权重，以显示编码器如何提取单词的局部和全局形态特征。损失函数爱使用对比损失，这增加了一致性和一致性。Wang和Isola（2020）证明，直接优化这两个指标会导致与原始对比损失相当或更好的性能这样的损失函数可以写为：lau=l align+λ·l uniform（8）这里，λ是控制luniform的影响的超参数。我们将此值设置为1.0，因为它在RareWord和SST 2上获得了最好的平均分数。另一种方法是使用均方误差（MSE），就像在mimick模型中一样。表5比较了这些不同损失函数的性能。对比度损失明显优于均方误差，且无明显改善-VEFT+LONNUNKCharCextFastT模型一楼用CNN6.3M270K28.461.1用RNN6.3M517K27.267.2用SA6.3M-36.978.7改变损失函数使用MSE6.3M200K34.576.0使用Aau（λ= 1.（0）6.3M200K40.880.8消除数据扩充和硬否定无硬底片6.3M200K37.778.6无硬底片和增强6.3M200K37.878.2+v：mala2277获取更多论文sST2每句打字错误typo-0 typo-1 typo-2 typo-3伯特91.577.273.269.4模拟输入嵌入BERT +添加91.377.273.570.7BERT + Linear（2020）91.479.677.272.8BERT +替换91.581.478.773.6模仿蒸馏嵌入BERT +添加91.378.875.672.3BERT + Linear（2020）91.381.478.773.6BERT +替换91.481.578.973.8表6：与BERT一起工作的不同策略的性能，以五种不同学习率之间的准确性来衡量。通过直接使用对准和均匀性来测量。我们还尝试了不同温度τ的对比损耗，结果见附录中的表A3最后，τ=0的值。07提供了良好的性能。数据扩充和硬否定。在表5中，我们观察到去除硬否定会降低性能，这证明了具有相似表面形式的语义不同的单词的重要性。爱使用五种类型的词增强。我们发现，去除这种增强并不会使单词相似性任务的性能下降太多，而它会导致文本分类任务（表5中的最后一行）下降0.4分，其中数据增强证明有助于处理拼写错误。我们在图A3和图A4的附录中进一步分析了RareWord和SST 2上的单一和复合增强的性能。我们发现，所有五种类型的组合产生最好的结果。5.6模拟BERT的性能如4.5节所述，我们可以模仿BERT的输入或提取嵌入。在从 BERT 学习之后，我们使用LOVE生成的向量最后，这些新的表示被馈送到多层关注中。我们称这种方法为置换策略.为了验证其有效性，我们将其与其他两个基线进行比较：（1）线性组合（Fukuda et al. ，2020）。对于每个子字esub，将包含子字的字eword的生成向量添加到子字BERT的向量enew=（1−α）esub+αeword（9）α=S形（W·esub）其中esub∈Rd是BERT的子字向量，eword∈Rd是我们模型的生成向量W∈Rd是可训练的参数。（2）加入。将生成的词向量直接加到BERT对应的子词向量上：enew=esub+eword（10）表6显示了这些战略的结果。这些方法都能在不降低原性能的前提下，给BERT算法带来一定的鲁棒性，证明了该框架的有效性第二，替换策略一致地表现最好。我们推测BERT不能为那些被标记成子词的罕见的和拼写错误的词恢复合理的含义，并且我们生成的向量可以位于空间中的原始词附近第三，我们发现模仿蒸馏嵌入的性能最好，而模仿输入嵌入的性能接近。考虑到第一种方法需要在大规模数据上进行训练，模仿输入嵌入是我们的选择。6结论我们已经提出了一个轻量级的对比学习框架，爱，学习单词表示，即使在面对词汇表外的单词是强大的通过一系列的实证研究，我们已经表明，我们的模型（只有6.5M参数）可以实现类似的，甚至更好的词嵌入的内在和外在的评价相比，其他模仿类模型。此外，我们的模型可以以即插即用的方式添加到具有静态嵌入（如FastText）或动态嵌入（如BERT）的模型中，并在那里带来显着的改进。对于未来的工作，我们的目标是将我们的模型扩展到英语以外的语言。7确认我们衷心感谢所有评论家的深刻评论和有益的建议。这项工作由 ANR-20-CHIA-0012- 01（“NoRDF”）提供部分+v：mala2277获取更多论文引用Eneko Agirre，Enrique Alfonseca，Keith Hall，JanaKravalova，Marius Pasca，and Aitor Soroa. 2009.基于分布和词网的相似性和相关性研究。Abdulrahman Almuhareb. 2006. 词汇习得中的属性。博士Essex University埃塞克斯大学马可·巴罗尼和亚历山德罗·兰奇。2011.我们如何祝福分布式语义评估。在GEMS 2011自然语言语义学地理模型研讨会的Proceedings中，第1-10页。苏珊娜·贝克尔和杰弗里·E·辛顿。1992.自组织神经网络，在随机点立体图中发现表面。Nature，355（6356）：161- 163.Yonatan Belinkov和Yonatan Bisk。2018. 合成噪声和自然噪声都会破坏神经机器翻译。在国际学习代表会议上。PiotrBojanowski ， EdouardGrave ， ArmandJoulin，and Tomas Mikolov. 2017.用子词信息丰富词向量。 Transactions of the Association forComputational Linguistics，5：135Rishi Bommasani Kelly Davis 和Claire Cardie 2020.通过减少静态嵌入来解释预训练的上下文化表示。第58届计算语言学协会年会论文集，第4758- 4781页。Jane Bromley 、 James W Bentz 、 Léon Bottou 、Isabelle Guyon 、 Yann LeCun 、 Cliff Moore 、Eduard Säckinger和Roopak Shah。一九九三年使用 “ 连体 ” 时延神经网络的签名 InternationalJournalofPatternRecognitionandArtificialIntelligence，7（04）：669EliaBruni ， Nam-KhanhTran ， andMarcoBaroni.2014年。多模态分布语义。人工智能研究杂志，49：1Kris Cao和Marek Rei。2016年。一个词嵌入和词形态学的联合模型第一届NLP集，第18TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton.2020年。视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR。陈婷，孙益州，岳石，洪良杰。2017.基于

下载后可阅读完整内容，剩余1页未读，立即下载