TABAS：基于注意力分数的文本增强模型，提高文本分类性能，降低深度学习模型制作额外数据集成本

24 浏览量更新于2024-01-09 收藏 763KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 8（2022）549www.elsevier.com/locate/icteTABAS：基于注意力分数的文本增强文本分类模型Yeong Jae Yua，Seung Joo Yoonb，So Young Junb，Jong Woo Kima，a大韩民国汉城汉阳大学商学院b大韩民国首尔汉阳大学商业信息学系接收日期：2021年8月18日;接收日期：2021年10月12日;接受日期：2021年11月3日2021年11月16日网上发售摘要为了提高文本分类的性能，我们提出了基于注意力分数的文本增强（TABAS）。我们认识到，有必要制定一个选择替代词的标准，而不是随机选择。因此，TABAS利用注意力分数进行文本修改，只处理具有相同实体和词性标签的单词，以考虑信息方面。为了验证这种方法，我们使用了两个基准任务。因此，TABAS可以显着提高递归和卷积神经网络的性能。此外，我们证实，它通过节省制作额外数据集的成本，为开发深度学习模型提供了一种实用的方法版权所有2021作者。由爱思唯尔公司出版代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：注意机制;数据增强;自然语言处理;文本分类1. 介绍文本分类，如情感分析和主题分类，是自然语言处理的主要任务之一。由于它可以用于许多工业领域，许多研究人员最近提出了一些方法来补充和改进深度学习模型[1]。要通过减少模型过拟合来使这些模型鲁棒。鲁棒模型通常需要大量高质量数据的支持然而，在实践中，获得这样高度适合于特定任务的数据集并不容易。此外，在监督学习中获得足够质量的数据是具有挑战性的，因为模型训练需要标记的数据集。因此，获取用于模型开发的适当数据集是昂贵且耗时的。数据增广可以通过解决这些问题来帮助建立有效的模型。特别地，这些技术主要用于图像增强。这是因为图像比文本更容易通过翻转，旋转等方式进行更改[2但很难*通信地址：大韩民国汉城市城东区旺西尼路222号汉阳大学商学院，邮编：04763电子邮件地址：uyeongjae@hanyang.ac.kr（Y.J. Yoon），thingjoo@hanyang.ac.kr（S.J. Yoon），thdud1282@hanyang.ac.kr（S.Y.Jun），kjw@hanyang.ac.kr（J.W.Kim）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2021.11.002直接将这些方法应用于文本数据，因为当字母或单词被擦除或位置改变时，含义可能会改变。因此，大多数文本数据扩充技术使用几种方法来保留数据的含义。相关研究表明，通过随机选择单词，然后使用词库和WordNet修改它们，可以提高模型然而，这种增强方法有可能修改对预测目标标签具有较小影响的单词。如果发生这种情况，从模型的角度来看，结果就像是对原始数据进行了两次学习。因此，我们确定一个标准是必要的，而不是随机挑选出的话要修改时，增加数据。我们利用每个单词对标签预测有不同影响的事实。为了使增强数据与原始数据区分开来并具有作为新数据进行训练的意义，应该改变用于预测标签的信息词。为了通过选择信息词进行标签预测来真实地修改句子，我们使用注意力机制和具有词性（POS）和命名实体识别（NER）标签的词典。TABAS通过仅选择对基于注意力分数的标签预测具有更大影响的词来放大数据。然后，为了保持整个意义，它改变了用词，由具有命名实体的令牌组成的字典，词性标记这种方法不同于以往的2405-9595/© 2021作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）549550研究中，注意机制和标记器被用来精细地考虑词对目标标签的信息效果。我们的经验证实，TABAS有效地提高了文本分类模型的性能，通过数据增强。我们提出的技术进行了评估与两个基准分类任务。除了使用整个数据集之外，我们还验证了通过假设数据不足可以实现多少增强。在实验中，我们将不同类型的基准数据集应用于两种深度学习模型：递归神经网络（RNN ）和卷积神经网络（CNN）。2. 文献综述2.1. 注意机制注意机制是在使用序列到序列（Seq2Seq）模型执行机器翻译时引入的技术[8，9]。Seq2Seq是一个使用LSTM（长短期记忆）或GRU（门控递归单元）的模型，它来自RNN（递归神经网络）模型，用于编码器和解码器。然而，存在的问题是，在通过RNN的节点隐含句子的上下文向量的信息的过程中，当句子变长时，信息丢失。注意机制是用来克服局限性的。注意的基本原理是通过注意所有词之间的关系来获得反映权重的上下文向量，来自编码器的句子和来自解码器的每个时步的每个单词，然后连接现有的上下文向量。它不是以相同的速度关注所有输入句子，而是关注与该时间点预测特征最相似的输入序列。它在机器翻译领域表现出了更好的性能，即使在输入序列很长[10，11]。注意力机制不仅用于机器翻译，还用于文档分类[12]，图像字幕[13]，语法分析[14]和问答[15]等任务。2.2. 文本扩充数据增强技术经常用于提高深度学习模型的性能。早期的研究提出了主要针对图像数据的技术[2这是因为这些方法可以通过翻转，裁剪，旋转等非常有效地转换给定图像[16]。然而，这些技术不适合应用于文本数据，因为原始含义可以根据单词的存在和位置而改变。尽管有内在的局限性，最近的研究提出了可以保留文本特征的技术。研究可以分为两种途径：修改和生成。Wei和Zou（2019）允许使用四种操作进行简单的数据增强（ EDA ），即同义词替换（ SR ），随机插入（RI），随机交换（RS）和随机缺失（RD）。Xie等人（2019）提出了一种计算每个标记的术语频率逆文档频率（TF-IDF）值的方法，然后根据TF-IDF值改变单词[17]。Kobayashi（2018）提出了基于同义词词典的上下文增强或用聚合关系替换单词的技术。Kumar等人。（2020）提出了一种使用变压器双向编码器表示（BERT）的技术[19]。这种形式的修改是通过随机屏蔽单词，然后改变语言模型预测的单词来解决的。Sennrich等人（2016）首先提出了一种反向翻译技术[20]，Edmund等人（2020）详细分析了该技术，旨在最大限度地减少数据丢失[21]。这种技术通过将目标语言语料库翻译成源语言、创建与合成机器翻译并行的语料库并因此增加训练数据条目的数量来处理。Anaby-Tavor等人（2020）提出了基于语言模型的数据增强（LAMBADA）技术[22]。这种技术是通过基于数据集微调生成预训练-2（GPT-2）[23]模型，然后通过分类器标记句子来执行的它们是从原始数据集生成的我们提出的TABAS框架，以克服依赖的不足，作为一个词的修改为基础的方法。相关研究没有一个具体的标准来选择修饰语。然而，这种方法效率不高，因为并非所有的单词都具有相同的影响力标签的预测。此外，当信息量较少的标记主要被改变时，不容易显著增强模型的容量。换句话说，任意扩充的数据作为训练数据可能是无效的。因此，我们提出的TABAS方法，有效地改变只有解释能力的目标标签的话。3. 方法我们提出了基于注意力分数（TABAS）模型的文本增强作为一种新的技术，以提高文本分类器的性能（见图1）。它是一种新的文本数据增强方法，结合了注意力机制和现有的标注器的NER和POS。在这种方法中，使用测量的注意力分数来修改标记，而不是随机改变单词。TABAS框架可以分为两个步骤。第一步是为整个数据集准备模型。我们通过数据集训练一个注意力得分模型，然后构建一个单词字典，其中包括带有标签和标签的单词元组（wordn，tagm， labeli）。在第二步中，对于数据集中的每个句子，我们将句子标记化以及使用在步骤I中生成的注意力模型和单词字典来决定是否修改每个标记。3.1. 模型制备示例过程如图2所示，从原始句子到新句子。在模型制备之前YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）549551（）（）不∑图1.一、使用注意机制的TABAS框架。预处理是必要的，包括删除数据集中的特殊字符。注意力分数标记通过双向递归神经网络结构的文本分类模型进行，该模型使用输入序列中单词的注意力机制。此外，词性和实体名称标记是通过Python NLTK库中内置的POStagger1和NER2训练注意力评分模型。我们训练注意力得分模型。双向GRU（门控递归单元）[24]用于提取注意力分数。它允许有影响力的to- kens被赋予更高的权重，以他们的目标标签预测。图3示出了用于分类的模型的架构。在各种注意机制中，本研究利用了适应性注意[9]。这是Bahdanau等人（2014）开发的一种机制，已知其设计用于比Luong等人提出的点积注意力[25]稍微复杂一些。（2015年）。考虑整个训练数据集上长度为T的第i个输入序列。通过前馈神经网络，第j个输入令牌的注意力向量为：ei，j=score hi， T， hi，j=Wa=Wb hi， T+Wc hi，j，（1）其中hi，j是在该点处作为基于GRU的编码器的输出输入的第j个令牌的隐藏状态。Wa、 Wb、 Wc是要训练的权重矩阵。相应的注意力权重为：exp（ei，j）图二、基于TABAS方法的示例过程。图3.第三章。具有注意力机制的分类体系结构。通过对ei，j应用SoftMax函数得到输入序列中的词与目标标签之间的关系。上下文向量表示为：ci=∑αi，jhi，j，（3）αi， j=Tk=1exp（ei， k、（二））YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）549552j=1其也可以被称为加权和，1 https：//nlp. 这是一个很好的选择。这是一个很好的例子。HTML.2 https：//nlp. 这是一个很好的选择。edu/software/CRF-NER. HTML.将注意力权重和每个编码器的隐藏状态相乘，最后将它们加在一起。然后，上下文YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）549553（）下一页×vector成为softmax和线性层的输入，它们被添加到最终解码器输出以预测目标标签。建立单词词典。它是为给定数据集创建单词词典的过程。为了有效的增强，我们选择了NER和POS的标签，似乎有相对更多的影响目标值。选择的标签是三种类型的NER，包括一个人（PER），组织（ORG），和位置（），和四种类型的POS：动词（VB），副词（RB），名词（NN）和形容词（JJ）。接下来，将标记的单词与单词所属的标记和标签一起添加到字典中，并删除每个标记的重复单词。标签在词典中放在一起的原因是因为一个词可能偏向于特定的标签，并且只用于带有该标签的句子中3.2. 文本增强在为整个数据集准备好模型之后，具体的替换将在逐字的基础上进行。因此，整个数据集以句子为单位进行重构，而句子又被划分为单词单位分配注意力分数。通过训练的注意力模型，我们根据单词对标签预测的重要性为所有标记分配分数。因此，一段数据中的所有标记的注意力分数的总和导致：1，分数的差距使我们能够识别重要性的差异。标记POS和NER。针对每个孤立的单词，我们标记了Python中NLTK包中包含的NER和POS。然后，我们转换结构，连接每个词的NER和POS的标签。例如，“James”、“Disney”和“London”分别被分配PER、ORG和ESTA的NER标签。并且“is”、“working”、“at”、“in”分别被分配VBZ、VBG和IN的POS标签。修改词语以增加。为了构建相关的替代词，我们测量阈值，以决定是否修改每个令牌。我们定义了一个阈值，作为标记到单词的最高注意力分数的加权值在每一个数据。θi= w × max αi ， 1 ， αi ， 2 ， αi ， 3 ， . . . ， αi ， T ，（4）其中w具有用于加权最大值的恒定值注意力得分。这使得每个数据中被替换的单词的数量不同。为了在不改变句子整体含义的情况下仅替换部分单词，本研究将w设置为1/3，因为权重增加了最佳性能改善的可能性。Wei和Zou（2020）根据每次增强所替换的句子中单词的百分比来衡量性能增益[5]。因此，当对完整数据集执行同义词替换时，更改句子中约20%的单词表示最高的性能增益。虽然每个训练数据集大小的结果不同，但在大多数情况下，在大约20%的替换率下可以保证稳定的性能。在这项研究中，权重进行了调整的替代率适合性能的改善。由于施加了重量，大约27%的TREC和18%的IMDb数据集被替换。然后，只有注意力分数超过阈值的单词才被字典中具有相同标签和标签的另一个单词改变。例如图2，只有“詹姆斯”和“迪斯尼”被修改，因为他们的注意力得分超过阈值。此外，“詹姆斯”被改为“迈克尔”，因为他们有相同的标签，PER。此外，“Disney”被“Google”替换，因为它们具有相同的标签ORG。通过不重新放置在评分基础上相对不重要的单词，我们只改变似乎影响预测的单词的目标标签。换句话说，可以避免生成用于有效学习的低价值数据4. 实验4.1. 实验设置数据集。我们使用两个文本分类数据集：（1）TREC（文本检索会议）是一个问题类型的数据集，有六个标签。（2）IMDb（互联网电影数据库）是一个用于二元情感分析的电影评论数据集，有两个标签：积极和消极。每个数据集分为训练数据（80%）和测试数据（20%）：第一个用于文本分类和应用数据增强技术，最后一个用于评估增强模型的增强效果。所有训练数据集以25%、50%、75%和100%的比率随机提取，以根据训练数据集的大小测量差异对性能改善的影响。该模型还可以衡量数据不足的情况用于比较的基线。为了评估所提出的模型的性能，我们利用数据增强方法，不考虑令牌的目标变量预测的影响这些方法基于POS、NER或结合这两种方法的方法随机替换单词。首先，基于词性标记的方法处理单词词典。如果每个单词的POS属于词典中所选的标签，则将其随机替换为具有相同POS的单词。接下来，基于NER的词替换，并且POS标记还反映实体名称和所有代币的POS。当每个单词的NER或POS是七个标签之一，它也可以被字典中的任何单词替换。文本分类模型。为了验证我们提出的方法的有效性，我们使用两种文本分类模型进行实验：RNN [24]和Text-CNN [26]。用RNN对文本分类的嵌入是128维的，隐藏状态是256维的单层，具有全连接神经网络的结构。接下来，在CNN的模型中，嵌入是128维，滤波器的大小是3128。此外，过滤器的数量为100，具有完全连接的神经网络结构，包括最大池化。在两个模型的实验中，学习率都是0.001，损失函数是交叉熵函数，我们使用Adam作为优化器。在IMDb的情况下，数据的最大长度为500，并使用sigmoid函数进行激活YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）549554===表1TREC数据集的平均性能（%）结果模型训练规模25% 50% 75% 100%+（无）74.46 79.08 83.51 84.34+POS 76.34 79.82 84.00 85.32性能的最大改进，为两种型号产生最高的平均3.8%。值得注意的是，所有病例的平均改善率使用RNN为3.12%，使用CNN为2.84%。IMDb的结果使用IMDb数据集（N25，000），我们计算文本类的平均性能（%）-RNNCNN表2+净入学率+NER POS 76.04 79.90 84.20 85.62+TABAS77.90 82.96 85.42+（无）77.39 81.97 84.22 86.13+POS 79.18 83.10 84.37 86.46净入学率80.98 83.84 86.28 87.74+NER POS 79.42 83.04 84.56 87.27+TABAS（见表2）。比较结果，所提出的方法，TABAS，在所有情况下表现出最高的性能。当提取25%（N6250）的训练时的结果数据也显示了最大的改善，两种模型的平均值最高为3.8%。特别是，在所有情况下使用TABAS时，RNN的平均改善率为2.46%，CNN为1.02%IMDb数据集的平均性能（%）结果模型训练规模25% 50% 75% 100%+（无）71.53 80.25 83.48 85.224.3. 讨论进一步研究BERT。我们基于预训练的BERT（基础）模型进行了额外的实验[27]RNNCNN表3+POS 76.70 82.32 84.11 85.36+净入学率+NER POS 77.31 82.37 84.25 85.34+TABAS+（无）80.66 83.44 84.72 85.55+POS 80.75 83.68 85.16 85.85净入学率81.19 83.73 85.18 85.70+NER POS 80.76 83.71 85.26 85.72+TABAS相同的数据集。隐藏状态有768个维度用于表示。使用5e-5学习率的Adam优化器进行五个时期的训练。结果示于表3中。虽然使用BERT时数据增强的影响可以忽略，但使用TABAS或NER的方法对性能的影响更大。BERT是一个预先训练的语言模型，有大量的语料库，因此通过数据增强获得的性能低于使用其他深度学习模型进行的分析。同时，精度根据BERT的平均性能（%）结果数据集训练大小伯特数据集。在TREC的情况下，由于原始数据集很小，使用TABAS或NER的数据增强是有效的。+（无）+POS + NER + NER& POS +TABAS25%92.6293.8395.0894.4994.49另一方面，虽然数据扩充影响IMDb中的性能，但增益不如TREC中高TREC50% 94.88 96.2996.9595.98 96.56数据集。然而，当添加数据增强技术时，除了当训练大小为100%时，呈现出更好的准确性。似乎一种数据扩充方法在数据稀缺的情况下是必要的。此外，BERT还存在一个问题，即使在微调方面也比其他深度学习模型花费更多的时间和成本。因此，我们提出TABAS作为一种方法，可以有效地提高性能的训练时间和计算资源的约束下在这两种模式中发挥作用。同时，对于TREC数据集，句子的最大长度为200，并使用SoftMax激活函数。为了评估模型的性能，该标准是基于准确性，这是衡量十倍交叉验证后的实验结果的平均值。4.2. 实验结果TREC的结果。我们用基线方法或TABAS运行了两个模型。首先，使用TREC数据集（N5452），我们测量平均性能（%），如表1所示。作为性能比较的结果，TABAS的文本分类表现出最高的性能。在此外，提取25%的情况（N=1363）表明，讨论我们证实了TABAS是一种有效的文本增强方法。这种改进因训练集和标记器的大小而异。通过使用25%、50%、75%的训练数据集进行实验，除TABAS外，NER在大多数情况下都比POS标注成功。这似乎是由于NER的特定标记，因为POS标记器可以简单地将单词标记为名词，并将其分割为人，地点和组织作为命名实体。同时，当从所有情况中提取25%的训练数据时，性能增长最高。最小数据集中的文本增强对基线的影响比对较大数据集的影响我们希望，未来的研究将鼓励TABAS建立的逻辑标准选择的话来取代的影响。百分之七十五96.9596.95 96.9596.5697.93百分百97.6695.98 96.8896.1797.66百分之二十五86.6185.6386.8485.4385.77IMDb50%87.6886.3488.1086.1987.00百分之七十五88.8986.4688.9286.7487.31YJ Yu，S.J.Yoon，S.Y.军等人ICT Express 8（2022）5495555. 结论我们提出了TABAS技术与注意力机制，并检查文本增强的效率。TABAS使用注意力分数和两个不同的标签：POS和NER。使用特定的POS和NER标记，该模型构建了一个单词词典。该模型将超过阈值的单个单词转换为另一个具有相同标签和标签的单词。我们发现，所提出的方法可以是一个有效的策略，在增强定性文本数据。它优于深度学习模型的其他方法：RNN和Text-CNN。我们的贡献如下：该方法通过基于注意力分数模型和POS和NER标记器替换单词来转换数据集。TABAS已经表明，文本数据可以被增强，而不管数据集的类型。因此，利用该方法有效地提高文本分类模型的性能是切实可行的。还有几个问题有待探讨。首先，我们没有处理由于输入令牌的各种替换比率时间和精力的限制。尽管相关研究为具体权重提供了依据，但很难将其推广到所有数据增强研究。如果我们在未来的研究中考虑多个权重进行替换，可以预期更好的性能。此外，我们只使用基本的NER或基于POS的增强作为基线方法。为了更可靠地验证单词词典的质量，有必要比较最新的数据增强技术。竞合利益作者声明，他们没有已知的可能影响本文所报告工作引用[1] S.莱湖，澳-地Xu，K. Liu，J. Zhao，Recurrent convolutional neuralnetworks for text classification ， in ： Proceedings of the NationalConference on Artificial Intelligence，2015。[2] 王杰湖，加 - 地 Perez ， The effectiveness of data augmentation inimageclassificationusing deep learning。arXiv，2017年。[3] M.D.布洛伊斯角Stocker，A. Holzinger，Augmentor：An image aug-mentationlibraryformachinelearningarXiv，2017，http://dx.doi.org/10.21105/joss.00432.[4] A. Mikoajczyk，M. Grochowski，用于改进图像分类问题中深度学习的数据增强，在：2018年国际跨学科博士研讨会，IIPhDW2018，2018，http://dx.doi。org/10.1109/IIPHDW.2018.8388338。[5] J. Wei，K.邹，埃达：用于提高文本分类任务性能的简单数据增强技术，见：EMNLP-IJCNLP 2019-2019自然语言处理经验方法会议和第9届自然语言处理国际联合会议，会议记录，2020年，http://dx.doi.org/10。18653/v1/d19-1670。[6] V. Marivate，T. Sefara，通过全局增强方法改进短文本分类，在：机器学习和知识提取的国际跨领域会议，Springer，Cham，2020年，pp. 385-399.[7] D. Zhang，T. Li，H.张湾，澳-地Yin，关于极端多标签分类的数据增强，2020，arXiv预印本arXiv：2009.10778。[8] I. Sutskever，O. Vinyals，Q.V. Le，Sequence to sequence learningwith neural networks，《神经信息处理系统进展》，2014年，第100页。3104-3112[9] D.巴赫达瑙角周，Y。Bengio，通过联合学习对齐和翻译的神经机器翻译，2014，arXiv预印本arXiv：1409.0473。[10] A.瓦斯瓦尼北沙泽尔，北帕尔玛湖，加-地琼斯，A.N.戈麦斯。. . I.Polosukhin，注意力是你所需要的一切，在：神经信息处理系统的进展，2017年，第10页。5998-6008[11] Y. Wu，M.Schuster，Z.Chen，Q.V.Le，M.Norouzi，W.马切雷，. J. Dean，Google[12] X.太阳，W。Lu，理解文本分类的注意力，在：计算语言学协会第58届年会论文集，2020年，pp. 3418-3428[13] K. Xu，J. Ba，R. Kiros，K. Cho，A.库维尔河萨拉胡季诺夫Y.Bengio ， Show ， attend and tell ： Neural image caption generationwithvisual attention ， in ： In International Conference on MachineLearning，PMLR，2015，pp. 2048-2057年。[14] O. Vinyals，Kaiser，T. Koo，S.彼得罗夫岛Sutskever，G. Hinton，Grammar as a Foreign Language ， Adv. Neural Inf. Process. 28（2015）2773-2781。[15] A. Kumar ， O.Irsoy ， P.Ondruska ， M.Iyyer ， J. 布拉德伯里岛Gulrajani，. R. Socher ， Ask Me Anything ： Dynamic Memory Networks forNaturalLanguage Processing，在：国际机器学习会议，PMLR，2016年，pp. 公元1378-1387年。[16] C.缩短，T. M。Khoshgoftaar，关于深度学习的图像数据增强的调查，J. Big Data（2019）http://dx.doi.org/10.1186/s40537-019-0197-0。[17] Q.谢、Z. Dai、黄毛菊E. M.T.霍维Luong，Q.V. Le，无监督数据增强一致性训练。arXiv，2019年。[18] S. Kobayashi，上下文增强：具有聚合关系的数据增强bywords，在：NAACL HLT 2018-2018计算语言学协会北美分会会议：人类语言技术-会议论文集，2018年，http://dx.doi.org/10.18653/v1/n18-2072。[19] V. Kumar，A. Choudhary，E. Cho，使用预训练的Transformer模型的数据增强。arXiv，2020年。[20] R.森里希湾Haddow，A. Birch，Improving neural machine translationmodels with monolingual data ， in ： 54th Annual Meeting of theAssociation for Computational Linguistics，ACL 2016，2016，http：//dx.doi.org/10.18653/v1/p16-1009，Long Papers.[21] S.爱德华，M.奥特，M. Auli，D. Grangier，理解大规模的回译，在：2018年自然语言处理经验方法会议论文集，EMNLP 2018，2020，http://dx.doi.org/10.18653/v1/d18-1045。[22] A.阿纳比-塔沃尔湾Carmeli，E. Goldbraich，A. Kantor，G. Kour，S.Shlomov，. N. Zwerdling，没有足够的数据？深度学习拯救世界！arXiv，2019，http://dx.doi.org/10.1609/aaai.v34i05.6233。[23] A. Radford，J. Wu，R. Child，D. Luan，D.阿莫代岛Sutskever，Language models are unsupervised multitask learners，OpenAI Blog 1（8）（2019）9.[24] K. 乔湾，巴西-地Van Merriënboer角Gulcehre，D.Bahdanau，F.布加雷斯，H. Schwenk，Y. Bengio，使用RNN编码器-解码器进行统计机器翻译的学习短语表示http://dx.doi.org/10。3115/v1/d14-1179。[25] M.T. Luong ， H. Pham ， C.D. Manning ， Effective approaches toattention-basedneuralmachinetranslation，2015，arXivpreprintarXiv：1508.04025。[26] Y. Kim，Convolutional neural networks for sentence classification，in：EMNLP 2014-2014 Conference on Empirical Methods in NaturalLanguage Processing，Proceedings of the Conference，2014，http：//dx.doi.org/10.3115/v1/d14-1181网站。[27] J. Devlin，M.W. Chang，K.李，K. Toutanova ，BERT：预训练用于语言理解的深度双向转换器，在：NAACL HLT 2019-2019计算语言学协会北美分会会议：人类语言技术-会议论文集，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载