多语言和多领域单语言环境下复杂词识别的改进及训练技术研究

121 浏览量更新于2023-11-30 收藏 607KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文多语言和多领域单语言环境下复杂词识别的Geor ge-EduardZaharia，Razuzvan-AlexandruSmadumitru-Clementin Cercel，Mihai Dascalu布加勒斯特理工大学自动控制和计算机系{george.zaharia0806，razvan.smadu}@ stud.acs.upb.ro{dumitru.cercel，mihai.dascalu}@ upb.ro摘要复杂词识别（CWI）是文本简化的基础.CWI是高度依赖于上下文，而其困难是由可用的数据集，在领域和语言方面差异很大的稀缺性增加。因此，开发一个在广泛的输入示例中泛化的鲁棒模型变得越来越困难。在本文中，我们提出了一种新的训练技术的CWI任务的基础上，域适应，以改善目标字符和上下文表示。这种技术解决了使用多个域的问题，因为它创建了一种平滑所探索数据集之间差异的方法此外，我们还提出了一个类似的辅助任务，即文本简化，可以用来补充词汇复杂度预测。与普通训练技术相比，我们的模型在Pearson相关系数方面获得了高达2.42%的提升，当考虑来自词汇复杂度预测2021数据集的 CompLex 时与此同时，我们在Pearson分数上获得了3%的增长，同时考虑了依赖于复杂词识别2018数据集的跨语言设置。此外，我们的模型在平均绝对误差方面产生了最先进的结果。1介绍复杂词识别（CWI）任务的首要目标是找到可以在给定文本中简化的单词（ Paetzold 和Specia，2016 b）。评估单词难度是实现简化的一步，这反过来又有助于更广泛的受众文本获得知识（Madeland和Xu，2018）。然而，复杂的单词识别是一个高度语境化的任务，远非微不足道。数据集稀缺，大多数时候，输入条目有限或涵盖不同的专业领域/领域。在那里-域文本CompLex LCP数据集圣经各人要试验自己的行为，这样，他就以自己为荣，不以邻舍为荣。生物医学基因组数据库搜索显示，ADAM11，ADAM22和 ADAM23 基因的直系同源物存在于脊椎动物，如哺乳动物，鱼类和两栖动物，但不存在于无脊椎动物。欧洲议会它们还允许对涉及来自一个以上会员国的车辆的数千起事故进行容易的赔偿英语CWI数据集维基百科一般来说，则井场占地为通过下来未来世代方式它承认了这个社区国家维基新闻JAS 39CGripen坠毁在跑道当地时间上午9时30分左右（协调世界时02时30分），爆炸导致机场对商业航班关闭新闻这辆车已经从现场移走了，法医技术鉴定表1：CompLex LCP和CWI数据集中每个领域注释的复杂词示例。阴影表示复杂性;阴影越深，单词序列越复杂。最好用彩色看。因此，开发一个健壮可靠的模型，可以用来正确地评估令牌的复杂性表1展示了CompLexLCP（Shardlow et al. ，2020，2021b）和英国CWI（Yimam et al. ，2018）在这项工作中使用的数据集。然而，某些训练技术和辅助任务有助于模型提高其泛化能力，迫使它只关注最相关的一般特征（Schrom et al. ，2021年）。技术如域适应（Ganin et al. ，2016）可以用于各种任务，目的是为后续过程选择相关特征。同时，跨域sce- nario可以转换为跨语言设置，其中输入条目是多个可用语言的一部分。可以通过以下方式提高性能：arXiv：2205.07283v1 [cs.CL] 2022年5月+v：mala2277获取更多论文还采用了域自适应的能力，其中域是语言;因此，即使对于低资源语言，也可以接近识别复杂标记的任务。我们提出了几种解决方案，通过添加辅助组件（即，Transformer（Vaswani et al. ，2017）解码器，变分自动编码器-VAE（Kingma和Welling，2014）），以及域适应训练技术（Farahani et al. ，2021年）。此外，我们使用领域适应直觉，并将其应用于多任务对抗训练sce- nario中，其中主任务与辅助任务一起训练，任务训练具有概括任务特定特征的目的。我们将我们的主要贡献总结如下：• 将领域适应的概念应用于单语、跨领域的复杂词识别;• 在跨语言设置中引入域自适应技术，其中识别器的目的是支持模型只提取所有语言中最相关的特征• 提出额外的组成部分（即，变换器解码器和变分自动编码器）与主CWI任务一起训练，以提供输入的更有意义的表示并确保鲁棒性，同时生成新的表示或通过调整现有的表示;• 在领域/语言适应的同时，尝试额外的文本简化任务，以提取跨任务特征并提高性能。2相关工作域适应。一些作品采用了动态适应来提高性能.例如，Du et al.（2020）通过使用基于BERT的（Devlin et al. ，2019）特征提取器以及域适配。此外，McHardy等人（2019）使用域适应进行讽刺检测，出版物来源代表该域。与此同时，Dayanik和Padó（2020）使用了一种类似于域适应的技术，这一次用于政治主张侦查。以前的方法包括演员掩蔽，以及对抗性去偏置和样本加权。考虑域适应的其他研究包括：混合挖掘（ Klimaszewski 和Andruszkiewicz ， 2019 ）、混合合成训练（Tang等人，2019）。，2020）和有效正则化（Vernikos et al. ，2020）。跨语言域适应。 Chen等人（2018）提出了ADAN，一种基于前馈神经网络的架构，具有三个主要组件，即：特征提取器，情感分类器和语言识别器。后者的目的是支持对抗训练设置，从而覆盖模型无法检测输入语言是来自源数据集还是目标数据集的Zhang等人（2020）采用了类似的跨语言方法，他们开发了一个系统来对目标语言的条目进行Keung等人（2019）使用了多语言BERT（Pires et al. ，2019年），并认为语言对抗性任务可以提高零资源跨语言转移的能力。此外，在对抗技术下的训练有助于Transformer模型对齐英语输入的表示。在命名实体识别训练系统中，Kim等人。（2017）在两个层面上使用了特征（即，单词和字符），以及递归神经网络和用于域对抗设置的语言同样，Huang et al.（2019）在训练低资源名称标记模型的过程中使用了目标语言识别器。单词复杂度预测 Gooding 和 Kochmar（2019）将他们的CWI实现作为长短期记忆（ LSTM ）（ Hochreiter 和 Schmid-huber ，1997）网络上的序列标记任务，因为上下文有助于正确识别复杂的标记。作者使用300维预训练的词嵌入作为LSTM的输入同样采用序列标记方法，Finni-more et al. （2019）认为手工制作的功能，包括标点符号或音节，可以正确识别复杂的结构。相同的序列标记方法可以在多投票技术下应用（Polikar，2006），或者甚至使用Oracle（Kuncheva et al. 、+v：mala2277获取更多论文2001年）的报告。当应用于多个解决方案时，通过联合使用它们来获得最终预测，Oracle功能最佳。同时，Zaharia et al. （2020）探索了基于 transformer 的模型的力量（ Vaswani etal. ，2017）在跨语言环境中通过使用不同的训练场景，取决于资源的稀缺性：零次学习、一次学习以及少次学习。此外，CWI也可以作为一个概率的任务。例如，De Hertog和Tack（2018）介绍了一系列结合深度学习功能的架构，以及手工制作的功能，以解决CWI作为回归问题。3方法3.1数据集我们用两个数据集进行了实验，一个是单语言-CompLex LCP 2021（Shardlow et al. ，2020年，2021年b）-和一个跨语言-CWI共享数据集（Yimam et al. ，2018）。CompLex的条目由英语句子和目标标记组成，以及给定上下文的标记的复杂性复杂度是0到1之间的连续值，由不同的个体在初始的5点李克特量表上注释;然后将注释标准化。CompLex数据集包含两种类型的条目，每种条目都有其相应的条目子集a）单个，其中目标令牌由单个单词表示，以及b）多个，其中目标令牌由一组单词表示。虽然单单词数据集包含7，662个训练条目、421个试验条目和917个测试条目，但多单词数据集具有较低的计数，具有1，517个训练条目、99个试验条目和184个用于测试。同时，条目对应于三个不同的域（即，圣经，生物医学和政治），因此表现出不同的特点和挑战的模型走向泛化。CWI数据集在2018年CWI共享任务中引入（Yimam et al. ，2018）。它是一个多语言数据集，包含英语、德语、西班牙语和法语的条目此外，英语条目根据其熟练程度分为三类：专业（新闻），非专业（WikiNews）和维基百科百科。大多数条目是针对英语的（27，299次培训和3，328次验证），而最少的培训条目是针对德语的（6，151次培训和795次验证）。法语不包含训练或验证条目。3.2领域适应模型我们的方法的总体架构如图1所示。所有底层组件将在以下小节中详细介绍我们的模型结合了字符级BiLSTM特征（即，Ft）与上下文句子的基于变换器的特征Fc）。然后，连接的特征（Fc+Ft）通过三个线性层，第一层和第二层之间有一个dropout。输出是一个表示目标单词复杂度的值实验了三种配置在基本域自适应中，先前的特征通过一个额外的组件，域自适应，由一个线性层和一个softmax激活函数组成。梯度反转层（Ganin和Lempitsky，2015）被添加在特征级联和反向传播之间，以通过反向传播阶段反转梯度，并支持提取一般特征。损失函数由等式1确定为：L=Lr− βλLd（1）其中Lr是回归损失，Ld是一般域损失，β是用于控制Ld重要性的超参数，λ是另一个随着训练过程的进行而变化的超参数。以下设置还包括基本Do- main适应训练设置。VAE和域自适应考虑先前的配置，加上产生Fv特征的VAE编码器，以及旨在重建输入的VAE 解码器连接层现在包含 BiLSTM 和Transformer 特性，以及 VAE 编码器特性（Fv），即Ft+Fc+Fv。损失函数由等式2描述为：L=Lr− βλLd+αLv（2）其中，另外， Lv表示等式6中描述的VAE损失。Transformer Decoder and Domain Adapta-tion增加了一个Transformer Decoder，目的是重建原始输入，以实现更鲁棒的上下文特征提取。损失由等式3表示为：L=Lr− βλLd+αLdec（3）其中L_dec表示等式9中描述的解码器损耗。+v：mala2277获取更多论文图1：域自适应模型的总体架构。3.2.1用于目标词表示的机器人级BiLSTM该组件的目的是确定目标标记的复杂性，仅给出其组成字符。字符级双向长短期记忆（BiLSTM）网络接收与目标单词（或单词组）对应的字符数组作为输入，并产生一个表示，该表示随后连接到前面提到的基于transformer的表示。每个字符c被映射到从字符词汇V获得的某个值，该字符词汇V包含输入数据集中存在的所有字符。字符序列表示为Ci=[c1，c2，. . . ，c n]，其中n是目标令牌的最大长度。然后，Ci通过字符嵌入层，从而产生输出Emb目标。Embtarget然后被馈送到BiLSTM，然后是dropout层，从而获得最终的目标单词表示Ft。3.2.2基于transformer的上下文表示我们依赖基于transformer的模型作为目标词上下文的主要特征提取器（即，完整的句子），考虑到它们在大多数自然语言处理任务上的出色表现。第一个数据集的选定模型是RoBERTa（Liu et al. ，2019年），因为它产生更好的结果相比，它的对手， BERT 。RoBERTa是用更高的学习率和更大的小批量训练的，它修改了关键的超BERT参数我们采用了XLM-RoBERTa的用法（Conneau et al. ，2020年），多语言对应的RoBERTa，现在训练了一个非常大的语料库的多语言文本，为第二个跨语言的任务。用于我们任务的特性由Transformer模型的池化输出表示768个元素的特征向量Fc捕获关于目标词的上下文的信息3.2.3变分自动编码器我们的目标是通过可变自动编码器（VAE）（Kingma和Welling，2014）向目标词的上下文表示添加额外的功能来更具体地说，对于CWI 任务，我们使用潜在向量 z ，以及Transformer和Char BiLSTM特征。此外，我们还需要确保编码器表示是准确的;因此，我们将VAE编码和解码视为额外的任务，目的是最大限度地减少重建损失。VAE由两部分组成，即编码器和解码器.编码器g（x）产生近似q（z| x）的后分布p（z|x），从而将输入x映射到潜在空间z。该过程在等式4中给出。我们使用表示z作为特征，表示为Fv。p（z |x）q（z |x）= N（μ（x），σ（x））（4）解码器f（z）将潜在空间映射到输入空间（即，p（z）到p（x））。+v：mala2277获取更多论文p（x）= p（x）|z）p（z）dz=<$N（f（z），I）p（z）dz（五）只在一个方面表现良好，而在其他方面表现较差。语言识别器。直觉与前一个场景相似，除了我们使用第二个多语言数据集进行实验。方程 6 引入了损失函数，其中 DKL 表示Kullback Leibler散度。此外，Eq表示与分布q相关的期望。L（f，g）=<${−DKL[q（z|（i）||p（z）]因此，我们的兴趣是我们的模型提取跨语言特征，使得性能在所有目标语言上都是相同的。任务鉴别器。在这个场景中，我们训练了一个类似的辅助任务，由文本简化表示。任务很简单-我+Eq（z|xi）[ln p（xi| z）]}3.2.4鉴别器（六）用于检测输入条目的来源：主任务或辅助任务（即，简化版）。用于文本简化的数据集由BenchLS（Paetzold和Specia，我们的体系结构提取的特征可以有很大的不同，因为输入条目可以来自不同的领域或语言。因此，我们引入了一种泛化技术，只提取跨域的功能，不存在对某一领域的偏见。因此，我们采用了一种基于域适应的对抗训练技术，迫使模型只提取相关的跨域特征。一个神经网络作为一个分类器，包含三个线性层与相应的激活函数。分类器将输入的句子分类到可用的域之一。与传统的分类方法不同，我们的目的不是最小化损失，而是最大化损失。我们希望我们的模型不能区分不同类别的输入条目，从而提取最相关的跨域特征。我们的架构被鼓励通过在反向传播阶段期间反转梯度的梯度反转层在提取的特征方面进行概括;因此，参数朝着最大化损失而不是最小化损失的方向进行更新考虑了三种方案，每种方案都针对不同的域适应方法，2016年a）1. 所采用的简化过程包括掩蔽被认为是复杂的词，然后使用用于掩蔽语言建模的Transformer相应的流程在算法1中描述，而损失函数在等式7中给出：L=Lr− βλLtask_id+LML（7）其中LML是稀疏分类交叉熵损失。所有以前的判别器都使用相同的损失，即分类交叉熵（Zhang和Sabuncu，2018）。总体损失包括任务损失和领域/语言损失之间此外，后者的重要性可以通过乘以随时间变化的λ超参数和固定的β超参数来控制根据等式8更新网络参数θp，其中η是学习率，Ld是域损失，Lr是任务损失，β是域损失的权重对于第二数据集，语言损失（L1）的类似等式是适当的，其中代替域损失Ld，我们使用具有相同公式的语言识别损失L1是的。θ=θLr-η（−βλ）（8）域鉴别器。第一种情境是pp θpθp应用于第一个数据集CompLex，只有英文条目，但涵盖多个领域。该条目的目的是确定条目的领域，即圣经，生物医学或政治。直觉是，通过只抓住跨域特征，模型的性能在所有三个域上都有所提高，而不是3.2.5Transformer解码器我们的模型还考虑了解码器来重建原始输入，从Transformer表示开始。在引入1http://ghpaetzold.github.io/data/BenchLS.zip+v：mala2277获取更多论文Σ−算法1：多任务对抗算法（任务1-词汇复杂度预测;任务2 -文本简化）。1输入：预处理的数据集，分成批次（xi，yi），i=1，n（其中n是批次的数量，xi是目标词和上下文的输入特征，yi是复杂度）;2 输出：更新参数θp;3θ p：用随机权重初始化θp;4 对于每一批次，5从任务1中选择条目E16从任务2中选择条目E27out 1 =在E1上应用初始架构;8out 2 =在E2上应用掩码语言建模Transformer;9F =结合E1和E2上应用架构的功能10out_task =将F传递到任务A;11loss1 = Lr（out1，ref1）;12loss2 = LML（out，ref2）;task_loss = Ltask_id（out_task，ref_task）;loss= loss1+loss2-βλtask_loss;15反向传播损耗;16更新θp;17 端该解码器用于增加上下文特征提取的鲁棒性。解码器接收隐藏的Transformer层的输出作为输入，同时嵌入原始输入，其通过门控递归单元（GRU）（Chung et al. ，2014）层，用于获得初始输入的最终表示。此外，在获得最终表示之前引入由dropout分离的两个线性层，y=Fd。通过使用解码器的输出与条目的原始Transformer输入id表示之间的负对数似然损失来计算损失（参见等式9和10）。NL（ x，y）=ln（9）n=13.3实验装置用于我们模型的优化器由 AdamW 表示（Kingma和Ba，2014）。学习率设置为2 e-5，而复杂性任务使用的损失函数是CompLexLCP数据集的L1损失（Janocha和Czarnecki，2016）和CWI数据集的均方误差（MSE）损失（Kline和Berardi，2005）。辅助损耗被加和到主损耗（即，复杂度预测），并根据它们的优先级以因子α进行缩放，其中对于VAE损失，α被设置为0.1，对于Transformer解码器和任务解码器损失，α被设置为0.01。用于域自适应的λ参数根据等式11更新：λ=21（11）1 +e−γ其中γ是模型训练的时期数;γ设置为0.1，而β设置为0.2。此外，每个模型训练8个时期，除了包括VAE特征的模型训练12个时期之外。4结果4.1LCP 2021 CompLex数据集我们将用于LCP 2021竞赛的两个模型作为基线（Shardlow et al. ，2021a），以及最佳注册分数。Almeida等人（2021）采用了神经网络解决方案的使用;更具体地说，他们使用了用Sent2 Vec获得的句子块作为输入特征。Zaharia等人（2021）创建了基于目标和上下文特征提取器的模型，以及由图卷积网络，胶囊网络和预训练的单词嵌入产生的特征。表2描述了使用域自适应和各种配置为英语数据集获得的结果。 “Base”表示初始模型（RoBERTa + Char BiLSTM），我们在其上应用主自适应以及辅助任务。考虑到模型学习跨域特征，域自适应技术在应用于架构顶部时提供了改进的唯一的例外是，在使用域自适应和Transformer de的模型上，Pearson得分略低ln=−wyn xn，yn，wc=weight[c]·1{c/=ignore_index}（十）编码辅助任务（Base + Decoder + DA），在试验数据集上的值为.7969，+v：mala2277获取更多论文表2：LCP 2021英语数据集的结果。模型单字目标多词目标审判测试审判测试PearsonMaePearsonMaePearsonMaePearsonMaeAlmeida等人（2021年）--.4598.0866--.3941.1145Zaharia等人（2021年）.7702.0671.7324.0677.7227.0863.7962.0754第一名，LCP 2021（Shardlow等人，2021a）--.7886.0609--.8612.0616Base（RoBERTa + CharBiLSTM）.7987.0654.7502.0682.7565.0828.8138.0739碱+DA.8111.0660.7569.0657.7900.0724.8246.0699碱+VAE + DA.8010.0658.7554.0669.7919.0745.8167.0761Base + Decoder + DA.7969.0687.7542.0704.7747.0812.8252.0693基础+文本简化+DA.8170.0648.7744.0652.7670.0787.8285.0708* DA =域自适应; VAE =变分自动编码器;解码器= Transformer解码器; Pearson = Pearson相关系数; MAE =平均绝对误差。表3：CWI 2018多语言验证数据集的结果。EN-N* LA =语言适应; VAE =变分自动编码器;解码器= Transformer解码器; EN-N =英语新闻; EN-WN =英语-维基新闻;EN-W =英语维基百科; DE =德语; ES =西班牙语; P = Pearson相关系数; MAE =平均绝对误差。表4：CWI 2018多语言测试数据集的结果。模型EN-NEN-WN中文简体DEESFRPMaePMaePMaePMaePMaePMaeKajiwara和Ko-日本语（2018）-.0510-.0704-.0931-.0610-.0718-.0778Bingel和比耶瓦（2018年）-------.0747-.0789-.0660古丁和科赫马（2018年）-.0558-.0674-.0739------基地（XLM-ROBERTA）+ Char BiLSTM）.8560.0461.8045.0533.7205.0679.7405.0540.6873.0619.5506.0793碱+LA.8582.0466.8146.0513.7310.0700.6866.0558.6809.0606.5409.0842碱+ VAE + LA.8580.0450.8060.0526.7354.0671.7131.0553.6912.0595.5559.0752基础+解码器+LA.8533.0509.7978.0560.7124.0708.6976.0653.6490.0692.4663.0889基础+文本简化+LA.8580.0502.8338.0539.7420.0707.7230.0614.6837.0671.5394.0876* LA =语言适应; VAE =变分自动编码器;解码器= Transformer解码器; EN-N =英语新闻; EN-WN =英语-维基新闻;EN-W =英语维基百科; DE =德语; ES =西班牙语; FR =法语; P = Pearson相关系数; MAE =平均绝对误差。初始值为.7987（Base）。然而，其余模型在初始架构基础上有所改进，在领域自适应和文本简化辅助任务（Base + Text simplification +DA）中观察到的改进最大，测试数据集上的Pearson相关系数为.7744，比基本模型好2.42%。那个...平均绝对误差得分（MAE = 0.0652）也证明了性能虽然Transformer解码器辅助任务不能为单单词数据集提供最佳性能，但相同的架构为多单词数据集提供次佳性能， Pearson 得分为.8252，模型EN-WN中文简体DEESPMaePMaePMaePMaePMae底座（XLM-RoBERTa+ Char BiLSTM）.8517.0476.8460.0512.7640.0697.7092.0559.6944.0635碱+LA.8592.0468.8431.0532.7773.0702.6857.0551.6868.0625碱+ VAE + LA.8557.0463.8376.0527.7562.0702.7026.0565.6805.0628基础+解码器+LA.8492.0511.8273.0569.7619.0745.6823.0645.6519.0725基础+文本简化+LA.8602.0514.8555.0560.7842.0716.7147.0621.6787.0688+v：mala2277获取更多论文最好的一个，0.8285。域自适应和VAE配置提供了对基础模型的改进（ .7554 与 .7502Pearson），但VAE没有重要的贡献，考虑到基础 + 域自适应模型的 Pearson得分略高，为.7569。4.2CWI 2018数据集我们还尝试了多语言数据集，其中判别式被认为是语言。基线由CWI 2018竞赛中使用的三个模型组成。性能是根据MAE进行评估的;然而，我们也报告了Pearson相关系数。首先，Kajiwara和Komachi（2018）将他们的模型基于回归量，以及由字符或单词的数量以及某些语料库中目标单词的频率表示的特征。其次，Bingel和Bjerva（2018）的方法基于随机森林回归，以及前馈神经网络以及特定特征，如对数概率，曲折复杂性或目标句子相似性;作者专注于非英语条目。第三， Gooding 和Kochmar（2018）通过采用线性回归来处理数据集的英语部分作者使用了几种类型的手工特征，包括单词n-gram，POS标签，依赖解析关系和心理语言学特征。表3列出了多语言验证数据集的结果，并比较了不同配置的性能。在皮尔逊相关系数方面， Base 模型（ XLM- RoBERTa + CharBiLSTM）以及文本简化辅助任务和域自适应技术（Base+文本简化+LA）产生了最佳的整体性能，英语新闻的值为.8602，英语维基新闻的值为.8555，英语维基百科的值为.7842西班牙语的最佳Pearson分数是通过基本模型获得的，为.6944。Base + VAE + LA架构比Base模型有所改进，但与Base +文本简化+ LA模型相比，其Pearson相关性范围从英语新闻数据集的.8557到0.6805西班牙数据集。然而，当切换到MAE时，CWI 2018竞赛中用于评估的指标，最佳性能在前三个模型之间分配，即Base，Base + LA和Base + VAE+ LA。Base + LA方法在德语和西班牙语数据集上产生最好、最低的MAE分数，而Base架构在英语维基新闻和英语维基百科上表现最好。The English News在Base + VAE + LA模型中获得了最佳的MAE结果。尽管如此，Base + VAE + LA模型在测试数据集上获得了最佳的整体性能（见表4），西班牙语和法语的Pearson和MAE得分占主导地位： 0.6912 Pearson ， 0.595 MAE （西班牙语），以及0.5559 Pearson和0.0752 MAE（法语）。Base + Text simplification + LA模型在英文WikiNews和Wikipedia数据集上的Pearson相关系数方面表现最好，Pearson得分为.8338和.7420。然而，相同数据集的最佳MAE分数由Base + LA模型（.0513英语维基新闻）和Base + VAE模型+ 维基百科，自由的百科全书.5讨论领域自适应技术支持我们的模型学习一般的跨领域或跨语言的功能，同时实现更高的性能。此外，联合训练两个不同的任务（即，词汇复杂度预测和文本简化），结合领域适应以概括来自两个任务的特征，可以导致改进的结果。然而，有一些条目我们的模型无法正确预测复杂度得分，即：a）具有不同复杂程度的条目（即生物医学），以及b）训练数据集中不存在的语言的条目部分（即，法文）。对于前者，科学术语（例如，“谷甾醇血症”），缩写（例如，“ES”）或复杂元素（例如，“H3- 2meK 9”）给我们的特征提取器带来了一系列困难，考虑到Transformer词汇表中没有这些标记。后一类有问题的条目产生了新的挑战，因为它代表了一种全新的语言，架构在这种语言上进行测试。然而，如结果部分所示，跨语言领域自适应技术提供了很好的改进，帮助模型在法语上实现更好的性能，即使初始架构没有暴露于任何法语示例。+v：mala2277获取更多论文6结论和今后的工作这项工作提出了一系列的训练技术，包括域适应，以及多任务对抗学习，可用于提高CWI模型的整体性能领域自适应通过对模型进行分类以提取更一般的特征来改进结果，这些特征可以进一步用于词汇复杂度预测任务。此外，通过在CWI任务和辅助类似任务（即，文本简化），提高了整体性能。该任务还确保了一般特征的提取，从而使模型在CWI数据集上更加鲁棒。在未来的工作中，我们打算尝试元学习（Finn et al. ，2017）以及do-main适应（Wanget al. ，2019年），考虑到以前应用的培训技术的范围。这将使我们能够以最佳方式初始化模型致谢本研究得到了罗马尼亚国家科学研究和创新局CNCS-UEFISCDI的资助，项目编号TE 70 PN-III-P1-1.1-TE-2019-2209，“ATES-自动文本评估和简化。引用劳尔·阿尔梅达、赫格勒·天梭和马科斯·迪奥内特·德尔·法布罗。2021. C3 sl在semeval-2021任务1：预测词汇的复杂性，在特定的上下文与句子嵌入。第15届语义评估国际研讨会论文集，第683Joachim Bingel和Johannes Bjerva。2018.多任务学习下的跨语言复杂词识别。在第十三届研讨会的会议记录中，关于创新使用NLP构建教育应用程序，第166Xilun Chen ， Yu Sun ， Ben Athiwaratkun ， ClaireCardie，and Kilian Weinberger.2018.用于跨语言情感分类的对抗性深度平均网络。《计算语言学协会汇刊》，6：557Junyoung Chung ， Caglar Gulcehre ， KyungHyunCho，and Yoonge Bengio. 2014.门控递归神经网络对序列建模的经验评估。在NIPS 2014深度学习和表征学习研讨会上。Alexis Conneau 、 Kartikay Khandelwal 、 NamanGoyal、VishravChaudhary、GuillaumeWenzek 、 Francisco Guzmán 、 Edouard Grave 、MyleOtt 、 LukeZettle-moyer 和 VeselinStoyanov。2020.大规模无监督跨语言表征学习。第58届计算语言学协会年会论文集，第8440- 8451页。Erenay Dayanik和Sebastian Padó2020.掩盖演员信息导致更公平的政治主张检测。第58届计算语言学协会集，第4385Dirk De Hertog和Anais Tack。2018.用于复杂单词识别的深度学习架构在第十三届研讨会上，创新使用NLP构建教育应用程序，第328Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. Bert：深度双向转换器的语言理解预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页。Chunning Du，Haifeng Sun，Jingyu Wang，Qi Qi，Jianxin Liao. 2020.用于跨领域情感分析的对抗性和领域感知bert。在计算语言学协会第58届年会的会议记录中，第4019- 4028页。AbolfazlFarahani ， SaharVoghoei ， KhaledRasheed，and Hamid R Arabnia. 2021.对本土适应的简要回顾。数据科学与信息工程进展，第877Chelsea Finn Pieter Abbeel和Sergey Levine 2017.模型不可知元学习用于深度网络的快速适应。第34届国际机器学习会议论文集-第70，第1126Pierre Finnimore，Elisabeth Fritzsch，Daniel King，Al- ison Sneyd ， Aneeq Ur Bertman ， FernandoAlva- Manchego，and Andreas Vlachos. 2019.跨多种语言的复杂单词识别的强大基线。在计算语言学协会北美分会2019年会议论文集，第970雅罗斯拉夫·甘宁和维克多·伦皮茨基。2015. 通过反向传播的无监督域自适应。国际机器学习会议，第1180-1189页。PMLR。YaroslavGanin ， EvgeniyaUstinova ， HanaAjakan ， Pascal Germain ， Hugo Larochelle ，François Lavi-olette ， Mario Marchand ， andVictor Lempitsky.+v：mala2277获取更多论文2016.神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096-2030。西恩·古丁和叶卡捷琳娜·科赫玛2018. cwi上的camb2018共享任务：基于集合投票的复杂单词识别。在第十三届研讨会上的会议记录创新使用NLP建设教育应用，第184西恩·古丁和叶卡捷琳娜·科赫玛2019.复杂的单词识别作为一个序列标签的任务。第57届计算语言学协会年会论文集，第1148- 1153页。Sepp Hochreiter和Jürgen Schmidhuber。 1997.长短期记忆。Neural computation，9（8）：1735-1780.黄立夫，Heng Ji，Jonathan May。2019.跨语言多层次对抗性迁移，增强低资源名称标注。在计算语言学协会北美分会2019年会议论文集：Hu-man语言技术，第1卷（长论文和短论文），第3823Katarzyna Janocha 和 Wojciech Marian Czarnecki 。2016.分类中深度神经网络的损失函数。SchedaeInformaticae，25：49原智之和小町守。2018.学习者语料库中基于频率的复杂词识别。在第十三届研讨会的会议记录中，关于创新使用NLP构建教育应用程序，第195Phillip Keung，Vikas Bhardwaj，et al. 2019.用于零资源跨语言分类和神经网络的上下文嵌入对抗学习。在2019年自然语言处理经验方法会议和第9届自然语言处理国际联合会议（EMNLP-IJCNLP）的筹备工作中，第1355Joo-KyungKim ， Young-BumKim ， RuhiSarikaya，and Eric Fosler-Lussier.2017.无跨语言资源的pos标注跨语言迁移学习。2017年自然语言处理经验方法会议论文集，第2832Diederik P Kingma和Jimmy Ba。2014. Adam：一种随机优化方法。在第三届国际学习表征会议论文集，ICLR 2015，圣地亚哥，加利福尼亚州，美国。Diederik P. Kingma和Max Welling。2014. 自动编

下载后可阅读完整内容，剩余1页未读，立即下载