低资源语言双语词嵌入及文本摘要研究

51 浏览量更新于2024-01-16 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报学习双语词嵌入的低资源语言文本自动摘要[10]李文，李文.Widyantoroa，ba印度尼西亚万隆技术学院电气工程和信息学院b印度尼西亚万隆理工学院视觉、自然语言处理大数据分析人工智能大学卓越中心（U-CoE AI-VLB）阿提奇莱因福奥文章历史记录：2022年12月1日收到2023年2月23日修订2023年3月22日接受2023年3月24日在线提供保留字：双语词嵌入跨语言迁移学习提取摘要低资源语言A B S T R A C T随着当今数字时代文本数量的增加，低资源语言的研究变得更具挑战性此外，缺乏标记数据和文本处理库的语言进一步扩大了高资源和低资源语言（如英语和印度尼西亚语）之间的研究差距这导致了迁移学习方法的使用，该方法应用预先训练的模型来解决类似的问题，即使是在不同的语言中，也可以使用双语或跨语言的单词嵌入。因此，本研究旨在探讨两种印尼语双语词汇嵌入方法，即VecMap和BiVec- 英语语言，并评估他们的双语词汇归纳和文本摘要任务。将生成的双语嵌入与MUSE（多语言无监督和监督嵌入）作为用生成对抗网络方法创建的现有多语言词进行比较。此外，通过创建共享词汇空间和映射语言之间的非共享词汇空间，对VecMap进行了改进。实验结果表明，BiVec联合方法产生的嵌入在本质评价上表现得更好，尤其是在CSLS（Cross-Domain Similarity Local Scaling）检索方面。同时，改进的VecMap比常规类型高出16.6%，而没有超过BiVec评估分数。这些方法在应用于基于跨语言的文本摘要时能够实现语言之间的模型转换。此外，ROUGE得分超过了经典的文本摘要，只增加了10%的目标语言的训练数据集版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍互联网的发展导致了数据爆炸，不断产生新的任务和领域。此外，新的注释肯定是耗时且昂贵的。这个问题扩大了低资源语言和高资源语言之间的研究差距.NLP研究的最新进展导致通过利用预训练的NLP模型，将迁移学习方法用于这些新任务和领域。*通讯作者：万隆技术学院电气工程与信息学院，万隆40132，印度尼西亚。电子邮件地址： 33218011@std.stei.itb.ac.id （ R.Wijayanti ），masayu@stei.itb.ac.id （ M.L. ） Khodra ）， endro@itb.ac.id （ K.Surendro ），dwi@stei.itb.ac.id（D.H.Widyan- toro）。沙特国王大学负责同行审查制作和主办：Elsevier迁移学习由归纳和转换两部分组成。归纳迁移学习是指源任务与目标任务不同的情况。这需要目标任务中的标记数据，这在低资源语言中很难获得。此外，其大小和质量往往会影响所获得的结果。另一方面，转换具有相同的源任务和目标任务，但两者具有不同的特征空间，例如域或语言。跨语言迁移学习（CLTL）作为一种直推学习方法，由于只需要源任务中的标记数据，因此是解决低资源语言问题的最可行方法。源语言中的几个可用资源用于解决目标语言中的类似任务，无论是零射击学习还是仅用几个数据集进行微调。这种方法是可行的，因为几种语言共享相似的词汇，句法和语义结构。CLTL需要跨语言单词嵌入（CLWE）来使迁移学习能够捕获两种语言中的共享表示（Ruder等人，2019年）。自然语言处理中的几个CLWE模型已经被开发出来，特别是对于英语，但是印度尼西亚语没有得到那么多的关注。目前唯一可用于印度尼西亚语的静态CLWE是MUSE（Conneauhttps://doi.org/10.1016/j.jksuci.2023.03.0151319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comR. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报225例如，2018年，它在对抗的基础上发展起来。因此，本研究的目的是研究其他方法，并作出改进，以获得更强大的CLWE。由于它只为两种语言，即英语和印度尼西亚语，创造了一个共享空间，因此我们使用术语双语单词嵌入（BWE）。目前，有两种主要方法用于生成跨语言/双语单词嵌入：映射和联合方法（Ormazabal等人，2019年）。映射方法要求单语语料库在使用线性变换将每种语言的嵌入映射到共享向量空间之前单独训练每种语言的嵌入。同时，联合方法在一个并行语料库中同时建立多语言的词表示。VecMap（Artetxe等人，2018）和MUSE是使用具有正交变换的映射方法的两种公知技术。根据（Doval等人，2020），VecMap比MUSE更健壮，MUSE在小字典上表现不佳，并且存在一些稳定性问题。然而，完全非超监督的VecMap是建立在单语嵌入空间近似同构的假设上的，并且这种假设过于严格，因为它并不总是满足（Søgaard等人，2018年）。因此，本研究将通过利用共享空间概念来增强无监督对齐方法，以产生更好的斗轮挖掘机。一些研究已经在许多NLP任务中采用了跨语言迁移学习，例如机器翻译，情感分析和依赖分析，命名实体识别（Pikuliak例如， 2021年）。然而，很少有文本摘要任务的实现没有产生强大的性能（ Peng 等人， 2021 年 ;ZZagagagar 和 Robnik-Šikonja ， 2020年）。这一挑战鼓励研究跨语言迁移学习（CLTL），用于文本摘要化任务，包括在文本摘要架构中使用BWE。BWE学习模式的英语-印尼语进行了初步研究，通过比较映射和联合方法在类似的条件下。VecMap（Artetxe等人，2018），以及BiVec（Luong等人，2015），作为联合方法，因为它们在其他语言对中生成BWE时都很受欢迎（Marie和Fujita，2019; Ormazabal等人，2019年;Sabet等人，2019年）。它们还为每种语言生成单独对齐的单词嵌入，使其更容易在下游任务中实现。增强了VecMap中的比对，使其具有比BiVec更好或几乎相同的性能由VecMap和Bivec产生的双语矢量表示往往是内在和外在的评价。双语词典归纳用于内在评估，而外在评估是通过应用跨语言的方法来进行文本摘要视为NLP下游任务。对英文文本进行了自动摘要训练，并将该模型应用于印尼文文本的自动摘要。使用预训练模型的研究越来越受到重视。然而，据作者所知，在印地文文本摘要任务中还没有进行跨语言迁移学习的研究。本研究主要包括三个方面：（1）研究VecMap和BiVec作为英语-印尼语双语词嵌入学习方法的可行性;第一部分介绍了本文的研究内容，第二部分分析了相关的研究成果，对印尼语双语文本的词嵌入和摘要方法进行了解释和比较。第三节方法之后是第四节实验和评价。第五节是结论部分。2. 相关作品双语单词嵌入（BWE），定义为将单词表示从一种语言映射到另一种语言，是实现跨语言迁移学习的关键。本节分析了印尼语中的一些学习方法和摘要任务。此外，用于实现英语和印尼语之间跨语言迁移的摘要架构在本研究中作了简要说明。2.1. 跨语言词嵌入通常，语言翻译需要词典。然而，在源语言和目标语言中的连续词表示的线性映射目前正在被利用。斗轮挖掘机开发中通常采用两种方法：映射法和联合法（Ormazabal等人，2019年）。映射方法采用单语语料库来训练每种语言的词嵌入。它进一步使用线性变换将两个嵌入映射到向量空间中。同时，联合方法可以同时从平行或可比语料库上的几种语言中提取词的表示。映射方法由（Mikolov et al.，2013），他通过最小化映射和实际向量之间的距离来识别从一个嵌入到另一个嵌入的线性函数。然而，这种方法需要双语词典的种子，最多跨越几千个词对，使得它在语言资源有限的语言中效率较低。最近的研究利用单语向量空间之间的拓扑相似性，开发了完全无监督的方法来识别不需要双语监督的线性变换，如对抗方法，自学习方法等。对抗方法使用生成对抗网络（GAN）架构（Goodfellow等人，2014年），由发电机和发电机组成。生成器尽可能地创建数据来欺骗数据库。因此，线性映射倾向于将生成器的权重作为其输出。该方法首先由Zhang et al.，2017），并且随后由（Conneau等人，2018年）。这包括保持最频繁的词作为线性变换的锚点的细化过程和使用跨域相似性局部缩放（CSLS）来测量词相似性。这种基于GAN的对齐方法导致在单个向量空间中对齐的几种语言的多语言单词嵌入以及称为MUSE的双语词典评估数据集。Artetxe等人提出的自学习方法， 2018年）与以前的方法有不同的目标。它的目的是找到两种语言的共享空间，而不是发现线性函数。这两个嵌入随后通过它们各自的函数映射到共享空间这种方法是更现实和推广，即使在遥远的语言对。然而，它需要无监督的初始化，这仍然是一个挑战。这导致了一种名为VecMap的自学习方法的研究，该方法不需要大量的计算资源，并且可以在资源有限的语言中实现。VecMap由四个顺序步骤组成：嵌入规范化，无监督初始化，迭代自学习和对称重新加权。第一个从基于长度的标准化开始这一步的目的是确保任何两个嵌入的点积等于它们的余弦相似度。然后，基于不同语言中的两个等价词应该具有相似的相似度分布的强烈假设来执行字典的无监督初始化这第二步是最大的挑战R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报2262bho tanhc5t t t.--ð···Þ不t-1t-1t-1因为在没有任何并行数据或种子字典的情况下构建初始解随机初始化会导致算法性能不佳，因为它往往会陷入局部最优。因此，（Artetxe et al.， 2018）提出了一些关键改进，使其更强大，并执行更好的映射。这包括随机字典归纳（随机地在字典中保留一些值）、基于频率的词汇截止（仅保留每种语言中的k个最频繁的词）、CSLS检索（惩罚枢纽的相似性分数）以及双向字典归纳（从源语言到目标语言的两个方向上的连接字典，反之亦然）。在处理这些改进之后，迭代地运行自学习，直到它收敛。首先，它最大化了这两个映射与字典的相似性，这是进一步更新。在最后一步中，重新加权倾向于改变值以稍微提高字典质量相反，联合方法通过在单词处对齐语料库来起作用（Gouws和Sauggaard，2015; Luong等人， 2015），判决（Gouws等人，2015;Sabet et al.， 2019年），或文档级别（Vuli和Moens，2016年）。最近的一个策略是嵌入在子词级别，以扩展跨语言共享空间中的词汇。（Lample和Conneau，2019）设计了跨语言语言模型（XLM）作为BERT的多语言扩展（Devlin等人，2019年）。它使用字节对编码（BPE）方法生成子词嵌入，以及双语训练机制来探索不同语言中的单词关系。虽然这种方法在使用零镜头句子蕴涵任务进行评估时可以获得显著的结果，但训练过程需要大量的计算资源。因此，通过比较BiVec（a.k.a. BiSkip）和Luong等人（2015）和（Artetxe等人，2018年）。此外，一些研究使用这两种方法作为基线来创建跨语言单词嵌入（Marie和Fujita，2019; Ormazabal等人，2019年; Sabet等人，2019年）。这就激发了本研究来比较他们在非英语-英语语言对中的实验结果。BiVec是SkipGram模型的简单扩展，这个大数据集允许在Indonesian文本摘要任务中使用深度神经网络，只有少数研究已经进行了这种效果。在2019年之前，用于总结印度文本的大多数方法都因此，一些研究集中于优化特征（ Budhi 等人，2007;Gunawan等人，2017; Herdiyeni等人，2012; Maryana等人，2018;Sabuna和Setyohadi，2017; Silvia等人，2014; Tardan等人，2013年）。基于深度神经网络的总结采用了基准数据集（Cai et al.，2019年; Amiraseta和Khodra，2019年;Halim等人，2020; Wijayanti等人， 2021年）。这项研究使用NeuralSum（Cheng和Lapata，2016）来执行提取文本摘要的跨语言方法，其架构如图1所示。这种方法是使用编码器-解码器架构开发的，CNN和LSTM作为编码器和文档阅读器。CNN生成句子嵌入，然后将其转发给LSTM，以生成能够捕获本地和全局信息的文档表示。同时，解码器使用另一个LSTM顺序标记句子，考虑其与其他句子的相关性和冗余性。这个过程涉及到在前一个位置使用文档表示和标记句子。给定一个由n个词组成的序列s，由W2Rn×d表示，其中d为嵌入维数。虽然CNN提取器具有多个内核KRc×d作为具有不同窗口大小c的特征映射，但卷积应用如下（Cheng和Lapata，2016）：ftanhWKb2其中b是偏置。此外，执行最大池化以获得每个核宽度中的句子的单个特征。由于该过程产生多个句子向量，因此通过对这些句子向量求和来获得最终的句子表示。一旦使用CNN提取器获得句子表示，它们就会被馈送到LSTM编码器中作为文档阅读器。同时，由从CNN生成的 m 个句子向量组成的文档D 被更新为（Cheng和Lapata，2016）：解决多语言问题。然而，除了预测“it#T-1-3在源语言中的周边词的情况下，它还能够预测目标语言中的平行词此外，由于BiVecftotbctRRtanh：st训练直接平行于语料库，不需要映射函数。相反，它利用共享空间内的单语和双语环境。其本质是优化单语和跨语损失，如以下等式所示aLanguage1Language2bBilingual1单语模型捕捉每种语言的结构。同时，双语组件将两个单语言空间结合在一起。它涉及到使用参数a和b来平衡单语成分对双语者的影响2.2. 文本摘要方法ct¼ftct-1itct4¼ øð Þ ð Þ其中W是可学习的矩阵权重。LSTM此外，使用另一个LSTM在解码器上进行句子提取。它利用注意力机制，在阅读它们之后提取最重要的句子。给定句子向量s1;···;s m* 和编码器的隐藏状态，LSTMh1;···;hm，而解码器在尽管印度尼西亚语有大约2亿人说，是网络上使用最多的第六种语言，它的研究h-1/4LST M.pS;h-1000g由于缺乏数据集和语言资源，NLP研究的进展仍然不足。一些研究使用个人数据集，因此很难将其结果与其他研究进行比较。自2016年以来，一些人试图例如，（Koto，2016）开发了一个来自What-sApp对话的语料库，（Kurniawan和Louvan，2018）和（Koto等人， 2020）从在线新闻中创建数据集。尽管可用性1https://www.internetworldstats.com/stats7.htm。其中，PT-1是提取被认为是重要句子的先前句子的解码器概率。pt-1标签最初设置为true，其值逐渐变为预测值标签在训练中二元决策由sigmoid层建模，如下所示（Cheng和Lapata，2016）：第1节D.ML P.h-t：ht7¼R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报227.Σ图1.一、NeuralSum中的句子提取器架构，（）。改编自Cheng和Lapata，2016年其中，MLP是一个多层神经网络，表1民族并将ht作为输入。虽然NeuralSum最初拥有单语语料库。字提取器的架构，它没有在这项研究中使用，因为它更适合于文本生成。3. 方法本节概述了基于映射和联合方法的双语词嵌入的发展调查这两种语言的区别该过程包括语料库预处理，即，删除非字母数字字符并将其转换为Unicode。然后使用SkipGram为每种语言生成单词嵌入，为VecMap方法创建输入。同时，BiVec可以直接训练并行语料库，无论是否经过对齐过程。这两种方法产生了两个对齐的嵌入，可用于NLP任务的评估和实现。因此，这导致了内在和外在评价的评估。双语词典归纳任务是本征的，而外部评估被用来提取文本摘要作为自然语言处理的下游任务。以下小节将进一步详细讨论所使用的数据集、双语词嵌入方法和评估过程。3.1. 生成和改进双语单词嵌入该实验使用了NLP研究中广泛使用的数据集，Wikipedia和OpusCollection ，以便更容易与以前的作品进行比较。VecMap 使用Wikipedia 作为单语语料库来生成对齐的嵌入。同时， OpusCollection 作为一个平行语料库，也可以同时应用于VecMap 和BiVec两种方法。两种椎体的尺寸见表1和表2。语料库#文章#令牌Wikipedia-CN 4.976.753 2.843.929.927维基百科- ID 417.413 116.012.724创建双语单词嵌入需要每个语言的大型训练语料库。这使得每一种第i种语言都有一个词汇表VLi <$^w1;w2;···;wnLi。每个标记都映射到共享的向量空间E，确保具有相似含义的标记也具有相同的值，从而实现跨语言迁移学习。本研究通过采用相同的设置来实现VecMap和BiVec，因为两者都使用Word2Vec SkipGram来创建单词嵌入。对于VecMap，首先通过使用以下参数独立地训练每种语言的维基百科语料库：300维的Word 2 Vec SkipGram，负样本10，子采样阈值1 e-5，五次迭代，最大词汇大小为200，000。该参数与Ormazabal等人进行的实验一致，2019年）。接下来，使用来自不同语言的两个嵌入来生成无监督共享空间（Artetxe等人，2018年）。此外，实验是使用OpusCol-lection的平行语料库进行的这旨在研究它如何影响VecMap对齐。平行语料库也必须在与VecMap相同的设置下由BiVec训练在对斗轮挖掘方法研究的基础上，进一步改进了VecMap的性能。由于VecMap通过映射单语嵌入来学习跨语言嵌入，而不依赖于并行或可比语料库，因此它比BiVec更R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报228FG¼[联系我们1/4 f···gJLiP不能Li. wj表2平行语料库。语料库#文档发送数量#EN token#ID tokenMultiCCA连接v1127.0M5.6G180.0MWikiMatrix v111.8M1.0G66.9MCCAligned v154127.0M243.4M233.9M开放字幕v201898279.7M72.8M60.9M坦桑尼亚v1450.5M8.5M15.4MTatoeba v2020-11310.0k12.9M91.8kQED v2.0a22190.4M4.8M3.8MTED2020 v117400.2M3.2M2.7MGNOME v113470.5M2.7M2.3M《圣经》第一版262.2k1.8M1.4MUbuntu v14.1039896.5k0.6M0.3M全球之声v201858415.5k0.4M0.3MKDE4 v212515.1k86.0k91.1ktico-19 v2020-1013.1k79.8k74.5kELRC_2922 v112.7k64.7k59.4k总1683567.33M6.95G568.2MVecMap需要无监督的初始化，这仍然是一个研究挑战。良好的初始化有助于自学习算法容易找到局部最优解.否则，当随机执行时，它往往会导致较差的性能。Vec-Map的初始解决方案需要建立一个种子词典，其基础是假设不同语言中的两个等价词应该具有相似的分布。然而，也可以通过构建共享词汇表空间来执行初始化。无论平行语料是否缺乏，训练往往更有效通过优化语言的词汇共享（Conneau等人， 2018年）。共享词汇是基于这样一个假设开发的，即出现在两个单语语料库中的标记往往具有的相同意义（卡马乔-科利亚多斯et例如，2020年），等- 合并每种语言的单语语料库L1;L2- 从每种语言和合并词汇中{V1;V2;V}，其中VV1V2- 从完整的词汇表V- 重新定位词汇表，以便根据其各自的语言放置词汇表，这会产生三个不相交的词汇表集{V1;V2;Vs}，其中Vs V1V2. 这个过程是以防止共享空间的过度共享。当一个词在-i语言中的出现频率超过或等于阈值时，词汇表从共享空间Vs移动到Vi。给定一词汇空间V包含n话Vw1;w2;;w n 根据以下公式进行重定位：数字，人名和地名，以及外国术语语言将两种语言的单语语料库进行合并，以找到用于构建共享空间的共享词汇该死。我不知道。wjð8Þ因此，两种语言中的相同单词往往具有相似的嵌入。映射过程只在根本没有任何共享信息这种改进方法如图所示。二、更详细的改进方法如下：Vi¼V1;frekL1→w≥cV2;frekL2w≥cV s;否则ð9Þ图二. 的改进方法。8><：>个R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报229.jjiP.ΣFG.Σ其中计数LW是数字w在i语言中，count Li w j是两种语言中单词w j的数量。这个过程将产生三个不相交的嵌入E1;E2;Es。阈值是在0.6和0.9之间的值范围内以图解法确定的。该值是过度共享和共享空间概念之间的权衡。较低的阈值c使得共享空间包含较少的单词，从而最小化过度共享的可能性。因此，为了获得更好的斗轮挖掘机，对准过程变得越来越重要。否则，高阈值将导致由于共享空间中的大量单词而导致过度共享。- 对不在共享空间中的词汇表执行VecMap对齐，以生成对齐的嵌入{E01;E02g- 合并对齐的嵌入和共享的嵌入生产BWE的空间{E};E}g在词对匹配过程中，给定源语言中的BWE的标记序列通过使用最近邻（NN）或跨域相似性局部缩放（CSLS）计算其相似性来确定比对。具有最高相似性分数的唯一标记对将被视为翻译。随后将该对齐的结果与地面实况进行比较。在这个任务中使用的评估过程是precision-at-k（P@k）作为大多数相似词的k-比例，但目前的研究只是使用P@1。图3描绘了评估流程。采用来自MUSE和WordNet的双语词典作为基础事实，如表4所示。MUSE提供了110种语言的双语词典，这些数据被广泛用于评估其嵌入的质量，图中显示了一个示例词典。四、同时，WordNet是由地图创建的12根据其ID ping印尼语和英语同义词集MUSE拥有由于我们提出了一个改进的Vecmap，我们将其与表3中的现有版本进行了比较，表3概述了当前的研究状况。3.2. 评价双语词嵌入的质量是衡量他们的表现时，两个自然语言处理基准评估，即双语词汇归纳和文本摘要。第一个任务本质上衡量双语嵌入在多大程度上捕捉了源语言和目标语言中单词之间的关系。同时，第二个任务评估双语嵌入支持跨语言模型转换的能力。3.2.1. 双语词汇归纳双语词典归纳是双语嵌入学习中的一个重要的内在评价，因为它评估了双语嵌入如何检测跨语言语义相似的词对。它检查不同语言中的等价词是否在嵌入空间中被正确翻译。第一步是过滤参考双语词典，使其仅包含源语言和目标语言的BWE中存在的条目。一旦可用，词典对将被用作本实验中的基础事实。该真实值的数量通常用作BLI计算中的分母（Conneau等人，2018年）。然而，在（Wang等人，2020），本文中的分母涵盖了整个测试数据集。这是因为某些MUSE单词对有相同的翻译，例如（lion，lion），（got，got）。在本研究的斗轮挖掘机中，这些词汇仅被视为英语词汇。同样地，（pelangi，pelangi）对也只会被认为是印尼语。两种语言中拼写相同的单词应分配为共享词汇表。因此，这些条件仍将包括在BLI计算中。然而，当翻译不满足作为地面实况的标准或具有相同拼写的词对时，词典将被认为是OOV。表3VecMap与改进VecMapVecMap改进的VecMap将其数据集分为训练、验证和测试数据。除了测试数据（MUSE-test）之外，完整的数据集（MUSE-full）用于评估过程，因为它不涉及双语词嵌入训练过程。类似地，不是仅采用WordNet中频繁使用的术语（WordNet-freq3.2.2. 用于文本摘要的跨语言学习文本摘要作为一个下游的任务，执行一个外在的评价。跨语言迁移的目的是使用源语言L1的双语嵌入来训练摘要模型。此外，通过用目标语言L2的双语嵌入代替目标语言L2的双语嵌入，对目标语言L2的训练模型进行了评估。这项任务分别使用英语和印度尼西亚语作为源语言用于文本摘要的跨语言迁移学习的架构如图所示。五、NeuralSum（Cheng和Lapata，2016）在架构中用作求和器方法，如图4所示。它有一种提取摘要算法，利用word2vec嵌入，并鼓励使用简单的跨语言映射。编码器生成文档表示，而解码器和注意机制选择突出的句子。NeuralSum模型在DailyMail2语料库上进行训练，分别包含193，983和12，147个训练和验证数据，以及英语双语单词嵌入。随后在Liputan 6上对其进行评价（Koto等人，2020）和在（Wijayanti等人，2021年）。英语双语单词嵌入被替换为印度尼西亚语。试验数据包括3,755件IndoSum产品和10,972件Liputan产品此外，应用了以下超参数，嵌入维度300，最大历元20，CNN中具有不同大小（50，100，150 ， 200 ， 200 ， 200 ， 200 ）的七个内核，而最大摘要长度为IndoSum的三个句子和Liputan 6的两个句子，基于摘要中句子的平均数量。在第一种情况下，英语摘要模型被用来总结印尼语文本没有微调（零镜头转移）。随后，实验了目标语言中10%、20%、30%和40%的额外训练数据，以微调摘要模型，如表5所示。然而，由于限制，训练和微调模型仅限于五个时期。嵌入从单个语料库词汇分配给语料库语言对齐两种语言中的所有词汇从合并的语料库中生成，两种语言在语料库中按照指定的频率阈值分配给该语言的只有两种语言中的非共享词汇计算资源。ROUGE（Rouges-1，2和L）得分作为评估指标，通过比较不同场景下的摘要方法的结果。ROUGE（面向召回2https://github.com/hpzhao/SummaRuNNer。R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报230¼¼图3.第三章。双语词汇归纳的评价正确的结果除以应该返回的结果数同时，精度显示正确结果的数量除以所有返回的结果。精确度和召回率的调和平均值用于计算F1分数。在总结任务中，给定w overlapped作为候选和参考摘要中的重叠单词的数量，w ref和w cand是参考和候选摘要中的术语的数量。以下公式用于计算度量：见图4。双语词典的例子。Gisting评估的理解）是衡量摘要过程的标准方法，它将计算机生成的摘要结果与人类的理想结果进行比较，称为候选和参考摘要（Lin，2004）。同时，ROUGE-N是超过-回忆过去Wref精密研磨w坎德2×召回率×精度ð10Þð11Þ候选人和推荐人的总结ROUGE-L是候选序列和参考序列中的最长公共子序列（LCS）比F1分数¼召回事件摘要。每个ROUGE指标都有Recall、Precision和F1评分值。类似于用于分类或信息检索的标准度量（Jamaludin等人， 2022年），召回代表的数量在这项研究中，这些词分别指ROUGE-1、2和L的一元、二元和LCS。每个测试数据集的摘要作为计算ROUGE评分的参考。R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报231图五、跨语言迁移学习的文本摘要架构表4双语词典的双语词汇归纳。表6双语词汇归纳VecMap和Muse。语料库#一对字数据集方法P@1 NNP@1 CSLSMUSE2453MUSE缪斯0.620.68MUSE965518VecMap0.700.72WordNet11319MUSE缪斯0.260.35WordNet284394VecMap0.520.62WordNet缪斯0.300.33VecMap0.310.34WordNet缪斯0.300.354.实验结果与讨论VecMap0.420.464.1.双语词汇归纳表7本节首先介绍了VecMap和BiVec的双语词典生成。使用VecMap对齐的单语语料库上的词嵌入。随后将结果与MUSE（Conneau等人，2018年），一个现有的双语词嵌入广泛用于各种NLP研究。它支持多种语言的多语言单词嵌入，包括印度尼西亚语，这也是在维基百科语料库上训练的。根据几个测试数据得出的实验结果如表6所示。结果发现，VecMap在所有给定的测试数据集上都优于MUSE。随后，跨语言映射方法的效果进行了研究，单语和平行语料库上的训练。首先，比较了VecMap和BiVec分别在单语语料库（维基百科）和平行语料库（OpenSubtitles v2018）上训练的实验结果。表7显示，应用联合方法的BiVec在所有测试数据集上的表现都优于VecMap，特别是在与CSLS检索配对时。该结果与Ormazabal等人，2019），其中CSLS对接头方法的影响很小。假设VecMap和BiVec在英语和印度尼西亚语的双语单词嵌入中仍然存在hubness问题。轮毂是一个经常遇到的问题，数据集方法P@1 NNP@1 CSLSMUSE-testVecMap0.700.72BiVec0.780.85Muse-fullVecMap0.520.62BiVec0.760.84WordNet-freqVecMap0.310.34BiVec0.460.48WordNet-fullVecMap0.420.46BiVec0.510.55跨语言单词嵌入，其中一些单词（称为中心）是高维空间中许多其他单词的最近邻居。它通常会降低NN在各种任务中的准确性，并且已经做出的用于减轻BLI任务中的问题的改进之一是CSLS方法（Conneau等人， 2018年）。CSLS依赖于一个本地的措施，通过惩罚的相似性分数的枢纽，这反过来又降低了枢纽水平。图6中的曲线图支持这一假设，表明使用CSLS检索的方法与使用表5BWE在文本摘要中的实现场景。场景#EN列车#ID Train（IndoSum）编号ID测试（IndoSum）#ID列车（Liputan 6）ID检测编号（Liputan6）R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报232Zero-shot19398303755010972ID10193983135137551938810972ID20193983270237553877610972ID 30193983405337555816410972ID 40193983540437557755210972R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报233见图6。 VecMap和BiVec中的Hubness。表8VecMap在单语语料库和平行语料库上表10IndoSum数据集的提取摘要。数据集语料库类型P@1 NNP@1 CSLS方法R1-FR2-FRL-FMUSE单语0.700.72单神经元总数0.650.600.65平行0.860.87MonoBertSum-Ext（IndoBert）0.670.600.66WordNet平行0.44 0.44NN.此外，该图还显示了大多数中心性发生在实体中，例如人名、位置等。这些实体应译成不同语文的相同实体。因此，本研究没有映射这些类型的实体在改进的方法，因为他们将在一个共享的空间。联合方法优于映射方法，因为它是使用并行语料库在监督学习上训练的对准信号当然比映射方法中使用的语料库更同构。这得到了实验结果的支持，如表8所示。实验结果表明，在平行语料库上训练的VecMap比在单语语料库上训练的VecMap有更好的识别效果。然而，由于在低资源语言中获得并行语料库是相当具有挑战性的，因此改进了仅需要单语言语料库的VecMap方法。通过应用先前在图2中显示的改进过程，结果大大优于常规VecMap，如表9所示。虽然它没有超过BiVec，但采用无监督比对的改进VecMap与使用监督比对训练的BiVec结果相对相似。此外，低阈值确保共享词汇表空间仅包含几句话，从而尽量减少过度分享的可能性。对齐过程在获得更好的双语单词嵌入方面变得越来越重要。与BiVecCLNeuralSum-ID00.640.570.61CLNeuralSum-ID100.690.620.66CLNeuralSum-ID200.690.620.66CLNeuralSum-ID300.680.610.65CLNeuralSum-ID400.670.600.64使用改进的VecMapCLNeuralSum-ID00.650.580.62CLNeuralSum-ID100.680.610.65CLNeuralSum-ID200.650.590.63CLNeuralSum-ID300.670.610.65CLNeuralSum-ID400.670.610.644.2. 基于跨语言迁移学习的自动文摘本节分析了BiVec方法和改进的Vecmap的外部评价这是因为这两种方法-od有更好的内在价值比常规VecMap对齐- ment，如前所示，在表9。表10和11显示了直接在目标语言上训练的基于跨语言以及基于单语言的求和（monoNeuralSum和MonoBertSum-Ext），即，IndoSum和Liputan6数据集。该实验使用单语总结器，如Neu- ralSum（Cheng和Lapata，2016）和BertSum-Ext（Liu和Lapata，2019）作为基线。BertSum是一种采用BERT预训练模型并优于Neu- ralSum的摘要方法。然而，由于训练过程需要更多的计算资源，因此将NeuralSum应用于跨语言摘要。表9改进的VecMap的双语词汇归纳。表11Liputan 6数据集的摘要。方法R1-F R2-F RL-F方法阈值P@1 CSLS单神经元总数0.280.140.23缪斯–0.68MonoBertSum-Ext（IndoBert）0.380.210.35BiVec–0.85使用改进的VecMapVecMap–0.72CLNeuralSum-ID00.380.210.31改进的VecMap0.90.75CLNeuralSum-ID100.390.210.31改进的VecMap0.80.81CLNeuralSum-ID200.390.210.31改进的VecMap0.70.83CLNeuralSum-ID300.390.210.31改进的VecMap0.60.84CLNeuralSum-ID400.380.210.31R. Wijayanti，M.L.Khodra，K.Surendro等人沙特国王大学学报234¼见图7。汇总结果示例。划线的句子被认为是重要的句子。根据表9和表10，与单语方法相比，当使用一些印度尼西亚训练数据进行微调时，跨语言方法产生更高的ROUGE分数。此外，通过仅提供目标语言的 10% 训练数据，跨语言方法在单语设置中获得了比NeuralSum更好的ROUGE分数。这也等同于Bert

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

低资源语言双语词嵌入及文本摘要研究

Python-VecMap一款NLP开源框架能够学习跨语言词嵌入映射

给你一个txt格式双语词典，用python实现用双语词典随机替换文本中的单词

给你一个双语词典，用python实现用双语词典替换文本中的单词

写一篇2000字的基于大学生视角的幼儿双语教师专业发展与对策研究的论文

双语平行语料库是什么？

python代码实现英汉双语语料文本的分割

写一篇5000字的基于大学生视角的幼儿双语教师专业发展与对策研究的论文

简述自然语言处理的主要研究与核心关键技术，并至少举6个不同类型的应用实例进行解释说明其具体工作过程及其用到的核心关键技术

tkinter实现双语UI

命名一种可以开展学术研究的教育现象并说明原因，不少于600字

使用java写一个英汉双语词典

我用GAN生成了一批文本数据，存储在pandas或者numpy中，推荐三个评价指标

可以给几个chartgpt微调数据的例子么

endnote 双语文献模板

unity 中文和英文都支持的字体资源

endnote双语模板

机器翻译 数据集 manything

自然语言处理任务的机器翻译

用 Transformer 实现双语翻译的代码

请问机器翻译从广义上讲分为哪几类每一类都分别有哪些模块组成，请分别举例说明其主要特点及工作原理

最新资源

机器翻译数据集 manything