多语言机器阅读理解中的零次跨语言迁移方法及其有效性

18 浏览量更新于2023-12-01 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多语言机器阅读理解中零次跨语言迁移的吴林娟1人，吴少娟1人，张晓旺1人，2人，熊德义1人，陈世展1人，庄志强1人，冯志勇11天津大学智能与计算学院天津3003502天津大学-爱数数据智能联合实验室天津Tianjin_Research@aishu.cn{wulinjuan1997,shaojuanwu,dyxiong,shizhan}@tju.edu.cn摘要多语言预训练模型能够在机器阅读理解（MRC）中将知识从资源丰富的语言零次转移到资源较少的语言然而，不同语言之间的内在语言差异可能会使零镜头迁移预测的答案跨度违反目标语言的句法约束。在本文中，我们提出了一个新的多语言MRC框架配备了暹罗语义分离模型（S2DM），分离语义从语法表示学习的多语言预训练模型。为了只将语义知识显式地转移到目标语言，我们提出了两组针对语义和句法编码和解纠缠的损失。三个多语言MRC数据集上的实验结果（即，XQuAD，MLQA和TyDi QA）证明了我们提出的方法在基于mBERT和XLM-100的模型上的有效性。1介绍多语言预训练语言模型（PLM）（Devlin etal. ， 2019; Conneau and Lample ， 2019;Conneau et al. ，2020）已被广泛探讨在跨语言理解任务。然而，基于多语言PLM的零触发迁移方法并不适用于资源较少的语言MRC。这种多语言MRC模型可以粗略地检测答案跨度，但可能无法预测答案的精确边界（Yuan etal. ，2020）。为了解决这个问题，现有的方法主要依靠外部资源。基于70%的答案跨度是语言特定的短语（例如，命名实体，名词短语）（Lewis etal. ，2020），Yuan等人（2020）提出了一种额外的语言特定知识（一）（b）第（1）款图1：答案跨度和句法成分之间的关系。（a）来自XQuAD的示例（Artetxeet al. ，2020），其中地面实况答案是同义成分。(b)来自BiPaR的病例（Jinget al. ，2019年），其中由从英语转换到汉语的模型预测的答案违反了目标语言中的句法构成边界。短语屏蔽（LAKM）任务，以增强低资源语言的边界检测。Liang等人（2021）提出了一种堆叠在碱基序列标记模块上的边界校准模型，介绍了一个短语边界恢复任务，用于在从维基百科文档合成的大规模多语言数据集上预训练校准模块。这两种方法依赖于外部资源，而这些资源并不总是容易获得的。如图1（b）所示，迁移模型可能违反目标语言中答案跨度的语法约束预测的答案“月光不住“跨越两个子树的边界）。一个直观的假设是，答案的主要部分跨越语法选区边界（即，语法约束，如图1（a）所示在四个多语言MRC数据集上，我们使用Stanford CoreNLP1来收集syn.*这些作者对这项工作做出了同样的贡献，应该被视为共同第一作者。†通讯作者。1https://stanfordnlp.github.io/CoreNLP/根VPVBDNPPP已读取DTJJJJ IN历史新高NPCDCCCD2005年至2010年根IPNPCPIPVPNPADVPVPDecNNADVVIPVP的VV闪出VPVV晃动[Passage][XQuAD]一个越来越令人担忧的原因是，2005年至2010年期间，威尔士学校对教师的袭击[...][问题]什么时候对教师的攻击最多？[答案-地面真相]2005年至2010[theanswer是一个包含名词短语的介词R[传代][BiPaR]杨小凡见应收账款地毯上吐出的月光不住涅槃，有时候一直离心到他头顶上[.]韦小宝见此，只见短剑上的反光，忽明忽暗，忽暗忽暗。[...][问题]什么是涅磐？怎么了？[答案-地面真相]月光[答案-模型预测]月光不会停[违反句法成分界限的答案]月光不住arXiv：2204.00996v1 [cs.CL] 2022年4+v：mala2277获取更多论文XQuADMLQATyDi QA-GoldPBiPaR英语中国89.08%88.05%90.11%87.57%89.12%-百分之九十点九九百分之九十五点七三表1：四个多语言MRC数据集（英语和汉语）中尊重句法成分边界的答案跨度百分比。对解析树征税并计算尊重句法构成边界的地面实况答案的百分比。如表1所示，超过87%的答案跨度遵守句法约束。在双语平行 MRC 语料库 BiPaR （ Jing etal. ，2019年），我们比较了两个MRC树木）。我们使用一个公开可用的多语种的并行语料库与句法标签训练S2DM。概括起来，我们的主要贡献如下。• 我们提出了一个多语言MRC框架，显式地将源语言的语义知识转移到目标语言，以减少源语法对目标语言MRC中答案跨度检测的负面影响• 我们提出了一个连体语义解缠-型号：在BiPaR的中文数据上训练的单语MRC模型与在BiPaR的英文数据上训练并通过zero-shot transfer适应中文的基于mBERT的MRC模型。对于单语模型正确预测答案并遵守句法约束的问题，迁移模型错误预测了23.15%的问题，预测的答案违反了句法约束，如图1（b）所示。这表明，由于两种语言之间的语言差异，源然而，语言差异是多种多样的，很难学习它们。因此，我们建议在多语言MRC的预训练模型中将语义与语法解耦，将语言差异的学习转化为统一的语义信息。具体来说，我们提出了一个暹罗语义解纠缠模型（S2 DM），利用两个潜在变量学习语义和句法向量的多语言预训练表示。如图2（a）所示，在分离的语义表示层上堆叠MRC的线性输出层，我们可以在资源丰富的源语言上微调多语言PLM，并仅将分离的语义知识传输到目标语言MRC中。我们的模型旨在减少源语言语法对目标语言答案边界检测的负面影响。为了在PLM中很好地分离语义和句法信息，我们引入了学习跨语言重构和语义区分的目标函数，以及合并词序信息和句法结构信息（词性标记和句法解析）该模型能有效地分离多语言PLM的语义和语法信息，并具有面向语义/语法的损失。• 在三个多语言MRC数据集（XQuAD，MLQA和TyDi QA）上的实验结果表明，我们的模型可以在两个强基线上分别实现3.13和2.53 EM点的显着改进2相关工作跨语言/多语言机器阅读理解多语言MRC评估数据集的最新进展（ Artetxe et al. ， 2020;Lewis等人，2020; Clark等人，2020）引发了对多语言和跨语言MRC的研究兴趣（Hsu etal. ，2019; Cui et al. ，2019; Yuan et al. ，2020;Liu et al. ，2020; Huang et al. ，2021;吴等人，2021年）。Hsu等人（2019）研究了多语言BERT（mBERT）在MRC任务上的跨语言迁移能力，发现基于PLM的零触发学习是可行的，即使是在遥远的语言之间，如英语和汉语。在基于PLM的多语言MRC之上，已经提出了各种方法。Cui等人（2019）提出了一种结合多语言BERT和反向翻译进行跨语言MRC的方法。为了有效地利用翻译数据并减少翻译中噪声的影响，Liu et al. （2020）提出了一种基于知识蒸馏的跨语言MRC训练方法。 Yuan等人（2020）提出了两个辅助任务：mixMRC和LAKM，将额外的短语边界监督引入微调阶段。Liang等人（2021）提出了一种基于输出的+v：mala2277获取更多论文. . .. . .. . .. . .. . .. . .. . ....开始/结束跨度xs词袋解码器线性输出层WPL/POS/STLzsxs词袋解码器CRLxt词袋解码器CRLxt词袋解码器ysytWPL/POS/STLzt............B1，扫描电镜T1，扫描电镜...TN，semS1，扫描电镜B2，sem.TM，semS2，扫描电镜SDLSiamese Semantic Disentanglement模块采样平均值采样平均值采样平均值采样平均值B1T1......这是什么？T NS1B2T1...TMS2MLP网络（，）语法变量MLP NetworkMLP Network（，）（，）语义变量MLP网络（，）语法变量多语种预训练语言模型....................................嵌入令牌位置段[BEG]问题[SEP][BEG]传代[SEP]多语言PLM多语言PLMXs（一）（b）第（1）款XtT1，扫描电图2：多语言MRC的零触发跨语言迁移框架示意图。(a)我们的多语言MRC框架概述。(b)S2DM的体系结构训练完成后，只有源语言MLP网络的输出被送入线性输出层。（b）中的下标s和t分别表示源语言和目标语言。CRL：跨舌重建丢失。SDL：语义区分丢失。WPL：单词位置丢失。POS：词性缺失。STL：语法树丢失。一个基本的零射击转移模型，细化初始答案的边界。与上述研究不同的是，本文在基于多语言PLM的零触发跨语言迁移中主要考虑了源语和目标语之间的句法差异的影响，试图将语义与句法分离，只将语义迁移到目标语。最近，在NLP任务中，有越来越多的工作是关于学习解开的潜在表征（Zhang et al. ，2019;Hu et al. ，2017; Yinet al. ，2018）。在这方面，与我们的语法语义解耦方法最相关的工作是 Chen 等人提出的 vMF-Gaussian VariationalAutoencoder（VGVAE）模型。（2019年）。它是一个生成模型，使用两个潜在变量来表示句子的语义和句法，为单语设置开发它使用释义重建损失和区分释义损失来学习句法表示的语义表示和词序信息我们将此模型应用于多语言句法语义解纠缠。我们使用双语句子对来训练我们的模型，具有跨语言重建损失和语义区分损失。为了更好地从多语言PLM中复杂多样的语法中分离语义，我们引入了两个额外的语法相关损失，用于合并POS标记和语法树。3方法图2显示了我们的多语言MRC框架的体系结构，该框架具有所提出的连体语义解纠缠模型。3.1多语言MRC框架我们的多语言MRC框架由三个基本组件组成：多语言PLM层、连体语义解纠缠模块和线性输出层。来自多语言PLM的输出表示被送入S2DM，以分离语义和语法信息.只有解纠缠的语义表示输入到线性输出层，用于预测段落中的答案跨度。为了实现语义知识从资源丰富的源语言到资源贫乏的目标语言的零次跨语言迁移，我们采用了两阶段的训练策略。首先，我们用并行数据预训练S2DM（见3.2节），同时冻结多语言PLM的参数。一旦S2 DM被训练好，只有源语言MLP网络的输出才被送入MRC的线性输出层在第二步中，我们冻结S2DM的参数，并根据源语言的MRC数据对整个多语言MRC框架进行微调。3.2暹罗语义解纠缠模型在S2DM中，我们假设句子x由语义和句法变量生成，即，y和+v：mala2277获取更多论文ΣΣΣΣ.Σ|||··.Σ−||·ΣΣ−|Σ··M词袋解码器S不S不ΣΣz ，独立地。我们遵循 VGVAE Chen et al.（2019）使用von Mises-Fisher（vMF）分布作为语义变量，使用高斯分布作为句法变量。形式上，句子及其两个潜在的由于平行源句和目标句的语义是相互等价的，因此，这两项损失估计如下：L CRL=Ey t<$q φ（y|x t） −logp θ（x s|y t，z s）变量可以分解为：p θ（x，y，z）= p θ（y）p θ（z）pθ（x|y，z）（1）zs<$qφ（z|xs）+Ey s<$q φ（y|x s）−logp θ（x t|ys，z t），（四）哪里 p θ（x|y，z）是一个生成模型，Lz t <$q φ（z|x t）=max 0，δ−sim（y，y）+sim（y，n）VG-VAE的变分推断过程使用因子分解的近似后验qφ（y x）qφ（z x）=qφ（y，z x），其中目标函数使边际对数似然的下限最大化：+max 0，δsim（ys，yt）+sim（ns，yt）（五）其中sim（i）是余弦相似性得分函数。间隔δ是控制平行句对（ys，yt）和两个非平行句对之间间隔的超参数，它是一个超参数，用于控制平行句对（ys，yt）和两个非平行句对之间的L VGVAE= L RL+ KL（q φ（z|（x）||p θ（z））+KL（q φ（y|（x）||p θ（y）），（二更）平行句对（ys，nt）和（ns，yt）。 ns是与ys具有最高余弦相似度的负样本的语义向量。特别是，L RL= E y<$q φ（y|x） logp θ（x y，z）（3）z <$q φ（z|（x）其中 qφ （ y x ）服从 vMF （ μα （ x ）， κα（x）），而qφ（z x）服从N（μβ（x），diag（κβ（x）。先验pθ（y）和pθ（z）分别服从均匀分布MF（，0）当量（3）是发电机的反射损耗（RL）。在我们的模型中，我们采用多层感知器（MLP）网络来学习两个分布的均值（μ）和方差（κ）。由于预训练的表示是上下文编码的令牌向量，因此需要对通过从分布中采样获得的潜在变量向量进行平均，以便输出语义级和句法级向量。由于S2 DM对源语言和目标语言都使用了一个连体网络，因此语义和语法之间的分离是通过两个参数共享的子网同时对两种语言进行的，如图2（b）所示。我们试图从多语言表示中提取出丰富的语义信息，这些语义信息对多种语言具有除了传统的重构损失，我们提出了两个额外的并行数据损失，以鼓励潜在变量y捕获语义信息：跨语言重构损失（ CRL ）和语义区分损失（SDL）。前者估计，由于语料库中的部分句子在两种以上的语言中是平行的，因此我们将负采样的数据范围限制为只有双向平行对。nt以与ns类似的方式获得。为了指导S2DM将句法信息分离到句法潜变量z中，我们还定义了三种损失，以捕获不同类型的句法信息。首先，我们使用单词位置损失（WPL），定义如下：L WPL= Ez<$qφ （ z|x ）− log softmax （ f （ hi））i，我（六）其中，softmax（）i表示位置i处的第i个单词的概率，f（）是具有输入hi = [ e i ; z ]的三层前馈神经网络，输入hi = [ e i; z]是语法变量z和输入句子中的第i个标记的多语言PLM的嵌入向量e i的级联。此外，我们定义了一个部分的语音和syn-tax树损失，以鼓励S2DM隔离更深层次的句法信息从预先训练的表示。词性标注是一个序列标注任务，可以看作是对句子中每个词的多类分类问题。因此，我们将词性（POS）损失定义为交叉熵类型损失，如下所示：LPOS=−logsoftmax（g（hi））j=class当我们使用语义表示时，目的语的发音来重建i j=1（七）SDL+v：mala2277获取更多论文··源输入并使用源语义表示来进行目标重建。后者用于迫使学习的源语义表示ys尽可能接近目标语义其中g（）是线性层，softmax（）j=class估计黄金POS标签类的概率，m是不同POS标签的数量。为了学习结构信息，我们设计了+v：mala2277获取更多论文ΣΣ−|||2- 是的.ǁǁǁǁ|||Σ|||二叉树损失（STL）。许多研究发现，PLM可以编码句子的句法结构（Hewitt和Manning（2019）;Chip θ（x s，z s|y t）= p θ（x s，z s）. 我们得到：Ey t<$q φ（y|x t）log pθ（xs yt，zs）z s <$qφ（z|x s）等人（2020））。 Hewitt & Manning=E.p（z）log pθ（zs）（2019），我们将预训练的单词表示的句法分析公式化为两个独立的y t<$q φ（y|x t）θ sz s<$q φ（z|x s）p θ（x s，zs|y t）任务：解析树中单词的深度预测和两个单词的距离预测给予= KL（pθ（zs）pθ（xs，zs））同样地，矩阵B∈Rk×m作为线性变换，E[−logp（x|y，z）]=KL（p（z）||p（x，z））这两个子任务的损失定义为：y s<$q φ（y|xs）z t <$q φ（z|x t）θ不Stθtθ不不L深度=（wi−Bhi2），（8）我L距离=dT（wi，wj）−dB（hi，hj）（9）i、j其中wi是词的解析深度，定义为从解析树的根到wi的边的数量，并且Bhi2是线性变换下向量空间dT（wi，wj）是解析树T中第i个单词和第 j 个单词之间的路径中的边数。对于 dB（hi，hj），它可以定义为通过B变换后的平方L2dB（hi，hj）=（B（hi-hj））T（B（hi-hj））（10）为了诱导解析树，我们最小化求和-L RL= KL（p θ（y s）||p θ（x s，y s））+KL（p θ（y t）||p θ（x t，y t））尽量减少KL（q φ（z x）p θ（z））和KL（qφ（yx）pθ（y））最终将pθ（xs，zs）和pθ（xt，zt）拟合到相同的分布中。同样地，无论目标语言是什么，pθ（xs，ys）和pθ（xt，yt）也符合相同的分布。这与我们使用暹罗网络的动机是一致的。此外，在Eq.（5）保证源语言和目标语言的语义向量彼此相似最小化等式（5）可以等价于：. sim（y s，y t）> sim（y s，nt）+ δ上述两种损失的比例深度和L距离，sim（ys，yt）>sim（ns，yt）+δ也就是最大化sim（y，y），并且LSTL被定义为：LST L=L深度+L距离（11）根据不同的句法任务，我们训练了两个S2DM变体： S2DMPOS 和 S2DMSP （用于句法分析的SP），它们的训练目标定义如下：L1=LVGVAE+LCRL+LSDL+LWPL+LPOS，L2=LVGVAE+LCRL+LSDL+LWPL+LSTL3.3概化分析在本节中，我们将分析我们的基于编译的多语言MRC模型的泛化通过两个重建损失Eq.（3）Eq.（4），我们将证明S2DM得到的句法和语义向量是语言不可知的。由于Eq.（3）Eq.（4）是相同的，我们采取一部分的方程。（4）分析。由于zs和yt独立于+v：mala2277获取更多论文目标语义向量逼近并行源语义向量。在总结，S2DM 可以获取语言-不可知语义和句法向量。因此，我们的多语言MRC模型甚至适用于没有解耦模型训练数据的低资源语言。4实验4.1数据集为了验证我们的多语言MRC模型的有效性，我们在三个多语言问题回答基准上进行了实验：XQuAD（Artetxe et al. ，2020年）由11个不同语言的数据集组成，这些数据集是从SQuAD v1.1（Rajpurkar et al. ，2016）开发集，包括西班牙语（es）、德语（de）、希腊语（el）、俄语（ru）、土耳其语（tr）、阿拉伯语（ ar ）、越南语（ vi ）、泰语（th）、中文（zh）、印地语（hi）和罗马尼亚语（ro）。MLQA（Lewis et al. ，2020）由7种语言的超过 5K 个提取 MRC 实例组成：英语（en），阿拉伯语（ar），德语（de），西班牙语（ es ），印地语（ hi ），越南语（vi）和中文（zh）。MLQA是+v：mala2277获取更多论文此外，MRC实例还高度并行，平均跨4种不同语言并行。TyDi QA-GoldP是TyDi QA中的黄金通道任务（Clark et al. ，2020年），涵盖9种类型多样的语言：阿拉伯语（ ar ）、孟加拉语（bg）、英语（en）、芬兰语（fi）、印度尼西亚语（id）、韩语（ko）、俄语（ru）、斯瓦希里语（sw）、泰卢固语（te）。这是一个更具挑战性的MRC基准测试，因为问题是在没有看到答案的情况下编写的，这导致词汇重叠分别比XQuAD和MLQA少3倍和2倍（Huet al. ，2020）。4.2基线模型我们使用以下两个多语言PLM来构建MRC模型进行实验：mBERT 是 BERT Devlin 等人的多语言版本。（2019），具有177M参数，在104种语言的维基百科上进行预训练，以优化掩蔽语言建模目标。XLM-100使用与mBERT类似的预训练目标，但具有比mBERT更多的参数（578 M）和更大的共享词汇表，并且与mBERT一样使用覆盖100种语言的相同维基百科数据进行训练此外，我们与使用外部知识来增强跨语言MRC的强基线进行了比较：LAKM是在（Yuanet al. ，2020年）通过引入外部来源的短语级掩蔽语言建模任务。外部语料库包含四种语言的363.5k段落和534k知识短语：英语（en），法语（fr），德语（de）和西班牙语（es）。4.3设置对于 S2DM ，我们从 Universal Objectives （UD2.7）语料库（Zeman et al. ，2020）作为训练集。训练集涵盖20种语言，与三个MRC数据集的13种语言重叠。我们使用UD 2.7中的Universal POS标记和HEAD标记来完成POS标记和句法分析任务。我们从中文语义文本相似性（STS）任务（Tanget al. ，2016）作为开发集。对于S2 DM中的超参数，学习率被设置为5e-5，边缘δ为0.4，并且潜在变量维度为200。对于我们的多语言MRC模型和两个基线模型，我们在SQuAD v1.1（Rajpurkar et al. ，2016），并在三个多语言MRC数据集的测试数据上对其进行了评估。XQuADMLQATyDi QAEMF1EMF1EMF1XLM-10045.370.938.566.433.461.7XLM-100 XLM+S2 DM_POS46.672.740.167.335.763.6XLM+S2 DM_SP47.773.541.468.937.565.5mBERT48.563.341.258.543.657.6mBERT mBERT+S2 DM_POS49.463.742.859.946.358.7mBERT+S2 DM_SP49.864.143.360.347.860.1表2：XQuAD、MLQA和TyDi QA数据集上的平均实验结果。对于基于mBERT的模型，我们对它们进行了3次微调，训练批量为32，学习率为2 e-5。我们对基于XLM-100的模型进行了2个时期的微调，训练批量大小为16，学习率为3e-5。4.4实验结果总体实验结果示于表2中。我们所有的测试都是在零发射传输条件下进行的。我们的模型（S2DM_POS、S2DM_SP结合XLM-100或mBERT）在三个数据集上的表现显著优于XLM-100和mBERT基线S2DM_SP取得了最好的性能，这表明对更深层次语法信息的学习是引人注目的.特别是与TyDi QA-Gold数据集上的基线相比，基于XLM-100和mBERT的S2XQuAD和MLQA中12种语言的结果如表3所示。对于跨语言迁移性能，我们的模型在所有11种低资源目标语言的EM或F1方面都优于两个基线在MLQA数据集上，LAKM使用更大的额外语料库来训练更好的主干语言模型，而我们的方法使用更少的外部数据仍然可以在德语（de）和西班牙语（es）中实现类似TyDi QA-GoldP数据集比XQuAD和MLQA更具有挑战性。TyDi QA-GoldP的结果如表4所示，我们的模型在所有8种低资源目标语言的EM或F1方面都优于基线。在芬兰语（fi）和俄语（ru）的EM中，XLM+S2 DM_SP显著优于XLM- 100基线，分别为8.4%和9.5%这两种语言的语系在这三个数据集上的评估结果验证了我们提出的方法的有效性。在第3.3节中，我们从理论上分析了我们模型的推广。在三个数据集上的实验结果表明，+v：mala2277获取更多论文XQuAD（EM/F1）enardeEles嗨roru日trvizhavgXLM-10066.5/86.535.6/72.453.8/80.937.9/66.354.6/81.039.9/64.956.6/79.654.0/79.510.3/27.042.0/72.449.5/75.442.7/65.445.3/70.9XLM-100XLM+S2 DM_POS67.5/87.440.2/74.954.2/80.841.9/71.355.4/82.140.0/66.256.4/79.654.0/79.313.8/38.941.9/70.850.6/75.842.9/65.146.6/72.7XLM+S2 DM_SP68.3/88.039.8/74.955.8/81.744.1/72.456.8/82.540.5/66.559.0/81.754.2/79.513.3/38.344.5/72.951.3/76.144.5/67.647.7/73.5mBERT72.6/83.644.3/60.654.0/69.646.0/61.157.3/74.938.3/53.358.3/72.554.0/69.630.9/39.933.8/50.946.1/65.946.3/57.448.5/63.3mBERTmBERT +S2 DM_POS73.4/83.244.9/59.955.6/71.944.8/59.757.4/7541.3/55.758.1/72.455.3/71.232.7/40.734.0/50.848.2/67.447.1/56.949.4/63.7mBERT +S2 DM_SP73.2/84.043.3/60.055.2/70.746.6/61.857.1/74.142.7/56.559.5/73.454.6/70.330.4/38.936.3/51.449.8/69.748.9/58.549.8/64.1MLQA（EM/F1）XLM-10059.1/81.827.0/62.843.5/71.3-42.7/73.829.3/56.4----37.4/65.030.1/53.738.5/66.4XLM-100XLM+S2 DM_POS61.1/82.830.5/65.743.9/71.2-43.1/73.531.5/58.0----39.7/66.730.5/53.140.1/67.3XLM+S2 DM_SP61.1/83.031.2/67.145.9/72.9-43.6/74.134.1/61.2----41.4/68.532.3/55.641.4/68.9mBERT67.0/79.331.5/49.543.8/58.3-45.8/64.129.4/45.2----37.5/57.334.5/56.141.2/58.5LAKM66.8/80.0-45.5/60.5-48.0/65.9--------mBERTmBERT+S2 DM_POS66.3/79.532.4/50.245.1/59.7-46.8/65.130.8/46.0----39.5/59.438.4/59.142.8/59.9mBERT+S2 DM_SP67.5/79.832.1/50.545.3/59.9-47.2/65.032.0/46.9----41.1/60.638.0/59.343.3/60.3表3：XQuAD和MLQA数据集上12种语言的EM和F1得分TyDi QA-GoldP（EM/F1）enarBGFiIDkoruSWteavgXLM-10052.9/78.131.1/69.829.2/57.739.3/65.342.8/69.01.4/24.936.8/70.232.9/59.234.4/61.133.4/61.7XLM-100XLM_S2 DM_POS52.3/76.130.4/69.537.2/66.137.5/64.644.1/68.41.8/25.339.4/72.441.9/62.737.1/67.435.7/63.6XLM_S2 DM_SP53.6/7834.4/72.333.6/66.847.7/72.745.5/69.41.5/28.846.3/75.637.5/63.137.2/62.637.5/65.5mBERT65.5/75.343.8/59.539.8/54.944.0/56.945.3/59.841.7/49.841.4/64.432.3/50.039.0/48.243.6/57.6mBERTmBERT+S2 DM_POS66.1/74.844.2/60.941.6/53.341.9/55.646.5/60.245.3/51.742.9/63.643.3/55.844.8/52.746.3/58.7mBERT+S2 DM_SP65.9/76.644.7/60.744.2/55.245.1/56.547.3/60.948.2/55.044.3/65.545.9/58.144.4/52.047.8/60.1表4：9种语言在TyDi QA-GoldP数据集上的EM和F1得分S2DM的培训目标语言中不包括的语言这五种语言是XQuAD中的罗姆语（ro）、越南语（ vi ）和 TyDi QA-GoldP 中的本雅明语（ bg ）、斯瓦希里语（ sw ）、泰卢固语（te），它们资源稀缺，与英语有不同的语系。值得注意的是，mBERT+S2DM_SP在斯瓦希里语（SW）EM中的表现优于mBERT5分析5.1消融研究我们进一步进行了一项基于mBERT和VGVAE模型的消融研究，并采用了不同的损失组合（在第节中介绍）。3.2）。结果如图3所示。我们的mBERT+S2 DM_SP MRC模型在所有变体中实现了最强的性能，超过了无损失模型。根据图3所示的结果，我们可以总结出每个损失都是必要的，并且适合我们的模型。没有 POS 和 STL 损失的结果（例如， w/CRL+SDL+WPL）验证了我们为捕获句法信息而定制的损失（POS或STL损失）的有效性。仅在CRL、SDL和WPL中包含两个损失的模型的性能仅包含CRL、SDL中的一种损失的模型的结果略有下降，但仅包含WPL的模型的EM优于w/ CRL+WPL和w/ SDL+WPL，进一步说明了语法导向损失的重要性。所有消融图3：MLQA数据集上的消融研究结果。三条虚线从左至右分别表示基线mBERT、S2 DM_POS和S2DM_SP的结果。图4：S2DM的单个网络.+v：mala2277获取更多论文土耳其语到英语（tr-en）跨语言STS。我们在图5中报告了基于mBERT的模型结果。我们还评估了跨语言STS中学习到的句法向量，希望每个语义向量之间的间隙（即，中的y表5：基于mBERT的不同S2DM变体的多语言MRC模型的性能.模型没有超过我们的最佳模型，说明了所有拟议损失的重要性。5.2为什么在S2DM中使用暹罗网络？为了从PLM中分离语义信息，另一种方法是基于VGVAE模型训练单个网络，如图4所示。与S2DM相比，单网络模型不使用CRL和SDL损失，只需要标记的单语数据。与S2 DM对应的是两个单网络变体： S2DM_single_POS和S2DM_single_SP。由于没有跨源语言和目标语言的显式语义学习，我们推测单网络S2DM将影响学习的语义向量的质量和语义-语法解耦的程度。如表5所示，单网络S2DM的性能比连体网络模型差。5.3为什么S2DM有效？我们的方法主要旨在通过显式地将语义与多语言预训练模型中的表示中的语法隔离开来，来减少零触发传输过程中语言句法差异的潜在负面影响。因此，我们希望获得具有丰富语义信息的多语种语义表示，以指导机器阅读和理解文本。为了检验（1）S2DM中的语义向量y是否编码了丰富的语义信息，（2）语义与句法是否充分分离，（3）语义解纠缠是否能提高目标语言匹配句法结构的预测答案跨度，我们进行了额外的实验和分析。在这里，我们使用SemEval-20172中的三个跨语言语义文本相似性（STS）数据集来评估S2DM学习的语义向量的质量这三个数据集分别用于阿拉伯语到英语（ar-en）、西班牙语到英语（es-en）和2https://alt.qcri.org/semeval2017/任务1/S2 DM）和句法向量（即，z在S2DM中）尽可能大。如图5所示，在ar-en、es-en和tr-en中，与基线相比，分解的语义表示显著提高了Pearson相关性，分别提高了11.46%、3.40%和4.98%。此外，在大多数情况下，分离的句法表征与STS呈负相关这些结果表明，解纠缠语义向量确实学习丰富的普遍语义信息。我们可视化mBERT最后一层的隐藏表示以及mBERT+ S2DM_POS和mBERT+S2DM_SP的语义表示，图6 ，其中平行句子来自 15路平行语料库（Conneau et al. ，2018）。可以清楚地看到，通过S2 DM学习的分离的语义表示使15种语言中的平行句子（语义上彼此等价）在空间上彼此更接近，混合了从mBERT表示中清晰可见的语言边界（图6（a））。结合SemEval-2017中跨语言STS任务中句法/语义向量的负/正结果，可视化表明S2DM可以有效地将语义与句法分离。最后，我们评估了预测答案跨度的句法成分如第1节所述，在BiPaR上的原始零激发跨语言迁移期间，23.15%的非迁移预测正确答案违反目标语言的句法约束而 S2DM_POS 和S2DM_SP则使这一比例分别下降到12.98%和6.60%此外，在BiPaR的整个测试集上（Jing etal. 在汉语中，S2DM_SP模型预测的答案中有93.27%的答案正确地跨越了句法成分，比mBERT模型高出8.14%。6结论本文提出了一种新的多语言零镜头跨语言迁移MRC模型，该模型能够将语义和句法表征分离开来，将语义信息从资源丰富的语言显式地迁移到资源贫乏的语言，减少了语言间句法差异对语义信息的影响。XQuADMLQATyDi QAEMF1EMF1EMF1S2 DM_POS49.463.742.859.946.358.7S2 DM_单POS48.662.642.459.243.956.4S2 DM_SP49.864.143.360.347.860.1S2 DM_单_SP49.263.642.559.645.358.4+v：mala2277获取更多论文图5：跨语言STS任务的Pearson相关性（%）。条形的长度表示两个向量的间距。四个不同颜色的条形从左到右表示S2 DM_SP、S2 DM_single_SP、S2 DM_POS和S2DM_single_POS的结果紫色虚线：mBERT的结果。图6：mBERT 最后一层隐藏表示的PCA可视化（a）以及S2 DM_POS（b）和S2 DM_SP（c）的语义表示。黑点：不同语言中相同的15向平行句。目标语言的回答广度预测。为了在多语言预训练表示中将语义与语法分离，我们提出了siamese语义解纠缠模型，该模型以语义/语法为导向的损失来引导潜变量学习相应的信息。对于低资源的语言，没有训练数据的解耦模型，我们的理论分析和实验验证了我们的多语言MRC模型的推广。进一步的深入分析表明，S2DM能有效地将语义和句法分离开来，并显著提高零镜头跨语言迁移后目标语言答案预测的句法一致性。致谢本研究得到了国家自然科学基金（61972455）、AISHU.com、Bayescom、浙江省实验室联合项目（No.2022KH0AB01）和天津市自然科学基金（No.19JCZDJC 31400）的资助。张晓旺获得天津大学北洋青年学者项目（2019 XRX-0032）资助。引用Mikel Artetxe Sebastian Ruder和Dani Yogatama 2020.论单语表征的跨语言迁移性。在计算语言学协会第58届年会的会议记录中，ACL 2020，第4623Mingda Chen ， Qingming T

下载后可阅读完整内容，剩余1页未读，立即下载