联邦知识组合模块：解决多语言自然语言理解的联邦学习问题

39 浏览量更新于2023-11-29 收藏 1021KB PDF 举报

自然语言理解

联邦学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1839→FedKC：面向多语言自然语言理解的联邦知识组合Haoyu Wang<$，Handong Zhao< $，Yaqing Wang<$，Tong Yu<$，Jiuxiang Gu<$ and Jing Gao<$§美国印第安纳州西拉斐特普渡大学†美国Adobe Research§{wang5346，wang5075，jinggao}@purdue.edu，<${hazhao，tyu，jigu}@adobe.com摘要多语言自然语言理解是一项重要的任务，其目的是现有的努力一直集中在集中存储的文本数据的分析，但在实际操作中，多语言数据通常是分布式的。联邦学习是解决这个问题的一个很有前途的范例，它在本地客户端上使用分散的数据训练本地模型，并在中央服务器上聚合本地模型以实现良好的然而，现有的联邦学习方法认为数据是独立且同分布的（IID），并且不能处理多语言数据，多语言数据通常是具有严重偏斜分布的非IID：首先，多语言数据存储在本地客户端设备上，使得每个客户端上仅存储单语或双语数据。这使得本地模型很难了解其他语言的文档信息。第二，不同语文的分布可能不均衡。高资源语言数据比低资源语言数据丰富得多。在这种倾斜数据上训练的模型可能会更多地关注高资源语言，但未能考虑低资源语言的关键信息。为了解决多语言联邦NLU的上述挑战，我们提出了一个即插即用的知识组合（KC）模块，称为FedKC，它在客户端之间交换知识，而不共享原始数据。具体来说，我们提出了一种有效的方法来计算基于跨客户端共享知识定义的一致性损失，这使得在不同客户端上训练的模型能够在类似数据上实现类似的预测利用这种一致性损失，联合训练，从而进行分布式数据尊重隐私约束。我们还分析了FedKC的潜在风险，并提供了理论界，表明它是难以恢复的数据从损坏的数据。我们在三个公共多语言数据集上进行了广泛的实验，用于三个典型的NLU任务，包括释义识别，问答匹配和新闻分类。实验结果表明，该算法在三个数据集上的性能均优于现有的基线算法。允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511988CCS概念•分布式人工智能.关键词联邦学习，多语言自然语言理解ACM参考格式：Haoyu Wang<$，HandongZhao<$，Yaqing Wang<$，Tong Yu<$，JiuxiangGu<$and Jing Gao<$. 2022 年 FedKC ： Federated Knowledge Compositionfor Multilingual Natural Language Understanding多语言自然语言理解联合知识组合。在ACM Web Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。ACM，纽约州纽约市，美国，12页。https://doi.org/10.1145/3485447.35119881介绍自然语言理解（NLU）[39]是自然语言处理（NLP）的基本任务之一作为一个总括术语，NLU是指使机器理解自然语言的上下文和含义的努力，因此它涵盖了各种任务，包括文本分类，名称实体识别和情感分析。虽然NLU任务主要是针对以单一语言编写的文档进行研究，但多语言文档的联合分析也引起了相当大的关注。随着互联网和移动设备上以各种语言共享的信息越来越多，多语言NLU是连接全球数十亿人的关键。多语言NLU的现有工作一直专注于分析收集到中央服务器的多语言文本数据[34，36]。在本文中，我们研究了一个实际的和常见的情况下，多语言的文本数据存储在分布式设备（客户端）。在许多应用中，由于隐私问题，很难甚至不可能将所有数据传输到中央服务器。因此，目标是理解多语言文档，而无需在客户端之间共享原始数据。为了在分布式数据上进行多语言NLU可以采用联邦学习[3，19，20，32，58]作为学习范式。在联邦学习中，共享的全局模型在中央服务器的协调下训练，同时将用户数据分散在本地客户端上。然而，直接采用多语言NLU的联邦学习范式并不起作用。现有的联邦学习模型假设数据是独立同分布的（IID），但这在多语言NLU中并不成立当数据是非IID时，联邦学习由于其在分布式数据上的训练而遭受训练不稳定性[26、63]。在这里，我们使用一个例子来说明许多多语言NLU任务所面临的非IID问题。需要多语言NLU来理解存储在用户的智能手机上的文本，并且智能手机应用程序支持多种语言是常见的。苹果Siri和亚马逊Alex分别支持21种和8种语言;1840WWWGoogle搜索支持149种语言; Instagram支持36种语言。用户为应用程序设置他们的首选语言（通常每个用户只有一种或两种语言），因此存储在每个用户客户端上的数据是单语或双语的。因此，不同客户端之间的数据不仅在风格和词汇表上，而且在语言上都有很大的不同，这给联邦学习带来了严峻的挑战。此外，不同语文的数据量差别很大。例如，前三种广泛使用的语言的使用者占全球人口的20%。这种偏斜的分布增加了在联邦学习框架中训练NLU模型的难度。联邦学习算法，包括FedAvg [31]和Fed-Prox [27]，被提出来训练基于分布式数据的全局模型，但这些方法无法处理在多语言NLU任务中观察到的上述非IID挑战。使用FedAvg作为一个例子，我们解释了现有的联邦学习算法如何在非IID数据上表现不佳。在FedAvg中，局部模型参数通过加权和聚合为全局模型参数，权重与客户端上的训练数据量成正比。因此，全局模型可以是dom-在每个聚类中，我们称之为知识组合（KC）。提出的KC是一个即插即用的模块，可以很容易地应用于多个联邦学习框架。本文的贡献总结如下：1）提出了一种联邦知识组合框架，该框架通过在客户端之间仅交换高级知识来减轻非IID挑战并保护多语言自然语言理解任务中的隐私;2）提出了一种集群感知机制来减少知识交换过程中的近似误差;3）对知识转移过程中的隐私保证进行了理论分析;4）在三个多语言自然语言理解基准数据集上进行了大量实验，所提出方法显著优于基线。表1：FedKC和其他联邦学习方法之间的差异“模型/数据缓冲存储”意味着存储上一轮全局或局部模型，或者共享辅助数据集。FedMD和FedED都是基于知识蒸馏的方法; FedMix和XorMixFL都将mixup扩展到联邦学习框架。由高资源语言和低资源语言的信息可以忽略资源语言。此外，分布在模型/数据混合原始数据共享avg.嵌入共享缓冲存储（无隐私保证）（含隐私保证）不同的语言可能是倾斜的，不同的阶级也可能不平衡。根据[ 27 ]，FedAvg可能会在这种非IID数据上表现不佳。在联邦学习设置中，有一些解决非IID问题的努力，通过Mixup [60]或知识蒸馏[15]应用数据增强。这些方法应用于图像数据。然而，文本数据是离散序列，其不同于图像的像素数据。因此，Mixup策略[41，59，60]不适合多语言NLU任务。至于联邦学习框架中使用的知识蒸馏方法[24，29，35，44]，它们通常需要共享辅助数据集。然而，在多语言NLU任务中，低资源语言数据已经稀缺，因此无法满足对额外辅助数据集的需求。总而言之，前联邦学习算法可能无法解决多语言NLU任务所面临的挑战。鉴于这些挑战，我们提出了一个联邦知识组合机制（FedKC）的多语言NLU任务。FedKC利用联邦学习框架保护用户隐私，并利用知识组合在主动客户端之间交换知识（数据嵌入）。具体来说，我们对每个客户端数据进行聚类，以获得最具代表性的知识，即聚类的数据质心，然后在客户端之间交换学习到的数据质心，打破联邦学习中的数据孤岛，以克服非IID和数据不平衡的挑战。高级学习知识能够保护数据隐私，这在第5.6节中通过理论分析和实证研究进行了检验。所提出的一致性损失目标不能直接最小化，因为客户端不能访问其他客户端中的原始数据。为了应对这一挑战，我们建议对每个客户端的数据进行聚类，使用聚类质心作为从每个客户端提取的知识，并在客户端之间交换知识。因为质心是平均数据嵌入1https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers[31]第三十一话[27]第二十七话[25]第二十五话[35]第44话：你是谁？[41]第四十九话：一个人的世界FedKC（我们的）- -2相关工作2.1多语言自然语言理解自然语言理解（NLU）包含几个子任务，例如释义识别[21，56，57]、自然语言推理[30，33，37，51]、问答[2，5，7，55]、新闻分类[6，18]、情感分类[45，46，52]等。以前对多语言NLU的研究通常基于传统的深度学习模型，如卷积神经网络（CNN）[23]和长短期记忆网络（LSTM）[16]来学习多语言单词或句子表示。例如，[47，49，50]学习多语言单词嵌入;[53]利用CNN学习与语言无关的句子表示; [54]应用多任务学习框架通过CNN学习基于字符的表示; [36]提出基于LSTM的分层注意力来学习多语言文档表示。然而，随着NLP的发展，最近的作品[1，34，38，48]主要基于预先训练的多语言模型，如mBERT [10]，XLM [9]和XLM-RoBERTA [8]。它们在大规模多语言语料库上进行预训练，然后用很少的时间进行微调，以在多个NLU任务中实现出色的性能。然而，传统模型和预训练模型都需要集中数据，这可能会在许多现实场景中引发数据隐私问题。2.2联邦学习为了解决机器学习模型在实际应用中潜在的隐私问题，联邦学习已经取得了越来越多的成果方法1841J.（）→{D|}11niniJJ其中客户端权重p与训练量成正比ini，wi是分布式全局模型上传/分发本地/全局模型上传本地模型上传质心和平均预测上传/分发局部/全局质心和平均预测全局权重聚合分发打包的质心和平均预测客户端1客户端2. . .客户i. . .客户机N•------•------•------•------客户端i的数据集1•------•------•------•------Kmeans聚类第1第2第3客户端1的数据训练数据01可感知一致性丢失任务分类丢失质心01111平均预测客户端i成簇0000客户端I模型FedKC：Federated Knowledge Composition for Multilingual Natural Language Understanding WWW图1：知识构成的框架红色背景部分聚类数据，并计算质心和平均预测。橙色背景部分使用分布式质心和平均预测计算近似一致性损失。左上角的流程图显示了上传和分发模型和数据的步骤注意最近。联邦学习旨在学习高质量的{（si，yi），.，（si，yi）}，其中si是文本内容，yi是la-在多个本地客户端的帮助下实现全局性，同时禁止客户端之间的数据共享FedAvg [31]是最具代表性的联邦学习方法之一它在本地客户端执行本地随机梯度下降，在服务器端聚集模型然而，FedAvg训练有时并不稳定[27]。因此，FedProx [27]添加了正则化器，以防止参数更新距离上一次通信回合中的参数太远。为了加速FedAvg 收敛，提出了 FedAdagrad [40] ， FedYogi [40] 和FedAdam [40] 为了解决客户端本地数据分布的异构性，有很多基于对比学习、数据扩充和知识提取的工作。MOON[25]利用对比学习来迫使参数在上一轮中比上一轮中的局部参数更接近全局参数。FedMix [59]和XorMixFL [41]将Mixup [60]（一种流行的数据增强方法）扩展到联邦学习。然而，很难应用mixup来实现良好的性能bel，ni是Di中训练实例的数量。联邦学习的目标是学习具有分散数据存储的全局模型Fsiyi。在本文中，我们专注于开发多语言NLU任务的联邦学习算法，其中多语言数据集表示为i i = 1，2，...，N与k类。3.2系统饲料平均值联邦平均[31]是联邦学习的一种流行和经典的算法。在给定的通信轮t内，存在K个活动客户端在本地更新参数。在联邦学习中，中央服务器首先将全局模型参数wt分发给这些活动客户端，然后活动客户端将其更新的参数上传到中央服务器。在中心服务器接收到更新的参数之后，中心服务器聚合参数以通过wt +1= i piwt +1更新全局模型参数，三种基于知识提炼的方法然而，FedMD. nit+1蒸馏，这在许多现实情况下是不可用的。对于FEDDISTILL，它需要学习生成器。该方法虽然对图像数据有效，但不容易推广到文本数据，因为文本数据处于离散空间，难以生成。与这些联邦学习方法相比，所提出的FedKC不需要保持共享的辅助数据集，并且不需要保持最后一轮的全局或局部模型，而仅交换平均嵌入。我们还在表1中总结了所提出的FedKC和其他联邦学习方法之间的差异。3背景和序言3.1问题公式化联合学习设置包括中央服务器，N个客户。客户端i上的数据集表示为Di为在第t轮中更新客户端i的参数4方法4.1概述联邦学习包括两个主要过程，一个是更新本地客户端的参数，另一个是聚合全局模型的客户端参数。最广泛采用的权重聚合操作[31]是对每个客户端上的训练数据量进行加权求和，从而容易导致模型偏向于更强调高资源语言。为了克服这个问题，我们提出了一个知识组合模块，用于在客户端之间交换知识，以进行联邦学习。知识合成涉及两个步骤，包括跨客户端的知识共享（在子节4.2中）和通过集群感知的一致性损失更新客户端参数（在子节4.3中）。我们的FedKC框架首先在客户端之间进行知识共享，然后更新客户端文本数据[4]。[24]第二十四话：存储在一个客户端i上的数据样本，即，pi=而FedED需要一个额外的共享数据集来执行知识我1842∈A\{eL=nm（n（y，e wi））+nx（ek −e）+y（yk −y））nmk=1Knmk=1KL=N（myk，nm杨永wi））。最小−log（F（si;wt）[m]）.J.. .kmkiWWWW参数与集群感知的一致性损失和定义的任务损失。最后，我们将更新后的客户端参数上传到cen中，然后，我们应用一阶泰勒展开近似（y用于通过加权平均进行权重聚合的终端服务器与我们K KI提出了知识组合模块，加权平均聚合，（ygation不会导致模型偏差，因为每个主动客户端都学习基伊阿克斯克克雷蒂克通过客户端感知一致性其中，在x = e和y = y时，计算所以我们损失我们的框架如图所示1.一、阿斯特丽德可以将损失L改写为近似形式：4.2跨客户的知识共享1.一、nmˆ;t拉克莱姆∂ℓˆmˆ足以覆盖整个任务分布以实现良好的模型，k=1ˆ;t1.nmM1.nmm特别是在多语种情况下，当地客户可能只有单语种数据。为了缓解这个问题，我们建议交换知识来桥接不同的客户端。更具体地说，=（y，e wi））+x（nmk=1ek−e）+ny（nm k=1yk -y）。（四）最后，我们设计了一致性损失，以迫使来自不同客户端的一致性预测对代表性数据质心。形式上，我们为客户端i优化以下损失函数等式 4表示不需要在客户端之间共享整个嵌入，因为只需要损坏的嵌入和预测。那么下一个问题就变成了如何设计e和最小−.nik−1yilog（F（si;wt）[m]）是的。e和y的选择将决定近似误差，考虑到我们使用一阶泰勒展开来近似。tjmij=1m= 0+αj我nmm∈At\{i}k=1CE（F（sm;wt），F（sm;wt）），（1）配偶一致性丧失。然后我们考虑如何选择e和y，减小近似误差。基于泰勒展开的误差界[43]，我们有∥ℓ(yˆ,em;wt))−ℓ(yˆ,e;wt))+∂ℓ(em−e)+∂ℓ(yˆm−yˆ)∥2其中α是知识蒸馏系数，At是ac-基伊阿克斯克K2客户端设置在第t轮。Eqn的第一项1、分类≤M（em−e2+ym−y2），（5）第二个，也是第一个，也是第二个。1是一致性损失。k2k2然而，Eqn.1需要访问原始数据其中M是常数。因此，我们得到以下优化从其他客户端m（mti），这违反了联合学习中的隐私约束。因此，Eqn。% 1无法使用问题min 1.一、nm（em−e2+ym−y2）。（六）作为我们的优化目标函数。此外，输入是e，ynmk2k2k=1由离散标记组成的序列，其中算术运算等式 6可以被求解以获得e=1。nmem，y=1。嗯，我也是。这些问题，受知识转移[12，13]的最新发展的启发而不是整个网络。将fp（·;pwt）表示为Eqn的解6表明，损坏的嵌入和预测是数据嵌入和预测的平均值。我们提出了理论上的隐私保证，关于拟议的知识-层，包括P我-th中间层到最后一层，并且第4.4节中的边缘转移选项。在将所学习的解决方案应用于Eqn. 3，我们得到一个简洁而优雅的近似分别作为第p中间层的输入嵌入为了方便起见，我们在下面的章节中省略了符号p然后配方：1.一、nmm1.一、nmm;不（七）.ni K.−1W我k=1k=1tj=1m= 0jmJ I. .nmm t mt在第4.2节中，我们建议在客户之间共享知识，使用一致性损失来桥接不同的客户端。然而，仅仅+αm∈At\{i}k=1CE（f（ek;wm），f（ek;wi）），（2）平均嵌入和预测，但忽略嵌入的不同模式会导致信息丢失，并可能导致高根据[42]，信息也可以通过反转攻击从嵌入中泄露。因此，在Eqn.2.仍然不能提供隐私保证。为了在不泄漏数据的情况下传递知识，我们提出了知识合成策略，该策略交替使用损坏的嵌入来近似地表示原始嵌入。形式上，我们将关于客户i和客户m的交叉熵表示为：近似误差因此，期望传递更细粒度的信息并且进一步使近似误差最小化。为了解决这个问题，我们提出了一种简单而有效的基于KMeans [14，61]的细粒度聚类感知一致性损失，即知识组合（KC）。我们应用KMeans在每个活动客户端上嵌入，以获得q个聚类。而不是使用平均嵌入，我们建议通过几个av-1nmL=对于每个客户端，对应的训练数据通常不是很难执行信息隐私保护。到目标我们有以下新的损失函数yi4.3浏览器感知的一致性丢失1843CE（f（em;wt），f（em;wt））=1.一、nm（y我簇的平均嵌入（即，质心）。属于同一簇的嵌入通常携带相似的模式，nmk=1kmkinmk=1k k在欧几里得距离方面彼此接近，因此使用1844我K.||I2（E）∈（）−−T′δ对于每个簇，我们对e=1应用泰勒展开k∈ Ciem，y=k∈Ciyk，在此聚类中应用最优损失函数。KmBERT，其中间层输入嵌入em∈Rs×d是aKj=1xij，其中i1，i2，.，ik∈ {1，2，.，n}，且ipiq对于pq。KK杨永|Ci|k∈CiK|Ci|k∈CiK成本，其中k是标签类别的数量，d表示J.Q2K攻击方法只能针对句子嵌入，FedKC：Federated Knowledge Composition for Multilingual Natural Language Understanding WWW几个中心可以捕获更多的模式并实现更小的AP。建议2. Vec（Em）和Vec（Em）之间的距离可以与一个平均嵌入相比，近似误差[62]。这种说法在下面的命题中得到了证明。建议我在1。对于嵌入em（k = 1，.，nm），在使用q个聚类进行KMeans聚类后，我们有I j以em和em之间的距离为界证据见附录。4.4知识构成的隐私分析与传播.nmm2m2.Q .M2m2在本节中，我们提供了知识组合的隐私分析，k=1（ek−e<$2+yk−y<$2）≤（ek−µi2+yk−yi2），i=1k∈Ci提出了知识合成的隐私保证，分析了知识合成其中，reµi是第i个圆，yi=1|Ci|证据见附录。k∈ Ciy∈m.混合物.4.4.1知识构成的隐私问题知识网-在下文中，我们详细展示了细粒度的知识构成。形式上，我们将KMeans聚类应用于嵌入位置在客户端之间传输原始数据嵌入和预测的平均值。虽然它只分享极其有限的在客户端mmin .nm wik em − µi2，s. t. 在{0， 1}中的wik，尽管数据的信息，它仍然引起了一些隐私问题。为了解决这些问题，我们提供了一个量化的风险衡量标准，µi=1k=1k攻击和防御的观点，其中的技术没有详细介绍，因为这不是本文的主要重点并且我们获得了q个聚类Ci（i=1，2，.. . ，q）。大肠mbeddingsinyi=根据[42]，嵌入可能会泄漏原始数据信息2001年。布勒姆|K|k当面临嵌入反转攻击时。在[42]中，换句话说，我们利用q学习的细粒度数据点，近似表示所有数据点，而不是简单地求平均值嵌入可感知群集的一致性丢失可以写为Q被认为是令牌嵌入的聚合不同于在[42]中的设置，我们转移损坏的数据嵌入，使-嵌入式逆攻击效果较差据我们所知，没有成功的攻击声称在这一挑战L=1。中国（1） .em，1.y（m）;w（t））。（八）K设置. 我们尝试了[42]中的攻击方法，其中具有必要的高斯qi=1|k∈ Ci|k∈ Ci|k∈ Ci|k∈ Ci分布假设，并将命题3显示为随后详细阐述了攻击结果将远离KMeans通常用于对低维特征进行聚类，但将其应用于高维特征时可能面临一些挑战地面真实令牌。建议我在3楼。假设x1，x2，. XN（μ，σ2I），且x<$=矩阵，其中s是输入文本的标记数，d是优化问题的最优解min ||f（VT Z）−令牌嵌入的维度因此，当我们使用泰勒2πZ时，展开时，我们需要对矩阵进行向量化，例如VecmRsd首先，然后应用KMeans（我们使用Em和emk来区分，xi是Z，最优化问题的最优解min||2是Z。||2isZ¯ ∗. 并通过实例分析得到了解决方案k kZ2<$在下面的Guish向量和矩阵不幸的是，向量化嵌入是在非常高的维度。例如，对于具有128个标记的文本序列，使用多语言BERT，向量化嵌入是98，304维的。对于这样一个高维数，采用K均值分解是非常耗时的，这两个优化问题的梯度下降分别为Zi和Z。剩余误差为i=f（VTZi）−xi和<$=fVZx2。然后，至少有概率1 e−，其中δ>0，以下不等式成立：|Z−Z<$|Z|≥（d−2<$dδ）k−1|≥(d−2√dδ)k−1σ2−||ϵi−ϵ¯||2−||Z−Z<$||.F正确。因此，我们需要先降维，然后再降维。KL||V||FL||V||F使用K均值。然而，更棘手的问题是，降维方法也很耗时，如PCA，自动编码器，因此不能加速这个过程。到证明见附录。根据这个命题，我们可以找到恢复数据Z<$和真实数据Zi之间的距离是大于1（（d−2<$dδ）（1 −1）σ2−||（2）−||F.||Z¯ ∗−Z¯||F.针对这一问题，提出了一种简单有效的方法。的L ||V ||Fk方法是基于低维嵌入执行KMeans以近似中间层KMeans。形式上，我们有中间层嵌入Em，网络定义了映射M（Vec（Em））→em，其中km是低维em-4.4.2知识构成的沟通成本。知识组合可以插入到最流行的联邦学习框架中，如FedAvg，FedProx等。具有有限的额外通信成本。知识的额外传播成本bedding（例如，mBERT的池化层输出然后我们对em执行KMeans并得到聚类Ci（i= 1，2，.， q）。组成的原因是需要加载和分发损坏的数据点。我们将活动客户端的数量表示为可以用公式表示q个细粒度数据点，n. 然后上传qn个损坏的数据点会导致2qn（d+k）为e=1 .一、Vec（Em），y=y为1 .一、好的。通过这种方式，a a a我们避免直接在高维中执行KMeans 我们使用命题2表明，所提出的方法可以保持聚类精度。嵌入维数考虑一个具有10个集群、10个激活客户端和10个标签类别的设置，当使用池化层时，它只需要上传和分发额外的0.16M参数..|Ci|嵌入[11]。对于预训练的多语言模型，如1n我K我1845WWWmBERT的代表与具有110M参数的mBERT相比，额外的通信成本相当小（0.15%的额外成本）。5实验在本节中，我们将评估所提出的知识构成，以回答以下问题。RQ1与最先进的基线相比，知识构成的表现如何？RQ2提出的集群感知一致性损失对提高模型性能有效吗？RQ3不同参数下性能如何变化？RQ4知识组合是否降低数据泄露风险？5.1数据集和实验设置5.1.1数据集。我们使用三个公共基准数据集，包括PAWS-X[17]，QAM [28]和NC [28]，分别对应于释义识别，问答匹配和新闻分类。因为它们通常用于跨语言任务（英语数据的训练和其他语言的测试），所以它们不包括英语以外的语言的训练数据。因此，我们将英语训练数据与其他语言验证数据结合作为训练集，并且仍然使用英语验证集作为验证数据集。我们在所有语言测试数据集上对最终的全局模型进行了评估，并分别报告了它们在每种语言上的性能。我们在表2中总结了所有数据集的统计数据。表2：数据集统计。数据集#语言任务|火车||Dev||测试|PAWS-X7释义识别61,4012,00014,000QAM3QA匹配120,000 10,00030,000NC5新闻分类140,000 10,00050,0005.1.2基线。我们将提出的知识组成与以下基线进行比较：mBERT [10]，FedAvg [31]，Fed-Prox [27]，MOON [25] 和FedMix [59]。微调mBERT与所有语言提供了联邦模型的性能上限，我们将其表示为mBERT（所有语言）。我们还展示了仅使用英语数据微调mBERT，表示为mBERT（only en）。有关基线的详细信息，请参见附件。5.1.3评估指标和实施细节。在[10，17，28，56]之后，我们使用Accuracy和F1来评估释义识别，使用Accuracy来评估QA匹配和新闻分类。无论是精度还是F1，都是越高越好。我们在附录中展示了实现细节5.2性能比较在本节中，我们报告了基线的性能和表3中提出的知识构成，以回答RQ 1。根据该表，我们有以下发现。首先，使用多语言训练数据比使用单语言训练数据为这三个任务在表3中，在多语言数据上微调的mBERT比仅在英语数据上微调的mBERT具有更好的性能，例如。准确度提高7.0%、4.8%和11.2%，对应于PI、QA和NC任务。它表明，对于多语言NLU任务，模型需要从不同的语言中学习。这也验证了我们利用联邦学习来学习多语言模型的动机。其次，基线与以数据为中心的训练相比仍然存在巨大的性能差距。与在集中式多语言数据上训练的mBERT相比，包括Fe-dAvg、FedProx、MOON和FedMix在内的联邦学习模型的准确性都有显著下降由于FedAvg只是对本地客户端的参数进行加权求和，因此很难从不同语言的客户端学习。很明显，FedAvg在大多数情况下表现最差FedProx和MOON在这三个任务中的表现要优于FedAvg。这两种方法都在FedAvg的基础上添加正则化器来平滑地更新参数，以学习更好的表示。然而，与FedAvg类似，它们也不会在不同的客户端之间传输知识。因此，对于他们来说，学习一个好的全球模型仍然是不同的。对于FedMix，它将Mixup应用于联邦学习。 Mixup是一种数据扩充方法，可以在客户端之间交换一些知识。然而，根据[4]， Mixup很难像在图像数据上一样好地在文本数据上工作因此，它并没有在所有数据集上显示出良好的性能。第三，提出的知识组合大大优于联邦学习基线。我们将知识组合应用于两个流行的联邦学习框架FedAvg和FedProx。在表3中，我们发现FedAvg+FedKC（所有层）的性能优于FedAvg+FedKC（最后一层）。对于FedAvg+FedKC（最后一层），它在执行知识合成时仅更新微调层，但对于FedAvg+FedKC（所有层），它在执行知识合成时更新所有 Transformer 层和微调层。因此，FedAvg+FedKC（所有层）可以从知识组合中受益更多，并具有更好的性能。与 FedProx+FedKC （所有层）相比，FedAvg+FedKC（所有层）具有相似的性能。虽然FedProx优于FedAvg，但在使用知识组合后，知识组合带来的好处弥补了FedAvg的缺陷FedProx中使用的正则化器只是平滑训练过程，而不是提供额外的信息。因此，简单地将知识组合应用于FedAvg可以获得良好的性能。5.3可感知的一致性丢失在本节中，我们进行消融研究以回答RQ 2。我们在表4中报告了使用和不使用KMeans的知识组成结果。FedAvg+FedKC（最后一层）和FedAvg+FedKC（所有层）表示具有KMeans的知识组合，并且Fe-dAvg+FedKC（最后一层）\K和FedAvg+FedKC（所有层）\K表示表中没有KMeans的知识组合。根据该表，我们发现使用KMeans的知识组合显著优于不使用KMeans的知识组合。我们在所有三个数据集上进行了实验FedAvg+FedKC （所有层）在PI和NC 任务上比FedAvg+FedKC（所有层）\K分别平均提高了2.0%、2.9%; FedAvg+FedKC（最后一层）在PI和QA任务上比FedAvg+FedKC（最后一层）\K分别平均提高了2.6%、2.6%。它显示了利用KMeans学习细粒度近似的有效性此设计为更新所有Transformer层和微调层带来了显著的改进。1846FedKC：Federated Knowledge Composition for Multilingual Natural Language Understanding WWW表3：三个数据集与基线的比较“FedKC（最后一层）”是指对mBERT的池化层之后的层进行知识合成“FedKC（所有层）”是指对mBERT的嵌入层之后的层进行知识合成。每个类别的最高分数是粗体。任务方法en de es fr ru ja ko zh平均mBERT（仅en）0.9395 0.8515 0.8755 0.8705 - 0.7210 0.7035 0.77150.8190mBERT（所有语言）0.9515 0.9005 0.9025 0.9110 - 0.8165 0.8065 0.8435 0.8760电话：+86-510 - 8888888传真：+86-510 - 8888888Pi（Acc）PI（F1）QANC0.8306 - 0.7376 0.7253 0.7689 0.79900.8284 - 0.7342 0.7208 0.7618 0.7955电话：0755 - 8888888传真：0755 - 8888888FedAvg+FedKC（最后一层）0.8837 0.8239 0.8326 0.8367 - 0.7423 0.7262 0.7730 0.8026FedAvg+FedKC（所有层）0.90320.84080.85500.8557-0.76140.73810.78900.8204FedProx+FedKC（所有层） 0.9036 0.84160.84860.8483-0.75780.74570.79040.8194mBERT（仅en）0.9341 0.8374 0.8610 0.8567 - 0.6437 0.5675 0.7326 0.7761mBERT（所有语文）0.9475 0.8900 0.8943 0.9032 - 0.7998 0.7886 0.8294 0.8647电话：+86-0531 - 8888888传真：+86-0531 - 88888880.8699 0.8088 0.8194 0.8186 - 0.7154 0.6940 0.7548 0.78300.8703 0.8036 0.8203 0.8193 - 0.7160 0.6954 0.7484 0.7819电话：0755 - 8888888传真：0755 - 8888888FedAvg+FedKC（最后一层）0.8704 0.8049 0.8177 0.8214 - 0.7295 0.6940 0.7608 0.7855FedAvg+FedKC（所有层）0.89320.82580.84030.8407-0.72690.69260.76900.7984FedProx+FedKC（所有层） 0.8939 0.82690.83440.8341-0.73130.70130.7727 0.7992mBERT（仅英文）0.6875 0.6436 - 0.6571 0.6627mBERT（所有语言）0.6929 0.6915 - 0.6992 0.6945北京赛车pk10开奖结果联邦快递0.6368 0.5611 - 0.6260 0.60800.6307 0.6055 - 0.6461 0.62740.6374 0.6114 - 0.6464 0.6317FedAvg+FedKC（最后一层）0.6341 0.6154 - 0.6488 0.6328FedAvg+FedKC（所有层）0.64200.6285-0.6360------------------------------------------------- 0.6355FedProx+FedKC（所有层）0.64010.6176-0.6542-------------------------------------------------- 0.6373mBERT（仅en）0.9157 0.7532 0.7556 0.7171 0.7242 0.7732mBERT（所有语文）0.9117 0.8698 0.8394 0.8128 0.8669 0.8601电话：+86-021 - 8888888传真：+86-021 - 88888880.7645 0.7216 0.7196 0.7391 0.76500.8710 0.7192 0.6868 0.6970电话：0755 - 8888888传真：0755 - 8888888FedAvg+FedKC（最后一层）0.8814 0.7818 0.7385 0.7437 0.7463 0.7783FedAvg+FedKC（所有层）0.88360.79390.7454 0.7420 0.7553 0.7840FedProx+FedKC（所有层）2019年12月31日星期四上午10时30分表4：在有或没有K均值的情况下与知识组成的比较。“\K”表示没有KMeans的知识组合。每个类别的最高分数是粗体。QANC任务方法endeesfrrujakozhAVGFedAvg+FedKC（最后一层）\K0.86710.80070.81240.8082-0.72430.71210.74890.7820PiFedAvg+FedKC（所有层）\K0.88820.82580.83700.8390-0.74000.72740.77530.8047（Acc）FedAvg+FedKC（最后一层）FedAvg+FedKC（所有层）0.88370.90320.82390.84080.83260.85500.83670.8557--0.74230.76140.72630.73810.77300.78900.80260.8204FedAvg+FedKC（最后一层）\K0.62380.5907-0.6350----0.6165FedAvg+FedKC（所有

下载后可阅读完整内容，剩余1页未读，立即下载