联邦机器学习：分类、脆弱性评估和安全挑战

81 浏览量更新于2024-01-27 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

制作和主办：Elsevier沙特国王大学学报联邦机器学习的解释性观点：分类、威胁、脆弱性评估和挑战Divya Jataina，b，Daha，1，Vikram Singha，Naveen DahiyabaChaudhary Devi Lal大学计算机科学工程系，Sirsa 125055，印度b印度新德里Maharaja Surajmal理工学院计算机科学工程系，邮编：110058阿提奇莱因福奥文章历史记录：收到2021年2021年5月29日修订2021年5月29日接受2021年6月5日在线发布关键词：联邦学习安全问题语言建模雾计算医疗保健信息学漏洞评估A B S T R A C T今天，互联网的快速发展和移动技术的进步以及互联网连接的增加将我们带入了一个数据驱动的经济，在这个经济中，大量的数据被用来训练机器学习模型来做出战略决策。然而，在2018年Facebook数据泄露事件之后，人们对用于训练机器学习模型的用户数据隐私和安全性表示严重担忧。在这种情况下，一种新的方法，联邦机器学习现在是目前的研究主要集中在联邦学习然而，由于作为一种方法还处于发展的初期阶段，需要应对某些挑战本文旨在通过完整的脆弱性评估来解决联邦学习的整体问题。在文献研究过程中发现，联邦学习的安全性作为其关键优势之一，由于其固有的一些问题，仍然不能得到保证，这可能导致中毒、推理攻击和后门插入等。本文旨在通过对联邦学习及其分类进行深入而全面的分析，提供一个完整的图景它还提供了详细的漏洞评估，并强调了当前环境和未来研究方向所面临的挑战，使联邦学习成为一种功能更强大，更强大和更安全的方法来训练机器学习模型。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言66821.1.论文投稿1.1.1.纸张组织66832.联合学习66832.1.联邦学习66852.1.1.基于数据划分的联邦学习分类66852.1.2.基于联邦学习分类的建模方法66862.1.3.基于隐私级别的联邦学习分类66872.1.4.基于通信架构的联邦学习分类66872.1.5.基于数据可用性的联邦学习分类：6688*通讯作者：Chaudhary Devi Lal大学计算机科学工程系，Sirsa 125055，印度。电子邮件地址：divyajatain@msit.in（D. Jatain），naveendahiya@msit.in（N. Dahiya）。1ORCID：0000-0002-4339-1828。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2021.05.0161319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comD. Jatain，V.Singh和N.Dahiya沙特国王大学学报66822.1.6.联邦学习分类的其他方法2.2.联邦学习的应用领域3.联邦学习的脆弱性评估3.1.威胁情景评估66903.2.联邦学习66914.联合学习-未来的挑战5.研究意义和讨论66946.研究限制66947.结论和未来研究方向6694竞争利益声明确认6695参考文献66951. 介绍移动技术的进步、连接性的增强、更好更智能的设备、更便宜更容易地访问互联网以及各种社交媒体平台的兴起都是促成大量数据（也称为大数据）产生的因素。随着计算设备变得越来越普遍，组织和政府依赖于从被称为大数据的大型复杂数据集提取的信息（Manyika等人，2011年）。这些数据集是巨大的、异质的和复杂的，因为它们包含非结构化、半结构化和结构化数据，并且它们具有属于各种格式的数据，例如文本数据、声音、视频、图像等。非结构化数据的增长率远高于结构化数据，并且基本上捕获了所有数据的约90%（Zeroz和Reinsel，2011）为了管理大数据以提供预测分析和提供建议，传统上使用机器学习和人工智能。人工智能越来越受欢迎，以解决大数据操作所面临的许多挑战，并提供了增强的决策，重塑商业模式和生态系统，流行预测等机器学习授权的应用程序，如谷歌搜索，谷歌照片，谷歌地图，人行道实验室，YouTube等，已经成为日常生活的一部分。尽管表面上看起来很容易，但有几点值得注意。在现实世界的应用中，只有少数行业可以访问数据，其余行业的数据要么有限，要么质量差。此外，所处理的数据是各种类型的，并且在整合地理上分布在大距离/多个设备上的这种数据时遇到的成本和困难是禁止的。在Facebook数据泄露事件（Facebook dataleak 2018）发生后，人们越来越担心他们的数据的安全性和隐私性，以及他们的数据被使用的位置。由于非法使用和利用个人数据对个人和企业都是一种威胁，因此数据泄漏可能会产生一些严重的后果。因此，世界各国正在制定新的法律来保护数据安全和隐私。《通用数据保护条例》（Hoofnagle等人，2019年）是欧盟于2018年颁布的法律的一个例子。GDPR赋予用户对其个人数据更大的权力（ Hoofnagle et al. ，2019;Goodman 和Flaxman，2016; Schneeberger等人，2020年）。《一般数据保护条例》的主要目的和目标（Hoofnagle等人，2019; Schneeberger等人，2020）是保护用户隐私和提供数据安全。被遗忘的权利（Malle等人，2016）使用户能够根据请求删除他们的数据，从而保持其私密性。这些条例的颁布必将给数据交易程序带来新的挑战这些因素导致了数据处理和数据处理方式的范式转变。人工智能传统上用于解决复杂问题，但大数据的出现导致了新的计算技术的出现，如云计算、联邦学习等，如图1所示。这种模式基本上是允许来自不同领域的数据所有者合作构建定性机器学习模型，同时确保保护用户的数据隐私和机密性。数据交换期间的用户隐私问题已经由（Hardy等人，2017年; Mohassel和Zhang，2017年）。因此，我们已经见证了从人工智能到联邦学习的逐步转变，这将在后面的章节中讨论。几乎所有可以使用人工智能解决的问题，如图像/语音/文本处理，处理和分析传感器数据，开发高效的推荐系统等，都可以通过联邦学习来处理。1.1. 文件的贡献在联邦学习领域已经进行了大量的研究，并在该领域取得了相当大的进展，但作者认为仍然存在一些需要详细讨论的问题。在这方面，工作的主要贡献列举如下：本文从多个维度对联邦式学习进行了详细的研究，数据分区、隐私级别、建模方法、通信架构、数据可用性和其他维度，如在中央服务器上使用的聚合算法或用于联邦设置的开源框架。此外，通过提供详细的子维度分析，将研究据作者所知这项工作通过提供详细的漏洞评估来增强有关联邦学习的现有文献，该评估包括存在的威胁场景和可能在联邦设置中进行的攻击类型。通过制定工作所回答的某些问题，进一步分析和讨论了威胁情景。这些问题是：问题1：在联合场景中，谁将发起攻击？攻击者是局外人还是局内人？问题2：受影响的参与者的情况是什么，即节点是保持半诚实还是完全恶意？问题3：攻击发起的阶段Q4：什么是taxon？●●D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6683[···[Fig. 1. 从人工智能到联邦学习的范式转变。omy/攻击类型分类，即中毒攻击还是推理攻击它们被进一步细分。这样一个详细的脆弱性评估，处理精细的代数分析是新的文献，使研究具体。此外，这项研究对研究界来说是有用和有影响的，因为它提供了全面的分析，可以帮助推动进一步的研究，使系统更加强大。为了促进进一步的研究并帮助感兴趣的研究人员，作者已经确定并列举了该系统在当前环境中面临的挑战。本分析的新颖之处在于，作者更进一步，强调了挑战存在的原因以及缓解这些挑战的可能解决方案。这开辟了新的领域，解决了可以使系统更好，更安全和更高效的问题。作者还提到了他们的研究的影响及其局限性，并确定了潜在的研究领域。总而言之，这将有助于研究界获得联邦设置的详细版本，并推动对已确定差距的进一步研究。1.1.1. 文件组织系统调查的过程是客观的，旨在呈现研究领域的状态，发现差距，并为开展进一步的图2表示论文的组织结构。在第1节中，提供了对该主题的介绍，作者强调了数据处理方式多年来的范式转变，从人工智能成为最重要的技术之一到联邦学习等较新的技术。此外，本文的重要贡献进行了讨论。第二对联邦学习进行了深入的分析，从不同的角度对联邦学习进行了分类.本节还涉及应用领域。第3提供了对系统漏洞评估的深入了解第4节介绍了与采用联邦学习相关的挑战以及解决这些挑战的可能解决方案。挑战第五部分论述了本研究的研究意义。人类的努力有一定的局限性，本研究也不例外。在第6节中，作者提到了这项工作的局限性联邦学习的未来范围和研究方向在第7节中列举。2. 联邦学习人工智能社区正面临着一个困境，即如何收集、融合和使用以孤岛形式存在的数据，同时牢记不违反《通用数据保护条例》（Hoofnagleet al.，2019;Schneeberger等人，2020年），并确保隐私和安全。为此，联合学习，如谷歌（Konecny'etal.，2016a，2016 b;Mcmah等人，201 2）是一种新的方法，可以通过移动设备以分布式方式训练全局统计机器学习模型，允许客户端加密其模型，确保数据保持本地化。这些模型在云端被进一步上传和聚合以集中的方式。在该站点上，这些加密模型然后由机器学习过程使用，同时保持客户端信息的安全。从而保护数据安全。让我们有k个数据所有者{F1，. ，Fk}，其具有其各自的数据{D1，. ，Dk}。在传统方法中，通过将个人所有者的数据合并为Dt =D1Dk来训练机器学习模型Mt在联合学习系统中，数据所有者协作地训练联合学习模型Mf，使得某个数据所有者Fj向其他数据所有者隐藏其数据Dj。此外，系统必须与传统方法一样精确，即，如果我们将联邦模型Mf的精确度指定为Vf，则它必须与Mt、Vt的性能相当。令d-联合学习算法的准确度损失为非负实数，表示为：jVf- Vtjd传统的机器学习模型面临着用于训练模型的用户数据安全和隐私问题。在这种情况下，联邦学习被认为是●●D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6684图二、图为论文组织结构图D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6685解决了与可扩展性、提高的准确性、减少的训练时间、更好的吞吐量以及更大的隐私和安全性等特征相关的问题。因此，联邦学习可以用来建立更有效的模型来解决复杂的人工智能问题。联邦学习也证实了通用数据保护条例（Hoofnagle et al.，2019），以提供数据保护和隐私。联邦学习与传统方法相比具有以下优点：可扩展性：联合学习使不同的设备能够相互学习，从而使整个网络可扩展。解决低吞吐量和高延迟挑战：与训练单个中央模型相比，创建本地模型有助于减少延迟并降低功耗。提高准确性：联合学习模型比集中训练模型更具创新性，因为它们是通过聚合许多局部模型来训练的，并且同时从不同的角度处理数据。减少训练时间和训练成本：与集中训练模型不同，训练各种本地模型，然后聚合一个中心模型是一个耗时较少的过程。即使是培训的成本也更低。确保隐私和安全：由于培训数据永远不会离开实际站点，因此所有敏感信息都保留在本地，从而确保个人数据的隐私和安全。联合方法优于集中式替代方法，因为它通过应用欧盟提出的《通用数据保护条例》数据最小化：联邦学习使用数据最小化原则，确保只有学习的模型被集中处理，而原始数据保持隐藏。此外，发出的模型是临时的，并且在它们合并到全局模型中时被丢弃。这确保了《通用数据保护条例》（Hoofnagle等人，2019年），使整个系统更加高效和强大。此外，由联邦学习机制训练的模型更胜任、容错，并且训练模型的过程通过实现各种设备或组织之间的私有学习来减少网络上的负载，训练模型的功耗也低于传统方法。在下一节中，从多个角度对联邦学习进行了详细的分类。2.1. 联邦学习联邦学习仍处于发展阶段，为了理解与之相关的技术细节，需要了解完整分类法的详细为此，图2基于不同的视角呈现了联合学习的深入分类，即，数据划分的方法、所用建模方法的基础、通信体系结构和隐私级别。分类表示虽然不是详尽的，但有助于研究人员对联邦场景有更深入的让我们考虑一个例子来理解这一点。假设我们有一组医院，他们希望有一个肺癌的预测机制。现在，可以查看数据的各个维度是：患者数据在不同医院的分布，非常适合此任务的机器学习模型，即，在这种情况下使用哪种算法，使用什么隐私技术，通信的性质应该是什么图三.联邦学习图四、联邦学习的应用领域因此，可以从多个角度来看待联邦学习的分类，如图所示。3 .第三章。2.1.1. 基于数据划分的联邦学习分类数据方可以具有不同的特征和样本空间，并且取决于特征和样本ID空间中的不同方之间的数据分布模式。因此，我们可以根据数据划分将联邦学习分为水平联邦学习，垂直联邦学习和联邦迁移学习，详细信息将在后续文本中讨论。表1总结了基于数据划分的联邦学习分类以及不同研究人员使用的重要方案。2.1.1.1. 横向联邦学习：水平联合学习用于数据具有相同特征空间但具有不同样本空间的情况。例如，两个电子商务D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6686表1基于数据划分的联邦学习分类及其主要方案.基于数据划分的联邦学习分类水平联邦学习协作式深度学习方案（Shokri和Shmatikov，2015）安全聚合方案（Bonawitz等人，（2017年）添加剂同态加密（Sadegh Riazi等人， 2018年）多任务式联合学习（Stanford et al.，2018）客户端服务器类型结构（Mcmahan等人，2012年）深度梯度压缩（Lin等人，2017）联邦优化方法（Konecny'etal.， 2016年a）垂直联邦学习隐私保护的协同统计分析（Du和Atallah，2001年）关联规则挖掘（Vaidya和Clifton，2002）多元统计分析（Du等人，（ 2004年第10期）梯度下降法的隐私保护（Wan等人，（2007年）联邦转移安全线性回归（Schoppmann等人，2016），（Sanil等人，（2004年第10期）安全联合迁移学习（Liu et al.， 2018年）学习带秘密共享的联合迁移学习（Sharma等人， 2019年度）公司根据其运营的区域可以具有不同的用户集合，并且可以具有最小的普通用户集合。然而，在这个上下文中的特征空间是相同的，因为业务的性质是相同的。在（Shokri和Shmatikov，2015）中，作者使用了一种协作深度学习方案，其中参与实体独立训练，共享参数更新的较小子集水平联合学习框架由Google在2017年提出用于Android手机型号更新（Mcmahan et al.，2012年）。在该模型中，拥有Android手机的用户在本地更新参数并将其上传到Android云。因此，每个用户都与其他数据所有者一起共同在他们的联合学习框架中，一些研究人员已经使用安全聚合方案来确保聚合用户更新的隐私（Bonawitz等人， 2017年）。所使用的方法是安全多方计算（MPC），并且它评估从各个用户的设备安全地获得的模型参数更新的整体，从而确保隐私保护（Bonawitz等人，2017年）。Phong等人已经使用加法同态加密来聚集模型参数并确保模型的安全性（Phong等人，2018年）。作者在（Stanford etal.，2018）提出了一个多任务风格的联邦学习系统。这样，除了知识共享、安全保护和确保容错之外，还可以同时执行单独的任务高通信成本和掉队者等问题也得到了有效处理。同样，为了基于移动客户端的数据训练集中式模型，一些作者提出了改善通信成本的方法（Konec n y 'et al.， 2016年b）。正如Lin等人所提出的深度梯度压缩显著地降低了大规模场景中用于分布式训练的通信带宽（Lin等人， 2017年）。最近的工作包括联合学习框架，其中移动设备使用区块链网络来更新本地学习模型（ Kim 等人， 2019 年）的报告。 MOCHA（Smith等人， 2017）通过允许多个站点一起工作以完成任务来解决多任务处理中的安全问题。该方法在容错性和通信成本方面显示出相当大的改进。2.1.1.2. 垂直联邦学习可能存在这样的场景，其中我们具有共享相同样本ID空间但具有不同特征空间的数据集这是一个垂直联合学习场景。让我们考虑一个城市有两个不同的公司，即银行和电子贸易公司。他们的用户很可能会容纳了该地区的大部分然而，由于它们的记录不同，它们的特征空间因此，垂直联邦学习方法增加了特征维数。在垂直联邦学习中，不同的特征以隐私保护的方式聚合以构建模型，并且从双方协作考虑数据。在这种情况下，参与方被认为具有相同的身份和地位。各种算法，如分类（Du等人，2004; Zhang例如，2021）、统计分析（Du和Atallah，2001）、梯度下降（Wan等人，2007）安全线性回归（Schoppmann等人，2016年），数据挖掘（Vaidya和Clifton，2002年）可以有效地用于垂直数据分区。2.1.1.3. 联邦迁移学习（FTL）当我们有样本空间和特征空间都不同的数据集时，我们使用联邦迁移学习（Pan和Yang，2010）。考虑一个场景，一家银行位于巴西，一家电子交易公司位于英国。由于它们在地理上是分开的，它们的使用组有很小的交集。此外，由于业务性质的不同，双方的特征空间也有很小的重叠。在这里，可以使用迁移学习（Pan和Yang，2010）。其他作品（Pan和Yang，2010; Liu等人，2018，2020 a; Phong等人，2018年; Chen等人， 2019 b）代表了在迁移学习机制中使用联邦学习的方法。安全联合迁移学习（Liu et al.，2018）和具有秘密共享的联合迁移学习（Sharmaet al.，2019）是主要的代表性方法。最近的工作包括将强化机器学习算法与联邦学习相结合（Nadiger等人， 2019年; Liu等人，2019年a、2019年b）。另一种分类可以基于下一节中提到的所使用的建模方法2.1.2. 基于分类的联邦学习联邦学习的目的是使传统的机器学习模型在具有高效率的同时更加安全。基于所使用的建模方法，联邦系统可以分为三类，即，基于统计方法的联邦学习、基于决策树的联邦学习和基于神经网络的联邦学习。统计方法基本上涉及线性和逻辑回归，这两种方法都是常用的并且容易学习（Nikolaenko等人，2013; Hardy等人，2017年; Chen等人，2018年a、2018年b）。其他高性能、准确和稳定的技术是梯度提升决策树（Cheng等人， 2019）和随机森林（Zhao et al.，20 1 8 年a，D. Jatain，V.Singh和N.Dahiya沙特国王大学学报66872018年b）。（Bonawitz等人，2019年; Yang等人，2019）已经使用卷积神经网络和递归神经网络。这些模型是相当健壮和容错的，并具有很高的学习能力。这些方法已在线性回归、岭回归、智能控制和模式识别等领域得到应用。一些令人兴奋的工作包括使用联邦学习来训练无人机的模型，传统的机器学习模型似乎缺乏提供实时性能（Liu等人，2020年a）。在企业中，可以通过深度联邦学习框架来确保实现基于优先级的数据应用程序（Yang等人，2019年）的报告。其他作品包括Fed-GRU（Liu等人，2020 b），其将门控递归单元与联邦学习相集成，以准确表示时空交通数据。该领域的研究正在以令人难以置信的速度进行2.1.3. 基于隐私级别的联邦学习联邦学习的主要特征是参与者能够将数据保持在本地，但模型信息往往会泄露一些私有数据（Bhowmick等人，2018年）。因此，需要使用诸如模型聚合的特定措施来维持隐私级别（Chen等人，2018 a，2018 b），同态加密（Phong等人，2018）和差异隐私（BrendanMcMahan等人，2017年）。为了训练全局模型，使用最常用的模型聚合方法，其基本上通过对来自所有各方的模型参数进行求和来工作。为了获得最优结果，可以使用通过实时参数交换获得有效结果的激励机制（Pandey等人，2020年）。为了提高参与者的隐私，基于多任务的局部自适应方法是一种鲁棒的方法（Yu等人，2020年）。使用该方法，在保持隐私完整性的同时获得了更好的结果。通过将联邦学习与多任务相结合，不同的参与者可以在本地训练不同的任务模型（Smith等人，2017年）。一些作品使用了基于深度神经网络的框架来进行基于迭代平均的联邦学习（BrendanMcMahan Eider Moore Daniel Ramage Seth HampsonBlaiseAgüeraAg和Arcas，2017），而其他作品则使用了贝叶斯非参数框架来匹配局部模型中的神经元以训练全局模型（Yurochkin等人，2019年）的报告。区块链也与联邦学习一起使用，以确保模型参数被安全地聚合（Kim等人，2019 a，2019 b; Zheng等人， 2018年）。与传统的加密方法不同，同态加密关注的是数据处理的安全性而不是数据的安全性因此，它允许参与者使用密钥处理加密只有当密钥可用时，才能进行解密。从而在不影响训练结果的前提下，解决了梯度交换阶段隐私信息泄露的问题。加法同态（Phong 等人，2018 ）用于确保在中央服务器侧不泄露隐私。联邦逻辑回归（Hardy等人， 2017）使用加法同态来阻止诚实但好奇的参与者。一种用于联邦迁移学习框架的基于加性同态的隐私机制由Yang等人提出，2018年）。Secureboost（Cheng例如，2019）建立了一个基于同态加密的决策树模型，用于防止信息泄露。此外，可以在联合学习中以不同的隐私限制级别（即，完全零知识、差异隐私和原始数据保护。在完全零知识系统中，参与者只能学习输出。通常使用安全多方计算（Lindell和Pinkas，2008），并且它可以进一步与加密技术组合，例如安全聚合、同态加密（Bonawitz等人， 2017）和系统基于诸如IntelSGX的可信处理器（Ohrimenko等人，2016年）。这些系统尽管很好地保护了用户隐私，但是具有高通信和计算开销，并且因此不是非常有效。Zhao等人提出了另一种称为差分隐私的方法，其中个体记录的参与对其他参与者是未知的（Zhao等人，2018年a）。在该方法中，将随机噪声添加到数据或模型参数中，这为个体记录提供了统计隐私，并保护模型免受接口攻击。然而，由于噪声的增加，这样的系统产生不太准确的模型。该方法最初于2006年提出，用于解决统计数据库的隐私泄露问题（Zhang et al.，2021年）。根据这一点，数据库不易受其他记录的改变的影响，因此，通过添加另一记录而侵犯记录隐私的机会非常有限。因此，差异隐私，即，在输出中加入噪声，可以在更大程度上实现用户隐私。在隐私保护和有效性领域中正在进行大量研究，例如使用模型压缩技术（Agarwal等人， 2018年）。差分隐私被进一步分类为全局差分隐私和局部差分隐私，这两者都保证了系统的差分要求（Zhang等人，2021年）。在联邦学习场景中，主要工作包括具有差分隐私的联邦优化算法（Geyer等人，2017），基于自适应梯度的修剪方案（Thakkar例如，2019），极大极小最优私有化机制（Bhowmick等人，2018）、基于梯度的差分私有参数传递算法（Jiang等人， 2019年）等。仅举几例。原始数据保护是维护隐私级别的最原始形式，并且与上述其他方法相比更实用（Du等人，2004），（Liu等人，2018年）。但是，这种方法可能会泄漏一些其他参与者可以推断的聚合信息2.1.4. 基于通信结构的联邦学习分类尽管基于分散的方法，但联邦学习仍然需要一定程度的中央服务器的存在和干预，以管理来自各个客户端的数据收集，并聚合各个模型以构建全局模型，然后将其共享给各个参与者。单服务器和多客户端拓扑/中心辐射型拓扑（Kairouz等人，2019年，在这样的情况下，首选。中央服务器基本上充当信任建立者、学习过程管理者，并监控贡献方的更新。但由于个体数据的差异，可能会产生一些问题.此外，恶意更新是另一个问题。在此背景下，Google在（Liu et al.，2020 c）通过提出三种不同的算法来提供处理该问题的算法。第一个是聚类，其中创建多个小集群，其中参与者具有类似的数据。这些集群作为小型集中式系统工作，并且主中央服务器可以聚集来自在其端具有类似类型数据的集群的更新，从而使整个系统更快。在这个方向上，一些工作已经提出使用局部模型的余弦相似性作为簇形成的因素（Sattler等人，2019年）的报告。其他一些值得注意的工作是迭代联合聚类算法- IFCA框架（ Ghosh 等人， 2020 ）和 Federated Stochastic Expectation-Maximization- FedSEM（Xie et al.，2020年，这两个项目都取得了可喜的成果。在分散的方法中，各个参与者不依赖于中心权威，而不是基于一定的算法与邻近的参与者建立相互信任，并基于这种信任进行模型聚合的过程out（Vanhaesebrouck等人， 2017）中央政府设立D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6688然后在随后的训练回合中遵循该协议。自适应平均算法（Muñoz-González等人，2019年）的重点是假设大多数参与者是诚实的。其他主要工作包括解决MATCHA中的网络延迟问题（Wang等人，2019a，2019b），处理对等网络（Lalitha等人，2019）和以安全和有效的方式学习具有多模态表示的嵌入（Holzinger等人， 2021年）。2.1.5. 基于数据可用性的联邦学习分类：基于数据可用性和参与节点的数量，联合学习可以被分类为跨竖井联合学习和跨设备联合学习（Kairouz等人， 2019年）的报告。在跨竖井联合学习中，通常有大约一百个设备可用于训练轮。这种方法通常用于组织内训练水平分区或垂直分区的数据。该领域的最新研究使用FATE，2018框架提出了用于降低通信成本的批量加密算法（Feng et al.，2020;Zhang等人， 2020年）。在跨设备联合学习中，客户端的数量通常很高，客户端具有来自相似域的相似兴趣。由于存在大量参与者，因此保持交易记录具有挑战性。这种方法对于具有许多参与者的场景（如IoT或移动应用）非常有益（Yang等人， 2018年）。2.1.6. 联邦学习分类的其他方法在前面的章节中，我们讨论了联邦学习系统分类的主要方法。还有一些其他的联邦系统分类方法，即，基于所使用的算法和所使用的开源框架聚合算法在聚合参与者的模型中起着至关重要的作用聚合算法的主要目的是确保参与者数据的隐私，保留通信带宽，允许参与者的异步更新。因此，该算法必须在通信成本、训练轮数方面是有效的，并且是安全的。表2总结了用于对联邦学习进行分类的主要聚合算法某些其他工作包括使用基于个性化的算法，其在基层使用联邦平均来解决异质性（Arivazhagan等人，2019），自适应个性化联邦学习（邓等人，2020年），基本上结合了本地模型和全球模型，以进行个性化学习。减少训练轮数是获得更好算法所急需的改进。为了实现这一点，某些工作特别注重减少沟通回合和成本，即， FederatedStochastic Block Coordinate Descent，FedBCD（Liu et al.，2019b），它通过让参与者共享样本的单个值而不是共享参数来跳过更新回合，Federated Aggregation- FedAttOpt（Jiang et al.，2020 a），其使用注意力增强机制来对中央服务器处的聚集进行建模。具有异步训练轮（Chaum，1981; Wang，2017; Chen等人，2020a）也是最近工作中使用的其他方法。像Tensor Flow Federated（Tensorflow Federated）这样的开源框架已经在 Android 应用程序中找到了应用（ Sannino 和 DePietro，2018; Lou等人，2019），而其他人如PySyft，FATE等（ Clara ， 2018; PaddleFL ， 2018;Uberhorovod ， 2018; Ulm 等人，2019）是最新研究中用于实施联邦学习的主要框架。对这些领域的进一步探索是非常必要的。下一节讨论了馈入式学习的主要应用领域2.2. 联邦学习联合学习可以用于我们无法直接聚合数据来训练模型的情况。此外，在大多数情况下，设备的数据是异构的，并且由于这一点，传统的机器学习模型不能在这种情况下工作。因此，它在销售、财务等行业有很好的应用前景由于知识产权、隐私问题和数据安全挑战而可能面临问题的行业可能会从这项技术中受益匪浅。可以使用联合学习的一些应用如下：键盘预测：语言建模问题通常需要下一个单词预测。2016年，谷歌为Android开发了Feder-ated Learning（Bonawitz et al.，2017年），与Objec-表2联邦学习分类的其他方法。基于聚合算法的联邦学习分类Federated Average（FedAvg）这是Google引入的基本算法，其中中央服务器是协调器，并将全局参数共享给部分或所有客户端，也称为mini-batch。这个小批量中的参与者使用他们的本地数据和服务器共享的全局模型参数进行训练。全球模型基本上是从参与者那里收到的模型更新的平均值（Brendan McMahanEiderMoore Daniel Ramage Seth Hampson Blaise AgüeraAg和Arcas，2017）该算法适用于安全多方计算方法，该方法对于相互不信任的参与者很有效（Bonawitz等人，2017年）。该算法提供了一个解决方案，以挑战移动参与者为基础的环境，其中它可以容忍1/3的参与者被妥协。Federated Proximal该算法基本上是Federated Average的修改它解决了由于参与者的不同计算能力而产生的局部更新中的非均匀性和异质性（Li等人， 2018年）Federated MA是另一种用于异构参与者场景的算法，并且在几轮训练后被发现优于Federated Averaging和FederatedProximal。它基本上被设计用于构建卷积神经网络和基于长短期记忆的模型的共享模型（Wang等人， 2020年）。服务器端的平均是逐层完成的。联邦学习的随机控制平均（Scaffold）该算法解决了客户端漂移问题，也称为平均算法所面临的梯度不相似性（Karimireddy等人， 2019年度）张量因子分解张量因子分解已经频繁地用于医学领域（Kim等人， 2017），（Ma等人，2019年）作为保护用户隐私的一种手段。D. Jatain，V.Singh和N.Dahiya沙特国王大学学报6689在保持隐私和安全完整的同时，改进键盘输入预测的目的。为了开发更好的推荐系统，并迅速获得建议，语言模型的开发非常有用（Mansouret al.，2020年）。该领域的最新发展包括用于移动设备的键盘的表情符号预测（Ramaswamy等人，2019年）的报告。该方法通过使用分布式设备上学习框架来训练模型，并且即使在稀疏数据和不平衡类的情况下，模型也表现良好。另一个发展是FedMed（Wu等人，2020），其使用自适应聚合以及中介激励和top-K策略来开发用于移动键盘预测的健壮且高效的基于联邦学习的框架。物联网个性化、智能城市、可穿戴设备：物联网可以从联合学习中获得巨大好处。本质上，所有的物联网系统都是通过传感器收集数据并在某个中央服务器端进行处理来工作的。这种在服务器上的处理不仅涉及提供数据的各方的隐私和安全问题，而且还导致高通信成本。使用联邦设置可以解决这些问题。在车联网方面已经取得了足够的进展（Zhao等人，2020 c）使客户端数据安全和私密，智能城市传感（Jiang等人， 2020b）确保参与者的数据安全和私密。可穿戴设备是物联网和医疗保健信息学基本融合的领域之一。正在开发更好的传感器，其以联合方式处理数据以训练模型，并且已经显示出有希望的结果（Chen等人，2019年b）。医疗信息学：智能医疗是另一个可以从联合学习技术中获得巨大利益的领域。任何个人的医疗数据都是非常敏感和隐私的。但是疾病症状信息、医疗报告等可以为训练模型提供有价值的见解。在实践中，这些数据集很难收集，并且由于数据的敏感性，其中大部分作为医疗中心和医院之间的孤立信息岛存在。这些数据中的大部分都是未标记的，这也给智能医疗场景带来了瓶颈。如果医疗机构之间联合并共享数据以贡献于大型数据集，则训练可以更好，更有效，并且性能可以显着提高。收集和处理医疗数据是相当具有挑战性的，因为它涉及披露患者的私人数据（Rieke等人，2020年）。通过维护数据的安全性和保密性，联邦学习可以保持隐私然而，许多工作都集中在统计挑战，系统挑战和隐私问题方面的应用联邦学习医疗保健部门（徐例如， 2020年）。患者相似性学习、表型分析等问题在文献中也有讨论在这方面，鉴于患者的隐私需求，某些作品侧重于法律和伦理问题（Price和Cohen，2019）。最近的研究表明，通过多机构合作形成的联合模型与通过传统方法实现的模型具有大致相同的质量（Sheller等人，2020年）。另一项研究集中在具有互连的医疗保健系统，该系统具有用于患者的先验诊断的多联邦学习网络（Lee等人， 2019年）的报告。随着传感器网络和物联网的发展，可穿戴医疗设备越来越受欢迎。这些可穿戴医疗设备的主要挑战是用户数据的隐私和安全性。在这方面，FedHealth（Chen等人，2019b9）通过数据聚合显示了有希望的结果通过联合学习和个性化通过迁移学习。语音情感识别、文本识别、人体活动识别：语音情感识别是一项挑战性的任务，需要共享语音数据的完整信息，因此具有高度的安全性和隐私性。使用联邦学习来训练语音-情感识别模型显示出与现有技术方法相当的有希望的结果（Mrs. 2020年）。联邦学习还可以应用于未分割的文本识别模型。在此背景下，用于中文文本的财务记录的基于深度卷积神经网络的联邦学习方法是该领域的最新工作之一（Zhu等人，2019年b）。训练一个用于人体活动识别的模型是一个巨大的任务，因为它需要大量的数据，隐私，高通信成本和安全问题。具有联邦学习模型是一种新颖的方法，尽管显示出比传统方法更不准确的结果，但仍然是一个开放的研究领域（Sozinov等人， 2019年度）无线网络：以前使用的方法被发现不适合复杂的深层无线网络（Ma例如， 2020年）。在这方面，对联邦学习在边缘计算和5G网络中的应用进行了详细的分析，证明了在无线远程通信中使用联邦学习的好处（Niknam et al.，2020; Savazzi等人，2020年）。最新的研究领域是用于雾无线电接入网络F-RAN的联合学习的应用，其旨在降低网络边缘的数据卸载成本和模型训练成本（Zhao等人，2020年d）。其他工作侧重于激励服务器和参与者之间的交互，从而解决设计方面的问题，以及边缘联合学习应用中的挑战（Khanet al.， 2020年）。为了改善网络边缘的计算，并获得更好的服务质量，更快地交付内容并解决云容量和设备要求的差距，边

下载后可阅读完整内容，剩余1页未读，立即下载