物联网和网络物理系统中的物联网系统联合学习的安全性：问题、限制、挑战和解决方案

110 浏览量更新于2024-01-22 收藏 2.8MB PDF 举报

物联网网络

机器学习攻击

身份认证购VIP最低享 7 折!

30元优惠券

物联网和网络物理系统3（2023）155物联网系统联合学习的安全性：问题、限制、挑战和解决方案Jean-Paul A.作者：Hassan N.Noura，*，Ola Salmanba大学BourgogneFranche-Comt'e（UBFC），FEMTO-ST研究所，法国b贝鲁特美国大学，电子和计算机工程系，贝鲁特，1107 2020，黎巴嫩自动清洁装置索引术语：联邦学习联合学习威胁和攻击联合学习安全解决方案物联网机器学习安全A B标准联合学习（FL，或协作学习（CL））不仅建立了依赖于分布式数据集的机器学习（ML）模型，而且开始在安全和隐私解决方案中发挥关键作用，以保护敏感数据和信息免受各种ML相关攻击。这使其成为物联网（IoT）系统等新兴网络的理想选择，特别是其最先进的算法，专注于物联网网络的实际应用，尽管存在资源受限的设备。然而，复杂物联网网络中当前设备和模型的异构性严重阻碍了FL训练过程的良好执行能力因此，尽管正在努力解决这个问题并克服这个具有挑战性的障碍，但它几乎不适合直接部署在物联网网络因此，在这项研究中，从安全和隐私方面的物联网FL的主要特点我们扩大了研究范围，调查和分析前沿的FL算法、模型和协议，重点关注它们在物联网网络和系统中的有效性和实际应用。接下来是对最近可用的FL保护解决方案的比较分析，这些解决方案可以基于异构动态物联网网络上的加密和非加密解决方案此外，拟议的工作提供了一系列建议和建议，可用于提高采用FL的有效性，并实现更高的攻击鲁棒性，特别是在异构动态物联网网络和存在资源受限设备的情况下。1. 介绍由于数十亿物联网设备目前正在使用，在不久的将来将部署更多的物联网设备，物联网设备的增长导致产生大量数据，这些数据还包含客户的私人信息。因此，导致更高的网络开销、通信和存储成本，同时也导致混合隐私问题[1]。事实上，物联网现在已经渗透到每个人生活的各个方面，并部署在医疗保健、工业、智能电网和机器人等许多领域，特别是智能自动化应用程序、设备和服务的存在，这些应用程序、设备和服务越来越倾向于基于人工智能（AI）并获得授权[2]。然而，人工智能需要集中收集和处理数据，由于可扩展性问题，资源受限的设备和功耗问题，这不是一件容易的事情[3]。因此，联邦学习（FL）被采用作为一种分布式和自适应的协作AI训练方法来解决这个问题，并提供更高程度的用户级隐私，而无需任何数据共享运营相反，在FL中，它是通过向给定网络中的所有客户端发送未经训练的ML模型的副本来实现然而，物联网的互连设备是异构的、资源受限的，并且分布在不同的地理位置，几乎没有控制。这肯定会导致连接问题，主要是由于有限的带宽和资源。1.1. 问题公式化然而，主要问题是，在物联网系统中实施FL使它们容易受到潜在对手的网络攻击，如模型反演和成员推断攻击。此外，物联网应用程序与敏感服务密切相关，特别是因为它们处理有关用户的敏感信息。物联网领域的主要挑战是在不降低安全级别的情况下保护用户的隐私。因此，一系列网络攻击可能会产生严重后果，特别是在敏感系统中，* 通讯作者。电子邮件地址：hassan. univ-fcomte.fr（H.N. Noura）。https://doi.org/10.1016/j.iotcps.2023.04.001接收日期：2023年1月24日;接收日期：2023年4月3日;接受日期：2023年4月7日2023年4月14日在线提供2667-3452/©2023作者。由爱思唯尔公司出版我代表科爱通信公司，公司这是CC BY许可证下的开放获取文章（creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表物联网和网络物理系统期刊主页：www.keaipublishing.com/en/journals/J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155156军事或医疗领域，这将阻碍智能和自动化物联网应用的更广泛部署。因此，应该引入新的安全解决方案来检测和预防它们。加密解决方案可以分为两大类：加密和非加密。同态加密和多方计算可以被认为是加密解决方案。另一方面，非加密解决方案的示例是差分隐私。无论哪种方式，物联网系统中FL的适当安全和隐私解决方案应包括最少的计算，并需要最少的资源，特别是在物联网设备方面。1.2. 贡献本文件的贡献是增加以下内容：讨论：本地和中央服务器上与客户端/服务器相关的安全和隐私问题，并强调这些问题。呈现：所有可能的FL相关攻击的列表，这些攻击可以针对物联网并建议适当的安全措施。分析所有可用的安全措施，将其分为加密和非加密解决方案，并对其进行讨论。呈现：所有可能针对物联网领域的FL相关漏洞列表，并提出适当的对策来缓解这些威胁。提议：一个框架，建议，建议，以及从所有这些正在进行的工作中吸取的教训。1.3. 组织本文分为九个部分（见图）。在第二节中，介绍了FL-IoT背景，同时讨论了FL和IoT之间的关系，介绍了FL类型，并提到了FL-IoT数据和应用服务。在第三节中，重点介绍了FL-IoT的主要挑战，同时讨论了其未来的机遇。第四节讨论和分析了与FL相关的安全攻击，包括攻击类别和类型。第五节分析了FL脆弱性的根源，第六节分析了FL的解决方案和对策。所有的经验教训都在第七节中提出，而我们对未来研究FL方向的建议和建议在第八节中提出，特别是加密和非加密措施，以及政策和管理。在第九节中，我们结束了我们的工作。2. 背景和资料物联网的本质及其智能人工智能支持的应用和服务设法覆盖我们日常生活中的关键领域，包括工业，医学，农业/农业，智能城市，智能家居，智能交通，智能自动驾驶汽车，机器人和模块化机器人（即无人机，无人地面车辆和无人水下车辆）[4，5]。与依赖于集中收集和处理数据的传统人工智能技术不同，FL作为一种分布式协作人工智能方法，通过在不共享数据的情况下训练分布式物联网设备，实现了许多智能物联网应用（见图2）。 2）同时实现用户隐私保护。此外，FL还提供广泛的物联网服务，包括保存数据本地化[3]、揭开隐藏的物联网数据模式的神秘面纱、收集/分析海量数据、实时物联网数据共享[6]、数据缓存/重载、增强物联网的智能/逻辑实时决策、攻击和异常检测、用户/数据隐私和物联网安全[7]。这将提高运营效率和性能准确性，并肯定会降低成本。事实上，在进一步进行之前，重要的是要知道整个客户端-服务器通信是如何在FL系统中发生的。下面的图 3是用来强调这种沟通是如何发生的，在模型的基础上已经提出了参考。[8]的一项建议。另一方面，缩写列表在表1中呈现。2.1. 联合学习IoT物联网系统涉及大量连接的设备，这些设备分布在整个网络中并连接到互联网。它们产生大量不同类型的数据，可以被认为是一个分散的数据收集系统。通过将FL集成到物联网系统中，有可能提高其效率，安全性和隐私保护，最终将提高性能和准确性。在效率方面，FL可以提高物联网系统的性能，因为物联网终端设备的计算能力可以用于在其或其邻居的传感器和/或其他物联网设备生成的数据上训练本地轻量级ML模型通过将FL集成到物联网中可以确保的另一个增强是在网络连接受限的情况下，因此可以利用边缘/雾设备的计算能力，这些设备位于更靠近数据源的位置，并且可以在将数据发送到云端之前对数据进行计算（训练）因此，也可以在边缘设备上执行本地训练，这可以确保在节省带宽和减少延迟方面获得显著收益Fig. 1. 提出的调查的结构。●●●●●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155157图二. 联合学习和物联网设备之间的关系，这些设备形成在边缘/雾或终端物联网设备的训练期间使用的本地数据集。图三. 基于FL的客户端-服务器通信系统。设备可以是IoT设备或边缘/雾设备。这确保了需要传输到云的数据量的减少（仅本地训练模型）。此外，可以确保另一属性，这是协作学习，因为来自不同位置并且具有不同能力的多个设备（如顺序列出的终端IoT设备和/或边缘设备）将一起工作以构建准确且精确的全局模型，因为它是基于不同的数据源集合的。在安全和数据隐私方面，一组物联网应用程序往往会涉及敏感数据的通信，这使得它们受到安全和隐私问题的关注。这些问题可以通过将FL与物联网系统集成来解决，因为数据存在于物联网终端设备和/或边缘设备中，并确保物联网/边缘设备与服务器之间的安全通信。这将降低数据泄露和未经授权访问敏感信息的风险，因为数据保持分散，每个设备可以根据它收集的数据在本地训练它的本地模型FL的优点是构建全局模型，而不需要数据离开物联网/边缘设备。在本节中，首先介绍不同类型的FL。在此之后，描述了一组FL-IoT应用和服务然后，讨论了不同的FL-IoT数据服务。2.2. 联邦学习类型FL允许在到达最终模型之前训练和聚合多个模型为了实现这一目标，外语被分为5个主要类型与不同的方面，这是进一步详细的参考文献。[75]，并提出和讨论如下：J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155158表1缩写列表缩写EX夷平面表2基于服务器的攻击和对策。● 基于FL客户端/代理的攻击：通常是由一个或多个FL客户端/代理意外或故意进行的攻击，AI人工智能FL联邦学习CL协作学习ML机器学习IoT物联网深度学习点对点IIoT工业物联网CPS网络物理系统SA智慧农业DLT分布式账本技术IID独立和完全分布TL迁移学习FTL联邦迁移学习水平联邦学习垂直联邦学习CSFL交叉筒仓FLGAN生成对抗网络DDoS分布式拒绝服务中间人LEGATOLayerwise梯度聚合联邦学习参数压缩FDI虚假数据注入SE状态估计IDS入侵检测系统IPS入侵防御系统核主成分分析LF标签翻转DBA分布式后门攻击FLIP联邦学习可证明MLOps机器学习操作DTL深度迁移学习SGD随机梯度下降应用程序编程接口SQLIASQL注入攻击深度神经网络DP差分隐私分布式拒绝服务FMTL联邦多任务学习FD联合蒸馏STD消毒训练数据MTL多任务学习KD知识蒸馏移动目标防御ZKP零知识证明TEE可信的EX S环境TA信任的应用程序AD异常检测FEDTIMEDIS联邦时间分配LSTM长短期记忆CNN卷积神经网络如下所示（见表3）：目标攻击类型EX ploit结果安全措施基于服务器的基于服务器端GAN的攻击DDoS数据隐私服务器/数据实现隐形攻击[9]客户端无法早期诊断[10]早期DDoS可用性连接检测和窃听数据隐私外太空使用者缓解增强攻击人中人数据数据取代信道安全增强中间人攻击完整性分组与恶意轻量级加密人– 混合数据分区：结合了水平和垂直数据分区，但很少使用。ML模型：每个同质/异质模型的选择是不统一的。这意味着它取决于要解决的问题和数据集。然而，深度学习（DL）模型和基于树的模型（随机森林，Xgboost）是最常用的模型[77]。隐私机制：依靠采用FL来解决隐私和隐私相关问题，最重要的是防止客户数据和信息的泄露。为了实现这一点，FL依赖于两种技术，包括差分隐私和其他密码学方法。– 差分隐私：通过向数据中添加随机噪声来掩盖梯度来保护隐私。然而，添加噪声是以影响模型的准确性为代价的。– 加密方法：采用数据加密技术，最常见的是同态加密和/或安全多方计算，以保护客户端数据，然后将其安全地传输到服务器上尽管这些解决方案提供了更高级别的隐私保护，但它们在计算上是昂贵的。FL系统架构：分为两种主要类型。然而，尽管有这种划分，FL系统的功能仍然没有改变，除了客户端-服务器通信[78]。混合高斯变分自编码网络基于AMCNN注意机制的卷积神经网络SCADA监控与数据采集IMA迭代模型平均GRU门控经常性单元MSA模型Shuf攻击局部差分保密FFL分段联邦学习HE同态加密全同态加密MPC多方计算高级加密标准FedDRL联合深度强化学习数据分区：包括不同客户端的数据集以及这些特征的相似程度。事实上，数据分区可以分为三种主要类型[76]。– 水平数据分区：当客户端的数据集具有相同的特征但具有最少的样本空间交叉时发生– 垂直数据分区：当客户端数据集暴露于相同的样本空间但具有不同的特征空间时发生。●●●●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155159– 集中式FL系统：允许称为全局模型的单独模型此外，模型学习可以是同步的或异步的。– 分散式FL系统：允许客户端通过扮演服务器的角色来改变回合，其中客户端可以随机检索一个历元以更新全局模型并将其传达给其他用户。事实上，去中心化的FL系统包括三种主要类型：点对点（P2P），图和区块链。联邦的规模：联邦的规模分为两个主要类别[79]，如图所示。第四章：– 跨设备联合学习：通常与组织相关联，其中尽管具有小的客户端数量，但它们往往具有大的计算能力。– 跨竖井联合学习：通常与移动设备相关，其中有大量的客户端，但计算能力很小●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155表3160基于客户端/代理的攻击及其对策。● FL基于数据的攻击：通常是为了拦截、操纵或修改被拦截和劫持的数据而进行的攻击，可以通过窃听被动完成，也可以通过中间人攻击主动因此，下面列出了几种基于FL数据的攻击（见表4）：目标攻击类型EX ploit结果安全措施客户/基于Agent的基于GAN的客户端攻击拜占庭攻击用户隐私数据完整性EX利用了训练过程的实时性[11]导致收敛问题[14]联合学习参数压缩（FLPC）[12]或异常检测算法[13]分层梯度聚合（LEGATO）[15]或DiverseFL [16]EX隐式提升攻击Foolsgold AttackSybil Attack后门插入攻击数据完整性/用户隐私数据完整性/FL安全性数据完整性/FL安全性数据完整性/系统精度逃避分类并提升本地恶意更新[17]使用假身份来破坏FL的安全性和真实性模拟虚拟参与者帐户以锁定FL [23]在线异常检测算法[18]，基于深度学习（DL）的方法[19]和一种新的基于异常的入侵检测系统[20] CONTRA [21]或从训练环境中删除恶意节点[22]多臂Bandit for Federated Learning（MABRFL）[24]和异常检测[25]FLAME [26]、通用模型无关防御技术（Moat）[27]和基于反馈的联邦学习（BAFFLE）[28]标签翻转攻击数据完整性，以学习输入可以访问训练数据，对其进行毒害并置换标签新的防御方法[29]和核主成分分析（KPCA）和K均值聚类[30]表4基于数据的攻击和对策。● 基于编码的攻击：以下列表包括针对物联网系统的所有可能的编码相关攻击，并在下面讨论和呈现（见表5）如下：目标攻击类型EX ploit结果安全措施数据-基于清洁标签攻击数据中毒攻击数据隐私、完整性系统性能，避免更改输入数据，并制作中毒的训练数据[31]引导系统以有利于基于集成的嵌套训练技术[32]合理的供应链检查，模型中毒攻击数据篡改-修改数据完整性系统性能、数据完整性数据隐私，完整性，攻击者毒害全球模型[33]创建合并两个数据集异常检测[35]第三十四话：我的世界动态冗余路径选择攻击搭便车攻击生成式对抗网络攻击规避攻击分布式后门攻击可用性数据隐私，完整性数据隐私，完整性数据隐私，完整性数据隐私、完整性类来欺骗ML模型收集最终模型，主要是通过插入虚拟更新，培训的model在毒化训练数据之前，通过推理拦截训练样本EX利用弱点和漏洞[42]将全局触发器模式分解为单独的局部触发器模式，以实现更高的隐蔽性和持久性（DRPS）[36，37]Viceroy（英语：Viceroy）[38]或P2P Straightforward Protocol（P2PSP）[39]基于CycleGAN [40]或FlowGAN [41]包围学习方法[43]或基于区域的分类[44]DeepSight [45]或Federated LearningProvable防御框架[46]模型反演攻击成员推断攻击在线对抗攻击迁移学习攻击数据隐私，完整性数据隐私，完整性数据隐私，完整性数据隐私，完整性获取敏感数据从的培训将训练好的模型设置为特定的输入并评估结果通过发送虚假数据EX利用基于更大数据集的预训练过程[48]第四十七话：秘密的秘密，秘密的秘密，秘密的秘密MLOps [49]，或使用Transformer的安全联邦学习[50]深度迁移学习[51]对抗性机器学习攻击模型窃取攻击梯度泄漏和梯度操纵攻击数据隐私、系统性能数据隐私、完整性数据隐私、系统准确性发现并利用模型数据输入中的小变化学习的模型被攻击者准确复制目的是窃取和恢复私人，敏感或机密的训练数据，以及共享梯度数据操作[52]和机器学习操作[53]高性能深度神经网络[54]第55话：你是谁？2.3. FL-IoT应用和服务从FL-IoT服务和应用的审查中吸取的重要经验教训也得到了强调，同时也在Fig. 五、然后，我们对FL在各种关键物联网应用中的使用进行了广泛的调查，例如：2.4. FL IoT数据服务FL有潜力覆盖更广泛的物联网领域，同时也实现更广泛的物联网数据服务，如下所示数据生产：经常发生，每天都有正在进行的任务和流程，使其易于频繁和有效地访问。数据共享：使数据共享可用，并安全地从FL服务器传输到本地客户端的设备。在数据量较大的情况下，可以将其压缩并传输，以避免网络拥塞和瓶颈。数据重载：依赖于互补的物联网网络技术，以确保数据已交付到正确的FL服务器，通常以减少带宽使用。数据缓存：允许存储数据子集的高速数据存储，以确保在未来的每次操作中以更快的速度传输数据。数据存储：依赖于物联网存储设备，如磁性、光学或机械介质，为FL服务器及其互连客户端上正在进行和未来的操作●●●●●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155161表5基于编码的攻击和对策。● 基于FLCLient-Server的攻击：也会发生通信攻击，导致FL-IoT通信的完全暴露。因此，这些主要攻击如下所示（见表6），其适当的对策如下：目标攻击类型EXploit结果安全措施编码攻击SQL攻击用户/数据隐私、完整性检索或修改提交的字符串以获得管理权限、提取详细信息、修改数据库或危及用户帐户使用全自动技术或Knuth- Morris-Pratt（KMP）[57]木马模型攻击数据隐私，完整性目标预训练模型池执行任意代码水印数据[58]受感染的模型攻击数据隐私，完整性对现有模型造成异常和可疑行为防止第三方干预，不断检查供应链对抗性扰动攻击数据隐私、完整性逻辑/物理修改用作ML系统输入强大的训练模型、高级认证措施和通知警报[59]决策边界检测攻击数据隐私、完整性识别IDS限制或可利用的漏洞高级入侵检测/防御系统或蜜罐文本训练数据EX牵引攻击协方差攻击近似复制与高保真复制攻击数据隐私、完整性用户隐私，数据完整性数据隐私，完整性生成包含训练数据的逐字部分的文本推断给定系统上的单个用户行为以及系统的响应创建近乎完美/近似的复制副本，以确保更高和更准确的复制应用程序重构，实现速率限制和身份验证，并添加差分隐私[60]确定明确的限制、建议，并应用速率限制差分隐私（DP）或噪声添加[61]表6基于客户端服务器的攻击和对策。目标攻击类型EX ploit结果安全措施客户端-基于服务器本地存储攻击跨站点闪烁攻击数据完整性数据隐私EX跟踪所有存储的数据，并通过JavaScript注入恶意数据加载缓解并发现恶意应用程序轻量级完整性保护[62][63]第六十三话跨站点脚本攻击数据完整性，隐私，可用性允许最终用户欺骗或修改Web页面内容[65]第级联样式表注入攻击客户端侧资源用户隐私，数据完整性数据完整性，可能是XSS、用户界面（UI）或数据修改/提取攻击EX利用并控制链接到[67]第66话：我的世界MLPXSS [68]，Pulse Connect安全和虚拟Web操纵攻击跨域资源共享会话连接攻击可用性数据完整性，隐私，可用性用户隐私，数据完整性其他网页资源导致跨源攻击，如跨站点请求伪造（CSRF）拦截并检索HTTP服务器的会话状态信息[69]第六十九话与HTML5和CORS集成的XSS检测机制[70]第71话：我的世界Serene [72]、基于身份验证的方案[73]或自动会话修复漏洞检测[74]见图4。跨筒仓和跨设备联合学习之间的物联网。J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155162图五. 一组可以从联合学习方法中受益的物联网应用程序。● 智能医疗：FL允许医院从非附属医院的可用数据集中受益，而无需将数据集中在单个位置，以克服关键的数据相关问题，如隐私，安全和访问权限[80]。● 智能工业和制造：FL可用于实现需要集中数据收集和处理的运营工业系统和智能工业物联网（IIoT）应用，通过协调IIoT机器和设备在网络边缘执行关于数据隐私，安全性和保密性的集中式AI培训。同时，FL模型也被用于开发预测性设备维护标签，特别是针对有隐私问题的用户[81]。因此，确保联邦学习和工业物联网的融合，同时引入FL-IIoT的新概念[82，83]。● 网络物理系统（CPS）：依靠FL开发值得信赖的智能服务，这些服务依赖于边缘计算的动态和分布式特性，例如智能联网车辆和智能物流，并产生大量实时数据文献[1]提出了一种称为风火论的解决方案[84]通过在可信的联合学习框架中培训的ML实施智能服务，并监控CPS行为。● 智能城市：FL在处理智能城市方面发挥着关键作用，特别是随着人工智能和大数据的发展，通过致力于解决隐私和安全问题，同时保持废物管理，交通，通信，交通拥堵，交通灯和物流等[85，86]。● 智能农业（SA）：依靠低成本和低能耗的传感器和设备来提高农业生产的数量和质量，同时通过提出一种名为PEFL的解决方案来解决大数据安全和隐私侵犯问题。PEFL是一个基于深度隐私编码的FL框架，它使用基于扰动的编码和长短期记忆自动编码器技术来实现预期的隐私和识别攻击。● 自主机器人和无人驾驶汽车：采用FL和分布式账本技术（DLT），以确保低延迟的分布式设备加载和实时协作，具有先进的自主程度和智能自主系统，以安全，可靠和稳健的方式[88]。这包括实时交通信息、决策、避免碰撞和自动驾驶车辆预测，以及感知、隐私保护、控制和其他任务中的DL [89]。● 智能交通：FL现在正在实施，以解决围绕智能交通领域的各种问题和挑战，例如通信延迟，计算处理，数据隐私，设备移动性，智能物流，资源和系统运输[85]。● 智能通信：FL算法可能接近成为领先的6G推动者，因为它们基于资源受限设备上的大型分散和异构数据集构建了准确的模型[90]。FL的选择是由于其能够被集中式和分布式节点协调● 数字取证和威胁检测：现在更依赖于包括FL在内的监督ML方法来推断系统和网络异常。其主要目的是确保模型决策过程的可解释性，例如参考文献[1]中提出的可解释的联邦Transformer日志学习模型[91]用于威胁检测，特别是物联网系统和设备[92，93]。● 道德黑客：可以很好地集成FL作为一种新的潜在解决方案，以允许维护物联网用户，客户端，服务器，设备，系统和（大）数据隐私，避免任何与隐私相关的攻击，并通过基于AI和隐私保护的解决方案防止任何数据利用或/和操纵。● 执法部门：开始依赖FL作为一种有前途的解决方案，改善反金融犯罪，反洗钱和打击恐怖主义融资流程，以实现增强和准确的ML模式识别和预测能力，而不依赖任何数据共享或损害数据隐私和安全性。这可以提高模型的准确性（降低假阳性和假阴性率），同时降低总体运营成本。● 军事：似乎对FL感兴趣，特别是因为军队正在使用集中式ML方法来训练模型，这些模型依赖于托管训练模型的服务器来进行预测。这种方法需要在数据注释和战术模型训练方面进行显著的直接投资，这些投资不太昂贵，复杂且耗时[96]。因此，依赖增强的FL来保持边缘设备上的本地存储，以确保以协调、安全和私有的实时方式在战术中央服务器上进行军事数据交换，并尽可能减少带宽消耗和延迟[97]。J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）1551633. FL-IoT的挑战和未来机遇FL是物联网系统的一种很有前途的技术，可以提供几个好处，如前所述（隐私保护，可扩展性和减少数据传输）。然而，具有IoT系统的FL遭受图6中呈现的若干挑战。这些挑战必须得到解决，以充分实现FL的潜力，例如：物联网设备限制：FL在计算上可能是昂贵的，并且具有有限计算和资源的物联网设备可能无法参与本地训练模型。因此，开发轻量级FL技术，特别是用于训练过程，可以减少所需的训练计算，资源（如能量或内存消耗）以及通信数据的大小，同时保持高模型准确性和精度。这可以确保具有有限计算资源的物联网设备仍然可以为训练过程做出贡献。物联网设备和数据的异构性：联合学习涉及来自多个物联网设备的数据的训练模型，这些设备可能具有不同的硬件配置和数据分布。解决设备和数据的异质性是FL方法的主要研究挑战。模型更新：物联网设备可能具有不同的数据量，并且某些设备可能无法始终用于训练需要为分布式环境开发有效的更新模型技术公平性：数据分布可能是不平衡或有偏见的，这会在训练模型中引入公平性问题，这将在全局模型中产生问题解决FL中的公平性问题是强制性的，并且需要开发轻量级公平性解决方案，以便能够将其应用于有限的物联网设备。优化算法：物联网/边缘设备（分散式）的本地模型依赖于优化算法。然而，现有的优化算法可能不适合IoT，这是由于IoT设备约束（计算和资源）以及数据的分布式性质。开发新的优化算法，可以在有限的物联网设备和分散的数据上有效地训练模型，从而保持高准确性，精度和收敛速度。通信开销：FL涉及IoT/边缘设备与中央服务器之间的通信，这可能是计算上昂贵且耗时的。开发有效的压缩和量化解决方案对于减少通信数据的大小并因此减少通信延迟开销至关重要。这对于更好地响应物联网设备在能源、计算和内存方面的约束至关重要非独立和完全分布式（IID）数据：FL假设每个源IoT/边缘设备上的数据都是IID。然而，在许多现实世界的物联网场景中，每个设备上的数据可能是非IID的，因为它不是从相同的分布中采样的这可能是由于各种原因而发生的，例如不同的设备类型、地理位置、用户人口统计数据，甚至是数据收集的这将对FL提出严峻的挑战，因为传统的ML解决方案假设训练数据是IID。然而，当训练数据是非IID时，传统算法可能无法很好地工作，因为它会导致模型性能（准确性和收敛速度）较差因此，为了解决非IID数据的问题，我们需要开发一个轻量级的解决方案，该解决方案可以基于聚类、元学习或模型个性化技术，考虑到底层数据分布和数据的异质性。泛化：FL通常用于基于一组特定设备来训练模型，这些设备不能被认为是整个人群的代表。可以解决非IID问题的相同技术也可以帮助解决泛化问题。这种解决方案应该是有效和稳健的，以确保本地训练的模型可以高准确度和精度应用于新设备和人群。联合迁移学习（FTL）：迁移学习（TL）是一种流行的机器学习技术，涉及重用有效的预训练模型来构建新的有效模型。FTL是一个新兴的研究方向，涉及在联合设置中跨设备传输知识，这意味着它通过使用来自源域的预训练模型来初始化目标域中设备上的模型，从而将TL和FL技术结合起来。这可以提高模型的收敛速度和泛化性能开发有效的FTL解决方案，可以找到与目标领域相关的合适的预训练模型，并平衡保护隐私和模型之间的权衡见图6。EX物联网和/或FL的挑战和限制。●●●●●●●●●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155164准确性是提高联合学习的性能和可伸缩性的必要条件。这一点可以被认为是FL领域所需的最重要的贡献之一可解释性：训练的局部模型基于分散的数据，模型无法解释模型的预测。这一挑战是指在无法访问每个设备上的单个数据的情况下，难以理解和解释经过训练的本地模型的决策过程这个问题在一些应用程序中至关重要，特别是那些涉及敏感或高风险决策的应用程序，例如医疗保健或金融，在这些应用程序中，了解模型如何做出决策至关重要。因此，我们需要开发新的，强大的，可靠的提取方法，可以提供可解释的模型（解释训练模型所做的决定），而不会损害隐私。标准化：因此，FL仍然是一个新兴领域，在协议、框架和评估指标方面缺乏标准化。因此，为FL开发标准化的协议和框架以促进其在不同物联网领域中的采用可以被认为是一个要点。安全和隐私保护技术：FL涉及设备和中央服务器之间的通信，这会在不同的组件（设备，服务器和网络）上产生安全和隐私风险，正如我们在下一节中所介绍的那样。我们必须开发轻量级的安全和隐私保护解决方案，这些解决方案在计算、资源和通信方面需要尽可能少的开销，以更好地响应物联网设备的约束此外，这些解决方案应保持模型的性能。事实上，这些挑战可以被认为是未来外语研究方向的关键。应解决这些问题，以充分实现FL在医疗保健和金融等各种物联网领域的潜力。然而，当前的FL安全和隐私问题仍然存在，特别是在物联网领域，例如数据工程师无法访问原始用户数据来清理数据，识别缺失值，并识别模型将被训练的数据点。另一个关键问题包括用户的物联网设备，特别是在训练过程中，包括异构性，存储，计算能力，功耗，连接问题和通信瓶颈，这使得产生的数据在每个设备上保持本地[98]。因此，作为未来方向的一部分，重点应该是检测和预防中毒和数据注入攻击[99]。这需要使用设备生成的数据来训练模型，以支持通信并减少通信回合数，同时发送小的模型更新以避免连接问题。另一个重点应该是攻击检测和预防操作的准确性，而不会危及用户/数据隐私和安全，特别是当FL被大量采用到物联网领域（即主要是医疗保健，智能城市和智能电网）时[100，101]。此外，这项工作的重点是与物联网FL系统的安全和隐私有关，因此，接下来的部分将描述这些主题。此外，在第七节中，我们将详细介绍在物联网中维护FL安全和隐私保护的挑战和未来机遇4. FL安全攻击FL旨在通过协作训练算法来解决数据治理和隐私问题，而无需交换任何数据。这可以通过使用安全聚合来维护私有模型更新来完成然而，梯度反转攻击（或从梯度恢复输入）仍然是一个严重的安全和隐私保护威胁[102]。FL还存在数据标签问题，因为它们需要对其训练进行监督，特别是在遇到敏感和异构数据时。重要的是使用FL实现跨多个IoT系统、网络和组织的协作本文的目的是调查隐私和安全威胁，漏洞和攻击，针对整个FL执行过程，包括其数据分布基于三个主要类别：水平联合学习（HFL），垂直联合学习（VFL）和FTL [103，104]。为了确保FL的安全性，重要的是要保护通信，以避免阻止FL模型收敛的拜占庭攻击[105]，破坏其训练过程的中毒攻击[106]，以及针对FL隐私的后门，生成对抗网络（GAN）和基于推理的攻击[107]。这还包括针对用户/数据机密性、完整性、可用性、身份验证、授权和问责制的攻击[108]。尽管FL通过ML为物联网带来了优势，但这使得它容易受到各种不同攻击类型的攻击，这些攻击旨在利用FL的漏洞和弱点，以公开或隐蔽地实现更高准确性和破坏性的攻击。这些攻击在参考文献中有进一步的解释和介绍[109、110]。因此，此攻击列表被划分并呈现如下：4.1. 攻击类型在本文中，攻击类型根据攻击者的目标、目的、目标和动机而提出，这些攻击可能是网络犯罪、网络战争（即破坏和间谍活动）、黑客行动主义或网络恐怖主义/叛乱[111]的一部分，主要由暴力极端主义组织和团体[112]进行。见参考文件[113]，Beseny et al.讨论了恐怖分子的互联网活动（网络间谍活动，在线宣传或/和假新闻），特别是在暗网上进行了讨论，而Tin等人在参考文献[114]中讨论了它们对医疗保健的影响。在参考文献[115]中，Ghelani等人讨论了网络犯罪活动，特别是针对银行系统的网络犯罪活动，并提出了一个银行系统模型，以实现更高的入侵者检测。然而，本文只关注攻击类型，如图7所示，描述如下：4.2. 攻击类别在本小节中，攻击分为四个主要类别，包括基于FL服务器的攻击、基于客户端的攻击、基于客户端-服务器（通信）的攻击和基于数据的攻击。在每个类别中，还列出了特定攻击的列表，并解释了这些攻击如何利用和瞄准它们。这是总结在图。8.第八条。– FL服务器端基于GAN的攻击：除了传统的攻击类型外，还进行了额外的改进，以便在GAN训练过程中执行额外的任务，以提高生成样本的质量，而不会影响协作学习过程，也不会修改共享模型。从而实现无形的攻击[9]。为了缓解这个问题，一种早期检测方法是轻量级的，非侵入性的，并且使用来自参与者的梯度更新的特征来发现潜在的基于GAN的隐私攻击者[10]。– 分布式拒绝服务（DDoS）攻击：通常无法检测到FL服务器和网络流量，以及FL系统的资源分配[116]。因此，客户端无法连接到服务器，反之亦然。FL基于通信的攻击：通常是在通信过程中进行的攻击（被动或主动攻击）。这些主要攻击的集合如下所示：– 删除攻击：当攻击者试图通过一个糟糕的或不安全的通信信道删除数据时发生另一种尝试可以基于接管客户端的弱安全性来提取所需的数据[117]。由于攻击者被动监控或重新加密被劫持的通信，这种攻击很难– 中间人（MitM）攻击：当攻击者截获FL和●●●●J. - P.A. Yaacoub等人物联网和网络物理系统3（2023）155165见图7。提出联邦学习分类法。● 随机攻击：以随机时间间隔发生，目的是降低FL模型的有效性和准确性● 定向攻击：也可以在随机时间发生，但它们的目标和目的更具体，因为它们会诱导FL模型输出指定的目标。● 集中式攻击：是针对基于FL（本地/全局模型）的客户端/服务器设备或传输中的数据的攻击，目的是闯入、劫持或拦截传入/传出的信息和数据传输。目的是针对安全或/和隐私。● 零星攻击：是针对基于FL的域的随机攻击这通常可以作为测试攻击，以检查任何可能被利用的漏洞或弱点，或者作为转移攻击，对FL的另一个关键部分进行最初打算的攻击。● 单独攻击：可以在不同的时间段针对同一FL，这些攻击可以是相关的或不相关的。事实上，它们往往发生在攻击没有联系在一起，而可能是集体攻击的一部分，试图针对前线的一个以上部分，直到取得某种突破，实现主要目标● 组合/联合攻击：或级联攻击，旨在针对给定的FL发送一波又一波的攻击，通常针对其可用性。这种攻击在某些情况下可以从几分钟到几周不等，如果不是更多的话。在用恶意更新替换它们之前，参与者[118]。这种攻击通常发生在干扰真实网络或通过创建由MitM控制的假网络– 客户端基于GAN的攻击：利用训练过程的实时性，当对手训练GAN生成目标训练集的原型样本以损害训练集所有者的隐私时，就会发生这种情况[11]。为了减轻这种威胁，提出了一种称为联合学习参数压缩（FLPC）的防御方法，以确保更高，更有效的隐私保护[12]。还提出了另一种使用异常检测算法检测FL中基于GAN的信息泄漏攻击的方案[13]。– 拜占庭攻击：针对FL的构建块，每当客户端恶意或意外地在服务器上进行有缺陷的更新时，这源于软件错误，错误或漏洞（即后门），或者向服务器提交不兼容的数据并更新它。因此，导致收敛问题[14]。为了减轻这种攻击，提出了一种称为LayerwisE GradientAggregatTion（LEGATO）的聚合算法，以减轻拜占庭输入的不利影响[15]。另一种方法是DiverseFL，它减轻了FL中的拜占庭行为[16]。– Stealthy Boosting Attack：当除了提升恶意更新之外，恶意客户端可以向学习目标添加更多项时发生，以瞄准准确性和验证丢失检查控制，以及获得更新幅度的统计数据。这种攻击在参考文献[ 17 ]中得到了证明。单次攻击是另一种隐形提升攻击类型，当非合谋恶意攻击者导致模型对具有更高的信心[23]。事实上，它也可以采取显式提升攻击的形式，当恶意代理模仿良性代理以克服缩放效应以避免在显式提升本地恶意更新后将期望的分类结果归零时，就会发生这种攻击[17]。为了缓解Stealthy Boosting攻击，提出了几

下载后可阅读完整内容，剩余1页未读，立即下载