P2PFL中的通信高效性和强大性能：SparSFA算法

161 浏览量更新于2023-12-05 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

计算机安全129（2023）103182SparSFA：迈向强大和通信高效的对等联邦学习Han Wanga， Luis Muñoz-Gonzálezb， Muhammad Zaid Hameedc， David Eklunda，沙希德·拉扎aaRISE Research Institutes of Sweden ， Kista ，SwedenbImperial College London，London，UnitedKingdomcIBM Research Europe，Dublin，IrelandAr ticlei n f o ab st ract文章历史记录：收到2022年2023年1月27日修订2023年3月12日接受2023年3月15日网上发售保留字：对等联邦学习通信效率中毒攻击对抗性机器学习IDSIoT联合学习（FL）已经成为训练协作机器学习（ML）模型的强大范例然而，标准FL方法存在一些限制，可能会阻碍其在某些应用中的适用性。因此，需要服务器或聚合器来编排学习过程在具有有限连接性的场景中可能是不可能的，如在一些IoT应用中，并且为不同参与者个性化ML模型提供较少的灵活性。为了避开这些限制，对等FL（P2PFL）提供了更多的灵活性，允许参与者与他们的邻居合作训练他们自己的模型。然而，鉴于典型深度神经网络架构的参数数量庞大，通信负担也可能非常高。另一方面，它已被证明，标准的聚集计划FL是非常bitt- tle对数据和模型中毒攻击。在本文中，我们提出了SparSFA，P2PFL算法能够降低通信成本。我们表明，我们的方法在P2P场景中优于竞争稀疏化方法，加快了收敛速度，提高了训练过程中的稳定性。SparSFA还包括一种机制，以减轻任何随机网络拓扑中每个参与者的中毒攻击。我们对物联网中用于入侵检测的真实数据集进行了实证评估，考虑了平衡和不平衡数据集场景，结果表明，SparSFA对一个或多个对手发起的不同无差别攻击具有鲁棒性，优于其他鲁棒聚合方法，同时通过稀疏化降低了通信成本版权所有© 2023作者。由Elsevier Ltd.发布。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）1. 介绍物联网（IoT）中智能设备的快速增长带来了许多好处，方便了人们的日常生活，改变了数据收集和处理的方式。大量有价值的可用数据改善了现有应用程序的性能，例如，通过使用机器学习（ML），但这些系统也很容易成为对手的目标。入侵检测系统（IDS）对于在物联网网络中检测恶意或可疑事件至关重要。特别是基于异常的IDS，它监视物联网网络中的流量，以识别异常行为，并利用物联网网络数据更好地防御不同的攻击。∗通讯作者。电子邮件地址：www.example.comhan.wang @ ri.se（H.Wang）。联邦学习（FL）已经成为分布式系统中体面学习的一个有前途的范例（Koneeconomical.，2016; McMahan等人，2017年）。它允许多个参与者在不共享其训练数据集的情况下训练协作学习模型，并由协调的中央节点（或聚合器）协助学习过程。这种方法对于物联网网络背景下的许多应用非常相关，允许利用物联网设备的处理能力来训练协作学习模型，而无需共享数据或将其移动到中心位置。例如，FL任务的参与者可以是部署IDS的网关，与IDSs被隔离地训练或重新训练的情况相比，允许通过利用来自所有参与者的信息（而不共享数据）来标准FL算法具有一些限制，这可能会阻碍其在某些场景中的适用性，特别是在物联网应用中。通常，完整的模型参数https://doi.org/10.1016/j.cose.2023.1031820167-4048/© 2023作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）可在ScienceDirect上获得目录列表计算机安全期刊主页：www.elsevier.com/locate/coseH. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031822在每个训练轮期间在所有客户端之间通信，这在使用具有非常大量参数的大型深度神经网络（DNN）时可能导致大量通信开销（Sattler等人，2020年）。另一方面，在一些物联网部署中，如在一些无线传感器网络中，不同设备和组件之间的连接性可能受到限制，因此协调学习过程的中央节点的存在可能不可行。为了避开这种限制，对等联邦学习（P2PFL）提供了一个有趣的替代标准FL通过避免聚合器的存在，也使学习任务中的每个参与者的个性化模型的学习，通过利用他们的邻居的信息。例如，Roy et al.（2019）和Wink and Nochta（2021）将点对点应用于FL，并提出了适合不同应用的简单框架。最后，它已被证明，标准FL是非常容易受到数据和模型中毒攻击。因此，当使用标准聚合方法（例如Federated Averaging（FedAvg））时，单个对手的存在可能足以危及整个学习过程（Lamport等人，1982年）。为了克服这一点，越来越多的论文提出了减轻这些攻击的技术（例如，Blanchard等人，2017; Yin等人，2018年）。然而，在P2PFL和场景中，具有数据不平衡的IOS是IDS应用程序的典型特征，在研究文献中较少探讨在本文中，我们提出了SparSFA，简称Sifed Federated Aggregation”，这是一种使用P2PFL的通信高效且鲁棒的分散式学习算法，用于物联网网络中的入侵检测问题。在这些设置中，网络的部署可能是复杂的，同时连接性有限，并且设备可能受到损害，因此增加了遭受中毒攻击的风险。我们建议使用一种基于TopK稀疏化的新方法，而不是在节点之间传输所有关于梯度或模型更新的信息，该方法另一方面，我们提出了一个强大的聚合规则，特别是对不分青红皂白的数据和模型中毒攻击的鲁棒性，通过加权不同的节点对给定客户端的贡献，利用贝叶斯优化来学习基于质量分配给每个节点的重要性得分从稀疏模型更新中提供的信息。这种方法还考虑了数据不平衡的情况，这是IDS应用程序的典型情况。我们使用2个真实世界数据集进行入侵的经验结果检测表明，SparSFA在没有攻击的情况下具有与标准聚合技术（例如FedAvg）相当的性能，但显著减少了对等点之间的通信负担。我们还表明，我们的SparSFA能够对4种不同类型的数据和模型中毒攻击进行Miti- gating，在许多情况下，表现优于FL中使用的众所周知的防御，例如Krum（ Blanchard 等人，2017）和截尾均值和中位数（Yin等人，2018），这也要求客户端交换模型的所有参数。据我们所知，我们是第一个探索通信效率的工作，同时，P2PFL中的强大聚合，包括具有挑战性的场景，例如数据不平衡的场景。本文的贡献如下：• 针对P2PFL中数据不确定性和模型中毒攻击的影响，提出了一种通信效率高、鲁棒性强的加权方案SparSFA• 通过改进TopK稀疏化算法，引入MomTopK来降低P2PFL中的通信开销。• 我们将SparSFA应用于两个真实世界的数据集，其中一个是平衡的，另一个是不平衡的数据集，以评估其对四种不同的对抗性攻击的性能。SparSFA还证明了它在任何随机网络拓扑中的有效性。本文件其余部分的组织如下。第2节总结了相关工作。第3节描述了问题、场景和威胁模型。第4节介绍了拟议的方法。第5节总结并讨论了不同设置的实验结果。在第6节中，我们分析了安全问题和挑战。最后，第七部分总结了本文的研究结论，并对未来的工作进行了展望。2. 相关工作2.1. 通信效率调度高通信成本是许多FL部署的瓶颈，特别是当使用包含数百万参数的大型DNN时，这些参数在客户端和聚合器之间的训练过程中共享。因此，许多现有的工作集中于通过降低通信频率、梯度稀疏化来提高FL中的通信效率（Ghosh等人，2020;Guo等人，2021年; Sattler等人，2020; Shi等人，2019;Tang等人， 2020 ）、量化（ Diao 等人， 2021; Reisizadeh 等人，2020），以及训练阶段的并行化（Zhou et al.， 2022年）。梯度稀疏化比量化更有前途，因为后者不适用于大规模模型或低带宽网络连接（Shi等人，2019年）。Spar-sification的主要思想是仅传递减少数量的模型梯度分量（或参数），以提高效率，但同时实现全局梯度的良好估计，从而不会显著影响性能（Ghosh等人，2020年）。稀疏化首先应用于集中式服务器上的应用程序，以加速并行训练。Strom（2015）和Aji and Heafield（2017）建议从梯度中选择绝对值最高的top-k分量（TopK稀疏化），并将其余分量分配为残差。Sattler等人（2020）表明，TopK稀疏化已被证明对联邦学习中非IID数据带来的影响不太敏感。然而，Shi et al.（2019）指出，TopK稀疏化在GPU等多核处理器的环境中表现不佳，通过展示经验结果，还提出了基于高斯的TopK。此外，标准的TopK稀疏化在设置合理的阈值来筛选梯度方面有一个缺点。Guo等人（2021）提出了一种基于分区的方法，根据梯度的分布特征选择合适的阈值在这些工作中，Tang et al.（2020）探索了与我们论文相似的设置，考虑了P2P场景。然而，它们采用随机k稀疏化，这已被证明收敛缓慢（Shi等人， 2019年）。2.2.减少中毒攻击标准聚合算法，如FedAvg，极易受到对抗性攻击，如模型反演，模型规避，数据和模型中毒攻击等。单个对手可以完全损害训练过程（Blanchard等人，2017; Fang等人，2020年）。此外，中毒攻击还可以进一步分为两类：触发式中毒攻击（也称为后门攻击）和无触发式中毒攻击（ Liu et al. 2022;Schwarzschild等人，2020年）。前者指的是导致模型在推理阶段将包含触发器的样本错误分类为目标类的攻击（例如，AbadH. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031823.不K||JJj=1K={1n}.例如，2023; Bagdasaryan等人，2020; Lyu等人，2023; Xie等人，2020）;而后者指的是攻击发生在训练阶段，没有触发器和目标类的定义（例如，方等人，2020; Muñoz González等人，2017; Lin等人，2022; Shejwalkar和Houmansadr，2021）。关于后门攻击在FL中，Lyu et al.（2023）提出了一种新的后门攻击，通过微调注入的触发器来减少无毒模型和中毒的局部模型之间的偏差，并限制攻击者以限制模型的变化。然而，在本文中，我们专注于无密码数据和模型中毒攻击，具体来说，我们的重点是不分青红皂白的攻击，P2PFL网络中的整体学习过程随着FL中新的对抗性攻击被发现，针对相应攻击的不同鲁棒防御已经成为考虑到这些攻击在实际部署中可能产生的影响，这是FL的一个相关且流行的研究主题（Blanchard等人，2017; Cao等人，2021; Muñoz-González等人，2019年; Yin等人，2018年）。我们主要关注的聚集规则，是强大的无节点数据和模型中毒攻击。例如，Krum（Blanchard等人，2017）是最先进的方法之一，它考虑了每次迭代中来自所有客户端的模型更新梯度的相似性。Yin et al.（2018）提出了依赖于鲁棒统计数据来减轻pois-soning攻击的算法，包括Trimmed Mean和Median。Muñoz- González等人（2019）提出了一种自适应聚合规则，旨在通过观察客户端提供的更新数据之间的相似性的平均值，中间值和标准差来识别和丢弃不良客户端，包括用于对客户端行为进行建模的隐马尔可夫模型，并阻止那些持续发送恶意模型更新的客户端。Cao等人（2021）提出了FLTrust，这是一种考虑模型更新的方向和幅度的方法，在全局模型和所有局部模型之间计算。中心节点维护一个小的可信训练数据集。全局模型使用此数据集进行微调，而客户端则训练其本地模型。然而，这些方法尚未在P2PFL环境中进行测试，在P2PFL环境中，防御数据中毒可能更具挑战性，因为1）邻居的数量减少，2）非IID数据集的影响可能更显著，特别是在处理不平衡数据集时。3. 问题定义和威胁模型本文考虑了物联网网络中入侵检测的用例，物联网网络包括不同类型的物联网设备和边缘设备，尽管所提出的算法可以应用于P2PFL可以适用的其他上下文中。在我们考虑的场景中，边缘设备通常是监控流量的网关。边缘设备也是IDS通常部署的地方，用于保护内部网络。因此，边缘设备可以被视为FL设置中的客户端。我们假设有n个客户端拥有数据，记为Cc，. . . ，c.每个客户端都有自己的设备数据集D =.x，y|DK|得双曲余切值.|D|的总数连接到客户端i的邻居总数pk， i表示客户端的第k个邻居的权重或信任得分i，所以，pk， i>0且kpk， i=1。稍微滥用一下符号，我们还用pk， i表示信任得分，其中t表示特定迭代。在我们的场景中，我们考虑平衡和不平衡的数据集。虽然FL中的大多数论文只考虑平衡数据集，但在许多网络安全应用中，如IDS，具有类不平衡的数据集是典型的。为此，我们使用Wang等人（2021）为P2PFL提出的重新平衡技术调整了第4节对于所分析的场景，我们考虑了三种不同的经典网络拓扑：不完全图、完全图和链.威胁模型：在我们考虑的IDS用例中，我们方法的对手之一可能是受损设备生成的异常流量，这些设备可能会在数据收集阶段损害相邻节点的训练数据集，或者旨在操纵在ML模型的分布式训练期间与对等节点交换的信息。另一方面，IDS的目标是隔离设备，以防止被入侵的设备进行任何非法行为。在P2PFL设置中提出的IDS没有全局模型和数据集要维护。所有私有数据集都不会与任何第三方共享。在这种情况下，我们提出了一种鲁棒的方法，可用于在存在对手的情况下巩固IDS，在我们的用例中，是compro- mised（或故障）网关。我们假设攻击者控制一个或多个这些网关，以破坏其他IDS在同一网络中通过执行中毒攻击。我们假设部分知识设置，其中攻击者只知道受损节点的本地训练数据集，目标函数，模型架构，以及在训练期间从相邻节点接收的信息（稀疏梯度）。攻击者可以操纵本地训练数据集（数据中毒攻击）或发送到相邻节点的更新（模型中毒攻击）。4. 方法在本节中，我们将详细描述我们提出的方案SparSFA，用于解决P2PFL中的通信开销和对中毒攻击的鲁棒性，重点关注物联网网络中的入侵检测应用。SparSFA是一种健壮的、通信效率高的方案，可用于基于ML的入侵检测系统中的边缘设备，这些边缘设备在FL设置中被视为客户端。边缘设备可以是监控网络流量的网关.与传统FL相比，SparSFA是为点对点环境而设计的，在这种环境中，没有中央节点来协调学习过程，这对于物联网和传感器网络中的应用非常方便，这些应用通常在节点之间具有有限的连接性，并且通信效率至关重要。图1简要说明了SparSFA的工作原理。总体而言，整个系统可以分为三个部分：（1）模型稀疏化，（2）客户端入侵检测的局部模型首先，本地模型是初始的，客户端k上的数据集中的数据样本，x，j表示第j个SAM。Ple，yj是对应的标签。由于我们考虑的入侵检测任务是一个二进制分类问题，yj仅表示良性或恶意的流量，可以将其删除。记为yj∈{0， 1}。因此，P2PFL任务的目标可以是公式化为最小化每个客户端i的损失函数Fi（Wi）：Ni在每个客户端使用其本地数据集进行训练当其他当相邻客户端请求更新时，Sparsifier模块将大量参数归零，通过关注最相关的参数来压缩要共享的信息。这不仅减少了通信开销，而且还隐藏了模型的一些不太重要的信息，这些信息也可能导致隐私泄露。接下来，在更新本地模型之前，Fi（Wi）=pk=1k， iFk（Wk;Dk），（1）调谐器模块调整从用户接收的模型更新的得分，客户端的连接邻居。最后，通过聚合连接的模型的调谐参数其中，Wi表示客户端i的模型的参数，是模型参数的个数，N i 指示客户的邻居，并开始下一轮的本地培训。这种协作学习任务迭代地运行，直到某种程度的一致性。H. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031824∇Fig. 1. SparSFA的系统概述：对于每个客户端，Sparsifier在与其对等端共享模型之前，使用掩码m对模型对于聚合，调优器调整客户端参数的权重达到收敛或达到最大训练轮数。4.1. Momentum TopK稀疏节点之间的通信可能是许多FL任务中的瓶颈（Sattler等人，2019年），通信成本与模型的大小，训练时期的数量或数量有关。仅举几例（Sattler等人，2020年）。在这些影响通信成本的因素中，我们着重于减少节点之间共享的参数的数量。为此，我们证明了模型稀疏化是实现这一目标的一种很有前途的方法。如2.1节所述，模型稀疏化的思想是共享模型参数的一个小子集，并将其余部分归零。Aji和Hea field（2017）提出的TopK稀疏化可以被视为最先进的方法之一。稀疏比率r表示要稀疏化的参数数量的分数。根据稀疏比r，具有最大值的k个参数选择梯度的大小其余|W|− k pa-在剩余集合Wr中累积参数，在下一轮训练中考虑。然而，尽管最后一次迭代中的参数的梯度被存储为残差，但是仍然可能的是，一些特定的参数（其通常在梯度中贡献大的幅度）可以主导稀疏化过程，并且其他相关参数可能不与对等体共享。此外，仅共享模型的特定部分将限制本地模型在不同客户端上的性能，特别是在非IID场景中。为了克服这一局限性，我们建议通过向残差添加动量来限制当前梯度的影响，稳定训练并提高性能来改进TopK稀疏化。我们将该方法表示为动量TopK（MomTopK）。为此，表示为R的动量残差用公式表示为：Rt，i=βRt−1，i+ （ 1−β ） <$F （ Wt，i ），（2）其中β∈[0， 1]控制当前梯度的残差集与前几轮中的残差之间的权衡。它可以有效地防止只有某些特定参数在梯度中总是有很大的幅度，与同行共享。方程中的F（Wt， i）是迭代t中客户端i上的局部模型的估计梯度。算法1详细说明了MomTopK的步骤主输入是要共享的本地模型的参数与邻居和两个超参数β和r。首先，我们初始化掩码和残差。在第t个通信回合，残差rt，i是来自具有累积梯度的先前迭代的残差和从当前Wt，i获得的梯度的折衷求和。(line 3）。如第4行和第5行所示，共享的参数数量k由稀疏比获得r，并且作为二进制张量的掩码mt基于算法1：MomTopK算法输入：第i个客户端的第t次迭代中的局部模型的参数：Wt， i，超参数：遗忘因子β和稀疏比r输出：模型的稀疏部分：wt，i1将掩码和残差初始化为零：m0=R0=02 f（Wt， i）←梯度（Wt， i）3 Rt， i=βRt−1，i+（1−β）<$F（Wt， i）4 k←rnumel（Rt， i）/*要清零的参数数量*/5从Rt， i生成前k掩码mt6 Rt+1，i=Rt， i−mtF（Wt， i）7wt，i=mtWt，i在残差rt的k个最大值上，i.最后，稀疏化模型的参数w t，i由wt，i = m t w t，i表示，其中t是Hadamard乘积。下一轮的残差rt+1，i通过从当前残差rt，i中减去掩蔽梯度来获得，如算法的第6行所述4.2.权重调整联邦学习的成功在很大程度上依赖于对等体之间的信任，因为所有参与者都被假设为是诚实和值得信赖的，因此即使参与者之间的本地数据集的分布不完全一致（非IID），所有参与者都可以从其他参与者提供的数据中受益。然而，在现实世界的设置中，这种假设并不成立，因为设备和数据可能会受到损害，或者某些节点可能会有缺陷。因此，在实际的FL和P2PFL部署中，鲁棒的聚合是必不可少的，以减轻恶意攻击的影响或有缺陷的节点。在入侵检测的上下文中，训练时的攻击可能会使IDS无法使用，或者在部署ML模型时可能会促进对网络的攻击。在标准FL和P2PFL中，鲁棒聚集方案的设计方法存在一些差异。在FL中，在大多数情况下，聚集器没有任何数据集可用于评估由参与者提供的更新的质量，并且需要依赖于由参与者发送的参数或梯度之间的相似性，并且目标是为所有节点产生具有高总体性能的模型。相比之下，在P2PFL中，每个客户端控制其自己的模型并可以访问其自己的本地数据集，这有助于评估邻居提供的更新的质量，并控制聚合模型与使用本地数据集计算的模型的偏差程度。在这种情况下，每个节点的目标是产生一个本地模型，优化该特定节点的性能。此外，在FL中，聚合器接收来自参与任务的所有节点的模型更新，因此，攻击者的影响力被稀释。然而，H. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031825我不--一我一我我我我我我我D|J5在P2PFL中，每个节点只接收来自其邻居的信息，当连通性有限时，攻击者可以对邻居有更强的干扰，并可以产生级联效应，在网络中传播。每一个客户。我们称之为调谐器模块，它基于贝叶斯定理公式化为：P（F sur（W）|A）PIPs（A|F sur（W））（F sur（W））（5）我们为P2PFL提出了一个强大的聚合方案，对于每个节点，根据每个训练轮提供的模型更新中的信任度对相邻节点进行评分，该模型更新依赖于一组五个度量。在这里，我们用cd表示客户端，它的模型将被更新（目标模型），cs表示客户端，它的模型将被共享（源模型）。我们的五项指标如下：1) 数据大小：与FL（例如FedAvg）一样，我们假设较大的本地训练数据集提供更多相关信息，并且可以在训练过程中提高改进2) 数据方差：我们考虑cs上的局部数据集的方差，假设更高的方差将对应于更多样化的数据集。例如，在IDS中，具有较大方差的数据集意味着客户端已经看到了更广泛的攻击，可能还有攻击。3) 连接性：连接到客户端的对等体的数量。可以解释为，如果一个客户端连接到许多其他客户端。因此，这意味着该特定客户端在网络拓扑中处于良好位置。其中P（F sur（Wi））|A）是给定探索的标量系数A的代理函数的后验，并且该后验可以是用于估计系数的不同组合的成本; P（AFsur（Wi））是似然函数，P（Fsur（Wi））表示训练数据集的代理函数的先验。此外，为了加速探索，我们将系数a1···a4的搜索空间约束为[0，1]，其中a1+ a4···+a4=1，并根据经验设置惩罚系数α5取决于不同的情况。因此，使用贝叶斯优化来更新客户端cd，p s，d的连通邻居s∈N c将动态地学习在培训过程中，根据五个指标4.3.P2PFL中的方案集成SparSFA是图1所示的两个组件的集成：Sparsifier和Tuner。详细算法在算法2中给出。SparSFA的输入包括本地数据集Dj，4) 相似性：在第t次迭代中，局部模型，记为Wt，d，和稀疏化模型，记为Wt，s。在当前迭代中假设Wt ，d与Wt，s更相似，安全性更高在本文中，我们衡量余弦相似性。5) 分歧：与相似性相反，当两个模型彼此分歧时，这种分歧会带来更多的不确定性。对 CD 上的局部模型的可支配性，这可以被看作是 disad-vantagee。在该表达式中，我们测量了muchwt ，s与Wt， d的偏差，并且它可以定义为：w算法2：鲁棒加权算法。输入：本地数据集：客户端cj上的D j∈C=c1，. . .，Cn，超参数：遗忘因子β，稀疏比r，学习率：η，局部时期的数量：E局部，全局时期的数量：E全局。1模型←从云端接收初始模型。对于t = 0，1，. . . ，Eglobal do对于j = 1，. . . ，n do4对于e = 0，1，. . . ，Elocal doDivt（wt，s，Wt，d）=t，d、（3）ǁ6Wt，j=LocalTrain（Model，Dj，η）端相似性和差异性是互补的度量，与我们的鲁棒聚合规则最相关的方面与此同时-7端8，其中j = 1，. . . ，n dotrast，前三个指标有助于为9提供更好的权重良性的淋巴结请注意，即使攻击者对10前三个指标，相似性和差异性可以帮助识别-识别和检测攻击。进一步的讨论和实验是11包含在附录B中。12当客户端cd在第t次迭代中调用update时，它分配13在集合Ncd={s：Nc←{i：ciconnected tocj}Pcj←对于i∈Ncj，数据大小t，i=数据大小（ci）;数据变量t，i=数据变量（ci）cs连接到cd}，基于这五个度量。比分是15分康恩特，我 =Conn（ci）客户s∈Nc表示为ps， d，定义为线性组合16simt，i=Cost（wt，i，Wt，j）D五个指标的国家，其中最后一个指标，即，分歧，17迪瓦特，我=Divt（w）t我，Wt，j）被认为是对线性组合的惩罚因此，分数18第t次迭代中的ps，d可以被获得为：19ps， d=a1·DataSize（cs）+a2·DataV ar（cs）+a3·Conn（cs）Aopt←BayesOpt（Wt，i，wt，i，A，datasizet，i，datavart，i，connt， i，simt， i，divt， i）更新pi，j，通过公式4选择i、 j不+a·Cos（w）、）−a·Div（w）、）的内容（四）二十追加p到Pcj4t t， sWt， d5t t， sWt， d，21end其中a1···a5∈A∈R5为标量系数，a5为惩罚项.在我们的实验评估中，22用Pcj更新W t +1，j23端部由等式1这五个指标，DataSize（cs），DataVar（cs）和Conn（cs）仍然存在在此过程中，Cost（wt ，s，Wt ，d）和Divt（wt ，s，Wt ，d）动态地进行更新。为了找到最佳的一组，以正确地对Nc 中的邻居客户端进行评分，我们使用贝叶斯优化来调整p s，d。这24端部以及超参数，例如学习率η、全局和局部训练时期。一开始，一个初始模型将Dt黑箱优化技术依赖于贝叶斯定理来指导为了找到目标函数的最小值或最大值而进行的搜索（Snoek等人，2012年）。在我们的例子中，我们使用客户端cd的本地训练数据集上的损失来学习最佳的系数组合。我们建立了一个概率14H. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031826模型的目标函数，这是描述在方程。(1)上的代理函数被接收，例如，云（1号线）接下来，每个客户都要训练在特定数量的时期内的局部模型（第4-6行）。在将聚合阶段MomTopK应用于c，j的每个邻居，即Nc，j，以得到稀疏权重（第12行）。然后，对每个s∈Ncj计算第4.2节中描述的度量，并应用贝叶斯优化来获得最佳系数集AoptH. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）10318272| |(line 18）。在此之后，连接的客户端的权重通过等式（1）更新。(4)并且客户机Cj上的模型被更新用于下一次迭代（行22）。SparSFA重复这个过程，直到它达到全局epoch的最大数量Eglobal。5. 执行和评价15.1.3. 模型在我们的实验中，我们将模型配置为具有3个隐藏层（参数为130，60和20）的前馈神经网络，具有dropout和批量归一化。我们选择Leaky ReLU作为前三层的激活函数，最后一层的激活函数是Sigmoid。我们使用Adam优化器（Kingma和Ba，2015），对于N-BaIoT数据集，学习率η=10−5，权重衰减10−3，对于UNSW BoT-IoT，η= 10−4学习框架。对于贝叶斯优化，我们使用了公开可用的实现我们在配备Nvidia-Gtx-2080 ti GPU和10 GB CUDA内存的Kubernetes集群上进行了实验，并在RISE ICE提供的云服务上进行了实验5.1. 实验装置1)攻击在我们的实验中，我们考虑了两种数据中毒攻击和两种模型中毒攻击：（1）标签翻转攻击（LFA），其中对手操纵本地训练集。在Muñoz González et al.（2017）中，攻击者根据其对模型的损失影响，策略性地选择要加密的特定训练样本。在本文中，训练数据样本的标签是随机替换的，即标签在恶意和良性类别之间随机交换。（2）噪声攻击（NA）（Paudice等人，2019）是另一种数据中毒攻击，攻击者将带有随机标签的高斯噪声添加到训练数据集中，以使受损客户端上的数据集中毒。这也可能对应于具有低质量（噪声）数据的良性客户端。（3）目标函数中毒（OFP）是本文提出的一种用于鲁棒性评估的模型中毒攻击。对手通过反转目标函数来对局部模型进行定位，即，它最大化局部训练数据集上的交叉熵损失，而不是最小化分类任务。这会导致更强的攻击，因为攻击者对模型更新有更多的控制权，而受损的客户端在模型更新中提供了相反的方向。（4）拜占庭攻击（BA）是一种非目标模型中毒攻击，对手从具有非常大的方差的分布中随机发送恶意模型更新（Lamport等人， 1982年）。2)基线我们从两个方面评估SparSFA：通信成本和对对手的鲁棒性。为了显示SparSFA另一方面，为了与稳健的聚合规则进行比较，我们选择Yin等人提出的 Trimmed Mean和Median。（2018），以及Blanchard等人提出的Krum。（2017）作为基线。 Trimmed Mean 和 Median 都是坐标方式的聚合规则。Trimmed Mean收集来自邻近区域的所有模型更新，bors in a sorted排序order订单.给定阈值k <|N|得双曲余切值.N是邻居的数量，客户端cd丢弃k个最大和最小参数，并计算其余参数的平均值; Median简单地使用每个参数的中值来更新局部模型，而不是使用平均值。为了改编克鲁姆在P2PFL中，每个cd∈C从其对等体中选择与其邻居具有最小欧几里得距离的模型来更新其局部模型。最后，我们还将SparSFA与标准FedAvg进行了比较（McMahan等人，2017年），以比较结果时，没有辩护在场。第1页https://pytorch.org/数据集。SparSFA的超参数，如稀疏比r和遗忘因子β，分别设置为0.4和0.95此外，我们还设置了当地列车的数量将每个客户端处的历元设置为5，将全局通信历元设置为100。所有参数5.1.4.数据集的详细信息N-BaIoT数据集（Meidan等人，2018）进行实验评估。它由来自9个商用物联网设备的真实网络传输流组成，包括4个不同品牌的安全摄像头、2个不同品牌的门铃、恒温器、婴儿监视器和网络摄像头。从5个不同的时间窗口（100 ms、500 ms、1.5 sec、10 sec和1 min）中提取了23个增量统计特征。收集此数据集用于检测IoT网络中的僵尸网络。它捕获由2个僵尸网络（Mirai，BASHLITE）携带的良性流量和恶意流量。在实验中，我们选择Mirai的恶意流量作为IDS检测的目标。UNSW BoT-IoT 数据集由 UNSW Can-berra 中心的 CyberRange Lab中的现实网络环境创建。Koroniotis等人（2019）建立了一个测试平台环境，以模拟受到僵尸网络攻击的真实物联网网络。他们启动虚拟机来模拟物联网设备的网络行为。它们记录来自所有这些设备的正常/良性和僵尸网络/异常流量。它被捕获在PCAP文件中，大小为69.3 GB，有超过72，000，000条记录。他们从PCAP中提取统计特征，并提出了10个最佳特征（更多细节请参见Koroniotis等人，2019年）。在我们的实验中，我们使用前10个特征进行实验，并应用Wang等人（2021）提出的方法重新平衡数据，并使用它与SparSFA相结合，因为良性流量数据与异常流量数据相比非常少。5.1.5.评估指标我们从不同的角度选择不同的度量标准来度量SparSFA。我们首先使用曲线下面积（AUC）和F1得分（FS）来评估模型的通信成本。我们重点关注模型在两个指标中收敛的速度。为了评估模型的鲁棒性，我们还考虑了每个客户端上的局部模型的假阴性率（FNR）以分析其检测异常的能力，以及假阳性率（FPR）。5.2.结果和讨论为了对SparSFA进行全面的评价，我们进行了四个主要的实验集，包括：（1）不同稀疏化的收敛性评价，（2）3种经典网络拓扑结构下对4种攻击的鲁棒性评价，（3）多对手随机大网络中对4种攻击的鲁棒性评价，（4）计算负担评价。对于标签抽取攻击，我们在对抗客户端抽取了95%的训练数据标签;对于噪声攻击，我们添加了一组噪声样本，其大小是本地训练的两倍数据集|DK|通过将高斯噪声与平均值和标准Dk与数据集Dk的偏差。在那之后，我们随机标记这些噪声实例具有良性或恶意类别。SparSFA在Pytorch这是一个标准深度H. 王湖，加-地Muñoz-González，M.Z.Hameed等人计算机安全129（2023）1031828图二、S p a r S F A 的 MomTopK，稀疏比率r为0.4，相对于稀疏基线和标准FedAvg的AUC和F1评分指标。1)不同稀疏函数的收敛性我们首先评估SparSFA在沟通效率方面的表现。我们假设所有客户端都是良性的，没有攻击发生。在这个实验中，我们以N-BaIoT为例，在P2PFL设置中部署了5个客户端。这五个客户端从5个不同的物联网设备收集单独的传输数据，每个客户端都受到不同的网络攻击。例如，一个持有安全摄像头正常流量的客户端具有Syn恶意流量攻击;一个持有门铃正常流量的客户端具有扫描易受攻击设备的恶意流量。因此，不同客户端的训练集来自不同的训练数据分布。在这里，我们考虑不完全图的情况下，这是一个规则的和可伸缩的网络拓扑在现实世界中。我们将SparSFA中提出的MomTopK与标准FedAvg和其他两个基线：Random-K和TopK进行比较，所有稀疏化方法的稀疏化比率都设置为0.4如图2所示，SparSFA（红色曲线）通过仅共享60%的模型来降低通信成本，与标准的Fe- dAvg（橙色曲线）相比，F1得分略有下降，后者没有使用稀疏化。与其他两种基线方法相比，SparSFA不仅收敛速度最快，而且能够获得最佳的分类结果。SparSFA在epoch 15附近收敛;另一方面，Random-K（蓝色曲线）在epoch 30附近收敛。值得一提的是，原始TopK（绿色曲线）在这种情况下似乎很难实现。结果表明，我们提出的稀疏化改进对性能有显着的积极影响，MomTopK比其他两种稀疏化技术更具自适应性，更适合P2P学习2)经典网络拓扑结构在这个实验中，我们测量了当不同的攻击在3个经典的网络拓扑中发起时，SparSFA的表现：完全图，不完全图和链。对于每个拓扑，我们部署4个良性客户端和1个恶意客户端。首先，完全图是最接近一般FL设置但没有中心节点进行协调的图。在这种情况下，对手连接到每个其他的参与者;第二，不完全图是一个拓扑结构，客户端不完全连接到彼此。这种情况模拟了现实世界中最常见的设置。我们观察对手如何直接和间接地攻击其他良性客户端;最后，链是一种极端情况，所有客户端连接到不超过两个其他客户端。请注意，在这种情况下，客户端只能与对手连接。对于这个实验，我们展示了SparSFA和其他三个基线在F1分数和FNR上的性能，因为这两个指标对于这个实验设置来说信息量更大，我们使用N-BaIoT数据集作为示例。如表1所示，总体而言，SparSFA实现了95%以上的在所有攻击场景中，F1评分约为5

下载后可阅读完整内容，剩余1页未读，立即下载