没有合适的资源?快使用搜索试试~ 我知道了~
0Computers & Security 129(2023)1031820目录列表可在ScienceDirect上获得0计算机与安全0期刊主页:www.elsevier.com/locate/cose0SparSFA:面向鲁棒且通信高效的点对点联邦学习0Han Wang a,*,Luis Muñoz-González b,Muhammad Zaid Hameed c,David Eklund a,Shahid Raza a0a 瑞典RISE研究院,基斯塔 b 伦敦帝国理工学院,伦敦,英国 cIBM研究欧洲,都柏林,爱尔兰0文章信息0文章历史:接收日期:2022年10月17日修订日期:2023年1月27日接受日期:2023年3月12日在线发布日期:2023年3月15日0关键词:点对点联邦学习,通信效率,毒化攻击,对抗机器学习,IDS,物联网0摘要0联邦学习(FL)已经成为去中心化学习在分布式系统中的一种有力范式,保护参与者数据集的隐私。然而,标准FL方法存在一些限制,可能会阻碍其在某些应用中的适用性。因此,在连接有限的场景下,如一些物联网应用中,可能不可能存在一个服务器或聚合器来协调学习过程,并为不同参与者个性化机器学习模型提供更少的灵活性。为了规避这些限制,点对点FL(P2PFL)提供了更多的灵活性,允许参与者与其邻居合作训练自己的模型。然而,鉴于典型深度神经网络架构的大量参数,通信负担也可能非常高。另一方面,已经证明,标准FL的聚合方案对数据和模型的污染攻击非常脆弱。在本文中,我们提出了一种名为SparSFA的P2PFL算法,可以降低通信成本。我们展示了我们的方法在P2P场景中优于竞争的稀疏化方法,加快了收敛速度并提高了训练的稳定性。SparSFA还包括一种机制,可以减轻随机网络拓扑中每个参与者面临的毒化攻击。我们在物联网中针对入侵检测的真实数据集进行了实证评估,考虑了平衡和不平衡数据集的情况,结果表明SparSFA对于由一个或多个对手发起的不同类型的无差别毒化攻击具有鲁棒性,优于其他鲁棒的聚合方法,并通过稀疏化减少了通信成本。0© 2023 The Authors. Published by Elsevier Ltd. This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/ )01. 引言0物联网(IoT)中智能设备的快速增长带来了许多好处,促进了人们的日常生活,改变了数据的收集和处理方式。大量有价值的可用数据提高了现有应用的性能,例如使用机器学习(ML),但这些系统也成为攻击者的易目标。入侵检测系统(IDS)对于在物联网网络中检测恶意或可疑事件至关重要。特别是,基于异常的IDS监控物联网网络中的流量,以识别异常行为,并利用物联网网络数据更好地防御不同类型的攻击。0� 通讯作者。0电子邮件地址:han.wang@ri.se(H. Wang)。0联邦学习(FL)已经成为分布式系统中去中心化学习的一种有希望的范式(Koneˇcný等,2016年;McMahan等,2017年)。它允许多个参与者在不共享训练数据集的情况下进行协作学习模型的训练,并由一个中央节点(或聚合器)协调学习过程。这种方法在物联网网络的许多应用中非常重要,允许利用物联网设备的处理能力进行协作学习模型的训练,而无需共享数据或将其移动到中心位置。例如,FL任务的参与者可以是部署了IDS的网关,通过利用所有参与者(无需共享数据)的信息,设计出更准确的机器学习模型,而不是在孤立状态下训练或重新训练IDS。标准FL算法存在一些限制,可能会阻碍其在某些场景中的适用性,特别是在物联网应用中。通常,必须进行完整的模型参数更新0https://doi.org/10.1016/j.cose.2023.103182 0167-4048/© 2023 The Authors. Published by Elsevier Ltd. This is an open access article under the CC BY license (http://creativecommons.org/licenses/by/4.0/ )20H. Wang, L. Muñoz-González, M.Z. Hameed等。计算机与安全129(2023)1031820大规模深度神经网络(DNNs)具有大量参数(Sattler等,2020年),在每个训练轮次中在所有客户端之间传输的通信量可能会导致大量的通信开销。另一方面,在一些物联网部署中,如一些无线传感器网络中,不同设备和组件之间的连接可能是有限的,因此有可能无法存在一个协调学习过程的中心节点。为了规避这种限制,点对点联邦学习(P2PFL)提供了一种有趣的替代标准FL的方法,它避免了聚合器的存在,并通过利用邻居的信息,为学习任务中的每个参与者提供了学习个性化模型的能力。例如,Roy等人(2019年)和Wink和Nochta(2021年)已将点对点应用于FL,并提出了适用于不同应用的简单框架。最后,研究表明标准FL非常容易受到数据和模型污染攻击的影响。因此,当使用标准聚合方法(如联邦平均FedAvg)时,单个对手的存在足以破坏整个学习过程(Lamport等,1982年)。为了克服这个问题,越来越多的论文提出了缓解这些攻击的技术(例如,Blanchard等,2017年;Yin等,2018年)。然而,在研究文献中,对于P2PFL中的毒化攻击和数据不平衡情况(这对IDS应用程序来说是典型情况)的鲁棒性研究较少。在本文中,我们提出了SparSFA,即“SparSifed联邦聚合”的缩写,这是一种使用P2PFL进行物联网网络入侵检测问题的通信高效和鲁棒的去中心化学习算法。在这些设置中,网络的部署可能很复杂,连通性有限,设备可能会受到损害,因此增加了遭受污染攻击的风险。我们建议的方法是,不再在对等方之间传输有关梯度或模型更新的所有信息,而是提出了一种基于TopK稀疏化与残差动量的新方法,仅与邻居共享最相关参数的信息,减轻了通信负担并加快了收敛速度,相比其他最先进的稀疏化方法而言,并没有降低性能。另一方面,我们提出了一种强大的聚合规则,特别针对无差别数据和模型污染攻击,通过对每个对等方的贡献进行加权,利用贝叶斯优化来学习根据来自其稀疏模型更新的信息质量分配给每个对等方的重要性分数。该方法还考虑了IDS应用程序典型的数据不平衡情况。我们使用2个真实数据集进行的入侵检测的实证结果表明,SparSFA在没有攻击的情况下与标准聚合技术(例如FedAvg)相当,但显著减少了对等方之间的通信负担。我们还表明,我们的SparSFA能够缓解4种不同类型的数据和模型污染攻击,在许多情况下优于FL中使用的广为人知的防御方法,例如Krum(Blanchard等,2017年)以及Trimmed-Mean和Median(Yin等,2018年),这些方法也需要客户端交换模型的所有参数。据我们所知,我们是第一个在P2PFL中探索通信效率和鲁棒聚合的工作,包括数据不平衡等具有挑战性的场景。本文的贡献如下:0•我们提出了SparSFA,一种通信高效且鲁棒的加权方案,以缓解P2PFL中产生的无差别数据和模型污染攻击的影响。0•我们改进了TopK稀疏化,引入MomTopK来降低P2PFL中的通信成本。0•我们将SparSFA应用于两个真实数据集,其中一个是平衡数据集,另一个是不平衡数据集,以评估其对四种不同对抗性攻击的性能。SparSFA还展示了其在任何随机网络拓扑中的有效性。0本文的其余部分组织如下。0第2节总结了相关工作。第3节描述了问题、场景和威胁模型。第4节介绍了提出的方法。第5节总结和讨论了不同设置下的实验结果。在第6节中,我们分析了安全问题和挑战。最后,第7节得出了结论和未来的工作。02.相关工作02.1.通信高效调度0高通信成本是许多FL部署的瓶颈,尤其是在使用包含数百万参数的大型DNNs进行训练的情况下,这些参数在训练过程中在客户端和聚合器之间共享。因此,许多现有的工作侧重于通过降低通信频率、梯度稀疏化(Ghosh et al., 2020; Guo et al.,2021; Sattler et al., 2020; Shi et al., 2019; Tang et al., 2020)、量化(Diao etal., 2021; Reisizadeh et al., 2020)和训练阶段的并行化(Zhou et al.,2022)来提高FL中的通信效率。与量化相比,梯度稀疏化更具有潜力,因为后者不适用于大规模模型或低带宽网络连接(Shi et al.,2019)。稀疏化的主要思想是仅传输模型梯度(或参数)的一部分,以提高效率,但同时也要实现对全局梯度的良好估计,以确保性能不受到显著影响(Ghosh etal.,2020)。稀疏化首先应用于中心服务器上的应用程序,以加速并行训练。Strom(2015)和Aji和Hea�eld(2017)提出选择具有梯度中绝对值最高的top-k组件(TopK稀疏化),并将其余组件分配为残差。Sattler等人(2020)表明,TopK稀疏化在面对非IID数据带来的影响时更不敏感。然而,Shi等人(2019)指出,在多核处理器(如GPU)的环境中,TopK稀疏化的性能效率低下,并通过实验证据提出了基于高斯的TopK。此外,标准的TopK稀疏化在设置合理的阈值来筛选梯度方面存在缺点。Guo等人(2021)提出了一种基于分区的方法,根据梯度的分布特征选择适当的阈值。在这些工作中,Tang等人(2020)探索了与我们的论文类似的设置,考虑了P2P场景。然而,他们采用了随机-k稀疏化,已经证明收敛速度较慢(Shiet al., 2019)。02.2.缓解污染攻击0标准的聚合算法,如FedAvg,极易受到对抗性攻击的影响,例如模型倒置、模型规避、数据和模型污染攻击等。一个单一的对手可以完全破坏训练过程(Blanchard et al., 2017; Fang et al.,2020)。此外,污染攻击可以进一步分为两类:触发污染攻击(也称为后门攻击)和无触发污染攻击(Liu et al., 2022; Schwarzschild et al.,2020)。前者是指在推理阶段使模型对包含触发器的样本误分类为目标类别的攻击(例如Abad3 0H. Wang, L. Muñoz-González, M.Z. Hameed等人。计算机与安全性129(2023)1031820et al., 2023; Bagdasaryan et al., 2020; Lyu et al., 2023; Xie et al., 2020 );而后者指的是在训练阶段发生的攻击,没有定义触发器和目标类别(例如 Fang etal., 2020; Muñoz González et al., 2017; Lin et al., 2022; Shejwalkar andHoumansadr, 2021)。关于FL中的后门攻击,Lyu等人(2023)提出了一种新颖的后门攻击,通过微调注入的触发器来减少无毒模型和被毒化本地模型之间的偏差,并通过限制触发器来限制模型的变化。然而,在本文中,我们专注于无触发器的数据和模型污染攻击,具体来说,我们专注于无差别攻击,旨在破坏P2PFL网络中的整体学习过程。随着在FL中发现了新的对抗性攻击,针对相应攻击的不同鲁棒防御措施已成为FL的一个相关且热门的研究课题,考虑到这些攻击可能对实际部署产生的影响(Blanchardet al., 2017; Cao et al., 2021; Muñoz-González et al., 2019; Yin et al.,2018)。我们主要关注对抗无触发器的数据和模型污染攻击的聚合规则。例如,Krum(Blanchard et al.,2017)是一种考虑每次迭代中来自所有客户端的模型更新梯度相似性的最新方法之一。Yin等人(2018)提出了依赖于鲁棒统计的算法,用于缓解污染攻击,包括修剪平均值和中位数。Muñoz-González等人(2019)提出了一种自适应聚合规则,旨在通过观察客户端提供的更新之间的相似性的均值、中位数和标准差,识别和丢弃恶意客户端,包括用于建模客户端行为并阻止那些一致发送恶意模型更新的客户端的隐马尔可夫模型。Cao等人(2021)提出了一种考虑模型全局模型和所有本地模型之间的方向和大小的方法FLTrust,该中心节点维护一个小的可信训练数据集,全局模型与此数据集进行微调,而客户端训练其本地模型。然而,这些方法尚未在P2PFL环境中进行测试,而在这种环境中,防御数据污染可能更具挑战性,因为1)邻居的数量减少,2)非IID数据集的影响可能更显著,特别是在处理不平衡数据集时。03.问题定义和威胁模型0本文考虑了在IoT网络中进行入侵检测的用例,该网络由不同类型的IoT设备和边缘设备组成,尽管所提出的算法可以应用于其他适合P2PFL的情境。在我们考虑的场景中,边缘设备通常是监视流量的网关。边缘设备也是IDS通常部署在其中以保护内部网络。因此,边缘设备可以被视为FL设置中的客户端。我们假设有n个客户端拥有数据,表示为C = {c1,...,cn}。每个客户端都有其自己的设备上的数据0流量数据集Dk = �xj,yj� |Dk|0j = 1,其中|Dk|是数据集中的总样本数0数据集中客户端k的数据样本,xj表示第j个样本,yj是相应的标签。由于我们考虑的是二分类问题的入侵检测任务,yj只表示良性或恶意的流量,可以表示为yj∈{0,1}。因此,P2PFL任务的目标可以形式化为对每个客户端i的损失函数Fi(Wi)进行最小化:0F i ( W i ) =0N i �0k = 1 p k , i F k ( W k ; D k ),(1)0其中W i表示客户端i的模型参数,|W i|表示模型的参数数量,N i表示0连接到客户端i的邻居节点的总数,pk,i表示第k个邻居对客户端i的权重或信任分数,以便pk,i>0且∑kp k,i = 1。稍微滥用符号,0我们还用p k,it表示信任分数,其中t表示特定的迭代。在我们的场景中,我们考虑平衡和不平衡数据集。尽管大多数FL论文只考虑平衡数据集,但在许多网络安全应用中,例如IDS,具有类不平衡的数据集是典型的。因此,我们使用Wang等人(2021)提出的重新平衡技术,为P2PFL中的情景分析调整了我们在第4节中描述的算法。对于分析的场景,我们考虑三种不同的经典网络拓扑:不完全图、完全图和链。0威胁模型:在我们考虑的IDS用例中,我们的方法面临的敌对方之一可以是由被入侵设备生成的异常流量,这些设备可能在数据收集阶段中破坏邻近节点的训练数据集,或者旨在操纵与对等方之间的信息交换期间的更新,在此情况下,IDS旨在隔离设备以防止被入侵设备进行任何非法行为。在P2PFL设置中,提出的IDS没有全局模型和数据集要维护。所有私有数据集都不与任何第三方共享。在这种环境中,我们提出了一种强大的方法,可以在存在敌对方的情况下用于巩固IDS,在我们的用例中,敌对方是被入侵(或故障)的网关。我们假设攻击者控制一个或多个这些网关,以破坏同一网络中的其他IDS,执行毒化攻击。我们假设部分知识设置,攻击者只知道被入侵节点的本地训练数据集、目标函数、模型架构以及在训练过程中从邻近节点接收到的信息(稀疏梯度)。攻击者可以操纵本地训练数据集(数据毒化攻击)或发送给邻近节点的更新(模型毒化攻击)。04.方法0在本节中,我们描述了我们提出的用于解决P2PFL中的通信开销和对毒化攻击的SparSFA方案的详细信息,重点关注物联网网络中的入侵检测应用。SparSFA是一种强大且通信高效的方案,可由边缘设备上的基于机器学习的IDS使用,这些设备在FL设置中被视为客户端。边缘设备可以是监控网络流量的网关。与传统的FL不同,SparSFA专为点对点环境设计,其中没有协调学习过程的中央节点,这对于物联网和传感器网络中的应用非常方便,这些应用通常在节点之间的连接性有限且通信效率至关重要。0图1简要说明了SparSFA的工作原理。整个系统可以分为三个部分:(1)模型稀疏化,(2)客户端权重调整和(3)入侵检测的本地模型优化。首先,本地模型在每个客户端上使用其本地数据集进行初始训练。当其他邻近客户端请求更新时,稀疏器模块将大量参数置零,通过聚焦于最相关的参数来压缩要共享的信息。这不仅减少了通信开销,还隐藏了一些不太重要的模型信息,这些信息也可能导致隐私泄漏。接下来,在更新本地模型之前,调整器模块会调整从客户端连接的邻居接收到的模型更新的分数。最后,通过聚合客户端连接的邻居的调整参数来更新本地模型,并开始下一轮本地训练。这个协作学习任务迭代运行,直到达到一定程度的收敛。4 0H. Wang, L. Muñoz-González, M.Z. Hameed等。计算机与安全性129(2023)1031820图1显示了SparSFA的系统概述:对于每个客户端,稀疏器使用掩码m将模型的参数W稀疏化,然后与对等方共享模型。对于聚合,调整器调整客户端参数的权重以更新本地模型。0当达到收敛或达到最大训练轮数时,停止训练。04.1. 动量TopK稀疏化0节点之间的通信在许多联邦学习任务中可能成为瓶颈(Sattler等,2019),通信成本与模型的大小、训练轮数或参与者数量等因素有关(Sattler等,2020)。在影响通信成本的这些因素中,我们专注于减少节点之间共享的参数数量。为此,我们展示了模型稀疏化是实现这一目标的一种有前途的方法。如第2.1节所讨论的那样,模型稀疏化的思想是共享模型参数的一小部分,并将其余部分置零。Aji和Hea�eld(2017)提出的TopK稀疏化方法可以看作是最先进的方法之一。稀疏比例r表示要稀疏的参数数量的分数。根据稀疏比例r,选择梯度中具有最大幅度的k个参数。其余的|W|-k个参数累积在下一轮训练中将要考虑的残差集合Wr中。然而,尽管最后一次迭代中的参数梯度被存储为残差,但仍有可能某些具体的参数,在梯度中经常呈现较大幅度,会主导稀疏化过程,并且其他相关参数可能不会与对等方共享。此外,只共享模型的特定部分将限制不同客户端上的本地模型的性能,特别是在非独立同分布的情况下。为了克服这个限制,我们提出通过在残差中添加动量来改进TopK稀疏化方法,以限制当前梯度的影响,稳定训练并提高性能。我们将这种方法称为动量TopK(MomTopK)。为此,动量残差表示为R:0R t , i = β R t − 1 , i + ( 1 − β ) � F ( W t , i ),(2)0其中 β ∈ [0, 1]控制当前梯度的残差集和以及先前回合中的残差之间的权衡。它可以有效地防止模型中只有一些特定参数与对等方共享,这些参数在梯度中始终具有较大的幅度。方程中的�F(Wt, i)是迭代t中客户端i上的本地模型的估计梯度。0算法1详细描述了MomTopK的步骤。主要输入是将与邻居共享的本地模型的参数以及两个超参数β和r。首先初始化掩码和残差。在第t轮通信中,残差rt,i是来自上一次迭代的残差与累积梯度以及从当前的Wt,i获得的梯度之间的权衡总和(第3行)。如第4行和第5行所示,要共享的参数数量k是通过稀疏比例r获得的,生成二进制张量的掩码mt,它基于0算法1:MomTopK算法。01 初始化掩码和残差为零:m0 = R0 = 002 �F(Wt,i) ← Gradient(Wt,i)03 Rt,i = βRt-1,i + (1-β)�F(Wt,i)04 k ← r * numel(Rt,i) /* 需要置零的参数数量 */05 从Rt,i生成前k个掩码mt06 Rt+1,i = Rt,i - mt ◦ �F(Wt,i)07 ˆwt,i = mt ◦ Wi0在残差rt,i的k个最大值上进行稀疏化。最后,稀疏化模型的参数ˆwt,i由mt ◦Wi给出,其中◦是Hadamard乘积。下一轮的残差rt+1,i通过从当前残差rt,i中减去掩码梯度来获得,如算法中的第6行所述。04.2. 权重调整0联邦学习的成功在很大程度上取决于对等方之间的信任,因为假设所有参与者都是善意和值得信赖的,即使参与者之间的本地数据集分布不完全一致(非IID),所有参与者也可以从其他参与者提供的数据中受益。然而,在现实世界中,这个假设并不成立,因为设备和数据可能会受到损害,或者一些节点可能存在故障。因此,在实际的FL和P2PFL部署中,强大的聚合是必不可少的,以减轻恶意攻击或故障节点的影响。在入侵检测的背景下,训练时的攻击可能使IDS无法使用,或者在部署ML模型时可能促进对网络的攻击。在标准FL和P2PFL中设计强大的聚合方案的方法存在一些差异。在FL中,大多数情况下聚合器没有任何可用于评估参与者提供的更新质量的数据集,并且需要依赖他们发送的参数或梯度之间的相似性,目标是为所有节点产生整体性能较高的模型。相反,在P2PFL中,每个客户端控制自己的模型,并且可以访问自己的本地数据集,这有助于评估邻居提供的更新质量,并控制聚合模型与使用本地数据集计算的模型的偏差程度。在这种情况下,每个节点的目标是生成优化该特定节点性能的本地模型。此外,在FL中,聚合器接收来自任务中所有节点的模型更新,因此,攻击者的影响被稀释。而在P2PFL中,每个节点只从其邻居那里接收信息,当连接受限时,攻击者对邻居的影响可能更大,并且可能产生级联效应在网络中传播。我们为P2PFL提出了一种强大的聚合方案,对于每个节点,根据每轮训练提供的模型更新中邻居节点的可信度进行评分,依靠一组五个指标。在这里,我们将具有将要更新的模型的客户端称为cd(目标模型),将具有将要共享的模型的客户端称为cs(源模型)。我们的五个指标如下:1)数据大小:与FL(例如FedAvg)一样,我们假设更大的本地训练数据集提供更多相关信息,并且可以在训练过程中获得更大的改进。2)数据方差:我们考虑cs上本地数据集的方差,假设较高的方差将对应更多样化的数据集。例如,在IDS中,具有较大方差的数据集意味着客户端观察到更多种类的流量,可能是攻击。3)连接性:与客户端连接的对等节点数。可以解释为如果一个客户端连接到许多其他客户端,则表示该特定客户端在网络拓扑中处于良好位置。4)相似性:在第t次迭代中,计算cd上的本地模型(表示为Wt,d)与cs上的稀疏模型(表示为ˆwt,s)之间的相似性。ˆwt,s与Wt,d越相似,越安全5 0H. Wang, L. Muñoz-González, M.Z. Hameed等人。计算机与安全性129(2023)1031820在当前迭代中假设cs。在本文中,我们测量Cosine相似度。5)Divergence:与相似性相反,当两个模型彼此不一致时,这种差异会给cd上的本地模型带来更多的不确定性,这可以看作是不利因素。因此,在第t次迭代中,我们测量ˆwt,s与Wt,d的偏离程度,并定义为:0Di v t (ˆwt,s, Wt,d) Wt,d∥0∥ Wt,d ∥, (3)0相似性和差异是互补的指标,对于我们的强大聚合规则来说是最相关的方面。相比之下,前三个指标有助于为良性节点提供更好的权重。请注意,即使攻击者对前三个指标撒谎,相似性和差异也可以帮助识别和检测攻击。附录B中包括了更多的讨论和实验证明。当cd在第t次迭代中调用更新时,它根据这五个指标为其连接的每个客户端在集合Ncd = {s: cs连接到cd}中分配一个得分。客户端s ∈ Ncd的得分由ps,d表示,并定义为这五个指标的线性组合,其中最后一个指标即差异被视为线性组合的惩罚项。因此,第t次迭代中的得分ps, d可以通过以下方式获得:0ps, dt = a1 ∙ DataSize (cs) + a2 ∙ DataVar (cs) + a3 ∙ Conn (cs) + a4 ∙Cost (ˆwt,s, Wt,d) − a5 ∙ Divt (ˆwt,s, Wt,d), (4)0其中a1 ∙ ∙ ∙ a5 ∈ A ∈R5是标量系数,a5被视为惩罚项。在我们的实验评估中,这五个指标中,DataSize (cs),DataVar (cs)和Conn0Di v t (ˆwt,s,Wt,d)在每次迭代中都会动态变化。为了找到正确评分邻居客户端Ncd的最佳A集合,我们使用贝叶斯优化来调整ps,dt。这种黑盒优化技术依靠贝叶斯定理来指导搜索,以找到目标函数的最小值或最大值(Snoek等人,2012年)。在我们的情况下,我们使用客户端cd的本地训练数据集上的损失来学习最佳系数组合。我们建立了一个目标函数的概率模型,描述如Eq.(1)所示,作为替代函数。0每个客户端。我们将其称为调谐器模块,它基于贝叶斯定理制定如下:0P(Fsur i (Wi)|A) ∝ P(A|Fsur i (Wi)) * P(Fsur i (Wi)), (5)0其中P(Fsur i(Wi)|A)是在探索的标量系数A给定的替代函数的后验概率,该后验概率可用于估计不同系数组合的成本;P(A|Fsur i0表示使用训练数据集的先验概率来代表替代函数。此外,为了加快探索过程,我们将系数a1 ∙ ∙ ∙ a4的搜索空间限制在[0, 1]之间,其中a1 + ∙ ∙ ∙ + a4 =1,并根据不同情况经验性地设置惩罚系数a5的上界和下界。因此,使用贝叶斯优化来更新客户端cd时,连接的邻居s ∈ Ncd的权重ps,dt将根据训练过程中的五个指标动态学习。04.3. P2PFL中的方案集成0SparSFA是图1中展示的两个组件的集成:Sparsi�er和Tuner。SparSFA的详细算法在算法2中呈现。SparSFA的输入包括本地数据集Dj0算法2:强健加权方案SparSFA的算法。0输入:本地数据集:Dj在客户端cj∈C ={c1,...,cn}上,超参数:遗忘因子β,稀疏比率r,学习率:η,本地时期数:Elocal,全局时期数:Eglobal。01 模型←从云端接收初始模型。02 对于t = 0,1,...,Eglobal进行循环03 对于j = 1,...,n进行循环04 对于e = 0,1,...,Elocal进行循环05 Wt,j = LocalTrain(Model,Dj,η)06 结束07 结束08 对于j = 1,...,n进行循环09 Ncj ← {i:ci连接到cj}010 Pcj ← �011 对于i∈Ncj进行循环012 ˆwt,i = MomTopK(Wt,i,β,r)013 datasizet,i = DataSize(ci);014 datavar t,i = DataVar(ci)015 connt,i = Conn(ci)017 divt,i = Divt(ˆwt,i,Wt,j)018 Aopt ← BayesOpt(Wt,i,ˆwt,i,A,datat,i,datavart,i,connt,i,simt,i,divt,i)019 使用公式4将pi,j更新为Aopt021 结束022 使用公式1将Pcj更新为Wt+1,j023 结束024 结束0和超参数,如学习率η,全局和局部训练时期数。在开始时,将接收一个初始模型,例如从云端接收(第1行)。接下来,每个客户端在特定数量的时期内对本地模型进行训练(第4-6行)。在聚合阶段,对于每个邻居cj即Nc,j,应用MomTopK来获得稀疏权重(第12行)。然后,计算第4.2节中描述的度量标准,对于每个s∈Ncj,应用贝叶斯优化来获得最优系数集Aopt6 0H. Wang,L. Muñoz-González,M.Z. Hameed等。计算机与安全性129(2023)1031820(第18行)。之后,通过公式(4)更新连接客户端的权重,并更新客户端cj上的模型以进行下一次迭代(第22行)。SparSFA重复此过程,直到达到最大的全局时期数Eglobal。05. 实现和评估0SparSFA在Pytorch1中实现,这是一个标准的深度学习框架。对于贝叶斯优化,我们使用了公开可用的实现“bayes_opt”(Nogueira,2014–)。我们在由RISEICE提供的云服务上的配备Nvidia-Gtx-2080ti GPU和10 GBCUDA内存的Kubernetes集群上进行实验。05.1. 实验设置05.1.1. 攻击在我们的实验中,我们考虑了2种数据污染攻击和2种模型污染攻击:(1)标签翻转攻击(LFA),其中攻击者操纵本地训练集。在MuñozGonzález等人(2017)中,攻击者根据其对模型的损失影响选择特定的训练样本进行翻转。在本文中,训练数据样本的标签是随机翻转的,即标签在恶意和良性类别之间随机交换。(2)噪声攻击(NA)(Paudice等人,2019)是另一种数据污染攻击,攻击者将带有随机标签的高斯噪声添加到训练数据集中,以污染受损客户端上的数据。这也可能对应于具有低质量(嘈杂)数据的良性客户端。(3)目标函数污染(OFP)是一种用于鲁棒性评估的模型污染攻击。攻击者通过翻转目标函数即最大化本地训练数据集上的交叉熵损失而不是最小化它来污染本地模型。这导致了更强的攻击,因为攻击者对模型更新有更多的控制权,并且受损客户端在模型更新中提供了一个相反的方向。(4)拜占庭攻击(BA)是一种非定向的模型污染攻击,攻击者从具有非常大方差的分布中随机选择恶意模型更新(Lamport等人,1982)。05.1.2. 基准线我们从两个方面评估SparSFA:通信成本和对抗性鲁棒性。为了显示SparSFA的通信效率,我们将SparSFA与另外两个基准线进行比较:Aji和Hea�eld(2017)提出的TopK稀疏化方法,以及Tang等人(2020)中使用的随机K稀疏化方法。另一方面,为了与鲁棒性聚合规则进行比较,我们选择Yin等人(2018)提出的修剪平均值和修剪中位数,以及Blanchard等人(2017)提出的Krum作为基准线。修剪平均值和修剪中位数是逐坐标聚合规则。修剪平均值按照排序顺序收集邻居的所有模型更新。给定一个阈值k < |N|02,其中|N|是邻居的数量,客户端cd丢弃k个最大和最小的参数,并计算其余参数的平均值;Median只是使用每个参数的中值来更新本地模型,而不是使用均值。对于在P2PFL中应用Krum,每个cd∈C选择与其邻居之间的欧氏距离最小的模型来更新其本地模型。最后,我们还将SparSFA与标准的FedAvg(McMahan等人,2017)进行比较,以比较在没有防御措施时的结果。01 https://pytorch.org/05.1.3.模型在我们的实验中,我们将模型配置为具有3个隐藏层(参数为130,60和20)的前馈神经网络,并具有丢弃和批量归一化。我们选择LeakyReLU作为前3层的激活函数,选择Sigmoid作为最后一层的激活函数。对于N-BaIoT数据集,我们使用Adam优化器(Kingma和Ba,2015)和学习率η =10^-5以及权重衰减10^-3,对于UNSW BoT-IoT数据集,我们使用学习率η =10^-4。SparSFA的超参数,如模型稀疏化的稀疏比率r和遗忘因子β,设置为0.4和0.95。此外,我们将每个客户端的本地训练时期数设置为5,全局通信时期数设置为100。所有参数的值都是根据实验中最佳性能进行经验设置的。05.1.4.数据集N-BaIoT数据集(Meidan等,2018)的详细信息用于实验评估。它包含来自9个商业物联网设备的真实网络流量,包括4个不同品牌的安全摄像头,2个不同品牌的门铃,一个恒温器,一个婴儿监视器和一个网络摄像头。从5个不同的时间窗口(10 0ms,500ms,1.5秒,10秒和1分钟)提取了23个增量统计特征。该数据集是用于检测物联网网络中的僵尸网络的。它捕获了2个僵尸网络(Mirai,BASHLITE)传播的良性流量和恶意流量。我们选择Mirai中的恶意流量作为我们实验中IDS要检测的目标。UNSWBoT-IoT数据集是由UNSW堪培拉中心的网络环境中的真实网络环境创建的。Koroniotis等人(2019)建立了一个测试环境来模拟受到僵尸网络攻击的真实物联网网络。他们启动虚拟机来模拟物联网设备的网络行为。他们记录了所有这些设备的正常/良性和僵尸/异常流量。它以69.3GB大小的PCAP文件捕获,具有超过72,000,000个记录。他们从PCAP中提取统计特征,并得出了10个最佳特征(详见Koroniotis等人,2019)。在我们的实验中,我们使用这10个特征进行实验,并应用Wang等人(2021)提出的方法对数据进行重新平衡,并与SparSFA结合使用,因为与异常流量相比,良性流量数据极少。05.1.5. 评估指标我们选择不同的指标来评估SparSFA在不同方面的表现。我们首先使用曲线下面积(AUC)和F1-score(FS)来评估模型的通信成本。我们关注模型在这两个指标上的收敛速度。为了评估模型的鲁棒性,我们还考虑了每个客户端本地模型的误报率(FNR)来分析其检测异常的能力,以及误报率(FPR)。05.2. 结果与讨论0为了对SparSFA进行全面评估,我们进行了四组主要实验,包括:(1)对收敛性的不同稀疏化方法的评估,(2)对3种经典网络拓扑中4种攻击的鲁棒性评估,(3)对随机更大网络中4种攻击的鲁棒性评估,(4)计算负担评估。关于标签翻转攻击,我们将95%的训练数据标签翻转为对抗性客户端;关于噪声攻击,我们通过向数据集Dk添加均值和标准差为Dk的高斯噪声,将噪声样本的数量加倍。之后,我们随机将这些噪声实例标记为良性或恶意类别。7 0H. Wang, L. Muñoz-González, M.Z. Hameed等人。计算机与安全性129(2023)1031820图2. SparSFA的MomTopK,稀疏比率r为0.4,与稀疏化基线和标准FedAvg在AUC和F1-score指标上的对比。05.2.1. 对不同稀疏化方法的收敛性评估首先,我们评估了SparSFA在通信效率方面的性能。我们假设所有客户端都是良性的,没有发生攻击。在这个实验中,我们以N-BaIoT为例,部署了5个客户端在P2PFL环境中。这五个客户端从5个不同的物联网设备收集独立的流量数据,并且每个客户端承担不同的网络攻击。例如,持有安全摄像头的客户端具有Syn洪水攻击的恶意流量;持有门铃的客户端具有扫描易受攻击设备的恶意流量。因此,不同客户端的训练集来自不同的训练数据分布。在这里,我们考虑不完整图的情况,这是现实世界中一种常见且灵活的网络拓扑。我们将提出的SparSFA中的MomTopK与标准的FedAvg以及其他两个基线(Random-K和TopK)进行比较,稀疏化比例对于所有稀疏化方法都设为0.4。如图2所示,SparSFA(红色曲线)只共享了模型的60%,在F1-score方面与不使用稀疏化的标准FedAvg(橙色曲线)相比仅略微降低了通信成本。与其他两个基线相比,SparSFA不仅是收敛最快的方法,而且可以实现最佳的分类结果。SparSFA在大约第15个epoch收敛;另一方面,Random-K(蓝色曲线)在第30个epoch左右收敛。值得一提的是,在这种情况下,原始的TopK(绿色曲线)似乎难以收敛。结果表明,我们提出的稀疏化改进对性能有显著的正面影响,而MomTopK比其他两种稀疏化技术更适应和适合P2P学习。05.2.2. 在经典网络拓扑中鲁棒性评估在这个实验中,我们测量SparSFA在3种经典网络拓扑(完全图、不完整图和链式拓扑)中受到不同攻击时的表现。对于每种拓扑,我们部署了4个良性客户端和1个恶意客户端。首先,完全图是最接近一般FL设置的拓扑,但没有一个中心节点来协调。在这种情况下,对手与其他参与者都有连接;其次,不完整图是一种客户端之间没有完全连接的拓扑。这种情况模拟了现实世界中最常见的设置。我们观察对手如何直接和间接地影响其他良性客户端;最后,链
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功