
3
0
H.Wang,L.Muñoz-González,M.Z.Hameed等人。计算机与安全性129(2023)103182
0
etal.,2023;Bagdasaryanetal.,2020;Lyuetal.,2023;Xieetal.,2020);
而后者指的是在训练阶段发生的攻击,没有定义触发器和目标类别(例如Fanget
al.,2020;MuñozGonzálezetal.,2017;Linetal.,2022;Shejwalkarand
Houmansadr,2021
)。关于FL中的后门攻击,Lyu等人(2023)提出了一种新颖的后门攻击,通过微调
注入的触发器来减少无毒模型和被毒化本地模型之间的偏差,并通过限制触发器来
限制模型的变化。然而,在本文中,我们专注于无触发器的数据和模型污染攻击,
具体来说,我们专注于无差别攻击,旨在破坏P2PFL网络中的整体学习过程。随着
在FL中发现了新的对抗性攻击,针对相应攻击的不同鲁棒防御措施已成为FL的一个
相关且热门的研究课题,考虑到这些攻击可能对实际部署产生的影响(Blanchard
etal.,2017;Caoetal.,2021;Muñoz-Gonzálezetal.,2019;Yinetal.,
2018)。我们主要关注对抗无触发器的数据和模型污染攻击的聚合规则。例如,Kr
um(Blanchardetal.,
2017)是一种考虑每次迭代中来自所有客户端的模型更新梯度相似性的最新方法之
一。Yin等人(2018)提出了依赖于鲁棒统计的算法,用于缓解污染攻击,包括修
剪平均值和中位数。Muñoz-González等人(2019)提出了一种自适应聚合规则,
旨在通过观察客户端提供的更新之间的相似性的均值、中位数和标准差,识别和丢
弃恶意客户端,包括用于建模客户端行为并阻止那些一致发送恶意模型更新的客户
端的隐马尔可夫模型。Cao等人(2021)提出了一种考虑模型全局模型和所有本地
模型之间的方向和大小的方法FLTrust,该中心节点维护一个小的可信训练数据集,
全局模型与此数据集进行微调,而客户端训练其本地模型。然而,这些方法尚未在
P2PFL环境中进行测试,而在这种环境中,防御数据污染可能更具挑战性,因为1)
邻居的数量减少,2)非IID数据集的影响可能更显著,特别是在处理不平衡数据集
时。
0
3.问题定义和威胁模型
0
本文考虑了在IoT网络中进行入侵检测的用例,该网络由不同类型的IoT设备和边缘
设备组成,尽管所提出的算法可以应用于其他适合P2PFL的情境。在我们考虑的场
景中,边缘设备通常是监视流量的网关。边缘设备也是IDS通常部署在其中以保护
内部网络。因此,边缘设备可以被视为FL设置中的客户端。我们假设有n个客户端
拥有数据,表示为C={c1,...,cn}。每个客户端都有其自己的设备上的数据
0
流量数据集Dk=xj,yj|Dk|
0
j=1,其中|Dk|是数据集中的总样本数
0
数据集中客户端k的数据样本,xj表示第j个样本,yj是相应的标签。由于我们考虑的
是二分类问题的入侵检测任务,yj只表示良性或恶意的流量,可以表示为yj∈{0,1}
。因此,P2PFL任务的目标可以形式化为对每个客户端i的损失函数Fi(Wi)进行最
小化:
0
Fi(Wi)=
0
Ni
0
k=1pk,iFk(Wk;Dk),(1)
0
其中Wi表示客户端i的模型参数,|Wi|表示模型的参数数量,Ni表示
0
连接到客户端i的邻居节点的总数,pk,i表示第k个邻居对客户端i的权重或信任分数
,以便pk,i>0且∑kpk,i=1。稍微滥用符号,
0
我们还用pk,i
t表示信任分数,其中t表示特定的迭代。在我们的场景中,我们考虑平衡和不平衡
数据集。尽管大多数FL论文只考虑平衡数据集,但在许多网络安全应用中,例如ID
S,具有类不平衡的数据集是典型的。因此,我们使用Wang等人(2021)提出的
重新平衡技术,为P2PFL中的情景分析调整了我们在第4节中描述的算法。对于分析
的场景,我们考虑三种不同的经典网络拓扑:不完全图、完全图和链。
0
威胁模型:在我们考虑的IDS用例中,我们的方法面临的敌对方之一可以是由被入
侵设备生成的异常流量,这些设备可能在数据收集阶段中破坏邻近节点的训练数据
集,或者旨在操纵与对等方之间的信息交换期间的更新,在此情况下,IDS旨在隔
离设备以防止被入侵设备进行任何非法行为。在P2PFL设置中,提出的IDS没有全局
模型和数据集要维护。所有私有数据集都不与任何第三方共享。在这种环境中,我
们提出了一种强大的方法,可以在存在敌对方的情况下用于巩固IDS,在我们的用
例中,敌对方是被入侵(或故障)的网关。我们假设攻击者控制一个或多个这些网
关,以破坏同一网络中的其他IDS,执行毒化攻击。我们假设部分知识设置,攻击
者只知道被入侵节点的本地训练数据集、目标函数、模型架构以及在训练过程中从
邻近节点接收到的信息(稀疏梯度)。攻击者可以操纵本地训练数据集(数据毒化
攻击)或发送给邻近节点的更新(模型毒化攻击)。
0
4.方法
0
在本节中,我们描述了我们提出的用于解决P2PFL中的通信开销和对毒化攻击的Sp
arSFA方案的详细信息,重点关注物联网网络中的入侵检测应用。SparSFA是一种
强大且通信高效的方案,可由边缘设备上的基于机器学习的IDS使用,这些设备在F
L设置中被视为客户端。边缘设备可以是监控网络流量的网关。与传统的FL不同,S
parSFA专为点对点环境设计,其中没有协调学习过程的中央节点,这对于物联网和
传感器网络中的应用非常方便,这些应用通常在节点之间的连接性有限且通信效率
至关重要。
0
图1简要说明了SparSFA的工作原理。整个系统可以分为三个部分:(1)模型稀疏
化,(2)客户端权重调整和(3)入侵检测的本地模型优化。首先,本地模型在每
个客户端上使用其本地数据集进行初始训练。当其他邻近客户端请求更新时,稀疏
器模块将大量参数置零,通过聚焦于最相关的参数来压缩要共享的信息。这不仅减
少了通信开销,还隐藏了一些不太重要的模型信息,这些信息也可能导致隐私泄漏
。接下来,在更新本地模型之前,调整器模块会调整从客户端连接的邻居接收到的
模型更新的分数。最后,通过聚合客户端连接的邻居的调整参数来更新本地模型,
并开始下一轮本地训练。这个协作学习任务迭代运行,直到达到一定程度的收敛。