重进行模型平均;服务器将新的模型参数下
发给客户端,客户端更新本地模型。
在客户端-服务器的联邦学习的联邦学
习过程中,用户数据没有离开用户的设备,
数据隐私得到了一定程度的保护,但是,
Zhu 等人的研究结果表明分享梯度会泄露隐
私数据
[2]
,服务端能够根据客户端上传的梯
度恢复出客户端的训练数据。因此,在联邦
学习过程中,客户端向服务器分享本地模型
的更新梯度存在敏感数据泄露的隐患。联邦
学习将需要传输的训练数据转化为了训练后
得到的梯度,需要进行隐私保护的敏感数据
也随之变成了梯度,客户端需要使用隐私保
护技术对梯度进行保护,可以使用的技术
有:同态加密、安全多方计算和差分隐私
等。
1.2 威胁模型
联邦学习不可能总是提供足够的隐私保
证,也会遭受潜在的隐私攻击,危及模型和
数据的完整性。Lyu 等人
[3]
详细的介绍和总
结了联邦学习面对的威胁和攻击。
在联邦学习的威胁模型中,通常会受到
来自内部或外部的攻击,其中内部攻击往往
比外部攻击要强。对于联邦学习的内部攻
击,可以采取单一攻击,拜占庭攻击和女巫
攻击。
根据主动性可以将对手分为半诚实的对
手和恶意的对手,半诚实的对手被认为是诚
实但好奇的,在不违背联邦学习协议的情况
下试图了解其他方的私密状态;而一个活跃
或恶意的对手可以通过修改、重放或删除消
息来随意违背联邦学习协议,还可以进行毁
灭性的攻击。
联邦学习可以分为训练和推理两个阶
段,所以每个阶段受到的攻击也不同。训练
阶段的攻击企图学习、影响和破坏模型本
身,对手可以用数据投毒攻击和模型投毒攻
击,还可以对参与者的更新发动一系列推理
攻击。推理阶段的攻击通常不会篡改目标模
型,只会导致模型产生错误的输出,或收集
关于模型特征的证据。
投毒攻击主要有本地数据采集时的数据
投毒攻击和在局部模型训练过程中的模型投
毒攻击。数据投毒可以分为 clean-label 和
dirty-label 攻击,clean-label 攻击假设对手
无法改变任何训练数据的标签;相比 dirty-
label 攻击中,对手可以将一些它希望用所
需目标标签误分类的数据样本引入到训练集
中。dirty-label 投毒攻击的常见方式是标签
翻转攻击和后面攻击。模型投毒攻击的目标
是在将本地模型更新发送到服务器之前进行
投毒,或者在全局模型中插入隐藏的后门。
推理攻击则可以分为成员推理攻击和属
性推理攻击。成员推理攻击的目的是确定某
一数据点是否被用于训练模型,而属性推理
攻击的用来推断其他参与者的训练数据的属
性。
2 隐私保护技术
2.1 差分隐私
差分隐私是由 Dwork 等人
[4]
在 2006 年
首次提出的,它提供了量化和限制个人信息
泄露的一种输出隐私保护模型。差分隐私的
中心思想是,当攻击者试图从数据集中查询
个体信息时将其混淆,使得敌手无法从查询
结果中辨别个体的敏感性,即函数的输出结
果对于数据集中的任何特定记录都不敏感,
因此,差分隐私能被用来抵抗成员推理攻
击。
定义 1 (
差分隐私) 一个随
机化机制,其定义域为
,如果满
足
差分隐私,那么对于任意的输出
集合 和两个最多只有一个元
素不同的相邻数据集和
,有:
(1)式中,表示隐私预算;表示失败
概率。一般而言,越小,隐私保护程度越
高,噪声越大,数据可用性越差。