没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文f4 f5f4 f5 f4 f5f6 f7F1f2 f3f4 f5f6 f7F7F6F7F6一A BCA BCA BC用于隐私保护节点分类的垂直联邦图神经网络陈超超1,周军1,2,郑龙飞2,吴慧文2,吕玲娟3,吴佳4,吴炳哲5,刘子琪2,王立2,郑晓林1,6,1浙江大学,2蚂蚁集团,3索尼AI,4麦考瑞大学,5北京大学,6JZTData Technology{zjuccc,xlzheng} @ zju.edu.cn,Lingjuan. sony.com,jia. mq.edu.au,wubingzhe@pku.edu.cn,{jun.zhoujun,zlf206411,huiwen.whw,ziqiliu,raymond.wangl} @ antgroup.com摘要图神经网络(GNN)在处理各种实际的图数据任务方面取得了显著的进展。高性能的GNN模型往往依赖于图中丰富的特征和完备的边信息。然而,这样的信息--数据持有者具有相同的节点,但具有不同的要素和边F1F2F3F1 F2 F3F1F2F3信息可能被不同的数据数据持有者数据持有者数据持有者持有人在实践中,这是所谓的数据隔离问题。为了解决这个问题,本文提出了一种垂直联邦图神经网络(Vertically Federated Graph Neur-ral Network,VFGNN),它是一种用于数据垂直划分环境下隐私保护节点分类任务的具体来说,我们将计算图分为两部分。我们保留私有数据(即,特征、边和标签)相关的计算,并将其余的计算委托给半诚实服务器。我们还建议应用差分隐私,以防止潜在的信息泄漏的服务器。我们在三个基准上进行了实验,结果证明了VFGNN的有效性。1介绍图神经网络(GNN)由于其能够在同质和异质图上对高维特征信息和高阶相邻信息进行建模,因此得到了学术界和工业界越来越多的关注[Wuet al. ,2019]。高性能GNN模型的一个重要组成部分是高质量的图形数据,包括丰富的节点特征和完整的相邻信息。然而,在实际应用中,这些信息可能被不同的数据持有者隔离,这就是所谓的数据隔离问题。这种数据隔离问题对人工智能的发展提出了严峻的挑战,成为近年来的研究热点。问题. 图1显示了垂直分区数据设置下的隐私保护节点分类问题这里,我们假设有三个数据持有者(A、B和C),它们通讯作者图1:垂直联邦GNN的问题描述。有四个相同的节点。节点特征被垂直分割,即,有f1,f2和f3,有f4和f5,有f6和f7。与此同时,、、和可能有自己的优势。例如,节点之间具有社交关系,而节点之间具有支付关系 我们还假设 是拥有节点标签的一方。问题是使用A、B和C的图数据构建联邦GNN模型。相关工作。迄今为止,已经提出了许多种隐私保护机器学习模型,例如,logistic回归[Chenet al. ,2021]、决策树[Fangetal. ,2021]和神经网络[Waghet al. ,2019]。还有一些研究GNN中隐私问题的工作,例如, 图发布[Sajadmanesh 和 Gatica-Perez , 2020] , GNN 推 理 [Heetal. , 2020] , 以 及 当 数 据 水 平 分 区 时 的 联 邦 GNN[Zhenget al. ,2021;Wuet al. ,2021]。到目前为止,很少有人研究GNN在数据垂直划分时的问题,这在实践中是普遍存在的。与以前的隐私保护机器学习模型不同,这些模型假设只有样本(节点)由不同的各方持有,并且这些样本没有关系,我们的任务更具挑战性,因为GNN依赖于样本之间的关系,这些样本也由不同的数据持有者保存。天真的解决方案。构建隐私保护GNN的一种直接方法是采用高级加密算法,如同态加密(HE)和安全多方计算(MPC)[Mohassel和Zhang,2017]。这种纯密码方式可以提供高安全性保证,然而,它遭受高计算和通信成本,这限制了它们的效率[Osiaet al. ,2019]。我们的解决方案。相反,我们提出了VFGNN,一个联邦GNN学习范式的隐私保护节点分类任务下的数据垂直分 区 设 置 。 动 机 - vated 由 现 有 的 工 作 在 分 裂 学 习[VepakommaetarXiv:2005.11903v3 [cs.LG] 2022年4月+v:mala2277获取更多论文−M−D →D2 ln(1.25/δ)。第i方发送数据给计算者−iaimod2A.为⟨·⟩al. ,2018;Osiaet al. ,2019;Guet al. ,2018年],我们将GNN的计算图分为两部分,用于隐私和有效性。党一。为了重建Rec(·,·)一个sha_red值,每个缺乏关注,即, 私有数据相关计算由数据持有者和非私人数据相关的公司进行,由一个半诚实的服务员进行的推测。具体而言,数据持有者首先应用MPC技术来协同地使用私有节点特征信息计算GNN的初始层,其充当特征提取器模块,然后单独地使用私有边缘信息执行邻域聚合,类似于前GNN[Vel icko vi c'etal. ,2017],并最终获得本地节点嵌入。接下来,我们为半诚实服务器提出了不同的组合策略,以组合来自数据持有者的本地节点嵌入并生成全局节点嵌入,基于该全局节点嵌入,服务器可以进行连续的非私有数据相关计算,例如,- 对于MPC技术而言耗时的深度网络结构中的非线性最后,服务器将最终隐藏层返回给具有标签的一方,以计算预测和损失。数据持有者和服务器执行前向和反向传播以完成模型训练和预测,在此期间,私有数据(即,特征、边缘和标签)总是由数据持有者自己保存。在这里,我们假设数据持有者是诚实但好奇的,而服务器不是简单地说,我们将加法共享表示为。 此外秘密共享可以由参与者在本地完成Mul-秘密共享中的迭代通常依赖于Beaver2.3差分隐私定义1. (差分隐私[Dwork et al. ,2014])。一种随机算法,其将由个体组成的数据集作为输入,如果对于在单个条目中不同的任何一对相邻数据x,y,以及任何事件E,P[M(x)∈E]≤exp(g)P[M(y)∈E]+δ,(1)如果δ = 0,我们说M是n−差分私有的。在[Dwork et al. ,2014],作者指出,函数f的l2灵敏度测量了单个个体的数据在最坏情况下可以改变函数的幅度。定义2.( 12-敏感性[Dwork et al. ,2014])。假设x和y是相邻的输入,在一个条目中不同 函数f:D →Rd的 l2 - 灵 敏 度 为:与数据持有者勾结我们认为这是一个原因-一个可行的假设,因为服务器可以由当局f= maxx,y∈D,<$x−y<$=1f(x)− f(y)(二)例如政府或被可信执行环境取代[Costan和Devadas,2016]。此外,我们对服务器和数据持有者之间交换的信息采用了差异隐私(例如,本地节点嵌入和梯度更新),以进一步保护潜在的信息泄漏定义3. (高斯机制[Dwork et al. 给定数据集上的函数f:Rd , 高 斯 机 制 定 义为:MG(x,f(·),g)=f(x)+(Y1,···,Yk),(3)从服务器。捐款. 我们将我们的主要贡献总结为:• 我们提出了一种新的VFGNN学习范式,哪里 Yi都是身份证。N(0,σ2<$2f2)和σ=安多姆变量 德罗芒 弗罗姆є不仅可以推广到大多数现有的GNN,而且具有良好的精度和效率。• 我们提出了不同的组合策略,服务器结合本地节点嵌入数据持有人。• 我们在三个真实世界的数据集上评估了我们的建议,结果证明了VFGNN的有效性。2预赛2.1安全模型在本文中,我们假设对手是诚实但好奇(半诚实)。也就是说,数据持有者和服务器严格遵循协议,但他们也使用所有中间计算结果来推断尽可能多的信息。我们还假设服务器不与任何数据持有者勾结。 这种安全设置与大多数现有工作类似[Mohassel和Zhang,2017;Hardy等人,2017年]。,2017]。2.2加法秘密共享加法秘密共享有两个主要过程。 [Shamir,1979年]。为了附加地共享Shr(·),对于方i∈ P={1,.,I},第i方生成{a j∈Z2l,j∈ P,定理1. [Dwork et al. 在定义3中定义的高斯机制为每个迭代步骤保留(Δ,δ)DP。3该模型3.1VFGNN概述如第1节所述,为了隐私和效率,我们通过将GNN的计算图分成两部分来设计垂直联邦GNN(VFGNN)学习范式。也就是说,出于隐私考虑,我们将与私有数据相关的计算保留给数据持有者,并且出于效率考虑,将与非私有数据相关的计算委托给在GNN的上下文中,私有数据指的是节点特征、标签和边(节点关系)。具体来说,我们将计算图分为以下三个子计算图(CG),如图2所示。CG1:私有特征和边缘相关计算。GNN的第一步是使用节点的私有特征生成初始节点嵌入,例如,社交网络中的用户特征在垂直数据分割设置中,每个数据持有者都有部分节点特征,如图1所示。 我们将介绍数据如何ji}均匀随机地发送j到j方,并保持持有者稍后协作地学习初始节点嵌入在ai=a−jajmod2A.我们用ai=ai来表示份额下一步,数据持有者通过以下方式生成局部节点嵌入+v:mala2277获取更多论文F2F5F4初始节点嵌入MPCf4 f5f6 f7初始节点嵌入vvA BC∀∈ VuZvvv0vC3.2生成初始节点嵌入初始节点嵌入通过使用节点特征生成在垂直分区的数据设置下,每个数据持有者具有部分节点特征。数据保持器有两种方法来生成初始节点嵌入,即,如图3所示。“单独”方法意味着数据持有者 对于数据持有者i∈ P,这可以通过以下方式完成:i=(xi)T·Wi,其中xi和Wi是节点特征,图2:我们提出的VFGNN概述。使用不同的方法聚合多跳邻居聚合函数。CG2:非私有数据相关计算。 我们将非私有数据相关的计算委托给一个半诚实的服务器,以提高效率。首先,服务器将来自数据持有者的局部节点嵌入与不同的COM- BINE策略相结合,得到全局节点嵌入。接下来,服务器可以使用明文数据执行连续计算请注意,这部分有许多非线性计算,如最大池和激活函数,这在密码学上并不友好。例如,通过使用需要安全比较的分段函数[Mohassel和Zhang,2017]或高阶多项式[Hardyet al. ,2017]。因此,它们的准确性和效率是有限的。将这些明文计算委托给服务器不仅可以提高我们的模型精度,还可以显著提高我们的模型效率,正如我们将在实验中展 示 的 那 样 。 在 此 之 后 , 服 务 器 获 得 最 终 隐 藏 层(zL),并将其发送回具有标签的数据持有者以计算预测,其中L是深度神经网络的总层数数据持有者的权重矩阵i.如图3(a)中的示例,、和分别使用它们自己的特性生成它们的初始节点嵌入。该方法虽然简单,数据持有者之间不需要通信,但无法捕捉数据持有者特征之间的关系,造成信息丢失。针对“单独”方法的不足它表明数据持有者利用其节点特征协同生成初始节点嵌入,同时保持其私有特征的安全性。从技术上讲,这可以通过使用密码方法来完成,例如秘密共享和同态加密[Acaret al. ,2018]。在本文中,我们选择加性秘密共享,由于其高效率。3.3生成本地节点嵌入我们生成本地节点嵌入,通过使用图上的多跳邻域聚合,基于初始节点嵌入。请注意,邻域聚合应该由数据持有者单独完成,而不是合作完成,以保护私有边缘信息。这是因为,如果邻域聚集通过数据保持来完成,则可以在给定k-hop(hk(i))和k +1-hop(hk+1(i))的邻域聚集结果的情况下推断v的邻域信息。联合。对于每个数据持有者处的v,邻域聚合与传统GNN相同。TakeGraph- SAGE [Hamiltonet al.例如,它引入了aggregator函数,通过从节点的本地邻域采样和聚合特征来更新隐藏嵌入:CG3:私有标签相关计算。拥有标签的数据持有者可以使用最终隐藏的KN(v)←AGGk({hk−1,<$u∈ N(v)}),(四)从服务器接收的层。对于节点分类任务,hk←(Wk·CONCAT(hk−1,hk)),vSoftmax激活函数用于输出层N(v)[Kipf和Welling,2016],定义为softmax(zc)=在这里,我们遵循与GraphSAGE相同的符号,1exp(z c),其中c ∈ C是节点类,Z = n exp(zc).聚合器功能AGG有三种类型,即,Mean、LSTM和Pooling。之后,数据持有者发送本地节点在接下来的章节中,我们将描述三个IM-VFGNN的重要组成部分,即,CG1中的初始节点嵌入生成,CG2中的局部节点嵌入生成,以及CG3中的全局节点嵌入生成。初始节点嵌入F1F3F7F6初始节点嵌入F1F2F3嵌入到半诚实服务器,用于组合和进一步的非私有数据相关计算。3.4生成全局节点嵌入服务器将来自数据持有者的本地节点嵌入组合起来,得到全局节点嵌入。组合策略(COMBINE)应该是可训练的,并保持高的代表性能力,我们设计了其中的三个。Concat. concat操作符可以完全保留本地节点数据保持器数据保持器(a) B.合作(Cooperative从不同的数据持有者那里学习的嵌入。 也就是说,算法2中的14变为图3:生成初始节点嵌入的方法。hK←CONCAT(hK(1),hK(2),., hK(I))。(五)HH+v:mala2277获取更多论文D2ǁ ǁNΣ−√v{ ∈ P}√єⓈ⟨⟩ ∀ ∈ P−vvvv1(d−2)σ2C2016年12月22日2∫算法1使用差分隐私的高斯机制x到exactx的MSE为Ex−x100 =dσ2C2,而James-Stein估计的均方误差为输入:数据持有人的本地信息x,lo的尺寸-校准信息d、噪声乘数σ、限幅值C。以(1−(d−2)2)的因子减少σ2C2w2+σ2C2 )的。 两种冰毒输出:不同的私有节点嵌入。1:缩放局部信息x<$=min(1,C/x)x;2:抽取i.i.d. 样本来自(0,σ2C2),这形成了一个d维噪声向量n;3:#GaussianMechanism4:Addnoisex=xK+n;5:#James-Stein Estimate第六章计算James-Stein估计ods保持了(δ,δ)-DP,而James-Stein估计则减少了均方误差,从而提高了效用。根据高斯机制的定义(定义3),算法1中的两种信息发布机制都存在隐私损失。通过 将 其 与 Moment Accountant ( MA ) 相 结 合[Abadietal. ,2016],我们提出了T迭代的整体隐私。定理3.假设算法1的每次迭代是(δ)DP。存在常数c1和c2,因此,采样概率q和迭代次数T,以及xJS=.1−(d−2)σ2C2X轴2016年12月22日<$c1q<$T,T迭代上的算法1是(δ′,δ)-DP,其中7:retu r nxorxJ S.n′=c2qT.意思 平均运算符取Pr oof. 根据定义3和定理1,为了保证一个迭代,向量(hK(i),i),假设数据持有人,对全局节点嵌入的贡献,即,tion(ε,δ)− DP,我们设置σ=[Abadiet al. ,2016],其中σ =2ln(1. 25/δ)。根据定理1,2ln(1. 25/δ)和适当的єK KK K Kv←MEAN(hv(1)hv(2). (I).(6) 选择t,q,T,使得t h在t <=1q时T隐私的丧失回归分析上述两种策略对待数据持有者在T次迭代中,Tlog(1/δ)=c q<$T。平等地实际上,来自不同数据持有者的局部节点嵌入可能会对全局节点嵌入产生影响。我们提出了一个回归策略来处理这种情况。设ωi是来自数据持有者i∈ P的局部节点嵌入的权向量,则hK←ω1 <$hK(1)+ω2 <$hK(2). +ωIhK(I),(7)σ23.6组建通过结合CG 1-CG 3和上述关键组件,我们完成了VFGNN的前向传播。详细描述程序,但不损失一般性-哪里是元素乘法这些不同的组合算子可以以不同的方式利用局部节点嵌入,我们将在实验中实证研究它们对模型性能的影响。3.5 通过采用DP数据持有者直接发送本地信息,例如, 当地并在算法2中给出了它的前向传播过程。VFGNN可以通过梯度下降来学习,通过最小化所有标记的训练样本上的交叉熵误差。具体来说,VFGNN的模型权重分为四个部分。(1)初始节点嵌入的权重,即,Wi,i,由数据持有者秘密共享,(2)图上邻域聚集的权重,即,WK,前向传播期间的节点嵌入和反向传播期间的梯度更新可能导致潜在的信息泄漏[Lyuet al. #20200;,而我们的?也由数据持有者保存,(3)深度神经网络的den层,即,由服务器保存,(4)和我重量为隐藏-Wl,0≤l L,提出应用差异隐私以进一步增强隐私。在本节中,我们将介绍两种基于DP的数据发布输出图层深度神经网络,即, WL,由数据机制,以进一步提高我们提出的VFGNN的隐私。使得在数据持有者的本地信息中的单个条目修改的情况下,服务器很有可能无法区分修改之前或之后的差异我们提出了两种机制,即,算法1中的高斯机制和James-Stein估计。我们已经在2.3节中描述了高斯机制,我们给出了James-Stein估计如下。定理2.( James-Stein估计及其适应性[Balle和Wang,2018])。设d是局部信息x的维数。 当d≥3时,将x ∈B中的w代入x∈ B中,则在x ∈B下用其极大似然估计表示 N(0,w2I),X轴 |x<$N ( x , σ2C 2I ) , 且 x<$Bayes=.argminxx−x2James-Stein估计=x100。JS此外,它的均方误差(MSE)为首先,我们采用GraphSAGE [Hamiltonet al. ,2017]例如√2+v:mala2277获取更多论文有标签的人。可以看出,在VFGNN中,私有数据和模型都由数据持有者自己持有,因此可以更好地保证数据隐私。4实验我们进行实验来回答以下问题。Q1:VFGNN是否优于在孤立数据上训练的GNN模型。Q2:VFGNN与传统的基于明文混合数据训练的不安全模型相比表现如何?问题3:与第1节中的朴素解决方案相比,VFGNN如何执行。我们提出的组合策略对VFGNN有效吗?Q5:数据持有者的数量对VFGNN有什么影响Q6:差异隐私对VFGNN的影响是什么4.1实验装置E[x<$JS−x<$2]=dσ1− (d−2)2D2σ2C2w2+σ2C2,。(八)数据集。我们使用四个基准数据集,即,Cora,Pubmed,Citeseer [Sen et al. ,2008]和arXiv [Hu et al. 、+v:mala2277获取更多论文v我∈ Pu∈ V{−}{−}v联系我们··−AB∞ABABABABABvABvvvvvv联系我们算法2用于节点标签预测的隐私保护GraphSAGE(前向传播)输入:数据保持器i∈ P;图G(V,Ei)和节点特征{xi,v ∈ V};深度K;聚合函数AGG k,k∈{1,.,};重量 矩阵Wk,Wk∈{1,.,}; Max层 L; 重量 矩阵W1,W2{0,.,L};非线性σ;邻域函数Ni∈:表1:数据集统计。数据集Cora Pubmed Citeseer arXivv→2V;数据保持器p∈ P和c∈C上的节点标签输出:节点标签预测{y∈vc,y ∈v∈V,y ∈c∈C}图形SAGEA0.611 0.672 0.541 0.4711:#CG1:私有特征和边缘相关计算2:数据持有者:共同计算初始节点嵌入h0(i)<$xi,<$i∈ P,<$v∈ V图形SAGEB0.606 0.703 0.457 0.482VFGNN C0.790 0.774 0.685 0.513VFGNN M0.809 0.781 0.695 0.522VFGNN R0.802 0.782 0.6930.5183:foriin parallel做4:对于k= 1至K,5:对于v∈ V,做k6:数据保持器:计算hN(v)(i)←AGGk({hk−1(i),<$u∈ Ni(v)})图形SAGEA+B0.815 0.791 0.700 0.529表2:三个数据集(Q1和Q2)的比较结果。隐藏层的活动功能。对于服务器上的深度神经网络,我们将dropout rate设置为0.5,网络结构为7:结束kk真实为(d,d,|C|),其中d∈ {32,64,128}是维数。8:数据保持器:计算hv(i)←σ(Wi·CONCAT(hk−1(i),hk(v)(i))N节点嵌入和|C|最小的阶级我们变<$∈ {1,2,4,8,16,32,64,∞},设δ= 1e−4,v9:结束限幅值C= 1,以研究差异隐私的影响10:数据持有者:计算 当地 节点嵌入hK(i)←hK(i)||hK(i)||2,n∈V,sends(pub-我们的模型。 由于我们有很多比较和消融模型,他们实现了最佳性能与不同的-lishes)它到服务器使用差异隐私11:结束12:#CG2:非私有数据相关计算13:forvdo14: 服务器:组合来自数据保持器的本地节点嵌入hK=COMBINE(hK(i),i)15:服务器:基于全局节点的嵌入zL=σ(WL1σ(.σ(W0hK)16:服务器:将zL发送到数据持有者p17:结束18:#CG3:私有标签相关计算输入参数,我们不能报告所有最佳参数。相反,我们报告最佳参数的范围。我们改变传播深度K2,3,4,5,L2正则化10−210−4,学习率为10−210−3。我们根据验证数据集调整参数并评估模型测试数据集上的性能。4.2比较结果和分析为了回答Q1-Q3,我们假设有两个数据持有者(A和B),它们具有相等数量的节点特征和边,即,由A和B持有的数据的比例是5:5,并且19:数据持有人p:makes预测由yvc←将我们的模型与在上面训练的GraphSAGE进行softmax(WL·zL),nv∈ V,nc∈C2020年]。我们使用与先前工作完全相同的训练,验证和 测 试 数 据 集 分 区 [Kipf 和 Welling , 2016;Huet al. ,2020]。此外,在数据隔离的GNN设置中,节点特征和边都由不同方持有。对于所有的实验,我们使用五折交叉验证,并采用平均准确度作为评估指标。比较方法。我们将VFGNN与Graph-SAGE模型进行比较[Hamiltonet al. ,2017],其使用隔离数据和混合明文数据来训练以回答Q1和Q2。我们还将VFGNN与第1节中描述的朴素解决方案进行了比较,以回答Q3。为了回答Q4,我们改变和所持有的数据(特征和边缘)的比例,并使用不同的组合策略改变VFGNN。我们改变VFGNN中数据持有者的数量来回答Q5,并改变差异隐私的参数来回答Q6。对于所有这些模型,我们选择均值算子作为聚集函数.参数设置。对于所有模型,我们使用TanH作为邻居传播的活动函数,并使用Sigmoid作为单独隔离的数据和混合的明文数据。我们还在比较过程中设置了=,稍后将研究其效果。我们在表2中总结了结果,其中VFGNN C,VFGNN M和VFGNN R表示具有Concat,Mean和Regression组合策略的VFGNN。结果1:回答问题1。我们首先将VFGNN与在孤立特征和边缘数据上训练的GraphSAGE进行比较,即,GraphSAGE和GraphSAGE。从表2中,我们发现,具有不同组合策略的VFGNN在所有三个数据集上的表现都显着优于GraphSAGE以Citeseer为例,我们的VFGNN R在准确性方面将GraphSAGE和GraphSAGE提高了28.10%和51.64%。结果分析1。结果1的原因是直接的。 GraphSAGE和GraphSAGE只能使用由和保存的部分特征和边缘信息。 相反,VFGNN提供了一种解决方案,用于联合训练GNN,而不会损害它们自己的数据。通过这样做,VFGNN可以同时使用来自A和B的数据的信息,从而实现更好的性能。结果2:回答问题2。然后,我们将VFGNNs与在混合明文上训练的数据集#节点#Edge#特性#类科拉2,7085,4291,4337PubMed19,71744,3385003CiteSeer3,3274,7323,7036arXiv169,3432,315,59812840+v:mala2277获取更多论文A B {}关于我们ABA BABABAB{}型号VFGNN C VFGNN M VFGNN R比例= 9:1 0.809 0.805 0.809比例= 8:2 0.802 0.796 0.807比例= 0.793 0.793 0.803表3:通过改变A和B(Q4)持有的数据比例,比较Cora上的组合运算符。号VFGNN C VFGNN M VFGNN R 2 0.790 0.8090.8023 0.749 0.7744 0.712 0.733 0.722表4:通过改变数据持有者数量(Q5)对Cora的比较结果。数据,即, GraphS A G EA+B. 从Ta可以看出,4816 32 64高斯0.502 0.702 0.772 0.789 0.79411.詹姆斯-斯坦表5:使用Cora数据集(Q6)的DP对VFGNN的影响和边缘)保持和9分1秒8分2秒7分3秒Cora数据集的结果见表3。结果分析4。从表3中,我们发现,和是均匀的,即, 从9:1到7:3,大多数策略的绩效都有下降的趋势。这是因为邻居聚合是由数据持有者单独完成的,并且由于单个持有者持有的数据比例更大此外,我们还发现,当数据均匀分裂时,Mean算子效果良好,表2VFGNN与GraphSAGE+ , 例 如 , Cora 数 据 集 为 0.8090 vs.0.8150,Citeseer数据集为0.6950 vs. 0.7001。结果分析2。很容易解释为什么我们的建议与在混合明文数据上训练的模型具有相当的性能。首先,我们提出了一个基于秘密共享的协议,并从它们的节点特征生成初始节点嵌入,这与使用混合明文特征生成的初始节点嵌入相同。其次,虽然和通过使用它们自己的边缘数据单独进行邻居聚合来生成本地节点嵌入(出于安全考虑),但是我们提出了不同的组合策略来组合它们的本地节点嵌入。最后,将两者的边缘信息用于训练分类模型.因此,VFGNN实现了比较,GraphSA GEA+B性能稳定。结果3:回答问题3。在VFGNN中,我们将与非私有数据相关的计算委托给服务器.人们会好奇,如果这些计算也由数据持有者使用现有的安全神经网络原型来执行,即,SecureML[Mohassel和Zhang,2017]。为了回答这个问题,我们将VFGNN与使用SecureML实现的安全GNN模型进行比较,我们称之为SecureGNN,其中我们使用3度泰勒展开来近似TanH和Sigmoid。在Pubmed上,VFGNN与SecureGNN的准确度和每个历元的运行时间( 以 秒 为 单 位 ) 分 别 为 0.8090 与 0.7970 和 18.65 与166.81,其中我们使用局域网。结果分析3。从上述比较结果中,我们发现我们提出的VFGNN学习范式不仅实现了更好的准确性,而且具有更好的效率。这是因为与非私有数据相关的计算涉及许多非线性函数,这些非线性函数在密码学上不友好,必须使用SecureML中耗时的MPC技术近似计算4.3消融研究我们现在研究不同的组合算子和不同数量的数据持有人对VFGNN的影响。结果4:回答问题4。 不同的组合算子可以以不同的方式利用局部节点嵌入,并使我们提出的VFGNN适应不同的场景,我们通过改变比例(Prop.)数据(节点要素回归算子擅长处理数据持有者具有不同数据量的情况,因为它不同地对待来自每个数据持有者的局部节点嵌入,并智能地为它们分配权重。结果5:回答问题5。我们在2,3,4中改变数据持有者的数量,并研究VFGNN的性能。我们在表4中报告了结果,其中我们使用Cora数据集并假设数据持有者具有均匀的特征和边缘数据。结果分析 从表4中,我们发现,随着数据持有者数量的增加,所有模型的准确性都会降低。这是因为出于隐私考虑,VFGNN中的邻域聚合由每个持有者单独完成,并且当存在更多数据持有者时,每个数据持有者将具有更少的边缘数据,因为它们均匀地分割原始边缘信息。因此,当涉及更多的参与者时,在邻居聚集过程期间将丢失更多的信息。结果6:回答问题6。 我们在表5中给出了每次迭代的隐私损失,在定理3中给出了总体隐私损失。我们改变δ,并设置δ= 1e−4来研究DP对VFGNN的影响。我们在表5中报告了结果,其中我们使用Cora数据集,使用MEAN作为组合运算符,并假设数据保持器具有均匀的特征和边缘数据。结果分析6。从表5中可以看出,VFGNN的准确度随Δ T的增加而增加。 换句话说,在准确性和隐私性之间存在权衡。节点数越小,局部节点嵌入的噪声越多,隐私保证越强,但准确性较低。我们还发现James-Stein估计器始终比高斯机制更好,因为它可以降低MSE,正如我们在第3.5节中分析的那样。5结论我们提出了VFGNN,一个垂直联邦GNN学习范式的隐私保护节点分类任务。我们通过分裂GNN的计算图来完成这一点。我们将与私有数据相关的计算留给数据持有者,并将其余计算委托给服务器。在真实世界数据集上的实验表明,该模型在使用孤立数据时的性能明显优于GNN,在使用混合明文数据时的性能与传统GNN相当。+v:mala2277获取更多论文确认本工作得到国家自然科学基金项目(No.62172362)和浙江省“领头雁”研究发展计划项目(No.20000000)的部分资助2022C01126)。引用[Abadi et al. Martin Abadi , Andy Chu , Ian Goodfel-low , H Brendan McMahan , Ilya Mironov , KunalTalwar,and Li Zhang.深度学习与差分隐私见CCS,第308-318页。ACM,2016.[Acar et al. Abbas Acar , Hidayet Aksu , A SelcukUluagac,and Mauro Conti.同态加密方案综述:理论与实现。ACM计算调查(CSUR),51(4):79,2018。[Balle和Wang,2018] Borja Balle和Yu-Xiang Wang。改进差分概率的高斯机制:分析校准和最佳去噪。arXiv预印本arXiv:1805.06530,2018。唐纳德·比弗使用电路随机化的有效多方原型。在年度国际密码学会议上,第420-432页。Springer,1991年。[Bonawitz et al. Keith Bonawitz , Hubert Eichner ,WolfgangGrieskamp,DzmitryHuba,AlexIngerman , VladimirIvanov , ChloeKiddon,JakubKonecny`, StefanoMazzocchi , HBrendanMcMahan 等 人 。 arXiv 预 印 本 arXiv : 1902.01046 ,2019。[Chen et al. Chaochao Chen,Jun Zhou,Li Wang,XibinWu , Wenjing Fang , Jin Tan , Lei Wang , Alex X.刘,王浩,程红。当同态加密与秘密共享结合时:安全的大规模稀疏逻辑回归及其在风险控制中的应用。在SIGKDD中,第2652-2662页。ACM,2021年。[Chi et al. , 2018] Jianfeng Chi , Emmanuel Owusu ,Xuwang Yin , Tong Yu , William Chan , PatrickTague,and Yuan Tian.隐私划分:在深度学习推理阶段保护用户数据。arXiv预印本arXiv:1812.02863,2018。[科斯坦和Devadas,2016]维克多·科斯坦和斯里尼瓦斯·德-瓦达斯。英特尔SGX解释说。IACR CryptologyePrint Archive,2016(086):1[Dwork et al. Cynthia Dwork , Aaron Roth , et al. Thealgorithmicfoundationsofdifferentialprivacy.FoundationsandTrendsinTheoreticalComputerScience,9(3- 4):211[Fang et al. 方文静,赵德润,谭金,陈朝朝,于超凡,王力,王磊,周军,张本宇用于垂直联邦学习的大规模 安全 XGB 见CIKM , 第 443-452 页 。ACM , 2021年。[Gu et al. Zhongshu Gu,Heqing Huang,Jialong Zhang,Dong Su,Ankita Lamba,Dimitrios Pendarakis,andIan Molloy.通过分区飞地执行保护深度学习推理系统的 输 入 数 据 。 arXiv 预 印 本 arXiv : 1807.00969 ,2018。[Hamilton et al. 2017] Will Hamilton,Zhitao Ying,andJure Leskovec.大图上的归纳表示学习。在NeurIPS,第1024-1034页[Hardy et al. Stephen Hardy , Wilko Henecka , HamishIvey-Law,Richard Nock,Giorgio Patrini,Guil-laumeSmith,and Brian Thorne.通过实体解析和加法同态加密对垂直分区数据进行私有联邦arXiv预印本arXiv:1711.10677,2017。[He et al. , 2020] Xinlei He , Jinyuan Jia , MichaelBackes,Neil Zhenqiang Gong,and Yang Zhang. 从图神 经 网 络 中 窃 取 链 接 。 arXiv 预 印 本 arXiv :2005.02131,2020。[Hu et al. Weihua Hu,Matthias Fey,Marinka Zit- nik,Yuxiao Dong , Hongyu Ren , Bowen Liu , MicheleCatasta,and Jure Leskovec. Open graph benchmark:用 于 图 上 机 器 学 习 的 数 据 集arXiv 预 印 本 arXiv :2005.00687,2020。[Kipf and Welling , 2016] Thomas N Kipf and MaxWelling.图 卷 积 网 络 的 半 监 督 分 类 。 arXiv 预 印 本arXiv:1609.02907,2016。[Kone cny`etal. JakubKonecny` , HBrendanMcMa- han ,FelixXYu , PeterRichta' rik , AnandaTheerthaSuresh ,and Dave Bacon.联邦学习:提高沟通效率的策略。arXiv预印本arXiv:1610.05492,2016年。[Li et al. 李莉,范玉喜,谢伟忠,林国义。联邦学习的应用综述计算机工业工程,第106854页,2020年。[Lyu et al. Lingjuan Lyu,Han Yu,Jun Zhao,and QiangYang.对联邦学习的威胁。在联邦学习,第3-16页。斯普林格,2020年。[Mohassel and Zhang , 2017] Payman Mohassel andYupeng Zhang. Secureml:一个可扩展的隐私保护机器学习系统。在S P,第19-38页[Osia et al. Seyed Ali
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功