GradViT：基于梯度的反转攻击下的视觉转换器脆弱性分析

85 浏览量更新于2023-10-25 收藏 1.36MB PDF 举报

参数服务器

全局模型

身份认证购VIP最低享 7 折!

30元优惠券

10021梯度更新参数服务器GradViT全局模型Vision Transformer梯度反转（恢复）1ˆˆGradViT：视觉转换器Ali Hatamizadehx，Hongxu Yinx，Holger Roth，Wenqi Li，Jan Kautz，Daguang Xu：，and PavloMolchanov：Nvidia{ahatamizadeh，dannyy，hroth，wenqil，jkautz，daguangx，pmolchanov} @ nvidia.com摘要在这项工作中，我们展示了视觉变压器（ViTs）的脆弱性，基于梯度的反转攻击。在这种攻击过程中，原始数据批被重建给定的模型权重和相应的梯度。我们介绍了一种方法，名为GradViT，通过迭代过程将随机优化目标包括：（i）在匹配工人培训数据（私人）梯度，（ii）图像先验，以预训练CNN模型的批量归一化统计数据的距离的形式，以及（iii）补丁上的总变差正则化，以指导正确的恢复位置。我们提出了一个独特的损失调度函数，以克服局部极小值在优化过程中。我们在ImageNet 1 K和MS-Celeb-1 M数据集上评估了GadViT在分析过程中，我们发现，由于注意力机制的存在，视觉转换器比以前研究的CNN我们的方法在定性和定量指标上展示了梯度反演的最新结果。项目页面https://gradvit.github.io/。1. 介绍视觉变换器（ViTs）[8]在许多视觉任务中实现了最先进的性能，例如图像分类[39]，对象检测[6]和语义分割[5]。在基于ViT的模型中，视觉特征被分割成补丁并投影到嵌入空间中。一系列重复的Transformer编码器层，由交替的多头自注意（MSA）和多层感知器（MLP）块组成，从嵌入的令牌中提取特征表示，用于下游任务（例如，分类）。最近的研究已经证明了ViT在学习统一的局部和全局空间依赖性方面的有效性[31]。此外，ViTs还具有同等的贡献。平等的建议。(a) 从视觉Transformer梯度恢复数据揭示了复杂的细节。原始梯度恢复GradInv. [37]（RN-50）GradInv. [37]（ViT）GradViT（VIT）-我们的(b) GradViT在8号批次内的实例中明显优于现有技术。图1.反转梯度图像恢复。我们展示了视觉Transformer梯度编码令人惊讶的信息量，以便可以恢复高分辨率的高保真原始图像批次，参见上面的112 112像素MS-Celeb-1 M和224 224像素ImageNet 1 K样本恢复以及更多实验。我们的方法，GradViT，产生第一次成功的尝试，反转ViT梯度，以前的国家的最先进的方法无法实现我们证明，尽管缺乏batchnorm层，但与CNN相比，ViTs遭受了更多的数据泄漏作为见解，我们表明，ViT梯度（i）编码不均匀的原始信息跨层，（ii）注意力是所有揭示。学习文本前任务的能力，并且可以针对分布式、协作式或联合学习场景进行扩展。在这项工作中，我们研究的脆弱性共享ViT最近的努力[9，37，43]已经证明了卷积神经网络（CNN）对基于梯度的反转攻击的可扩展性。在这种攻击中，恶意方可以拦截局部模型梯度，并通过匹配受损的梯度来重建基于优化的方案中的私有训练数据大多数方法限于小图像分辨率或非线性约束，10022问题的难度。其中，GradInversion [37]首次成功地在大批量的大型数据集上将梯度反演扩展到深度网络。除梯度匹配外，GradInversion [37]还被约束到具有批量归一化层的模型，以匹配特征分布并为重建图像带来自然性然而，视觉变换器缺乏BN层，并且不太容易受到先前提出的反转方法的影响。由于架构的固有差异，天真地将基于CNN的梯度匹配[9，37]技术应用于ViT反演会导致次优图1比较了通过在CNN和ViT模型上应用当前最先进的方法GradInversion [37]获得的重建结果。当反转ViT梯度时，我们清楚地看到视觉质量显著下降由于基于ViT的模型具有不同的架构，在图像块上操作，并且不包含CNN对应物中的BN，因此可以假设它们对于基于梯度的反转攻击更安全与这一假设相反，在这项工作中，我们定量和定性地证明了基于ViT的模型比CNN更可靠为了证明这一点，我们首先研究了ViT的架构差异带来的挑战1）。具体来说，在GradViT中，我们通过使用独立训练的CNN来匹配自然图像和优化图像的特征分布来解决BN统计的缺失问题我们使用ResNet- 50模型，该模型使用对比度损失及其相关的BN统计作为图像先验。也就是说，另一个模型可以用作图像先验，而不是精确的BN统计及其相应的更新。此外，我们发现，拟议的图像先验推广到看不见的领域（如。（脸）这使它具有普遍性。此外，虽然基于梯度的优化攻击可以导致补丁的合法重建，但它们的相对位置很可能是不正确的。这是由于ViT中缺乏归纳图像偏差和置换不变性。为了解决这个问题，我们提出了一个补丁先验损失，最大限度地减少补丁之间的边缘的总像素距离。换句话说，我们在共享边界上实施空间约束（即，垂直和水平），因为我们预期它们之间没有显著同时最小化所有三种损失会导致次优解决方案。因此，我们提出了一个量身定制的调度器来平衡训练过程中每个损失的贡献，这对于实现有效的图像恢复至关重要。我们验证了GradViT在各种基于ViT的模型中对不断变化的数据集的有效性。我们从ImageNet1K数据集[7]的训练图像的批量重建开始，给出了广泛使用的ViT网络。作品（例如、ViT-B/16、32、ViT-S、ViT-T、DeiT等）作为基础网络。我们的研究结果表明，新的国家的最先进的基准方面的图像重建指标。此外，我们证明了通过MS-Celeb-1 M数据集[11]的基于ViT的模型[42]的梯度反演来详细重新制作面部图像我们的研究结果证明了基于ViT的模型对梯度反转攻击的脆弱性，特别是对于具有人类训练数据的敏感有了这些问题，我们进行了广泛的研究，分析脆弱性的来源，在ViTs通过调查两个层明智的和组件明智的贡献。我们的研究结果为开发针对此类攻击的保护机制提供了见解，这对于保护多节点训练或联合学习等应用程序中的ViT分布式训练是有益的[14，25]。我们的主要贡献总结如下：• 我们提出GradViT，ViT梯度反演的第一次成功尝试，其中随机噪声被优化以匹配共享梯度。• 我们引入了一种基于CNN的图像先验，该CNN使用对比度损失进行训练，并显示了跨域的可扩展性。• 我们阐明了损失调度计划，以指导优化，次优的解决方案。• 我们制定了一个补丁先验损失函数量身定制的ViT反演，减轻补丁置换不变性的重建图像中的问题。• 我们在ImageNet 1 K [7]和MS-Celeb-1 M [11]数据集上为多个基于ViT的网络设置了ViT梯度反演的最先进基准。我们的方法恢复高分辨率的面部特征与最复杂的细节。• 我们研究了脆弱性的ViT组件进行逐层和组件的分析。我们的研究结果表明，更深层次的梯度是更多的信息，和MSA梯度产生近乎完美的投入回收。2. 相关工作图像合成。从神经网络合成图像一直是视觉的一个长期重要主题，生成模型[10，17，27，29，40]处于前沿并产生最先进的保真度。然而，并不是所有的网络都像GAN那样在目标域上进行预训练时具有图像合成能力，因此迫切需要替代方法来从正常训练的网络生成自然图像。为此，一个工作流通过分析中间表示来可视化预训练的网络[23，24，29，30]，而最近的方法流通过辅助生成网络[3，19，21，22]或网络从训练的网络合成自然图像功反转 [2、28、32、38]。取得快速进展10023...磁头误差恢复...反向传播ResNet50（固定）PLp qp qL RR我i、j图像先验目标模型G radViT补丁先验梯度损失这使得能够使用更高分辨率的图像从更常用的网络（例如 ResNet-18 ）重建输入训练数据（例如，ImageNet），但它只产生一个单一的形象。Yin等[37]介绍了GradInversion模型，该模型将攻击扩展到更大的小批量，具有来自深度 ResNet-50 网络的高分辨率ImageNet样本。除了梯度匹配之外，GradInversion还提出匹配从合成输入图像生成的批量归一化层的运行均值和方差的分布，并通过多代理组一致性进行增强。考虑到基于CNN的架构中批量归一化的普遍性以及运行统计中的相关强先验，GradInversion显著提高了重建图像的保真度。尽管最近的生成先验增强[15]和理论见解[16]，梯度反转攻击仍然只对CNN有效，关键假设在ViTs中不存在。3. GradViT接下来，我们详细描述我们提出的方法。图2示出了GradViT框架的概述。我们的反演任务被制定为一个优化问题。图2. GradViT通过梯度匹配和图像先验网络重建原始训练数据。合成图像的批量统计与先验网络的BN运行统计相匹配，以提高保真度。损失调度器平衡先前网络的训练与梯度匹配，以避免优化期间的局部最小值。我们还提出了一个补丁前总变差损失正则化补丁的位置GradViT是Giv en随机初始化的输入张量RNHWC（N，H，W，C是批量大小，高度，宽度和通道数）和一个目标网络，权重W和梯度更新W在一个小批量上平均，GradViT通过以下优化恢复原始图像批次：xx能够在多达30个图像的转换中进行大批量梯度转换。x（一）Field已经显示出在具有高图像分辨率的大规模数据集上从深网反转出高保真度图像的完全可行性然而，所有上述方法都只揭示了图像级的分布先验，而不是图像级的私人视觉特征，从而带来隐私问题。梯度反演早期的工作[26，34]调查了成员攻击的可能性，并通过利用共享梯度来推断私有训练数据的属性。在这些成员资格攻击之后，Wang等人。[36]尝试使用基于GAN的重建模型从客户端的私有数据池重建一个图像。这项工作仅针对低分辨率图像和非常浅的攻击网络进行评估此外，Zhuet al. [43]通过匹配可训练输入的梯度，成功地展示了联合图像和标签恢复与之前的努力相反，这项工作使用了相对更深的CNN架构[20]，然而它仍然限于低分辨率图像（例如，其中grad是梯度匹配损失，image和aux是图像先验和辅助正则化。 Tt和Tt表示在每个训练迭代t处平衡对总损耗的贡献的损耗调度器函数。我们以迭代的方式解决所提出的优化问题。grad作为一个主要的力量，以减少共享模型损失提高了恢复图像的保真度3.1. 梯度匹配梯度匹配依赖于有效的目标标签，用于模拟给定合成输入的梯度。类似于[37]，我们首先通过分类头中梯度的负号迹线恢复标签，从而得到批量大小为N的标签集y=y“CIFAR10）具有单个训练小批量并且不能处理非连续激活函数（例如，ReLU）。Geiping等人[9]使用余弦相似性损失函数来匹配梯度符号来缓解此问题。因此，在本发明中，其中，RNN（CLS）表示ViT的分类头的梯度，并且xx和yx分别表示原始训练图像和标签。一旦标签被恢复，来自合成的损失调度程序...头误差私人.反向传播..参数：参数（），gradients（）BN令牌化令牌化Transform er块Transform er块Transform er块Transform er块Transform er块Transform er块Transform er块Transform er块10024ÿLpqLloooooooonp q p qLl，BN“ˆˆ´1LPl，BN输入和共享梯度最小化，根据Lgra dpx;Wq“||Wpl qLpxLWplqLpxx，yxq||第二条、第三条给定批次梯度哪里基于网络的每一层l中的合成输入x_i和恢复的标签y_i来计算W p l q x_i，y_i。3.2. 图像先验作为引导优化过程实现图像自然度的图像先验对应物，我们研究了辅助网络，如CNN，以施加图像先验。在本文中，我们使用经过自我监督训练的MOCOV2 ResNet-50通过递归损失[4，12]来完成这项任务，我们观察到不同领域的规模。更具体地说，当通过网络传递合成输入时，我们使用Gi表示以下各项的分批平均值µlx和方差σ2x在层l处的合成输入，最小化随后的图像先验损失R imag epxq“||2`||2`αgrad和αimage分别表示梯度和BN匹配比例因子。我们观察到这种时间安排是有效恢复的关键，如后面的消融所示。3.4. 辅助正则化我们还探索了一套广泛的辅助图像先验来管理图像保真度。我们的辅助正则化损失包括（i）一个新的补丁先验损失，以正则化重建补丁的变异排序，（ii）配准损失，以确保不同优化种子的最终重建之间的一致性，以及（iii）图像先验损失，以提高图像质量：Rau xpxq“α 1 R patc h p x q ` α 2 R r e g p x q ` α 3 R prio r p x q.（7）我们接下来详细说明每一个损失术语。3.4.1补丁优先级与典型的基于CNN的网络相反，基于ViT的模型是置换不变的，并且缺乏固有的归纳图像偏差。用于ViT中特征提取的基于补丁的策略在我们的GradViT中的反演过程中表现得非常明显，如以下几种排列：ÿ||σ2pxˆq´σ2LQ||二、（四）相同的重构片组可以同样地满足最小化过程。因此，重建的图像遭受不正确的补丁顺序。其中μ 1、BN和σ2表示跨层11、2、.的CNN先验的运行均值和方差，L.通过调整批处理和运行统计数据，损失显著增强了图像保真度和视觉真实性，如我们稍后所示。3.3. 损失平衡损失对于ViT梯度反演产生有效恢复至关重要。在早期训练阶段，梯度损失对合成输入的逐像素值的突然变化非常敏感。其结果是，我们观察到一个早期阶段的梯度和图像先验损失的最小化结果收敛到次优解。作为补救措施，我们激活图像之前的损失后，为了缓解这个问题，我们提出了一个新的补丁先验损失，强制相邻补丁的水平和垂直关节之间的相似性其主要思想是，即使图像令牌被视为单独的实体时，输入到变压器学习注意力，其相关的补丁是由自然空间结合-他们必须形成一个单一的图像时，放在一起。因此，相邻块边缘之间的像素值应在相似的范围内，并且突变应受到惩罚。假设斑块大小为PP从图像H W，我们的补丁先验规则化相邻补丁的空间定位，HP训练的前半部分，其中合成的输入接近于梯度损失的最佳值然后，我们将梯度损失的贡献减少到一半，以允许更有效的先验提取。对于总共T次训练迭代，损失估计器rptq和rptqRpatchpxqkW′ 1k}xr：，Pük，：，：s′xr：，Pük′1，：，：s}2`}xr：，：，Pük，：s′xr：，：，Pük′1，：s}2.（八）在迭代t处，定义为p q“、（五）我们的消融研究证明了修补先验损失在增强重建Γt1α2Tătď补丁.换句话说，强制面片边界2级2Tp q“图像2不（六）.在颜色上要平滑，间接地迫使优化器重新分发补丁，以便可以进一步恢复损失。α2Tătďduced。10025“xS“ˆˆˆ1”||ř3.4.2登记在所提出的框架中，重建图像的最终解取决于优化初始化（即，随机选择的种子）。结果，可以产生具有不同图像语义和视点的重建。由Yinet al启发。[37]，我们还通过将它们与所有优化的共识解决方案对齐来正则化不同种子的重建。考虑到xsx1，x2，.，xs表示每轮优化的所有可行解，我们首先计算一个共识解xm1xS溶液。我们执行初始粗对准，通过使用基于RANSAC-Flow的图像对齐策略[33]，对于每个解，以xm为目标，并通过对所有重新分配的输入进行平均来获得最终的一致解xC，如4.2. 评估指标为了使我们的比较全面，我们在整个实验中报告定量测量以及定性结果。我们采用常用的图像质量指标，包括（i）峰值信噪比（PSNR），（ii）学习感知图像块相似性（LPIPS ）[41] 和（iii ）傅立叶空间（FFT2D）中的余弦相似性来衡量图像恢复与原始对应物之间的相似性。4.3. 实现细节我们探索 ViT [8] 和 DeiT [35] 模型的不同变体。MOCO V2-预训练的ResNet-50模型[4，12]用于所有CNN实验，作为GradViT中图像先验的基础。对于MS-Celeb-1 M数据集，我们使用FaceTransformer [42]，这是一个修改后的ViT模型。我们使用Adam优化器[18]，初始学习率为0。1，用于120K次迭代和余弦学习x100℃1F|S|sxsxm pxsq，（9）速率衰减对于所有的实验，我们使用NVIDIA DGX-1服务器，仅利用其中，Fxx是用于映射源的流函数共享梯度，使用8的最小批量大小，除非规范-SM候选.我们最小化2否则。我们使用αgrad“4 <$10 <$3，α image“2 <$10 <$1，xstotar getxmℓα ““Rr egpxq“||x'xC||二、（十）3.4.3额外优先作为最后一步，我们利用额外的传统图像先验损失[38]，包括T2和总变差，以提高重建损失的质量，如：Rprio rpxq“R 2 p x q ` R T V p x q。（十一）在这个阶段，所有三个图像正则化项使用等式中的缩放常数α1，2，3来平衡。7，然后求和为用于输入更新的梯度匹配和图像先验损失。4. 实验4.1. 数据集接下来，我们在ImageNet 1 K [7]和MS-Celeb-1 M数据集[11]上验证了我们的方法分别用于图像分类和人脸识别任务的有效性除了将ImageNet1K作为广泛采用的基准测试任务外，还选择后者来证明具有相当大安全问题的敏感域的梯度反演数据泄漏风险。对于ImageNet 1 K实验，我们使用分辨率为224 224 px的图像，而在[42]的网络输入要求中，我们将MS-Celeb-1 M图像调整为112 112 px。损失函数中的系数。根据所提出的损失调度程序，如第节所述。3.3，我们首先开始优化过程，只有梯度匹配损失60K次迭代，然后将αgrad降低到2 10′ 3，同时增加图像先验损失。5. 结果5.1. ImageNet1K表1给出了我们的方法与ImageNet1K上批量梯度反演的最新基准之间的定量比较，图1给出了我们的方法与最新基准之间的定量比较。3描述了我们的主要定性结果。GradViT用于将ViT和DeiT模型的变体转化使用Grad-ViT的ViT-B/16的梯度反演重建优于先前最先进的基准（即，，ResNet-50 with GradInversion）在所有图像质量指标方面都大幅提升。将GradInversion应用于ViTs导致不令人满意的结果。GradViT首次实现了对原始图像的可行、完整的恢复。更令人惊讶的是，它产生了前所未有的图像真实感和复杂的原始细节，甚至超过了使用CNN定制的GradIn版本的ResNet-50的最佳恢复。这为ImageNet 1K上的梯度反演设定了新的基准。5.2. MS-Celeb-1M图图4显示了GradViT在FaceTrans- former上的性能[42]。我们观察到GradViT恢复了大量的原始信息，包括面部，头发，衣服-关于最终协商一致解决办法的所有解决办法2310026L` RGradInversion（CVPR梯度反演法网络图像重建的若干考虑PSNR FFT 2DPSNRLPIPSPSNR 类型需要原始标签gan基随机噪声-1 .一、3510的情况。7069 .第九条。964-没有没有[17]第十七话BigGAN [1]10个。1490的情况。2750的情况。722CNN是的是的DeepInversion [38]ResNet-50 [1]10个。1310的情况。2380的情况。728CNN是的没有深度梯度泄漏[43]ResNet-50 [1]10个。2521 .一、3190的情况。602CNN没有没有[9]第十九话ResNet-50 [1]11个国家。7030的情况。3550的情况。749CNN是的没有[37]第三十七话ResNet-50 [1]12个。9290的情况。1750的情况。484CNN没有没有[37]第三十七话VIT-B/16 [8]10个。8240的情况。1160的情况。708ViT没有没有GradViTResNet-50 [1]11个国家。6350的情况。0760的情况。454CNN没有没有GradViTDeiT-B/16 [8]十三岁2520的情况。0580的情况。413ViT没有没有GradViTVIT-B/16 [8]十五岁5150的情况。0320的情况。295ViT没有没有表1.ImageNet1K数据集中8张图像的图像重建质量的定量比较基于CNN的网络使用ResNet-50进行梯度反演，与之前的工作一致GradViT在图像质量指标上远远优于所有先前的方法原始批次224 × 224 px。- 地面实况GradViT（我们的）-ViT-B/16- LPIPS价格：0.454图3.使用所提出的GradViT和最先进的GradInversion [37]对ImageNet1K数据集中的一批8张图像的重建图像进行定性比较GradViT在质量和数量上都优于GradInversion它恢复最复杂的细节，非常高的图像保真度和自然度，不仅为目标对象，而且所有的背景场景。最好用彩色观看甚至是接近原始图像的背景细节这些结果表明，梯度反转攻击下的ViTs的脆弱性，在一个敏感的领域，如人脸识别。在这种情况下，私人数据的泄漏可能会导致严重的安全问题。6. 分析6.1. 消融研究表2提供了（i）定量比较，以消除每个训练损失项对恢复质量的有效性，以及（ii）相关的定性比较。我们观察到，在DeepInversion [37]中优化gradreg可以恢复原始训练图像的某些特征然而，重建的图像保真度差，10027RR失去了详细的语义。此外，单纯地优化图像先验损失D导致次优解。添加调度程序解决了这个问题，并大大改善了重建。添加补丁之前的损失补丁引导恢复补丁的位置，并显着提高图像质量。请参阅灵活的材料，在不同的训练阶段合成图像的可视化。6.2. 变化的架构补丁大小表3显示了性能的GradViT给定不同的- ING架构和不断变化的补丁大小。我们观察到，具有（i）较小补丁大小，（ii）更多参数和（iii）更强的蒸馏训练配方的变压器，揭示了更多的原始信息，因此更容易受到影响。100281ˆˆ[42]与GradViT（我们的）图4.使用Face-Transformer的批量梯度反演对来自MS-Celeb-1 M数据集的重建图像进行定性比较[42]。GradViT能够恢复与原始图像相同的细节和面部特征批量4下的回收率。最好用彩色观看损失函数L梯度图像重建度量PSNRFFT2DLPIPS第八章. 1430. 7069. 9641. 351[37]第三十七章：一个女人190 11. 四三一0.0710. 498+R图像3. 12711.2910. 078 0 504+Γ püq，püq3. 04713. 4040. 0490. 412+ R补丁2. 32615. 5150. 0320. 295xxL级`R寄存器 [37]+ R图像+ Γ p¨q，Γ p¨q+ R补丁表2.各损失项对最终合成图像重建质量的影响结果在一批8张图像中显示，所有运行中默认包含总变异和102个先验。图5.增加批量大小对图像恢复质量的影响。ImageNet和MS-Celeb-1 M图像分别以224 224px和112 112px重建。提供了批量为8、16、30和48的代表性样品重建。在GPU内存限制下，ImageNet数据集的最大批量大小限制为30原始批量16批量30恢复图6.在ImageNet上对不同批量大小的重建质量进行可视化比较虽然GradViT恢复了主要的视觉功能，但质量随着批量大小的增加而下降。表3.在ImageNet1K上对各种ViT和DeiT模型的梯度反演图像重建质量进行定量比较。梯度反转攻击此外，我们观察到更多的vulnerabilities在ViTs方面透露更多的信息比他们的对手DeiTs。6.3. 增加批量大小图5，我们研究了批量大小对反射图像质量的影响，考虑到GPU内存限制，我们分别对ImageNet 1 K和MS-Celeb-1 M数据集进行了30和64的最大批量测试。在这两个数据集中，我们观察到图像质量下降，正如预期的那样，在一个较大的批量大小。为了面部恢复，格拉德-原始图像112×112px。批量8网络蒸馏图像重建度量DeiT-T/16无峰值信噪比12个。243FFT2DFFT0的情况。079LPIPS0的情况。489DeiT-T/16是的十三岁2120的情况。0760的情况。454[35]第三十五话没有12个。6640的情况。0590的情况。461[35]第三十五话是的十三岁0920的情况。0550的情况。419DeiT-B/16没有十三岁2520的情况。0580的情况。41310029´ ´´´ ´´ViT仍然能够恢复可识别的图像，即使在批量大小为30（见图5中的示例）。在附录中，我们还将研究人员识别的可能性作为批量大小的函数，以及辅助GAN提高保真度的潜力。我们也观察到类似的趋势原始恢复（不含全年级，逐层区别）在ImageNet1K上，如图6所示。在批量为30的重建仍然揭示了主要的视觉特征。6.4. 思源为了给未来的防御机制提供指导，我们深入研究了跟踪信息泄漏的来源恢复（含全年级）w/o层1 4 w/o层58w/o层912（一）恢复（不含全年级，组件方面的区别）带MLP等级，W/O其他w/收件人毕业，不含其他（b）解决这些问题是增强安全性的有针对性保护的关键作为一种尝试，我们消融梯度的更具体地说，我们进行了两个分析流。逐层地，我们研究了从Transformer层去除梯度贡献的变化效果，图7.使用批次大小8从逐层和逐组件消融研究重建图像。后面的层（9-12）包含导致数据泄漏的最关键的信息。成分方面的研究表明，MSA块的梯度比MLP块的梯度具有更多的关键信息。请参阅补充材料以获取更多可视化效果。不同的深度这暗示了分享Gradi-作为一种补救措施，以防止整体倒置。我们通过在目标模型的所有层上使用MSA或MLP的梯度进行重新训练，并分析它们与原始图像的链接强度。这提供了关于什么确切的转换保留最多信息的见解我们基于ViT-B/16进行分析，并在接下来展示我们的发现6.4.1后期阶段显示更多更具体地说，我们从初始，中期和后期阶段去除梯度为此，我们在不包括层1的梯度的情况下重建图像四、五8和912.表4表明，通过排除较早层的梯度的重建比较深层的重建更准确，而丢弃较晚阶段对恢复的影响最大。换句话说，更深层的梯度对于反演来说信息量更大-参见图7（a）进行定性比较。6.4.2注意力就是一切接下来，我们通过仅利用MLP或MSA块的梯度进行反转攻击，对ViT-B/16模型进行两个分量的数据泄漏研究。我们将结果与表5和图5一起呈现。第7（b）段。表5证明了MSA梯度的重要性，因为其重建图像质量明显优于MLP梯度合成的图像如图7（b）所示，从MLP梯度的重建缺乏重要的细节，而单独利用MSA层的梯度已经可以产生高质量的重建。分层迭代图像重建度量峰值信噪比FFT 2DFFTLPIPS所有（基线）15。5150. 0320. 295不含第1-4十三岁9820的情况。0470的情况。412不含第5-811个国家。0860的情况。0860的情况。555不含层9-1210个。2840的情况。0910的情况。598表4.分层梯度对ViT-B/16重建的影响明智的服从者图像重建度量峰值信噪比FFT 2DFFTLPIPS所有（基线）15。5150. 0320. 295w/ MLP，w/o其他12个。2560的情况。0660的情况。568w/ MSA，w/o其他十三岁5590的情况。0470的情况。408表5.组分梯度对ViT-B/16重建的影响。7. 结论在这项工作中，我们介绍了一种方法，梯度反演的ViT为基础的模型通过（i）强制梯度匹配的共享目标（ii）利用图像先验，（iii）和利用一个新的补丁先验损失，以指导补丁恢复位置。通过对ImageNet 1 K和MS-Celeb-1 M数据集的广泛分析，我们展示了最先进的深度神经网络梯度反演基准。我们还进行了额外的分析，为社区提供见解，并指导ViT安全机制的设计，以防止比CNN更强大同态加密和差分隐私已被证明可以有效对抗基于CNN的梯度反转攻击。然而，未来的工作需要研究针对GradViT的保护机制。10030引用[1] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。2019年，在ICLR[2] 蔡耀辉，姚哲伟，董震，阿米尔·戈拉米，迈克尔·W·马奥尼和库尔特·库茨。ZeroQ：一种新颖的零拍量化框架。在CVPR，2020年。[3] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，ChaoXu，and Qi Tian. 学生网络的无数据学习在ICCV，2019年。[4] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe. 改进的动量对比学习基线 arXiv 预印本 arXiv ：2003.04297，2020。[5] Bowen Cheng ， Alexander G Schwing ， and AlexanderKirillov. 每像素分类并不是语义分割所需的全部arXiv预印本arXiv：2107.06278，2021。[6] Zhigang Dai，Bolun Cai，Yugeng Lin，and Junying Chen.Up-detr：使用变压器进行对象检测的无监督预训练。在CVPR中，第1601-1610页[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.ImageNet：一个大规模的分层图像数据库。CVPR，2009。[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图像值16x16个单词：用于大规模图像识别的变形金刚。ICLR，2021年。[9] JonasGeiping ，HartmutBauermesterr，HannahDroége 和Michael Moeller。反向在NeurIPS，2020年。[10] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进WassersteinGAN的训练。NeurIPS，2017。[11] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1 m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页施普林格，2016年。[12] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在CVPR，2020年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在CVPR，2016年。[14] Yangsibo Huang，Samyak Gupta，Zhao Song，Kai Li，and Sanjeev Arora.评估联邦学习中的梯度反转攻击和防御。NeurIPS，2021。[15] Jinwoo Jeon，Jaechang Kim，Kangwook Lee，SewoongOh，and Jungwul Ok.生成图像先验的梯度反演。arXiv预印本arXiv：2110.14962，2021。[16] Xiao Jin，Pin-Yu Chen，Chia-Yi Hsu，Chia-Mu Yu，and Tianyi Chen.CAFE：垂直联邦学习中的灾难性数据泄漏arXiv预印本arXiv：2110.15122，2021。[17] Tero Karras，Samuli Laine，Miika Aittala，Janne Hellsten，Jaakko Lehtinen，and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR，2020年。10031[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[19] Vinod K Kurmi、Venkatesh K Subramanian和Vinay PNamboodiri。领域印象：一种源数据自由的领域适应方法。在IEEE/CVF计算机视觉应用冬季会议论文集，第615[20] YannLeCun ， Le'onBottou ， YoshuaBengio 和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[21] Yuang Liu，Wei Zhang，and Jun Wang.用于语义分割的无源域适应在CVPR中，第1215[22] Liangchen Luo ， Mark Sandler ， Zi Lin ， AndreyZhmoginov，and Andrew Howard.大规模生成式无数据蒸馏。arXiv预印本arXiv：2012.05578，2020。[23] Aravindh Mahendran和Andrea Vedaldi。通过反转它们来理解深度图像表示。CVPR，2015。[24] Aravindh Mahendran和Andrea Vedaldi。使用自然前图像可视化深度卷积神经网络IJCV，2016年。[25] Brendan McMahan，Eider Moore，Daniel Ramage，Seth Hampson，and Blaise Aguera y Arcas.通信-从分散的数据中高效学习深度网络。在 AISTATS ，2017。[26] LucaMelis ， ConjengSong ， EmilianoDeCristofaro，and Vitaly Shmatikov.合作学习中的非预期特征泄漏。在IEEE Symp.安全和隐私（SP），2019年。[27] TakeruMiyato ， ToshikiKataoka ， MasanoriKoyama，and Yuichi Yoshida.生成式对抗网络的谱归一化在ICLR，2018年。[28] Alexander Mordvintsev Christopher Olah 和 MikeTyka 。启蒙主义：深入神经网络 . https ：//research.googleblog。com/2015/06/inceptionism-going-deeper-into- neural.html，2015.[29] Anh Nguyen，Jeff Clune，Yoshua Bengio，AlexeyDosovit- skiy，and Jason Yosinski.即插即用生成网络：潜在空间中图

下载后可阅读完整内容，剩余1页未读，立即下载