P3SGD：患者隐私保护SGD在病理图像分类中的应用

55 浏览量更新于2023-10-19 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2099P3SGD：患者隐私保护SGD用于在病理图像分类中正则化深度CNN吴秉哲1赵世万2孙光宇1张晓璐3钟苏2曾彩虹4刘志宏41北京大学2IBM研究院3蚂蚁金服集团{wubingzhe，gsun}@ pku.edu.cn，{zhaosw，suzhong}@ cn.ibm.com，yueyin.antfin.com4金陵医院nj@hotmail.com，liuzhihong@nju.edu.cn摘要最近，深度卷积神经网络（CNN）在病理图像分类方面取得了巨大成功。然而，由于标记的病理图像的数量有限，仍然存在两个挑战需要解决：（1）过拟合：CNN模型的性能(a) 原始(b) （c）P3 SGD由于其庞大的参数和标记训练数据的不足，(2)隐私泄露：使用传统方法训练的模型可能会无意中泄露训练数据集中患者数据集越小，隐私泄露越严重。为了解决上述两个挑战，我们引入了一种新的随机梯度下降（SGD）方案，命名为患者隐私保护SGD（P3SGD），它通过在每个患者的数据上建立一个大的步骤更新，在患者级别上执行SGD的模型更新具体来说，为了保护隐私和正则化CNN模型，我们建议将精心设计的噪声注入到更新中。此外，我们配备了一个精心设计的策略，以适应性地控制注入噪声的规模我们的P3SGD。为了验证P3SGD的有效性，我们对真实世界的临床数据集进行了大量的实验，并定量地证明了P3SGD在降低过拟合风险方面的卓越能力。我们还提供了一个严格的分析下的隐私成本差异隐私此外，我们发现，与使用非私有SGD训练的模型相比，使用P3SGD训练的模型对模型反转攻击具有抵抗力1. 介绍近年来，深度CNN已经成为各种病理图像分析任务的强大工具，例如在IBM中国研究院实习期间从事的工作图1.ResNet上的模型反演攻击的说明18. (a)是原始图像补丁。(b)以及（c）是从用非私有SGD和P3SGD训练的模型重建的图像。组织分类[30，10]，病变检测[17，22]，nu-clei分割[38，50，26]等。深度CNN的卓越性能通常依赖于大量的标记训练数据[40]。不幸的是，对于某些任务缺乏标记的病理图像可能导致两个值得注意的问题：（1）CNN模型的过拟合[39，42，48]（2）患者隐私泄露[48，33，9，46]。首先，由于CNN模型的参数多，训练数据少，容易产生过拟合现象，影响其性能。其次，病理数据集通常包含敏感信息，这些信息可能与每个患者相关。根据最近的研究，使用传统SGD训练的基于CNN的模型可能会不自觉地泄露患者的私人信息[48，9]。例如，Zhanget al.[48] 表明CNN模型可以很容易地记住训练数据集中的一些样本。Fredrikson等人[9]提出一种模型反演攻击来重建训练数据集中的图像。在图1（a）和（b）中，我们展示了我们任务中的一个攻击示例，通过利用经过良好训练的CNN模型及其中间特征表示来重建训练数据集中补丁的轮廓。有许多研究分别解决这一方面，为了降低深度CNN中过拟合的风险，之前的研究表明，2100在训练阶段增加适当的随机性[39，42，45]。例如，Dropout [39]通过随机丢弃隐藏层的输出来增加激活的随机性。DropConnect [42]通过在训练期间将权重随机设置为零，增加了权重参数的随机性。另一方面，差分隐私[5，6]作为一个强标准出现，它为敏感数据库上应用的算法提供了严格的隐私保证。最近的作品[1，31]被引入到差分隐私中训练深度CNN模型。这些工作的主要思想是扰动的梯度估计在每一步的SGD算法。例如，Abadi et al.[1]在SGD中对梯度估计使用差分私有加性噪声机制。此外，最近的一些研究[33，46]表明，这两个看似无关的问题是基于自然直觉的隐含相关性：“减少过度拟合”和“保护个人隐私”有着相同的目标，即鼓励CNN模型学习人口的特征，而不是记住每个人的特征。在本文中，我们提出了一个实用的解决方案，以减轻这两个问题的病理图像分类的任务。特别地，我们引入了一种新的SGD算法，命名为P3SGD，该算法将精心设计的噪声注入到梯度中，以获得一定程度的差分隐私，同时减少过拟合。值得注意的是，病理学数据库通常由多个患者组成，每个患者还与多个图像块相关联。我们应该保护病人的隐私，而不是像以前的大多数作品中的图像级别。为了实现这一目标，我们建议根据单个患者的数据计算模型更新，并将仔细校准的高斯噪声添加到更新中，与我们最相似的工作是差分私有联邦学习[25，11]，其重点是保护用户级隐私。与以前的作品相比，使用全局固定的噪声尺度来构建噪声更新[1，25，11]，我们提出了一种精心设计的策略来自适应地控制噪声更新的幅度在实验中，我们证明了这种策略在提高深度CNN模型的性能方面起着关键作用最后，我们利用矩会计定理[1]给出了一个严格的隐私成本分析。综上所述，我们工作的主要贡献如下：• 我们提出了一个实用的解决方案，命名为P3SGD，同时解决过拟合和隐私病理图像分类中深层CNN的泄漏问题。据我们所知，这是第一个在医学图像分析任务中提供严格隐私保证的工作• 从技术上讲，我们提出了一种策略，在每个迭代步骤中动态控制噪声更新，这导致相对于现有技术的方法[25，11]，具有显著的性能增益。• 我们在真实世界的临床数据集上验证了P3SGD，这在以前的研究中较少探索再-结果表明，P3SGD能够降低各种CNN架构上的过拟合风险。此外，P3SGD提供了一个强有力的保证，即训练模型保护每个患者数据的隐私• 我们定性和定量地证明了使用P3SGD训练的CNN模型能够抵抗模型反转攻击[9]（如图1（c）所2. 相关工作在过去的几年里，已经提出了许多正则化技术来提高深度CNN的泛化能力[20，39，42，45，41，12]。这些作品主要分为两类：显式正则化和隐式（即，算法）正则化。对于显式正则化方法，使用各种惩罚项来约束权重参数。例如，权重衰减[20]使用l2-正则化来约束CNN模型的参数。另一个方向是在深度CNN中引入正则化器去相关卷积滤波器[44，32]，这提高了这些滤波器提取的中间特征的表示能力对于隐式正则化方法，其核心思想是在模型训练阶段引入适度的随机性。例如，Dropout [39]在训练阶段随机丢弃隐藏神经元的输出。然而，Dropout最初是为全连接层（FC）设计的它通常对卷积层不太有效，这限制了它在具有很少FC层的CNN中的使用（例如，，ResNet）。这可能是由于Dropout丢弃特征而不考虑其空间相关性（卷积层的特征总是空间相关的）[12]。为了解决这个问题，一些最近的工作[41，12]提出将结构化噪声注入卷积层的特征中。一种名为DropBlock[12]的最先进技术是专门为卷积层设计的，它随机丢弃子区域中的Dropout和DropBlock都将随机性注入激活层。相比之下，DisturbLa- bel [45]通过在训练小批量中随机设置一部分标签为不正确，将随机性添加到损失函数中。数据增强是算法正则化的另一种形式，它通过随机变换训练图像将噪声引入输入层[36]。我们的方法可以归类为隐式正则化。与以前的工作相比，我们的方法（P3SGD）在参数更新阶段实施正则化。2101i=1k=1′同时，由于训练数据集可能包含敏感信息，因此深度学习模型中的隐私泄露问题越来越受到关注。这个隐私问题吸引了许多关于隐私保护深度学习的研究兴趣[1，35，25，11，13，28]。一个有希望的方向是在差分隐私内构建机器学习模型[1，25，28]，差分隐私已被广泛用于敏感数据分析，作为隐私的黄金标准。早期的解决方案是扰动模型参数[3，49]或目标函数[3，19，31]。然而，这种简单的解决方案会导致相当大的性能下降[4，43]，在深度学习的背景下，情况可能会变得更糟。因此，最近的一些研究集中在基于梯度扰动的方法[1，25，11，28，29]。Abadi等人[1]提出了SGD的差分私有版本，并提出了矩会计框架，以提供比以前的方法更严格的隐私约束。PATE框架[28，29]通过将知识从教师模型的集合转移到学生模型来保护隐私，这些教师模型在训练的分区上进行训练。稍微滥用符号，我们还将D=SNpDi表示为所有患者的整个图像集。然后，图像级相邻数据库的基本概念可以定义为：如果两个数据库在单个图像-标签对中不同，则它们是相邻的[1]。这个概念被广泛用于图像级隐私保护。然而，这样的图像级隐私保护对于我们的任务是不够的。相反，我们引入了患者级相邻数据库的概念，定义如下：定义1（患者级相邻数据库）D'和D“"相邻：如果D′可以通过将单个患者到D"或从D"中移除单个患者的所有图像。这个定义受到了以前的作品的启发[25，11]，其中作者专注于用户级隐私。通过相邻数据库的定义，我们可以将患者级别的差异隐私正式定义为：定义2（差分隐私）一个随机算法A：D→R满足（λ，δ）-微分隐私，如果对任意ing数据。与这些专注于图像级隐私的作品不同，我们的目标是在特定的环境中提供患者级′′两个相邻的数据库D，D输出它所持有的SR：对于任何子集，病理图像分析的场景最相似的我们最大的工作是[25，11]，它将私有SGD扩展到联邦学习范式[24]。然而，将这些方法应用于现实世界的医学图像数据仍然较少探索。此外，与使用非私有SGD训练的模型相比，这些方法总是导致性能下降在本文中，我们评估了我们的方法在现实世界的病理图像数据集，并表明，性能下降可以通过仔细控制噪声更新，使用我们的策略来解决。也有一些研究旨在从记忆的角度探讨过拟合与隐私泄露之间的关系[33，46]。在本文中，我们提出了一个实用的解决方案，以减轻这两个Pr[A（D′）∈S]≤e <$Pr[A（D′′）∈S]+δ （1）随机化算法A在文献中也被称为机制[5]。在我们的设置中，A是用于训练深度CNN的算法，例如。SGD算法。D表示训练数据集（即，，在我们的例子中是D），R是深度CNN的参数空间。直觉，平等-结果1表明一个个体患者参与训练阶段对最终权重参数的影响可以忽略另一个概念是随机化算法的灵敏度：定义3（灵敏度）随机算法的灵敏度-′ ′′RithmA是下式的上界||A（D）− A（D）||得双曲余切值.相关问题同时。′′′D和 D2是任何相邻的数据库（请参见定义1）。3. 我们的方法在本节中，我们详细描述了我们的方法，并使用矩会计定理[1]提供了严格的隐私成本分析。3.1. 预赛本文首先介绍了与我们的具体任务相对应的差分隐私的一些基本符号和在我们的设置中，病理图像数据集可以被视为具有Np个患者的数据库D 一般来说，每个患者Di由各种组织的多个图像块组成，即，， Di={ （ xk ，yk）}Ni，其中N i是为了建立一个满足基本隐私的随机算法，需要对其灵敏度进行限制最常用的在接下来的两个小节中，我们将分别介绍传统SGD和P3SGD，作为随机al.租mA.3.2. 标准SGD算法我们从标准SGD开始（即非私有SGD）算法，用于训练基于CNN的深度分类模型。分类的目标是训练CNN模型M：y=f（x;θ），其中y= f是预测的标签，第i个患者的图像块的数量与和θ是模型参数。模型的训练是210221θ←θt22，用于来自患者i的批图像样本b23θ←θ−γ<$L（b; θ）24端部25i=θ−θt26i=ClipNorm（i，Cu）27返回按钮不2u={ u =−Clip（L（B;θ+），Co）：forin}拉乌exp（）3选择概率为的4返回顶部2Co 拉乌u∈Ωu exp（）2COi=1′˜˜˜最小化经验损失L（D; θ）。在实践中，我们估计了一个小批量的经验损失的梯度。我们将小批量上的分类损失表示为：算法1：P3SGD1输入：2患者数据库：经验损失：L。L（B; θ）=1不|Bt|f（x;θ），y）（2）（x， y）∈Bt3患者采样率：p.4噪声标度设置：{z i}Nz。′5用于选择每次迭代更新的噪声预算这里，l（x，y）是损失函数，例如，交叉熵损失。Bt是指从整个图像集D中随机且独立地抽取的小批量图像。注意，我们可以在方程2，如l2项。在SGD算法的第t步，我们可以将当前参数θt更新为θt+1=θt−γt。θtL（Bt;θt）.3.3. P3SGD算法6更新范数的界7目标函数范数的界8随机初始化θ09对于t∈[T]do10取样本比为p的患者子集Bt每个患者i∈ Bt做11个12i←PatientUpdate（i，θt）13端部14∆←1（阿拉伯语）总体而言，我们的框架包括三个组成部分，它们是更新计算、更新净化和特权累积。我们的方法继承了联邦学习的计算范式[24]。此外，为了保护隐私，我们需要在每一步的更新中注入精心设计的高斯最后，我们可以使用时刻会计隐私积累。伪码在A1-出租1中描述。接下来，我们将详细描述每个组件对于更新计算，在P3SGD的第t步开始时，我们以采样率p从数据库D随机采样患者批次Bt。这里，符号不|Bt|It15σ={σ=zCu/|Bt|：f或zinz}16={=t+N（0，（σ2I））：forσinσ}17t←NoisyUpdateSelect（t，t，Bt，θt，L）18θt+1= θt+ θt19终20 函数PatientUpdate（i，θt）：Bt不同于等式2中的一个，其中Bt是从单个图像而不是患者中采样。然后，对于采样批次中的每个患者i，我们执行用于计算参数经由患者的图像i.之后，我们使用计算的梯度局部更新模型。在我们遍历该患者的所有图像之后，我们可以获得关于患者i的模型更新。该过程可以被解释为对来自患者i的本地数据执行SGD。在下一步中，我们对Bt中所有患者的更新进行平均，以获得第t步的最终更新。请注意，我们需要控制总更新的敏感性，以进行进一步的更新清理。在实践中，这是通过相对于每个输入裁剪更新的l2范数来实现的个体患者（如算法1中的第26行所示）。算法1中的Cu表示预定义的上限。因此，总更新的灵敏度可以由2Cu限制（可以在补充材料中找到证明）。更新计算的主要思想由函数PatientUpdate实现，如算法1所示。为了保护隐私，更新清理需要按照-形成了具体来说，我们使用高斯机制[7]将校准良好的高斯噪声注入到原始更新中，这导致噪声更新。注入的高斯噪声的方差由上-算法2：NoisyUpdateSelect1函数NoisyUpdateSelect（，，B，θ，L）：更新的l2范数的界Cu在本文中，我们使用一个共同的策略，设置为一个全局固定值类似于以前的作品[1，25]。因此，噪声比例因子z的选择对于训练高性能的CNN模型至关重要。以前的作品[1，25]通常在整个训练阶段使用固定的噪声尺度。然而，固定的噪声比例因子可能导致噪声更新从下降方向或可消除的正则化效应的分离，因为更新的幅度可能在不同的迭代步骤中变化。因此，我们认为，使用固定噪声标度的策略可能2103j=1jCKC′′′Qi1′阻碍分类性能。在本文中，我们提出了一个详细的策略，自适应选择噪声尺度。这种策略起源于指数机制[7]，这是一种常用的机制，用于构建Argmax函数的差分私有版本。在本文中，Argmax函数指的是选择使特定目标函数最大化的自变量。在我们的任务中，我们使用负损失函数作为目标函数，并且参数是基于来自预定义集合的不同噪声尺度的噪声更新。我们将该策略实现为算法2中描述的函数NoisyUpdateSelect。预定集合Nz包含Nz噪声比例因子。增加Nz可以更精细地控制噪声更新，从而进一步提高性能。然而，Nz的增加也导致计算成本的增加。准确地说，多一个噪音等级就会多一个-在Bt中对所有图像进行ward计算。在实践中，我们发现设置Nz=2就足以完成我们的任务。注意设置Nz= 1退化为[25，11]中使用的方法。在实验中，我们表明这种策略是至关重要的，以提高性能。对于隐私积累，可以利用合成定理来合成每个迭代步骤的隐私成本。本文利用矩算子[1]，得到了比强合成定理[8]更紧的界。具体来说，时刻会计是跟踪隐私随机丢失的一个界限变量，而不是原始隐私预算的约束。给定一个随机化算法A，o定义为：′定理1（可组合性）假设随机算法A由一系列自适应机制组成--”A1，. . . 其中Ai：R × D →Ri. 那个…Ai的支出记为Mi（λ）。对于任何λ：Mc（λ）≤<$Mi（λ）（6）i=1定理2（尾界）对于任意的ε≥0，算法A满足（δ，δ）-差分隐私，δ= min exp（Mc（λ）-λ）（7）λ定理2表明，如果随机算法A的矩计数有界，则A满足（λ，δ）-微分隐私.我们在算法2中实现的策略的矩的范围由以下定理保证：定理3给定λ，算法的矩量计算λ（λ+1）<$2Rithm2由q·限定。2证明可以使用隐私放大[18]和先前文献[2]中的定理来完成。更多的细节可以在本书的附录中找到。隐私保证：在本文中，隐私累积是指在每一步中累积时刻会计界。注意，需要在噪声更新选择（算法1中的行17）和经由噪声更新的模型更新（算法1中的行18）处执行隐私累积。对于第17行中的NoisyUpdateSelect，我们可以计算一个边界′ ′′c（o;A，aux，D，D），logPr[A（aux，D）=o]（3）Pr[A（aux，D）=o]定理3。对于第18行中的模型更新，基于高斯机制的性质获得′ ′′然后，隐私损失随机变量C（A，aux，D，D）通过评估结果sam时的隐私损失来定义′ ′′[28]A（D）。这里，D和D是相邻的。aux表示辅助信息。在我们的P3SGD算法中，步骤t的辅助信息是步骤t-1的权重参数θt-1算法A在文献[1]中也被称为自适应机制。然后我们可以将矩会计定义如下：（引理3在[1]的附录中）。一旦我们在每一个迭代步骤中约束了动量会计，我们就可以使用定理1来组合这些边界。最后，根据定理2得到了总的隐私代价。足以计算当λ≤32时，Mc（λ）。在实践中，我们使用有限集{1，···， 32}遵循先前的工作[1]。4. 实验结果M（λ），max′ ′′M（λ;aux，D，D）（4）4.1. 实验设置caux，D′，D′′ c′ ′′其中Mc（λ;aux，D，D）是矩生成函数。隐私损失随机变量的作用，其计算如：在本节中，我们验证了P3SGD在真实世界临床数据集上的有效性。这个数据集是由我们团队的医生收集的。该数据集由1216名患者组成，每个患者包含约50个图像块。我们在本文中考虑的任务是肾小球分类-′ ′′Mc（λ;aux，D，D），logE [exp（λC（A，aux，D，D））]该方法的目的是对图像块是否连续进行分类，（五）然后，我们介绍了可组合性和矩会计的尾界：是否有肾小球。这一任务也得到了研究在最近的一项工作中[10]。我们要求医生手动标记图像块。为了进行公平的比较，我们将′′2104模型类型#参数SGDSGD+辍学P3SGD培训测试间隙培训测试间隙培训测试间隙AlexNet不六十岁。9 M九十九。8791. 588. 29九十八97九十三13五、84九十六。8592. 744.第一章11VGG-16不十四岁7M九十九。8192. 197 .第一次会议。81九十九。2894 324.第一章96九十六。23九十三87二、36ResNet-18M11个国家。2 M九十九。8592. 257 .第一次会议。60九十九。6392. 127 .第一次会议。51九十五70九十五230.47ResNet-34M21岁3米九十九。23九十三19六、04九十九。16九十三22五、94九十五80九十五340的情况。46MobileNetM3 .第三章。2 M九十八7392. 01六、72九十八6591. 617 .第一次会议。0494 7994 130的情况。66MobileNet v2M二、3米九十八52九十三24五、28九十八37九十三28五、09九十五3294 860的情况。46表1.使用不同策略训练的各种网络架构的训练和测试准确率（%）。培训之间的差距和测试精度用于衡量CNN模型的过拟合。类型T/M表示传统/现代CNN。权重衰减到1 E-4，并在所有实验中使用数据增加。具体而言，我们通过以下方式执行数据增强：(1)垂直和/或水平地随机翻转输入图像，以及（2）执行随机颜色抖动，包括改变输入图像的亮度和饱和度。所有输入图像的大小调整为224× 224，像素强度值归一化为[0， 1]。所有1216例患者将数据集随机分成训练数据集（1000名患者）和测试数据集（216名患者）。4.2. 分类评价为了验证P3SGD在减少过拟合方面的优越性，我们将其与标准SGD（无丢弃）进行了比较。我们还提供了与结合标准SGD和Dropout的策略的比较。因此，有三种培训策略：SGD，SGD+Dropout和P3SGD。我们首先在ResNet-18架构上评估我们的方法[14]。对于具有Dropout的标准SGD，我们在卷积层之间插入Dropout并将丢弃率设置为0。三是[47]。为了提供合理的权重初始化，我们首先在公开可用的病理图像数据集1上预训练CNN模型。预训练不需要额外的隐私成本，因为我们在这个阶段不与原始训练数据集交互。预训练还可以帮助我们确定算法1中的超参数。对于P3SGD，我们将总更新轮数T设置为100，并将噪声标度T2设置为0。1用于选择噪声更新。采样率p被设置为0。1和设置为{3。0，1。0}。C u和C o设置为5。0和3。0，分别。为了便于讨论，我们将SGD和P3 SGD表示为使用SGD（不带- out Dropout）和P3 SGD（我们在讨论后从ResNet-18的结果（表1）中，我们观察到SGD明显过拟合（它甚至达到了接近100%的训练准确率）。相比之下，P3SGD大大减少了训练和测试精度之间的差距，21050.400.350.300.250.200.150.100.050.001 10 20 30 40 50 60 70 80 90100使用的训练补丁程序数量（105）图2.不同训练策略下ResNet-18的训练和测试损失曲线。与SGD相比，P3SGD显著减少了分类错误的下降），而差距从7。60%到0。47%，显示93。8%的相对改善。这些结果表明，与标准SGD相比，P3 SGD我们还在图2中绘制了ResNet-18的损失曲线，这进一步证明了P3 SGD的调节作用。此外，当我们在ResNet-18上应用Dropout时，没有显著的性能改进。辍学甚至导致略有下降（从92。25%到9212%）的测试准确度。我们将在4.4节详细讨论这一现象。除了ResNet-18，我们还对其他流行的CNN架构进行了广泛的实验。一般来说，我们主要对两种类型的CNN模型进行测试，即trans-CNN和现代CNN2（在表1中由T和M表示）。具体而言，包括六个架构AlexNet [21]， VGG-16 [37]， ResNet-18 [14]，ResNet-34 [14] ， MobileNet [15] 和 MobileNet v2 [34] 。对于trans-CNN （例如，， AlexNet ），我们在全连接（FC）层之间插入Dropout，并将丢弃率设置为0。[39]第 5结果总结于表1中。一方面，我们的方法始终提高了测试精度超过标准SGD（无辍学）在各种证明了测试的准确性。特别是，P3 SGD超过-以2为单位形成SGD。98%的测试准确率（a38。5%相对-1http://www.andrewjanowczyk.com/use-case-4-lymphocyte-detection/2现代CNN由卷积层组成，除了最终预测层，其包括全局平均池化和全连接层。SGD，培训P3SGD，培训SGD，测试P3SGD，测试交叉熵损失2106pCNN架构。使用P3 SGD训练的ResNet-34达到了95的最高测试精度。在所有网络架构和培训策略中占34% 。特别是， P3SGD 在所有现代 CNN 上都优于Dropout技术，例如，测试精度增益为2。在ResNet-34的情况下为12%。另一方面，当我们使用P3SGD来训练CNN模型时，训练精度被抑制，这进一步导致训练和测试精度之间的差距减小。尽管我们的方法具有优越性，但我们观察到Dropout在传统CNN上通常比P3SGD更有效，例如。，它获得了微小的精度增益0。与P3 SGD相比，VGG-16为45%我们在讨论部分提供了一些解释我们还注意到，在标准SGD（无辍学）训练策略下，现代CNN比传统CNN具有更少的过拟合（测量为训练和测试精度之间的差距）。这可能是由存在于现代CNN中的批量归一化[164.3. 隐私成本分析P3SGD的另一个优点是在差异隐私内提供患者级别的隐私。差异隐私度由等式1中的（δ，δ）（即，隐私成本）测量。在这一部分中，我们利用矩量会计定理计算了隐私成本的总花费。目标δ为表2.在ResNet-18上测试不同设置的准确率（%）和隐私成本“自适应”列指示自适应噪波使用比例设置（由箭头标记）或固定比例（由箭头标记）设置一个固定的噪声标度会导致[11，25]战略培训测试间隙SGD+辍学九十九。6392. 127 .第一次会议。51SGD+DropBlock九十八8594 873 .第三章。68P3SGD九十五70九十五230的情况。47表3.使用不同的正则化策略在ResNet-18上训练和测试准确率（%）。一般来说，自适应策略导致隐私成本和测试准确性之间更好的权衡。具体来说，将固定尺度{z1}或{z2}到{z1，z2}达到高于或ap的测试精度在同类产品中，测试精度最高响应固定的策略，同时具有合理的隐私成本。例如，具有{3. 0，1。0}达到95的精度。23%，这高于固定策略与{3。0}或{1。0}。我们的战略1固定于|N|1 .一、1（Np是火车通过将噪声标度设置为平均值1，也优于简单的解决方案。0和3。0（即，{2. 0}）。甚至有一个ing集），这是由以前的文献[5]建议的在在我们的任务中，δ约为5e− 4（Np=1000）。为了验证我们提出的动态控制噪声更新策略的有效性，我们将其与固定噪声等级（在表2中以“噪声等级”标记），该等级被最先进的工程采用[11，25]。为了简单起见，我们使用自适应和固定来表示这两种策略。所有实验都在ResNet-18上进行。我们在各种噪声标度集上进行测试，以显示噪声尺度影响性能。我们发现，噪声尺度大于3。0导致训练不稳定。在实践中，我们使用以下噪声标度来构建pwz：{1。0，2。0，3。0}。总的来说，具有自适应策略的P3SGD （P3 SGD={3. 0，1。0}）达到了95的最佳测试精度。23%，隐私成本为6。97. 对于固定的战略-例如，较大的噪声尺度导致较低的隐私代价，但可能导致噪声更新偏离集中方向，进一步影响测试的准确性。例如，将Rz设置为{3。0}导致最低的隐私成本4。70和最差的准确度92。15%，而设置- ting z={1。0}实现了更好的94精度。38%，但隐私成本要高得多，为8。48.自适应策自适应Ωz测试ǫ✓{3。0，1。第0个月九十五23六、97✓{2。0，1。第0个月94 317 .第一次会议。102107略为固定策略的这一困境提供了合理的解决方案。精度增益为0。85%通过扩展{1。0}到{3。0，1。0}。我们推断这种准确性增益来自于更强的reg-较大的噪声尺度带来的偏振效应。同时，自适应策略（{3。0，1。0}）实现了在通过相应的固定策略（将Rz设置为{1}）获得的成本之间的适度隐私成本。0}或{3。0}）。总之，我们提出的策略可以被视为数值优化中的线搜索的简化版本[27]，并提供了一种更仔细的方法来控制增加的噪声的大小。我们战略的有效性来自于从细粒度的方式来控制嘈杂的更新。4.4. 讨论在本小节中，我们首先分析不同类型CNN的性能。然后，我们将P3SGD与最先进的正则化机制进行比较。最后，我们证明了使用P3SGD训练的模型可以抵抗模型反转攻击。网络架构。如表1所示，Dropout和我们的方法P3SGD对两种类型的CNN架构（传统CNN和现代CNN）表现出完全不同的具体来说，我们的方法在现代CNN上优于Dropout，相反，Dropout更有效。2108原始SGDP3SGD原始SGDP3SGDG27.7827.75N27.8527.84G27.7527.69N27.8627.82G27.8827.86训练集N27.8027.80原始SGDP3SGDG27.7327.77G27.8027.79N27.79测试集27.80图3.模型反演攻击的可视化。每个原始斑块下方的G/N表示该斑块是否包含肾小球。每个重建图像下面的数字是PSNR值。训练数据集的重建示例在左侧部分演示。为了进行比较，我们还在右侧部分展示了测试数据集的一些示例。对传统CNN架构的影响。这可能是由以下原因造成的：（1）Dropout最初是针对FC层设计的，这是由于其大量的参数（例如，VGG-16的大约90%的参数来自FC层）。然而，在现代CNN架构中只有一个具有几个参数的FC层。(2)Dropout和Batch Normalization的配合可能会出现问题[16]。众所周知，批量归一化层广泛存在于现代 CNN 中（例如 ResNet [14] ）。（ 3 ）Dropout随机丢弃特征，然而，卷积层提取的特征最近的一些工作建议修改卷积层的Dropout。我们将在下一部分中将我们的方法与Dropout的变体进行比较。其他正则化技术。从前面的讨论中，一些先进的辍学形式，应采用现代CNN。在这一部分中，我们将我们的方法与ResNet-18上的一种名为DropBlock [12]的最新技术进行了比较。为了与Dropout进行公平的比较，我们在每两个卷积层之间插入DropBlock，并将丢弃率设置为0。三是遵循[12]。结果示于表3中。DropBlock的测试精度增益达到2。75%，而P3SGD优于Dropout和DropBlock。与P3 SGD相比，Drop- Block对训练准确性没有抑制作用。我们猜测，DropBlock的性能增益来自隐式模型集成的效果。我们进一步将P3SGD与DropBlock相结合，但没有获得明显的准确性提升。模型反演攻击为了证明P3SGD能够抵抗模型反转攻击[24，23]，我们对使用不同策略训练的CNN模型进行了反转攻击。作为案例研究，我们在ResNet-18上进行实验，并使用第3个残差的输出特征块来重建输入图像（参见附件中的细节）。图3显示了一些可视化效果。我们可以使用来自SGD的特征来重建输入图像中的组织的轮廓。相比之下，我们无法从P3SGD获得任何有价值的信息（即：模型不注意训练样本）。这表明SGD比P3SGD更脆弱。量化，我们对所有训练图像进行攻击，并将平均PSNR值报告为：二十七岁P3SGD为82，27。84新元。我们还对来自测试数据集的补丁进行了相同的研究，并在图3的左侧部分显示了一些示例。结果表明，由于在训练阶段测试样本没有被模型触及，因此SGD和P3SGD这为CNN的记忆能力提供了一些线索[48]。5. 结论在本文中，我们引入了一种新的SGD模式，名为P3SGD，以规范深度CNN的训练，同时在差分隐私中提供严格的隐私保护P3SGD在各种CNN架构上的表现始终优于SGD。关键技术创新在于自适应控制噪声更新的策略。我们进行了分析，并表明这种策略的有效性我们还执行了模型反转攻击，并表明使用P3SGD训练的模型可以抵抗这种攻击。这项研究为在病理图像分析中规范深度CNN铺平了新的道路将这种方法应用于其他类型的医学图像分析任务是有前途的，并意味着广泛的临床应用。谢谢。吴秉哲、孙广宇获国家自然科学基金（No.61572045）资助.2109引用[1] Martin Abadi，Andy Chu，Ian Goodfellow，H BrendanMcMahan，Ilya Mironov，Kunal Talwar，and Li Zhang.深度学习与差分隐私在CCS，2016年。二三四五[2] Mark Bun和Thomas Steinke。集中差分隐私：简化、扩展和下界。密码学理论会议，2016年。5[3] 卡玛丽卡·乔杜里和克莱尔·蒙特莱奥尼隐私保护逻辑回归。NIPS，2009年。3[4] Kamalika Chaudhuri、Claire Monteleoni和Anand D.沙-瓦特。微分私人经验风险最小化。JMLR，12：1069-1109，July 2011. 3[5] 辛西娅·德沃克。差异隐私。载于ICALP，2006年。二、三、七[6] 辛西娅·德沃克。差异隐私：对结果的调查。在TAMC，2008年。2[7] 辛西娅·德沃克和亚伦·罗斯差分隐私的算法基础。趋势理论Comput.Sci. ，9：211-407，Aug. 2014. 四、五[8] Cynthia Dwork，Guy N Rothblum，and Salil Vadhan.增强和差异隐私。在FCOS，2010年。5[9] Matt Fredrikson Somesh Jha和Thomas Ristenpart。利用可信信息的模型反演攻击及其基本对策。在CCS，2015年。一、二[10] J. Gallego 、 A. 佩德拉萨、 S. 洛佩斯湾斯坦纳湖Gonzalez，A.Laurinavicius和G.好的基于卷积神经网络的肾小球分类与检测。Journal of Imaging，2018年4月。一、五[11] Robin C Geyer，Tassilo Klein，Moin Nabi.差异化的私有联邦学习：客户端级别的透视图。arXiv预印本arXiv：1712.07557，2017。二三五七[12] Golnaz Ghiasi ， Tsung-Yi Lin ， and Quoc V Le.Dropblock ：卷积网络的正则化方法。 arXiv 预印本arXiv：1810.12890，2018。二、八[13] Ran Gilad-Bachrach 、 Nathan Dowlin 、 Kim Laine 、Kristin Lauter 、 Michael Naehrig 和 John Wernsing 。Cryptonets：将神经网络应用于具有高吞吐量和准确性的加密数据。InICML，2016. 3[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。六、八[15] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。6[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在arXiv预印本arXiv：1502.03167，2015。七、八[17] A. Janowczyk和A.马达布希用于数字病理学图像分析的深度学习：包含选定用例的综合教程。JPI，7（1）：29，2016. 1[18] Shiva Prasad Kasiviswanathan ， Homin K Lee ， KobbiNis-sim，Sofya Raskhodnova，and Adam Smith.我们私下能学到什么？SIAM Journal on Computing，40（3）：793- 826，2011. 52110[19] Daniel Kifer，Adam Smith，Abhradeep Thakurta，Shie Man-nor ， Nathan Srebro ， and R

下载后可阅读完整内容，剩余1页未读，立即下载