基于随机条件独立Hessians的深度非学习

183 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10422i=1·−∈ W联系我们基于随机条件独立Hessians的深度非学习Ronak Mehta*1ronakrm@cs.wisc.eduSourav *1spal9@wisc.eduVikas Singh1vsingh@biostat.wisc.edu萨蒂亚·N 拉维2sathya@uic.edu1威斯康星大学麦迪逊分校2伊利诺伊大学芝加哥分校摘要最近的立法已经引起了对机器非学习的兴趣，即，从预测模型中删除特定的训练样本，就好像它们从未存在于训练数据集中一样。由于损坏的/对抗性的数据或仅仅是用户更新的隐私要求，也可能需要遗忘。对于不需要训练的模型（k-NN），简单地删除最接近的原始样本可能是有效的。但是这个想法不适用于学习更丰富表示的模型。利用基于优化的更新的最新想法与模型维度d的比例很差，这是由于反转损失函数的Hessian我们使用一个新的条件独立系数的变体，L-CODEC，以确定一个子集的模型参数，在一个单独的样本水平上最语义重叠我们的方法完全避免了需要反转（可能）巨大的矩阵。通过利用马尔可夫毯选择，我们假设L-CODEC也适用于深度非学习以及视觉中的其他应用与替代方案相比，L-CODEC使近似遗忘在其他不可行的设置中成为可能，包括用于面部识别的视觉模型、人员重新识别和可能需要遗忘识别为排除的样本的NLP模型。代码可在https://github.com/vsingh-group/LCODEC-上获得1. 介绍随着个人数据成为一种有价值的商品，立法工作已经开始阻止其广泛收集/使用，特别是用于训练ML模型。最近，一个焦点是“被遗忘权”，即，个人数据从数据库（及衍生产品）中删除的权利。尽管存在关于合理使用的法律框架，但行业抓取已导致未经同意使用个人图像，例如。[20 ]第20段。大型数据集不仅存储用于描述性统计，而且用于训练大型*联合第一作者。模型虽然法规（GDPR，CCPA）没有规定数据必须被遗忘的程度，但它提出了一个明确的问题：删除数据就足够了吗？还是需要更新在该数据上训练的模型？[6，7]最近的工作已经确定了训练模型容易受到可以重建输入训练数据的攻击更直接地说，联邦贸易委员会最近的裁决[12，24]命令公司不仅要完全删除和销毁数据，还要完全删除和销毁使用这些数据训练的任何模型。虽然删除和（随后的）没有删除样本的完整模型再训练是可能的，但大多数生产模型需要数周的训练和审查，具有大量的计算/人力资源成本。使用额外的删除，每次新的删除请求进来时重新训练是不可行的。那么，如何更新模型，确保数据在不重新训练的情况下被删除？任务给定一组输入数据： z in的大小为n，训练简单地通过迭代方案wt+1=wt来识别假言wg（w，z′）直到收敛，其中g（，z′）是固定损失函数的随机梯度. 一旦找到收敛的模型，机器学习的目标是通过分析一次性的学习更新来识别对w的更新：w′=w<$+gw<$（z′），（1）对于给定的待学习样本z′∈ S.捐款. 我们解决了几个计算问题与现有的近似公式，利用一个新的统计方案，充分的参数选择的优势。首先，为了确保样本对模型预测的影响最小化，我们提出了一种用于计算条件独立性的措施，称为 L-CODEC ，其识别要更新的其次，我们证明了 L-CODEC识别的Markov Blanket可以在以前不可行的深度模型中进行unlearning，扩展到具有数亿参数的网络。最后，我们展示了L-CODEC在网络上忘记样本和整个类的能力，从CNN/ResNets到transformers，包括人脸识别和人员重新识别模型。10423∈ W−∈ SAUS ∈ W一A S\√∇∇一∇一n−1ni=1−图1.大型深度学习网络通常将网络参数的特定子集（块（蓝色））与输入空间中的特定样本相传统的向前或向后传递可能无法显示这些块：特征之间的较高相关性可能无法区分重要特征。输入扰动可以用于以概率的、无分布的方式识别它们。然后，这些块可以在一个有效的块坐标风格更新中一起被取消学习（右，蓝线），近似于对整个网络的更新，这需要一个昂贵的/不可行的完全海森逆（红线）。2. 遗忘的问题设置设是一个算法，该算法将训练集作为输入，并输出由一组d参数Θ。一个忘却计划将用作输入的样本z′ 作为输入，并且理想地，输出更新的假设w′ ，其中z′已被删除从模型。一个unlearning算法应该输出一个假设，该假设接近或等同于在输入为被z′。这一目标的框架由[13]给出，定义1（（δ，δ）-遗忘）。对于所有大小为n的集合SP（U（A（S），z′）∈ W）≤e <$P（A（S \z′）∈ W）+δ（二）本质上，对于一个现有的模型w，一个好的针对请求z′∈S的去学习算法将以高概率输出一个接近A（S\z′）输出的模型w注1. 定义1类似于差分隐私的标准定义。与遗忘的联系是：如果一个算法是（ε，δ）遗忘的，那么它也是差分私有的。如果A是损失f的经验风险最小化者，令加性高斯噪声w′=w′+N（0，σ2）标度为n，σ，δ的函数，损失f的Lipschitz和（强）凸性参数. 我们可以从优化的角度将使用（4）的更新解释为轨迹“反转”：从随机初始化开始，在（4）中的最佳w处使用剩余二阶曲率信息（Hessian）反转w（可能）与z '的第一阶（随机梯度）轨迹，从而实现非学习。这表明满足D e f。1，并且只在F（w′）和全局极小点F（w′）之间的间隙中引起O（d/n2）的加性误差。近似方案的依据从w优化的逆转角度来看，很明显，可能有其他选择来实现遗忘。对于对遗忘感兴趣的从业者，如果具有广泛的计算资源，则可以直接实例化上述算法（如（4）中）实际上，在不可能直接计算H′−1f（w′，z′）所需的海森逆的情况下，我们必须考虑交替。一个潜在的想法。我们的目标是确定一种形式的g（z′），它应用r表示H′−1f（w′，z′）。让我们考虑由（4）的传统的一阶梯度步骤。逆Hessian是一个加权矩阵，根据训练样本之间的二阶差分A：（S，f）→ww=argminF（w）且F（w）=1n调用g（z′）（三）f（w，zi）. 再-设置平均点F（w′），并在感兴趣的样本f（w′，z′）处。这种平滑也可以从每个信息中看出在这种情况下，Hessian对应于Fisher。从（1）：我们的遗忘任务基本上涉及到识别g（z′）的形式，对于该形式，（1）中的更新是（ε，δ）-遗忘。如果预言家提供了这些信息，我们就完成了遗忘任务。正如预期的那样，难度往往取决于f和。最近的非学习结果已经确定了f的形式以及这样的g（z′）存在的地方。作者在[30]中定义g（z′）=1H′−1f（w，z′），其中n−1H′=1。n<$2F（w<$）−<$2f（w<$，z′）<$，（4）风格的信息矩阵，其逆作为一个条件的共同-方差矩阵[14，16]。从这个角度不难想象，如果有一组特定的参数在f（w，z′）处具有小的梯度，或者如果信息矩阵为零或很小，那么我们就不需要考虑它们的影响。这种直觉在视觉上的例子 [3，11，32]和其他人已经表明，在复杂任务上训练的模型倾向于将子网络委托给输入空间的特定区域。也就是说，网络中的参数和功能倾向于（或可以鼓励）以块的形式起作用。例如，activa-HP−111HP−133HP−122HF−1lul10424⊂S联系我们P||−||∇≪WWD−训练（收敛）CNN模型中不同过滤器的映射显示了不同类别的差异，特别是更接近输出层的过滤器。我们将此观测结果形式化为训练集中样本的假设。假设1. 对于训练样本S的所有子集，存在经训练的模型参数Pθ的子集，使得设Pθ = 1，. . . D是“足以”更新的参数的索引集。直接过程可以是用以下来标识该子集P：P=argminwwP，（6）P∈P（Θ）其中，（Θ）是Θ中元素的幂集，w是我们感兴趣的更新参数的子集f（S）wθ\P|wP（五）ing.请注意，这个问题确实存在一个简单的解决方案：选择p=|P|变化最大的参数由于上面讨论的计算问题，如果我们能够使这种简单/原则性的选择方案实用，则它可以提供显著的益处。3. 相关工作为了让我们的贡献有个具体的背景，我们简要回顾了机器非学习的前几个提议。天真，精确的遗忘。许多作者提出了精确遗忘的方法，在这种情况下，（δ=0，δ=0）。支持向量机[23，28]，朴素贝叶斯分类器[5]和k-均值方法[13]都已经研究过了。但是这些算法不能转化为随机模型数百万个参数。近似遗忘。通过与鲁棒性和隐私等领域的链接，我们在定义1下看到了近似非学习的更多发展。[19]提出的所谓的“证明删除”在δ=0时提出了类似的过程，并且模型已经以特定的方式进行了训练。[19，22]提供了对线性模型和网络最后一层的更新，[15，16]提供了基于在整个网络上工作的线性化的更新，[14]的后续工作提出了一种在假设某些样本不需要被删除的情况下进行遗忘的方案。其他最近的工作已经采取了不同的观点，不需要/在概率框架下操作，见[4，25]。这些方案在绝对隐私设置中提供了良好的保证，但它们需要对管道进行更多的更改（分片/聚合较弱的模型），并且在大型深度学习设置中的扩展性不令人满意。4. 随机马尔可夫块坐标学习如果存在向量g（z′）=H′−1f（w′，z′）的元素，我们可以通过某种程序将其识别为零，那么我们可以简单地避免计算这样的零坐标。我们不仅可以将逆和梯度中的这些特定条目归零，还可以利用块逆来从所有计算中完全删除这些参数。如果可能的话，它会立即将复杂度从O（d3）改变为O（p3），其中p d是我们知道足以更新的参数子集的大小。将最小化典型规范的该距离。这可以通过对w的更新g（z′）进行阈值化来实现。然而，这需要计算g（z′）的完全更新。我们需要一个预处理过程，在需要计算g（z′）之前从概率角度进行选择。我们诠释了一个深刻的网络作为输入空间上的泛函。这种观点在变量选择的统计中很常见（例如，LASSO），尽管在执行整个优化过程之后使用在最佳解决方案。这里唯一的区别是，我们在ERM最小化给出的重要的是，该视图允许我们识别中包含关于查询样本z′的最多信息的区域。我们将使用条件独立（CI）测试的最新结果来形式化这种直觉。上面的wP也应该满足z′wθ\P|女（7）这个CI公式在图形模型中得到了很好的研究。人们提出了许多测度和假设检验来评价它。[1 ]中的条件依赖系数（CODEC），以及他们的“特征排序”算法FOCI，最初似乎提供了（7）的解决方案，实际上，可以“原样”实现浅层网络。（其他CI测试的回顾见附录。）直接使用CODEC进行深度非学习是低效的。有两个问题：首先，当将CODEC应用于具有离散值的非常大的n的问题时，用于计算最近邻居的平局打破的成本可能变得过高。第二，z′不是一个随机变量，我们有很多例子。我们将第二个问题的讨论推迟到第5节，并在这里解决第一个问题。考虑大量元素具有相等值的情况在使用kd树的有效实现的情况下，如CODEC所要求的那样识别最近邻居将仍然需要以相等的值扩展所有元素的节点。例如，如果我们正在寻找原点上一点的最近邻居，并且在以原点为中心的球面上有大量元素，我们仍然需要检查所有条目并扩展树中的节点，即使我们知道它们都是相等的。10425A.S.∼∈ P∈⊆∈LLLj=1图2.样本被扰动并通过网络。激活与损失一起汇总并输入L-FOCI。选定的行表示对应层的切片，这些切片足以用于遗忘。有趣的是，这个问题有一个相对优雅的解决方案。本文介绍了一种随机化的编解码器L-CODEC.对于变量A、B、C：TL：=T.B、C|一个小女孩，（8）其中B=B+N（0，σ2），对于C，A也是如此。这种加性噪声可以简单地缩放到集合中任何点之间的最大距离的倒数。通过要求该噪声小于图1中的项目之间的任何距离，集合，排名将在唯一的离散值之间保持相同，并且将对相等的值稍微扰动。在预期中，这仍然会导致真正的依赖性措施。噪声添加与条件独立的随机化准则一致-对于Borel空间中的随机变量A，B，C，|C iffA= h（B，U），对于某个可测函数h和一致随机变量U Uniform（0，1），它独立于（B，C），如[ 26 ]中所述。备注2. 这种设置的一个修改版本也为我们提供了一种形式的可解释性，其中我们可以对每个输入特征或像素应用灵敏度分析，并通过[ 8 ]提出的Chatterjee秩系数T（A，B）的类似随机化版本来估计其对输出的影响。4.1. 有效的子集选择，也足以用于预测目的如果我们知道要测试哪个子集P（Θ），则上述测试对于（7）是好的。[36]最近的工作提出了一种选择过程，使用迭代方案来缓慢地建立足够的集合，添加最大限度地增加在感兴趣的结果中解释的信息的元素。虽然它是有效的（多项式的大小），我们必须知道最大程度。先验地，我们可能不知道这个大小是什么，并且对于参数子集，它可能非常高。当使用L-CODEC时，我们可以使用更直接的通过连续调用L-CODEC逐步构建，将最“依赖”的详见附录。摘要这个过程在充分子集或马尔可夫毯选择方面解释了第一个问题;与使用需要排列测试的信息理论测量的现有方法相比，当考虑将概率添加到集合时，L-FOCI直接估计方差的变化。现在，我们将讨论此选择如何帮助识别可以更新的参数集。5. L-FOCI Hessians我们用于擦洗z′的输入样本不是我们有样本或分布假设的随机变量，也不是我们的参数。在这种情况下，当尝试生成未知分布的样本时，基于扰动的方案可能是有用的考虑到混蛋。1，当只有一些参数对输入样本z′S的最终结果有用时，这些参数的影响可以通过模型的前向传递引起的激活来测量。我们通过激活估计（5）中的条件独立性测试为f（z′）αθ\P|一个联合国难民事务高级专员办事处（9）其中对于某个参数子集P， Θ被定义为通过模型的前向传递所生成的线性激活该公式涉及[36]的§3中的解决方案的广义版本，其中通过特征映射估计条件互信息。例如，如果一个网络有线性层L，那么一个简单的线性层l∈ L，其参数为w l∈Ra× b，将有激活a lRb，其中a l=w l a l−1。对于向量al中的每个条目al，j，层中的相关联的参数是wl[：，j]。因此，我们将网络分解为有影响力的切片。与典型的逐层选择相比，这些切片可以被视为参数空间的更精细视图，但比完全离散的视图更粗糙。接下来，现在引用这些切片的集合，其中特定切片为l。我们需要从中采样的变量元组是{a1，. - 是的- 是的一|L|，L（z′）}（10）我们可以通过扰动输入并在计算损失期间连续收集所有权重切片的激活来从该集合中获得样本。对于一个特殊的扰动<$j<$N（0，σ2），x j=x i+ x j;l j，a j={l（x j），a j，. - 是的- 是的a j} （11）前向马尔可夫毯识别过程适用于L i1|L|从[1]。FOCI更直接地选择了哪些变量对解释z′有价值，事实上，它被证明可以用合理的样本数来简单地说，在我们的L-FOCI中，元组（lj，aj）用作我们的条件独立性测试的样本（Pθ）=L-FOCI（（1j，aj）m）（12）10426∼P∇J2∗∈ S≪n−1−PPH′1。22′ Σ对于J：={j ∈ 1，. - 是的- 是的，m}扰动（参见图2）。在Alg.1，使用向前传递中的钩子收集激活首先，在原始训练过程中存储完整训练的最后和倒数第二个时期的梯度给定一个要遗忘的样本，我们计算前向传递产生的扰动激活和损失的L-FOCI，并确定哪些参数集将被更新。我们通过全模型和仅感兴趣的样本上的模型的有限差分来计算这些参数上的近似Hessian最后，我们将分块牛顿更新应用于参数的子集这些层本身并不如此，并且它们通过前向通路对样本的影响可能是高度相关的或相关的。实际上，我们希望在收敛时不学习样本不会对模型在其余输入样本上的性能造成太大损害在传统的学习分析中，我们可以通过约束剩余梯度范数来缓解这种紧张.引理1. 算法1中的FOCI非学习更新的梯度残差范数与经由（4）的完全非学习更新之间的差距，如（1）中所示，具有如[30]中所示的适当DP噪声。||∇F(wF−oci ，D′）||2−||F（wF−ull，D′）||二（十六）算法一：通过条件依赖学习-证据块选择数据：训练模型，梯度向量1F（w），2F（w），采样z′ 以遗忘。结果：模型w′，z′已删除。1. 对于j ∈ {1，. - 是的- 是的，m}扰动做N（0，σ）z′，j=z′+<$jlj，aj=f（z′，j）端2. 计算P=L-FOCI（lJ，aJ）。3. 计算2F（w′，z′）的有限差分.4. 更新：P=n<$F（w<$）−<$f（w<$，z）（13）时间复杂度为O（1）证据完整的证据在附录中。核心思想：由于我们只更新了一部分参数，所以其余部分的梯度不应该改变太多。对选定层的任何更改都只会以1/n的比例传播到其他层，并且关于该层的新激活的泰勒展开给出了结果。L-CODEC如何实现Unlearning加速？权重与各个滤波器/层的Lipschitz常数成比例的采样是优化中的一种既定方法，参见[17]。我们认为，L-编解码器计算-puts一个近似的最佳采样概率。在一个温和的假设下，w′=w+1H′−1f（w，z′）P（十四）得到了充分的支持，事实证明，我们的ap的正确性n−1wΘ′|P=wθ|P（15）计算增益。一个直接的观察是，现在我们正在进行采样，这增加了线性计算负载。然而，直接更新所有的参数需要O（d3）计算由于矩阵求逆，而这个过程需要O（md+dmlogm+p3），前向通过，FOCI算法，和随后的子集矩阵求逆。对于任何合理的设置，我们都有pd，因此这显然提供了重要的实际优势。近似（层/过滤器选择）过程可以被保证，使用最新开发的优化工具进行遗忘，参见[18]。通过调整[17]的结果，我们可以展示以下内容，总结我们基于切片的非学习过程的主要结果定理1. 假设逐层采样概率为非零。给定非学习参数δ，δ，Alg 1中的非学习过程是（δ′，δ′）忘了在哪里δ′> δ，δ′> δ表示遗忘所需的任意精度（超参数）。此外，迭代应用我们的算法收敛指数快速（在预期）w.r.t. 精度间隙，也就是说，需要（最多） O（log1log1）次迭代来输出这样的解，其中g gδ5.1. 理论分析根据定义，上述任何神经网络实际上都是一个马尔可夫链：我们知道，一层的输出然而，当针对具有大量样本的任务进行训练时，网络相对于特定样本的影响或虽然层的输出可以遵循马尔可夫链，但是gδ= δ′− δ> 0是能隙参数。我们的结果不同于Nesterov的加速度：我们不使用以前的迭代在动量或ODE类fash- ion;相反，在这里我们更接近原始对偶算法，其中知道非零坐标在对偶最佳解决方案可以用来加速原始收敛，见[9]。此外，由于我们的方法是随机的，因此可以使用用于非学习目的的RNN框架更好地建模动态，如[31]所示。在这里，我们不计算任何额外的东西，尽管它对未来的扩展是可行的。PPP10427∇L∈S∉⪰第三条我们估计Lipschitz常数的方法与[ 10 ]不同，在[ 10]中必须求解SDP-对于非学习应用程序来说非常不可行。我们的方法可以解释为求解一个简化形式的SDP提出，当适当的正则性条件的SDP的可行集得到满足。关于convexity的一点注记。现有的方法，保证删除和性能依赖于模型是凸的。然而，实际的深度学习应用涉及高度非凸函数。凸问题的非学习直觉直接适用于非凸非学习，还有一个技术假设：学习问题的最小化器满足二阶充分性（SOS）条件SOS保证，式（7）中的F（w），H（w），[28]是PSD，并且更新（8）是上升方向。关于W.R.T. U上的损失函数，使遗忘成为可能。非凸非学习的保证涉及明确地表征SOS点的子集（所谓梯度下降可以收敛到哪些点，参见[33]中的§1.3那么，一阶方法的极小值是否一般来说，这是不正确的，例如，当黑森是不确定的，H0，则更新本身可能不是上升方向w.r.t. 负的损失。在这里，标准的黑森改良-阳离子方案是适用的[35]，随后使用牛顿我们在训练过程中修复了权重衰减，充当了λ2正则化，并给出了近似λ-强凸性。我们还利用这一特性来平滑反演之前的Hes- sian，直观地扩展了关于强凸函数的自然有趣的是，这与[2]中的一个关键结论完全吻合：权重衰减严重影响了测量影响的质量，与我们的非凸性讨论一致。实施详情。由于我们只需要Hessian的一个子集，因此我们计算所选块内的参数之间的有限差。对于大型模型，即使是模型参数的子集也可能导致大型Hessian计算，因此我们根据需要将参数移动到CPU进行参数更新。通过最近邻进行CI测试的成对距离计算在GPU上进行[37]。我们的代码虽然没有显式优化，但实现了用于深度模型的非学习的合理运行时间，例如，在具有大约24M个参数的ResNet50模型上的人重新识别任务的一个非学习步骤花费大约3分钟。6. 通用ML设置我们首先了解L-CODEC和L-FOCI对马尔可夫毯识别的价值，并进展到涉及大型神经网络的典型非学习任务中的更多详细信息见附录。图3. L-CODEC与CODEC运行时比较，分别为每个CelebA属性识别足够的子集（成对的列，补充细节）。方法TPR原始数据FPR时间（s）特征图TPRFPR时间（s）[36个]0.750.505124.220.8750.00516.19L-CODEC + CIT1.000.50402.100.750.00117.29L-CODEC + L-FOCIN/A0.8330.500.464表1. 3D-Bullseye Markov Blanket识别。CIT代表了[36]中的模型。L-CODEC和L-FOCI都比最近的Markov Blanket识别方案运行得快得多。L-FOCI不适用于多维原始数据设置。L-CODEC评估。为了评估运行L-CODEC时在离散设置中获得的加速，我们为CelebA数据集作为辅助信息提供的特定属性构建马尔可夫毯。图3显示了通过FOCI和L-FOCI对每个属性进行马尔可夫毯选择的挂钟时间。马尔可夫毯式识别我们复制了[36]第5.3节中的实验设置，其中生成了地面真值图上的高维分布，并使用特征映射来降低维度并映射到潜在空间。表1总结了子集识别效率和运行时间。用L-CODEC替换条件互信息（CMI），我们看到运行时和马尔可夫毯识别在原始数据上都有明显的改进，并且在潜在特征空间中有可比的结果直接在特征空间中使用L-FOCI，我们识别了一个额外的虚假特征，它不是马尔可夫毯的一部分，但运行时间明显更快。Spurious Feature Regularization. 这种马尔可夫毯（MB）识别方案可以用来解决传统NN模型上的虚假特征效应。一种直接的方法是直接为我们想要正则化的每个潜在重要特征添加一个损失项，（θ）+SRS（θ）。然而，由于大量的外部因素S，这可能对训练产生不利影响。相反，我们使用L-FOCI来识别最小因子的集合，当条件时，使其余的条件独立。然后只需要包含S MB（Y）上的正则化子。我们评估一个简单的属性图像分类集-10428×图4.训练后的验证准确性，以预测CelebA数据集中的“无胡子”。（L到R）正则化的所有特征，一个随机子集，并通过FOCI。绿色表示具有该功能的数据的准确性，红色表示没有。使用CelebA数据集。我们在属性上运行L-FOCI，就像在我们的L-CODEC评估中一样，并在这些属性上使用一个简单精度项的梯度反射层进行正则化。结果见图。4清楚地表明，使用FOCI进行选择提供了最佳结果，保持了高的整体准确性，但也保持了具有/不具有相关属性的样本集的高准确性。7. L-FOCI机器学习7.1. 完全海森计算（Full Hessian Computation）对于简单的回归量，我们可以计算完整的Hessian，并比较传统的非学习更新，我们的L-FOCI更新和随机选择更新生成的结果。为了减少方差并显示最佳可能的随机选择，我们运行L-FOCI并为每个随机选择随机选择一个相同大小的集合。图5（左）显示了从MNIST中随机移除1000个样本的验证和残差准确度（10次运行的平均值）。我们是否选择了合理的子集？一个自然的问题是，如果我们有效地采取了更小的全局步骤，那么通过L-FOCI进行的子集选择是否比随机选择更好。我们的回答是肯定的，一个简单的比较与随机选择的大小等于由L-FOCI选择的集合。图5（左）示出了由L-FOCI进行的选择的样本梯度范数大于随机选择的样本梯度范数：清除该特定样本的模型子集对其最终损失具有较大影响，因此去除后的梯度范数较大。配方是否可扩展？我们从各种CIFAR-10模型中提取随机样本，并评估同一组超参数的性能。当模型大于逻辑回归时，估计完整的Hessian是不可行的，所以我们必须使用L-FOCI选择更新。图图5（右）显示了不同尺寸的许多典型型号的去除性能具有更高基本准确度的模型倾向于在性能之前支持更多的移除滴剂.这与差异私有模型的结果相匹配：泛化良好的模型可能没有过拟合，因此可能已经是私有的，允许“快速”遗忘。Tradeoff vs Retraining. 虽然我们的重点是重新训练不可行的设置，但在我们可以重新训练的情况下，我们将验证精度作为删除次数的函数进行比较。使用MNIST的一个子集，我们训练收敛，并使用我们的算法迭代地删除样本，在每一步进行完全再训练以进行比较。每个类有1000个训练样本，并合理设置隐私参数（k=0. 1，δ=0。01），我们支持大比例的删除，直到验证精度下降超过百分之几，见图。六、7.2. NLP模型我们现在使用LEDGAR [34]从基于Transformer的模型中擦除样本，LEDGAR是合同中法律条款的多标签语料库。我们使用的原型子集，其中包含110156条款有关的13个最常用的标签基于频率。我们的模型是一个微调的DistilBERT [29]，并使用[CLS]令牌作为分类头的输入。表. 7 b示出了擦洗来自两个不同类别的供应品的结果;在测试集中具有最高/最低支持的管辖法律和终止。正如预期的那样，随着时间的推移，即，较低的隐私保证，我们可以支持更多的删除数量的基础上，微F1得分的整体模型。微F1分数，为删除类迅速下降，而整体分数的变化是更加渐进的。7.3. 从预训练模型上述设置显示了可以从一个特定来源中删除样本的设置。一个更直接的应用unlearning是完全删除样本从一个特定的类;一个引人注目的用例是面部识别。我们利用VGGFace数据集和模型，从[21，27]中的原始工作中进行预训练。该模型使用了大约100万张图像来预测数据集中2622位名人的身份。使用来自每个人的100张图像的重建子集，我们首先在这个子集上微调模型5个时期，并使用所得模型作为Hessian的估计。在此设置中，VG- GFace模型非常大，包括大小为25088 4096的线性层。即使从该层中选择几个切片也会导致Hessian矩阵无法适合典型的内存。出于这个原因，我们运行一个“廉价”版本的L-FOCI：我们仅选择导致对输出损耗的最大条件依赖性的一个切片。图7a示出了对于强隐私保证为k=10- 5的数据集中来自一个个体的擦除连续图像的结果。随着清理的样本数量的增加，该类的性能下降得比残差集更快，完全符合预期。10429ϵ#支持执政规律清除量终端0.1>100>1000.01>100>1000.00118210.000567图5.（左）MNIST Logistic回归的残差精度样本梯度去除范数。平均超过10次跑步。（右）各种CIFAR-10模型的残差精度和样本梯度范数。图6. MNIST再培训比较平均超过8次运行。验证精度和剩余梯度范数。图7.（左）擦除精度和残差精度（每10个re-m ov als），适用于1e−5。残差集的精度下降是逐渐的，直到一定数量的去除。（右）洗涤Transformer型号，用于设备分类。7.4. 从人员重新识别模型中删除作为我们人脸识别实验的自然延伸，我们评估了为重新识别人物而在这里，任务是将属于特定个体但在不同相机设置中收集的图像关联起来，两者都属于同一相机或来自多个相机。在我们的实验中，我们使用Market-1501数据集[38]和针对任务训练的Resnet 50架构。我们一次一个地忘记属于特定人的样本，并检查模型的性能。实验结果与Transformer模型和VGGFace模型的结果一致。具有非常小的值，即0。取决于被移除的个人ID，所支持的移除的数量被限制为小于10。然而，对于较大的k值，例如，0的情况。1，所有潜在的样本可以被移除，而不会在mAP分数方面的模型性能中出现明显的下降。在图8中，我们清楚地看到，在为特定的人擦洗模型之后，它对该特定个体的预测变得毫无意义，而对其他个体的预测则图8.激活映射来自为左侧的人擦洗的模型（右侧集合未擦洗）。对于每个三元组，从（L到R）是原始图像、激活图及其图像覆盖。注意擦洗的效果：洗涤样品的活化显著改变（比较第2列和第3列），而未洗涤样品的活化保持稳定（比较第5列和第6列）。类仍然是可能的信心，如所期望的。附录中提供了使用不同数据集、模型架构和其他消融进行深度非学习的个人重新识别模型的广告实验8. 结论我们的选择方案确定了一个子集的参数更新，并显着降低了标准海森unlearning的计算要求。对于具有大量移除的较小网络我们展示了对视觉中普遍存在的大型模型进行近似遗忘的能力，这种能力迄今为止还没有得到证明。社会影响。在训练大型人工智能模型时不分青红皂白地使用个人数据在道德上是有问题的，有时甚至是非法的。我们需要机制来确保人工智能模型在社会和法律规定的界限内运行。随着选择退出法律的实施，服务提供商端的合规将带来成本。虽然我们的贡献不能保证完美的遗忘，但通过额外的验证，它们可以成为一系列忘却的方法致谢。这项工作得到了 NIH 基金 RF1AG059312 、RF1AG062336和RF1AG059869的支持，NSF奖CCF 1918211和来自威斯康星大学麦迪逊分校美国家庭保险数据科学研究所的资金。Sathya Ravi得到了UIC-ICR启动资金的支持。10430联系我们引用[1] 莫娜·阿扎基亚和索拉夫·查特吉。条件依赖的一个简单度量。arXiv预印本arXiv：1910.12327，2019。三、四[2] Samyadeep Basu，Phil Pope，and Soheil Feizi.深度学习中的影响函数是脆弱的。在2021年的学习代表国际会议上。6[3] David Bau，Bolei Zhou，Aditya Khosla，Aude Oliva，and Antonio Torralba.网络解剖：量化深层视觉表征的可解释性。在IEEE计算机视觉和模式识别会议论文集，第6541-6549页，2017年。2[4] Lucas Bourtoule、Varun Chandrasekaran、Christopher AChoquette-Choo、Hengrui Jia 、Adelin Travers 、 BaiwuZhang、David Lie和Nicolas Papernot。机器不学习2021年IEEE安全与隐私研讨会（SP），第141-159页。IEEE，2021。3[5] 曹银芝和杨俊峰去制造一个机器学习的系统2015年IEEE安全与隐私研讨会，第463-480页。IEEE，2015年。3[6] Nicholas Carlini、Samuel Deng、Sanjam Garg、SomeshJha 、 Saeed Mahloujifar 、 Mohammad Mahmoody 、Shuang Song、Abhradeep Thakurta和Florian Tramer。对因斯塔海德的攻击：通过实例编码可以实现私人学习吗？arXiv预印本arXiv：2011.05315，2020。1[7] 尼古拉斯·卡利尼、刘畅、乌尔法尔·埃尔林的儿子、杰尼·科斯和黎明之歌。秘密分享者：评估和测试神经网络中的无意识记忆。第 28 届 USENIX 安全研讨会（USENIX Security 19），第267-284页，2019年。1[8] 索拉夫·查特吉新的相关系数。美国统计协会杂志，0（0）：1-21，2020。4[9] Jelena Diakonikolas和Lorenzo Orecchia近似二元间隙技术：一阶方法的统一理论。 SIAM Journal onOptimization，29（1）：660-689，2019。5[10] Mahyar Fazlyab ，Alexander Robey ，Hamed Hassani，Man-fred Morari，and George J Pappas. 深度神经网络Lipschitz常数的高效准确估计。神经信息处理系统进展（NeurIPS），2019年。6[11] 露丝·方和安德里亚·维达尔迪Net2vec：量化和解释深度神经网络中的过滤器如何编码概念。在IEEE计算机视觉和模式识别会议论文集，第8730-8738页，2018年。2[12] FTC加州公司解决了FTC指控它欺骗消费者在照片存储应用程序中使用面部识别，2021年1月。1[13] A Ginart，M Guan，G Valiant和J Zou。让我忘记你：机器学习中的数据删除。神经信息处理系统的进展，2019。二、三[14] Aditya Golatkar ， Alessandro Ravichan-dran ， MarziaPolito，and Stefano Soatto.混合隐私-进入深层网络。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第792-801页，2021年6月。二、三[15] Aditya Golatkar，Alessandro Achille，and Stefano Soatto.永恒的阳光，一尘不染的网：深度网络中的选择性遗忘在IEEE/CVF计算机视觉和模式识别会议论文集，第9304- 9312页3[16] Aditya Golatkar，Alessandro Achille，and Stefano Soatto.忘记盒子外：从输入-输出观测中清理深层信息网络。欧洲计算机视觉会议，第383Springer，2020年。二、三[17] EduardGor b un ov， FilipHanzel y， andPeterRicht a'rik.sgd的统一理论：方差缩减、采样、量化和坐标下降。在人工智能和统计上，第680PMLR，2020年。5[18] Robert Mansel Gower ， Nicolas Loizou ， Xun Qian ，Alibek Sailanbay ev， EgorShulgin ， andPeterRicht a´ rik.Sgd ：一般分析和改善率。国际机器学习会议，第5200PMLR，2019年。5[19] Chuan Guo ， Tom Goldstein ， Awni Hannun ， andLaurens Van Der Maaten.从机器学习模型中删除认证数据。国际机器学习会议，第3832-3842页。PMLR，2020年。3[20] 茱尔斯哈维，亚当。拉普拉斯Exposing.ai，2021年。1[21] Gary B Huang，Marwan Mattar，Tamara Berg，and EricLearned-Miller.在野外贴上标签的脸：研究无约束环境中人脸识别的数据库。在“现实生活”图像中的面孔研讨会：检测、对准和识别，2008年。7[22] Zachary Izzo，Mary Anne Smart，Kamalika Chaudhuri和James Zou。从机器学习模型中删除近似数据。在人工智能和统计国际会议上，2008-2016页PMLR，2021年。3[23] 乌山雅之和竹内一郎。支持向量机的多重增量

下载后可阅读完整内容，剩余1页未读，立即下载