梯度方差估计示例难度及其在模型审计中的应用

123 浏览量更新于2023-10-25 收藏 21.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

103680使用梯度方差估计示例难度0Chirag AgarwalMDSR Lab, Adobe0chiragagarwall12@gmail.com0Daniel D’souzaML Collective0ddsouza@umich.edu0Sara HookerGoogle Research0shooker@google.com0摘要0在机器学习中，一个非常有趣的问题是了解哪些示例对模型的分类具有挑战性。识别非典型示例可以确保模型的安全部署，隔离需要进一步人工检查的样本，并提供对模型行为的解释。在这项工作中，我们提出了梯度方差（VoG）作为一种有价值且高效的指标，用于根据困难程度对数据进行排名，并提供一些相对较具挑战性的示例供人机协同审计。我们展示了高VoG分数的数据点对于模型的学习更加困难，并且在损坏或记忆示例上过度索引。此外，将评估限制在具有最低VoG的测试集实例上可以提高模型的泛化性能。最后，我们展示了VoG作为检测分布外样本的有价值和高效的排名方法。01. 引言0在过去的十年中，机器学习模型越来越多地被部署到诸如医疗保健[4, 20, 52,70]、自动驾驶汽车[51]和金融[53]等高风险决策应用中。为了赢得利益相关者和模型从业者的信任，深度神经网络（DNNs）需要做出对研究人员和最终用户都可解释的决策。为此，在敏感领域中，迫切需要可扩展的审计工具，帮助领域专家审计模型。当面临一些对模型来说相对更难学习的数据点子集时，推理模型行为通常更容易。除了通过基于案例的推理[11, 30,39]来帮助解释性外，它还可以用于提供一些可行的非典型示例供进一步人工审计[46,73]，用于主动学习以提供模型改进的信息，并在模型不确定时选择不对某些实例进行分类[7, 14,21]。人工审计的最大瓶颈之一是现代数据集的大规模和注释个别特征的成本[3, 38, 68]。自动化的方法0提供一些相对更具挑战性的示例供人工检查，以帮助优先考虑有限的人工注释和审计时间。尽管这种用例的紧迫性，但由于在高维特征空间中进行排名的计算成本，难度排名示例在深度神经网络的背景下得到的处理有限。0目前的工作。一种常用的可解释性工具是显著性图，其中输入数据的每个特征根据其对最终输出的贡献进行评分[64]。然而，这些解释通常是针对单个预测并在模型训练后生成的。我们的目标是利用这些解释来自动提供一些相对更具挑战性的示例供人工检查，以帮助优先考虑有限的人工注释和审计时间。为此，我们提出了一种跨所有示例的排名方法，该方法通过训练过程中解释的每个示例的变化来衡量。对于模型难以学习的示例，它们在训练过程中的梯度更新会表现出更高的方差。另一方面，相对较容易的示例的反向传播梯度将表现出较低的方差，因为这些示例的损失不会一直主导模型训练。我们将这种类别归一化的排名机制称为梯度方差（VoG），并证明VoG是一种通过困难程度对数据进行排名并在各种大规模数据集上为人机协同审计提供可行子集的有意义方法。VoG为模型更具挑战性的测试集示例分配更高的分数，并证明是检测分布外（OoD）样本的有效工具。VoG是模型和领域无关的，因为唯一需要的是模型的反向传播梯度。0贡献。我们在两种架构和三个数据集-Cifar-10，Cifar-100[43]和ImageNet[61]上展示了一致的结果。我们的贡献可以列举如下：01.我们提出了梯度方差（VoG）-一种用于确定给定类别内数据样本学习相对容易程度的类归一化梯度方差得分�1K103690类别（第2节）。VoG识别具有明显不同语义属性的图像集群，其中具有低VoG分数的图像具有较少杂乱的背景和更典型的对象视角（图4）。相反，具有高VoG分数的图像在具有杂乱背景和非典型对象视角的图像上过度索引。02.VoG有效地展示了记忆的示例，即它将更高的分数分配给需要记忆的图像（第4节）。此外，VoG有助于理解模型在不同训练阶段的行为，并提供对模型学习周期的洞察。03.我们展示了VoG作为一种OoD检测技术的可靠性，并将其性能与9种现有的OoD方法进行了比较，其中它胜过了几种方法，如PCA [24]和KDE [15,54]。与所有其他方法相比，VoG的精度总体提高了9.26%。02. VoG框架0我们考虑一个监督分类问题，其中DNN被训练来近似将输入变量X映射到输出变量Y，形式上为F：X →Y，其中Y是与每个输入X关联的离散标签向量，y∈Y对应于数据集中的C个类别或类。给定的输入图像X可以分解为一组像素xi，其中i = {1, ...,N}，N是图像中的总像素数。对于给定的图像，我们计算激活Alp相对于每个像素xi的梯度，其中l指定网络的预softmax层，p是真实或预测类别概率的索引。我们想指出的是，预softmax层负责将网络中的前一层的激活连接到各个类别得分。因此，计算相对于该类别索引得分的梯度测量了特征对最终类别预测的贡献[64]。请注意，我们的目标是对示例进行排名，因此对于每个示例，我们计算以预测/真实标签为索引的预softmax激活梯度相对于输入的梯度。这比计算具有单独层的完整Jacobian矩阵要计算效率高得多。设S是表示Alp相对于各个像素xi的梯度的矩阵，即对于大小为3×32×32的图像，梯度矩阵S的维度将为3×32×32。0S = ∂A l p0∂xi（1）0该公式可能会让人感到熟悉，因为它通常是基于训练模型的权重计算得出的，并以图像热图的形式进行可解释性目的的可视化[5, 31, 63, 64,0与本质上是局部解释工具的显著性图相比，我们利用训练过程中梯度的相对变化来全局排序所有示例。在解释性文献的几篇开创性论文[31,63-66]的基础上，我们对颜色通道进行平均，得到梯度矩阵[63-66]，其中S∈R32×32。对于给定的一组K个检查点，我们为所有单个检查点生成上述梯度矩阵S，即{S1，...，SK}。然后，我们通过取K个梯度矩阵的平均值来计算平均梯度µ。注意，µ是不同检查点之间的平均值，与梯度矩阵S具有相同的大小。然后，我们计算每个像素的梯度方差：0µ = 10t = 1 St. (2)0VoGp =0∑0t = 1 (St - µ)². (3)0我们对梯度的像素级方差进行平均，计算给定输入图像的标量VoG分数：0VoG = 10t = 1 (VoGp), (4)0其中N是给定图像中的像素总数。首先计算像素级梯度方差（公式3），然后对像素进行平均（公式4），这与先前的可解释人工智能工作一致，其中对图像的每个像素独立计算梯度[64-66]。为了考虑类别之间固有的方差差异，我们通过类别级别的VoG均值和标准差对绝对VoG分数进行归一化。这相当于问：给定图像相对于该类别的所有其他示例的梯度方差是多少？02.1. 在合成数据上验证VoG的行为0在图1a中，我们在一个受控的玩具示例设置中说明了VoG的原理和有效性。数据是使用两个独立的各向同性高斯簇生成的。在这样一个简单的低维问题中，模型难以分类的最具挑战性的示例可以通过与决策边界的距离来量化。在图1a中，我们可视化了一个具有单隐藏层的多层感知机（MLP）在训练了15个周期后的训练决策边界。我们计算每个训练数据点的VoG，并绘制每个点的最终VoG分数与到训练边界的距离的关系。在图1b中，我们可以看到VoG成功地将最接近决策边界的示例排名最高。10.07.52.50.02.5151050510103700特征-10特征-20类别-0类别-10(a) 玩具数据集训练的决策边界0(b) 距离 vs. VoG分数0图1.左：二维玩具问题中每个测试数据点的梯度方差（VoG）。右：VoG根据距离决策边界的最具挑战性的示例（通过垂直距离测量）给出更高的分数。0CIFAR-10；飞机CIFAR-100；苹果0最低 VoG 最高 VoG 最低 VoG 最高 VoG0(a) 训练早期阶段0(b) 训练后期0图2.5×5网格显示了Cifar-10和Cifar-100训练集中在早期（a）和晚期（b）训练阶段分别具有最低和最高VoG分数的前25个图像，这些图像是随机选择的两个类别。较低的VoG图像在晚期训练阶段（对于苹果和飞机）呈现出无杂乱背景。VoG还似乎捕捉到了早期训练阶段的颜色偏差，对于苹果（红色）和飞机来说都是如此。晚期训练阶段的VoG图像呈现出不寻常的视角，其中画面放大到感兴趣的对象上。0边界。最具挑战性的示例在训练过程中的梯度更新变化最大。在接下来的章节中，我们将扩展这个玩具问题，并展示在多个架构和数据集上得到一致的结果。02.2. 实验设置0数据集。我们在Cifar-10和Cifar-100 [43]以及ImageNet[61]数据集上评估我们的方法。对于所有数据集，我们计算训练集和测试集的VoG。103710Cifar训练。我们使用ResNet-18网络[25]来训练Cifar-10和Cifar-100。对于每个数据集，我们使用随机梯度下降（SGD）训练模型350个周期，并在每10个周期计算一次样本的输入梯度。我们通过应用裁剪和水平翻转输入图像来实现标准的数据增强。我们使用基本学习率调度为0.1，并在第150个和第250个训练周期自适应地改变为0.01和0.001。Cifar-10和Cifar-100的前1个测试集准确率分别为89.57%和66.86%。0ImageNet训练。我们使用ResNet-50[25]模型在ImageNet上进行训练。网络使用批归一化[35]、权重衰减、逐渐减小的学习率计划和增强的训练数据进行训练。我们在ImageNet上进行32,000步（约90个时期）的训练，批量大小为1024。我们在训练过程中存储32个检查点，但实际上观察到使用仅3个检查点计算的VoG排名非常稳定。我们的模型在ImageNet上达到了76.68%的top-1准确率和93.29%的top-5准确率。0检查点数量。用于计算VoG的检查点数量在实践中平衡了从业者使用的效率和排名的鲁棒性。这可以由从业者设置，我们注意到在实践中，最后3个检查点足以获得稳健的VoG排名（在图5b、8b、11b中限制为最后3个与在图4中评估所有检查点时的差异最小）。对于所有实验，VoG（早期阶段）使用来自前3个时期的检查点进行计算，VoG（后期阶段）使用来自最后3个时期的检查点进行计算。早期阶段的测试集准确率分别为Cifar-10、Cifar-100和ImageNet的44.65%、14.16%和51.87%。后期阶段分别为89.57%、66.86%和76.68%。03. VoG作为审计工具的实用性0在本节中，我们评估VoG作为审计工具的优点。具体而言，我们（1）展示VoG谱两端图像的定性属性，（2）衡量VoG在区分简单示例和困难示例方面的区分能力，（3）量化VoG排名的稳定性，（4）将VoG用作测试数据集的审计工具，以及（5）利用VoG了解DNN的训练动态。01）排名的定性检查。对具有高和低VoG得分的示例进行定性检查显示，排名两端的图像具有明显的语义属性。我们可视化了根据VoG对整个数据集（在图7中可视化为ImageNet）和特定类别（在图3中可视化为ImageNet，以及在图2中可视化为Cifar-10和Cifar-100）进行最低和最高排名的25个图像。得分较低的VoG的图像倾向于具有整洁且通常是白色的背景，感兴趣的对象在画面中清晰地居中。得分较高的VoG的图像具有杂乱的背景，并且很难从背景中区分出感兴趣的对象。我们还注意到，得分较高的VoG的图像倾向于具有对象的非典型视角，例如高度放大的画面、对象的侧面轮廓或从上方拍摄的镜头。通常，感兴趣的对象部分被遮挡或存在图像损坏，例如严重模糊。0得分较低的VoG的图像具有整洁且通常是白色的背景，感兴趣的对象在画面中清晰地居中。得分较高的VoG的图像具有杂乱的背景，并且很难从背景中区分出感兴趣的对象。我们还注意到，得分较高的VoG的图像倾向于具有对象的非典型视角，例如高度放大的画面、对象的侧面轮廓或从上方拍摄的镜头。通常，感兴趣的对象部分被遮挡或存在图像损坏，例如严重模糊。02）测试集错误和VoG。一个审计工具的一个有价值的属性是有效地区分简单和具有挑战性的示例。在图4中，我们绘制了按VoG十分位分组的示例的测试集错误。请注意，我们绘制错误，因此较低的错误率更好。我们显示VoG最低百分位的示例具有较低的错误率，并且随着VoG分数的增加，误分类增加。我们的结果在所有数据集上都是一致的，但对于更复杂的数据集（如Cifar-100和ImageNet），这种趋势更加明显。我们将此归因于底层模型复杂性的差异。此外，在图10中，我们观察到最低VoG得分图像的测试集错误低于基线测试集性能。03）VoG排名的稳定性。为了建立与最终用户的信任，任何审计工具的一个关键可取的属性是性能的一致性。我们期望对于给定的模型和数据集，一个一致的方法能够产生一个具有紧密边界分布的分数排名，这个方法在独立训练的运行中具有一致的分布。为了衡量VoG排名的一致性，我们从随机初始化训练了五个Cifar-10网络，遵循第2.2节中描述的训练方法。根据经验，图6显示VoG排名在给定相同模型和数据集的情况下表现出一致的测试错误分布。为了完整起见，我们还通过计算10个独立初始化的50kCifar-10样本的VoG分数的标准差来衡量VoG得分的实例稳定性。VoG得分的标准差非常小，平均偏差为3.81e-9。0对于所有样本，我们发现Cifar-100数据集的输出VoG分数也是稳定的（不同模型初始化的平均标准差为9.6e-6）。最后，我们扩展了稳定性实验，以了解不同训练超参数设置（例如批量大小）对VoG分数的影响。在这里，我们使用不同的批量大小（即{128，256，384，512，640}）训练了5个Cifar-10模型，并发现在50kCifar-10样本中，VoG标准差的平均值为1.9e-5。04）VoG作为一种无监督的审计工具。许多用于评估和理解可能的模型偏差的审计工具需要具有受保护属性和潜在变量的标签的存在。然而，在现实世界的环境中，这是非常不可行的[68]。对于图像和语言数据集，问题的高维度使得很难预先确定需要注意的潜在变量。即使获取受法律保护的有限数量的属性（如性别、种族）的标签也是昂贵的和/或可能被视为侵入性的，导致噪声或不完整的标签[2，29]。这意味着在测试时不需要标签的排名技术非常有价值。01090 1000246820010 290 10002468001090 10023456275) VoG understands early and late training dynamics.Recent works have shown that there are distinct stagesto training in deep neural networks [1, 17, 36, 49]. To this103720最低VoG 最高VoG 最低VoG 最高VoG0喜鹊汽水瓶0图3.每个5×5的网格显示了类别“喜鹊”和“汽水瓶”的前25个ImageNet训练集图像中VoG分数最低和最高的图像。具有较高VoG分数的训练集图像倾向于具有放大的图像、非典型的颜色方案和视角。0VOG百分位数范围0%top-1测试集错误0（a）Cifar-100VOG百分位数范围0%top-1测试集错误0（b）Cifar-1000VOG百分位数范围0%top-1测试集错误0（c）ImageNet0图4.VoG分数百分位数阈值化的平均top-1测试集错误（y轴）。在Cifar-10、Cifar-100和ImageNet中，随着VoG分数的增加，误分类率也增加。在所有数据集中，百分位数VoG分数最高的样本组具有最高的错误率，即包含最多的误分类样本。05）VoG理解早期和晚期的训练动态。最近的研究表明，深度神经网络的训练过程中存在着不同的阶段[1，17，36，49]。对于这个问题，我们0VoG的一个关键优势是，我们证明了即使在计算梯度时使用的是预测标签，它仍然能够产生可靠的排名。在图7中，我们使用模型预测的标签包括了VoGImageNet测试图像的前25个和后25个。最后，我们还计算了预测VoG分布的平均测试错误，并发现它也能有效区分前10个和后10个示例（图12a）。0最后，我们研究了VoG排名是否对训练过程的阶段敏感。我们分别计算了训练过程的两个不同阶段的VoG：（i）早期阶段（前三个时期）和（ii）晚期阶段（最后三个时期）。我们在早期和晚期的每个十分位数上绘制了VoG分数与测试集错误之间的关系，并发现在所有数据集和网络中都存在翻转行为（图5为ImageNet，图8为Cifar-100，图11为Cifar-10）。在早期训练阶段，具有较高VoG分数的样本具有较低的平均错误率，因为梯度更新依赖于简单的示例。这种现象在训练的晚期阶段发生了逆转，在所有数据集中，晚期的高VoG分数具有最高的错误率，因为对具有挑战性示例的更新主导了方差的计算。此外，我们注意到在训练的早期和晚期计算的图像排名之间存在明显的视觉差异。如图2所示，对于一些类别，例如“苹果”，VoG分数也会出现01090 100505001090 1005.07.50.02.55.07.5103730VoG百分位数范围0％top-1测试集错误0（a）早期训练0VoG百分位数范围0％top-1测试集错误0（b）后期训练0图5.在ImageNet验证集中，VoG分数百分位数（x轴）阈值化的示例的平均top-1测试集错误（y轴）。早期（a）和后期（b）阶段的VoG分析显示了相反的行为，随着训练的进行，VoG的作用发生了变化。0图6.从随机初始化独立训练的五个ResNet-18网络在Cifar-10上的VoGtop-1测试集错误。该图显示VoG在每个百分位数上产生了稳定的排名，并且在所有图像上具有类似的错误分布。0在早期训练阶段，VoG分数最低的图像在红色苹果上过度索引，以捕捉网络的颜色偏差。04.VoG分数与记忆/超出分布范围示例之间的关系0最近的研究强调，DNN产生的未校准的输出概率不能被解释为确定性的度量[22, 26, 37,44]。为此，我们认为如果VoG是一种可靠的审计工具，即使在输出概率中没有反映出来，它也应该捕捉到模型的不确定性。我们考虑网络在一个任务上的VoG排名，在该任务中网络对不正确/超出分布范围的输入产生高度自信的预测，并在两个单独的任务上评估VoG：（1）识别被记忆的示例0模型和（2）检测超出分布范围的示例。04.1.浮出需要记忆的示例0过参数化网络已被证明可以通过记忆示例来实现零训练误差[19, 32,72]。我们探索VoG是否能够区分需要记忆的示例和数据集的其余部分。为此，我们复制了Zhang等人[72]的一般实验设置，并将训练集中所有标签的20％替换为随机洗牌的标签。我们从随机初始化重新训练模型，并计算训练集中所有示例的VoG分数。我们的网络实现了0％的训练误差，这只有在成功记忆带有洗牌标签的噪声示例的情况下才可能。现在我们回答这个问题：VoG能够区分这些记忆示例和数据集的其余部分吗？0我们进行了一个不等方差的双样本t检验[69]，并显示这种差异在p值为0.001的显著水平上是统计显著的，即洗牌标签的VoG分布与非洗牌数据集不同。直观地说，双样本t检验产生一个p值，可以用来决定两个VoG分数分布之间是否存在显著差异。p值表示样本均值之间差异较大的概率，即p值越小，两个总体均值之间的差异越大的证据越强。对于Cifar-10和Cifar-100，我们发现VoG分数在每个总体中存在显著差异（p值<0.001），这表明VoG在区分记忆和非记忆示例方面具有辨别能力。有关统计测试的更多细节，请参见第C节。0.00010.00010.00010.00010.0001GT: cornetPT: cornet0.00030.00030.00030.00040.00040.00050.00050.00050.00056.20696.19016.09196.05586.04516.03655.90845.88205.81615.79765.75095.71245.66105.62085.58395.5771102080908688909294969810010208090020406080100103740GT: 豹 PT:豹00.0001GT: 火炬PT: 火炬0GT: 面团PT: 面团0GT: 雪地摩托 PT:雪地摩托0GT: 英国牧羊犬 PT:英国牧羊犬0GT: 飞艇PT: 飞艇0GT: 城堡PT: 城堡0GT: 蟒蛇 PT: 蟒蛇0GT：战斗机PT：战斗机0GT：意式浓缩咖啡机PT：意式浓缩咖啡机0GT：天文馆PT：天文馆0GT：美洲龙虾PT：美洲龙虾0GT：游泳帽PT：游泳帽0GT：餐桌0GT：橙子PT：橙子0GT：美洲短吻鳄PT：美洲短吻鳄0GT：孔雀PT：孔雀0GT：宫殿PT：宫殿0GT：浴缸0GT：冰箱PT：冰箱0PT：卡带播放器0GT：布伦海姆猎犬PT：布伦海姆猎犬0（a）最低VoG0GT：蜻蜓PT：蜻蜓0GT：疣猪PT：疣猪0GT：餐厅PT：水瓶0PT：画笔0GT：蜂虎PT：蜂虎0GT：冰淇淋PT：冰淇淋0GT：针鼹鼠PT：针鼹鼠0GT：马车0PT：卡丁车05.9293GT：猪PT：猪0GT：快艇PT：快艇0GT：狮子鱼PT：海狮0GT：敞篷车0GT：帝王蝶0PT：钢笔0GT：车后视镜0PT：橡皮擦0GT：猕猴0GT：软毛..0PT：藏獒..0GT：蝾螈PT：蝾螈0GT：横杆PT：双杠0GT：朝鲜蓟PT：搅拌碗0GT：湾雪橇犬0PT：品瑟犬05.4728GT：盘子PT：炒锅0（b）最高VoG0图7.每个5×5网格显示了最低和最高VoG分数的前25个ImageNet测试集图像，用于预测的类别的top-1。具有较高VoG分数的测试集图像倾向于呈现放大的图像，并且与较低VoG图像相比，被错误分类更多，后者倾向于呈现更具原型视角的对象。0VoG百分位范围0%top-1测试集错误率0（a）早期训练阶段0VoG百分位范围0%top-1测试集错误率0（b）晚期训练阶段0图8.CIFAR-100测试集中VoG得分百分位阈值化的平均top-1测试集错误率（y轴）。（a）和（b）分别为早期和晚期阶段的VoG分析结果，显示了VoG在训练过程中的角色翻转。CIFAR-10的结果显示在附录图11中。04.2. OoD检测0我们已经确定VoG在区分简单和具有挑战性的示例方面非常有效（图10）。在这里，我们想知道这是否使VoG成为一种有效的0分布外（OoD）检测工具。它还为我们提供了一个与其他方法比较VoG作为排序机制的设置。0Ruff等人[59]在MNIST-C[50]上对各种OoD检测技术进行了基准测试。为了完整起见，我们复制了这个实验。103750Ruff等人[59]使用训练好的LeNet模型，在MNIST-C上评估了VoG与其他9种方法[12, 41, 45, 56-58, 60, 62, 67]。0评估指标。我们使用以下指标评估OoD检测性能：0i) AUROC.面积在接收者操作特征（AUROC）曲线下的计算，可以解释为正例被分配比负例更高的检测分数的概率[ 18 ]。0ii) AUPR (In).面积在精确率-召回率（AUPR）曲线下的计算，通过将内部分布的示例视为正类来计算不同概率阈值的精确率-召回率对。0iii) AUPR (Out).AUPR（Out）是如上所述的AUPR，但是在计算AUPR（Out）时，将OoD示例视为正类。我们通过将VoG分数乘以-1并在计算AUPR（Out）时将其标记为正类来将此异常类视为正类。0表1.VoG与9种现有的OoD检测方法的比较。显示的是MNIST-C数据集中15种损坏情况下指标的平均值和标准差。箭头（↑）表示更好的指标表现方向。VoG在大多数基准方法上表现出色。0OoD方法 AUROC（↑） AUPR OUT（↑）0KDE [ 57 ] 57.46 ± 32.09 62.56 ± 24.16 MVE [ 58 ] 62.84 ±21.92 61.42 ± 19.1 DOCC [ 60 ] 69.16 ± 28.35 70.37 ±23.25 kPCA [ 12 ] 72.12 ± 31.00. 75.39 ± 26.37 SVDD [ 67 ]74.01 ± 21.39 73.33 ± 21.98 PCA [ 56 ] 77.71 ± 30.90 80.86± 25.2 Gaussian [ 45 ] 80.57 ± 29.71 84.51 ± 22.62 VoG85.42 ± 10.28. 84.96 ± 9.61 AE [ 41 ] 89.89 ± 18.52 89.99 ±18.19 AEGAN [ 62 ] 95.93 ± 7.90. 95.40 ± 9.460发现。从表1中可以看出，除了自动编码器（AE）和自动编码器生成对抗网络（AEGAN）之外，VoG优于所有方法。与VoG形成鲜明对比的是，AE和AEGAN需要对辅助模型进行复杂的训练，并且无法扩展到像MNIST这样的小规模数据集之外。鉴于这些限制，VoG仍然是一种有价值且可扩展的OoD检测方法，因为它可以用于大规模数据集（例如ImageNet）和网络（例如ResNet-50）。与生成模型不同，VoG不需要一个未受损的训练数据集来学习图像分布。此外，VoG仅利用训练数据本身，从已存储的训练过程中的检查点计算，不需要真实标签进行排序。05. 相关工作0我们的工作提出了一种通过估计示例难度来对训练和测试数据进行排序的方法。鉴于当前数据集的规模，这可以成为一种强大的可解释性工具，用于隔离出一部分可处理的示例，以进行人机协同审计，并帮助课程学习[ 8]或区分不确定性来源[ 16 , 33]。虽然之前的研究提出了不同的子集概念，介绍了数据集中的原型和典型示例的概念，但没有专注于大规模深度神经网络模型[ 9 , 13 , 39 , 40 , 73]。与之前的工作不同，我们提出了一种可以通过估计示例难度来扩展到整个数据集的度量方法（而不是提取典型子集）。此外，VoG比其他全局排序方法如[ 42 ]和[ 23]更高效。VoG也不需要修改架构或对输入分布的统计做任何假设。特别是，像[ 39]这样的工作需要对输入分布的统计做出假设，而[ 47]需要修改架构以在前缀中添加自动编码器来提取一组原型，[ 55 ]利用模型修剪来识别困难示例，而[ 6]则需要在每个层后添加一个辅助k-nn模型。我们的工作与[36]最近的工作互补，后者提出了一种通过将示例与训练实例对齐来对示例进行排序的c-score，[ 30]根据对模型容量变化的敏感性将示例分类为异常值，[ 10]则考虑了不同的度量来隔离原型以对整个数据集进行排序。我们注意到，[ 36]提出的c-score方法在计算上比VoG更加计算密集，因为它需要对每个数据集进行多达20,000次网络复制训练。[ 10]考虑的几种原型方法需要训练模型集合，与压缩敏感性度量提出的[ 30]一样。最后，我们提出的VoG在公式上与其他方法不同，并且可以使用在训练过程中保存的少量现有检查点进行计算。06. 结论和未来工作0在这项工作中，我们提出了VoG作为一种有价值和高效的方法，通过难度对数据进行排序，并展示了最具挑战性的示例子集以供人类审核。高VoG样本对于算法的分类具有挑战性，并呈现出具有明显视觉特性的图像聚类。此外，VoG是领域无关的，因为它仅使用模型的基本梯度解释，并且可以用于对训练和测试示例进行排序。我们还展示了它是一个有用的无监督协议，因为它可以有效地使用预测标签对示例进行排序。103760参考文献0[1] Alessandro Achille, Matteo Rovere, 和 StefanoSoatto. 深度网络中的关键学习时期. 《ICLR》, 2019. 50[2] McKane Andrus, Elena Spitzer, Jeffrey Brown, 和Alice Xiang. “我们无法测量，我们无法理解”:在追求公平性中获取人口统计数据的挑战. 《CoRR》,abs/2011.02282, 2020. 50[3] McKane Andrus, Elena Spitzer, Jeffrey Brown, 和Alice Xiang. “我们无法测量，我们无法理解”:在追求公平性中获取人口统计数据的挑战. 《FAccT》,2021. 10[4] Marcus A Badgeley, John R Zech, Luke Oakden-Rayner, Benjamin S Glicksberg, Manway Liu, WilliamGale, Michael V McConnell, Bethany Per- cha, ThomasM Snyder, 和 Joel T Dudley.利用混淆的患者和医疗保健变量预测髋骨骨折的深度学习.《NPJ Digital Medicine》, 2019. 10[5] David Baehrens, Timon Schroeter, StefanHarmeling, Motoaki Kawanabe, Katja Hansen, 和Klaus-Robert M ˜ Aˇzller. 如何解释个体分类决策.《JMLR》, 2010. 20[6] Robert J. N. Baldock, Hartmut Maennel, 和Behnam Neyshabur. 通过例子难度的深度学习.《CoRR》, abs/2106.09647, 2021. 80[7] Peter L. Bartlett 和 Marten H. Wegkamp.使用铰链损失的带有拒绝选项的分类. 《JMLR》, 2008. 10[8] Yoshua Bengio, J´erˆome Louradour, RonanCollobert, 和 Jason Weston. 课程学习. 《ICML》, 2009.80[9] Jacob Bien 和 Robert Tibshirani.可解释分类的原型选择. 《应用统计学年鉴》, 2011. 80[10] Nicholas Carlini, Ulfar Erlingsson, 和 NicolasPapernot. 机器学习中的分布密度、尾部和异常值:度量和应用. 《arXiv》, 2019. 80[11] Rich Caruana. 人工神经网络的基于案例的解释.《医学和生物领域的人工神经网络》, 2000. 10[12] Raghavendra Chalapathy, Aditya Krishna Menon,和 Sanjay Chawla. 强大、深入和归纳性异常检测.《机器学习和知识发现的欧洲联合会议》, 2017. 80[13] Haw-Shiuan Chang, Erik Learned-Miller, 和Andrew McCallum. 主动偏差:通过强调高方差样本来训练更准确的神经网络.《NeurIPS》, 2017. 80[14] Corinna Cortes, Giulia DeSalvo, 和 Mehryar Mohri.弃权的增强. 《NeurIPS》, 2016. 10[15] Richard A Davis, Keh-Shin Lii, 和 Dimitris N Poli-tis. 关于一些非参数密度函数估计的注释. 《Murray Rosen-blatt的选集》. Springer, 2011. 20[16] Daniel D’souza, Zach Nussbaum, Chirag Agarwal,和 Sara Hooker. 两个长尾的故事, 2021. 80[17] Fartash Faghri, David Duvenaud, David J Fleet, 和Jimmy Ba. 深度学习中梯度方差的研究. 《arXiv》, 2020. 50[18] Tom Fawcett. ROC分析入门. 《模式识别通讯》,2006. 80[19] Vitaly Feldman. 学习需要记忆吗?一个关于长尾的简短故事. 《ACMSIGACT计算理论研讨会》, 2020. 60[20] Ross Gruetzemacher，Ashish Gupta和David B.Paradice. 用于检测CT扫描中肺结节的3D深度学习.在JAMIA，2018年. 10[21] Abhijit Guha Roy，Jie Ren，ShekoofehAzizi，Aaron Loh，Vivek Natarajan，BasilMustafa，Nick Pawlowski，Jan Freyberg，YuanLiu，Zach Beaver，Nam Vo，Peggy Bui，SamanthaWinter，Patricia MacWilliams，Greg S.Corrado，Umesh Telang，Yun Liu，TaylanCemgil，Alan Karthikesalingam，BalajiLakshminarayanan和Jim Winkens.你的皮肤科分类器知道它不知道的东西吗？检测未见条件的0[22] 郭川，Geoff Pleiss，孙宇和Kilian Q Weinberger.关于现代神经网络的校准. 在ICML，2017年. 60[23] Hrayr Harutyunyan，Alessandro Achille，GiovanniPaolini，Orchid Majumder，AvinashRavichandran，Rahul Bhotika和Stefano Soatto.估计具有平滑唯一信息的样本信息性. 在ICLR，2021年. 80[24] Douglas M. Hawkins.使用主成分检测多元数据中的错误. 在Journal of theAmerican Statistical Association，1974年. 20[25] Kaiming He，Xiangyu Zhang，ShaoqingRen和Jian Sun. 深度残差学习用于图像识别.在CVPR，2016年. 4 , 140[26] Dan Hendrycks和Kevin Gimpel.检测神经网络中错误分类和超出分布的基准. ICLR，2017年. 6 , 140[27] Dan Hendrycks，Xiaoyuan Liu，EricWallace，Adam Dziedzic，Rishabh Krishnan和DawnSong. 预训练的Transformer改善了超出分布的鲁棒性.页面arXiv，2020年. 14103770[28] Dan Hendrycks，Kevin Zhao，StevenBasart，Jacob Steinhardt和Dawn Song. 自然对抗样本.在CVPR，2021年. 130[29] Sara Hooker. 超越“算法偏见是数据问题”.Patterns，2(4):100241，2021年. 50[30] Sara Hooker，Aaron Courville，GregoryClark，Yann Dauphin和Andrea Frome.压缩深度神经网络会忘记什么？arXiv，2019年. 1 , 80[31] Sara Hooker，Dumitru Erhan，Pieter-JanKindermans和Been Kim.深度神经网络中可解释性方法的基准. 在NeurIPS，2019年. 20[32] Sara Hooker，Nyalleng Moorosi，GregoryClark，Samy Bengio和Emily Denton.压缩模型中的偏差特征. arXiv，2020年. 60[33] Niel Teng Hu，Xinyu Hu，Rosanne Liu，SaraHooker和Jason Yosinski.何时基于损失的优先级排序失败？2021年. 80[34]

下载后可阅读完整内容，剩余1页未读，立即下载