人类的不确定性与分类的稳健性

167 浏览量更新于2023-10-12 收藏 676KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9617人类的不确定性使得分类更加稳健约书亚CPeterson*，Ruairidh M.Battleday*，Thomas L.格里菲思，奥尔加Russakovsky普林斯顿大学，计算机科学{joshuacp，battleday，tomg，olgarus}@ cs.princeton.edu摘要深度神经网络的分类性能已经开始接近完美水平。然而，它们在训练集之外泛化的能力和对对抗性攻击的鲁棒性却没有。在本文中，我们通过使用反映人类感知不确定性的完整标签分布进行训练，在这个问题上取得了进展。我们首先提出了一个新的基准数据集，我们称之为CIFAR10H，包含CIFAR10测试集的每个图像的人类标签的完整分布。然后，我们表明，虽然当代分类器无法自己表现出类似人类的不确定性，但对我们的数据集进行显式训练可以弥补这一差距，支持改进的泛化到越来越多的训练分布测试数据集，并赋予对抗性攻击的鲁棒性。1. 介绍在自然图像分类基准测试中，最先进的卷积神经网络（CNN）模型被认为等同于甚至超过了人类的表现，如根据“前1精度”测量的-模型指示的最可能的标签与用于保持图像的测试集的“基本事实”标签之间的对应性。随着准确性的提高已经开始在接近完美的水平上逐渐接近[11]，人们越来越关注训练集外的性能-特别是概括相关刺激的能力[39]，以及对抗性示例的鲁棒性[29]。相比之下，在这些任务上，CNN往往表现得相当差，而人类则表现得很好。为了解决这个问题，并为训练分类器提供更好的标准，我们提出了一个替代目标：不仅仅试图捕获最可能的标签，而是试图捕获标签上的完整分布。分类中的错误可能与正确答案一样具有信息性-例如，将狗与猫混淆的网络可能被判断为比将其与卡车混淆的网络更好地概括* 贡献相同人类自信- CNN不确定0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9人类不确定- CNN自信0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9分布一般0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 90 - 飞机2-鸟4-鹿6-蛙8 -船1 - 汽车3-猫5-狗7-马9 -卡车图1：CIFAR 10图像，人类和我们最好的传统训练CNN（Shake-Shake [11]）在他们的最高猜测中一致，但在其他选择上系统性地不同。(see[1]）。事实上，考虑图1所示的例子，其中CNN可能是不自信的，过度自信的，或系统性错误的，但仍然获得了完美的准确性分数。捕获这种相似性结构是有效泛化的关键部分[19]，也是为现实世界应用构建分类模型时的重要考虑因素，例如，无人驾驶汽车中的物体回避。CNN嗡嗡声CNN嗡嗡声CNN嗡嗡声9618预测更完整的标签分布需要首先测量这些分布。鉴于我们无法直接从世界中提取地面真实感知相似性，人类的分类行为是这种比较的自然事实上，人类对物体的类别往往缺乏共识，人类的错误往往传达了关于视觉世界结构的重要信息[31]。除了补充训练范例之外，从人类那里收集这些完整的标签分布，以更好地模拟人类的偏见并预测他们的错误本身就很有趣-这次，例如，帮助无人驾驶汽车推断附近人类驾驶员的行动最后，尽管已经有很多工作扩展了数据集中的图像数量[18]，并调查了标签噪声[40，12，48]，但几乎没有努力确定增加图像分类任务（信息）标签分布的丰富性的好处。为此，我们作出以下贡献：• 我们提出了一个新的软标签数据集，我们称之为CIFAR10H，包括整个10000图像CIFAR10测试集的完整标签分布，利用超过500k的众包人类分类判断。• 我们表明，当使用这些软标签训练最先进的CNN分类器时，它们比硬标签控制更好地泛化• 我们提出了一个性能基准评估模型适合人类标签，并表明使用替代标签分布训练的模型不近似人类的不确定性也是如此。• 我们表明，当CNN被训练成在这个基准上表现良好时，它们对对抗性攻击的抵抗力明显更总之，我们的研究结果支持模型泛化行为的更细粒度的评估，并证明了一种将人类感知相似性整合到训练分类器的范例中的方法的潜在效用。2. 相关工作分层分类。关于使用类混淆或层次结构来提高分类准确性或鲁棒性的工作可以追溯到例如，格里芬和佩洛纳[14]，马尔萨莱克和施密德[34]，或茨威格和韦恩-沙尔[53]。类标签层次结构已经被用于实现例如，共享表示[47，9，22]，有效组合模型[23]，或通过分层预测提高分类精度[32，8]。基准偶尔会提出使用分层指标进行评估（例如，ILSVRC 2010和2011的分层错误率[41]）。总的来说，虽然主流范式专注于评估前K精度，而不是分析系统的错误，和层次结构已被用于大多数的训练。我们认为是时候重新考虑这一点了。首先，现代大规模开放世界复杂数据集不再保证对象类不重叠[26]，这使得层次类混淆特别有意义。其次，现有方法在top-K准确度方面变得非常好，因此越来越多地关注它们对对抗性示例[44，13，2]或分布偏移[45，39]的鲁棒性。在这项工作中，我们提出了我们的知识，第一次大规模的评估人类的不确定性在图像分类的推广。知识蒸馏。用于辅助识别的标签层次结构可以手动构建[6，3]，从语言知识库中导出[10，9]，或自动学习[14，19]。我们的工作最接近前者（人工构造），尽管我们没有明确地构造一个类层次结构，而是依赖于人类对类之间的混淆来推断给定图像的类之间的关系。虽然是从人类的困惑中衍生出来的在知识蒸馏中，这些标签由来自预训练分类模型的平滑softmax概率提供。当软标签与地面实况相结合时，实现了一种形式的模型传输和压缩，因为softmax概率携带关键信息。这个过程的原理与我们自己的相似：网络（和人类）通过将关于相似性结构的重要信息提取到我们在图像及其类别上推断的分布中而获得很大的鲁棒性。然而，使用网络来提供它们（即，知识蒸馏的标准应用）本身就有问题，没有一个黄金标准来比较：不能保证模型已经学习的相似性结构是正确的。软标签。我们的工作的核心贡献之一是围绕使用通过人类混淆提供的软标签作为一个热标签编码的替代。已经提出了几种方法作为独热编码的替代，例如，在大规模的1000+方式分类过程中使用分类法来平滑前1个标签[43]，或者将测试时的人类不确定性纳入协作计算机视觉系统[4]。mixup[51]是最近开发的另一种方法，用于基于示例对及其硬标签的凸组合自动生成软标签，并且已被证明可以在减少记忆的同时提高泛化和对抗鲁棒性。然而，由于线性约束在所有类别对上都是恒定的，并且标签是独热的，因此很难看出这种标签中的柔软度如何是感知相似性的完全9619i=1i=1j=1人类研究。最后，还有一些研究也使用人类专家在相关分类领域（如医疗诊断系统）的训练标签上虽然这些研究提出的理论案例支持我们自己的，但它们并没有为评估其他分类模型提供大规模的测试平台。值得注意的是，人类不确定性标签通常我们必须依靠人类作为提供p（y）的良好估计的金标准|X）。如果我们期望人类图像标签分布phum（y|x）为了更好地反映给定图像的类别上的自然分布，我们可以将其用作p（y）的改进估计器|X）。在f θ（x）是分布p θ（y）的情况下，|x）和L（f，x，y）为负对数似然，期望损失约化为人的交叉熵分布以及由分类器预测的：第大部分众包工作都集中在调和人类标签和减轻他们的分歧（参见，Ko- vashka等人[25]一个调查。我们的方法建议利用这些人类分歧来提高准确性1Σm− mj=1Σphum（yj=c|xj）logpθ（yj=c|xj）。（三）C和鲁棒性的模型，补充现有的工作这意味着，收集培训旨在利用对{xi，yi}n是从phum（y）中采样|X）。我们3. 从标签到标签分发图像分类任务的标准做法是使用常见基准数据集中提供的“地面实况”标签进行训练虽然在许多情况下，这是一个有用的简化，我们认为，这种近似介绍了一个偏见的学习框架，具有重要的分布的影响。要看到这一点，首先考虑下面给出的训练期间的Σn数据集直接提供此分布，因此模型可以在人类标签上训练或针对它们进行评估，或者更好地近似p（y|x）自然图像被发现。反过来，更好地近似这种底层数据分布应该被期望提供更好的泛化和鲁棒性。4. 数据集构建虽然大规模的流行数据集，如 Ima-geNet [41]，Places [52]或COCO [33]可能看起来是最好的起点，但CIFAR 10特别具有几个独特而有吸引力的属性。首先，该数据集仍然对社区有足够的兴趣，最先进的图像分类器正在其上开发[11，21]。第二、minθi=1L（fθ，xi，yi），（1）数据集足够小，可以让我们收集大量整个测试图像集的人类数据。第三，低其中具有参数θ的模型的损失L相对于观测数据样本{xi，yi}n最小化。我们以这种方式训练模型的目标是概括看不见的数据：最小化预期损失，图像的分辨率对于产生人类响应的变化是有用具有非重叠对象类别的高分辨率图像的人为错误率足够低，以至于很难从相关图像中获得有意义的信号给定观察图像的未观察标签{xj}m绘制回答的数量很少。最后，CIFAR 10con-从相同的底层数据分布中：获得了一些与该类别接近的示例与其他数据集相比，1Σmmj=1ΣL（fθ，xj，yj=c）p（yj=c|xj）。（二）C精心策划，使每一个图像都被选为该类别的一个很好的例子我们最终的CIFAR10H口头数据集由511，400个人类分类数据组成当我们考虑该乘积中的第二项时，我们可以看到，如果对于任何刺激x，基础条件数据分布p（y）|x）对于除了人类分配的类别之外的每个类别c都是零共识相比之下，当我们考虑图1中的网络和人类混淆时，我们可以看到确实存在这种假设违反人类概率分配的情况那么，我们如何才能得到p（y）的更自然的近似值呢|x）？对于某些问题，很容易只从一些真实的数据集p（x，y）中采样，但对于图像分类，CIFAR10的10，000个图像测试子集上的cisions（约。每幅图像50个4.1. 图像刺激我们收集了CIFAR10测试子集中所有10，000张32×32彩色图像的人类判断。这包含以下10个类别中的每一个的1，000个图像：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船和卡车。这使我们能够使用相同的测试图像评估在CIFAR10但是在标签上的不同分布方面，在下一节中详细描述。96204.2. 人类判断我们通过Amazon Mechanical Turk [5]收集了511，400个人类分类，据我们所知，这是迄今为止在单一研究中报告的最大规模。在这项任务中，参与者被要求通过尽可能快速和准确地点击周围的10个标签之一来对每张图像进行标签位置在候选人之间进行了洗牌。在最初的训练阶段之后，每个参与者（总共2571人）对200张图像进行分类，每个类别20每20次试验，一个明显的图像被呈现为注意力检查，得分低于75%的参与者被删除最后的分析（共14个）。我们平均收集了每张图像51个判断（范围：47−63）。平均完成时间为15分钟，工人得到报酬一美元。一共50个。图1显示了一组图像在分类判断上的分布示例。5. 分布转移下的推广我们的总体策略是使用我们的软标签训练一系列分类器，并评估它们在保持验证集和一些具有不断增加的分布偏移的泛化数据集上的性能。我们期望当测试数据集越来越不分布时，关于图像标签不确定性的人类信息是最5.1. 设置模型我们训练了八个CNN架构（VGG [42]，ResNet[16]，Wide ResNet [50]，ResNet preact [17]，ResNext [49] ， DenseNet [20] ， PyramidNet [15] 和Shake- Shake [11]），以最大限度地减少softmax输出与CIFAR 10 H中图像的完整人类标签分布之间的交叉熵损失。这些模型使用PyTorch[38]进行训练，适应脚注中的存储库。1对于每个架构，我们使用10倍交叉验证（每次使用9，000张图像进行训练）训练10个模型，并在测试时对10次运行的结果进行我们使用k-fold而不是单个验证集，以获得更稳定的结果。我们对所有模型使用了存储库中的默认超参数，为了重现性，除了学习率之外，我们遵循[39]。我们使用Adam[24]优化器对每个模型进行了最多150个epoch的训练，并在基础学习率0上进行了网格搜索。2，0。1，0。01和0。001（我们发现0. 1在所有情况下都是最佳的）。1github.com/hysts/pytorch_image_classification;模型标识符vgg 15 BN 64，resnet basic 110，wrn 2810，resnet preact bottleneck 164，resnext 298x64d，densenet BC 100 12，resnet basic 110270，shakeshake 26 2x64d SSI cutout16（输出文件夹名称）。测试数据集。第3节的一个关键预测是，当推广到越来越多的训练样本外分布时，我们标签中的不确定性将越来越多地提供信息。我们通过检查对以下数据集的泛化能力来经验性地测试该预测：CIFAR10：这是标准的数据集内评估。由于我们的CIFAR10H软标签是针对CIFAR10测试集的，因此这里我们使用标准CIFAR10训练集的50，000张图像来评估模型。CIFAR10.1v6，v4：这是由[39]创建的两个2，000图像近样本数据集，用于评估CIFAR10图像取自TinyImages [46]，并与CIFAR10中的子类分布匹配。v6每类有200个图像，而v4是原始的类不平衡版本（90%重叠）。CINIC10：这是一个样本外泛化测试。[7]收集的CINIC10数据集包含CIFAR10图像和来自等价类的重新缩放的ImageNet图像[7]。例如，来自飞机、飞机、飞机（客机）和飞机、飞机、飞机（轰炸机）ImageNet类的图像被分配给飞机CIFAR10顶级类。在这里，我们只使用21万张图片来自ImageNet。ImageNet-Far：最后，作为分布转移的更强范例，我们构建了ImageNet-Far。如上所述，我们使用了重新缩放的ImageNet图像，但选择了可能不直接继承CIFAR10同义类的类。例如，对于CIFAR10的拉贝尔鹿，我们包含了ImageNet 类别ibex， gazelle，对于CIFAR10的标签马，我们包含了ImageNet类别斑马，这在CINIC10中没有包含。推广措施。我们在每个测试集上评估每个模型的准确性和交叉熵。对于样本外泛化任务，准确度仍然是分类性能的重要衡量标准。由于准确性忽略了分配给猜测的概率，我们还使用交叉熵度量来评估模型行为：它在其顶部预测中的置信度，以及它在替代类别上的分布是否合理。请注意，当计算具有独热向量的交叉熵时，这种解释自然出现，因为只有分配给地面实况选择的概率质量对得分有贡献。交叉熵变得更加翔实的计算时，相对于人类的软标签，distribute的质量不像一个热向量。在这种情况下，网络的第二次猜测，它提供了一个图像的最易混淆的类的感觉，将可能是一个很大的次要贡献者的损失。为了提供一个更可读的解释启发式措施，我们引入了一个新的准确性措施，称为第二最佳准确性（SBA）。虽然top-1的准确性可能在很大程度上是渐进的，但我们预计SBA的收益可能还有很长的路要走。9621软标签硬标签软标签硬标签软标签硬标签图2：泛化结果。左：针对训练样本外分布越来越多的地面实况标签的准确性，在CNN中平均。对于每个CNN和数据集，使用人类标签的准确性更高。中心：交叉熵对地面真实标签，在CNN中平均。对于每个CNN和数据集，使用人类标签的损失更低。右：使用CIFAR10H的所有模型的次佳准确度（SBA），在折叠中平均一B图3：(A)正确/不正确的平均置信度当在CIFAR 10上进行评估时，相同的模型（从83.5%到84.5%）在ImageNet-Far上进行评估时，平均准确率提高了2%（从49.4%到51.4%）。当我们考虑交叉熵度量时，这种模式更加明显（图2，中心）。例如，当在CIFAR 10上评估时，使用人类软标签使我们的交叉熵降低了29%（从0.7到0.5），而在ImageNet- Far上评估时，相同的模型平均降低了38%（从2.9到1.8）。这些结果意味着，在我们的软标签上训练的模型对他们的正确选择表现出更好的信心，并在错误期间将更多的概率分配给地面真相。最后，与对照组相比，在我们的软标签上训练的CNN在SBA方面始终显示出显着的提高，平均表现好5%（图2，右）。这表明在更广泛的意义上泛化的改进：分布-硬/软标签训练后的分类示例。软标签模型在不正确时的置信度远低于硬标签对照，而在正确时的置信度仅略低。(B)软标签训练产生的预测更像人一样分布概率质量，具有相同的首选。5.2. 人工标签提高泛化能力我们在one-hot labels（默认，对照）和CIFAR 10H软人类标签（我们的）上训练上述每个CNN，并在每个建议的测试集上进行评估，这些测试集具有越来越多的样本外分布。我们的第一个发现是，当我们在CIFAR10H软标签上训练CNN时，与我们的对照相比，它们在所有泛化数据集上的准确性都有所提高（图2，左）。对于每个单独的模型，在单独的交叉验证折叠中复制该模式（未示出）。这种泛化能力提升的一个关键特征是，随着测试数据集越来越多地脱离训练分布（横轴，从左到右），泛化能力会增加。例如，虽然使用人类软标签只能提高1%-最可能的两个类别的划分对于我们希望好的模型提供的泛化中的优雅降级以及当分类模型错误时由分类模型做出的猜测的性质具有重要的影响图3提供了一个额外的图片，我们的验证折叠超过整体泛化性能的模型。令人鼓舞的是，我们发现软标签训练的模型在不正确时比硬标签训练的对照显著更不自信，但在正确时仅稍微不自信（图3a），并且更普遍地提供了对人类不确定性模式的更好拟合（图3b）。6. 替代软标签方法在上面，我们展示了在我们的人类标签上进行训练所带来的样本外分类优势。一个自然出现的问题是，这种改进是否是简单地用软标签训练的结果（即，允许模型将概率质量分布在多于一个类上），或者由于该分布明确地模仿人类不确定性的事实在这里，我们证明答案是后者。0：飞机1：汽车2：鸟3：猫4：鹿5：狗6：青蛙7：马8：船舶 9：卡车96226.1. 设置训练我们开始证明，培训与人类标签提供的好处，甚至超过竞争的基线.我们使用与第5.1节相同的CNN架构和设置，但有一个值得注意的例外：我们在加入软标签之前对网络进行预训练（这使我们能够实现对人类的最佳拟合）。为此，我们使用标准的CIFAR10训练协议进行训练，使用存储库中的50，000张图像和最佳超参数，在很大程度上复制或超越了论文中为每个架构提出的然后，我们在CIFAR10测试集上使用硬标签控件或我们的人类软标签来这个微调阶段反映了5.1节中的训练短语：我们使用了 10 倍，训练了 150 个epoch，并在学习率0上搜索。1，0。01和0。001。评价我们评估了CIFAR10H的holdout folds与人类软标签和地面真实硬标签以及 CIFAR10.1v4 和CIFAR10.1v6数据集的地面真实硬标签我们还将注意力转移到评估交叉熵而不是准确性上。使用CIFAR10预训练，所有模型的准确性都很高，但这并不能说明置信度或错误的另一方面，交叉熵恰恰做到了这一点：在硬标签上评估时测量置信水平，在人工软标签上评估时测量错误的“合理性”。6.2. 方法为了测试更简单且可能同样有效的替代方案来近似人类判断中的不确定性，我们在下面包括了一些竞争性基线地面实况控制中心。我们考虑的第一条基线是“控制”微调条件，其中我们使用相同的图像数据分割，但是使用地面实况硬标签进行预计这将改善预训练模型，因为它利用了以前看不见的额外9000张图像表1：每个保持集合的交叉熵（从左到右的列：holdout人类软标签（ c10H ）、 holdout 地面实况标签（ c10 ）、整个 CIFAR10.1v4 数据集和整个CIFAR10.1v6数据集。我们的人类标签的交叉熵在微调（FT）后大幅下降，特别是在使用人类目标时。对人类目标的微调也在CIFAR 10.1上产生了交叉熵方面的最佳通用化。级惩罚。图像级人工软标签的一个更简单的替代方案是类级软标签。也就是说，我们可以简单地使用类级惩罚来指定哪些类平均更容易混淆，而不是指定每个图像与每个类别的相似程度。然而，虽然我们知道，例如，狗和猫可能比狗和汽车更容易混淆，但不清楚最佳的类级别惩罚应该是什么。由于穷尽地搜索竞争性类间惩罚是低效的，因此我们提出通过对每个类内的人类概率进行求和和重新归一化来生成黄金标准惩罚（即，导致正好10个唯一的软标签向量）。这也使我们能够确定人类软标签中的图像级信息是否ResNet [16]C10hC10v4V6培训CIFAR 100.820.250.840.82FTCIFAR100.570.190.600.58FTCIFAR10 withmixup [51]0.360.180.480.46FTCIFAR10H类软目标0.420.210.530.51FTCIFAR10H软目标（我们的）0.350.190.500.49FTCIFAR10H采样硬目标（我们的）0.350.190.480.46ResNet preact [17]C10hC10v4V6培训CIFAR 100.750.200.690.66FTCIFAR100.650.190.610.59FTCIFAR10 withmixup [51]0.400.180.450.43FTCIFAR10H类软目标0.440.230.470.46FTCIFAR10H软目标（我们的）0.350.210.490.48FTCIFAR10H采样硬目标（我们的）0.340.190.420.41VGG [42]C10hC10v4V6培训CIFAR 100.710.260.790.76FTCIFAR100.540.200.620.59FTCIFAR10 withmixup [51]0.470.200.560.53FTCIFAR10H类软目标0.420.220.510.49FTCIFAR10H软目标（我们的）0.340.210.490.48FTCIFAR10H采样硬目标（我们的）0.350.210.490.47DenseNet [20]C10hC10v4V6培训CIFAR 100.610.150.540.54FTCIFAR100.590.140.510.50FTCIFAR10 withmixup [51]0.360.130.430.42FTCIFAR10H类软目标0.390.180.420.42FTCIFAR10H软目标（我们的）0.320.170.400.40FTCIFAR10H采样硬目标（我们的）0.310.160.400.39PyramidNet [15]C10hC10v4V6培训CIFAR 100.540.120.420.42FTCIFAR100.510.110.380.38FTCIFAR10 withmixup [51]0.490.110.400.40FTCIFAR10H类软目标0.360.140.320.32FTCIFAR10H软目标（我们的）0.280.130.350.34FTCIFAR10H采样硬目标（我们的）0.280.120.320.32[49]第四十九话C10hC10v4V6培训CIFAR 100.470.100.370.36FTCIFAR100.460.100.350.34FTCIFAR10 withmixup [51]0.470.100.370.36FTCIFAR10H类软目标0.370.170.370.36FTCIFAR10H软目标（我们的）0.290.130.340.33FTCIFAR10H采样硬目标（我们的）0.280.130.340.33[50]第五十话C10hC10v4V6培训CIFAR 100.460.140.400.39FTCIFAR100.420.120.370.36FTCIFAR10 withmixup [51]0.400.120.370.36FTCIFAR10H类软目标0.360.150.330.33FTCIFAR10H软目标（我们的）0.270.130.320.31FTCIFAR10H采样硬目标（我们的）0.280.130.310.30[第11话]C10hC10v4V6培训CIFAR 100.600.090.340.33FTCIFAR100.510.070.280.27FTCIFAR10 withmixup [51]0.630.080.340.33FTCIFAR10H类软目标0.330.120.280.28FTCIFAR10H软目标（我们的）0.260.100.270.26FTCIFAR10H采样硬目标（我们的）0.270.100.270.279623与跨图像样本的类级统计数据在这个基线中，微调只是使用这些大大压缩的软向量作为目标。知识蒸馏。如第2节所讨论的，经过训练的神经网络的软最大概率可以用作软标签，因为它们包含由网络推断的关于类别之间和图像之间的相似性的信息本节中的预训练网络提供了这样的概率，因此提供了相应的基线。然而，我们可以从5.2节的结果中推断出，硬标签训练的CNN推断出的类概率与人类的类概率不接近，因为将外显监督纳入人类提供了不同的泛化结果。因此，为了在这方面提供更强的基线，我们包括来自所有八个模型的预测的集合（即，由于模型间变化的不确定性而提供软预测）。搞混了mixup是一种用于软标签生成的技术，可提高在CIFAR 10上训练的自然图像分类模型的泛化能力[51]-参见第2节。因此，它提供了一个有趣的和有竞争力的基线，可以将训练与人类软标签进行比较。具体地说，mixup通过采用成对示例的凸组合来生成软标签，鼓励它们之间的线性行为。这些组合构成了从邻近分布中采样的虚拟训练样本（x<$，y<$），并采用以下形式x<$=λxi+（1−λ）xjy<$<$=λyi+（1−λ）yj，其中（xi，xj）是数据集中的示例，（yi，yj）是它们的标签。插值λ∈[0，1]的强度根据Beta（α，α）进行采样，其中α是一个超参数。对于我们的混淆基线，我们将此过程应用于与上面使用的相同的10个分裂对于每种架构，我们从0开始搜索α的最佳值。一赔一0，增量为0。1.一、软标签与抽样。最后，我们运行一个超出上述软标签基线的额外实验第5节的结果表明，人类软标签是有用的，但我们应该如何最好地将它们纳入培训？在第3节中，我们证明了使用人的概率作为目标来最小化预期损失。另一个有效的选项是从phum（y）采样|X），即，从由hu参数化的分类分布中采样单热人的概率条件对每个图像。如果每次将图像提交给网络进行新的梯度更新时，我们都会对新的标签进行采样，标签的不确定性仍然会被包含在内，但梯度中会有额外的变化，可以作为进一步的正则化。测试对于标签采样的任何这样的优点，我们使用该方法微调第二对应的模型集合，在每个时期上对每个图像采样新标签。6.3. 人类软标签击败替代品表1中总结了每种架构和方法的结果第一列是我们对人类适应性的主要衡量标准;最后两项评估了进一步的普遍化。请注意，对于预训练模型（每个子表的第一行），与地面真实标签的交叉熵总是低于人类软标签，验证了我们的预期：人类软标签提供了不是通过利用地面实况的训练来推断的附加信息。这是第一次测试，通常由这些网络使用硬标签（即，知识蒸馏）不同意人类。我们进一步测试了顶行中所有八个网络的集合（即，没有对人类软标签进行微调），虽然这个模型比任何单独的硬标签训练模型更像人类（交叉熵为0.41），但它仍然不能替代人类监督。我们的标签的好处也出现在泛化过程中，如最后两列（即，V4和V6保持集），它们显示出比替代方法更高的交叉熵。接下来，查看相同的顶部行，注意到架构的新近度和适合人类之间几乎没有对应关系。事实上，Shake-Shake是八个模型中最先进的，但在适合人类方面并不是前三名。在每个子表的其余行中，我们可以看到使用我们的各种微调方案来增加对人类的适应性。这在所有情况下都是预期的，因为所有这些模型最终都会比预训练的模型提供更多的数据然而，并非所有的微调方法都同样有效。重要的是，当使用我们的图像级软标签或使用它们（底部两行）对硬标签进行采样时，适合人类（第二列）最好。有趣的是，类别软标签（第4行）也有效，但程度较低。mixup比单独使用ground truth标签更有效，但比使用人类信息的任何方法都更有效最后，我们注意到，虽然为了简洁而省略，但我们发现在任何使用人类标签的条件下使用人类标签时，准确性都没有损失。7. 对抗性攻击的鲁棒性因为我们的软标签包含与感知边界结构相关的图像相似性结构的信息，我们可能会期望在预测它们的服务中学习的此外，随后对知识蒸馏的探索[19，37]表明，这些实践可以支持对抗鲁棒性。如果人类的感性判断相似-9624准确度交叉熵架构C10C10hC10C10hVGG占7%百分之八7.94.1DenseNet百分之十七百分之十九6.93.0PyramidNet百分之二十二百分之十九5.72.8ResNet百分之十五百分之二十三6.13.1ResNext百分之二十五百分之二十四4.22.7Wide ResNet百分之二十四百分之三十五4.12.2ResNet预处理百分之十七百分之二十九6.32.6摇摇百分之三十九百分之三十九4.02.1表2：在CIFAR10调谐（基线）和CIFAR10H调谐网络上的FGSM攻击之后的准确度和交叉熵使用人类标签总是会导致更低（更好）的交叉熵，并且在大多数情况下，更高的准确性。的形式优于CNN所推断的p（y|x）-我们希望将人类知识提炼到CNN中至少也会增加鲁棒性。Setup. 我们使用第6节中相同的预训练和微调（硬与软）模型。为了在每个训练方案之后测量鲁棒性，我们针对硬类标签评估准确性和交叉熵（后者再次是置信度和熵的更敏感的度量）。作为攻击方法，我们评估了两种加性噪声攻击：快速梯度符号方法（FGSM）[29]和投影梯度下降（PGD）[30]，使用PyTorch的mist ed toolkit 2。对于这两种方法，我们探索了4到8的范围，增量为1。由于我们发现结果没有显著差异，因此为了简洁起见，我们使用恒定的∞界限4来人类软标签赋予鲁棒性。 FGSM结果报告在表2中，在CIFAR10测试集中的所有10，000个图像在所有情况下，与使用原始独热标签进行微调相比，攻击人类调整的网络后的交叉熵（攻击方法寻求最大化）要低得多（大约一半）。对于八个架构中的五个两个最大的区别（Wide Resnet和ResNet preact）也有利于人类标签。请注意，不需要显式（防御性）训练来获得这些超越人类标签的先前训练如果没有积极的防御训练，PGD预计将在足够的迭代中将准确率提高到0%。为了探索我们的两个标签训练条件对PGD攻击的内在防御当在标准上训练时，每个网络的准确率都被驱动到0%标准标签，每个网络有1%的人类标签，2github.com/revbucket/mister_ed/软标签硬标签Crossentropy9625PGD迭代图4：交叉熵作为PGD迭代的函数。如预期的那样，连续迭代增加交叉熵，但在软标签微调后更慢。前者的损失上升得快得多，而后者的损失则很快地渐近线。简而言之，要成功攻击行为更像人类的网络，需要付出更大的努力。8. 讨论在这项工作中，我们已经证明，在图像级别整合有关人类类别不确定性的值得注意的是，常见的分类基准通常不会自然地提供此类此外，除了明确纳入这些信息，它还提供了一种衡量我们的学习算法是否推断出良好的相似性结构（不仅仅是top-1性能）的方法如果我们能够找到良好的学习过程来获取这些信息，我们就可以在模型中获得类似人类的鲁棒性，而不需要明确的人类监督。然而，开发这样一个强大的模型将需要大量的时间和研究-我们的数据集提供了衡量这一进展的第一步（相对于流行的基准的初始黄金标准），即使不用于训练。虽然我们的数据收集方法似乎不能立即扩展到更大的训练集，但它肯定有可能收集信息丰富的标签分布，其成本与我们经常花费在计算上以找到更好的top-1-fitting架构的成本有趣的是，我们发现大部分人类不确定性集中在我们数据集中大约30%的图像中，这意味着可以采用简单且更有效的方法来挖掘这些信息量更大的标签。在任何情况下，我们看到这些数据集的主要贡献是为用于更大数据集的算法提供测试环境。鸣谢。这项工作得到了美国国家科学基金会1718550号资助。9626引用[1] Edmond Awad ， Sohan Dsouza ， Richard Kim ，JonathanSchulz ， JosephHenrich ， AzimSharif f ， Jean-Franc.Bon- nefon ， and Iyad Rahwan. 道德机器实验Nature，563（7729）：59，2018.[2] 巴蒂斯塔·比吉奥和法比奥·罗利。野生图案：对抗性机器学习兴起十年后。模式识别，84：317[3] Jonathan Bragg、Mausam和Daniel S.焊接众包多标签分类分类法的创建。人类计算和众包会议（HCOMP），2013年。[4] Steve Branson、Catherine Wah、Florian Schroff、BorisBabenko 、 Peter Welinder 、 Pietro Perona 和 SergeBelongie。人类参与的视觉识别。欧洲计算机视觉会议（ECCV），2010年。[5] Michael Buhrmester ， Tracy Kwang ， and Samuel DGosling.亚马逊Perspectives on Psychological Science，6（1）：3[6] L. B.奇尔顿湾利特尔D. Edge，D. S. Weld和J. A. 兰黛。级联：众包分类创建。计算系统中的人为因素（CHI），2013年。[7] 作者：John J.放大图片作者：Amos J.史托基CINIC-10不是imagenet或CIFAR-10. arXiv预印本arXiv：1810.03505，2018。[8] Jia Deng，Nan Ding，Yangqing Jia，Andrea Frome，Kevin Murphy ， Samy Bengio ， Yuan Li ， HartmutNeven，and Hartwig Adam.使用标签关系图的大规模对象分类。欧洲计算机视觉会议（ECCV），2014。[9] R. Fergus，H. Bernal，Y. Weiss和A.托拉尔巴语义标签共享，用于多类别学习欧洲计算机视觉会议（ECCV），2010年。[10] A. Frome，G.S.Corrado，J.Shlens，S.Bengio，J.迪安和T.米科洛夫Devise：一个深度视觉语义嵌入模型。神经信息处理系统进展（NeurIPS），2013年。[11] 泽维尔· 加斯塔尔迪Shake-shake 正则化arXiv预印本arXiv：1705.07485，2017。[12] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒损失函数在人工智能会议（AAAI），2017年。[13] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv

下载后可阅读完整内容，剩余1页未读，立即下载