现实预测子：拒绝太难任务，提高性能的例子

113 浏览量更新于2023-10-13 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

走向现实的预测王佩和努诺·瓦斯康塞洛斯统计和可视化计算实验室，加州大学圣地亚哥{pew062，nvasconcelos} @ ucsd.edu抽象。定义了一类新的预测子，称为现实预测子这些预测器像人类一样，评估例子的难度，拒绝处理那些被认为太难的例子，但保证在他们操作的例子上有良好的表现在本文中，我们谈论它的一个特殊情况下，现实的分类器。在现实的分类，一个归纳预测的硬度分数的设计，被认为是中心问题有人认为，这应该是一个独立于分类器本身的预测器，但调整到它，并在没有明确的监督下学习，以便从错误中学习提出了一种新的体系结构，提出了实现这些目标的辅助硬度预测网络（HP-Net）的分类补充。共享与分类器相同的输入，HP-Net输出要作为损失权重馈送到分类器的硬度分数。可替代地，分类器的输出也以新定义的损失、交叉熵损失的变体被馈送到HP-Net。这两个网络以对抗的方式联合训练，其中，当分类器学习改进其预测时，HP-Net细化其硬度分数。鉴于学习的硬度预测，一个简单的实现现实的分类器，提出了拒绝大分数的例子。实验结果不仅提供了证据，支持所提出的架构和学习的硬度预测的有效性，但也表明，现实的分类器总是提高性能的例子，它接受分类，在这些例子比一个等效的非现实的分类器表现更好所有这些都使得现实的分类器，以保证良好的性能。关键词：硬度评分预测·现实的预测1引言近年来，由于深度卷积神经网络的引入，计算机视觉取得了重大进展。像大多数其他机器学习和计算机视觉模型一样，它们经过训练，在每个示例中表现得尽可能好结果，这些模型没有意识到他们能做什么这不像人，他们有自己的局限性。大多数人都能做某些事情，而且做得很好，但除此之外，他们会说' s'或'r'，我不知道现在怎么做。我们的工作是能够逐步克服其局限性的。人们可以说，人类是现实的预测者，他们宁愿拒绝太难的任务，而不是几乎肯定2王佩和努诺·瓦斯康塞洛斯失败这不像大多数分类器，他们是乐观的，并试图分类所有的例子，无论多么困难。这可能是一个问题的应用程序，其中不正确的决定可能会有非常负面的后果。例如，智能汽车的一对于这些应用，基于场景、天气条件等，视觉系统应当保证错误率将不超过一些规范。更重要的是，它应该有一个拒绝选项，拒绝在太难的情况下操作，宁愿让车辆停下来，而不是冒事故的风险。另一个有益的例子是，这种新型的预测器可以有效地利用计算机的使用和人类熟练的劳动力。在监督学习中，尽管已经提出了许多自动注释方法[30，23]，但没有对其结果的性能保证，导致人类仍然需要在实践中注释所有收集的数十亿数据，例如Amazon Turk。与其手动注释所有数据，让现实模型处理简单的示例，以保证与人类相当的准确性，而将困难的问题留给人类专家，这无疑是有效的。现实分类器的先决条件是自我评估的能力，即。预测成功或失败的可能然而，这在当前的分类设置中并不容易一种可能性是设计具有拒绝选项的分类器例如，分类器级联由实现一系列拒绝决策的阶段组成，有效地放大包含待检测对象的图像区域[28]。神经网络路由[20]，其中样本根据其难度由不同的网络路径处理，是这种思想的神经变体在提高计算效率的同时，这些方法经常降低分类性能。它们产生的分类器比没有拒绝选项的分类器更快，但通常不太还提出了许多程序来解释例如训练期间的硬度例如，课程学习[4]建议先使用简单的样本，然后使用困难的样本。另一方面，硬示例挖掘[24]技术寻找分类器表现不佳的示例，这些方法的目标不是产生可以应用于在训练期间看不见的示例的硬度预测器，而是提高分类器性能或实现更快的优化收敛。相反，现实的预测需要归纳硬度预测，能够超越训练集的操作。总的来说，这是一个不平凡的追求。最大的挑战是不是训练这种预测器的基础事实。即使在人类的监督下的可用性，样品的排序是繁重的和容易和困难的样品的识别是困难的。这部分是因为对人类来说直观上很难的东西并不能保证对算法来说也很难，反之亦然。图图1显示了使用不同方法训练的分类器产生的简单和困难评估的示例。在简单图像的数据集上，如MNIST，硬度预测是人类可以理解的。可以说，简单的样本是清晰的，接近于旋转的类型的数据，而复杂的样本在两个数据中，例如，在两个数据中。G. “a 6 t h at l o ok s like a0，“p o or l y e x ecut d igit s，e. G. “a 6t h at l 〇 ok s like k e an i”或“anop e n 0”等。在另一边，当图像存储空间复杂时，如走向现实的预测3简单样品硬样品简单样品硬样品基于置信度分数基于HP-Net基于置信度分数基于HP-Net基于置信度分数基于HP-Net信心基于分数基于HP-Net0 0 70自助电影院酒吧博物馆0 366自助洗衣店酒窖浴室幼儿园0 29MNIST6自助洗衣店卧室保龄球会议室MIT67图1.一、根据不同的标准，MNIST和MIT67数据集上的前3个最简单和最困难的示例。Groundtrut hlabelsareshow neloweachimage。在MIT67场景数据集中，很难理解为什么分类器发现显示的示例容易或困难。事实上，这个问题甚至在一般情况下都没有很好的定义，因为不同的分类器可以有不同的基础事实，容易和困难。这对于人类来说当然是如此，其难度评估往往是个人的并且随着时间而变化，例如。有经验的人因此，看起来硬度预测器应该以无监督的方式学习，并且个性化，即，分类器专用。另一方面，它们似乎不能自我参照，即。硬度预测不能由分类器本身产生。如果这是可能的，分类器可以简单地实现拒绝选项。然而，硬示例挖掘的经验表明，这不是很可靠。虽然对于收集困难的示例很有用，但它可以产生相当大比例的不困难的示例。考虑到这一切，看来，对于现实的预测，分类器应该依赖于一个独立的硬度预测。然而，这个预测器应该在没有明确监督的情况下进行训练，调整到分类器，并从错误中学习受此启发，我们建议将硬度预测器实现为辅助网络，我们称之为辅助硬度预测网络（HP-Net）。它的输入是要由分类器处理的示例，硬度分数。为了从分类器的错误中学习，HP-Net与它一起训练。这两个网络在对抗环境中训练，类似于生成对抗网络（GANs）。虽然所提出的架构不是GAN，但这两个网络交替训练。在分类器训练期间，HP-Net产生的硬度分数被用作损失权重，为更难的示例分配更多权重这鼓励分类器尽可能最好地分类所有示例在HP-Net训练期间，使用分类器softmax概率来调整HP-Net，使用引起对抗行为的交叉熵损失函数通过这种方式，随着分类器学习改进其预测，HP-Net细化其硬度分数。在测试4王佩和努诺·瓦斯康塞洛斯时间，HP-Net为每个示例分配硬度分数。如果这高于阈值，则拒绝该示例。通过这种方式，分类器永远不会被要求为被认为太难的例子产生类分数。这就是我们所说的现实主义。总的来说，所提出的架构有三个有趣的属性。首先，虽然高度调谐到分类器，但HP-Net是一个可以应用于未见过样本的归纳模型。其次，培训不需要HP-Net监督、先验知识或关于硬示例性质的手工规则实验表明，线束分数是准确的，足以使现实的预测，而不损害分类精度。通过对三个数据集的广泛评估证明了这些特性例如，他们表明，HP-Net应该调整到分类器，当两个网络具有相同的架构时，结果最好。另一方面，当两个网络具有共享层时，性能大幅下降，这表明它们正在解决根本不同的任务。这是反对自我参照解决方案的有力证据。最后，它表明，分类器的性能总是增加限制更容易的例子。这使得分类器能够通过简单地控制拒绝阈值来满足指定的错误率。2相关工作已经提出了几个标准来评估样品硬度。一种可能性是使用利用先前人类知识的特定任务标准[3，25，17，27]。例如，Ionescu et al. [27]将图像难度定义为解决视觉搜索任务的人类响应时间。另一种流行的方法是使用损失值[13，19，24，18]，置信度分数[29]或损失梯度的大小这些标准主要用于提高优化过程的速度，例如随机梯度下降。它们对于硬度预测是合理的，因为小的损失往往对应于容易的样品，反之亦然。另一方面，两个相等损失的样本可以被正确地和错误地分类。例如，高置信度得分的对抗性示例不一定容易分类[26，11]。为了解决这个问题，Chang et al. [5]在区分简单和困难的例子时强调样本的不确定性。所有这些方法都依赖于手工制作的标准来选择和排名示例。[15，31]提出了与我们类似的网络来学习深度强化学习和噪声标记数据的重要所提出的方法是更密切相关的麦吉尔等人的方法。[20]，他们在神经网络层中添加了一个双向连接，以动态路由简单样本进行直接分类，并将硬样本路由到下一层。然而，所有这些方法都是自参考的，在这个意义上，分类器用于评估其分类的样品这并不容易，因为根据定义，硬样本是分类器会出错的样本。相反，我们建议使用辅助方法来解决这个问题，而这个方法可以避免用户的错误。走向现实的预测5头后备箱HP-Net现实预测器不拒绝分类器硬度预测器图二、建议的架构。F是分类图。3.第三章。程序的现实预-硬度预测器HP-Net独裁者现实预测与故障预测的文献密切相关，其目标是构建能够可靠地预测预测器故障的系统。Jammalamadaka等人。 [14]引入评估器算法来预测人类姿势估计器的失败，从特定于该问题的特征。Bansal等人。[2]使用预先选择的属性对错误分类的图像进行表征和分组，并使用聚类算法学习故障模式的语义表征。Zhang等人。 [32]使用二进制SVM拒绝可能的失败样本，该SVM使用14个预定义的内核预测错误。Daftry等人。 [6]将失败度定义为UAV正确预测的轨迹的分数，并训练线性SVM，以根据为自主导航训练的深度网络的特征响应来估计它。这些方法依赖于预测器性能的事后分析，简单地从其错误中学习回归器或分类器现实预测的目标是超越这一点，通过集成的硬度预测器和分类器的学习，以保证最佳的分类器性能的非拒绝的例子。据我们所知，所提出的架构是这个想法的第一个实现。我们的实验还表明，分类所需的特征与难度预测所需的特征是根本不同的这表明，简单地从深度预测器[6]的阶段读取特征响应即使对于故障预测也是次优的。3现实预测器架构在本节中，我们将介绍所提出的现实预测器架构。3.1架构虽然现实的预测是感兴趣的许多计算机视觉任务，在这项工作中，我们专注于图像分类到C类之一。图3中示出了实际预测器的操作考虑分类器F（x），其面对来自通用示例集U的示例xi。如果分类器拒绝它认为太难的示例子集H U，以便保证它同意的示例子集A=U-H的特定性能，则表示分类器是现实的分类器6王佩和努诺·瓦斯康塞洛斯i=1我分类。通过对硬度分数进行阈值化来确定示例拒绝，该硬度分数由表示为HP-Net的辅助硬度预测器S（x）分配给每个示例x请注意，在推理时，S（x）预测未见过的测试示例的硬度。因此，它必须是一个归纳预测器，例如：在训练期间向示例分配权重是不够在故障预测文献中，分类器F首先从训练集D={（xi，yi）}N ，其中D U，yi是图像xi，并且N是训练样本的数量。在训练时，故障预测器是从测试集上的故障中分离出来的，即。e. 从集合{xi，yi，y∈i}，其中y∈i表示样本xi 的样本。当该错误被用于实现现实预测的HP网络时，这将不能保证F在接受的示例的集合A一个简单的解决方案是使用失败预测器来拒绝训练样本，然后对剩余的样本进行微调然而，这将使得故障预测器对于微调的F是次优的。为了防止这些问题，我们建议联合学习F和S，如图2所示。分类器F可以是任何卷积神经网络（CNN），通常是其包含多个卷积层，随后是全连接层。其最后一层实现具有C输出的softmax函数，输出概率分布p i =F（xi）响应于样本xi。HP-Net具有相似的结构。为了便于标记，我们将其分为一组卷积层（网络主干）和一组全连接层（网络头）。网络主干用于特征提取，而头部实现具有单个输出节点的多层全连接网络。这利用S形单元来实现，并且针对图像xi产生预测的硬度分数si=S（xi），si∈[0，1]。现实预测器的总体操作总结如下。在训练的时候1. 在训练集D上联合训练分类器F和HP-NetS。2. 在D上运行S并消除困难的示例，以创建逼真的训练集D’。3. 在D’上学习真实分类器F’，其中S固定。4. 输出对S、F′。在测试时，通过S运行测试示例x，拒绝硬示例，用F’对剩余的进行分类。在所有情况下，对于某个阈值T，如果S（x）> T，则x被拒绝。3.2对抗交叉熵损失函数分类器和HP-Net的联合训练需要一个损失函数，该损失函数在两个网络中引起期望的互补函数如文献中常见的，通过交叉熵最小化来训练分类器指示基础真值标签yi的独热码乘以yi，样本{xi，yi}的损失为l（p，y）=−yTlogp=− ΣCy clog p c=−log p c，其中p c是p的项i i i i ic=1i i i i i i所述位置对应于地面实况标签位置。交叉熵损失ΣNL（D）=− logpci=1（一）走向现实的预测7我我我我BN + ReLU展平层FC7FC1000FC，[4096，1000]FC，[1000，512]4BN + ReLUBN + ReLU3脱落，（0.5）脱落，（0.5）21010.810.6 0.80.40.2000.20.40.6LeNet5和KerasNetVGG16ResNet50见图4。HP-净损失面。图五、不同头部网络的详细结构平等对待每个样品正如成本敏感学习文献中常见的那样，我们将其替换为Lm（D）=−ΣNi=1s ilog p c.（二）其中si∈[0，1]是由HP-Net产生的示例xi的硬度分数。这使得较难的例子（较大的si）更重要，而较容易的例子（较低的si）被赋予较低的重要性。以这种方式，鼓励分类器从尽可能多的困难示例中学习，并且仅拒绝需要不合理的努力或专业知识的示例。这旨在反映一个有动机的人的行为，他会试图尽可能多地了解一个问题，并拒绝超过他或她的专业知识的任务为了鼓励HP-Net产生与相应样本的难度成比例的分数si，HP-Net使用损失函数ΣNLa（D）=− {pclog（1−si）+（1−pc）logsi}，（3）我我i=1其中si，pc∈[0，1]. 这是二进制交叉熵损失，但与反向语义它测量分布之间的交叉熵（pc，1 −pc）我我和（1−si，si）。它的最小化等价于最小化Kullback-Leibler两个分布之间的散度，当si= 1−pc时具有最小值。这鼓励了分类较差的样本（低p_c）的大得分和分类良好的样本的小得分。因此，它可以被看作是一个对抗性的损失，衡量样本的硬度，同时共享交叉熵的吸引人的属性。这些可以在图中看到。图4示出了（3）中求和的幅角的曲面图。请注意，这始终是正的，并且具有在配置si= l，pc = 0和si= 0，pc = l处的全局最小值因此，我们认为，我我它鼓励二进制硬度评分。它也是顺利的，惩罚严重，在一些实施方案中，所述组合物具有与硬度分数不一致的构型（si=pc= 0和si=pc= l）。我我3.3培训战略我们尝试使用组合损失函数L（D）=Lm（D）+La（D）来优化图2的完整架构，产生了混合结果。我们有FC，[128，1]BN + ReLU乙状FC，[512，128]FC，[128，1]BN + ReLU乙状FC，[1000，128]FC，[128，1]乙状BN + ReLUFC，[512，128]FC，[7*7*24，8王佩和努诺·瓦斯康塞洛斯我在保证学习过程的收敛方面遇到了困难。目前尚不清楚为什么在这一点上，我们把它留给未来的研究。相反，我们发现交替优化分类器和HP-Net要容易得多。具体地，首先冻结HP-Net并且更新分类器然后冻结分类器迭代该过程直到收敛。请注意，这个过程的收敛一致性是非常直观的。给定分类器，HP-Net的优化鼓励预测si= 1-pc。给定这些分数，分类器然后强调它所做的样本差，即。产生低的pc。这增加了pc。在下一次迭代中，side-我我折痕，变得更接近PC。随着pc的增加，该示例将获得更小的我我由该线性算法来表示和表示。他说，“我们的目标同时，该表格将作为单独的示例进行填充，并将在该表格上的所有内容作为单独的示例进行填充。这类似于提升算法[8，21]，但具有一个根本的区别。虽然，在提升中，分类器通过其对它们的表现如何来重新加权示例类似地，该过程与生成对抗网络（GANs）[10]在分类器和硬度预测器之间存在对抗关系的意义上有一些相似之处。当分类器产生糟糕的预测时，HP-Net会生成一个对抗信号，鼓励它产生更好的预测。因此，HP-Net可以被看作是一个信号发生器，其试图将该信号融合为信号，以使所有的振幅都保持不变。这与GAN生成器相似，GAN生成器试图混淆搜索引擎，使其无法区分真实的和虚假的示例。在这种解释下，所提出的架构可以被看作是硬度分数的无监督生成器。但是，它不是GAN。考虑到围绕GAN的众所周知的收敛问题，将其制定为GAN是否会使其收敛更加清晰也不清楚[10]。4实验4.1数据集和预处理MNIST是一个高度基准化的数据集。虽然这是一个相对简单的数据集，但它有助于获得对网络操作的见解。我们使用了100个epoch，批量大小为256，在这个数据集上训练网络。MIT67数据集[22]被提出用于室内场景识别。它包含67个室内类别，总共15，620张图像。我们遵循[22]的实验在这个数据集上，我们微调了一个在ImageNet上训练的预训练网络。epoch的数量设置为50。批量32和64用于VGG和ResNet。ImageNet LSVRC 2012包含1，000个类，120万个训练图像，50，000个验证图像和100，000个测试图像。我们的评估是在验证集上进行的。在这两个数据集上，我们采用了与先前研究相同的数据增强和预处理[16]。每个RGB图像像素被缩放到[0， 1]，其中减去平均值并除以标准方差然后将尺度和纵横比增强应用于处理后的图像。走向现实的预测9224× 224的裁剪是从增强图像或随机水平翻转中采样的。因为在这个数据集上，我们使用了一个预先训练好的网络，所以只使用了5个epoch。同样，32、64批次的批量用于VGG、ResNet。4.2设置为了研究各种网络配置的影响，我们考虑用于组合网络的几种策略：简单分类器与复杂HP-Net、复杂分类器与简单HP-Net、简单分类器与简单HP-Net以及复杂分类器与复杂HP-Net。在MNIST上，LeNet5被用作简单网络，kerasNet是keras1提出的网络。在MIT67和ImageNet上，分别使用VGG16和ResNet50作为简单和复杂网络。此外，我们研究了分类器和HP-Net具有相同结构和共享卷积层权重的设置如果不需要进行人工计算，则使用“A-B（- s）”不能将A作为单独的对象使用，而B作为HP-Ne t。如果添加了“- s”，则A和B已经共享了这些内容。对于HP-Net，我们还改变了网络头的结构。三个基本结构，如图所示。 5中使用的“flat ten lay y r”、“fc7”和“fc1000”分别代表kerasNet的flatten层、fc7层和fc1000层，VGG16和ResNet50则是专用的。'Fk，[ M1，M2] '表示M1输入和M2输出的完整连接层，'Bn'表示所接收的线性单元的正规化层，并且'Re LU'表示所接收的线性单元的完整连接层。网络使用SGD进行训练，动量为0.9。在MNIST上，分类器和HP-Net的初始学习率分别设置为0.1、1 e-3。在其他数据集上，对于两个网络，对于本文讨论的所有模型，它分别被设置为1 e-3、1 e-4在MNIST上，学习率在每个epoch之后降低5%，在MIT67上每10个epoch之后除以10，在ImageNet上每1个epoch之后除以10。4.3学习预测硬度分数我们首先提出了一些结果，提供了一些直觉的分类器和硬度预测的联合学习。图6显示了1）HP-Net产生的分数分布的演变，以及2）分类器的测试集准确度作为MNIST和MIT 67上训练迭代的函数这些结果是使用MNIST上的kerasNet-kerasNet网络和MIT 67上的在MIT67上，我们只显示前20个时期，因为之后几乎没有变化。注意，随着分类准确度增加，硬度分数分布的质量的大部分从右向左移动。这表明，随着训练的进行，预测分数逐渐下降随着分类器更新其预测，HP-Net细化其硬度分数以反映这种改进。这反过来又鼓励分类器专注于较难的示例，如在硬示例挖掘中。在训练迭代中，1https://github.com/keras-team/keras/blob/master/examples/cifar10_cnn。py.10王佩和努诺·瓦斯康塞洛斯10099.59998.59897.59796.59695.5 5101520253035404550556065707580859095100时代a) MNIST727068666462605856 1 2 3 4 5 6 7 8 91011121314151617181920时代b) MIT67图六、训练期间分类准确度和硬度分数分布的演变预测器学习最初被认为是硬的样本毕竟不是硬的。这使得它即使对于看不见的例子也能做出很好的预测这个过程类似于人类的学习，专注于逐渐困难的例子，最终掌握并发现很容易。4.4无拒识图像识别接下来我们考虑图像识别结果。LeNet5和kerasNet被用作MIT67和ImageNet上MNIST、VGG16和ResNet50的基线。所有基线结果都是基于我们的实验，可能与作者发表的结果稍有不同。表1总结了分类结果，从而得出许多结论。首先，添加HP-Net可能会导致分类器在整个数据集上的性能略有下降。事实上，这发生在所有混合模型（HP-Net和分类器的不同架构）以及网络相同并共享权重时。请注意，这些数字用于整个数据集的分类。它们并不意味着分类器在HP-Net接受的示例上没有改进的性能。这将在下面进行分析然而，有些令人惊讶的是，当HP-Net基于与分类器相同的模型时，后者在整个数据集上的性能提高了一定程度。这可能是由于准确度（%）准确度（%）走向现实的预测11表1.所有模型组合的图像识别精度比较分类器HP-Net共享权重MNIST MIT67ImageNet前1前5LeNet5百分之九十九---kerasNet百分之九十九---LeNet5kerasNet百分之九十八点四---kerasNetLeNet598.2%---LeNet5LeNet5百分之九十九点一---kerasNetkerasNetS97.9%---kerasNetkerasNet99.2%---AlexNet [34]-百分之五十六点八--CaffeNet [35]-百分之五十六点八--谷歌[34]-百分之五十九点五--VGG16ResNet50-67.9%百分之六十五点六87.3%ResNet50VGG16-百分之七十二点七百分之七十点四百分之九十VGG16-72.2% 71.6% 90.3%VGG16VGG16S-67.6%百分之七十点九百分之八十九点九VGG16VGG16-72.3%百分之七十三点三91.2%ResNet50-百分之七十五点六76.1% 92.8%ResNet50ResNet50S-百分之七十三点二75.9% 92.7%ResNet50ResNet50-百分之七十五点八百分之七十六点四93.0%该程序的硬示例挖掘方面。具有大权重的硬示例的重新加权允许分类器在这些方面进行改进虽然现实预测的目标不是提高所有样本的图像分类性能其次，在所有数据集上，当分类器和HP-Net具有相同的架构时，性能最佳。具有比分类器更简单和更复杂的HP网络的组合具有较弱的性能。这是硬度预测器必须被调整到分类器的证据。第三，当这一点成立时，不同的模型可能导致表现的差异在MNIST上，LeNet5和更复杂的kerasNet之间没有明显的区别这可能是因为基准性能已经饱和。另一方面，在MIT 67上，ResNet 50-ResNet 50的性能优于VGG16-VGG 16 3。百分之五对于更大规模的ImageNet，准确率提高了3。如果采用ResNet50，则为1%。最后，当卷积层被共享时，所有分类器在所有数据集上的性能稍弱。这是有趣的，考虑到相同模型的最佳性能。虽然两个网络必须相同，但共享权重会导致性能显著下降。这表明，网络正在解决根本不同的任务，并反对自我基于单个网络的参考解决方案，例如boosting。总的来说，本节表明，即使没有拒绝任何示例，现实的预测也不必然而，这需要仔细选择分类器和HP-Net架构。10王佩和努诺·瓦斯康塞洛斯4.5测试集接下来我们分析各种模型产生的硬度分数。图7呈现了由各种网络组合学习的分数的测试集分布。每个分布的均值和方差显示在其下方。的12王佩和努诺·瓦斯康塞洛斯(a)kerasNet-kerasNet（b）VGG16-VGG16（c）Resnet50-ResNet50(d)VGG16-VGG16（e）ResNet50-ResNet50（f）ResNet50-VGG16见图7。不同设置下预测硬度分数的分布。子图(a)是MNIST上的结果;（b）、（c）在ImageNet上;最后三个在MIT 67上。由不同网络产生的分布与表1中的分类性能一致图a）-e），相对于具有相同模型的配置另一方面，ResNet 50-VGG 16配置产生具有较大平均值的更均匀其较低的分类性能已经被硬度预测器所学习，该硬度预测器为许多示例分配较大的分数还请注意这表明ResNet50硬度预测器对测试样品的分类结果更有信心与此同时，硬度预测器已经了解到ResNet是一个更好的模型。4.6现实预测我们完成了现实的预测评估，基于三个分类器。第一个，表示为C，使用标准（非现实）预测器。第二个，未标注的F，是由训练过程产生的现实预测器，而没有对接受的示例进行微调。这两个分类器是在整个训练集上训练的最后，通过对硬度预测器S所接受的训练样本进行微调F来获得第三个，表示为F′。两种策略也比较拒绝的例子。在这两种情况下，找到阈值T，使得训练示例的p%被拒绝。第一种策略是基于分类器置信水平的自参照拒例策略走向现实的预测3104我表2.不同方法去除某些硬样品时的性能MIT 67（前1名准确度，均值（方差）; VGG 16-VGG 16架构）分类器拒绝0%的百分比百分之五百分之十百分之十五百分之二十百分之二十五CmaxcpcT七十二3（1.六、75. 0（0.0个）七十六。0（0. 0个）七十七。5（0。0个）八十7（0. 0个）82岁6（0. 0个）F′S（x）>T七十二3（1. 六、75. 4（0。0个）七十六。6（0. 0个）七十七。9（0. 0个）81. 1（0.0个）82岁9（0. 0个）ImageNet（前5名准确率，均值（方差）; VGG 16-VGG 16架构）0%的百分比百分之五百分之十百分之十五百分之二十百分之二十五CmaxcpcT91. 2（0.第五章）91. 8（0.0个）92. 5（0。0个）九十三1（0. 0个）九十三8（0. 0个）94 8（0.0个）F′S（x）>T91. 2（0. 第五章）91. 9（0. 0个）92. 5（0。0个）九十三2（0. 0个）九十三8（0. 0个）九十五0（0. 0个）5 984.897964.6954.4944.2934923.85 10 15 2025915 10 15 20 25a）剩余测试样本数量与pb）准确度与p图8. ImageNet上现实预测器和标准预测器之间的比较如果maxcpc T，则拒绝示例xi，其中pc是类我我C. 第二种策略利用HP-Net：如果S（xi）> T，则拒绝xi。注意仅第一策略对于分类器C是可能的，其在没有HP-Net的情况下学习。表2比较了所有分类器和拒绝策略的性能，作为拒绝百分比p的函数。可以提出几点意见。首先，现实预测器的性能总是优于标准分类器C的性能。与人类的情况一样，通过拒绝对困难的例子进行其次，S（x）> T的抑制性能几乎在所有设置中都优于标准抑制（maxcpc T增益可以是相当显著的，特别是当p减小时，例如二、p= 5%时，前1名性能的3分这表明，重要的是要学习硬度预测器与分类器，并且常用的自参考置信分数不足以保证良好的硬度预测。最后，当硬度预测基于HP-Net时，在整个训练集上训练的现实预测器F的前1精度与仅在接受的示例上微调的（F’）精度之间几乎没有差异这表明F确实是一个现实的预测器，能够在接受的示例上接近最佳性能，而无需任何微调。剩余样本数准确度（\%）14王佩和努诺·瓦斯康塞洛斯图8展示了更多结果，并在ImageNet上的不同网络配置（VGG 16-VGG 16和ResNet 50-ResNet 50）上比较了现实预测器F’与标准C用较弱的VGG模型实现的现实预测器F’这表明，即使VGG不能学习ResNet可以学习的所有内容（即，VGG不能学习ResNet可以学习的所有内容）。它不像ResNet那样智能），它可以通过拒绝一些示例来保证相同的在这种情况下，VGG通过拒绝大约10%的测试示例来通过ResNet的每一个2%的拒绝，并且通过拒绝5%的测试示例来通过ResNet在整个测试集上的性能。另一方面，为了保证目标性能，现实预测器可以接受和分类比标准的非现实预测器更多的例子例如，达到目标精度93。2%，ResNetF′只需要拒绝小于2%的样本，但对于C，它必须拒绝约5%的样本。总之，虽然更好的模型总是具有更好的性能，但现实的预测器可以通过在可能失败的地方进行适当的分析来提供更好的形式这甚至适用于最好的模型。在ImageNet上，优秀的ResNet能够通过拒绝约10%的示例将其性能从93%提高到97%。虽然部分原因是由于示例确实更容易，但增益比原始预测器大得多，这仅将其性能提高到95%。通过硬度预测器预测哪些示例是困难的，并适应它们的能力实现了这种增益。5结论在这项工作中，我们提出了一类新的分类器，表示现实类sifiers。这些分类器像人类一样，评估样本的难度，拒绝对那些被认为太难的样本进行分类，但保证他们分类的样本具有在现实的分类，设计一个归纳预测的硬度分数的中心问题，然后被认为是。有人认为，这应该是一个独立于分类器本身的预测器已经提出了一种新的架构来完成这些目标，通过补充分类器与辅助预测网络（HP-Net）。这两个网络是在对抗环境中训练的，类似于生成对抗网络（GAN）。实验结果提供了证据支持这种架构。虽然当HP-网络具有与分类器相同的架构时实现了最佳结果，但是在两者之间共享权重会降低分类性能。这表明，虽然硬度预测器必须调整到分类器，但两者从根本上解决了不确定的任务。广泛的分类实验还表明，现实的分类器总是提高性能的例子，它接受分类，在这些例子比一个等效的非现实的分类器表现更好走向现实的预测5引用1. Alain，G.，Lamb，A.，桑卡尔角Courville，A. Bengio，Y.：基于分布重要性抽样的sgd国际学习代表大会（2016年）2. Bansal，A.，Farhadi，A.，Parikh，D.：建立透明的制度：语义字符-故障模式的随机化。 In：ECCV. pp. 3663. Basu，S.，Christensen，J.：教人类分类的界限。在：AAAI人工智能会议（2013）4. Bengio，Y.，Louradour，J.，科洛伯特河Weston，J.：课程学习。In：In-ternatinalCo nfere nceo nMac hi neLea rningg.pp. 41ACM（2009）5. Chang，H.S.，Learned-Miller，E. McCallum，A.：有源偏置：通过强调高方差样本来训练更准确的神经网络。在：神经信息处理系统的进展。pp.10036. Daftry，S.，曾，S.，Bagnell，J.A.，Hebert，M.：内省知觉：学习预测视觉系统的故障。In：IEEE International Conference onIntelligent RobotsandSystems.pp. 1743IEEE（2016）7. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：IEEE计算机视觉和图形学会议上。pp.248-255 02The Dog（2009）8. Freund，Y.，Schapire，R.E.，等：用一种新的boosting算法进行实验In：Iter natinalCo nfere nceo nMac hi neLear ni ng.vol. 第96页。1489. 高，J.，Jagadish，H.，Ooi，B.C.：主动采样器：用于大规模复杂数据分析的轻量级加速器神经信息处理系统进展。（2016年）10. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 267211. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。CoRR abs/1412.6572（2014）12. Gopal ， S. ：利用边信息的 sgd 自适应采样。 In ： Interna-tionalConferenceonMachineLearng. pp. 36413. Hinton ， G.E. ：要识别形状，首先要学会生成图像。 Progress inBrainResearch165，53514. Jammalamadaka，N.，Zisserman，A.，Eichner，M.，法拉利，V。，Jawahar，C.：我的算法成功了吗？一种用于人体姿态估计器的评估器。In：EuropeanCo nfere nceo nCom puterVisio n.pp. 11402TheDog（2012）15. 金 T.H. Choi，J. ：筛选网：学习神经网络课程。arXiv预印本 arXiv ：1801.00904（2018）16. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。神经信息处理系统进展。pp. 109717. Lapedriza，A. Pirsiavash，H.，Bylinskii，Z.，Torralba，A.：所有的培训案例都同样有价值吗？ArXiv预印本arXiv：1311.6510（2013）18. 林，T. 是的，再见，P.， Gir shi ck，R.， He，K.，我会的，P。：用于检测阻塞的频率损失。IEEE计算机视觉国际

下载后可阅读完整内容，剩余1页未读，立即下载