利用深度网络的类层次结构改进图像分类的错误问题

164 浏览量更新于2023-10-23 收藏 692KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12506犯更好的错误：利用深度网络的类层次结构Luca Bertinetto*Romain MuellerKonstantinos Tertikas Sina Samangooei Nicholas A.王{luca.bertinetto，romain.mueller，konstantinos.tertikas，sina，nick.lord}@ five.aiwww.five.ai摘要在过去的十年里，深度神经网络极大地改善了图像分类，但这是通过专注于性能指标来实现的，这些指标将除地面实况之外的所有类别都视为同样错误。这就导致了这样一种情况，即犯错误的可能性比以前小，但当错误发生时，同样可能是荒谬的或灾难性的。过去的作品已经认识到并试图通过在类层次结构中使用图距离来解决错误严重性的问题，但是自从当前的402000的情况。200的情况。150的情况。100的情况。050的情况。00Top-1错误20122017平均错误严重度10512012 2017计算机视觉的深度学习时代本文主要旨在通过回顾过去的方法并提出交叉熵损失的两个简单修改来重新引起对该问题的兴趣，这两个简单修改在具有复杂类层次的两个大数据集上的几个度量下优于现有技术：tieredImageNet和iNaturalist'19。1. 介绍近年来，图像分类网络已经有了很大的改进，但泛化仍然不完善，测试时的错误当然也会发生。常规地，这样的误差相对于单个地面实况类来定义，并且使用一个或多个前k个度量（k通常被设置为1或5）来报告。然而，这种实践强加了某些关于犯错误意味着什么的概念，包括将除了“真”标签之外的所有类都这可能实际上并不符合我们对所需分类器行为的直觉，对于某些应用程序来说，这一点可能是至关重要的。举一个自动驾驶汽车观察路边物体的例子：无论我们使用什么分类器性能的度量，我们都可以肯定地同意，将灯柱误认为树比将人误认为树更不成问题，因为这样的错误将在预测和规划方面具有至关重要的影响。如果我们想考虑到这些因素，我们必须结合一个类之间关系的非平凡模型，并相应地重新思考更多*同等贡献。1 23456789 10111213141516171819错误严重度图1：前1名错误和错误分布在ImageNet/ILSVRC-12上的知名深度神经网络架构的WordNet层次结构：有关错误严重性的定义，请参阅文本在过去的几年里，排名第一的错误有了惊人的改善，但是尽管错误的绝对数量有所减少，但所犯错误的严重程度虚线表示每个度量的最佳可实现值。广义上讲，网络“犯错误”意味着什么。表示这些类关系的一种自然而方便的方法是通过分类层次树。这个想法并不新鲜。事实上，在设计分类器时，在各种机器学习应用领域中考虑类层次结构曾经是相当常见的，如Silla Freitas [32]中所调查的那样。这项工作汇集和分类了大量的分层分类问题和算法，并提出了广泛适用的措施，量化分类器的性能，在一个给定的类层次结构的上下文。作者注意到，那个时代的等级信息分类器通常在经验上优于层次不可知的）分类器，在所建议的层次度量下性能此外，类层次结构是ImageNet数据集的核心：如Denget al.[10]它是由概率02 The Fall of theWoman（2012）VGG-11（2014）ResNet-50（2015）DenseNet-161（2016）ResNeXt-101（2017）%12507直接从WordNet [20]，本身是一个层次结构，最初只设计用于表示单词之间的语义关系。ImageNet推出后不久[9]，Zhaoet al. [44]和Vermaet al. [37]明确指出，支撑WordNet的层次结构提出了一种量化错误严重性的方法，并尝试了分层成本最小化。类似地，Deng等人。[8]提出了一种简单的方法，使用层次导出的相似性矩阵来定义图像检索的语义上更有意义的兼容性函数。尽管这种最初的兴趣激增和随之而来的有希望的结果，社区有效地放弃了分层措施后，决定他们没有沟通实质上不同的信息分类器的性能比前1和前5的准确性1。当Krizhevskyet al. [16]仅以平顶-k术语报告，为随后的图像分类深度学习时代的工作奠定了对优化的和分级性能测量，并在其各自的限制下减少到标准设置。3.我们进行了广泛的实验评估，以证明与现有技术相比所述方法的有效性，并鼓励未来的工作。所有实验的PyTorch[23]代码将在github.com/fiveai/making-better-mistakes上提供。2. 框架和相关工作首先，我们提出了一个简单的框架，用于思考与在图像分类上犯更好错误的问题相关的方法，从标准的监督设置开始。考虑训练集S ={（xi，Ci）}i=1，.，N它将N个图像xi∈I与类标签Ci∈ C配对。网络架构实现预测器功能φ（x;θ），其参数θ通过最小化1ΣN等级制的业绩衡量标准也相应地减弱。我们在这里认为，这个问题是成熟的重新审视，Ni=1L（φ（xi;θ），y（Ci））+R（θ），（1）我们先从图开始。1.一、这里，错误被定义为不同于地面实况类的前1预测，并且这种错误的严重性是层次结构中预测类和地面实况类的最低共同祖先我们看到，虽然多年来最先进的分类器的平顶1精度已经提高到令人印象深刻的水平，但所犯错误的严重程度的分布在这段时间内变化很小我们假设，这是由于，至少在一定程度上，现代学习方法的稀缺性，试图利用先验信息和偏好的类关系的利益“更好地犯错误”，无论这些信息是从一个fline分类或其他来源。我们知道的少数例外包括Fromeet al。[12]，Wuet al. [38]，BarzDenzler [3]，and a passing mention in Redmon Farhadi[27].节中第二，我们提出了一个框架来思考这些作品，它们的前身，以及它们的一些概念亲属。本工作的贡献如下：1. 我们在一个解释性框架内回顾了相关文献，该框架统一了相当不相关的现有技术。2. 基于前面的观点，我们提出了两种方法，它们既简单又有效地利用了类层次结构。每一个都使用标准交叉熵损失的单参数下降概括。这些损失变量可以被调整，以在top-k1摘自Russakovskyet al. [31]：“[.]我们发现所有三种误差测量（前5、前1和分层）产生相同的结果排序。因此，自ILSVRC 2012以来，我们一直专门使用最简单、最适合数据集的其中损失函数L将预测器在常见的选择下，例如L的交叉熵和对于y的one-hot嵌入，很容易看出框架是类之间关系的不可知论问题是这样的类关系H如何能被纳入方程中的损失。1.一、我们确定了以下三种方法：1. 用替代嵌入yH（C）替换类表示y（C）。这种“标签嵌入”的方法，在第二节中讨论。2.1、可以把它们嵌入两个从分类层次和替代来源。2. 改变损失函数L的自变量，得到LH（φ（x;θ），y（C）），即使得分配给给定输出分布和嵌入标签的惩罚取决于H。使用这些“层次损失”的方法在第10节中介绍。2.23. 将函数φ（x;θ）变换为φH（x;θ），即对网络进行分层通知的架构更改，通常希望引入有利的感应偏置。我们涵盖这些“hierarchi- cal架构”在第二节。2.3虽然正则化器RH当然是可行的，但在实践中却非常罕见：[44]这是我们所知道的唯一例子。2.1. 标签嵌入方法这些方法将类标签映射到其相对位置表示语义关系的向量，并优化这些嵌入向量上的损失。 Fromeet al.[12]将目标类映射到单位超球面上，将具有相似上下文的术语分配给相似的12508通过分析未注释的维基百科文本来表示[18]。损失函数是一种排序损失，它惩罚输出与错误标签嵌入的余弦相似程度高于正确标签嵌入的程度他们学习从预先训练的视觉特征管道到嵌入标签的线性映射，然后微调视觉管道。Romera-Paredes Torr [29]注意到，他们学习零次分类的类似线性映射的解决方案应该很容易扩展到适应这些类型的嵌入。在Hintonet al. [14，Sec. 2]，标签嵌入函数的作用由温度缩放的预先存在的分类器集成来发挥。该集合[39]用各种独立的包埋方法进行实验，如Akata等人所做的那样。[2]：注释属性，word2vec[19]，手套[24]和WordNet层次结构。他们的排名损失函数是functionally等效于Frome等人。[12]，并且他们从固定CNN的输出中Barz Denzler [3]提出了一种嵌入算法，该算法将示例映射到超球面上，使得所有距离表示从给定层次树中的最低共同祖先（LCA）高度他们通过最小化两个相当不同的损失之和来进行：（1）基于到嵌入类向量的余弦距离的线性损失，以及（2）在嵌入层之后添加的全连接层的输出上的标准交叉熵损失。2.2. 分层损失在这些方法中，损失函数本身由类层次结构参数化，使得更高的惩罚被分配给真实标签的更远亲的预测。Deng等[9]简单地训练基于kNN和SVM的分类器，以直接最小化预期的WordNet LCA高度。Zhao等人[44]通过用标准化的类相似性加权和替换输出类概率来修改标准的多类逻辑回归。他们还使用“重复组套索惩罚”来正则化特征选择Verma等人[37]将标准化的LCA高度纳入“上下文敏感损失函数”，同时在分类树中的每个节点处学习用于最近邻分类的单独度量。Wu等[38]通过在多个完全连接的层之间共享标准的深度网络主干来实现食物图像的粒度分类一个单独的标签传播步骤是用来平滑所得的边际概率的不一致。Alsallakh等人[4]同样使用标准的深度架构作为起点，但相反，策略性地分支到中间流水线阶段。因此，它们迫使网络在相应的级别上分类为离线确定的超类，从而在这些中间预测中反向传播误差在测试时，这些添加被简单地丢弃。2.3. 分层体系结构这些方法试图将类层次结构纳入分类器架构中，而不必改变损失函数。其核心思想是在语言模型的上下文中，至少早在Goodman [ 13 ]就注意到，关于IS-A层次树的分类可以被公式化为输出条件概率的分类器树，其中沿着给定叶子的祖先的条件的乘积表示其后验;出于效率的考虑，Morin& Bengio [21]将这一观察结果应用于从WordNet派生的二进制层次结构。RedmonFarhadi [27]在YOLOv2对象检测和分类系统的设计中提出了该框架的现代深度学习变体。使用一个版本的WordNet修剪成一棵树，他们有效地训练一个条件分类器在树中的每个父节点，通过使用一个softmax层每个兄弟组和训练下通常的交叉熵损失叶后验。虽然他们的主要目标是将COCO检测数据集与ImageNet集成，但他们认为，对新的或未知的对象类别进行优雅的降级可能是一个附带的好处。Brust Denzler [5]提出将条件分类器链扩展到更一般的DAGs情况。上述方法可以被看作是分层分类的一个限制性案例，其中分层结构中的每个分裂都被视为一个单独的分类问题。许多层次分类器介于这种极端和平面分类之间，在粗粒度条件性方面工作，其中“通才”在使用“专家”将组成员彼此区分之前对目标类的分组进行分配。Xiao等[40]，Hinton等人的准合奏部分。[14，Sec.5]，Yanet al. [41]和Ahmedet al. [1]所有这些都代表了这一主题的现代变体（首次出现不晚于[15]）。此外，列出的方法都使用某种形式的低级别的功能共享，无论是通过架构约束或参数克隆，并通过混淆聚类或潜在的参数推断动态推断的视觉层次结构Alsallakh等人[4]提出一个我们知道的建议，它将分层架构修改（在训练时）与分层丢失相结合，如第2节所述。2.2然而，在测试时，架构是未修改的AlexNet，所有超类的“赋值”都是纯隐式的12509一3. 方法我们现在概述两个简单的方法，允许杠杆年龄类层次结构，以使更好的图像分类错误。我们专注于网络的输出是每个输入图像的类别上的分类分布的情况，并将相应的分布表示为p（C）=φC（x;θ），其中下标表示向量索引，省略x和θ。节中3.1，我们描述了分层交叉熵（HXE），一个直接的例子，分层损失审查第3.1节。2.2这种方法将每个类别的概率扩展到由给定层次树中的世系定义的条件概率链中。然后，它重新加权损失中的相应项，以便以层次结构通知的方式惩罚分类节中3.2中，我们提出了一个简单的嵌入函数的选择，以实现标签嵌入框架的SEC。2.1. 所得软标签是C上的PMF，其值以指数衰减，蒂利w.r.t.与地面实况的基于LCA的距离3.1. 层次交叉熵当层次结构H是树时，它对应于类别上的分类分布p（C）在条件概率方面的唯一因子分解，将每个类连接到树的根的路径将从叶节点C到根节点R的路径定义为C（0）=C，. . .，C（h）=R，则C类的概率可以被分解为hY−1p（C）= p（C（1）|C（1+ 1））、（2）l=0其中hh（C）是节点C的高度。注意，我们省略了最后一项p（C（h））=1。条件句可以用类概率来表示，Σ到使用等式1输出类别概率的模型。3 .第三章。注意，当所有权重等于 1 时， LHXE 减少到标准交叉熵。Redmon Farhadi在他们的YOLO-v2文章中简要提到了这种极限情况根据[27]，只会导致结构变化，但不会直接将等级信息纳入损失。等式 4有一个有趣的信息理论解释：由于每个项logp（C（l））|C（1+ 1））对应于与层级中的边C（1+ 1）→C（1）相关联的信息，HXE对应于对与这些边中的每一个相关联的信息进行折扣。ently注意，由于HXE是根据条件概率来表达的，因此等式11中的重新加权是不必要的。4不等同于独立地为每个可能的基础真值类重新加权交叉熵（例如，在[17，7]中所做的）。一个明智的选择的重量是采取λ（C）=exp（−αh（C）），（5）其中h（C）是节点C的高度，α >0是一个超参数，它控制信息在层次结构中被折扣的程度。α的值越高，对“通用”信息的偏好就越高，而虽然这样一个定义具有可解释性和简单性的优点，但人们可以考虑其他有意义的权重（例如。基于层次树的分支因子）。我们专注于Eqn。5在此，同时留下了对未来工作的不同策略的探索。3.2. 软标签我们的第二种方法，将分层信息，软标签，是一个标签嵌入的方法，如描述在节。2.1. 这些方法使用映射函数，p（C(l) |C（1+1））=A∈Leaves（C（l））p（A），（3）B∈Leaves（C（l+1））p（B）y（C）将类与表示相关联，对类关系信息进行编码，one-hot表示的平凡情况。的利益其中Leaves（C）表示从节点C开始的子树的叶节点的集合。将分层信息并入损失中的直接方式是根据等式2对分类器的输出进行分层因式分解。2，并将总损失定义为条件概率的交叉熵的重新加权和。这导致我们将分层交叉熵（HXE）定义为为了简单起见，我们选择一个映射函数ysoft（C），它输出类上的分类分布。这使得我们能够简单地使用标准的交叉熵损失：ΣLSoft（p，C）=− ysoft（C）logp（A），（6）A∈C其中软标签嵌入由下式按分量给出：hΣ−1ysoft（C）=exp（−βd（A，C））、（7）LHXE（p，C）=−l=0λ（C（l））logp（C（l））|C（1+ 1））、（4）一B∈C exp（−βd（B，C））其中，λ（C（l））是与边缘节点C（l+1）→C（l）相关联的权重，参见图2。2a. 虽然这种损失是用条件概率来表示的，但它很容易被应用对于类距离函数d和参数β。这种损失是示于图2b.对于距离函数d（Ci，Cj），我们使用LCA（Ci，Cj）的高度除以树的高度为了理解超参数β的作用，12510一BC(a)Rλ（D）Dλ（A） λ（B）λ（C）(b)RD并将其与现有技术进行比较。最后，我们对随机层次结构进行实验，以了解类相关性信息何时有助于分类。4.1. 数据集AB C“这是什么意思？”10 0一”y软（A）B”y软（A）C”y软（A）在我们的实验中，我们使用 tieredImageNet [28]（ImageNet的一个大子集）和iNaturalist图2：HXE的表示（第二节）3.1）和软标签（第3.2）一个简单的说明性等级的损失分别在（a）和（b）分项中列出。地面实况类被加下划线，并且对损失的总价值有贡献的边缘被以粗体绘制。注意，比树中的典型倒数距离大得多的β值导致接近独热的标签分布，即，yA（C）<$δAC，在这种情况下，交叉熵减少到熟悉的单项对数损失表情相反，对于非常小的β值，拉贝尔分布接近均匀。在这两个极端之间，更大的概率质量被分配给与地面真值更密切相关的类别，差异的大小由β控制。我们提供了两个互补的解释，动机这种表示（除了它的容易）。首先，描述每个目标类别的dis-course可以被认为是贴标机由于密切相关的类别之间的视觉混淆而将经历的实际不确定性的模型2。它也可以被认为是编码的程度，一个共同的反应，不同的类别是需要的分类器，即。在产出之间强加相关性，其中对于更密切相关的类别，期望更高的相关性。这反过来又表明了与Hinton等人的表面上不同但概念上相关的计算方法的联系。[14，Sec. 2]，其中一个大网络对不同类别的响应之间的相关性被一个较小的网络模仿以达到期望的效果。在这里，我们只是直接提供这些相关性，使用广泛可用的层次结构。另一个重要的联系是标签平滑[33]，其中独热标签与均匀分布相结合。这种技术已被用于调节大型神经网络（例如，[33，6，36，45]），但直到最近[22]才得到更彻底的研究。4. 评价在下文中，我们首先描述数据集（Sec.4.1）和指标（第4.2）的设置共同的所有我们的实验。然后，在Sec。4.3，我们评估两个简单的[2]在最近的一项研究中，Petersonet al. [25]利用软标签来表达CIFAR-10子集的人类标签的分布，对在其上训练的分类器显示出很强的泛化能力。另一个和 b ）复杂到足以涵盖大量的视觉概念。ImageNet旨在填充名词的Word-Net [20]层次结构，WordNet本身通过检查IS-A词汇关系生成。相比之下，iNat- uralisttieredImageNet最初是由任等人[28]对于少镜头分类问题，其中数据集分裂之间的类集是不相交的。作者虽然我们的任务和动机不同，但我们选择这个数据集是因为它的类跨越了Word-Net层次结构的很大一部分为了使其适用于（标准）图像分类问题，我们对数据集进行了重新采样，以便表示训练，验证和测试分割中的所有类别。此外，由于第3.1节和YOLO-v2 [27]中提出的方法要求表示层次结构的图是一棵树，因此我们稍微修改了跨越WordNet层次结构的图，以符合这一假设（更多细节可参见补充材料，第3.1节）。D）。在这个过程中，我们...建立了一个高度为13的树，覆盖了608个类。我们将此数据集称为tieredImageNet-H。iNaturalist是一个生物图像数据集，主要用于评估细粒度视觉分类方法。数据集构建协议与ImageNet使用的协议有很大的不同，因为它依赖于热情的志愿者，而不是按任务付费的工人[35]。重要的是，对于2019年版的CVPR细粒度视觉分类研讨会，物种之间的层次关系元数据已经发布。与WordNet相比，这种分类法是一个8级完整的树，跨越1010个类，可以很容易地在我们的实验中使用，而无需修改。由于测试集的标签不是公开的，我们从原始训练和验证分裂中随机重新采样三个分裂到新的训练，验证和测试集（各自的概率为0）。七比零。15和0。15）我们将iNaturalist'19的修改版本称为4.2. 度量我们考虑三种性能指标，涵盖了分类器错误的不同解释12511Top-k错误。在这种度量下，如果地面真值在具有最高可能性的前k个类中，这是通常用于比较分类器的度量，通常k=1或k=5。请注意，该度量平等地考虑分类器的所有错误，而不管预测的类与地面事实有多等级措施。我们还考虑的措施，相反，前k错误，权重的严重性，失误。我们使用预测类和地面事实之间的最低共同祖先（LCA）的高度作为核心严重性度量，正如最初在描述ImageNet创建的文章中提出的那样[10，9]。正如在[9]中所指出的，这个度量应该用对数术语来考虑，因为混淆类的数量是祖先高度的指数。我们还根据Deselaers Ferrari [11]的建议对Jiang-Conrath距离进行了实验，但没有观察到有意义的差异。LCA的高度我们考虑两个措施，利用层次结构中的节点之间的LCA的高度。• 错误的层次距离是当输入被错误分类，地面实况和预测类之间的LCA的高度，即。当具有最大似然的因此，当只有一个类别可以被视为预测时，它可以衡量错误分类的严重程度• 相反，top-k的平均层次距离采用地面实况与k个最可能的类中的每一个这一措施可以当可以为某个下游任务考虑分类器的多个假设时，这是重要的。4.3. 实验结果在下文中，我们分析了第2节中描述的两种方法的性能。第3.1节和第3.2，我们分别用HXE和软标签表示。除了基于香草交叉熵的平面分类器外，我们还实现了Redmon Farhadi [27]（YOLO-v2）3，Frome等人提出的方法并与之进行了比较。[12]（DeViSE）和Barz Denzler [3]。如第1，这些方法代表，据我们所知，唯一的现代尝试，故意减少语义严重性的分类器但是请注意，我们没有在 iNaturalist-H 上运行DeViSE，因为这个数据集的类ID与word 2 vec使用的语料库无关[18]。最后，我们不比较与“通才/专家”架构调查第二节。2.3由于补充材料中解释的原因，B.3注意，这是指第2节中提出的条件分类器子系统。4、工作时，不能用主物体检测系统。由于我们有兴趣了解可以改进上述指标的机制，因此必须使用所有考虑的算法之间通用的简单配置。我们使用ResNet-18架构（在ImageNet上预训练权重），使用Adam [26]训练200，000步和小批量大小256 我们使用1e−5的学习率，除非指定其他值。是的进一步的实施细节将推迟到补充材料，SEC。C.图3：Top-1错误与对于tieredImageNet-H（顶部）和iNaturalist-H（底部），缺失的分层距离。靠近图左下角的点是实现最佳折衷的点。主要成果。在图3和图4中，我们展示了它是如何可能的-通过简单地调整方程中的超参数α和β，能够有效地权衡top-1误差以减少分层误差。5和7。具体来说，增加α对应于（指数）降低层次结构中的信息，因此更严重地惩罚预测类远离地面真相的错误。类似地，在软标记方法中减小β相当于将标记质量从地面实况逐渐移向相邻类别。两种方法在各自的极限α→0和β→ ∞中减少到交叉熵。此外，请注意，改变β会影响表示软标签的分布的熵，其中两种极限情况是标准单热情况下的β=∞和均匀分布的β=0。我们尝试了0的情况。1≤α≤0。6和5≤β≤30。为了限制评估过程中的噪声，对于我们的方法和所有竞争对手，我们将四次多项式拟合到验证损失（在丢弃前50，000个训练步骤之后），并选择对应于12512图4：Top-1错误与tieredImageNet-H（前三名）的top-k（k∈ {1，5，20}）的平均分层距离，以及iNaturalist-H（底部三）。靠近图左下角的点是实现最佳折衷的点它的最小值和它的四个邻居。然后，为了产生我们的图中报告的点，我们对验证集上从这五个时期获得的结果进行平均，同时为表1的实验保留测试集。注意，在图中。4，当考虑k =1的分层距离时，方法几乎完全沿着图对角线对齐，这证明了该度量与top-1误差之间的强线性关系。这一结果与[31]中观察到的结果一致，2011年ILSVRC研讨会的组织者放弃了基于层次距离的排名。当考虑到第二节中描述的其他指标时，4.2，一个不同的画面出现了。事实上，在图1中，前1错误和分层距离之间的权衡是显而易见的。3，在图中。4，k=5，k=20。请注意，属于我们的方法的图上的点如何概述了一组包含现有技术的权衡。例如图3.在tieredImageNet-H上，如果在top-1错误和错误的层次距离之间有任何期望的权衡，使用HXE比任何其他方法都要好。当考虑前5名和前20名的平均分层距离时，也可以观察到类似的现象（图1）。4），虽然在这些情况下，最好使用软标签。这种趋势的唯一例外是Barz Denzler [3]在tieredImageNet-H上表示的，对于k=5或k=20，它可以实现略低的平均分层距离，但在前1错误方面代价很大。使用图中所示的结果。3和4，我们为我们的两个建议选择了两个合理的操作点：一个用于高距离/低top1误差状态，一个用于低距离/高top1误差状态。然后我们运行两个这些配置的测试集，并报告我们的结果在表1中。平均值和95%置信区间是从五个最佳时期获得的。在验证集上观察到的趋势在测试集上很大程度上重复。当期望优先考虑前1错误时，具有高β的软标签或具有低α的HXE更合适，因为它们在基于分层距离的度量上优于交叉熵，同时在前1错误方面实际上是等同的在应该优先考虑分级测量的情况下，优选使用具有低β的软标签或具有高α的HXE，这取决于分级度量的特定选择。尽管Barz Denzler的方法在该区域中具有竞争力，但它也表现出关于交叉熵的top-1误差的最差确定性。我们的实验一般表明，在所有测试的方法，在顶部-1的感觉和层次感的性能之间的内在张力。我们推测，这种紧张关系与从对抗性示例研究中得出的观察结果之间可能存在联系，这些研究表明鲁棒性和（传统）准确性之间存在权衡，例如，[34、43]。等级制度可以是任意的吗？虽然词汇Word-Net层次结构和iNaturalist的生物分类本身不是视觉层次结构，但它们反映了底层数据集中表示的对象之间的视觉关系。由于深度网络利用视觉特征，因此研究特定层次结构的重要程度是很有趣的视觉接近和语义接近之间的联系也在[9，11]等著作中进行了探索但如果我们强加一个仲裁-12513表1：tieredImageNet-H（顶部）和iNaturalist-H（底部）测试集的结果，95%置信区间。对于每个数据集的每个列，最好的条目以黄色突出显示，而最差的条目以灰色突出显示。这里Dist.错误↓Avg. - 是的Dist. @1↓Avg. - 是的Dist. @5↓Avg. - 是的Dist.@20↓Top-1错误↓CROSS-熵六、89 ±0。0041 .一、90 ±0。002五、59 ±0。0047 .第一次会议。07±0. 007二十七岁55±0。038BARZ DENZLER [3]六、72 ±0。017二、62 ±0。014五、09 ±0. 009六、21 ±0。00739岁03 ±0.157[27]第二十七话六、91 ±0。006二、10 ±0。002五、77 ±0。0127 .第一次会议。42±0。018三十43 ±0。030DE VI SE [12]六、83 ±0。005二、17 ±0。003五、54 ±0。0037 .第一次会议。04±0. 00231岁69 ±0。058HXE α =0。1（我们的）六、83 ±0。0091.一、89 ±0。003五、53 ±0。004六、98 ±0。008二十七岁68±0。066HXE α =0。5（我们的）六、46 ±0。026二、11 ±0。021五、37 ±0。003六、69 ±0。008三十二61±0。443SOFT-标签β=15（我们的）六、83 ±0。0051 .一、90 ±0。004五、49 ±0。002六、83 ±0。002二十七岁78±0。063SOFT-标签β=5（我们的）六、56 ±0。009二、29 ±0。008五、16 ±0。006六、28 ±0。005三十五00±0。096CROSS-熵二、41 ±0。0031 .一、05 ±0.0041.一、90 ±0。004二、87 ±0 . 01，P <0.05。006四十三77 ±0。138BARZ DENZLER [3]二、19 ±0。0081.一、27 ±0。0071 .一、56 ±0。006二、03 ±0. 005五十七83 ±0。137[27]第二十七话二、37 ±0。0061 .一、07 ±0.0071 .一、81 ±0。008二、73 ±0。009四十五23 ±0。202HXE α =0。1（我们的）二、35 ±0。0071.一、04 ±0. 0041 .一、80 ±0。004二、70 ±0。00944. 28 ±0。171HXE α =0。6（我们的）二、13 ±0。0031 .一、21±0。0041 .一、62 ±0。003二、68 ±0。003五十六61 ±0。241SOFT-标签β=30（我们的）二、35 ±0。0021 .一、05 ±0.0051 .一、62 ±0。005二、32 ±0。00444. 75 ±0。139SOFT-标签β=10（我们的）1 .一、16 ±0。0061.一、47 ±0。0041 .一、99 ±0。00355. 16 ±0。196二、10 ±0。005可能颠覆这种关系的等级制度为了回答这个问题，我们随机化了层次结构的节点，并重复了我们的实验。iNaturalist-H上的结果显示在图中。5（tieredImageNet-H表现出类似的趋势）。同样，我们报告了权衡图，x轴上显示了前1个错误，y轴上显示了基于LCA高度（在随机分层结构上）的指标。很明显，当使用随机层次时，层次距离度量明显更差。虽然这并不令人惊讶，但结果恶化的程度是显著的。这表明，由层次结构表示的结构关系的固有性质对于学习分类器是至关重要的，除了实现竞争性的前1精度之外，分类器还能够犯更好的错误。因此，虽然人们可能希望使用这种方法来实施特定于应用程序的关系（如在第12节中所激励的）。1），这样做的有效性可能受到数据的底层属性的约束。奇怪的是，对于软标签，随机层次结构的top-1错误始终低于其我们推测这可能是由于锚定到视觉世界的层次结构所施加的结构约束，这可能会限制神经网络有机会学习相关性，从而使其能够实现低top-1错误（以更脆弱的泛化为代价）。事实上，[42]的作者指出，训练深度网络将真实图像映射到随机标签比使用随机图像更困难。对此最可能的解释是，共同的视觉特征决定了共同的反应，这些特征不可避免地被密切相关的例子所共享。5. 结论自从深度学习出现以来，社区对在本文中，我们已经证明，图5：Top-1错误与iNaturalist-H缺失镜头的层次距离（顶部）和前20名的层次距离（底部）。靠近图左下角的点是实现最佳折衷的点。这个问题仍然非常开放，卷土重来的时机已经成熟。我们已经证明，两个简单的基线，modify交叉熵损失能够优于少数现代方法解决这个问题。毫无疑问，这项任务的改进是可能的，但重要的是要注意标准前1准确性和错误严重性之间的微妙平衡。照目前的情况12514看，似乎有可能犯更好的错误，但定义“更好”概念的阶级关系的性质我们希望，本文中提出的结果很快就会被它所激发的新竞争对手所超越。12515引用[1] 卡里姆·艾哈迈德，穆罕默德·哈里斯·拜格，洛伦佐·托雷萨尼。大规模图像分类专家网络。2016年欧洲计算机视觉会议[2] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.细粒度图像分类的输出嵌入评价。IEEE计算机视觉与模式识别会议，2015年。[3] 作者声明：JohnBarzandJoachimDenzle r. 基于层次结构的图像嵌入在语义图像检索中的应用。在2019年IEEE计算机视觉应用冬季会议上[4] Alsallakh Bilal，Amin Jourabloo，Mao Ye ，XiaomingLiu，and Liu Ren.卷积神经网络可以学习类层次结构吗？ IEEE transactions on visualization and computergraphics，2017。[5] Clemens-Alexander Brust和Joachim Denzler。整合领域知识：使用层次结构来改进深层分类器。arXiv预印本arXiv：1811.07125，2018。[6] Jan Chorowski和Navdeep Jaitly。在序列到序列模型中实现更好的解码和语言模型集成。InProc. Interspeech，2017.[7] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie.基于有效样本数的类平衡损耗。在IEEE计算机视觉和模式识别会议上，2019年。[8] Jia Deng，Alexander C Berg，and Li Fei-Fei.面向大规模图像检索的层次语义索引。2011年，2011年。[9] Jia Deng，Alexander C Berg，Kai Li，and Li Fei-Fei.分类超过10，000个图像类别能告诉我们什么？2010年欧洲计算机视觉会议[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上，2009年。[11] 托马斯·德塞拉和维托里奥·法拉利。imagenet中的视觉和IEEE计算机视觉与模式识别会议。IEEE，2011年。[12] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov。Devise：一个深度视觉语义嵌入模型。神经信息处理系统进展，2013年。[13] J古德曼。用于快速最大熵训练的类。IEEEInternationalConferenceonAcoustics ， Speech ， andSignalProcessing，2001.[14] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[15] Robert A Jacobs，Michael I Jordan，Steven J Nowlan，Geoffrey E Hinton，et al.当地专家的适应性混合。神经计算，1991年。[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，2012年。[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE2017年计算机视觉和模式识别会议。[18] Tomas Mikolov，Kai Chen，Greg Corrado，and JeffreyDean.向量空间中词表示的有效估计。arXiv预印本arXiv：1301.3781，2013。[19] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。神经信息处理系统进展，2013年。[20] 乔治·A·米勒WordNet：一个电子词汇数据库。1998.[21] Frederic Morin和Yoshua Bengio层次概率神经网络语言模型。在Aistats。Citeseer，2005年。[22] Rafa elMüller，SimonKornblith，andGeo f fr e yHinton. 标签平滑在什么情况下有帮助？在神经信息处理系统的进展，2019。[23] Adam P

下载后可阅读完整内容，剩余1页未读，立即下载