层次感知特征：降低严重性的错误分类器训练方法

59 浏览量更新于2023-12-01 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文用于降低错误严重性的Ashima Garg、Depanshu Sani和Saket AnandIndraprastha信息技术学院，印度德里{ashimag，depanshus，anands} @ iiitd.ac.in抽象的。标签层次结构通常是作为生物逻辑分类法或语言数据集WordNet的一部分而先验可用的。一些作品利用这些来学习层次意识的功能，以提高分类器，使语义上有意义的错误，同时保持或减少整体错误。在本文中，我们提出了一种新的方法来学习层次感知特征（HAF），利用分类器在每个层次的约束，以产生预测一致的标签层次结构。通过最小化Jensen-Shannon散度来训练分类器，其中目标软标签从细粒度分类器获得。此外，我们采用了一个简单的几何损失，约束的特征空间的几何形状来捕捉标签空间的语义结构。HAF是一种训练时间方法，它在保持前1错误的同时改善了错误，从而解决了将所有错误视为平等的交叉熵损失问题。我们在三个分层数据集上评估了HAF，并在iNaturalist-19和CIFAR-100数据集上获得了最先进的结果。源代码可在https://github.com/07Agarg/HAF上获得1介绍用交叉熵损失训练的传统分类器平等地对待所有误分类。然而，某些类别可能比其他类别在语义上更相关，这意味着某些分类错误可能比其他分类错误更严重例如，自动驾驶汽车将汽车误认为卡车并不像将行人误认为道路那样严重，后者可能导致灾难。同样，将松树误认为橡树比将其误认为玫瑰更不严重。训练分类器以使错误具有较低的严重性可以受益，并且在许多现实世界的应用中通常是错误的严重性通常是根据类标签之间的语义相似性来定义的例如，在类标签上定义的分类层次树可以通过其树结构来表达类之间的特定语义关系这个排序是使用[4，14]中的最低共同祖先（LCA）度量获得的。这些层次结构通常作为语言的一部分在类标签空间中很容易获得arXiv：2207.12646v1 [cs.CV] 2022年7+v：mala2255获取更多论文2A. Garg等人(a) 特征空间（b）分类器（c）标签层次图1：HAF的概述。我们提出了一种概率方法，用于学习层次意识的功能，尊重标签层次的特征空间，从而使语义上有意义的错误。我们为标签层次结构的每个级别训练具有共享特征空间的单独分类器。我们模型之间的关系，细粒度的类和它们各自的粗类使用标签层次结构和施加一致性约束的概率分布。我们进一步对来自不同级别的分类器的权重向量施加简单的几何约束，以将细粒度类的权重向量与其对应的粗粒度类的权重向量数据集，如WordNet[19]或来自生物分类学，例如，使用iNaturalist-19数据集[25]。Bertinetto等人。[4]提出了通过采用交叉熵损失的层次敏感适应来降低错误严重性的方法。他们报告了基于前k预测的平均层次距离的错误严重性的降低，代价是增加了前1错误，权衡由超参数控制一个更理想的解决方案是在保持或减少总体top-1错误的同时降低错误的严重性。Karthik等人。[14]强调了这种权衡，并指出条件风险最小化（CRM）的经典方法可以降低错误的严重程度，而不会显著改变前1个错误。此外，CRM是一种测试时间干预，它使用类之间的LCA测量对类可能性尽管它的简单性，CRM方法是通用的，其有效性是显着的.节中4，我们表明，CRM，当与其他方法相结合，几乎总是提高错误的严重性，没有显着影响的前1错误。虽然CRM提高了预测误差的质量，但作为一种测试时间方法，它不影响模型。因此，学习的表示本质上是不充分的，因为交叉熵损失函数忽略了标签空间中的所有语义结构，并独立地对待每个类。为了克服这种限制，在[4]中提出了分层交叉熵（HXE）损失，其基本上相当于在分层1的不同级别处应用的交叉熵损失的加权组合。Chang等人。[7]指出，使用粗类交叉熵损失的训练会降低细粒度级别的准确性。这可能是[4]中提出的两种变体的原因，1参见补充材料的推导植物花树兰花玫瑰橡树棕榈松树FC+v：mala2255获取更多论文HAF 3HXE和软标签丢失导致前1错误和错误严重性之间的权衡。Chang等人[7]通过明确划分特征空间来解开粗粒度和细粒度特征，从而减轻这种权衡这种分解方法被证明是成功的小层次，然而，特征向量划分限制了其可扩展性更大的层次。我们认为，为了解决错误严重性的问题，同时保持前1名的错误，重要的是要学习一个特征空间，捕捉标签空间中为此，我们建议学习一个层次感知特征（HAF）空间，该空间被显式训练以继承标签的层次结构我们观察到，一个层次意识的特征空间应该能够在所有层次的分类，并同时导致在最好的水平较低的错误标签层次结构将粗级别类标签约束为层次结构中其子类的不相交集合的组合我们利用分类器作用于特征空间的两个关键属性来帮助从标签空间继承这种组合结构。首先，我们使用细粒度的交叉熵训练分类器，并使用其预测来获得目标软标签（图1）。1）用于训练粗级辅助分类器。粗级分类器最小化其预测与目标软标签之间的Jensen-Shannon这种损失避免了在较粗糙的级别使用硬标签，因此用作细粒度分类器的一致性规则化，这进而导致改进的错误严重性，而不损害前1错误。我们采用这种方法是为了避免[7]中强调的陷阱，该方法指出细粒度特征可以导致更好的粗粒度预测，然而，显式地使用粗级别分类器的交叉熵损失会导致特征空间以更细的粒度优化性能。其次，我们对分类器权重向量施加几何一致性约束，这些权重向量对齐属于同一超类的子类（图1（b））。由此产生的损失促进了尊重标签空间（图1（c））的语义层次的特征空间（图1（a））。我们在第二节中提供了损失条款的进一步细节。3. 我们将我们的贡献总结如下。– 我们介绍了一种新的方法来学习层次感知功能（HAF）空间继承的标签空间的结构。我们设计了损失函数-在粗糙和粗糙之间施加概率和几何约束的约束精细水平分类器。– 我们的经验表明，HAF的规模以及大的标签层次结构，并降低错误的严重程度，同时保持前1细粒度的错误。2相关工作几项工作利用数据的分层分类用于视觉[4，14，7]和文本[18]数据的图像分类，多标签分类任务[27]，图像检索[2，29]，对象识别[22]，以及最近改进的半监督方法[12，24]。我们讨论了一些与我们的目标密切相关的重要工作。+v：mala2255获取更多论文凌晨4 Garg等人标签嵌入方法。这些方法使用软嵌入对类关系进行建模。DeViSE[10]最大化从预训练视觉模型中提取的图像嵌入与使用维基百科上的预训练word2vec模型获得的标签嵌入之间的余弦相似性。Liu等人。[17]利用双曲几何来学习分层表示。与DeViSE[10]类似，它们最小化了Poincar′ela bele mbeddings[20]和图像特征e mbeddings之间的P oinca r ′ e距离。 Barz&Denzler [2]将嵌入映射到单位超球面上，并使用LCA对层次距离进行编码。Bengio等人[3]将结构强加于类，并将学习嵌入到低维空间中以建模类之间的语义关系。Bertinetto等人。[4]提出了软标签，它使用基于LCA的类间语义信息编码的软目标。基于层次结构的方法。 Wu等人[28]联合优化多任务损失函数，其中交叉熵损失被应用在每个层次。最近，Chang et al.[7]确定了在vanilla框架中联合优化提出了一种基于独立层次分类器的多粒度分类体系结构。Red- mon等人。[22]提出了一种用于对象检测和分类的概率模型YOLOv 2，其中softmax应用于每个粗类别级别，以解决传统softmax分类器中所有类别的互斥问题基于分层损失的方法。Bertinetto等人[4]提出了另一种方法-分层交叉熵（HXE）。HXE是一种基于条件概率优化损失函数的概率方法，其中对特定类的预测以父类概率为条件。Brust&Denzler等人[6]提出了一种用于DAG的条件概率分类器。Bilal等人[5]通过向中间网络管道添加分支提出了分层感知卷积神经网络。在[16]中，作者使用了原型网络，该网络在特征与类原型之间的距离上使用softmax，以及鼓励类原型的正则化项以遵循标签层次结构中的关系。我们的工作符合本机构的研究。我们研究了一个不同的概率模型，并提出了基于该模型的损失函数。在HAF中，我们在每个级别上显式地定义类原型，并采用不同的方法来安排这些原型向量。基于成本的方法。另一种研究方法是根据错误分类的类型分配不同的成本[1]。Deng等人。[8]提出使用平均分类成本通过惩罚基于层次的错误来进行层次感知预测[9，26]使用语义层次来设计成本矩阵，优化级别之间的准确性-特异性权衡抽象的选择类，同时选择最好的具体性。这些方法包括成本矩阵中的内部节点和叶节点。虽然Karthik等人[14]研究了与[8]类似的条件风险最小化（CRM），这是一种推理时间方法，它基于使用叶节点之间的LCA距离HAF也适合这个框架-+v：mala2255获取更多论文∈我X{|}·、·H·^I预测概率表示为yp h（yh|xi;Wh）=gh（f（xi）），其中y^h我我i=1i=1HAF 5工作然而，与CRM不同[14]，HAF是一种训练时间方法来学习特征嵌入，使它们具有层次意义。3HAF：提议的方法考虑具有H+1个级别的标签层次树，其中根在级别0，并且h[1，，H]表示层次级别，其中h = 1和h = H分别表示粗和细级别。出于我们的目的，我们忽略根节点，因为它表示包含所有类的通用超集。设=xi，yh i= 1，，N是在水平h处的N个图像和它们各自的地面实况标签的集合。我们表示公共特征提取器f（），它使用一些骨干神经网络实现，并由参数化。如图1所示，我们在训练HAF时使用层次结构的每个级别处的分类器，并且将级别分类器表示为通过权重矩阵Wh参数化的gh（·）。所得我是由g预测的xii=1（·）并且可以从以下集合中获取类、标签：等级-h为Ch=S|一|Ai，S|B|Bi，S|C|Ci，. . .，我们定义了在水平-（h − 1）上的类的集合为Ch−1 ={A，B，C，. . . }中。稍微滥用一下符号，这里我们用A来表示级别-（h-1）的超类标签及其子类集合{A1，A2，. . . }在-h级。3.1细粒度交叉熵（LCEfine）我们仅在层次结构的最精细级别使用地面真值标签，并应用交叉熵损失来训练H级分类器，即，gH（）.样本的细粒度交叉熵损失由下式给出：LCE=−101yH=clog。p H（y^H=c|xi;WH）（1）c∈CH其中1[ ]用作指示器函数，当参数为true时取值1，否则取值0。3.2软层次一致性（Lshc）为了更好地犯错误，我们希望各级分类器使用相同的特征空间，但预测与标签层次结构一致。虽然使用交叉熵损失来训练所有级别的分类器是很自然的，正如[7]中所指出的，并且在我们的初始实验中观察到的，但是这种损失的选择损害了细粒度的准确性。相反，我们通过使用软标签和对称的基于熵的损失函数来加强不同级别的分类器之间的一致性。我们最小化粗分类器gh−1（·）的预测与从下一个细分类器gh（·）获得的软标签之间的Jensen-Shannon Divergence（JSD）[11]。如定义above，对于给定的类labelA∈Ch−1，罚款+v：mala2255获取更多论文^A，其中hich计算为|一|^I我我·|我SHC我我2我我k=1h=1h=1早上6 Garg等人设P[yh−1=A|xi]表示样本xi属于该类的概率yPy^h−1=A|xi=p h（y^h=Ak|xi;Wh）（2）将概率P[c]，c∈ Ch−1连接在一起以构造概率y向量p h−1（yh−1|xi），其中h用作x i的软La bel。这种软^^i标签生成过程如图所示。二、JSD在软标签和分类器gh（）的预测之间最小化。为方便起见，我们使用ph来表示ph（yihxi;Wh），类似地，ph表示相应的软标签。基于JSD的总软层次一致性通过对各个级别H−1H −1L=10JSh。p h||p^h=1（KL（p h||m）+KL（p^h||（3）其中m=l（ph+ph）且KL（·||·）是指Kullba ck-Leibler偏差。2i ^i重要的是要突出关键的差异-在上面生成的软标签和在[4]中定义的软标签之间的参考。最后-这些分类器是使用基于LCA的类间距离设计的，而我们对软标签的选择可以被解释为一种学习的标签平滑，它可以更好地调节粗级分类器。Yuan等人[30]在知识蒸馏的背景下对拉贝尔平滑进行了类似的论证。使用一个对称损失，如方程。（3）进一步使得两个级别的分类器能够联合驱动特征空间学习。粗分类器提高较细分类器性能的行为与[30]中提出的反向知识蒸馏（Re-KD）设置类似，其中作者表明学生（gh−1（·））能够提高茶叶分类器（gh（·））的性能。3.3利润损失（Lm）而Lshc提高了错误严重性（如我们在第二节中所示）。（5）成功通过图2：构建用于训练粗级分类器的软标签。超类目标概率是其子类目标的预测概率之和。颜色表示级别h− 1和h之间的类关系。由于更好的正则化，它不直接鼓励粗级别类之间的区分。因此，我们使用基于成对保证金的损失来+v：mala2255获取更多论文∈ H H −−我一一C我^J一一一一k=1一个kH在那里COS。wh，w^h是指两个向量之间的余弦相似性Hh∈H（i，j）∈BhHAF 7促进更具鉴别力的特征空间。我们在较粗糙的水平h上使用这种损失，其中是[k，H1]，并且k的范围是[1，H1]。对于给定的一批样本，我们创建在水平h具有不同标签的样本对，即，Bh={（i，j）|yh=yh}。我们计算蝙蝠上的保证金损失如下I jLm=最大值0，m−JSh（p h||（4）其中ph是由gh（f（xi））生成的softmax概率，m是裕度。边缘损失仅应用于层次结构的较粗级别，因为（1）的交叉熵损失对于细粒度区分是足够的。3.4几何一致性（Lgc）HAF在层次结构的所有级别上使用分类器。在层次感知的特征空间中，粗类和细类的权向量应该是相关的。在前面的小节中介绍的损失在分类器预测中强加了概率一致性，并且仅间接影响特征空间几何形状。为了更好地定位特征空间以继承标签空间层次，我们使用几何一致性损失。如前所述，设A ∈ Ch−1是一个给定的超类，其子类是Ak∈ Ch，k = 1，. . . 、|一|. 让重量对应于超类A的向量是wh-1，类似地，对应于子类的向量是whK. 注意，分类器gh−1（·）由权重矩阵Wh−1定义，该权重矩阵通过堆叠权重向量wc，c∈ Ch−1获得。我们进一步约束每个权向量为单位范数||2 = 1，k，h，在所有分类器中。||2=1,∀c,h,acrossallclassifiers. F或超类A∈Ch−1，我们定义目标weig ht向量为w^h−1=wh−1/||wh−1||2，其中wh−1=|一|wh.因此，要最小化的几何一致性损失为H-1。.hhLgc=h=1c∈Ch1− coswc，w^c（五）CCWC和WC。最后，总损耗由Ltotal=LCEfine+Lshc+Lm+Lgc给出。4实验和结果4.1实验装置数据集。我们在CIFAR-100 [15]，iNaturalist-19 [25]和tieredImageNet-H[23]数据集上对HAF方法进行了评估。我们遵循分层分类法，如[16]中的CIFAR-100，以及[4]中的iNaturalist-19和tieredImageNet-H。在所有三个数据集中，Level-0只有一个节点，即，的+v：mala2255获取更多论文早上8 Garg等人根节点因此，我们只考虑最底层的H个层次。与[4]类似，我们通过找到节点与它们的最低共同祖先（LCA）之间的最小距离来计算任何两个节点之间的距离表1总结了数据集统计数据。火车Val测试#类#水平CIFAR-10045,0005,00010,0001006iNaturalist-19187,38540,12140,73710108tieredImageNet-H425,60015,20015,20060813表1：数据集的统计。基线。我们直接将HAF与基线交叉熵、Barz Denzler的[2]、YOLO-v2[22]、Bertinetto等人的[4]工作的两种方法-软标签和HXE以及最近提出的基于CRM的方法[14]进行比较&。我们还比较了最近提出的张等人。s [7]用于不同粒度分类的多任务框架。为了公平比较，我们在所有方法的新的最佳超参数设置下使用相同的代码库重新运行所有实验，并报告每个实验在三个不同种子上的平均值和标准差。评价我们使用与Bertinetto等人相同的评估指标。[4]; Karthik等人。[14]。我们报告了以下三个指标：i）前1名-er-error，ii）平均错误严重性，即，仅对于不正确分类的样本，地面实况与预测的类别标签之间的平均基于LCA的距离，以及iii）平均分层距离@k，即，与地面实况标签的LCA的平均距离和所有样本的k个最可能的4.2培训课程我们采用Wideresnet-28-2[31]主干对CIFAR-100数据集进行评估。对于iNaturalist-19和tieredImageNet-H数据集，我们使用ImageNet预训练的ResNet-18[13]骨干，以及额外的600个隐藏单元的全连接（FC）层Chang等人[7]只使用这个完全连接的层来促进解纠缠，然而，我们使用这个额外的层作为主干的一部分，以确保所有方法的一致性每个层次级别的分类器都我们训练所有的模型，批量大小为256。我们在等式中定义的所有数据集上使用3.0的固定裕度m（4）从一批数据中创建总共256个不相似对。对于CIFAR- 100，我们使用RandomPadandCrop（32）和RandomFlip（）进行增强。对于iNaturalist-19 和 tieredImagenet-H ，我们使用RandomHorizontalFlip （），然后使用RandomResizedCrop（），如[4]中所执行的。我们找到了Chang等人的训练策略（学习率和优化器）[7]在基线交叉熵上对CIFAR-100和iNaturalist-19数据集给出最佳结果。使用SGD优化器的这种训练策略提高了+v：mala2255获取更多论文−- -HAF 9在iNaturalist-19上的交叉熵性能，而不是在[4]中使用Adam优化器报告的性能。我们在所有方法上使用SGD优化器获得了 CIFAR-100和iNaturalist-19的最佳结果，除了Adam[21]表现最好的软标签和HXE。对于使用SGD训练的方法，我们将骨干网和FC层的不同学习率设置为0。01和0。1，分别为[7]。对于使用软标签和Adam优化器的HXE进行训练，使用超参数扫描，我们发现模型在CIFAR-100和iNaturalist-19的学习率分别为1 e 3和1 e 4时表现最好。我们在tieredImageNet-H上训练所有模型120个epoch，学习率为1e 5。与其他数据集不同，我们使用Adam优化器来实现tieredImageNet-H，因为它比SGD优化器性能更好。4.3结果表2、3和4分别列出了我们提出的技术与CIFAR-100、iNaturalist-19和tieredImageNet-H上的基线的比较。Karthik等人。[14]将CRM技术应用于基线交叉熵。由于CRM是一种测试时间方法，它重新权衡从任何训练模型中获得的样本的概率分布，因此它可以应用于所有其他方法。因此，在每个表2-4中，我们将结果分组，以报告测试时使用和不使用CRM的评估指标。我们再次强调，该问题的目标是通过保持或改善top-1错误来改善分层度量。为了实现这个目标，在每个表中，我们用浅绿色突出显示前1名错误的竞争方法（行）。在这些竞争方法中，我们用绿色突出每个指标的最佳表现。在CIFAR-100（表2）上，基线交叉熵，Chang et al.[7]HAF和CRM方法在前1误差上是有竞争力的。怎么--HAF和HAF+CRM优于所有其他分层指标，而不会影响前1错误。我们在iNaturalist-19上观察到类似的趋势（表3），其中HAF和HAF+ CRM是交叉熵的唯一竞争性训练方法，其保持了前 1 错误，但改善了分层度量。在tieredImageNet-H（表4）上，基线交叉熵，HXE α= 0。1，软标签β=30，并且HAF对于前1错误和分层度量都是有竞争力的。然而，HAF是在20 ℃下性能最好的方法值得指出的是，Chang et al. s [7]方法不能很好地随层级数量的增加而扩展。对于具有六个级别的CIFAR-100，准确度与交叉熵具有竞争力，然而，对于具有8个和13个级别的iNat和tieredImageNet-H，前1个错误都是错误的。这并不意外，因为特征向量是基于级别数划分的。虽然增加特征空间可能是保持性能的合理解决方案，但决定每个级别的特征向量大小可能并不简单，特别是对于可能偏斜的层次结构相反，HAF是独立的使用的层次级别的数量，尽管在每个级别使用我们还注意到，CRM方法未能改善软标签β=4。这可能是因为标签分布非常平坦，+v：mala2255获取更多论文上午10 Garg等人方法Top-1错误（↓）错误严重程度（↓）Hier dist@1（↓）Hier dist@5（↓）Hier dist@20（↓）没有CRM交叉熵22.27± 0.001 2.35± 0.024 0.52± 0.0032.24±0.0073.17±0.007巴茨·登茨勒31.69± 0.004 2.36± 0.025 0.75± 0.0121.25±0.3642.49±0.004YOLO-v2[22] 32.03± 0.006 3.72± 0.022 1.19± 0.0192.85 0.010±0.0103.39 0.0109±0.0109HXEα =0.1[4] 28.41± 0.003 2.43± 0.004 0.69± 0.0082.08 0.008±0.0083.02 0.012±0.012HXEα =0.6[4] 30.42± 0.003 2.29± 0.008 0.7± 0.0081.76±0.0072.79 0.008±0.008软标签β= 30[4] 26.99± 0.003 2.38± 0.004 0.64± 0.0081.390.0272.79 0.005±0.005软标签β= 4[4] 32.15± 0.008 2.21± 0.037 0.71± 0.0241.23 0.018±0.0182.23 0.008±0.008Chang等人[七]《中国日报》21.94± 0.0022.32 ± 0.0050.51 ± 0.0052.06 ± 0.0183.08 ±0.007HAF22.27± 0.0012.24 ± 0.0140.50 ± 0.0031.41 ± 0.0072.64 ±0.002与CRM交叉熵[14]22.23± 0.001 2.31± 0.033 0.51± 0.0061.11±0.0062.18±0.002YOLO-v2 32.01± 0.006 3.72± 0.020 1.19± 0.0213.17±0.0033.64±0.004HXE（α=0.1）28.41± 0.003 2.42± 0.005 0.69± 0.0071.24 0.005±0.0052.24 0.005±0.005HXE（α=0.6）30.46± 0.003 2.28± 0.009 0.69± 0.0091.22±0.0072.22±0.004软标签（β= 30）27.17± 0.004 2.36± 0.001 0.64± 0.008 1.20± 0.0052.22± 0.003软标签（β= 4）32.73± 0.007 2.21± 0.023 0.72± 0.017 1.23± 0.0112.23± 0.00621.92± 0.001 2.27± 0.009 0.50± 0.0031.10±0.0022.18±0.00222.31± 0.001 2.23± 0.018 0.50± 0.0031.10± 0.003 2.17± 0.003表2：比较CIFAR-100测试集的前1错误（%）和分层指标的结果。在不使用CRM[14]技术的情况下报告顶部块中的结果，并且使用CRM报告底部突出显示，浅绿色是前1误差（%）中的竞争性方法在这些竞争对手中，方法，我们用绿色突出显示每个指标的最佳表现条目。方法Top-1错误（↓）错误严重程度（↓）Hier dist@1（↓）Hier dist@5（↓）Hier dist@20（↓）没有CRM交叉熵36.44± 0.061 2.39± 0.007 0.87± 0.0041.97±0.0023.25±0.002Barz Denzler[2] 62.63± 0.278 1.99± 0.008 1.24± 0.0051.49 0.005±0.0051.97 0.005±0.005YOLO-v2[22] 44.37± 0.106 2.42± 0.003 1.08± 0.0041.90±0.0032.87 0.010±0.010HXEα =0.1[4] 41.48± 0.204 2.41± 0.009 1.00± 0.0061.77 0.011±0.0112.690.021HXEα =0.6[4] 45.45± 0.014 2.24± 0.006 1.02± 0.0031.70 0.005±0.0052.55 0.005±0.005软标签β= 30[4] 41.67± 0.134 2.32± 0.010 0.97± 0.0061.50±0.0062.23 0.005±0.005软标签β= 4[4] 74.70± 0.212 1.82± 0.005 1.36± 0.0041.49±0.0031.96±0.004Chang等人[7]37.23± 0.175 2.28± 0.006 0.85± 0.0041.75 0.005±0.0053.02 0.008±0.008HAF36.4 ± 0.0922.28 ± 0.0120.83 ± 0.0021.62 ± 0.0022.55 ±0.003与CRM交叉熵[14]36.51± 0.083 2.33± 0.001 0.85± 0.0021.32±0.0011.86±0.002YOLO-v2 45.17± 0.046 2.43± 0.001 1.10± 0.0011.50±0.0011.99±0.002HXEα =0.1 41.47± 0.220 2.38± 0.011 0.99± 0.0081.41±0.0061.93 0.005±0.005HXEα =0.6 45.60± 0.017 2.21± 0.008 1.01± 0.0031.40±0.0041.40±0.004软标签β= 30 41.99± 0.126 2.31± 0.009 0.97± 0.007 1.40± 0.0051.91 0.005±0.005软标签β= 4 77.34± 0.262 2.06± 0.012 1.60± 0.0071.72 0.008±0.0082.14±0.007Chang等人[7]37.31± 0.145 2.24± 0.008 0.84± 0.0021.30±0.0021.84±0.002HAF36.48 ± 0.0952.25 ± 0.0120.82 ± 0.0031.29 ± 0.0041.84 ±0.002表3：比较测试的前1错误（%）和分层指标的结果iNaturalist-19.在不使用CRM的情况下报告Top块中的结果[14]使用CRM报告技术和底部块突出显示，浅绿色是前1误差（%）中的竞争性方法。在这些竞争性方法中，我们用绿色突出每个指标的最佳表现。Chang等人[7]HAF+v：mala2255获取更多论文HAF 11方法Top-1错误（↓）错误严重程度（↓）Hier dist@1（↓）Hier dist@5（↓）Hier dist@20（↓）没有CRM交叉熵30.60± 0.030 7.05± 0.010 2.16± 0.0065.67±0.0037.17±0.003巴茨·登茨勒[2]39.73± 0.240 6.80± 0.019 2.70± 0.0225.480.2716.21 0.005±0.005YOLO-v2[22] 33.37± 0.082 7.02± 0.004 2.34± 0.0165.85 0.011±0.0117.43 0.016±0.016DeViSE[10] 36.75± 0.090 6.87± 0.017 2.52± 0.0095.57 0.005±0.0056.98 0.005±0.005HXEα =0.1[4] 30.72± 0.036 7.00± 0.019 2.15± 0.0055.62 0.008±0.0087.08 0.015±0.015HXEα =0.6[4] 34.50± 0.007 6.73± 0.014 2.32± 0.0035.48±0.0016.78±0.003软标签β= 30[4] 30.53± 0.194 7.05± 0.009 2.15± 0.0135.66±0.0027.14 0.008±0.008软标签β= 4[4] 38.99± 0.105 6.60± 0.024 2.57± 0.0045.13±0.0026.21±0.001Chang等人[7]33.46± 0.026 6.99± 0.010 2.34± 0.0065.75 0.005±0.0057.34 0.010±0.01030.50± 0.010 7.03± 0.024 2.14± 0.0085.620.011 6.99± 0.009与CRM交叉熵[14]30.67± 0.020 6.99± 0.0072.14± 0.0064.95± 0.0026.11± 0.001YOLO-v2 33.98± 0.099 6.99± 0.011 2.38± 0.0125.05±0.0016.17±0.001HXEα =0.1 30.80± 0.079 6.95± 0.021 2.14± 0.0054.94 0.003±0.003 6.11± 0.002HXEα =0.6 34.68± 0.003 6.69± 0.007 2.32± 0.0014.99 0.005±0.005 6.13± 0.003软标签β= 30 30.69± 0.125 6.99± 0.007 2.15± 0.0084.95±0.0016.11±0.001软标签β= 4 82.72± 0.079 7.54± 0.001 6.24± 0.0056.94 0.005±0.0057.25±0.002Chang等人[7]33.73± 0.033 6.93± 0.015 5.02± 0.0072.34±0.0026.15±0.001HAF 30.63± 0.007 6.97± 0.024 2.14± 0.0084.95 0.004± 0.001 6.11±表4：比较测试的前1错误（%）和分层指标的结果tieredImageNet-H的集合。Top块报告结果而不使用CRM[14]和底部块使用CRM报告。突出显示，浅绿色是前1误差（%）中的竞争性方法。在这些方法中，我们用绿色突出显示每个指标的最佳表现条目。较小的β值，导致预测置信度较低，CRM无法帮助纠正。4.4粗分类精度我们还报告了在所有层次的粗分类精度的比较。学习的特征表示与标签层次结构的指导下，预计将遵循标签层次结构的特征空间。这样的特征空间必须限制其各自的粗类内的混淆，从而提高粗分类精度。我们将目标标签和预测标签从最精细的分类器映射到它们所尊重的粗类，以使用粗分类精度来评估模型在其他层次上的性能。结果见图3。在CIFAR-100 和 iNaturalist-19 上， HAF 的表现优于所有其他基础 -直线法在tieredImageNet-H上，HAF具有与软标签β=30、HXEα =0.1和HXEα =0.6相当的性能。5分析5.1消融研究为了评估在我们提出的方法中使用的每个损失函数的贡献，我们在表5中呈现了使用不同变体的HAF+v：mala2255获取更多论文↓ ↓ ↓ ↓↓12 A. Garg等人(a)CIFAR-100（b）iNaturalist19（c）tieredImageNet-H图3：每个数据集的粗水平top-1准确度。Level=1是粗略级别。分别在CIFAR-100和iNaturalist 19数据集上的HAF。很明显，HAF的不同变体的表现略好于交叉熵基线，但HAF优于所有其他变体。因此，我们可以得出结论，损失函数的所有组成部分是显着的和互补的HAF的整体性能。方法损失函数 Top-1错误（）错误严重性（）Hier Dist@1（）Hier Dist@5（）Hier Dist@20（）LCEfineLshcLgcLm交叉熵变量HAF变量HAF变量HAF变量✓--- -一种✓✓-- -一种✓ ✓-✓✓- ✓✓ ✓✓ ✓22.112.24 3.1622.70 2.36 0.54 1.61 2.7822.35 2.32 1.66 2.8722.12 2.24 0.5 1.442.6122.252.22 0.49 1.402.64交叉熵变量HAF变量HAF变量HAF✓--- -一种✓✓-- -一种✓ ✓-✓✓- ✓✓ ✓✓ ✓36.48 2.39 0.87 1.97 3.2536.232.34 0.85 1.732.8136.60 2.32 0.85 1.71 2.7336.34 2.31 0.84 1.7636.472.27 0.83 1.62表5：比较前1名错误（%）和分层指标的消融研究CIFAR-100（顶部）和iNaturalist-19（底部）的测试集。5.2错误严重度图我们绘制直方图来比较HAF与描绘不同层次错误分布的基线我们在图中为每个数据集呈现它们四、等级距离为1的错误是指LCA=1的错误。在CIFAR-100上，与所有方法相比，HAF具有最低的错误严重性，并且在所有级别上具有与交叉熵相当的错误数量，除了级别1，其中Chang等人。[7]错误更少然而，与Chang等人相比，HAF的高严重度错误数量较少。 [7] 这是更理想的解决方案。在iNaturalist-19数据集上，软标签β = 4，Barz& Denzler和HXE α = 0。与HAF相比，6具有较低的错误严重性，但是+v：mala2255获取更多论文HAF 13与这些方法相比，HAF在所有层次级别上的错误数量较少或几乎相同在tieredImageNet-H上，Barz& Denzler，DeViSE，HXE α = 0。6，软标签β = 4的错误严重度比HAF低，但在各个级别上的错误数都要大得多。单独的度量“mistakeserveri”并不能给出方法改善错误的能力的完整画面。160014001200100080060040020001 2 3 45层次距离25公里20公里15公里10公里5公里1234567层次距离12001000800600400200012345678 9 10 11 12层次距离(a) CIFAR-100(b) iNaturalist19(c) tieredImageNet-H图4：错误严重性图，显示每个数据集每个级别的错误分布括号中的数字表示该方法的错误严重程度5.3讨论：分层结构我们讨论的不足，迄今已提出的分层指标图5绘制了tieredImageNet- H数据集的所有类的最小可能LCA的直方图大多数类具有大于1的最小LCA，这指示偏斜的

下载后可阅读完整内容，剩余1页未读，立即下载