长尾识别中的几何结构转换网络和有效的迁移学习方法

67 浏览量更新于2023-10-14 收藏 793KB PDF 举报

学习算法

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8209GistNet：一种用于长尾识别的几何结构转换网络Bo LiuUC，圣地亚哥boliu@ucsd.edu李浩翔Wormpex AI研究lhxustcer@gmail.com浩康WormpexAI研究haokheseri@gmail.comGang HuaWormpex AI研究ganghua@gmail.comNuno VasconcelosUC，圣地亚哥nuno@ece.ucsd.edu摘要长尾识别的问题，其中每个类的例子的数量是高度不平衡的，被认为是，德。假设标准分类器训练对流行类过拟合的众所周知的趋势可以被利用来进行有效的迁移学习。而不是消除这种过拟合，例如通过采用流行的类平衡采样方法，学习算法应该替代地利用这种过拟合来将几何信息从流行类转移到低激发类。一个新的分类器架构，GistNet，提出了支持这一目标，使用分类器参数的星座编码类几何。然后，提出了一种新的学习算法的几何结构转移（GIST），与诉诸的损失函数的组合，结合类平衡和随机采样，以保证，而过拟合的流行类是限制几何参数，它是杠杆转移类几何从流行的少数拍摄类。这使得更好的泛化为少数镜头类，而不需要手动指定的类权重，甚至显式分组的类到不同的类型。在两个流行的长尾识别数据集上的实验表明，GistNet优于现有的解决方案。1. 介绍大规模数据集的可用性，每个类有大量的图像[3]，是深度学习成功执行对象识别等任务的主要因素。然而，这些数据集是手动管理和人工平衡的。这与大多数现实世界的应用程序不同，其中来自不同类的示例的频率可能高度不平衡，导致具有长尾的倾斜分布。这一点最近引起了人们对长期问题的兴趣尾识别[13]，其中训练数据高度不平衡，但测试集保持平衡，因此在所有类别上同样良好的性能对于实现高整体准确度至关重要。在长尾识别设置中的成功需要在训练期间对类别不平衡进行特定处理，因为用标准交叉熵损失训练的分类器将过拟合到高度填充的类别，并且在低拍摄类别上表现不佳。这激发了一些工作来对抗类过拟合的方法，如数据重新采样[27]或成本敏感损失[10]，这些方法将更多的训练重点放在人口较少的类的例子上。然而，很难设计既不低估也不过度强调少数镜头类的增强或类加权方案。在这项工作中，我们寻求一种完全数据驱动的方法，并利用过拟合到流行的类，而不是打击它。这个想法是将这些类的一些属性（这些属性是由标准分类器很好地学习的）转移到具有不足数据的类，而这是不可能的。为此，我们利用深度分类器的解释作为嵌入或特征提取器的组成，该嵌入或特征提取器由几个神经网络层和一个参数分类器实现虽然嵌入由所有类共享，但分类器参数是类特定的，即每个类的权重向量，如图1所示。我们利用的事实，这些权重向量的配置这包括每个类的特征向量的类条件分布和相关联的度量，其定义类边界。对于一个学习良好的网络，这种几何结构对于所有类都是相同的。在长尾设置中，对于多镜头类，通常可以很好地学习几何形状，但对于训练样本不足的类，则无法很好地学习几何形状，如图1的左侧所示。8210真级几何多炮级中炮级少炮级正则向量星座向量位移向量几何结构转换图1.左：在长尾识别中，来自中等和少数镜头类的少量样本使得难以学习它们的几何形状，从而导致不准确的类边界。这与多镜头类不同，其自然几何通常可以学习。中间：通过将多镜头类的几何结构转移到具有很少示例的类来校正边界。右图：GistNet通过实现分类参数的星座图来实现几何结构转换。这些由一个类特定的中心和一组位移共享的所有类。在GIST训练下，这些倾向于遵循多镜头类的自然几何形状，该几何形状被转移到中镜头类和少镜头类。目标是将多镜头类的几何结构转移到具有很少示例的类，如图的中间所示，以消除该问题。挑战是仅使用可用的训练数据来实现这种转移，即没有类权重或启发式配方的手动规范，例如将这些权重等同于类频率。我们通过以下方式应对这一挑战贡献。首先，我们强制执行全局学习的几何结构，该结构由所有类共享。为了避免学习一个完整的距离函数的复杂性，这经常需要一个大的协方差矩阵，我们提出了一个由分类器参数星座组成的结构，如图1的右边所示。这包括一个类特定的中心，它编码类的位置，和一组位移，这是由所有类共享，并编码类几何。其次，我们依靠随机采样和类平衡的小批量的混合来定义用于学习不同的分类器参数的两个损失。类平衡采样用于学习类特定的中心参数。这保证了学习是基于所有类的相同数量的示例，避免了偏向更大的类。随机采样用于学习共享的几何参数（位移）。这利用了标准分类器过度拟合到流行类的趋势，使得它们对于类几何形状的学习占主导地位，并且因此允许将几何结构从这些类转移到少数镜头类。结果，几个镜头类在位置方面与流行类同等地学习，但继承它们的几何结构，这使得能够更好地泛化。我们提出了一种新的学习算法，表示为Geomet- rIc结构转移（GIST），它结合了两种类型的采样，以便自然地考虑训练集中的所有数据，而不需要手动指定类权重，甚至不需要将类明确分组为图2. GistNet通过球面高斯的constel- lation（混合）来近似共享几何。不同的类型。虽然我们采用标准划分为多镜头类、中等镜头类和少镜头类进行评估，但这不是训练所必需的。然后引入实现图1的参数构造和GIST训练的深度网络，并将其表示为GistNet。在两个流行的长尾识别数据集上的实验表明，该方法优于以往的长尾识别方法。总的来说，这项工作对长尾识别做出了几个贡献。首先，我们指出，标准分类器过拟合到流行类的倾向对于迁移学习是目标不应该是消除这种过拟合，例如通过独特地采用现在流行的其次，我们提出了一个新的GistNet分类器架构，以支持这一目标，使用分类器参数的星座来编码类几何。第三，我们引入了一种新的学习算法，GIST，它结合了类平衡和随机抽样，利用过拟合的流行类，使类几何的转移从流行的几杆类。类几何星座类边界8211∈X∈F克Σ我我 i=1我我|Σi=1tSNE少量-1少量-2少量-3样本并列图3. ImageNet-LT测试集上的3个少镜头类的t-SNE可视化，以及星座wkj。2. 相关工作最近，长尾识别受到了越来越多的关注[25，15，10，27，13，24]。已经提出了几种方法，包括度量学习[15，27]，硬否定挖掘[10]或元学习[24]。其中一些依赖于新的损失函数，例如提升损失[15]，它在许多训练样本之间引入了余量，范围损失[27]，它鼓励同一类（不同类）中的数据接近（远离），或焦点损失[10]，它进行在线硬负挖掘。这些方法倾向于以多次拍摄准确度为代价来改善在少数拍摄端上的性能。其他方法，例如类平衡专家[18]和知识提取[26]，试图通过基于示例的数量将训练数据人为地划分为子集，并在每个子集中训练专家来避免这个问题。然而，从任意数据划分中学习的专家可能是次优的，特别是对于少数镜头类。Kang等人。[9]通过解耦训练特征嵌入和分类器来解决数据不平衡问题。Zhou等人[28]还显示了通过在特征嵌入和分类器上使用不同的训练策略的有效性这些方法，例如MAML及其变体[4，5]或LEO [17]。这些方法利用二阶导数来更新来自少量样本的模型。或者，这个问题已经用基于度量的解决方案来解决，例如匹配[22]，原型[19]和关系[20]网络。这些方法学习可跨类转移的度量嵌入。还提出了特征增强的建议，旨在增强可用于训练的数据，例如：通过将GANs与元学习[23]相结合，跨对象视图[11]或其他形式的数据半透明化[7]合成特征。所有这些方法都是专为少数拍摄类而设计的，并且通常在许多拍摄类中表现不佳学习而不忘记的目标是在新任务上顺序地训练模型，而不会忘记已经学习过的任务。这个问题最近在少数镜头设置[6]中被考虑，其中任务序列包括多镜头和少数镜头类的混合。提出的解决方案[6，16]试图通过首先在多镜头上训练来处理这个问题，使用多镜头类权重来生成少镜头类权重，并将它们组合在一起。这些技术很难推广到长尾识别，其中从许多到少数镜头类的过渡是连续的，并且包括大量的中等镜头类。3. 几何结构转换在本节中，我们将介绍通过几何结构转移和GistNet架构解决长尾识别问题的建议方案。3.1. 几何结构变换正则一种流行的分类架构是softmax分类器。这包括将图像x 映射到特征向量f（x）的嵌入，由多个神经网络层实现，以及根据以下公式估计类后验概率的softmax层exp[wTf（x）]但是，不要讨论类几何问题。在人脸识别中，Liu etal.[12]探索长尾问题p（y=kx;，wk）=k′Kexp[wTf （x）]（一）通过知识转移。这个想法和我们的相似但它们是通过数据综合来实现的，而我们是依靠模型设计和训练策略来实现的.其中，表示嵌入参数，wk是第k类的权向量该模型是用训练集S={（x，y）}ns在n个例子中，通过最小化交叉en-使用视觉记忆和注意力在类之间传播信息。然而，这不足以保证几何类结构的转移，如GIST所预期的。熵损失LCE=（xi，yi）∈S-logp（yi|xi）。（二）少样本学习是一个研究得很好的问题。在测试集T=T上评估流行的识别性能不一组方法基于元学习，使用梯度{（x，y）}n nt个示例。GistNet最接近[13]的OLTR方法，其中8212KJ- -|ΣL*L+图4. GIST培训。实线箭头表示前馈，虚线箭头表示反向传播。类平衡的小批量用于绿色连接，以保证参数w，k是类特定的。随机采样小批量用于红色连接，使得能够主要从许多拍摄类别学习位移δ j。注意，形状参数δj不接收来自类别平衡损耗Lc的梯度，并且星座中心wk不接收来自随机采样损耗Lr的梯度。用（2）学习产生特定的数据驱动的嵌入几何，我们将其表示为训练数据的自然几何。虽然分类器的参数wk是类特定的并且描述类中心，但是通常不可能从学习的网络参数确定该几何形状1这在常规的大规模识别中不是问题。在这种情况下，每个类具有足够的训练数据，并且在交叉熵损失下成功地学习自然几何形状，而无需进一步的规则。对于长尾识别问题，情况就不同了。在少样本学习中，少样本类的有限训练数据保证所有类具有共享的几何结构。理想情况下，这种结构应该从数据中学习，以便1）遵循高度填充的类的自然几何形状它也应该被编码在相对较少的参数中，这些参数最多随f（x）的维度线性增长。为了实现这些目标，我们继续依靠软-max分类器和（2）的交叉熵损失，但使用softmax层exp[maxjwTf（x）]导致弱定义的类条件分布和（y=kx）=k′ exp[maxj不k′j、f（x）]（三）嵌入几何然而，对于具有许多样本的类，情况并非如此，其自然几何形状可以从数据中学习。结果，如图1的左侧所示，对于少数镜头类，通常不能很好地学习真实的类边界。在这项工作中，我们试图利用几何正则化，灰，以提高学习的少数镜头类，而不牺牲性能的人口类。一种可能性将是对所有类别实施预定义的几何形状，例如采用马氏距离d（f（x），µ）=（f（x）µ）TΣ−1（f（x）µ）相关用协方差Σ的高斯类条件，或由-对高斯类条件求和并将协方差正则化为接近预定义Σ。这有几个问题。首先，不清楚什么是协方差Σ应该是。其次，它忽略了流行类的自然几何学，这是由（1）的分类器很好地学习的。第三，由于f（x）的维数很大，协方差正则化很难实现，即使对于有很多例子的类也是如此。为了避免这些问题，我们寻求一种基于学习的解决方案，该解决方案不需要协方差估计，并且利用流行类的自然几何形状来正则化少数镜头类的几何形状。而不是通过距离函数强制几何，这是很难学习和实现的，我们追求一种替代方法来1详见补充资料。wkj=g（wk，δj），其中，规范参数向量Wk由参数向量Wkj的星座代替，参数向量Wk j是Wk和由所有类共享的结构参数Sj的集合的函数在该思想的最简单的实施方式下， g（wk ，δj ）=wk+δj，并且结构参数是一组位移向量，如图1的右侧所示。由于这些位移由所有类共享，因此星座简单地围绕每个类学习的每个wk因为，在（2）的损失下，高度填充的类倾向于主导共享参数的优化，所以位移δj倾向于遵循这些类的自然几何形状，其因此被转移到少炮类。这使这些类的学习规则化，使得能够恢复真实的分类边界，如图1的右侧所示。位移δj是包含几何信息它们将几何体从高度填充的类转移到很少拍摄的类。在几何转换的帮助下，模型学习更好的几何形状，用于少数镜头类。如图2所示，（3）等效于用平均值wkj的几个球面高斯替换自然几何形状，并选择最接近特征的一个。这通过5个球面高斯的星座来近似非调节几何形状，每个wkj 一个。该几何图形如图3所示，其中显示了来自不同类的要素$“$&&$$&类平衡向前/向后采样随机采样正向/反向W8213------ΣJτ×个LL联系我们JLk′exp[maxjsτ（f（x），wk′j]RJ我yij（xi，yi）∈Sr||W||||f（x）||Jϕ我KJ分别由类别特定星座调节。星座可以被看作是一把伞。该模型可以学习伞的形状以及每个类的伞放置位置。我们表示为几何结构转移（GIST）的方法，以捕捉的事实，它转移的本质，或要点，类几何从流行的几杆类。注意，（3）中的分类器不同于（1）中的还有一个额外的约束条件：位移δj是跨类的常数为了避免这种情况，模型学习wk来拟合其中一个星座，而忽略其他星座。我们首先训练来自（1）的分类器以获得稳定的初始化wk，然后训练整个分类器以获得类别不可知的位移。在这种情况下，模型将不得不拟合所有可用的星座以获得更低的损耗，而不是拟合其中的一个第4.3节中的经验检验表明δ j的实际使用是合适的，并且支持这一假设。然而，常规采样对高度填充的类的偏置对于结构参数的学习是有利的δj。毕竟，关键是要从具有大量数据的类中学习这些参数，并将它们转移到无法准确学习的少数类由于参数是共享的，如果学习过程强调高度填充的类，则实现两个目标，如常规采样的情况。这意味着GIST训练应该包括常规采样（对于共享结构参数）和类平衡采样（对于类特定参数）的混合。我们建议使用图4的混合训练方案来实现这一点。在每次迭代中，两个小批处理首先分别通过类平衡采样和随机采样从训练集S中采样Sc两然后使用（2）、（3）和（4）的组合来学习类特定参数w k、ν k的集合。使用类平衡的小批量Sc，其结果损失为3.2. 正常化最近的作品[6，13]表明，更好的少数拍摄或Lc=（xi，yi）∈Sc{−maxs（f（xi），wyij）经常获得通过对单位球体进行分类，即，也不-+logΣexp[maxs（f（xi），wkj）]}，K将嵌入参数和分类器参数都设计成具有单位范数。我们遵循这种做法，并采用加权余弦分类器[6]，将（3）替换为wkj=g（wk，δj）（5）以学习参数wk。随机小批量Sr与损失一起exp[maxjp（y = k|x）= ΣwTfsτ（f（x），w（k）]，（四）L=Σ{−maxs（f（x），ν）s（f（x），w）=τ+logΣexp[maxs（f（x），ν）]}，其中τ是控制后验分布的平滑度的参数。该体系结构被表示为Gist-Net。在我们的实现中，τ是随机初始化的，并且是端到端学习的。3.3. GIST培训深度网络通过随机梯度下降（SGD）进行训练这随机采样小批量的b个样本，并在训练集上迭代由于长尾识别的极端类别不平衡，SGD倾向于将模型偏向具有更多样本的类别。在文献中，这个问题通常通过类平衡采样来解决[27]。这首先以相等的概率随机采样b个c类，并且每个类抽取bn个样本，产生b=bc bn个样本的小批量。通过迭代所有类，模型使用每个类的总体相等数量的示例进行训练。对于（1）的分类器，类平衡抽样可以在少镜头类上显著优于常规抽样这也使它成为学习类特定参数GistNet的{wk}νkj=g（νk，δj）（6）学习参数νk。这导致整体亏损L=Lr+ λLc。（七）结构参数δj与两种损耗相同。然而，如图4所示，在反向传播期间，仅来自r的梯度被用于更新这些参数。这保证了利用随机采样来学习几何然而，该结构被传播到接收梯度c的类特定参数wk的学习。以这种方式，利用类平衡采样来学习类特定参数w，k，但是该学习由利用随机采样学习的结构参数δj来通知。这导致参数星座wk，j，其虽然跨类共享，但以类特定的位置为中心。请注意，位移与wk一起转发，以计算类平衡损耗c。这使得两个组件wj和δj的分类器匹配彼此，虽然他们是由不同的损失学习。ϕ（x）K8214表1.ImageNet-LT和Places-LT上的结果ResNet-10/152用于所有方法。对于多次拍摄t>100，对于中次拍摄t∈（20，100]，对于少次训练，t≤20，其中t是训练样本的个数方法整体ImagNet-LT多镜头中镜头少样本整体地点-LT多镜头中镜头少样本平面模型23.541.114.93.627.245.922.40.36失去了[15]30.835.830.417.935.241.135.424.0焦点丢失[10]30.536.429.916.034.641.134.822.4[27]第二十七话30.735.830.317.635.141.135.423.2FSLwF [6]28.440.922.115.034.943.929.929.5OLTR [13]35.643.235.118.535.944.737.025.3解耦[9]41.451.838.821.537.937.840.731.8蒸馏[26]38.847.037.919.236.239.339.624.2GistNet42.252.839.821.739.642.540.832.1表2. iNaturalist 2018上的结果。所有方法均使用R esNet-50实现。方法准确度CB-Focal [2] 61.1LDAM+DRW [1] 68.0去耦[9] 69.5GistNet70.8参数vk仅在训练时间使用，以保证几何参数δj遵循高度填充类的自然几何它们在训练后被丢弃。在GIST训练中，特定于类的权重w_k用类平衡采样来训练，而结构参数δ_j用随机采样来训练。这迫使后者主要表示流行类的结构，并且使得能够实现图1的几何结构转移。4. 实验在本节中，我们讨论GistNet的长尾识别性能的评估。4.1. 实验装置数据集。我们考虑三个长尾识别数据集，ImageNet-LT[13]，Places-LT [13]和iNatrual-ist 18 [21]。ImageNet-LT是ImageNet [3]的长尾版本，通过对遵循Pareto分布的子集进行采样，幂值α=6。它包含115。8K图像，来自1000个类别，类别基数范围从5到1280。Places-LT是Places数据集的长尾版本[29]。共184个。来自365个类别的5K图像，类别基数范围从5到4980。iNatrual-ist 18是一个长尾数据集，包含437个。来自8141个类别的5K图像，类别基数范围从2到1000。基线。在[13]之后，我们考虑三个度量学习基线，基于解除[15]，焦点[10]和范围[27]损失，以及一种最先进的方法。FSLwF [6]，学习而不忘记。我们还包括专门为这两个数据集设计的最先进的长尾识别方法：[13]，解偶联[9]和蒸馏[26]。具有标准随机采样的（1）的分类器被表示为用于比较的普通模型培训详情。 ResNet-10 和 ResNet-152 [8] 分别在ImageNet-LT 和 Places-LT 上使用， ResNet-50 在iNatrualist 18上使用。除非另有说明，我们使用结构参数的四个向量δj，每个向量的维数为f θ（x）。类中心wk完成五个向量的星座结构参数的数量在第4.3节中进行了说明。在所有实验中，λ = 0。在（7）中使用5。该模型首先在没有结构参数的情况下进行预训练，具有60 个SGD 时期，使用动量 0 。 9，权重衰减 0.0005，学习率为0。1，每15个历元衰减10%。在此之后，完整模型经受动量为0的GIST训练。9，权重衰减0. 0005，学习率为0。1，每15个历元衰减10%。在这种情况下，每次迭代使用大小为128的类平衡和随机采样小批量，总批量大小为256。当随机采样在整个训练数据上迭代时定义一个时期附录中附有代码4.2. 结果表1给出了ImageNet-LT和Places-LT的结果。GistNet在这两个数据集上的性能优于所有其他方法。通过将类别分成多个镜头（多于100个训练样本）、中等镜头（在20和100个训练样本之间）和少个镜头（少于20个训练样本）来执行进一步的比较。GistNet在6个分区中的5个上实现了最佳性能，并且在剩余的一个上具有竞争力。虽然在Places-LT上，最大的增益是针对少数镜头类，但在ImageNet-LT中，它们针对中等镜头类和多数镜头这表明，在该数据集中，剩余的方法过拟合到少数镜头类。可以解释GistNet对这种过拟合的更高鲁棒性8215联系我们表3.ImageNet-LT验证集上GistNet组件的消融。对于多镜头t>100，对于中等镜头t∈（20，100]，对于少镜头t≤20，其中t是训练样本的数量。方法整体多炮中炮少炮平面模型25.142.916.60.43COS+CB37.649.434.814.7COS+CS+CB39.552.636.314.5COS+CS+GIST（GistNet）43.554.841.021.4COS+GIST40.251.437.419.0COS+CS+GIST（wk和νk组合）40.958.234.614.8COS+CS+GIST（g旋转）43.655.140.821.7COS+CS+GIST（gMLP）43.454.241.121.543.5整体多镜头5541.5中镜头少样本234354.54122.542.54241.54140.55453.55352.55251.540.54039.53938.53837.52221.52120.52019.54002468101214十六个M5102468101214十六个M3702468101214十六个M1902468101214十六个M整体多镜头中镜头少镜头图5.在验证集上搜索了在少镜头、中镜头、多镜头类中不同大小的结构参数和总体准确度的结果通过在结构参数 δ j 的训练中多炮类的优势。iNaturalist18数据集上的结果如表2所示，我们的方法也优于所有其他方法。4.3. 消融研究在本节中，我们将讨论GistNet的各个组件的有效性，星座函数g的选择，结构参数的数量以及星座的实际使用情况。所有模型都使用ResNet-10主干分别在ImageNet-LT的训练集和验证集部件消融。从（1）的普通模型开始，我们递增地添加（4）中使用的余弦分类器（COS）、类平衡采样（CB）、类结构参数（CS）和GIST训练（GIST）。表3示出了余弦分类器和类平衡采样（COS+CB）的组合类结构参数（COS+CS+CB）的简单添加进一步提高了整体性能。然而，对于少镜头类没有显著的改进。这可以通过以下事实来解释：在类平衡采样的情况下，三个类类型对于结构参数的学习同样占主导地位。因此，不存在几何结构从多镜头类到少镜头类的转移。这是由以下事实证实的：当添加GIST训练（COS+CS+GIST）时，对于少数拍摄类，性能显著提高。与COS+CB相比，GistNet模型（COS+CS+GIST）的总体增益约为6分，并且对于所有类别类型都具有更好的性能。其中涨幅特别大的（6. 5分），为少数射击类。表格的中间部分调查了GistNet的其他可能配置。在没有类结构参数（COS+GIST）的情况下应用GIST训练，即仅使用类平衡和随机采样的组合来学习嵌入f（x）降低了所有类划分的性能。这表明了在所有类之间强制实施共享类结构的重要性。另一个变体是移除额外的类中心νk图4中，使用中心对于两种损失，即在（ 6 ）中用 w k 代替 ν k 。该变体表示为COS+CS+GIST（wk和νk组合），消除了GistNet对于少镜头类的所有增益，同时提高了对于多镜头分区中的那些的识别精度。这是因为中心现在从随机采样损失中接收梯度，并且主要使用多次数据进行训练。GistNet在该变体上的改进的性能表明，重要的是保持中心训练的类别特异性，同时强制几何结构参数的转移，如GIST所做的那样。选择不同的G。除了这些变体之外，我们还考虑了定义（3）的参数星座的函数g的不同选择。除了GistNet实现的默认加法函数外，我们还考虑了两种可能性。第一个是旋转。在对嵌入和分类器参数进行规范化之后，我们计算距离精度精度精度精度8216j=1联系我们--平面模型COS+CBGIST多-1多-2多-3多-4多-5少-1少-2少-3少-4少-5多-1多-2多-3多-4多-5少-1少-2少-3少-4少-5多-1多-2多-3多-4多-5少-1少-2少-3少-4少-5普通型号COS+CB GistNet图6.对于三种模型，从5个随机选择的多镜头和少镜头ImageNet-LT类中嵌入测试集图像的t-SNE可视化在d维单位球面上（其中d是f（x）的维数）。然后结构参数是d维旋转矩阵，其鼓励所有类在单位球面上具有相同的结构。这是通过d维位移向量的变换来实现旋转矩阵。R=I−uuT−vvT+[u，v]Rθ[u，v]T，（8）其中u是单位向量，v是位移向量δj 的归一化向量，并且Rθ是u和δ之间的2D旋转矩阵。在结构参数向量δj的情况下，参数星座被实现为wkj=g（wk，δj） =Rwk（9）细节在补充部分中讨论。第二个是学习函数g，由两层MLP实现，并学习端到端。表3显示了g的不同实现方式对识别性能的影响很小。这表明添加全局几何约束比这些约束的具体实现细节重要得多。结构参数的数量。接下来，我们研究了结构参数δjm的数量m的影响。如图5所示，所尝试的替代方案（m2、m8、m 16）中没有一个在GistNet中使用。对于总体而言，多次和中等拍摄类性能增加，直到m=4，然后达到饱和。对于少数拍摄类，使用m=8有一个点的增益。这表明该分区是从几何结构转移中受益最多的分区。总的来说，这些结果证实，虽然几何转移，fer可以产生显着的收益，GistNet架构是相当强大的细节变化。星座的实际使用。交叉熵最小化鼓励使用更多的δj，因为类分布的平均值如果不全部使用，那就太浪费了。在ImageNet-LT的测试集中，实际使用率为{25%，23%，18%，17%，17%}。792/1000班为至少10%的测试样本选择每个δ j。这进一步支持了模型不会通过仅拟合一个星座而忽略其他星座而崩溃为传统分类器。4.4. 可视化图6显示了由Plain Model、COS+CB基线和GistNet学习的嵌入的t-SNE [14]可视化为了清楚起见，我们从ImageNet-LT中的多镜头和少镜头分割中随机选择了五个类。该图示出了来自那些类别的测试样品的特征的t-SNE投影。与其他两个模型相比这对于少镜头类尤其如此。5. 结论这项工作解决了长尾识别问题。提出了一种新的体系结构GistNet和训练方案GIST，以实现几何结构从高填充到低填充类的转移。这利用了SGD训练过度适应流行类的趋势，而不是简单地对抗这种趋势。GistNet被证明在两个流行的长尾数据集上实现了最先进的性能。消融研究表明，虽然几何转移能够实现显著的识别增益，但该架构对细节变化非常稳健。这表明在长尾识别中加入全局几何约束比这些约束的具体实现更重要。谢谢。Bo Liu和Nuno Vasconcelos获得了NSF奖项IIS-1637941、IIS- 1924937和NVIDIA GPU捐赠的部分支持。 Gang Hua 部分获得国家重点研发计划资助2018AAA0101400 和国家自然科学基金资助61629301。8217引用[1] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。神经信息处理系统的进展，第1565-1576页，2019年六个[2] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie.基于有效样本数的类平衡损耗。在IEEE计算机视觉和模式识别会议论文集，第9268-9277页，2019年。六个[3] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。1、6[4] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017. 三个[5] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。神经信息处理系统进展，第9516-9527页，2018年。三个[6] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集，第4367-4375页，2018年。三五六[7] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议的论文集，第3018-3027页，2017年。三个[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。六个[9] Bingyi Kang，Saining Xie，Marcus Rohrbach，ZhichengYan，Albert Gordo，Jiashi Feng，and Yannis Kalantidis.用于长尾识别的解耦表示和分类器。第八届国际学习代表大会（ICLR），2020年。三、六[10] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年一、三、六[11] Bo Liu，Xudong Wang，Mandar Dixit，Roland Kwitt，and Nuno Vasconcelos.用于数据扩充的特征空间转移。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。三个[12] Jiaun Liu，Yifan Sun，Chuchu Han，Zhaopeng Dou，and Wenhui Li.长尾数据的深度表示学习在IEEE/CVF计算机视觉和模式识别会议的论文集，第2970-2979页，2020年。三个[13] Ziwei Liu ， Zhongqi Miao ， Xiaohang Zhan ， JiayunWang，Boqing Gong，and Stella X Yu.开放世界中的大规模长尾识别。在IEEE计算机视觉和模式识别会议论文集，第2537-2546页，2019年。一二三五六[14] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579-2605，2008. 八个[15] Hyun Oh Song ， Yu Xiang ， Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集，第4004-4012页，2016年。三、六[16] Mengye Ren，Renjie Liao，Ethan Fetaya，and RichardZemel.使用注意力吸引子网络的增量式少量学习。神经信息处理系统进展，第5276-5286页，2019年。三个[17] 安德烈 ·A. Rusu 、 Dushyant Rao 、 Jakub Sygnowski 、Oriol Vinyals、Razvan Pascanu、Simon Osindero和RaiaHad-sell。具有潜在嵌入优化的元学习。在第七届国际会议上学习表示，ICLR 2019，新奥尔良，洛杉矶，美国，2019年5月6日至9日。开启-Review.net，2019年。三个[18] Saurabh Sharma ， Ning Yu ， Mario Fritz ， and BerntSchiele. 使用类平衡专家的长尾识别。 arXiv预印本arXiv：2004.03706，2020。三个[19] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统的进展，第4077-4087页，2017年。三个[20] Flood Sung，Yongxin Yang，Li Zhang，Tao Xiang，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在IEEE计算机视觉和模式识别会议集，第1199-1208页，2018年。三个[21] Grant Van Horn、Oisin Mac Aodha、Yang Song、YinCui、Chen Sun、Alex Shepard、Hartwig Adam、PietroPerona和Serge Belongie。自然物种分类和检测数据集。在IEEE计算机视觉和模式识别会议论文集，第8769-8778页，2018年。六个[22] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。在神经信息处理系统的进展，第3630-3638页，2016年。三个[23] Yu-Xiong Wang ，Ross Girshick ，Martial Hebert ，andBharath Hariharan.从假想数据中进行低拍摄学习。在IEEE计算机视觉和模式识别会议的论文集，第7278-7286页，2018年。三个[24] 王玉雄和马夏尔·赫伯特。学会学习：为回归网络建模，便于小样本学习。欧洲计算机视觉会议，第616-634页。施普林格，2016年。三个[25] Yu-Xiong Wang，Deva Ramanan，and Martial Hebert.学习模仿尾巴。神经信息处理系统进展，第7029-7039页，2017年。三个[26] 柳玉香、丁贵光、韩军公。向多位专家学习：用于长尾分类的自定进度知识蒸馏。在欧洲计算机视觉会议上，第247-263页。Springer，2020年。三、六[27] Xiao Zhang ， Zhiyuan Fang ， Yandong Wen ， ZhifengLi，and Yu Qiao.基于长尾训练数据的深度人脸识别的范围损失。在Proceedings of the IEEE International8218计算机视觉会议，第5409-5418页1、三五六[28] Boyan Zhou，Quan Cui，Xiu-Shen Wei，and Zhao-MinChen. Bbn：用于长尾视觉识别的具有累积学习的双边分支网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第9719-9728页，2020年。三个[29] Bolei Zhou，Agata Lapedriza，Jianxiong Xiao，AntonioTorralba，and Aude Oliva.使用地点数据库学习用于场景

下载后可阅读完整内容，剩余1页未读，立即下载