姿态归一化提高细粒度少镜头识别的准确性

115 浏览量更新于2023-10-23 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14352重新审视用于细粒度少镜头识别的姿态归一化唐路明戴维斯Wertheimer Bharath Hariharan康奈尔大学{lt453，dww78，bh497}@ cornell.edu摘要少镜头、细粒度的分类需要一个模型来学习不同类别之间的细微、细粒度的区别（例如，鸟类）仅基于几张图片。这就要求姿势、动作和背景具有显著的不变性。一种解决方案是使用姿势归一化表示：首先定位每个图像中的语义部分，然后通过表征每个部分的外观来描述图像。虽然这样的表示是不赞成完全监督分类，我们表明，他们是非常有效的少数镜头细粒度分类。在模型容量增加最小的情况下，姿势归一化将浅层和深层架构的准确性提高了10到20个百分点，更好地推广到新领域，并且对多个少数拍摄算法和网络骨干有效。代码可在https://github.com/Tsingularity/PoseNorm_Fewshot上获得。1. 介绍以最小的微调进行概括的能力是学习神经模型的一个关键属性，不仅适用于不可见的数据，也适用于不可见的数据类型考虑图1中所示的任务。我们只得到一个单一的图像（或非常小的数量）从几个鸟类物种，并从这个信息，我们必须学会识别它们。众所周知，人类非常擅长这种少量的学习任务[19]，但机器很难做到：尽管在视觉识别方面取得了巨大的进步，并且经过了两年的集中研究，但在几个少数基准上的性能仍然远远低于完全监督的方法。这在实践中是一个问题，特别是对于细粒度的分类问题（如图1所示）。在这种情况下，不同的类可能有数百个，而正确标记这些类所需的专业知识和工作可能会使注释变得昂贵。总之，这使得收集用于细粒度分类的大型标记训练集变得困难神经网络处理细粒度、少样本学习的能力因此对于现实世界的应用至关重要。机器和人类在这项任务上的表现之间存在巨大差距的原因是什么一个直观的假设是，人类使用更稳定的特征表示，这是不变的大空间变形。例如，在鸟类分类任务中，我们可以使用其各个部分的属性来描述鸟类图像：喙的形状，翅膀的颜色，有没有冠。这种表征不仅不受图像背景变化的影响，而且还不受相机姿态和清晰度变化的影响，使我们能够有效地感知各种鸟类及其个体图像的相似性和差异这种特征化是“姿态归一化”的，并且在重新发现卷积网络之前被探索为细粒度分类的有希望的方向[32]。然而，研究人员发现，使用黑盒架构的端到端训练，并且没有姿势归一化，导致标准基准测试的极大改进（尽管有一致的修改，例如双线性池[16]）。事实上，近年来，年度细粒度分类挑战赛[1]的获胜者主要关注这些黑盒架构。姿势规范化的直观想法已经被抛在一边。相比之下，我们认为，黑盒体系结构的优势在这些设置中，所有要区分的类别都是先验已知的，并且我们为每个类别提供了大量的训练数据。这减少了对姿态和背景不变性的需要，因为训练数据将可能包括每个类内的宽范围的变化。同时，利用姿势和背景中的类别特定偏差这些因素有利于没有内置归纳偏差的黑盒架构。然而，如果我们希望学习的模型适应来自有限数据的新类别，如在少数镜头学习中，姿势归一化的直观不变性变得更有用。在本文中，我们重新审视了姿势归一化的任务，少拍，细粒度分类，并证明其14353605040英文名：RedHeadedWoodpecker少量学习性能ProtoNetProtoNet+双线性池ProtoNet+PoseNormalization？红腹啄木鸟姿势规范化表示304层ConvNetResNet18图1. 左：细粒度的少量识别任务。对象共享相同的部件结构，类别之间的差异很细微。中间：基于简单的姿态估计器，姿态归一化表示可以捕获语义部件信息。右：在浅骨干和深骨干上，姿势规范化显著提高了少镜头学习性能。使用我们的表示（4层ConvNet+Pose Normalization）的浅层架构甚至优于没有它的更深的黑盒网络（ResNet18）。在这种情况下的用处。通过对卷积架构进行非常简单的修改来实现姿态归一化，添加很少的新参数（与将网络大小增加两倍或更高的现有方法相比 [34 ，10]）。我们的方法是正交的少拍学习技术和骨干神经架构的选择。我们评估我们的方法上三个不同的少数拍摄学习技术，两个不同大小的骨干架构，和三个细粒度的分类数据集的鸟类和飞机。我们发现：1. 姿势规范化提供了全面的显着增益，在某些情况下提供了超过20点的准确性提高，同时不需要对新类进行零件注释。2. 在所有设置中，姿势归一化优于对神经架构的黑盒修改，例如双线性池化。3. 即使只有5%的基类训练数据用姿势注释，姿势归一化的优势也是显而易见的4. 姿态归一化对于浅层和深层网络架构都是有效的。具有姿态归一化的浅层网络优于更深的黑盒网络。我们观察到的巨大性能提升，以及架构本身的简单性，都表明了姿势归一化在细粒度、少镜头分类中的强大功能。2. 相关工作细粒度识别是计算机视觉中的一个经典问题，也是一个反复出现的挑战[1]。虽然我们专注于鸟类物种分类[26]，但所提出的想法适用于其他细粒度任务，例如识别飞机[17]，汽车[15]，或任何其他问题，其中对象有一个一致的一组部分。在细粒度识别的背景下，Farrell etal.[6]提出了姿态归一化的思想：预测对象的各部分并将各部分的外观记录为描述符。从那以后，这个想法的许多版本都被探索过，包括改变零件的种类[32，10，33]，零件检测器[31]以及这些想法与神经网络的结合[34]。最后一个与我们的工作最相似然而，所有这些方法都与完全监督识别有关，而这里我们关注的是少数识别。姿势规范化也是黑盒模型的灵感来源，其中部件是无监督的。 Lin等人。[16]引入双线性池作为推广我们在工作中与这个想法进行了比较。空间Transformer网络[14]显式地实例化未监督的姿势规范化并对其进行端到端训练。这种直觉的其他实例也被提出[4，11，21]。然而，这些无监督的方法增加了显着的复杂性和计算，使其难以单独辨别姿势归一化的好处。相比之下，我们专注于一个轻量级的，直截了当的，语义的方法来表明，姿势规范化，而不是增加网络的权力，是负责提高性能。少镜头学习方法可以大致分为以下三组：1）迁移学习基线在基类上训练标准分类网络，然后在冻结表示上为新类学习新的线性分类器。最近的研究表明，这是有竞争力的[3，27，18]。2）元学习技术训练“学习者”：一个映射小的标记训练集和测试图像以测试预测的函数。例子包括 ProtoNet [20] ， MatchingNet[25]，MSNet [22]和MAML [7]。这些学习器有时可能包括学习的数据增强[28]，一些方法训练姿态估计器准确度（%）14354使用姿势注释[5]。3）权重生成技术为新类别生成分类权重[8，9]。大多数少次学习方法使用黑盒网络架构，如果有足够的标记数据，这种架构可以很好地工作，但在高度约束的少次学习场景中可能会受到影响。Wertheimer和Hariharan [29]重新审视Lin等人的双线性池。[16]并发现它运行良好。他们还介绍了一个简单，有效的本地化归一化表示，但这是有限的粗对象边界框，而不是细粒度的部分。Zhu等人。[35]引入了一种语义引导的多注意力模型来帮助零射击学习，但完全无监督。我们在实验中与无监督基线进行比较。姿态归一化增加了对常见变化模式的不变性。增加不变性的另一种方法是使用学习数据增强[12，28，5]。然而，这通常需要大量的额外网络和大量的计算。相反，我们专注于轻量级方法。还请注意，我们的一个基线[8]已经优于最近的增强方法[28]。在下面的部分中，我们首先概述了少镜头识别。然后，我们表明，姿势规范化的功能可以作为一个即插即用的网络层，在一系列的少数拍摄学习算法。3. 少镜头识别少次学习的目标是建立一个学习器，它可以产生一个有效的分类器，只需要一个小的标签集的例子。在经典的少数镜头设置中，学习器首先提供一个大的标记集（表示集，Drepre），由来自基类Ybase的许多标记图像组成。学习器必须使用这些数据设置其参数然后，它遇到一个不相交的新类集合Ynovel，从中得到一个小的参考图像集合Dref。然后，学习器必须从这个集合中学习新类的分类器在大多数技术中，我们可以将学习者分为三个模块：特征图提取器fθ、特征聚合器gφ和学习算法hw。特征图提取器fθ通常被实现为深度卷积神经网络，具有可学习的参数fθ。对于每个输入图像x，网络产生相应的特征映射张量 F=fθ （ x ） ∈RC<$H<$W，其中C，H，W分别表示通道，高度，特征图的宽度尺寸。特征聚合器gφ是一个参数为$的转换，将特征图转换为全局特征向量：v=gφ（F）∈Rd，其中d是特征维数.通常，gφ是全局平均池化模块。学习算法hw采用训练特征向量和对应标签的数据集S以及测试特征向量v，并输出标签对于后者，p≠：p≠（x）=hw（v，S）。出于我们的目的，我们考虑三种代表性方法：迁移学习遵循标准的网络预训练和微调过程。Hw由具有学习的权重矩阵和软最大激活的简单线性分类器实现函数fθ，gφ与hw同时训练，最小化D表示中数据的标准交叉熵损失。为了使模型适应新的类别，特征提取器参数fw，fw被冻结，并且hw在D参考中的新的类别上训练新的线性分类器。原型网络[20]是一种代表性的Meta学习方法，它通过对该类内的特征向量进行平均来为每个类生成原型表示。hw是一个非参数分类器，它根据数据点的特征向量和每个类原型之间的距离分配类概率每个训练集从基本类别Y中抽取N个类别，并从每个类别中抽取一个小的支持集和查询集支持图像形成类原型，同时对查询集进行N向分类产生损失，并相应更新梯度参数k，$。在动态少拍学习[8]中，hw再次是一个线性（或余弦）分类器，但不是直接在D 参考上微调，而是由学习权重生成器G生成分类器。培训过程包括两个阶段。第一个是D代表的标准分类训练。在第二阶段期间，特征提取器参数k，$被冻结。为了训练生成器G，算法从Y库中随机挑选几个“假”的新颖类，并将它们视为真正的新颖类，用G生成的分类器权重执行分类，并最小化来自这些类的模拟“测试”示例的分类损失。4. 姿态归一化特征向量两个直觉激励我们提出的方法。首先，对于细粒度识别，两个类之间的外观差异往往非常小。在少数镜头设置中，算法更难捕捉这些细微的差异，因为只有少数示例可供参考。使用姿势归一化将特征表示集中在每个图像的最具信息量的部分，这样应该有利于学习过程。第二，由于细粒度识别涉及类似的对象，它们可能共享相同的语义结构。因此，在基类上训练的姿态估计器很可能会泛化，甚至是看不见的新类。我们假设M个不同的部分。部分注释可用于D表示中的（某些）基类训练样本，但而不是小说类。我们将每个图像x的部分注释格式化为M×H×W位置张量m，其中H×W是特征图的空间分辨率。我们现在本我们方法为提取姿势，14355国家代表指查询我φ我训练阶段姿态估计L姿势特征图L少量推理阶段姿态估计特征图推理特征向量预测姿态热图地面实况姿态热图预测姿态热图图2. 用于训练和推理的姿势规范化框架。姿态估计器将网络主干的中间输出作为输入，并生成姿态热图预测。通过将每个热图应用为特征图上的注意力来计算特征向量最后的表示是这些向量的连接。在该示例中，部件的数量M=2。归一化特征向量。为此，网络必须首先估计姿态。我们使用一个非常小的两层卷积网络qφ。这在特征图ten上操作-sorF0∈RC0<$H 0<$W0 从中间层伸出的特征图提取器fθ。qφ使用sigmoid activa，在最后一层，并产生一个热图位置前，0dictionary for all annotated parts m=q （ F ） ∈RM<$H<$W. 我们故意使用一个小的qφ，并在f θ中重复使用计算，最小化附加参数可能对分类器的最终性能的影响。改进的性能应该表明姿势信息对于细粒度的少数镜头学习是有用的，而不是更大的网络。给定热图m和特征图F，我们必须构造特征向量v。m中的每个通道作为空间注意力掩码应用于特征图，产生注意力归一化特征向量。连接这M个部件描述向量产生图像的最终形式上，表示F（h，w）∈RC为- 特征图F中的位置（h，w）的特征向量，以及mi（h，w）∈R作为位置（h，w）处的热图像素值对于第i个零件类别，v∈RCM计算为：PH，W其中，k是平衡超参数。为了便于分类分支中的学习，用于少镜头分类的特征向量最初是从地面实况部分注释热图模型而不是预测的热图m.之后，姿态估计网络rm$被冻结。在对新类别的后续适应/微调和评估/推断阶段中，根据预测的热图m计算特征向量。我们的方法概述见图2。请注意，虽然我们假设在训练过程中有一组固定的一致部件标签，但我们不要求部件一致地出现在所有对象中，也不要求任何特定对象包含所有指定部件。因此，我们的姿态估计器应该广泛地推广：依赖于各个部分的外观的对象的任何细粒度分类（例如，汽车、家具、昆虫）都适合这种方法。5. 实验5.1. 数据集和实现细节我们使用CUB数据集[26]进行实验，该数据集由来自200个类的11，788张图像它还包括vi=h，wF（h，w）·mi（h，w）PH，W（1）+m（h，w）每个图像有15个部件注释，因此M=15。按照[29，3]中的评估设置，我们随机分割数据集h，wiv=[v0，. ..，vi，. ..，（2）其中，n=10-5。训练期间的损失是地面实况部分位置热图m和预测热图m之间的逐像素对数损失与原始少数镜头分类损失之和分为100个基本类、50个验证类和50个新类。基本类别图像形成表示集DCUB。对于每个验证类和新类，我们随机抽取20%的图像，以形成参考集DCUB。剩余的新图像形成查询集DCUB，其用于评估算法。请注意，我们的模型只能访问基类中的部件注释。无零件注释Lpose=−1MHWMX，H，Wi，h，w[m（h，w）logmi（h，w）信息可用于验证类或新颖类中的任何图像，包括它们的参考集和查询集。NABird评价：小说类+（1−m（h，w））log（1−mi（h，w））]（3）Ltotal= Lfewshot+ Lpose（4）特征图提取器特征图提取器特征向量归一化加权平均14356在CUB的评估集中，这可能会使评估-评价嘈杂。在预处理中，少次学习算法之间的精度差异也显著降低。14357指查询国家代表查询指指指域转移的作用[3]。因此，为了验证我们提出的方法的鲁棒性和泛化能力，我们还在另一个更大的鸟类数据集上评估了我们的CUB模型：NABird [23]（NA），在去除与CUB的重叠后，包含418个类和35，733个图像。像以前一样，我们从每个图像双线性池（BP）[16]是扩展潜在特征空间和提高细粒度视觉分类器表达能力的有效模块。最近的工作[29]发现BP可以适应原型网络，在不增加参数数量的情况下提高性能。少镜头定位（FSL）[29]使用边界框类别以形成参考集合DNA. 其余表示和参考集中的注释的图像形成查询集合DNA。网络骨干：对于特征图提取器fθ，以前的工作[20，29，8]采用标准架构：一个4层64通道卷积网络，具有批量归一化和ReLU。在此设置中，输入图像大小为84×84，输出特征图为64×10×10。更深的主干可以显著减少这些方法之间的性能差异[3]，因此除了4层网络，我们还训练和评估了ResNet18[13]骨干网，并进行了一些技术修改，以提高所有模型的性能。我们将最后一个块的第一个卷积和下采样层的步幅从2更改为1。最后一个块的输出大小因此保持不变14×14而不是7×7我们还在原始层的最后一层添加了一个1×1卷积和批量归一化ResNet18将通道数从512减少我们修改后的ResNet18的输入大小仍然是224×224，但输出大小变为32×14×14。姿态估计模块：姿态估计网络qφ的层组成为Conv-BN-ReLU-Conv，其中Conv表示3×3卷积。在4层Con-vNet中，qφ将第二次Con-vNet之后的特征图作为输入进化qφ中两个卷积层的输入/输出通道数分别为64/30和30/M，其中M是部件类别数。在ResNet 18中，qφ将第三个块可以看出，与原始骨干网络相比，qφ5.2. 基线方法对于少次学习算法，我们将迁移学习、原型网络和动态少次学习分别表示为迁移、原型和动态。我们将我们提出的姿势归一化方法（PN）与以下特征聚合方法进行比较，包括所有学习算法和网络骨干：平均池是最直接的方法，通常采用在以前的工作。当没有指定特征聚合器时，所有后续的模型都使用平均池。我们还提出了一个基线，训练这个平均池特征提取器和分类器与定位器联合，模型在分类之前学习定位对象，从而提高少数分类精度。由于该模型边界框规范化（bbN）是一个更直接的比较边界框为基础的方法，不需要新的类框注释。我们使用PN模型，但设置M=2，并训练定位器根据基类训练数据的地面真值边界框将图像分离为前景/背景区域。无监督姿态归一化（uPN）基于无监督定位[29]，这是一种竞争性定位方法，其中基于来自一组学习参数向量的特征距离将特征图划分为软遵循相同的核心思想，我们引入了M=15个学习的、与类别无关的姿态向量，并基于每个位置处与每个向量的相对特征距离对特征图进行空间我们平均池的结果，sulting 15软区，如果他们是15预测的部分位置，产生一个特征向量的分类。姿态向量是学习的参数，端到端训练并且与分类器架构联合，不需要部分注释或单独的定位模块。此外，我们还包含了我们模型的一个Oracle版本使用地面真实姿态（PN gt）进行姿态归一化。5.3. 少拍识别结果我们首先在DCUB上训练所有模型，使用验证集为每个模型选择最佳超参数和停止点。然后，我们使用DCUB中标记的新类图像的有限集合在DCUB上对它们进行评估。对于评估指标，我们使用全方位评估[29，12，28]，而不是通常采用的5向任务。算法需要同时区分所有新类，这是一个更具挑战性的设置。对于参考图像的数量，我们考虑标准的1-shot/5-shot[29]和[29]提出的所有镜头设置，即，利用DCUB中每个小说类别的所有标记图像。对于CUB，所有射击结果如表1所示。对于1次和5次拍摄设置，我们在图3和图4中绘制了600个随机生成的测试事件的平均值。95%置信区间均小于0.6个百分点。使用上面在CUB上训练的模型，我们然后做同样的评估，后者在测试时被丢弃。这种多任务模式，关于NA，使用DNANA查询 .小说数量表示为MT，检查姿态估计函数是否纯粹作为一个在几杆训练正规化。NA中的类很大（418），每个类阶级不平衡。因此，我们只报告所有的和D14358使用ResNet18主干的性能proto原+BP原+uPN原+PN6555453525151发5发全摄图3. CUB上的准确度比较。所有模型都使用ResNet18原型网络。在所有设置下，姿势规范化都优于其他方法。表2中的所有射击结果，包括所有测试样品的平均准确度和每个类别的平均准确度在上述每种设置中，我们平均95%置信区间均在0.9个百分点以内。从这些实验结果，我们得出结论：1. 姿态归一化提供了显着的和consis- tent性能增益超过（平均池）基线。对于所有三种少数学习方法以及两种评估数据集，浅层和深层网络骨干的准确性都有所提高。在CUB上的全方位、全方位设置下，4层ConvNet在所有三种学习算法中的准确度增益始终大于15点，在ResNet18上达到20点。具有姿态归一化的浅网络甚至可以优于其更深的对应物。2. 在所有设置中，姿势归一化都优于其他聚合函数，包括黑盒修改（双线性池），基于边界框定位（FSL和bbN）的技术和无监督姿势归一化。它还优于多任务训练，表明正常化而不是额外的辅助损失是关键。3. 姿态信息比粗定位更有效。在表1中，PN和bbN贡献了相似数量的新的可学习参数，但是PN中的细粒度姿态信息使其优于bbN，bbN仅关注粗略的边界框。通过比较PN与PN gt，我们看到更好的姿态估计器可能会对性能产生更大的提升。5.4. 姿势注释数量的影响虽然零件位置的获取成本通常低于细粒度的专家类标签（请参阅仔细标注模型4层ConvNet ResNet18转让转账+PN转移+PN gt56.40 58.54前32.09 42.73原+MT 35.56 50.93原+BP 35.56 41.04Proto+FSL 39.60 47.43原+bbN 37.75 44.02原+uPN 46.24 53.18proto+PN 49.56 63.44原+PN gt59.55 62.63动态动态+PN 54.17 60.19动态+PN gt62.67 60.09表1.CUB数据集上不同模型的少量分类结果模型的组织采用少样本学习算法，然后采用特征表示方法。姿态归一化为所有三种少拍学习算法提供了显着的性能提升，包括浅层和深层网络骨干。4层ConvNet ResNet18表2. CUB模型在NA上的性能。姿势归一化带来的性能提升在这个新领域仍然很重要。性能与CUB观察结果一致。通过动态少量学习实现性能动态+4层ConvNet动态+4层ConvNet+PN动态+ResNet18动态+ResNet18+PN6050403020101发5发全摄图4. CUB上的动态少量学习模型的性能比较姿势归一化的准确性提升是显著且一致的。[23]的流水线），仍然可能是难以收集大量零件注释的情况。因此，我们考虑对我们的模型进行消融，的训练图像具有部分注释。对于剩余的图像，不计算L姿态，并且预测的姿态准确度（%）模型是说按类是说按类转移12.6311.2420.2217.54转移+PN24.6021.7628.3625.57proto8.738.3713.3312.55原+MT10.5910.1016.4115.42原+BP10.479.8315.0914.04原+FSL12.3411.6115.6214.81原+bbN10.5710.0013.0512.32原+uPN18.9117.5122.1220.77原+PN21.0219.4732.6630.59动态12.1311.2614.8213.44动态+PN26.1724.0730.1027.86准确度（%）14359不同数量零件注释的性能4层ConvNet+PN ResNet18+PN4层ConvNet+BP ResNet18+BPProto+PN 26.04 50.35 60.83 58.72 77.75 81.9670表3.FGVC-Aircraft数据集上所有三种评估设置下的少量结果五次试验的平均结果。305 10 20 30 40 50 60 70 8090100具有部件注释的训练图像的百分比（%）图5. 当零件注释稀疏时，姿势规范化的少镜头测试精度。性能下降的幅度非常小。即使在训练期间只有5%的注释可用，姿势归一化也优于双线性池热图产生用于分类器训练的特征向量，而不是基本事实。我们在CUB上评估了具有浅骨干和深骨干的原型网络，并改变了具有部分注释的图像的百分比。结果见图5。姿态归一化对训练期间的注释稀疏性具有高度鲁棒性（当高于30%可用性时，波动小于5个点），并且即使只有5%的姿态注释可用，也始终优于BP。5.5. FGVC飞机的评价我们评估了这些结论在细粒度飞机分类 [17]（FGVC-飞机）上的通用性，其中包含跨越100个飞机模型的10，000个图像。按照与CUB相同的比例，我们将类分为50个基础类，25个验证类和25个新类。参考/查询划分如第5.1节所述。由于该数据集图中包含6，357个图像，忽略与FGVC共享的图像，每个图像有5个部件注释（因此M=5）。目录不包含分类标签。每次训练迭代从EEG和FGVC中采样一批图像使用预处理图像来计算L姿态，而FGVC图像使用预测姿态热图来获得特征向量。结果如表3所示。虽然姿态估计器是在不相交的图像上训练的，但它在提高飞机识别性能方面仍然有效。我们得出结论，姿态归一化概括了细粒度的少数拍摄分类任务。将这种方法扩展到非细粒度的任务或类特定的部分并不直接，但可能是未来研究的一个有价值的方向。6. 分析6.1. 模型解释尽管准确性，我们希望姿态归一化表示是人类可解释的，不像以前的黑盒表示。为了研究模型实际上学习了什么，我们进行了两个实验来分析学习的姿势归一化表示。两者都使用带有ResNet18主干的proto+PN模型。部位重要性：每种鸟都可能有一套特别可区分的部位属性。为了验证我们的模型是否学习到了这一点，我们进行了以下测试。对于每一个类，我们都将这些部分重新计算并计算当相应的零件特征向量从表示中移除时，测试准确度。准确度下降的幅度可以解释为模型学习到的该类每个部分的重要性我们在图6中可视化了三个物种的重要性，并将其与野外指南中的物种描述进行了我们的网络评分基本上符合专家的判断。最近邻居：不同的鸟可能共享相同的部分属性;例如，加利福尼亚鸥和环嘴鸥有着相同的喙形。因此，在姿态归一化中，这两只鸟应该是接近的，因为部分向量被设计为以类不可知的方式编码区域信息。为了验证这一点，我们在参考集中找到前5个图像，这些图像具有与来自查询图像/部件对的给定向量最接近的图7中给出了四个随机示例。一般来说，我们的假设成立-描述每个查询图像中给定部分的向量确实可以推广到其他物种。6.2. 姿态估计根据先前评估姿态估计的工作[30，2]，我们计算了浅网络和深网络骨干在不同阈值下的归一化PCK（使用边界框的对角线进行归一化）。结果见图8。我们看到，这两种估计都能给出准确的结果。虽然更深的网络主干确实产生了更好的估计，但这种提升也相当有限。我们相信，一个更复杂的姿态估计器可以导致更好的结果，对少数拍摄识别。6.3. 无监督姿态归一化我们注意到，从分类的角度来看，无监督的姿势归一化也表现良好（见表1）。605040模型4层ConvNet1发5发全摄单次拍摄ResNet185发全摄proto24.4043.2452.0646.2763.1567.76准确度（%）14360图6. 当移除单个部分向量时，可视化选定鸟类的准确度下降（部分重要性）。右边引用了鸟类专家关于如何识别这些物种的描述所估计的部件重要性与专家判断很好地匹配零件位置乳腺喙查询图像具有最接近零件表示的参考集中的前5个图像4层ConvNet同通道不同图像ResNet18同通道不同图像来自无监督姿态归一化的热图肚子ResNet18不同通道相同图像回来图7. 对于给定的部件位置，具有与查询图像最接近的部件向量的图像。如果图像与查询图像属于同一类别，我们看到部件表示跨类捕获部件位置的语义上有意义的属性。图8. 不同网络骨干的姿态估计结果。如图9所示，具有非监督姿态归一化的更深主干确实产生局部关键点，这可能有助于分类。但是，请注意，这些关键点的语义并不一致图9. 无监督热图的可视化。语义内容高度不一致，难以有意义地解释跨图像（图9，顶部两行）。预测也不稳定，不同的通道有时会提供类似的热图（图9，底行）。这种不一致性有助于解释为什么机器发现的零件在细粒度、少镜头分类中表现低于手工设计的零件。7. 结论我们表明，一个简单的，轻量级的姿势规范化模块可以导致一致的大性能增益细粒度的几杆识别，在测试时没有任何部分的注释。我们的研究结果适用于浅层和深层网络骨干，多个少量学习算法和多个域。除了显着的准确性提高，我们还表明，姿势规范化的代表是高度人类解释。因此，我们强烈建议将姿势规范化作为细粒度少数镜头学习社区重新审视的一般领域。确认这项工作得到了DARPA LwLL赠款的部分支持14361引用[1] https://sites.google.com/view/fgvc6/home.[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在 Proceedings of the IEEE Conference oncomputer Vision and Pattern Recognition，第3686[3] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。在2019年国际学习代表会议上。[4] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在Proceedings of the IEEE international conference oncomputer vision，第764-773页[5] Mandar Diplomas，Roland Kwitt，Marc Niethammer，and Nuno Vasconcelos. Aga：属性引导增强。在CVPR，2017年。[6] Ryan Farrell，Om Oza，Ning Zhang，Vlad I Morariu，Trevor Darrell，and Larry S Davis. Birdlets：使用体积图元和姿态归一化外观的从属分类。2011年国际计算机视觉会议，第161-168页。IEEE，2011年。[7] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017.[8] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在IEEE计算机视觉和模式识别会议论文集，第4367-4375页[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯用gnn去噪自动编码器生成分类权重，用于少量学习。在IEEE计算机视觉和模式识别集，第21[10] 裴果和瑞恩·法瑞尔。与对象对齐，而不是与图像对齐：用于细粒度识别的统一姿态对齐表示。2019年IEEE 计算机视觉应用冬季会议（ WACV ），第1876IEEE，2019。[11] 韩俊伟、姚希文、宫成、冯晓旭、董旭。P-cnn：用于细粒度视觉分类的基于部分的卷积神经网络。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。[12] Bharath Hariharan和Ross Girshick通过缩小和幻觉特征进行低镜头视觉识别。在IEEE计算机视觉国际会议的论文集，第3018-3027页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。神经信息处理系统的进展，第2017-2025页，2015年[15] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会，澳大利亚悉尼，2013年。[16] 林宗宇，Aruni RoyChowdhury，Subhransu Maji。用于细粒度视觉识别的双线性cnn模型。在Proceedings of theIEEE international conference on computer vision，pages1449[17] S. Maji，J. Kannala，E. Rahtu，M. Blaschko和A. 维达尔迪飞机的细粒度视觉分类。技术报告，2013年。[18] 昭宏中村和Tatsuya原田。重访-为少量学习进行微调。arXiv预印本arXiv：1910.00216，2019。[19] 劳伦·施密特。作为范畴和限制的统计归纳的意义和组合性。博士论文，麻省理工学院，2009年。[20] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统进展，第4077-4087页，2017年[21] 孙一凡，郑良，李雅丽，杨毅，田琦，王胜金。学习基于部分的卷积特征用于人员重新识别。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。[22] Flood Sung，Yongxin Yang，Li Zhang，Tao Xiang，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在IEEE计算机视觉和模式识别会议集，第1199-1208页[23] Grant Van Horn 、 Steve Branson 、 Ryan Farrell 、 ScottHaber、Jessie Barry、Panos Ipeirotis、Pietro Perona和Serge Be- longie。与公民科学家一起构建鸟类识别应用程序和大规模数据集：细粒度数据集集合中的细打印。IEEE计算机视觉和模式识别会议论文集，第595-604页，2015年[24] A. Vedaldi，S.Mahendran，S.Tsogkas，S.马吉湾女孩J. Kannala，E.拉赫图岛Kokkinos，M.B. Blaschko，D.外斯B. Taskar，K. Simonyan，N. Saphra和S.穆罕默德使用细粒度属性详细了解对象。在IEEE Conf. 计算机视觉和模式识别（CVPR），2014年。[25] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。在神经信息处理系统的进展，第3630[26] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。[27] Yan Wang，Wei-Lun Chao，Kilian Q Weinberger，andLau- rens van der Maaten. Simpleshot：重新审视最近邻分类用于少量学习。arXiv预印本arXiv：1911.04623，2019。[28] Yu-Xiong Wang ，Ross Girshick ，Martial Hebert ，andBharath Hariharan.从假想数据中进行低拍摄学习。在IEEE计算机视觉和模式识别会议上，第7278-7286页，2018年14362[29] Davis Wertheimer和Bharath Hariharan。在现实环境中进行局部化的少量在计算机视觉和模式识别（CVPR），2019年。[30] Yi Yang和Deva Ramanan具有部件的灵活混合的IEEEtransactionsonpatternanalysisandmachineintelligence，35（12）：2878[31] 张宁，杰夫·多纳休，罗斯·格希克，特雷弗·达雷尔.用于细粒度类别检测的基于零件的r-cnn。欧洲计算机视觉会议，第834Springer，2014.[32] 张宁，瑞安·法雷尔，和特雷弗·达雷尔。用于子类别识别的姿势池化内核。在2012年IEEE计算机视觉和模式识别会议上，第3665IEEE，2012。[33] Ning Zhang，Manohar Paluri，MarcPanda：用于深度属性建模的姿势对齐网络.在IEEE计算机视觉和模式识别会议论文集，第1637-1644页[34] 张宁，埃文·谢尔哈默

下载后可阅读完整内容，剩余1页未读，立即下载