基于元学习的通用求解器：MetaR-CNN

67 浏览量更新于2023-10-12 收藏 1.12MB PDF 举报

Meta

R-CNN

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19577Meta R-CNN：面向实例级低拍摄学习的通用求解器严小鹏1岁， Ziliang Chen1，Anni Xu1，Xiaoxi Wang1，Xiaodan Liang1，2，Liang Lin1，2，†12中山大学DarkMatter AI研究{yanxp3，wangxx35}@ mail2.sysu.edu.cn，c. yahoo.com，466783266@qq.com，xdliang328@gmail.com，linliang@ieee.org摘要类似于人类的快速学习能力，低拍摄学习使视觉系统能够通过使用少量样本进行训练从单一视觉对象的图像元学习中获得的领先由于背景复杂、同一图像中存在多个目标，使得低拍目标检测/分割的研究难以开展在这项工作中，我们提出了一个灵活的和一般的方法来实现这些任务。我们的工作扩展了Faster /Mask R-CNN，提出了在RoI（感兴趣区域）特征上的元学习，而不是完整的图像特征。这种简单的精神将多对象信息与背景融合在一起，没有花里胡哨的东西，使Faster/Mask R-CNN变成了一个元学习者来完成任务。具体来说，我们引入了一个预测头重构网络（PRN），它与Faster /Mask R-CNN共享其主要骨干。PRN接收包含低拍摄对象的图像，其边界框或掩模来推断其类别注意向量。这些向量对RoI特征采取通道方式的软关注，重塑这些R-CNN预测器头，以检测或分割与这些向量表示的类一致的对象在我们的实验中，Meta R-CNN在低拍摄对象检测方面取得了新的进展，并通过Mask R-CNN 改进了低拍摄对象分割代码：https://yanxp.github.io/metarcnn.html。1. 介绍深度学习框架主导视觉通信迄今为止，由于他们在具有大量数据的监督训练制度中取得了人类水平的成就。但区别于人类擅长快速理解视觉特征，*表示同等贡献（Xiaopeng Yan和Ziliang Chen）。† indi- catescorresponding author：梁琳。这项工作得到了中国国家重点研究与发展计划的部分支持，批准号：2018 YFC 0830103，部分国家高层次人才专项支持计划（万人计划），部分国家自然科学基金（NSFC），批准号：61622214、61836012和61876224，以及部分由广东省自然科学基金批准号：2017A030312006。图1.低拍摄设置中标记的训练图像的说明，用于视觉对象识别和类感知对象结构（边界框或掩码）预测。与识别相比，在低拍摄对象检测/分割中的新类别的少数对象与不同背景中的其他对象混合，但需要低拍摄学习器来预测它们的类别和结构标签。当训练数据在类中稀少时，神经网络显著地遭受性能下降暴露的瓶颈引发了许多重新思考深度学习泛化的研究[46，11]，其中低（少）拍摄学习[26]是一个流行且非常有前途的方向。提供在新类中只有很少的标记数据（1 × 10个镜头），低镜头学习器被训练来识别数据-饥饿-类对象的帮助下，基类有足够的标签数据（见图1.a）。其工业潜力越来越多地推动解决方案的出现，属于贝叶斯方法[10，26]，相似性学习[25，36]和元学习[40，42，41，37]的保护伞。然而，识别图像中的单个对象仅仅是现实世界视觉理解的冰山一角。在实例级学习任务方面，例如，对象检测[35，33]/分割[2]，在低拍摄学习环境中的先前工作仍然很少探索（见图1.b）。由于学习实例级任务需要比图像级注释消耗更多劳动力的边界框或掩码（结构标签），如果新类，对象边界框和分割掩码可以由低拍摄学习器同步预测，则将具有实际影响力。不幸的是19578自然地，这些任务在对象匮乏的条件下变得更加困难，因为学习者除了对它们进行分类之外还需要定位或分割新类别数量稀少的对象此外，由于一个图像中有多个对象，新类对象可能与其他类中的对象混合，进一步混淆信息以预测其结构标签。鉴于此，研究人员可能会期待一个复杂的解决方案，就像解决低拍摄识别所做的那样[10，26]。超越他们的期望，我们提出了一种直观和通用的方法来实现低拍摄对象检测和分割：我们提出了一种基于Faster/Mask R-CNN产生的RoI（感兴趣区域）特征的新型元学习范式[35，17]。Faster /Mask R-CNN应该使用大量标记的对象进行训练，并且不适合低拍摄对象检测。现有的元学习技术在低拍摄识别中是强大的，而它们的成功大多基于识别单个对象。对于背景中包含多个目标信息的图像，由于元优化无法理清这些复杂的信息，因此它们几乎失败但有趣的是，我们发现混合的未发现对象可以通过Faster /Mask R-CNN中第一阶段推理产生的RoI特征进行每个RoI特征指的是单个对象或背景，因此Faster /Mask R-CNN可以解开大多数元学习者所遭受的复杂信息。我们的观察激发了快速/Mask R-CNN和元学习。具体地说，我们通过引入预测头重新建模网络（ PRN）来扩展Faster /Mask R-CNN。PRN是完全卷积的，并且与Faster /Mask R-CNN共享主骨干的参数。与R-CNN对应物不同，PRN接收从具有其bbox或掩码的基础和新类中提取的低拍摄对象，推断类关注向量，对应于低拍摄输入对象所对应的类。每个向量都对所有RoI特征进行通道式关注，从而引起对类别的检测或分割预测。为此，已对Faster/Mask R-CNN我们的框架完全归结为一个典型的元学习范式，鼓励命名Meta R-CNN。Meta R-CNN是通用的（在Faster/Mask R-CNN中的不同主干中可用），简单（轻量级PRN）但有效（在低拍摄对象检测/分割中获得巨大的性能增益），并且保持快速推理（类关注向量可以在测试之前进行预处理我们在3个基准测试中进行实验，3个骨干用于低拍摄对象检测/分割。Meta R-CNN在低拍摄新颖类对象检测/分割方面取得了新的技术水平，更重要的是，在检测基础类对象方面保持了竞争力它非常-Meta R-CNN显著提高了Faster/ Mask R-CNN的泛化能力。2. 相关工作低镜头目标识别的目的是识别新的视觉对象，给出很少的相应标记的训练，举个例子。目前视觉领域的研究主要分为基于贝叶斯方法的学习、度量学习和元学习三大类。贝叶斯方法[10，26]假定对象背后存在一种互组织规则，并设计概率模型来发现潜变量之间的信息。相似性学习[25，36，38]倾向于认为同一类别的样本与它们不同的是，元学习[40，37，12，32，3，16，43，11]设计用于学习元学习器以参数化优化算法或预测分类器的参数，所谓的最近的理论[1，23]表明，元学习器实现了通用化的保证，吸引了大量的研究来解决低拍摄问题的元学习技术。然而，大多数现有的方法集中在单对象识别。基于神经网络的目标检测主要通过两个求解分支来重新求解：一级/二级检测，tors. 单阶段检测器试图直接预测对象类别的边界[33]，SSD [28]和变种。R-CNN[14]系列[18，13，35，8]属于第二流。该方法应用covnets来通过由不同算法生成的区域建议对位置进行分类和回归[39，35]。最近，低拍摄对象检测已经从识别扩展[4，22，21]。[21]遵循全图像元学习原则来解决这个问题。相反，我们在第3节中讨论了低拍摄对象识别和检测之间的相似性和差异，以合理地激励我们的ROI元学习方法。期望对象分割以逐像素分割图像中的感兴趣对象主要方法分为基于图像的和基于建议的。基于建议的方法[30，31，7，6]基于预测对象掩码而基于图像的方法[47，48，44，2]在图像上产生像素级分割图以识别对象实例。在少炮装置中的相关研究仍然缺乏。3. 任务和动机在介绍Meta R-CNN之前，我们考虑它旨在实现的低拍摄对象检测/分割任务这些任务可以从激发我们方法的元学习3.1. 初步：通过Meta学习进行低拍摄视觉对象在低拍目标识别中，学习器h（;θ）接收来自基本类Cbase和新类的19579j=1j=1j=1j=1i、ji、ji、j图2.我们的Meta R-CNN由1）Faster/ MaskR-CNN 组成 ; 2 ）预报头再建模网络（PRN）。Faster/ Mask R-CNN（模块）接收图像以产生RoI特征，通过对RPN提取的图像区域建议进行RoIAlign。并行地，我们的PRN接收具有其结构标签（边界框/分割掩模）的K次m类调整大小的图像以推断m类关注向量。给定表示c类的类注意力向量，它对每个RoI特征进行通道式软注意，鼓励Faster/ Mask R-CNN预测器头基于图像中的RoI特征检测或分割c类对象。由于类c是由PRN的输入动态确定的，因此Meta R-CNN是元学习者。C小说。因此，数据可以分为两组：Dbase=通过对h（xi;θ）进行建模，在低拍摄场景中表现不佳{（xbase，ybase）}n1CNOP底座包含足够的样品，纳里奥然而，元预测子h（xi，Dmeta;θ）也是非线性的。i i i=1每个基类;Dnovel={（xnovel，ynovel）}n2科普小说由于xi包含多个对象复杂信息，i i i=1在每个新类中包含很少的样本。 h（;θ）目标对从P小说中抽取的测试样本进行分类。值得注意的是，使用小数据集Dnovel训练h（; θ）以识别Cnovel子模型过拟合，而使用DbaseDnovel训练h（; θ）由于极端的数据量不平衡仍然失败在不同的背景下融合。动机用于低拍摄对象检测/分割的元学习的真正目标是建模h（zi，j，Dmeta;θ）而不是h（xi，Dmeta;θ）。由于视觉对象{zi，j}ni彼此混合并与背景合并，在Dbase和Dnovel之间（n2<

下载后可阅读完整内容，剩余1页未读，立即下载