在多个图像集合中查找常见对象的学习方法

186 浏览量更新于2023-10-12 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5117学习在几个图像集合中查找常见对象Amirreza Shaban1岁，Amir Rahimi2岁，ShrayBansal1岁，Stephen Gould2岁，Byron Boots1岁，Richard Hartley2岁1Georgia Tech，2ACRV，ANU Canberra摘要给定一组袋子，其中每个袋子是一组图像，我们的目标是从每个袋子中选择一个图像，使得所选图像来自相同的对象类。我们模型的选择作为一个能量最小化问题，一元和成对的潜在功能。受最近几次学习算法的启发，我们提出了一种直接从数据中学习势函数的方法。此外，我们提出了一个快速的贪婪推理算法的能量最小化。我们评估我们的方法对少数常见的物体识别以及对象共同定位任务。我们的实验表明，学习成对项和一元项大大提高了模型的性能，所提出的贪婪优化算法实现的性能可与最先进的结构化推理算法相媲美，速度是原来的10倍。1. 介绍我们解决的问题，找到一个共同的对象的图像在袋的图像。输入是一个包的集合，每个包包含来自多个类的几个图像。如果袋子包含来自给定对象类的至少一个图像，则袋子相对于该对象类被标记为阳性，并且如果袋子中的图像都不来自该对象类，则袋子被标记为阴性。任务是在每个阳性袋中找到共同对象的实例。并不假设在训练期间先前已经看到了公共类的对象。由于图像的集合可能意外地包含不相关的共同对象（例如室内图像通常包含人），所以负袋的目的是指示我们不寻找的对象，但是其可能是正袋所共有的。几个计算机视觉问题，包括共同分割，共同定位，和无监督的视频ob.com*同等缴款。请访问amirreza@gatech.edu或图1.共定位，这里显示，是一个例子的一般问题，找到共同的对象在本文中解决。顶行中的每个图像生成包含来自该图像的一组裁剪区域的正片袋。任务是通过从每个图像中选择一个区域（绿色边界框），从阳性袋中找到一个共同的对象。从底行中的图像中裁剪的区域形成负袋，因为它们不包含共同对象。这里的否定包是可选的，但可以减少歧义。例如，由于负袋中存在刀，因此它不能是所需的共同对象。对象跟踪和分割已经以这种方式公式化[48，14，23，16，3]。在协同定位问题中，图1，每个袋子包含来自一个图像的许多裁剪图像区域（对象提议）。目标是识别包含常见目标的项目，每个阳性袋一个。我们设计我们的方法来解决从阳性袋中找到常见物体的一般问题，并在两个问题上对其进行评估：少量常见目标识别和目标协同定位。弱监督分类方法，如多实例学习[29]已被用于解决这类问题，但它们需要许多训练包来学习新概念[24]。元学习技术[15，39，40]已被证明可以减少在少量学习中对训练实例的需求，但这些方法需要对新类进行全面监督amir. anu.edu.au。我们对寻找共同对象的问题进行5118作为最小能量图标记问题，也称为双向图形模型或马尔可夫随机场。图的每个节点对应于一个正包，并且图标记对应于在每个正包中选择一个图像，目标是找到包含共同对象的标记。我们使用selec- tion一词而不是标签来表示从每个包中选择一个图像的过程。能量最小化问题使用一元势函数和成对势函数，其中一元势函数反映正袋中的图像与负袋中的图像的关系使用类似但单独训练的网络计算一元和成对我们调整了关系网络[44]，它已成功用于少数镜头识别来计算成对电位，并提出了一种新算法，该算法使用图像与负袋中所有图像的关系来提供一元电位。一旦一元和成对的潜力已经计算，一个简单的合并和修剪推理启发式是用来找到一个最小成本的标签。这为最优图标号的NP难题提供了一个简单而有效的解决方案。虽然图形模型已用于多实例学习（MIL）问题[12，19]，但我们的方法使用基于学习的方法，受元学习的启发，以增加潜在函数对新类的泛化能力。我们做出以下贡献：1. 我们介绍了一种方法来转移知识的大规模强监督数据集通过学习成对和一元潜力，并证明了优越性，这种学习关系度量早期MIL方法上的两个问题。2. 我们提出了一个专门的结构化推理算法，实现了相当的性能，国家的最先进的推理方法，同时需要更少的计算时间。2. 相关工作多实例学习（MIL）[7，33]方法已用于学习弱监督任务，如对象定位（WSOL）[25，8，53，41]。在标准的MIL框架中，每个正包中的实例标签被视为隐变量，并约束其中至少有一个应为正。MI-SVM和mi-SVM [2]是两种流行的MIL方法，并且已广泛适用于许多弱监督计算机视觉问题，在许多不同的应用中取得了最先进的结果[7，13]。在这些方法中，每个袋子中的图像继承袋子的标签，并且训练SVM来分类图像.训练好的SVM用于重新标记实例，重复该过程，直到标签保持稳定。虽然在MI-SVM中，只有阳性袋中得分最高的图像被标记为阳性，但在重新标记过程中，mi-SVM允许每个阳性袋中有一个以上的阳性标记Co-saliency [52，23]，co-segmentation [48，14，21]和co-localization [27]方法具有与WSOL方法相同的输出。与标准MIL算法类似，这些方法中的一些依赖于相对较大的训练集来学习新类[27，45]。这些方法与WSOL方法的主要区别在于它们通常不使用反例[48，27，45]。在我们的方法中，否定的例子是可选的，可以用来改善协同定位任务的结果。我们的方法与弱监督方法有关，这些方法利用辅助的完全标记数据来加速新类别的学习[46，22，42，37，11]。由于视觉类共享许多视觉特征，因此来自完全标记的源类的知识用于从弱标记的目标类学习。一般的方法是使用标记数据集来学习图像的嵌入函数，并使用MI-SVM对该空间中弱标记数据集的实例进行分类[46，22，42]。我们发现，学习一个评分函数来比较嵌入空间中的图像，可以显着提高这种方法的性能，特别是当很少有正面图像可用时。Rochan等人[37]提出了一种从一组熟悉对象转移知识以定位弱监督图像集合中的新对象的方法。他们的方法使用编码在词向量中的语义信息进行知识传递。相比之下，我们的方法在训练和测试中使用任务之间的相似性，并且不仅仅依赖于familiar和新类之间的给定语义关系。Deselaers等人[11]从源类中转移对象性分数，并将它们合并到条件随机场公式的一元项中。我们的方法受到使用Meta学习范式进行少量分类的方法的启发。这些方法在训练阶段模拟少量学习任务，其中模型学习优化一批采样任务。元学习方法稍后用于在测试期间优化类似的任务。基于优化的方法[36，15]，特征和度量学习方法[49，43，44]以及基于记忆增强的方法[39]只是现代少数学习的几个例子。虽然我们的工作受到这些方法的启发，但不同的是，我们没有对任务进行强有力在关系网络[44]中，图像对之间的相似性函数被学习，并用于从看不见的类别中对图像进行分类我们采用这种方法来学习我们的图形模型中的一元和成对的势函数。51193. 问题描述我们考虑具有二元关系R的集合I。为了便于说明，我们把集合中的元素称为象关系R是I×I的子集：.输入与底片袋中的图像无关以这种方式，当O中的图像彼此相关并且与负袋中的图像不相关时，总能量被最小化3.1. 培训和测试拆分R（e，e′）=+1，如果（e，e′）∈R（输入相关）-1，否则。（一）对于数据集DI，我们使用符号W D来表示随机集合W=（V，v<$）是dra wn一个袋子是一组图像，因此，是I的子集。我们将关注袋的集合，V ={v1，v2，. . . ，v N}。我们说一个集合V ={v1，. . . .. 这些被称为阳性袋。给定一个一致的集合，V和一个可选的addi-从数据集。我们在每个数据集的实现细节中定义了采样策略。在训练期间，算法可以访问数据集Dtrain和对应的地面实况关系。我们基于如上所述的一组前景类C train来构建训练数据集的关系。方法在测试数据集中的样本上进行评估我们指定为负1的功能包v'，任务是输出图像的选择，即有序集W D测试.没有共同的形象之间O =（e1，. . . 其中e i来自正袋v i，使得图像是成对相关的，R（e i，e j）= 1，并且不是所有图像都与负袋中的任何图像成对相关，即， ei∈O使得最令人感兴趣的情况是其中每个图像e ∈ I具有单个潜在（未知）标签c e∈ {c∈} c∈ C，其中c∈是背景类，并且C是一组前景类。如果两个图像e1和e2的标签相同并且属于前景类，则它们是相关的，即，c e1=c e2∈C。例如，（裁剪的）图像可以根据它们包含的前景对象来标记。在这种情况下，两个图像（e1，e2），都包含一个“蛋糕”是相关的，R（e1，e2）= 1。而不属于相同前景类别的两个图像（e3，e4）是不相关的，R（e3，e4）=−1。在这种情况下，R是一个等价关系。能量函数。我们提出的问题，找到共同的对象，找到一个选择O，使能量函数最小化。我们的能量函数定义为势能函数之和，如下所示：训练和测试数据集。此外，前一组-用于测试数据集的基础类Ctest与在训练期间使用的前景类的集合不相交，即， CtestCtrain=. 在测试时，我们只知道一个包相对于某个前景类是正的还是负的。地面实况（前景类是共同的积极袋）是未知的算法，只用于评估性能。4. 学习势函数我们现在介绍的方法学习成对和一元的潜在功能。所提出的方法依赖于一种算法来估计输入图像对（e，e′）的相似性度量。一种常见的方法是学习嵌入函数，并使用固定的距离度量来比较嵌入空间中的输入对。在这种方法中，学习仅用于确定嵌入函数。关系网络[44]通过联合学习嵌入函数和比较器来扩展这一点。该网络由嵌入模块和关系模块组成。嵌入模块学习联合特征嵌入（到Rd中），输入图像对C（e，e′）和关系模块ΣE（O|v<$）=ΣP（e，e）+η| v¯),(2)学习映射g：Rd→R，映射嵌入的θ我Jei，e j∈Oβ我ei∈O特征到关系得分rφ（e，e′）=g（C（e，e′））其中φi>j其中，P（·，·）和U（·|（v）是成对的和一元的，表示嵌入和评分函数的参数。的组合。2我们采用了关系模块，θ β关系网络由于其简单性和在少数情况训练参数θ和β的势函数，超参数η≥0控制一元项的重要性。一元势函数和成对势函数都是通过神经网络学习，这将在第4节中描述。学习成对势函数，使得它鼓励选择彼此相关的配对。选择一元势，以便当其1在一个集合射击学习然而，计算一对图像之间的关系的任何其他方法都可以在我们的方法中使用。关系网。由于我们需要评估许多图像对的关系，因此我们调整了原始的关系网络架构[44]，以使嵌入和scor函数尽可能具有计算效率。的因为其目的仅仅是提供一组不兼容的图像，在所描述的意义上，用积极的袋子。2我们采用关系网络论文中使用的符号[44]5120k=1kθ特征嵌入函数C（·，·）：I×I→Rd由特征级联和具有门控激活[47]和跳过连接的单个线性层组成。令f和f′是通过CNN特征提取模块从图像e和e′中提取的R d中的特征，并且[f，f ′]是特征对的级联。嵌入函数定义为：底片包里的不止一张照片在这种情况下，对u（e，v<$）中的几个最相关的元素使用平均关系有助于减少估计中的噪声，并且比简单的最大运算符更好。这促使我们使用关系的指数加权平均形式，以便更高的值获得更高的权重C（e，e′）=tanh（W1[f，f′]+b1）σ（W2[f，f′]+b2）+f+f′U（e|v<$）=B<$u（e，v<$）exp.Σνu（e，v<$）k.（三）2β，νΣB¯k=1 exp（νu（e，v<$）k）其中W1，W2∈Rd×2d和向量b1，b2∈Rd是特征嵌入模的参数，tanh（·）和σ（·）分别是双曲正切和S形作用函数，按分量应用于Rd中的向量.然后，我们使用线性层将这些特征映射到关系这里，B是n eg at iv e袋中的图像总数，v是温度参数。注意，对于ν=0，我们有u（e，v<$）的平均值，并且当ν → +∞时，它与极大算子一致。我们让算法学习以数据驱动的方式平衡温度值。评分rφ（e，e′）=wφC（e，e′）+bF或采样集合W=（V，v<$），一元势的发作损失其中w∈Rd，b∈R。我们在实践中发现，在嵌入模块中使用门控激活可以提高每-磁损耗U1是的。U在一个简单的ReLU上进行优化，而添加更多的层不会影响性能。我们注意到，效果-门控激活的有效性也已经在其他研究中显示L=NUv∈Ve∈v日志1+exp（−R（e，v<$）<$β，ν（e，v<$））（四）工作[35]。成对电位。成对势函数被定义为关系模块的输出的负值：P（e i，e j）= −r θ（e i，e j），因此它对相关对具有较低的能量。对于采样集合V，事件损失被写为二元逻辑回归损失这里我们使用关系函数的扩展定义其中R（e，v<$）=maxe<$∈v<$R（e，e<$），NU是集合中所有阳性袋中的图像总数。通过训练，这种损失在关系网络的参数β和权重参数ν的选择上被最小化。通过优化这个损失，我们学习了一个潜在的函数，如果e与负袋中的一个例子相关，则该函数具有更高的值注意，在等式（2）中，LP=1Σ日志.Σ1+exp（−R（ei，ej）rθ（ei，ej））不鼓励使用更高的值和以前一样，训练样本是从集合NP（e，e）VW反映相关和不相关Ij对.其中和是集合中所有对的总和，NP是这种对的总数，以及关系R（.，. ）提供了地面实况标签。请注意，图像对是从V中采样的，因此损失函数反映了来自一致图像集合的图像对的先验分布一元和成对的潜在函数的参数分别学习通过优化各自的损失函数在随机抽样的问题，从训练集。尽管一元势函数和成对势函数都使用具有相同结构的关系网络，但它们的输入类分布不同，因为一个是比较正包中的图像，一个是比较图像一元潜力一元势函数|（v）是在正负两个袋子里。分享他们的故事，通过将图像e与阴性iv e袋v′中的图像进行比较来构建。设向量u（e，v<$）为图像e与 v<$中所有图像之间的估计关系，即u（e，v<$）j=rβ（e，e<$j），其中e<$j为n个有效包中的第j个图像，β为关系网络的（新）参数集。根据定义，如果u（e，v′）中至少有一个值高，则图像e的一元能量应该高。换句话说，如果e与 v ′ 中至少一个i m age相关，则e与v ′相关。这表明使用maxj（u（e，v<$）j）作为一元能量势。然而，取决于底片袋中的图像的类别分布，可以关联不来自公共对象类别的图像eTERS降低了整体性能。4.1. 推理找到最小化等式（2）中定义的能量函数的最优选择O是NP困难的，因此除了在小情况下，精确计算是不可行的。循环置信传播[50]、TRWS [26]和AStar [4]是用于近似能量最小化的许多算法之一。我们提出了一种替代方法，专门设计用于解决我们的优化问题。我们的方法旨在将整个问题分解为更小的子问题，解决它们，并将它们组合起来。5121我我我11我我J2i−1J2我i2i−12ii2i−12i他们的解决方案，以找到解决整个问题的这是基于这样的观察，即整体问题的解决方案也将是任何子问题的有效解决方案。令 V （ p ， q ）={vp ，vp+1，.， vq}是V的子集。然后，一个子问题是指找到一组共同的目标，算法1：贪婪优化算法输入：V={v1，...， vN}，v<$，且N=2Z.输出：选择O =（e1，. . . ，eN）B0= vi <$i ∈ [1，. . . N]E0（Oi，i）=η<$U（ei|v<$）i∈Bi，i∈[1，. . . ，N]iβ0针对具有低能量值的V（p，q）提出建议B;B代表-显示建议的图像选择集合，对于l←1到Z，对于i←1到 2Z−l，袋组V（p，q）。选定内容的能量值X l← Bl−1× Bl−1（连接）i2i−1 2iOp，q∈ B定义为所有两两一元势之和在子问题中，类似于能量函数根据等式（6）计算X1Bl←prune（Xl;k）（修剪）我我对于方程（2）中的整体问题定义。分解方法从根开始（即，并将问题分成两个不相交的子问题，然后递归地继续将每个子问题分成两个子问题，直到每个子问题只包含一个袋子五岛如果N = 2 Z，那么这可以表示为一个完整的二叉树3，其中每个节点代表一个子问题。设Nl为第l层的第i个节点. 然后根节点N Z表示全问题，节点Nl在任何给定的水平l表示dis-l。返回O∈ BZ且能量k个具有最低能量值的选择。每个子问题的能量值也可以有效地计算从底部到顶部。在最低水平，每个选择的能量是来自等式（3）的一元势，i0E0（Oi，i）=η<$U（ei|v<$）（5）B0=vi相同大小的联合子问题，以及叶节点，Ni，i β i在树的0级，每个都代表一个子问题，一个阳性袋树中的每一级都维护一组部分解注意，选择O i，i=（e i）仅由一个图像组成。从叶子开始，可以计算所有节点的能量递归地。设O∈Xl由两个选择连接而成解决根本问题计算从最低层（叶节点）开始，其中每个部分解只是以下之一：建议O我l∈Bl−1且Or∈Bl−1。能量函数包里的所有图像的图像。在下一级，每个节点组合来自其子节点的部分解，并修剪结果集，以形成其自己的子问题的新的部分解集，这反过来又被用作树中下一级节点的输入，依此类推，直到我们到达根节点，这是优化的输出接下来描述用于组合来自两个子节点的部分解的联接过程加入：在级别l的节点i接收作为输入的解决方案propos-El（O）可以分解为El（O）=El−1（Ol）+El−1（Or）+P（Ol，Or）（6）其中P（·，·）是连接两个子问题的边上的所有成对势的和，并且是动态计算的。算法1总结了该方法。修剪方法中k的好值取决于任务的模糊性。可以构造一个对抗性示例，该示例需要根节点处的所有可能的提议来找到最优方案。从它的子节点Nl−1和Nl−1计算Bl − 1和Bl − 1。溶液然而，在实践中，我们发现k不2i−1 2i2i−1 2i连接操作简单地将第一集合中的每个可能的选择与第二集合中的每个可能的选择连接起来，并为子问题形成一组选择建议XlXl={[O l，O r] |O l∈ Bl−1，O r∈ Bl−1}其中[·，·]连接两个选择序列。我们用笛卡尔积表示法来表示连接操作需要很大才能获得良好的性能。重要的是，与其它方法不同，该算法不必计算所有的成对势。例如，如果一个对象类只出现在一个小的子问题中，该类的图像将被子问题大小足够大的节点删除。因此，在树的下一级中，不再需要这些图像和其他图像之间的成对势。通常，计算的成对势的数量取决于k的值和也就是说，Xl=Bl−1×Bl−1。数据集。我们观察到只有一小部分i2i−1 2i修剪：由于将来自两个节点导致局部解的数量呈二次增长，潜在解的数量随着我们沿树的上升而呈指数增长此外，并非所有生成的部分解决方案都包含公共对象。因此，我们使用修剪算法B1=prune（X1; k），其挑选这不失一般性，因为如果正袋的数量不是2的幂，则可以使用零填充。在我们的实验中需要两两电势。5. 实验我们评估所提出的算法在几个镜头常见的对象识别和共同定位任务。对于每个任务，我们首先预训练CNN特征提取器模块，以对训练数据集中的可见类别进行分类然后，我们使用学习的CNN来计算一个5122AstarTRWS贪婪N=8，B<$=0N=8，B=10N=8，B=20N=16，B<$=0N=16，B<$=10N=16每个图像的特征描述符。这确保了考虑中的所有方法的一致的图像表示。对于学习成对和一元势，具有渐进学习率衰减时间表的随机梯度下降采用了完整的框架（使用网格搜索找到等式（2）中的η的最优值。在所有实验中，在贪婪算法中保持最多k=所有的实验都是在一个单一的Nvidia GTX 2080GPU和4GHz AMD锐龙Threadripper 1920X CPU与12核4.5.1. 基线方法我们将贪婪优化算法与用于对象共分割[48]的AS-tar [4]和用于MIL问题推理的更快TRWS [26]进行比较[12，11]。我们使用这些算法的高效并行实现[1]。将所提出的方法与下面描述的基于SVM和基于注意力的MIL基于SVM的MIL我们报告了三种众所周知的方法的结果：MI-SVM [22]，mi-SVM [2]和sb-0的情况。120的情况。090的情况。060的情况。030的情况。000的情况。30405图2.平均运行时间与对N∈{8，16}，B<$∈{0，10，20}和B= 10的miniIm ageNet上的不同推理算法的准确性进行了比较. 每一个设定都以不同的颜色显示是目标，其余的被认为是非目标类。然后，通过从目标类中随机抽取一个图像以及从目标类和非目标类中随机抽取B-1个图像来构建每个阳性袋。阴性袋是从非目标类中抽取Bé个样本制成的。F或输出选择O，我们测量成功率，它等于e∈O中属于目标类的百分比。我们计算成功率的期望值，1000个随机抽样的问题，并报告平均值和评价指标的95%置信区间。我们可以根据袋子的数量和大小来调整.我们选择阳性袋的数量N∈ {4， 8， 16}，每个阳性袋的大小B∈ {5， 10}，以及阴性袋MIL [6]使用公开的源代码[13]。那个...BagB<$∈ {10，20}。要采样的类数MIL方法是专门为处理稀疏位置而设计的有趣的袋子。选择径向基函数核和线性核，因为它们分别在小镜头共同目标识别和共定位方面效果更好执行网格搜索以选择超参数。基于深度MIL的注意力。与基于SVM的方法一起，最近基于注意力的深度学习 MIL 方法 [24]（ATNMIL）的结果在我们的基准测试中呈现。在训练模型后，我们从每个正袋中选择具有最大注意力权重的图像提案5.2. 少镜头常见目标识别在这个任务中，我们使用了迷你ImageNet数据集[49]。迷你ImageNet的优点是，我们可以比较许多不同的设计选择，而不需要大规模的训练和性能评估。该数据集包含来自100个类的60，000幅大小为84×84的图像。我们对这个任务的标准划分进行了实验，分别为64，16和20个类进行训练，验证和测试[36]。对于CNN特征提取器模块，深度为28和宽度因子为10的宽残差网络（WRN）[51]在训练分割上进行预训练。预训练网络的全局平均池化层的d=640维输出被提供作为所有方法的输入。为了构造包，我们首先从所有可能的类C中随机选择M个类。其中一个被选中，4代码在这里公开。在每一个情节中，任务的难度都会改变。我们当B=5时，在5到15之间随机选择M;当B=10时，在10到20之间随机选择M。表1中的结果表明，我们的方法优于基于AT-NMIL和SVM的方法的所有版本的问题。为了测试学习一元势和成对势的重要性，我们构建了一个基线，该基线使用余弦相似性来计算对5之间的关系，同时保持算法的其余部分相同。我们的方法和基线之间的性能差距表明，关系学习方法，除了结构化推理公式，在提高性能的重要作用。不同设置下不同能量最小化方法的平均总（势计算和推理）运行时间与准确度图如图2所示。即使在这种小规模的问题，贪婪优化的平均速度更快，而其精度与其他推理方法相当。有关完整的数值结果，请参见补充材料。5.3. 共定位我们对协同定位问题进行评估，以说明本文中讨论的方法在现实世界和大规模数据集上的好处。在这个任务中，我们在COCO 2017 [28]数据集的一个分裂上训练al-tax m，其中有63个可见的类，并对剩余的17个不可见的类进行评估5我们也使用了负的欧几里德距离度量的关系，但它表现出较差的性能。总时间（s）5123方法No Unary MEAN最大值64.第64章大结局48 ± 1。47七十23 ± 1。00七十一76 ±0。九九七十二。49±0。98方法CocoImageNetMI-SVM [22]六十岁。74±1。07四十九44±1。10ATNMIL [24]六十岁。00±1。07四十九35±1。10我们六十五34±1。0455. 18 ±1。09TRWS [26]六十五04±1。05五十四20±1。09AStar [4]六十四99±1。05五十四23±1。09仅一元五十九24±1。0850块29 ±1。10仅TRWS成对六十四53±1。0552岁95 ±1。09仅AStar成对六十四54±1。0552岁89 ±1。09仅限我们的配对六十四65±1。05五十三00±1。10表1. miniImageNet上不同阳性袋N和阴性图像总数B<$的成功率。表的第一和第二部分分别显示了5号和10号的结果。表2. COCO和ImageNet上的CorLoc（%），8张阳性图像和8张阴性图像。结果数据集分别包含训练集和测试集中的111，085和8，245张为了评估训练算法在更大的一组不可见类上的性能，我们还对ILSVRC 2013检测的验证集进行了测试[38]。该数据集最初有200个类，但只有148个类与用于训练的类不重叠。最终的数据集，在去除了coco-seen类之后，包含了来自148个un-seen类的12544张图片.数据集创建方法在补充材料中有更详细的说明。对于CNN特征提取器模块，我们在COCO训练数据集上使用ResNet-50 [20]骨干预训练Faster-RCNN检测器[18]，该数据集只看到类。对于每个图像，保持具有最高对象性分数的区域提议。第二阶段特征提取器的输出用于所有方法中。对于这个任务，每个包是通过从一个图像中提取顶部B=300个区域提案来构造的，并且选择O表示来自每个图像的一个边界框。为了选择每个问题的图像，我们首先随机选择一个类作为目标。然后，具有来自目标类的至少一个对象的N个图像被采样为正袋。底片袋由不包含目标类的图像组成。采用小镜头共同目标检测的成功率指标来评价不同算法的性能。如果IoU重叠大于0，则区域提案被视为成功。5、真实目标边界框。请注意，对于协同定位任务，该度量相当于广泛用于定位问题评估的类不可知CorLoc [10]度量[46，42，5，9]。表2显示了COCO和ImageNet数据集上的定量结果，其中包含8张阳性图像和8张阴性图像6。我们的方法比其他强大的MIL基线工作得更好。与其他基于MIL的方法相比，我们的方法的定性结果如图3所示。我们的方法选择正确的对象，即使目标对象是不突出的。补充材料中介绍了更多的定性结果。6我们跳过了sbMIL和mi-SVM的结果，因为它们显示了与MI-SVM相似或较差的结果。为了分别看到一元势和成对势的效果，我们提供了基于结构化推理的方法的两个新变体的结果：（一）仅限：其中，仅使用否定包中的信息来选择每个包中的共同对象建议，而不查看其他包中的元素，以及（ii）仅成对：其中在每个问题中忽略负袋信息。结果表明，两两势对最终结果的贡献较大。这并不奇怪，因为负图像只在包含一个也出现在正图像中的对象时才有帮助，有趣的是，通过单独使用学习的一元势，我们可以得到与MIL基线相当的结果。表2中的结果表明，不同的推理算法具有非常相似的性能。然而，如图4所示，贪婪优化算法要快得多。请注意，我们的方法平均只需要计算所有成对势的15%。有人可能会说，这些对可以在多个GPU上并行转发，这可以减少转发时间。然而，我们的贪婪推理方法也可以利用多个GPU，因为每个级别的节点都是数据独立的。表3.N=8，B=5，B<$=10的微型实验中不同一元势函数的比较方法准确度（%）AdaResNet [31]五十六88±0。62蜗牛[30]55. 71 ±0。99Gidaris等人[17个]55. 45 ±0。89TADAM [32]五十八50±0。30Qiao等人[34个]五十九60±0。41我们的ReLU五十六43±0。79我们的门控五十七80±0。77表4. miniImageNet测试集上的5向，1次，分类精度为95%置信区间。5.4. 消融研究为了评估我们提出的一元势函数的有效性，我们设计了以下实验。在具有N=8个可识别袋子、B=10个可识别图像且B=5的少数拍摄常见对象识别任务中，NB¯我们的基线MI-SVM [22]SbMIL [6]支持向量机[2]ATNMIL [24]我们的基线MI-SVM [22]SbMIL [6]支持向量机[2]ATNMIL [24]48161063岁83±1。49六十岁。88±1。51五十六25±1。54五十四55±1。54五十四23±1。5450块35 ±1。55三十七42±1。50三十五73±1。4929岁53 ±1。4131岁55 ±1。4431岁55 ±1。44二十六岁58±1。3720六十五48±1。4763岁83 ±1。49五十九03±1。52五十九93±1。52五十九43±1。52六十岁。33±1。52三十八岁。50 ±1。51四十40 ±1。52三十五05±1。4831岁50 ±1。44三十五33±1。48三十三岁。10 ±1。4610七十二49±0。98六十四46±1。0562. 75 ±1。06五十八25±1。08六十岁。43±1。07五十六05±1。09四十二85±1。08三十八岁。01 ±1。06三十五25±1。05三十四10±1。04三十四10±1。0428岁48 ±0。9920七十三。99± 0。9668岁08 ±1。0263岁76 ±1。05六十四68±1。0566岁。08±1。0463岁29 ±1。06四十七63±1。09四十三95±1。0939岁94 ±1。0739岁86 ±1。0739岁86 ±1。07三十五11±1。051078岁60±0。6466岁。78±0。7367岁91 ±0。7261岁35 ±0。75六十四49±0。74五十八97±0。7651岁70 ±0。7741岁08 ±0.7641岁21 ±0。7628岁80 ±0。7039岁48 ±0。7631岁56 ±0。722079岁。93±0。62七十39 ±0。77七十三。33±0。69六十五55±0。7469岁。69±0。7167岁26 ±0。73五十三63±0。77四十七83±0。77四十六岁。63 ±0。77四十三63±0。77四十五16±0。77三十八岁。14 ±0。75袋尺寸= 10袋尺寸= 55124图3. COCO数据集上的定性结果。每一行显示一个抽样收集的阳性袋。阴性袋未显示。注意，前两行中的第一个图像是相同的，但目标对象是不同的。最后一行显示了我们算法的失败案例当杯子是目标对象时，我们的方法在第二幅图像中找到植物。这可能是由于花盆（与杯子具有视觉相似性）和植物在训练数据集中被标记为一个类。请注意，“dog”、“cake”和“cup”是来自未见过类的样本。所选区域使用方法名称进行标记地面实况目标边界框显示为绿色，带有标记3 .第三章。00二、251 .一、500的情况。750的情况。00贪婪的TRWSAstar在每一集，我们使用学习的关系函数来对查询图像与迷你训练集中的所有图像之间的相似性进行查询图像的预测标签只是迷你训练集中与查询图像具有最高相关值的图像的标签我们计算我们的两两预测的准确性图4. 前向和推理时间（秒）在COCO。我们用四种不同的设置来训练一元势(1)MAX：一元势函数，学习了第4节中描述的ν，（2）MAX：ν→+∞，（3）MEAN：v= 0，以及（4）无一元：该模型不使用负袋信息。在所有的方法中，成对势函数我们的方法在所述设置下的性能如表3所示。实验结果表明，学习加权相似度策略优于其他策略.接下来，我们通过将它们用于miniImageNet上的一次性图像识别任务来评估学习的成对关系r（e，e′）的质量[49]，并将其与其他最先进的方法进行比较。在一次5路问题的每个情节中，从可能的类的集合中随机选择5个该迷你训练集用于预测从5个类之一采样的新查询图像的性能是在许多采样片段上平均预测正确标签的方法的准确性。所有这些模型都是用一个变体训练的深度残差网络[51，20]。注意，与其他方法不同，[34]中的模型是在验证+训练元集上训练的在miniImageNet的测试类上的潜在能力，并将其与表4中的当前最先进的几次方法进行比较。我们还提供了门控激活函数和我们架构中简化的ReLU激活的比较。尽管我们的方法没有直接针对一次性学习任务进行训练，但它与专门针对该任务进行训练的先前方法相比，取得了有竞争力的结果此外，结果显示了使用门控激活优于ReLU的优势。6. 结论我们介绍了一种方法，用于学习找到一个共同的对象类别的图像在几袋的图像，这是通过学习一元和成对项在结构化的输出预测框架。此外，我们提出了一个推理算法，使用的问题的结构来解决手头的任务，而不需要计算的所有成对项。我们的实验在两个具有挑战性的任务，在低数据制度说明了我们的知识转移方法的优势，几个MIL弱监督算法。此外，我们的推理算法执行与众所周知的结构化推理算法为这项任务，而更快。前向时间（GPU）推理时间（CPU）运行时间5125引用[1] Bjoern Andres，Thorsten Beier和Joerg H.卡佩斯OpenGM：一个用于离散图形模型的C++库.CoRR，abs/1206.0111，2012年。6[2] Stuart Andrews ， Ioannis Tsochantaridis ， andThomas Hofmann.多示例学习的支持向量机。NIPS，第577-584页，2003年。二六七[3] 鲍里斯·巴本科，杨明轩，和塞尔日·贝伦吉。在线多实例学习的视觉跟踪。见 CVPR ，第983IEEE，2009年。1[4] MartinBe r gtholdt，Jo？r g Kappes，Ste f an Sch midt，and Christoph Schn o？ r. 以完全图为基础之物件类别侦测之研究。IJCV，87（1-2）：93，2010年。四、六、七[5] Hakan Bilen、Marco Pedersoli和Tinne Tuytelaars。基于凸聚类的弱监督目标检测。在CVPR，第1081-1089页，2015年。7[6] 拉兹万角Bunescu和Raymond J.穆尼稀疏正包的多实例学习. ICML ，第105-112页，2007年。六、七[7] Marc-Andre 'Carbonneau ，Veronika Cheplygina ，Eric Granger和Ghyslain Gagnon。多实例学习：问题特征和应用的调查。Pattern Recognition，77：3292[8] Kai Chen，Hang Song，Chen Change Loy，andDahua Lin.从纪录片中发现和学习新的对象。在CVPR，2017年。2[9] Ramazan Gokberk Cinbis ， Jakob Verbeek ， andCordelia Schmid.弱监督对象局部化与多重多示例学习。TPAMI，39（1）：189-203，2017。7[10] 托马斯·德斯勒，波格丹·阿列克谢，还有维托里奥·费拉里.在学习物体外观的同时定位物体。见ECCV，第452施普林格，2010年。7[11] 托马斯·德斯勒，波格丹·阿列克谢，还有维托里奥 · 费拉里 . 弱监督定位和通用知识学习。IJCV，100（3）：275-293，2012. 二、六[12] 托马斯·德塞拉和维托里奥·法拉利。一个用于多实例学习的条件随机场。ICML ，第287-294页，2010年二、六[13] Gary Doran和Soumya Ray支持向量机多实例分类方法的理论和实证分析机器学习，第79-102页，2014年。二、六[14] Alon Faktor和Michal Irani。按成分共分段。在ICCV，第1297一、二[15] Chelsea Finn，Pieter Abbeel，Sergey Levine.模型不可知元学习，用于快速适应深度网络。ICML，2017。一、二[16] Huazhu Fu，Dong Xu，Bao Zhang，and StephenLin. 基于对象的多前景视频联合分割。在CVPR，第31661[17] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态的小镜头视觉学

下载后可阅读完整内容，剩余1页未读，立即下载