没有合适的资源?快使用搜索试试~ 我知道了~
姿态不变嵌入:一个新的多视图方法的提出与应用
12377PIE:姿势不变嵌入加利福尼亚大学圣地亚哥分校{chh279,pmaravil,aperseki,nvasconcelos}@ ucsd.edu摘要研究了姿态不变性在图像识别和检索中的作用。一个分类学分类的嵌入,丁,根据其水平的不变性,介绍和用于澄清现有的嵌入丁之间的连接,确定丢失的方法,并提出不变的概括。 这导致了一个新的姿态不变嵌入(PIE)家族,通过两个模型的组合从现有方法中导出,其遵循CNN作为类后验概率估计的解释:视图到对象模型和对象到类模型。新的姿态不变模型具有有趣的,ING属性,无论是理论上还是通过实验,它们优于现有的多视图方法。最值得注意的是,它们在1)分类和检索,以及2)单视图和多视图推理方面都取得了良好的性能这些是设计真实视觉系统的重要属性,其中通用嵌入优于任务特定嵌入,并且多个图像通常在推理时不可最后,一个新的多视图数据集的真实物体,在野外对复杂的背景成像,介绍。我们相信这是对广泛使用的合成数据集的一个非常必要的补充,并将有助于多视图识别和检索的进步1. 介绍卷积神经网络(CNN)经常用于分类和度量学习等任务。分类是重要的计算机视觉应用的中心问题,例如物体和动作识别或检测。度量学习在图像检索、人脸识别和身份识别或零镜头学习中扮演着类似的角色。尽管有许多不同的应用,但这两项任务密切相关,因为它们都是学习嵌入g:X → G,将图像x∈ X映射到特征g(x)∈G,并使用几个CNN层实现。分类的目的是产生一个判别特征空间F,它将不同的类分开,而度量图1.根据不同的不变性水平,采用不同的方法学习嵌入的分类。绿色实心框表示文献中的方法,黄色虚线框表示本工作中提出的方法。所提出的姿势不变嵌入结合了单视图和多视图不变性,并且可以应用于不同的方法,包括CNN,代理NCA和三重中心。虽然CNN是为分类而设计的,但其他两个目标是度量学习(检索任务)。学习的目的是产生具有特定度量结构的特征空间F,其中相似性可以通过某种距离函数(通常是欧几里德距离)来捕获如图1的最下面一行所示,分类和度量学习已经同步发展 而g(. )可能偏向于其中一个或另一个,但对这两个问题的研究主要在随后的网络层和损失函数上有所不同。分类器用一个用逻辑损失训练的softmax层来补充嵌入g。经典的度量学习不使用广告层和不同的损失。虽然已经提出了几种变体[5,10,21,15],但最受欢迎的是三重损失[27,26,1,19]。然而,在实践中,差异可能是显著的。由于三元组将数据集的大小提高到立方体,因此度量学习网络比分类器更难训练为了解决这个问题,许多嵌入式文献都致力于三重采样策略[26,1,19,17,21],旨在提高训练速度。然而最近,[15]已经表明,通过使用代理嵌入可以更快地进行训练,这使得度量学习更像分类。受称为邻域成分分析(NCA)[9]的度量学习方法的启发,它添加了一个类似于软12378最大分类器的嵌入,并使用逻辑损失的训练。在[11]中已经提出了三重嵌入的类似推广,并表示为三重中心嵌入。理想情况下,嵌入应该将从多个视图、深度或不同照明下收集的对象的所有图像映射到单个点,称为这些变换的对象不变量。然而,这在ImageNet等数据集上很难实现,ImageNet倾向于强调类别多样性并最大化每个类别成像的对象数量。它们不提供对象可能经历的变换(从不同的相机位置、可变照明等成像)的密集覆盖。最近,随着ModelNet [29]或ShapeNet [4]等数据集的引入,这个问题受到了更多的关注。作为从3D CAD模型渲染的合成图像的数据集,这些允许生成每个对象的标记为视角的许多视图,也称为对象姿态。这些多视图合成数据集的引入激发了多视图分类和检索算法的新浪潮[22,12,6],如图1的中间行所示。这些方法已被证明与基于3D表示的许多方法(如体素[29,14,3,28]或点云[7,31,30])相比具有竞争力,如果不是更好的话这一点很重要,因为基于视图的表示可以很容易地部署在现实世界中,其中3D表示要昂贵得多,如果不是完全不可能的话。基于视图的 分 类 最 流 行 的 架 构 是 多 视 图 CNN ( MV-CNN )[22],它补充了标准CNN嵌入与视图池机制,产生形状描述符。然后将形状类似地,[11]引入了多视图度量学习的三重中心损失。这是NCA风格度量学习的三重损失和中心损失到多视图级别的概括。虽然这些方法已被证明是有效的多视图分类和检索,这可以很容易地在CAD世界(例如ModelNet和ShapeNet),他们的真实视觉系统的有用性更值得怀疑,有两个原因。首先,不知道它们在真实图像上工作得有多好,这是由于在野外没有真实图像的数据集,覆盖了姿态虽然存在一些密集的姿势数据集[2,12,8,16],但它们很小,并且倾向于描绘转盘上的对象,没有复杂的背景。其次,更重要的是,这些方法并没有真正学习姿态不变嵌入。虽然形状描述符是对象的所有视图的摘要,但单个图像的嵌入不限于类似于该描述符。因此,这些方法往往不能很好地执行单视图识别或检索,在那里它们经常具有较弱的性能。比标准CNN更快。这是重要的,因为多视图设置是不现实的,为大多数现实世界的appli-阳离子。虽然多视图训练对于使学习算法能够在各种变换下捕获对象可变性是有意义的,但应用程序经常将干扰约束到单个视图。为了支持后者,多视图训练必须产生真正的姿势不变嵌入。在这项工作中,我们通过结合贡献来解决这些限制首先,我们对文献中的各种方法进行了回顾,将各种方法置于平等的基础上,并更好地了解它们的相对优势和劣势。这导致了图1,图1按不变级别对嵌入进行了分组现有方法用绿框标明。 很明显,没有真正的姿势不变嵌入是可用的。虽然基于视图的嵌入具有很小的不变性,但多视图嵌入产生表示多个视图的形状描述符,但不将单个视图映射到该描述符。其次,我们提出了一些新的方法,如图1中的黄色框所示。其中一些只是填补了现有方法填充的层中的漏洞。例如,MV-代理是用于多视图级别的[15]的简单变体,并且三元组中心是用于单视图级别的[11]的变体。姿势不变级别(顶行)中的其他黄色框基于新的损失函数,该损失函数鼓励在形状描述符的邻域中聚类单个图像的嵌入。这使得形状描述符真正不变,并使单视图检索和识别任务的性能更好。最后,我们介绍了一个新的多视图数据集的对象识别在野外。该数据集由属于ImageNet的对象组成,并且在所有方面都类似于ImageNet图像。然而,每个对象在一组预定义的姿态下成像,所述姿态被提供为附加标签。与ShapeNet和ModelNet类似,这使得能够学习姿势不变表示。然而,由于图像是真实的,新的数据集可以在更现实的环境中测试不变性。实验结果表明,该方法对不同数目的视图具有更好的鲁棒性。2. 相关工作许多工作已经解决了分类和检索的嵌入。我们在这一节中回顾了文献,强调了与这项工作直接相关的想法分类:给定从随机变量X∈Rm和Y∈ {1,. . .,C}的最小错误概率的分类器是y=argmaxyPY|X(y|X)。CNN是后验模型,12379yKk=1i=1i=1i=1概率ewTg(x)+by最近,[15]已经表明,这个问题可以通过使用受邻域成分分析(NCA)[9]启发的损失函数来解决。这包括定义代理PY|X(y|x)=hy(x;W,b)=Ck=1ewTg(x)+bk(一)每个类py,添加一个类似softmax的层由两个阶段组成第一个是嵌入g(x)∈ F <$Rd,由网络的最后一层实现,其中g是d维特征提取器。乌苏-sy(x; P)=0e−d(g(x),py)−d(g(x),pk),(5)k/=yg由卷积、池化和ReLU非线性的组合组成。 第二个是softmax层,位于网络的顶部,并使用一层权重W ∈ Rd×C和偏差b ∈ RC计算(1)。 为了最小化符号混乱,我们将省略下面的一些表达这遵循了将其吸收在W中并使用均匀颜色的常见做法其中P是代理p k的矩阵,通过最小化逻辑损失L(x,y)= − log sy(x; P)的风险来学习P和g(x)。我们将这种方法称为代理嵌入。多视图分类:在多视图分类中,每个观察由一组V个视图X={xk}V组成,并且从多视图数据集Dm={xk}Vdinates CNN通过交叉熵最小化进行训练。{(xi,yi)}n={(xi1,. . . ,xiV,yi)}n. 目标是给定数据集D={(xi,yi)}n这包括发现对所有这些视图进行联合一种流行的方法是W和g的参数使风险最小化ΣR(D)=L(xi,yi),(2)我逻辑损失L(x,y)=−loghy(x; W)。度量学习:度量学习旨在赋予多视图CNN(MV-CNN)[22],它实现了两个嵌入每个单独的图像xk(其中xk在第k个预定义视点处成像)由共享特征提取器g处理,并且所有得到的视图描述符g(xk)然后被平均以产生形状描述符1伏空间F与度量,通常是欧几里得距离d(g(x),g(y))= ||g(x)− g(y)||第二条、第三条gm(X)=Vk=1g(xk),(6)以便允许像分类这样的操作的几何实现,例如,使用最近的邻居。虽然已经提出了许多损失[5,10,21],但这通常是通过对示例三元组进行操作的损失函数来完成的,将相似(不相似)的示例拉在一起(推开)[27,26,1,19]。给定一个锚点x,一个相似的x+和一个不相似的例子x-,三重态损失定义为:其中下标m表示多视图。嵌入参数是通过使用具有softmax层(1)的gm、(2)的风险和logis从多视图数据集Dm抽搐损失。已经提出了这种方法的几种变体,要么对嵌入g[25,18]进行特定的架构增强,要么使用(6)[6]的加权版本。类似的增强是可能的,在这项工作中讨论的所有方法。L(x,x+),x− )=φ.d(g(x),g(x−Σ))−d(g(x),g(x+)),多视图度量学习:工作量大大减少,(四)其中φ(. )是保证金损失,例如:铰链损失φ(v)=max(0,m-v)或逻辑损失φ(v)=10 g(1+e-v)。一般来说,相似和不相似的示例通过以下方式确定:一直致力于多视图度量学习。 [11]组合MV-CNN嵌入与[15]的基于代理的想法它们将代理表示为中心,并定义多视图三重中心损耗D. 我们把这些方法称为三重法嵌入L(X,y,P)=φ.Σmind(gm(X),pj)−d(gm(X),py)jy现代CNN通过随机梯度下降来学习(七)(SGD),以相对较小的批量处理数据大小,例如b=32。在一个大小为n的数据集上,有O(n)个例子和O(n3)个三元组。同样,一个批处理中有O(b)个例子和O(b3)个三元组.因此,虽然覆盖数据集所需的批数为O(n/b),但对于三元组来说,它变成了O((n/b)3)[15]。由于n/b是以数万e12380为单位的,因此三元组学习比基于示例的学习要复杂得多。虽然已经提出了许多采样策略来解决这个问题[19,26,17,23],但度量学习方法比分类方法更难使用,收敛速度更慢。其中P是中心pj和gm的矩阵,如(6)中所定义。我们将这种方法称为多视图三重中心(MV-TC)嵌入。3. 将对象不变量带入现实世界在本节中,我们讨论了上述评论的一些贡献3.1. 新的基于视图的多视图嵌入图1提供了一个用于分类和度量学习的嵌入式功能组织。底部的两12381Ma) 基于视图的b)多视图c)不变量图2.图1的三个不变性水平上的方法产生的嵌入。在所有图中,有三个类,每个类两个对象,每个点代表一个图像的嵌入。相同颜色的点对应于同一对象的不同视图。在b) 以及c),a′+′用于表示形状描述符,虚线圆用于表示关联对象的视图分布只c)的不变嵌入保证了每个类的形状描述符和每个对象的各个视图的良好聚类各行概述了文献的状况,绿框标明了已提出的方法。他们根据嵌入单个视图还是多个视图对这些方法进行分组。一个直接的贡献是,有一些“失踪”的方法(例如,多视图代理和单视图三元组中心)。我们建议填补空白,引入几个新的嵌入,它们是现有嵌入的扩展:三元组中心嵌入是多视图三元组中心嵌入的基于视图的等价物[11],用单视图替换多视图三元组中心丢失(7a),不能保证这些嵌入将聚类来自同一对象的视图。在将视图聚类到类中时,它们可以自由地插入同一类中另一方面,多视图嵌入(6)仅约束形状描述符,即,单个视图嵌入的平均值。如图2b)所示,其中形状描述符由"+“表示,这足以产生良好的形状描述符聚类 。 然 而 , 它 不 能 保 证 一 个 很 好 的 集 群 的 所 有individual视图从一个对象。请注意,形状描述符都被正确分类,但对于L(x,y,P)=φ.Σmind(g(x),pj)−d(g(x),py)j/=y、(8)个人观点,可以跨越阶级界限。这由虚线圆圈示出,其标识每个对象的图像的分布。由于这个问题,多视图方法往往不如单视图方法而MV-代理则是将单视图代理嵌入-Ding(5)到多视图e−d(gm(x),py)S(X;P)=1,(9)a)的视图嵌入,用于单视图分类和检索[12,6]。为了解决这些问题,一种新的方法--床上用品是需要的。图2c)显示了所需yk/=y e−d(gm(x),pk)一个真正的不变的嵌入,这应该是两个sin,其中上标m表示多视图。3.2. 对不变嵌入的需求图1的第二个贡献,实际上也是更重要的贡献,是表明没有注意真正不变嵌入的设计。这对于许多现实世界的系统是重要的,在这些系统中,人们希望利用多视图数据进行训练,但在单个视图上执行分类一般来说,期望一个对象的多个视图在角视图不变量和多视图不变量。我们将这种新的嵌入形式称为姿态不变嵌入(PIE)。PIE保证两个属性:1)对象的单视图嵌入(图像描述符)围绕多视图嵌入(形状描述符)聚集,以及2)多视图嵌入围绕其标记类的描述符聚集。为了保证这两个属性,我们回到概率公式,并引入一个中间对象变量O,导致Σ分类或检索时间。 我们把这个问题称为姿态不变分类和检索。图2显示了现有方法解决这一问题的局限性。基于视图的嵌入不利用多个对象PY|X(y|x)为=PY|O,X(y|n,x)PO|X(n|x)nΣPY|O(y|n)PO|X(n|(十)n视图,平等对待同一类中所有对象的所有视图。结果,如图2在这里,我们使用了这样一个事实,即一旦对象是已知的,类就独立于视图。它提供了一个decom-++++++++++++12382yy后验概率在对象到类PY中的位置|O(y|n)和一个vie w-to-objectPO|X(n|x)模型。可以利用这种接下来,我们将讨论如何针对图1中的各种方法实现这一点。3.3. 姿态不变代理嵌入我们首先用(10)的条件概率扩展(5)的代理嵌入[15]然后我们注意到,如果形状描述符是通过对与同一对象(6)相关联的图像描述符进行平均而产生的,则由(9因此,对象到类模型可以与多视图代理嵌入相同(9)即不变距离是单视图代理的距离虽然α项鼓励围绕对象(形状描述符)聚集各个视图,但β项鼓励将对象聚集到对象类中。因此,PI代理嵌入提供了图2b)和c)的行为之间的一系列解决方案。3.5. 生成姿态不变嵌入上述过程可以推广到图1中使用代理的所有方法。也是如此对于分类器,其中(1)的权重wy用于产生姿态不变模型的过程如下。1. 使用多视图模型作为对象到类模型PY |O(y|n)= sm(Xn; P).(十一)PY|O(y|n)。2. 使用基于视图的模型作为视图到对象模型视图到对象模型应该类似于单个视图代理(5),但使用一组对象代理。为了鼓励图2c)的聚类,我们建议采用由(6)产生的这导致了模型e−d(g(x),gm(Xn))PO|X(n|X)。3. 替换P O的代理|X(n|x)通过(6)的形状描述符。使用对象O的形状描述符作为此对象的代理。4. 使用所述条件概率(10)将所述两个模型组合成姿态不变模型。PO|X(n|x)=Σj/=n e−d(g(x),gm(Xj)).(十二)将该过程应用于(1)的CNN导致姿势不变CNN(PI-CNN)Pose Invariant Proxy(PI-Proxy)嵌入,然后可以去通过将两个模型与条件概率相结合,invΣned inv(x, Xn, py)能力(10)然后使用[15]中的近似概率,我们有hy (x,y; W)=n,jedinv(x,Xn,pj),(16)Σsinv(x,P)=ne−dinv(x,Xn,py)e−dinv(x,Xn,pi)、(十三)其中dinv(x,Xn,py)如(14)中所定义 当(α,β)=(0,1)时,这与MV-CNN相同。对于较大的α,分类器还区分同一区域中的对象哪里i y,n类,将每个视图分配给相应的对象描述器。仅将视图指定给对象。将该过程应用于三重中心方法,dinv(x,Xn,py)=αd(g(x),gm(Xn))+βd(gm(Xn),py)(十四)表示为姿态不变距离。α、β是能够控制距离的两个分量的贡献的注意,特征提取器g与MV-CNN中的完全相同,即在网络中没有附加参数并且没有变化。3.4. 姿态不变距离的性质导致姿态不变三重中心(PI-TC)嵌入。这结合了(7)的多视图三元组中心距离和(8)的三元组中心损失,使用形状描述符作为中心,得到损失函数L(x,y, P)==φ(α(mind(x, Xk)−d(x,Xn))k/=n+β(mind(Xn,pi)−d(Xn,py)(17)I y(14)的姿态不变距离具有若干性质感兴趣首先,设置α=0和β=1会导致MV代理嵌入的距离(9),这会导致图2b)。其次,对于α=β=1,它变成图2c),并从三角不等式得出:dinv(x,Xn,py)=d(g(x),gm(Xn))+d(gm(Xn),py)12383≥d(g(x),py),(15)3.6. 学习与推理(13)、(16)和(17)的模型都是视图和多视图嵌入g和gm的函数。然而,由于视图特征提取器g由所有视图共享,并且gm是由(6)给出的视图特征的平均值,所以参数的总数等于单个CNN的参数的总数。在这方面,图1的所有不变嵌入都具有相同12384emV′将该数据集称为对象姿态不变性(ObjectPI)1数据集。图3. ObjectPI的8个视点的示例,用于2个对象。复杂性训练归结为学习CNN的参数,使用(13),(16)和风险R(2)中的逻辑损失或(17这是一个标准的反向传播学习问题。对于推理,几种模式是可能的。 在多视图模式下,只有模型PY|O(y|X)使用。这等价于在第二种情况下使用multiew方法图1的行,即MV-CNN、MV-代理(9)和MV-三元组中心(7)。然而,这些模型仍然可以从不变训练中 受 益 。 对 于 姿 态 不 变 识 别 和 分 类 , 模 型 是(13)、(16)和(17)的模型在单个视图x在推断时间可用的情况下,即,on=gm(Xn)不可用,所有表达式都可以简化。 例如,PI-CNN简化为−d(x, py)5. 实验在本节中,我们报告了图1中的方法在5个不同任务上的实验评估,涵盖了不同不变性水平下的分类和检索5.1. 实验装置所有实验都基于三个数据集。ModelNet40是一个3DCAD数据集,包含40个对象类和3183个对象。 我们使用[22,11]的训练和测试分割,其中有80个训练对象和20个测试对象。对于每个对象,均匀地渲染12个视图(视点间隔30度),与[22]和[12]的情况(i)相同。请注意,所有报告的结果都是例如准确性。MIRO[12]是真实世界对象的数据集。每个物体从10个仰角和16个方位角成像,以产生160个图像。我们使用16幅0°仰角的图像。ObjectPI在第4节中描述。所有嵌入都在检索和分类上进行测试,并使用所有对象视图进行训练。单视图和多视图推理被认为是。产品类别:对于基于CNN的方法,类别由网络生成的概率确定,而对于基于代理和三元组中心(TC)的方法,使用最近邻分类器。分类准确率报告。单视图分类预测一个视图投资hy(x,y)=Σ−d(x,pj). 如果部分视图可用,J形象 多视图分类预测集合在推理时,再次使用多视图模式,但是(6)对象视图。对于CNN,这是通过平均类重新表示为g(X)=1可用视图的数量4. 姿态不变性数据集V′k=1g(xk),其中V′为所有视图的概率。对于代理和三元组中心方法,最近邻分类器将从视图集合中提取的形状描述符与从训练集合中获得的类描述符进行比较。检索:检索结果以平均值报告现有的多视图对象数据集可以分为两组班 第 一 种 包 括 合 成 数 据 集 , 如 Mod- elNet [29] 或ShapeNet [4]。这些都是大型和流行的,但只描绘计算机图形渲染的对象。第二个包括在实验室中成像的数据集,通过收集放置在转盘上的图像,因为它是旋转的[2,8,16]。这些都是比较现实的,但仍然缺乏自然背景。在这项工作中,我们引入了一个新的数据集来解决这些限制。它包括在野外收集的图像,通过将每个对象放置在场景中并用相机拍摄照片,相机在对象周围移动。图3显示了为对象收集的视图的示例。该数据集包含每个对象8个视图,来自25个类的500个这些类是从ImageNet中选择的,以便使用预先训练好的CNN。平均精度(mAP)。三个检索任务被认为是-了。单视图检索的目的是在一个查询视图的类中检索图像。对象检索的目的是检索查询视图中对象的其他视图。这些方法比较视图描述符。多视图检索通过比较形状描述符来检索与生成一组查询视图的对象属于同一类的对象实现所有实验都使用在Pytorch上实现的VGG16 [20]模型。对于MV方法,视图池- ING之前执行softmax功能。学习率为1 e-5,所有实验均使用Adam[135.2. 联合分类检索联合分类和检索表示的发展已被证明是困难的。大多数方法后者数据集被分成训练集和测试集,每个类分别包含16个和4个 我们1在这项工作中收集的所有数据将公开提供。12385任务代理MV-Proxy PI-Proxy代理MV-代理PI-代理(α=β= 1)图4.基于ObjectPI的代理嵌入的TSNE可视化每个点都是一个对象视图,对象通过颜色识别,它们的形状描述符通过表1.基于代理的Ob- jectPI方法对于PI代理,α=β= 1。专注于其中一项任务,以至于论文甚至没有给出另一项任务的结果。例如,[12]只涉及分类,而[11]主要是为了检索而设计的。少数同时报告分类和检索结果的作品使用额外的步骤来支持至少一个任务。例如,[6,22]训练一个额外的低秩Mahalanobis度量来提高检索性能。此外,只有少数方法报告的单一图像检索和分类结果的分类器训练的多视图。简单地说,基于视图的嵌入更好-0.8250.8000.7750.7500.7250.7000.6750.6500.625PI代理MV-Proxy代理1 2 3 4 5 6 7 8推理时视图分类和检索的性能较好,而多视图嵌入更适合于多视图分类和检索。到目前为止,还没有显示出单个嵌入可以在单视图和多视图的两个任务上都表现良好。可视化:为了更详细地研究这个问题,我们考虑图1中基于代理的方法,即代理、MV-Proxy和PI-Proxy。我们首先在图4中使用TSNE [24]2可视化这三种方法产生的嵌入。为了简化绘图,仅显示12个类和每个类1个对象。 对象由相同颜色的点标识,这些点对应于各个视图。(6)的形状描述符也被示为“x”。可视化中使用的类和对象是随机选择的。该图证实了图2的预测。虽然所有的方法成功地分离的形状描述符,放置的各个视图是非常不同的。对于代理和MV-代理,这些可以远离形状特征嵌入。MV-Proxy只优化形状嵌入(忽略视图的放置),产生最分散的分布。代理方法有更多的集群嵌入,但集群明显不如PI-Proxy。在这种情况下,大多数视图在形状嵌入周围聚类产生非常小重叠的对象聚类。这是使用(14)的姿态不变距离的直接结果。分类检索:表1显示PI-代理在所有检索和分类任务上实现了三种方法中的最佳性能。虽然这并不令人惊讶,但考虑到图4的聚类,根据任务的不同,差异可能相当显著注意2图1所有方法的类似TSNE可视化可以在补充材料中找到。图5.基于代理的ObjectPI嵌入的分类准确性是推理时视图数量的函数。MV-Proxy对于单视图分类特别差这可以通过较差的视图聚类来解释,并且是多视图方法的众所周知的限制[6]。Proxy在图像分类上与PI-Proxy有竞争力,但在其他任务上较差(弱2-3%)。对视图数量的鲁棒性:虽然多视图训练提高了分类准确性[22],但后者对于单视图推理[6,12]显着降低。在这种情况下,多视图CNN经常表现不佳标准的单视图分类器。这与所提出的姿势不变嵌入不同,如图5所示。PI-代理嵌入具有与用于多个视图的MV-代理的性能相当的性能,但是随着视图数量的减少,性能更优越。图4中改进的视图聚类再次证明了这一点。5.3. 与最新技术水平的比较接下来,我们在ModelNet、MIRO和ObjectPI数据集上将图1的所有嵌入与文献中的其他方法进行了比较。由于之前的大多数工作都是在ModelNet上完成的,因此我们使用该数据集的结果作为指导来选择一些最先进的模型。应该说,这并不容易,因为现有的方法在许多维度上都有所不同。这包括使用不同的骨干网络架构(例如,VGG-M而不是我们采用的更流行的VGG16),架构增强(例如,实现与平均视图描述符(6)不同的操作的视图池化层)和补充步骤(例如,在学习嵌入之后优化用于检索的距离度量)。所有这些变化都与因瓦里正交-课(应计)单个多平均值68.563.268.778.878.380.073.770.774.4对象 47.749.349.4Retr.单个 59.757.962.6多76.874.778.2精度12386表2.与VGG16上5个不同任务的3个不同数据集上的最新方法进行比较。每个任务的最佳结果用粗体标记,阴影表示基于姿态不变量的方法的结果比基于多视图的方法更好或相当方法型号N分类(准确度%)(12views)回收率(mAP%)MIRO(1)分类(准确度%)6个视图)回收率(mAP%)奥布耶茨分类(准确度%)TPI(8views)回收率(mAP%)单个多Avg.对象单个多Avg.单个多Avg.对象单个Avg.单个多Avg.对象单个多Avg.[12]第十二话80.289.084.622.620.263.935.693.210096.633.033.033.037.563.250.340.125.241.935.7[22]第二十二话71.087.979.429.641.771.547.610010010092.092.092.062.174.168.142.653.872.356.2PI-CNN85.488.086.750.877.581.870.010010010010010010066.576.571.560.758.972.163.9MV-TC[11]77.388.983.136.663.584.061.410010010099.899.899.865.779.272.451.859.577.362.9PI-TC81.288.985.141.471.584.265.710010010010010010069.377.573.261.863.876.767.4MV-Proxy79.789.684.735.066.185.162.110010010099.899.899.863.278.370.749.357.974.760.6PI代理85.188.786.940.679.985.168.610010010010010010068.780.074.449.462.678.263.4在这项工作中研究的时间问题,并可以应用于图1的任何嵌入。此外,大多数现有的方法只报告我们考虑的5个任务中的几个,有时甚至只有一个的结果。这允许对这些任务的嵌入进行详细优化。这种优化在现在提出的实验方案下是不可行的,考虑到需要比较5个任务上的许多嵌入以及识别在5个任务上表现良好的嵌入的目标我们认为,这是一种具有更大实际意义的结构,今后这方面的工作应采用这种结构。尽管如此,我们还是使用现有的结果在ModelNet上识别了两个最先进的模型:[12 ][13][14][15][16][17][18][19][1后者是我们在图1中用MV-三重态中心(MV-TC)表示的。为了公平比较,我们在我们的设置下重新训练了这些模型,并在我们现在考虑的5个任务和3个数据集上进行了例如,RN使用VGG16而不是AlexNet3重新训练。我们还展示了图1中其他现有方法的结果,即MV-CNN [22]和[15]的代理嵌入。表2总结了三个数据集上基于多视图和PIE的方法的结果。阴影单元表明PI嵌入优于其上方的MV嵌入。可以得出几个结论。首先,姿态不变嵌入(PIE)在分类和检索任务上明显比多视图嵌入(MVE)更鲁棒。在表中列出的60个结果中,PIE在46个结果上优于MVE。在某些情况下,差异是巨大的。例如,对于ModelNet上的单视图分类,PI-CNN实现了85。4%的准确率,超过MVCNN14%。第二,比较不同PIE的性能的一种可能性是计算黑体条目的数量。这些指示“胜利”的数量,即该方法有多少次具有与所有其他方法相同或更好的性能。在这个指标下,PI-代理(12胜)的表现略好,其次是PI-TC(10胜)和PI-CNN(9胜)。不过,差异并不十分显著。这表明,添加PIE可以提高鲁棒性,而不管多视图级别中使用的方法如何。第三,关于分类与检索时,这些方法的行为略有不同。3[12]提供的AlexNet模型的结果在柔软的材料中报告。虽然PI-Proxy在所有数据集上都取得了最好的分类结果,但PI-CNN在ObjectPI上的Mod- elNet和PI-TC中的检索结果最好。然而,在大多数情况下,三个PIE的结果是接近的。同样,最有意义的观察是这与文献中嵌入行为的不同之处。例如,RotationNet(RN)对于分类是有竞争力的,但是具有非常弱的检索性能。第四,关于数据集,MIRO获得了最好的结果,然后是ModelNet,Ob-jectPI对大多数嵌入提出了最大的挑战。这并不奇怪,因为MIRO和ModelNet没有背景,MIRO是一个相对较小的数据集(120个对象),而ModelNet没有对象纹理。然而,这些结果证实了需要一个更真实的数据集,如ObjectPI。6. 结论这项工作作出了几个贡献的姿态不变性的图像分类和检索任务的研究。我们首先介绍了嵌入的函数组织,以详细说明现有方法之间的关系。由于分类法是根据不同的不变性水平进行组织的,一些缺失的方法被识别出来,现有的方法被进一步推广。一个新的家庭的姿态不变的嵌入(PIE),然后来自现有的方法,通过结合视图到对象模型和对象到类模型。我们表明,建议的PIEs具有数学上有趣的属性,并具有良好的性能,1)分类和检索,2)单视图和多视图推理。PIE的通用化是重要的,因为这样的嵌入可以应用于不同的任务和环境,这是视觉应用的更现实的场景。最后,我们介绍了一个多视图数据集ObjectPI,其中包含在野外背景中捕获的真实物体的图像。我们相信,建议的数据集将补充合成数据集,并有助于多视图研究的进步。致谢这项工作的部分资金来自NSF奖项IIS-1546305和IIS-1637941、诺斯罗普·格鲁曼公司的礼物我们感谢Bran- don Leung , Erik Sandstroem , David Orozco 和Yen Chang收集数据集。12387引用[1] Sean Bell和Kavita Bala用卷积神经网络学习产品设计的视觉相似性。ACM Transactions on Graphics(TOG),34(4):98,2015.[2] A. Borji,S. Izadi和L.伊蒂ilab-20 m:用于研究深度学习的大规模受控对象数据集。在2016年IEEE计算机视觉和模式识别会议,第2221-2230页[3] 放大图片作者:James M.里奇和尼克·韦斯顿使用卷积神 经 网 络 的 生 成 和 判 别 体 素 建 模 。 CoRR ,abs/1608.04236,2016。[4] 天使X作者:Thomas A.作者:Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet:一个信息丰富的3D模型存储库。CoRR,abs/1512.03012,2015。[5] Sumit Chopra Raia Hadsell和Yann LeCun。 学习相似性度量有区别地,与应用到人脸验证。在IEEE计算机视觉和模式识别会议论文集,第1卷,第539546. IEEE,2005年。[6] Yifan Feng,Zizhao Zhang,Xibin Zhao,Rongrong Ji,and Yue Gao.Gvcnn:用于3D形状识别的组视图卷积神经在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月[7] A. Garcia-Garcia,F. Gomez-Donoso,J. 加西亚-罗德里格斯S. Orts-Escolano,M. Cazorla和J.阿佐林-洛佩兹Point-net:一个用于实时对象类别识别的3D卷积神经网络。2016年国际神经网络联合会议(IJCNN),第1578-1584页[8] Jan-Mark Geusebroek,Gertjan J Burghouts,and ArnoldWM Smeulders.对象图像的amplitude库。国际计算机视觉杂志,61(1):103[9] Jacob Goldberger,Geoffrey E Hinton,Sam T Roweis,and Ruslan R Salakhutdinov.邻域成分分析。神经信息处理系统的进展,第513-520页,2005年[10] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维。在计算机视觉和模式识别的IEEE会议论文集,第1735-1742页。IEEE,2006年。[11] 何新伟、周扬、周志超、宋白、向白。多视角三维物体检索的三重中心丢失。在IEEE计算机视觉和模式识别会议论文集,2018。[12] 金崎朝子旋转网:使用无监督视点估计的学习对象分类。CoRR,abs/1603.06208,2016。[13] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。CoRR,abs/1412.6980,2014。[14] D. Maturana和S.谢勒Voxnet:用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议(IROS),第922-928页[15] Yair Movshovitz-Attias 、Alexander Toshev 、Thomas KLe- ung、Sergey Ioffe和Saurabh Singh。没有大惊小怪的距离满足-使用代理的ric学习。Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition,2017.[16] Sameer A Nene , Shree K Nayar , and Hiroshi Murase.Columbia对象图像库(线圈-100)。[17] Hyun Oh Song , Yu Xiang , Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集,第4004-4012页[18] Charles Ruizhongtai Qi , Hao Su , Matthias Nießner ,Angela Dai,Mengyuan Yan,and Leonidas J.Guibas 用于三维数据对
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功