视点估计的卷积神经网络模型在视点估计任务中的改进

135 浏览量更新于2023-10-13 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视点估计-洞察模型Gilad Divon和Ayellet TalTechnion图1：视点估计。给定包含来自已知类别的对象的图像，我们的模型估计对象的视点（方位角）。抽象。本文讨论的问题，在一个给定的图像中的对象的视点估计。它提出了五个关键的见解和CNN它是基于他的m。这个工作的主要任务是以下几点。(i)该架构联合解决了检测、分类和视点估计。(ii)添加新类型的数据并对其进行训练。（iii）提出了一种新的损失函数，它既考虑了问题的几何形状，又考虑了新的数据类型。我们的网络可大幅提升性能：从SOTA算法的36.1%提高到45.9%。1介绍对象类别视点估计是指确定给定图像中对象的视点的任务1.一、这个问题是我们试图理解我们周围的3D世界的重要组成部分，因此是计算机视觉的长期挑战[1，2，3，4]，具有许多应用[5，6]。解决该问题的困难源于以下事实：作为来自3D的投影的单个图像不产生足够的信息来确定视点。此外，该问题遭受具有准确视点注释的图像的稀缺，这不仅是由于手动注释的高成本，而且主要是由于在估计视点时人类的不精确性。卷积神经网络最近被应用于视点估计[7，8，9]，导致PAS-CAL3D+上的最新结果的大幅改进。采取了两种主要办法。第一种是回归方法，它自然地处理视点的连续值[10，11，8]。2迪翁和塔尔这种方法设法表示视点的周期性特征，并且是可逆的。然而，如在[7]中所讨论的，用于视点估计的回归的限制在于，它不能很好地表示存在于具有对称性或近似对称性的对象的不同视点第二种方法是将视点估计视为分类问题[7，9]。在这种情况下，视点被变换到离散空间中，其中每个视点（角度）被表示为单个类（仓）。网络预测对象在这些类别中的每一个中的概率这种方法被证明优于回归，更强大，更好地处理歧义。然而，其缺点是相似的视点位于不同的仓中，因此仓顺序变得不重要。这意味着当网络出错时，小的错误（附近的视点）没有任何优势大的错误，这是应该的。我们遵循第二种方法。我们提出了五个关键见解，其中一些在前面已经讨论过：（i）不应将目标检测、目标分类和视点估计的任务分开，而应将这些任务集成到统一的框架中。(ii)由于这个问题的主要问题之一是缺乏标记的真实图像，应该开发新的方法来增强数据(iii)损失应该反映问题的几何形状。(iv)由于视点，不像对象类，是彼此相关的，整合的视点预测应该优于最强的激活的选择。(v)用于视点估计的CNN与用于对象分类/检测的CNN一样得到改进。基于这些观察，我们提出了一个网络，将最先进的结果从36提高了9.8%。1%至45。9%，基于PASCAL3D+[12]。我们触及任何学习系统的三个组成部分：架构、数据和丢失。特别是，我们的架构统一了对象检测、对象分类和视点估计，并建立在Faster R-CNN之上。此外，除了真实和合成图像外，我们还以半监督的方式使用翻转的图像和视频。这不仅增加了用于训练的数据，还让我们改进了损失。最后，我们定义了一个新的损失函数，它反映了问题的几何形状和新类型的训练数据。因此，本文有两个主要贡献。首先，它提出的见解，应该是视点估计算法的基础（第2节）。其次，它介绍了实现SOTA结果（第4节）的网络（第3节）。我们的网络基于三个额外的贡献：一个损失函数，唯一适合姿态估计，一个新的集成概念，它考虑到周围的对象，和新的方式的数据增强。2我们的见解我们开始我们的研究与简短的描述，我们对视点估计的五个见解在下一节中，我们将介绍一种基于这些见解并生成最先进结果的算法1. 而不是分离的对象检测，对象分类和视点估计的任务，这些应该集成到一个统一的网络。在[7]中，一个视点估计-洞察模型3使用现成的R-CNN [13]。给出检测结果，设计一个网络来估计视点。在[8]中，分类和视点估计联合解决，同时依赖于Deep Mask [14]/FastR-CNN [15]的边界框建议。我们提出了一个不同的架构，结合了这三个任务，并表明，共同训练网络是有益的。这一观点与其他领域的类似观察一致[16，17，18]。2. 由于视点估计的主要问题之一是缺乏标记的真实图像，因此需要新的方法来增加数据。在[7，8]中，提出了使用CAD模型的真实数据和图像，其中背景是随机合成的。我们建议添加两种新类型的训练数据，这不仅增加了数据量，而且有利于学习。首先，我们水平翻转真实图像。由于这些图像的取向是已知的，但是没有添加关于检测和分类的新信息，因此它们被用于在本发明的范围内。一个新的损失函数集中在视点估计。其次，我们使用未标记的对象的视频，虽然我们不知道确切的方向，我们知道，后续帧应该与附近的视点。该约束用于获得更好的视点预测。最后，作为微小的修改，我们选择适合对象的背景，而不是随机选择合成图像的背景，例如。海洋的背景应该被添加到船只上，而不是飞机上。3. 损失应该反映问题的几何形状，因为视点估计本质上是具有几何约束的几何问题。在[7]中，损失通过向近视点的分箱给予较大权重来考虑几何形状。在[8]中，发现这并没有真正的帮助，并且视点估计纯粹作为分类问题来解决。我们表明，几何约束是非常有帮助的。实际上，我们的损失函数考虑（1）图像的三元组的几何形状之间的关系，（2）由翻转的图像构成的约束，以及（3）由视频内的后续帧构成的约束4. 结果的整合是有帮助的。先前的作品选择包含具有最强激活的视点的bin作为最终结果。相反，我们在一个bin中集成所有视点，并选择最大化该积分的bin。有趣的是，这个想法具有与去噪类似的效果，并且它负责性能的重大改进。5. 随着对象分类/检测CNN的改进，用于视点估计的CNN也是如此。在[7]中，AlexNet [19]被用作基础网络，而在[9，8]中使用VGG [20]。我们使用ResNet[21]，不仅是因为它在分类方面的性能更好，而且还因为它的跳跃连接概念。这些连接使得非相邻层之间的信息流动成为可能，并且通过这样做，保留来自不同尺度的空间信息。这个想法类似于[9]的多尺度方法，其被示出为有益于视点估计。关于见解的贡献的简要看法：表1总结了每种见解对视点估计性能的影响。并与文献[9，8，7]的结果进行了比较我们的算法的总增益是9。8%，与[8]。第4节将深入分析这些结果4迪翁和塔尔方法评分（mAVP24）[7] ：AlexNet/R-CNN-Geometry-synthetic+real[9]：VGG/R-CNN-classification-real[8] ：VGG/Fast R-CNN-分类-合成+真实19.831.136.1我们的观点：见解1，5-架构40.6我们的见解：1，4，5-集成43.2我们的观点：1，3，4，5-损失44.4我们的见解：1，2，3，4，5-数据45.9表1：洞察力的贡献。该表总结了我们的见解对性能的影响总增益为9。8%，与[8]。3模型回想一下，我们将视点估计视为分类问题。虽然视点被定义为一个3D矢量，表示相机相对于物体的方向（图2），但我们关注的是方位角;找到其他角度是等效的。可能的视点集合被离散化为360个类，其中每个类表示1◦。本节介绍了我们建议的网络的不同组件，它实现了上一节中描述的见解(a) 投入（b）产出图2：问题定义。给定包含对象（a）的图像，目标是估计相对于对象（b）的相机取向（欧拉角）3.1架构在下文中，我们描述了实施的见解1，4 5，重点是分类，对象检测和视点估计的集成。图3描绘了我们的总体架构。它基于更快的R-CNN[16]，既检测又分类。作为Faster R-CNN中的基础网络，我们使用ResNet [21]，它比VGG实现了更好的分类结果ResNet的另一个优点是它的跳过连接。为了理解它们的重要性，回想一下，与我们的目标相反，分类网络被训练成视点估计-洞察模型5图3：网络架构。深度特征由ResNet提取并传递给RPN以预测边界框。在ROI池化之后，它们被传递到分类头和视点估计头两者。输出由一组边界框（x，y，h，w）组成，并且对于它们中的每一个-边界框内的对象的类及其估计的视点。忽略观点。跳过连接允许数据直接流动，而不会被池化所扭曲，众所周知，池化会忽略激活的内部顺序在Faster R-CNN之上添加了一个视点估计头。它的构建类似于分类头，除了全连接的大小图层，其为4320（对象类的数量 * 360个角度）。ResNet的最终映射作为模型的组件：预测边界框的FasterR-CNN的区域建议网络（RPN）、分类组件和视点估计头。边界框建议用于定义池化区域其被输入到分类头和视点估计头后者为每个边界框输出向量，其中每个条目表示视点预测，假设边界框中的对象属于某个类，例如，条目0-359是对船的预测，360-719是对自行车等的预测。一旦分类头预测了对象类，则选择该向量的相关部分作为输出。系统的最终输出是一组边界框（x，y，h，w），并且对于它们中的每一个，边界框中的对象的类和对象对于该边界框的视点作为分类头和视点估计头的结果的集合。实施详情：在这一总体框架内，应提出三个问题。解决。首先，虽然视点估计被定义为一个分类问题，但我们不能简单地使用Faster R-CNN的分类头来进行视点估计任务。这是因为网络内的周期性池化层对于特征映射中的激活位置是不变的。这是可行的，其中，在池化之后，使用最大值或平均值的视图点中的每个视图点6迪翁和塔尔为了解决这个问题，在仍然考虑池化层的重要性的同时，我们仅用全连接层（大小为1024）替换视点估计头的最后一个池化层。这保留了空间信息，因为不同的权重被分配给特征图中的不同位置。其次，在原始的Faster R-CNN中，边界框建议被传递到非最大抑制函数，以减少重叠的边界框建议。交集大于并集（IoU）的边界框。5被分组在一起，并且输出是具有最高预测分数的边界框。哪个视点应与此代表性边界框相关联？一个选项是选择所选边界框（BB）的角度。然而，这并没有产生好的结果。相反，我们计算视点向量(in其中每个可能的视点具有BB的得分）。我们的网络为每个边界框bbi计算视点分布PA（bbi）和分类得分PC（bbi）。我们通过对所有重叠边界框的贡献进行求和来计算BB的视点分布，并通过其分类得分进行加权：视点得分（BB）= Σ iPA（bb i）PC（bb i）。（一）长度为360的该得分向量与BB相关联。因此，我们的方法在选择视点时考虑所有边界框的预测给定该得分向量，应当估计视点。分数通过在仓内的所有视点上对等式（1）求和来计算。在[7，8]之后，这是针对K= 24个仓完成的，每个仓表示15〇个角度。然后，所选择的面元是使该和最大化的面元第三，我们注意到Faster R-CNN总是错误地检测到小对象，而这样的对象确实存在于我们的数据集中。为了解决这个问题，对网络进行了一个小的修改除了现有的{128， 256， 512}大小外，我们还添加了一组大小为64像素的锚点（锚点是边界框大小的初始建议）。这导致训练时间的小幅增加，但显著改善了检测结果（使用mAP从74.3%提高到77.8%），从而改善了视点估计。3.2数据在我们的问题中，我们不仅需要对对象进行分类，还需要将每个对象细分为视点。这意味着必须学习大量的参数，这反过来又需要大量的标记数据。然而，标记的真实图像是稀缺的，因为视点标记是非常困难的。在[12]中，提出了一种创造性的方法：给定图像中检测到并分类的对象，用户选择最相似的3D CAD模型（来自Google 3D Warehouse[22]）并标记一些相应的关键点。然后为该对象计算3D视点由于这个过程是昂贵的，所得到的数据集只包含30K注释的图像，属于12个类别。这是目前可用于此任务的最大数据集视点估计-洞察模型7为了克服训练数据稀缺的挑战，Su et al. [7]提出使用ShapeNet[ 23 ]的合成渲染CAD模型来增强数据集。这允许创建单个模型所需的多个图像来自SUN397 [24]图像的随机背景被添加到渲染图像中。然后将图像裁剪为类似于“野外”拍摄的真实图像，其中裁剪统计保持VOC2012 [ 25 ]的统计，创建2M图像。使用该合成数据将性能提高了约2%。根据Insight 2，我们以三种方式进一步增强了训练数据集。首先，我们不是随机选择背景，而是为每个类别选择对象的真实背景。例如，船不应该漂浮在客厅里，而是与海洋或港口的背景合成。这一变化仅略微提高了性能。更重要的是，我们通过水平翻转现有的真实图像来增强训练数据集由于这些图像的方向是已知的，因此它们被用于新的损失函数中以强制正确的视点（第3.3节）。最后，我们使用未标记的对象视频，我们可以利用运动的一致性，以进一步增加数据量并改善结果。我们将在3.3节中展示如何修改损失函数，以使用这些剪辑进行半监督学习。3.3损失如图3所示，我们的模型中有五个损失函数，其中四个由Faster R-CNN设置本节重点介绍视点损失函数，与Insights 3和4一致，并展示如何将其与其他损失函数组合。将视点估计视为分类问题，网络预测对象属于视点箱（bin= 1〇）的概率。这种方法的一个问题是，近视点位于不同的仓中，并且仓顺序被忽略。然而，在评估中，通常的做法是将视点空间划分为更大的bin（15◦）[12]。这意味与经典分类相比，如果网络在估计视点时出错，则输出近视点比输出远视点更好。因此，我们的损失应该解决几何约束-网络应该为近视点生成类似的表示为了解决这个问题，Su等人。 [7]建议使用几何感知损失函数，而不是使用具有单热标签的常规交叉熵损失Lgeom（q）=−1Σ360exp（−|kgt-k| ）log（q（k））。（二）C σk=1在这个等式中，q是某个包围盒的视点概率向量，k是区间索引，k>是真实区间索引，q（k）是区间k的概率，并且σ=3。因此，在等式（2）中，常用的独热标签被替换通过关于视点之间的距离的指数衰减权重。通过这样做，“鼓励”附近视图的预测之间的相关性8迪翁和塔尔2图4：连体网络中的翻转图像。损失试图最小化图像的表示与其翻转之间的距离有趣的是，虽然这个损失函数被证明可以改善[7]的结果，但它并没有改善[8]的后续工作的结果。我们提出了一个不同的损失函数，实现了几何约束。我们的损失是基于暹罗体系结构的基本思想[26，27，28]，它具有将相似的类靠近在一起的属性，同时增加不相关类之间的距离。我们的第一次尝试是利用对比暹罗损失[27]，其中应用于视点估计头的嵌入表示（在视点分类层之前）。给定两个图像F（X1），F（X2）的表示和它们之间的 L2距离D（X1，X2）= ||F（X1）−F（X2）||2、损失定义为：L1212对比度（D）=（Y）2D+（1−Y）{max（0，m−D）}2.（三）这里，Y是相似性标签，即如果图像具有近视点（实际上，最多10◦），则为1，否则为0，m为边距。因此，距离大于m的对将不会对损耗有贡献在采用这种损失时，应该解决两个问题：超参数m的选择以及正训练样本和负训练样本之间的正确平衡这种方法对于m和数量/阶数的各种选择产生了次优结果。因此，我们提出了一种不同的新型连体损失，如图4所示。关键的想法是使用图像和其水平翻转的图像对。由于这些图像之间的唯一差异是视点，并且视点之间的关系是已知的，因此我们定义以下损失函数：Lflip（X，Xflip）=Lgeom（X ）+Lgeom（Xflip ）+λ||F（X ）−flip（F（Xflip））||第二条、第四条其中Lgeom来自等式（2）。我们期望图像的嵌入与其翻转图像的翻转之间的L2请注意，虽然先前翻转的图像用于数据增强，但我们在损失函数中使用它们，其方式对于姿态估计是独特为了进一步改进结果，我们采用三重网络概念[29，30]并且改进了系统以用于我们的方案。这是一个“安全”的网络视点估计-洞察模型92视点三重翻转回归损失函数（真实数据）评分（mAVP24）几何损失，公式（2）43.2对比损耗，等式⑶42.5翻转损耗，等式⑷43.6三重峰+几何损失，等式（5）+（2）44.1视点损失，等式（7）44.4表2：通过不同损失函数获得的结果。与各种损失函数相比，等式（7工作以输出相似性诱导的嵌入。在训练期间提供三个图像：X ref、X+、X−，其中X ref、X+来自相似的类，而X ref、X−来自不同的类。在[29]中，图像表示D（F（X1），F（X2））之间的距离是它们之间的L2设D+=D（Xref，X+），D−=D（Xref，X−），d+，d−分别为对D+，D−观点之间的差异越大，类应该越分散，即。D+ D-（而不是），因此d+，d-在等式（5）中的作用应该交换。我们应用softmax来产生范围[0， 1]的一个小技巧，同时解决收敛问题，是将D乘以单个可训练标量，如[31]所示最后，视点损失被定义为（λ= 5）：L（X ref，X+，X−）= L（X ref，X+，X+）+ λL（X参考）。（七）表2示出了由上述损失函数的不同组合产生的增益。三重态损耗和翻转损耗的组合（等式（7））产生最佳性能。最后，整个网络在图3中所有损失函数的总和上进行训练：RPN分类RPN回归分类器分类+ L分类器+L视点。（八）前四项来自[16]，最后一项来自等式（7）。L总计=L+L+L10迪翁和塔尔图5：正确的视点估计预测。每个图像下方的条形图（0◦-360◦）用蓝色表示我们的最高视点预测，红色表示地面实况，黑色表示高置信度预测。我们的预测和地面事实落在同一个箱子里，即，15、彼此之间4结果我们的评估是在PASCAL3D+ [12]上进行的，其中包含来自ImageNet[32]的VOC2012 [25]的手动注释图像所有实验都使用Keras [33]框架和TensorFlow [34]后端进行图5显示了我们的模型做出的正确预测的示例，以及检测到的边界框。每个图像下方的条形图以蓝色表示我们的最高视点预测，红色表示地面实况，黑色表示高置信度预测。可以看出，在大多数情况下，我们的预测与地面事实落入同一个区间。此外，在大多数情况下，具有高置信度的预测（黑色）很好地聚集在一起。唯一的例外是船的图像，其中两个180◦-差异的集群是明显的。这可以通过物体的水平近对称性来解释。此问题的常见评估指标是平均视图精度（mAVP）[12]。简而言之，在AVP中，来自检测器的输出被确定为在视角大于50%并且视角正确的情况下被检测到。AVP被定义为视点精确-召回（VPR）曲线下的面积。因此，它是一个联合度量，既用于检测以及用于视点估计。根据以前的工作，我们比较了我们的结果的基础上离散AVP与K=24的观点箱。4.1培训我们的模型使用Faster R-CNN的权重进行初始化，在VOC 2012 VOC2007数据集上进行训练视点估计头的权重通过Xavier初始化[35]初始化。使用Adam优化器[36]，学习率设置为lr = 10 −4，β1= 0。9，β2=0。999，除非另有说明。每个训练步骤都是使用一张图像进行的，我们从网络提出的建议中提取了一小批32个区域建议视点估计-洞察模型11(a) 三重损失嵌入（b）几何损失嵌入图6：嵌入。每个点表示特征空间中的图像嵌入（使用t-SNE），其中颜色对应于地面实况视点箱。三重损失不仅比几何损失更好地分离视点箱，而且更好地反映问题的圆形本质。默认情况下，一半区域包含对象，另一半不包含;然而，如果网络没有提供足够的对象区域，我们用更多的背景区域填充小批量。我们从合成数据开始训练，然后是真实数据。对于合成数据，我们为每个类别创建了约100K的合成图像。我们固定了检测分类网络的权重，因为我们注意到合成数据显著降低了检测结果。我们只微调了视点估计头，训练了200K次迭代。作为真实数据，我们使用了来自标注数据的 22K 训练图像PASCAL3D+的我们通过水平翻转的图像增强了数据。我们使用从合成训练中获得的权重开始训练，并对整个网络进行微调。我们的模型被训练了200K次迭代。然后，我们将学习率降低了10倍，并继续仅针对视点估计头部进行训练，进行150K次迭代。为我们失去的三胞胎而训练。在每次迭代中，我们随机选择一个类和该类中的参考图像作为一个积极的例子，选择了同一类的图像，其视点与参考的距离在5◦以内作为一个新的例子，我们从“简单”的图像（从简单的图像，但从遥远的角度）开始，并努力解决更困难的问题。具体来说，对于前100K个三元组，我们从以100 ◦为中心的高斯模型（std为20 ◦）采样到参考的距离，并选择合适的图像。损失稳定后，我们从以15μ m为中心的高斯采样，标准差为2μ m。图6显示了飞机类别的2D嵌入，使用t-SNE [37]，作为三元组网络的结果。当使用我们的损失时，类似的观点比使用[7]的几何损失时更好地聚类。此外，这些点是在一个更“circular”的形状中的结构，其中，如在[ 7 ]中所解释的，该形状反映了我们的问题的因此，三元组损失不仅更好地分离嵌入，而且还设法将特征向外推。12迪翁和塔尔视频培训。使用视频背后的关键思想是，尽管视点是未知的，但我们知道后续帧的视点应该是相似的。为了实现这个想法，我们使用了三元组架构，这次是在半监督学习方案中。我们下载了100个未注释的YouTube视频，其中包含我们类别中的对象，对于这些对象，不知道对象是否出现在帧中。所有这些视频都有很大的动作，比如降落的飞机或自行车比赛。此外，每个类使用10个视频，每个视频包含缓慢旋转360°的单个对象。对于它们，保证对象出现在所有帧中，并且对所有视点进行采样。每段视频只有几分钟长，包含数千帧。在每次训练迭代时，选择一个三元组，其中参考帧是从某个视频中随机选择的，正帧是其相邻帧（假设视点没有太大变化），负帧取自该视频中的稍后帧权重被初始化为上面讨论的常规三重态损失的结果。所执行的唯一标记是视频中的对象的类别和负帧所需的间隙的估计。我们注意到，我们的视点损失函数是翻转损失和三重损失的组合（等式（7）），然而视频不与允许我们计算翻转损失的标签相关联。因此，在使用视频时，翻转损失项使用随机真实图像，而不是视频帧。4.2与最新结果的表3的区域是表1的结果，其示出了归因于我们的模型的不同组件的针对不同类别的收益。表的上半部分显示了以前工作的结果中间部分显示了应用Insights 1、4、5的结果。特别是，当用ResNet替换VGG并保持与[ 8 ]相同的损失和数据时，结果从36改善。1 [8]至39。5，使用真实和合成数据（和到37. 6只使用真实数据）。通过使用来自等式（2）的几何损失，性能被改进为四十6. 当选择在其内的视点的分布上积分的仓（等式（1））时，代替选择最大激活仓，结果被进一步改进为43。2.这种很好的改进可以通过注意到bin积分方法可以被认为是降噪来解释，这特别有利于嘈杂的类别，例如自行车和摩托车。表格的下半部分显示了Insights 2，3的影响，假设我们的模型使用ResNet/Faster R-CNN，在合成真实数据上进行训练，并使用分布上的积分选择bin 我们的视点损失将结果提高了1。2%;视频数据进一步提升1. 百分之五总体而言，我们取得了9的进步。8%，与当前最先进的结果相比。我们注意到，不同的方法改进不同的类别。例如，集成方法极大地改进了摩托车和自行车类。在这些类中，有许多图像包含来自该类的多个对象，这些对象彼此非常接近它们的检测到的边界框重叠，并且针对其他边界框在每个视图点上都是相邻的。当在所有的边界框上不存在图像时，其中一些边界框确实包含单个对象，该噪声被降低。视点估计-洞察模型13方法Aero自行车船总线车椅子表姆比凯沙发火车电视mAVP24[7]：AlexNet/R-CNN-几何结构-结构+关系21.522.04.138.6 25.57.411.024.415.0 28.0 19.819.8[9]：VGG/R-CNN-分类-真实37.033.410.0 54.1 40.0 17.5 19.934.328.9 43.9 22.731.1[8]：VGG/Fast R-CNN-分类-合成+真实43.239.416.8 61.0 44.2 13.5 29.437.533.5 46.6 32.536.1我们的：ResNet/Faster-分类 -真实41.633.720.6 65.3 45.4 17.9 33.83634.5 48.6 36.637.6我们的：ResNet/Faster-分类-合成+真实43.637.119.9 68.5 48.6 19.8 37.134.238.2 48.3 39.639.5我们的：ResNet/Faster-几何-合成+真实43.935.420.9 70.3 51.5 20.038.6 34.041.6 50.4 40.040.6我们的：ResNet/Faster-几何-合成+实数-积分43.541.223.9 68.4 52.7 22.4 41.942.044.1 50.3 45.043.2我们的：以上所有+观点损失我们的：上述所有+视点损失-视频数据46.647.741.142.523.923.872.674.853.554.722.525.942.642.842.043.544.246.354.654.644.847.944.445.9表3：正确估计的视点数量比SOTA结果高25%，从[8]的36.1提高到PASCAL3D+的45.9图7：典型的错误视点估计情况。我们对公共汽车和摩托车的预测是180 ◦-相反;对于自行车，我们的预测与车把的观点相匹配，而不是与主框架的观点相匹配;表应该有两个正确的视点，我们的视点估计器选择其中一个。此外，这些类在PASCAL3D+中的视点分布比大多数其他类更均匀。因此，我们的网络没有偏见，并倾向于尽可能地接近目标的目标。这对于箱积分方法是有利的，因为收集更多的信息改进了预测。这些幻灯片显示了主要针对“rect a gul ar”对象（如公共汽车、火车和餐桌）的改进。我们推断，翻转确实有助于网络解决一些对称性模糊性，如所期望的。视点（三重态/翻转）损失对于几何损失误差为180◦（面向后/面向前的对象）的类（例如飞机、公共汽车和火车）最有利一种可能的解释是，与通过使用高斯权重在近视点之间相关的几何损失不同，视点损失也在远视点之间相关。视频剪辑的使用改进了我们有视频的类，这些视频包含几乎所有的视点。局限性：图7显示了一些典型的故障。对于公共汽车和摩托车，失败是由于向后/向前对称-我们的模型预测了180◦-相反的观点。自行车的错误预测是由于车把位置与主框架不对齐该表示出了两个视点同样正确的情况（S 卩，两个视点相同）。矩形表没有正面背面），但是我们的算法选择了一个视点，而地面实况是另一个。14迪翁和塔尔66估计所有欧拉角：在[8]之后，在本文中仅预测方位角。这是因为两个原因：（i）我们的方法是通用的，可以应用到其他欧拉角，只需添加一个全连接层的每个角度;（ii）与方位角分布不同，仰角&倾斜分布的变化很小（约85%的图像在20 °以内）。然而，当考虑所有3个角度时，我们也实现了最先进的结果。在[7，9]中，预测所有欧拉角，并联合测量三个角度的精度，如下所示(1)MedErr计算预测的旋转矩阵与地面实况矩阵之间的中值误差（平均值越低）。更好）和（2）Accπ计算其预测视图-点在目标视点的固定阈值内（越高越好）。在这些指标上，我们使用MedErr获得了23%的改善（15. 6 [9]，11. 7 [7]，8. 9我们的）和8。Accπ（0. 76 [9]、0. 82 [7]，0. 89我们的）。5结论本文讨论了图像中的对象的视点估计的任务。它提供了五个见解，涉及网络的所有组件基于这些见解，设计了一个网络，使得：（i）该架构使用用于执行前两个任务的最先进的CNN来联合解决检测、分类和姿态估计。（ii）为了处理标记数据的不足，本文提出将视频和翻转图像两者添加到训练阶段。(iii)一种新的损失函数，考虑到问题的几何性质，以及由视频和翻转的图像所构成的约束，被引入。（四）虽然以前的作品预测的观点使用的最大激活，我们提出了一个集成方案的预测。我们的网络改善了PAS上这个问题的最新结果CAL3D+为9.8%。论文详细分析了各个部件对整体性能的影响未来方向：我们的视点估计仅基于边界框内的信息。然而，来自完整图像的信息可以是完整的。有时，此方向可能会在磁盘的视图点中显示，或在磁盘的方向上显示。第二，应加强现有数据集。由于我们的额外数据可能意味着改进的性能，较大的数据集可能有利于视点估计。此外，更好的注释方法是必要的，因为目前一些图像被错误地注释，这使训练和测试都有偏差。最后，对于某些类型的对象（例如圆形表或图7中的表），任何试图定义单个地面实况视点的尝试都注定要失败。这种特殊情况应给予适当注意。鸣谢：我们衷心感谢NVIDIA公司捐赠GPU以及Ollenendorff基金会的支持。视点估计-洞察模型15引用1. Huttenlocher ， D.P. ：使用对齐的对象识别。在： ProceedingsoftheIEEEIintérnataICONFERENCEONComputérVisión （ ICCV ） . （ 1987年）1022. Lowe ， D.G. ：视点一致性约束。 International Journal ofComputerVison（IJCV）1（1）（198 7）57-7213. Lowe，D.G.，等：将参数化三维模型拟合到图像。IEEE Transactions onPattern Analysis and Machine Intelligence（PAMI）13（5）（1991）4 4 1-45014. Huttenlocher，D.P.，Ullman，S.：通过与图像对齐来识别固体物体。《计算机科学与工程学报》第五卷第二期（1990）1955. Choi，C.，田口Y. Tuzel，O.，Liu，M.Y. Ramalingam，S.：使用3D传感器的机器人装配的基于投票的位姿估计。在：IEEE InternationalConfer-e-nceonRoboticsandAutomati on（ICRA）中。（20 12）17246. Marchand，E.，内山，H.，Spindler，F.：增强现实的姿势估计：动手调查IEEE Transactions on Visualization and Computer Graphics22（12）（2016）2633-265117. Su，H.，Qi，C.R.，李，Y.，Guibas，L.J.：为CNN渲染：使用用渲染的3D模型视图训练的 CNN 进行图像中的视点估计。在： ProceedingsoftheIEEEIintérnataICONFERENCEONComputérVisión（ICCV）. （2015）26868. 马萨，F.，马莱河奥布里，M.：制作用于视点估计的多任务CNN。arXiv：1609.03894（2016）1，3，4，6，8，12，13，149. Tulsiani ， S.， Malik ， J. ：视点和关键点。在： Proceedings of the IEEEConferenceonComuterVis i sinandPater nRecognitin（CVPR）中。（2015）151010. Penedones，H.，科洛伯特河Fleuret，F.，Grangier，D.：使用姿态信息改进对象分类技术报告，Idiap（2012）111. Osadchy，M.，Cun，Y.L.，Miller，M.L.：基于能量模型的协同人脸检测和姿态估计。Journal of Machine Learning Research（2007）1197-1215112. Xiang，Y.，中国科学院，Mottaghi河Savarese，S.：超越PASCAL：野外3D物体检测的基准。IEEE Winter Conference on Applications of Computer Vision（WACV）计算机视觉应用冬季会议（2014）第2、6、7、10页13. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，准确的对象检测和语义分割.在：Proceedings of the IEEE connferenceo nCom uterVisi n andPater n Re cogniti n（CVP R）中。（2014年）58014. Pinheiro，P. O.， Collobert，R.，我会的，P。： Learnigtosegmentobjcccdidates。In：AvancesinNeura lInfr oces sinSyss（NIPS）。（2015年）199015. Girshick，R.：快速R-CNN。arXiv：1504.08083（2015）316. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。在：神经信息处理系统进展（NIPS）。（2015）9117. Eigen，D. Fergus，R.：使用通用的多尺度卷积架构预测深度、表面法线和语义标签。在：ProceedingsoftheIEEEInternatioiConferenceonComuterVisin（ICCV）中。（2015）265018. Gkioxari，G.，格尔希克河Malik，J.：使用r* cnn进行上下文动作识别。IEEE International Conference on Computer Vision（ICCV）（2015年）108016迪翁和塔尔19. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。神经信息处理系统进展（Advances in Neural Information ProcessingSystems，NIPS）。（2012年）320. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模计算的非常深的卷积网络图像识别arXiv：1409.1556（2014）321. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习IEEE计算机视觉与模式识别会议论文集（Proceedings of the IEEE Conference onComputer Vision and PatternRecognition，CVPR）（2016）77022. ：谷歌3D仓库。http://sketchup.google.com/3dwarehousewww.example.com23. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：ShapeNet：信息丰富的3D模型库。技术报告arXiv：1512.03012（2015）724. 肖，J.，Hays，J.，Ehinger，K.A. Oliva，A.，Torralba，A.： Sun数据库：大-从修道院到动物园的规模场景识别。在： Proceedings of the IEEEConferenceonC〇mputerVis isinandPatter

下载后可阅读完整内容，剩余1页未读，立即下载