基于深度监督的3D对象解析方法

29 浏览量更新于2023-10-16 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用于遮挡感知3D对象解析的具有形状概念的深度监督Chi Li1，M.作者：李文，陈国辉，于翔，李文.Hager1和Manmohan Chandraker2，31约翰霍普金斯大学2NEC Labs America3加州大学圣地亚哥分校摘要单目3D对象解析在包括遮挡推理和整体场景解释的各种场景中是非常期望的。我们提出了一种深度卷积神经网络（CNN）架构，用于在2D图像和3D空间中定位语义部分，同时在给定单个RGB图像的情况下推断其可见性状态。我们的关键洞察力是利用领域知识通过深度监督其隐藏层来规范网络，以便顺序地为了获取具有真实3D形状和相关概念的所需数量的训练数据，我们渲染3D对象CAD模型以生成大规模合成数据并模拟对象之间具有挑战性的遮挡配置。我们只在合成数据上训练网络，并在真实图像基准测试中展示了最先进的性能，包括KITTI、PASCAL VOC、PAS-CAL3D+和IKEA的扩展版本，用于2D和3D关键点定位和实例分割。实证结果证实了我们的深度监督方案的实用性，证明了知识从合成数据到真实图像的有效转移，与标准的端到端训练相比，过度拟合更少。1. 介绍我们周围的世界具有丰富的结构规律性，特别是当我们考虑汽车或家具等人造物体时。感知研究表明，人类视觉系统对刺激进行结构推理[32]。因此，计算机视觉的早期工作将感知组织作为识别和重建的基本原则进行研究[21，22]。特别是，中间的概念，如观点进行了探讨，以帮助复杂的感知任务，如形状的解释和心理旋转。然而，基于这些原则设计的算法[24，30]在面对现实世界的复杂性时受到限制，因为它们依赖于手工制作的特征（如角或边）和硬编码的规则（如连接或paral）。图1：我们的方法概述。我们使用具有中间形状概念的合成训练图像来深入监督CNN的隐藏层。在测试时，给定一个对象的单个真实图像，我们证明了在2D和3D中语义部分的准确定位，同时对类内外观变化和遮挡具有鲁棒性lelism ）。相比之下，随着近年来卷积神经网络（CNN）的出现，用于对象识别、分割和重建的端到端可训练特征学习取得了在本文中，我们认为考虑中间立场是有利的，我们将这种早期的直觉[22，21]与现代CNN的区分能力相结合，以解析类内外观变化的2D/3D对象几何形状，包括复杂的现象，如遮挡。具体来说，我们证明了与2D/3D形状理解相关的中间形状概念，例如姿势和部分可见性，可以应用于监督CNN的中间层这允许在定位在单个图像中观察到的对象的语义元素时具有更高的准确性。为了说明这个想法，我们使用3D骨架[35]作为形状表示，其中语义上有意义的对象部分（例如汽车的车轮）由3D关键点表示，它们的连接定义了对象类别的3D结构。此表示比3D更有效54655466体积[4]或网格[44，34，13，25，15，28]在传达诸如自动驾驶的应用中的形状推理所需的语义信息方面的应用。我们在第3节中介绍了一种新的CNN架构，它联合建模多个形状概念，包括对象姿态，关键点位置和可见性。我们首先通过在第3.1节中推广深度监督网络[16]来制定深度监督框架。反过来，第3.2节介绍了一个特定的网络实例，其中我们使用中间形状概念在不同深度监督卷积层此外，第3.3节建议渲染3D CAD模型，以创建具有概念标签的合成图像，并模拟具有挑战性的遮挡配置，以实现强大的遮挡推理，而不是使用昂贵的手动注释图1介绍了我们的框架，图2说明了使用形状概念的深度监督CNN的特定实例我们将我们的网络称为在测试时，仅在合成图像上训练的DISCO可以很好地推广到真实图像。特别是，它在经验上优于单任务架构，没有监督的中间形状的概念和多任务网络，在顶层的所有概念的监督。这一观察结果表明了3D对象解析的形状概念的亲密性，尽管我们忽略了我们渲染的训练数据中的材料和照明等照片现实主义方面。在第4节中，我们定量证明了在PASCAL VOC、PASCAL3D +[40]、IKEA[19]和扩展KITTI上进行2D关键点和3D结构预测的现有技术水平的显著改进[6]数据集（KITTI-3D）。我们注意到，大多数现有方法[44，45，13，15，38，43]通过将参数化形状模型的投影与单独预测的2D模式（如关键点位置或热图）进行比较来估计3D几何形状。这使得先前的方法对部分视图模糊性[17]和不正确的2D结构预测敏感此外，缺乏真实图像的3D注释进一步限制了它们的性能。相比之下，我们做出了以下新的贡献来缓解这些问题：• 我们演示了使用中间形状概念的渲染数据的实用程序。此外，我们通过适当地渲染多个对象的遮挡模型，figurations，它提出了一种新的方式，利用三维CAD数据的真实感场景的解释。• 我们应用中间形状概念来深度监督CNN的隐藏层这种方法展示了从合成图像到真实图像的泛化能力优于标准的端到端训练。• 我们的方法在几个公共基准测试中，在遮挡和大的外观变化下，在2D/3D语义部分定位上实现了最先进的性能。2. 相关工作3D骨架估计这类工作将3D形状建模为形状基础的线性组合，并优化基础系数以拟合计算的2D模式，例如热图[43]或对象部分位置[45]。单图像3D解释器网络（3D-INN）[37]提出了一种复杂的CNN架构，仅基于检测到的可见2D关节来估计3D骨架3D-INN的训练没有针对2D和3D关键点定位进行联合优化此外，3D结构与丰富对象外观的解耦导致部分视图模糊，从而导致3D预测误差。3D重建[15]通过将网格建议与提取的2D轮廓相匹配，为3D网格重建制定了生成逆图形模型最近，给定单个图像，自动编码器已被用于2D图像渲染[5]、多视图网格重建[34]和遮挡下的3D形状回归[25]。编码器网络学习反转渲染过程以识别3D属性，例如对象姿势。然而，诸如[34，25]的方法仅在合成数据上进行定量评估，并且似乎对真实图像的推广有限。其他作品（如[13]）制定了一个基于能量的优化框架，涉及密集3D网格重建的外观、关键点和法线一致性，但需要真实图像上的2D关键点和对象分割具有判别[4]或生成[28]建模的体积框架在给定同一对象的一个或多个图像的情况下推断然而，由于体素网格表示的高度冗余性质，它们目前仅限于高达32x32 x32的低分辨率。最后，3D体素示例[39]通过模板匹配[27]联合识别3D形状和遮挡模式，这不能扩展到更多的对象类型和复杂的形状。3D模型检索和对齐该工作线通过检索最接近的对象CAD模型并使用2D图像[44，1，18，23，40]和RGB-D数据[2，9]执行对齐来估计3D对象结构不幸的是，有限数量的CAD模型无法表示一个对象类别中的所有实例，尽管显式形状建模[44]。此外，检索步骤对于大的CAD数据集是缓慢的，并且对准对估计姿态中的误差敏感。姿态估计和2D关键点检测for CNN我们扩展了这个渲染管道，以支持对象关键点预测和模型遮挡。在[36]中利用视点预测来显著提高2D地标定位的性能。最近的工作，如DDN [42]，基于2D关键点的PCA表示优化了变形系数，以实现面部和人体的最新性能密集特征5467我N图2：渲染管道（左上），DISCO网络（左下），渲染图像及其2D关键点注释（右上）以及3D骨架（右下）的示例的可视化利用自顶向下对象类别知识的匹配方法[12，43]最近也取得了成功，但是我们的方法产生了更好的结果。3. 使用Shape Concepts进行在下文中，我们将介绍一种用于3D形状解析的新型CNN架构，该架构通过中间形状概念（如对象姿态、关键点位置和可见性信息）来整合约束我们的目标是从对象的单个视图（RGB图像）推断关键点在2D和3D空间中的位置及其可见性。我们在3.1节中激励我们的深度监督方案。随后，我们在第3.2节中介绍了网络架构，该架构利用了第3.3节中详细介绍的渲染管道生成的合成数据。3.1. 深度监督我们的方法借鉴了深度监督网络（DSN）[16]。然而，尽管DSN通过最终标签监督每一层以加速训练收敛，但我们顺序地对最终任务固有的中间概念应用深度监督，以便正则化网络以实现更好的泛化。令Z={（x，y）}表示用于监督学习任务的具有成对输入x和标签y的多层CNN的相关优化问题是：W=argminl（y，f（x，W））（1）在新的数据集Z′ 上，f（·，W）在Z′上的性能明显低于在Z上的性能. 例如，当我们在合成数据上进行训练，但在测试时，在真实的数据上。解决过度训练的一种方法是通过正则化，使网络偏向于增量地再现与最终答案相关的物理量。例如，对象姿态是预测3D关键点位置的不可或缺的元素。直觉上，这个想法是倾向于反映原始训练集中纠缠的问题的潜在物理结构的解决方案。由于CNN中的更深层表示更复杂的概念，这是由于感受野的大小不断增加以及沿途堆叠的非线性变换越来越多，因此我们可以通过明确地强制隐藏层产生一系列已知的中间概念来实现我们的直觉，这些概念的复杂性随着最终任务的增加而增加。为此，我们定义了增强训练集A={（x，{yi，.，y N}）}具有附加监控信号{y1 ， … yN−1} 。此外，我们表示 W1：i={W1，. . . ，Wi}作为CNN的前i层的权重，并且hi=f（·，Wi：i）作为层i的动作映射。我们没有我们延伸（1）通过引入Func，对附加训练信号yiyi=g（hi，vi），由权重vi参数化。令V={v1，. . .，v N-1}，我们现在可以写一个在A上训练的新目标：W^m，V^m=argmi n nn nf（x，W1：i），vi）W（x，y）∈ZW，V（x，{y}）∈A^i=1（二）其中l（.，. ）是问题特定损失，W ={W1，.，W N}表示N层的权重，定义函数f基于网络结构。在实践中，最优解W^n可以从过拟合中得到。也就是说，giv ena上述目标可以通过同时反向传播由λi缩放的所有监控信号的误差来优化。从原始问题的角度来看，通过y i的新约束充当附加约束5468在隐藏层上进行正则化，从而使网络偏向于解决方案，正如我们在第4节中经验性地展示的那样，比（1）的解决方案表现出更好的泛化能力。3.2. 网络架构为了建立（2），我们必须首先选择一系列用于2D/3D关键点预测的必要条件作为中间形状概念，其中2D/3D关键点预测具有我们按顺序选择了（1）对象视点，（2）关键点可见性，(3)3D关键点位置和（4）完整的2D关键点位置集，无论可见性如何，灵感来自感知组织的早期直觉[22，21]。我们施加这一系列中间概念来深入监督网络的某些深度，如图所示。并且最小化（2）中的四个中间损耗li，其中去除其他损耗。我们的网络类似于VGG网络[31]，由深度堆叠的3×3卷积层组成。与VGG不同，我们去除了局部空间池化，并将每个卷积层与批量归一化[10]和ReLU耦合，ReLU定义了（2）中的f（x，W1：i）这是由空间池化导致空间信息丢失的直觉激发的。此外，g（hi，vi）由一个全局平均池化（GAP）层和一个具有512个神经元的全连接（FC）层构成，这与VGG中的堆叠FC层不同。节中4.1，我们实证表明，这两个变化是至关重要的，以显着提高性能的VGG类网络的2D/3D地标定位为了进一步减少过度拟合的问题，我们在隐藏的卷积层之间部署dropout [14]。在第4、8、12层，我们使用步长为2的卷积层执行下采样图2（左下）详细说明了我们的网络架构。我们在所有监督点使用L2损失“(Conv-A)xB”我们总共部署了25个卷积层。在实验中，我们只考虑对象视点相对于规范姿态的方位角。我们进一步将方位角离散化为M个仓，并将其回归到独热编码（对应于预测的离散化姿态的条目设置为1，所有其他条目设置为0）。关键点可见性也由二进制向量表示，其中1表示关键点的遮挡状态。2D关键点位置被归一化为[0，1]，图像大小沿宽度和高度维度。我们将CAD模型的3D关键点坐标以原点为中心，并缩放它们以将最长尺寸（沿X，Y，Z）设置为单位长度。假设CAD模型沿主坐标轴对齐，并配准到规范姿势，如ShapeNet [3]数据集的情况。在训练期间，每个损失都被反向传播以联合训练网络。图3：用于模拟对象-对象遮挡的合成训练图像的示例3.3. 合成数据生成不出所料，我们的方法需要大量的训练数据，因为它基于深度CNN，并且比其他视觉任务（如对象分类）涉及更多的细粒度标签。此外，我们的目标是该方法与闭塞的测试用例。因此，我们需要生成训练示例，这些示例代表由多个物体紧密接近以及图像边界截断引起的真实遮挡配置为了获得如此大规模的训练数据，我们使用 2D/3D 地标和可见性信息扩展了“Render for CNN”[ 33 ]的数据渲染过程的概述显示在图的二、我们从ShapeNet [3]中为给定的对象类别选择一小部分CAD模型，并在每个CAD模型上手动注释3D关键点接下来，我们使用开源工具Blender渲染每个CAD模型，同时从均匀分布中随机采样渲染参数，包括相机视点，光源数量/强度和表面光泽反射。最后，我们将渲染图像叠加在真实图像背景上，以避免过度拟合合成数据[33]。我们从每个渲染图像中裁剪对象，并从渲染引擎中提取对象视点，2D/3D关键点位置及其可见性状态在图2中，我们显示了渲染及其2D/3D注释的示例。为了模拟多对象遮挡，我们随机选择两个不同的对象实例，并将它们放置在3D空间中彼此靠近在绘制过程中，我们通过计算CAD模型的可见2D区域相对于完整2D投影的分数来计算每个实例的遮挡率。关键点可见性通过光线跟踪计算。我们选择遮挡率范围从0的实例。四比零。9 .第九条。图图3示出了两个代表性的训练示例，其中汽车被附近的其他汽车遮挡对于截断，我们随机选择对象的两个图像边界（左，右，上，下），并将它们移动[0，0。3]的图像尺寸沿该维度。4. 实验数据集和指标我们在许多公共数据集上以经验证明了与几种最先进的方法相比具有竞争力或优越的性能：PASCAL5469VOC（第4.2）、PASCAL 3D +[40]（第4.2节）宜家[19]（第二节）4.4）。此外，我们在KITTI-3D上评估了我们的方法，其中我们在来自KITTI数据集的汽车图像子集上生成 3D 关键点注释 [6] 。为了训练，我们从ShapeNet中选择了472辆汽车，80个沙发和80个椅子CAD模型[3]。每个汽车模型标注有36个关键点[45]，每个沙发或椅子模型标记有14个关键点[40]1。我们合成了60万张汽车图像，包括被遮挡的实例和20万张完全可见的家具（椅子+沙发）图像。我们从每个对象类别中选择5个CAD模型的渲染图像作为验证集。我们使用PCK和APK度量[41]来评估2D关键点定位的准确性。当2D关键点预测位于地面实况的指定半径α<$L内时，它是正确的，其中L是0<α1的图像的较大维度。PCK是给定对象位置和关键点可见性的正确关键点预测的百分比。APK是通过将每个估计的关键点与置信度得分相关联来计算的关键点检测的平均精度。在我们的实验中，我们使用关键点可见性的回归值作为置信度分数。我们通过定义正确的3D关键点预测将2D PCK和APK度量扩展到3D，该3D关键点预测的欧氏距离在归一化坐标中小于α训练细节我们将物体姿态的损失权重设置为0。1和其他1。我们使用动量为0的随机梯度下降。9从零开始训练拟议中的CNN学习率从0开始。01，并在验证误差达到平台时减小十分之一。权重衰减设置为0。0001，输入图像大小为64×64。网络按照[8]初始化，批量大小为100。对于汽车模型训练，我们使用完全可见的，截断的和遮挡的汽车的混合物形成每个批次，分别编号为50，20和30对于家具，每批由100张椅子和沙发的图像组成，并以随机比例混合。该网络使用Caffe实现[11]。4.1. KITTI 3D我们创建了一个新的KITTI-3D数据集进行评估，使用Zia等人提供的2040个KITTI [6]汽车实例的2D关键点注释。[45]并进一步用遮挡类型和3D关键点位置标记每个汽车图像。我们定义了四种遮挡类型：无遮挡（或完全可见的汽车）、截断、多汽车遮挡（目标汽车被其它汽车遮挡）和由其它物体引起的遮挡。每种类型的图像数量分别为788、436、696和120。为了获得3D地面实况，我们通过最小化已知2D地标的2D投影误差来拟合在CAD数据上的3D关键点注释上训练我们只提供3D关键点标签，包含足够的可见2D关键点，用于精确的3D对齐。我们建议读者参考补充材料，了解有关KITTI-3D中3D注释和一些标记示例的更多详细信息。表1报告了当前最先进方法的PCK精度，包括DDN[42]和WarpNet [12]用于2D关键点定位和Zia等人。[45]第四十五章：我的世界我们使用这些方法的源代码由各自的作者提供。此外，我们通过使用测试图像的地面实况姿态来增强WarpNet（表示为WN-gt-yaw），以检索30个标记的合成汽车图像用于地标转移，使用中值地标位置作为结果。我们观察到DISCO在所有闭塞类型上均优于这些竞争产品。我们还对DISCO结构进行了详细的消融研究首先，我们逐步地逐个删除DISCO中使用的深度DISCO-vis-3D-2D、DISCO- 3D-2D、plain-3D和plain-2D分别是无姿态、姿态+可见性、姿态+可见性+2D和姿态+可见性+3D的网络。我们观察到2D和3D精度的单调下降趋势：平面-2D或平面-3D 0 。 7 到 KITTI-3D 的地面真相。DISCO在2D-All和3D-Full上的PCK精度为88。3%，95。5%，这甚至比表1中的真实边界框更好。这可以归因于KITTI中的2D地面实况位置并不紧密地约束对象区域，因为它们只是3D地面实况边界框的投影这结果表明，DISCO算法对不精确的二维包围盒具有较好的鲁棒性我们建议读者在补充材料中参阅更多的数字细节。最后，我们全面可见的汽车，因为被遮挡或截断的汽车不[2]我们无法报道Zia等人。[45]因为只有一个1我们使用与[37]一致的10个椅子关键点对宜家进行评估图像的子集在这些类中具有有效结果。5470方法2D3D三维偏航充分截断多车发生率其他发生率所有充分充分DDN [42]67.627.240.745.045.1NAWN-gt-yaw*[12]88.076.081.082.782.0NAZia等人[45个]73.6NA73.57.3DSN-2D45.248.431.724.837.5NADSN-3DNA68.312.5平面二维88.462.672.471.373.7NA平面-三维NA90.66.5普通的90.872.678.980.280.692.93.9DISCO-3D-2D90.171.379.482.080.794.33.1DISCO-vis-3D-2D92.375.781.083.483.495.22.3DISCO-（3D-vis）87.876.171.068.375.889.73.6DISCO-反向30.032.622.316.825.449.022.8DISCO-Vgg83.559.470.163.169.089.76.8迪斯科93.178.582.985.385.095.32.2表1：PCK[α= 0. 1] KITTI-3D数据集上2D和3D关键点定位的不同方法的准确度（%）。WN-gt-yaw [12]使用测试车的地面真实姿态。粗体数字表示最佳结果。PCK[α= 0. 第1页]长[20]VKps[36]迪斯科充分55.781.381.8完全[α= 0. 2]NA88.393.4闭塞NA62.859.0大图像NA90.087.7小图像NA67.474.3所有[APK α= 0.第1页]NA40.345.4表2：PCK[α= 0. 1] PASCAL VOC的汽车类别上的2D关键点定位的不同方法的准确度（%）。粗体数字表示最佳结果。可见的汽车，并发现2D关键点定位的精度下降了1。3%，完全可见的数据，24。9%的截短病例和15. 9%在多车+其他闭塞车。这表明在模拟遮挡数据上学习的遮挡模式可推广到真实图像。4.2. Pascal VOC我们在PASCAL VOC 2012数据集上评估了DISCO的2D关键点定位[41]。与KITTI-3D不同，KITTI-3D中的汽车图像是在真实道路上捕获的，并且大多数都是低分辨率的，PASCAL VOC包含的汽车图像具有较大的外观变化和严重的遮挡。在表2中，我们将我们的结果与测试集的各种子类上的最新技术[36，20]进行了比较：完全可见的汽车（未注明为“Full”）、被遮挡的汽车、高分辨率（平均尺寸420 x 240）和低分辨率图像（平均尺寸55 x 30）。有关测试设置的详细信息，请参见[36我们观察到DISCO的表现优于[36] 0。6%和5。α =0时PCK为1%。1，α=0。2所示的序列。此外，DISCO对低分辨率图像具有鲁棒性，提高了6。低分辨率集的准确率为9%，[36]第30段。然而，DISCO在被遮挡的汽车类和高分辨率图像上较差，这归因于我们使用小图像（64x64）进行训练，以及我们的遮挡模拟无法在典型道路场景中捕获更复杂的遮挡最后，我们计算α = 0时的APK精度。1对于DISCO在[36]3中使用的相同检测候选项上。我们可以看到，DISCO的表现优于[36] 5。整个汽车数据集上的1%（完整+遮挡）。这表明DISCO对噪声检测结果更稳健，并且比[36]更准确地推断关键点可见性。我们将此归因于训练过程中DISCO的全局结构建模，其中完整的2D关键点集教会网络解决部分视图模糊性。请注意，我们的汽车关键点[45]的一些定义与[41]略有不同。例如，我们注释了前挡风玻璃的底部角落，但[41]标记了侧镜。在我们的实验中，我们忽略这个注释，直接应用预测结果。此外，与[20，36]不同，我们不使用PASCAL VOC训练集，因为我们的目的是研究通过渲染管道可用的形状概念的深度监督的影响。因此，当使用具有一致标签的真实图像进行训练时，预计会有更好的性能4.3. PASCAL3D+PASCAL 3D +[40]通过将手动选择的3D对象CAD模型对齐到可见的2D关键点上，为PASCAL VOC对象提供对象视点由于每个类别只使用少数CAD模型，因此3D关键点位置不准确。因此，我们使用[40]提出的评估指标，该指标测量2D3我们运行[36]提供的源代码来获得相同的候选对象。5471方法CAD对准GT手动GT[40]第四十话NA51.9Xiang等[26日]64.464.3随机CAD [40]NA61.8[40]第四十话NA67.3迪斯科71.267.6表3：PASCAL 3D+上不同方法的对象分割精度（%）。最佳结果以粗体显示。方法沙发椅子Avg. 召回PCKAvg. 召回PCK3D-INN迪斯科88.083.431.038.587.889.941.463.9表4：平均召回率和PCK[α= 0. 1]宜家数据集中沙发和椅子类的3D结构预测准确率（%）。其投影模型掩模的分割精度为4利用对象的3D骨架，我们能够基于几何形状创建粗对象网格，并基于估计的2D关键点位置通过将粗网格表面投影到2D图像上来计算详情请参阅补充文件。表3报告了两种类型的地面实况的对象分割精度“手动GT”列注意， DISCO显著优于最先进的方法[39] 4。6% 和 6. 6% 只使用合成数据进行训练。此外，在“Manual GT”基准上我们发现，DISCO产量甚至优于“GT CAD”的性能。这证明了三维几何流形和视点的联合建模优于对象检索加对齐的此外，我们强调至少两个数量级更快的推理的一个向前通过的DISCO在测试过程中相比，其他复杂的CAD对齐方法。4.4. 宜家数据集在本节中，我们使用[37]提供的3D关键点注释在IKEA数据集[19]上评估DISCO我们使用椅子和沙发实例的200K合成图像从头开始训练单个DISCO网络，以评估DISCO是否能够同时学习多个3D对象几何形状。在测试时，我们将DISCO4PASCAL VOC基准上的标准IoU分割指标宜家最先进的3D-INN[37]。为了像3D-INN那样消除3D结构评估的视点估计误差接下来，我们将两个PCA基对齐，并将预测的3D结构旋转回groundtruth的规范框架。表4报告了PCK[α=0. 1]和平均回忆[37]（平均PCK在[0，1]内的密集采样α上）。我们从宜家数据集上公开发布的结果中检索3D-INN的PCK准确度。DISCO在PCK上的表现明显优于3D-INN，这意味着DISCO比3D-INN获得了更正确的预测。这证实了直接利用DISCO采用的图像中丰富的视觉细节对于推断更准确和细粒度的3D结构至关重要，而然而，在沙发类的平均召回率方面，DISCO不如3D-INN。这表明DISCO的错误预测比3D-INN更偏离地面实况。这主要是因为来自3D-INN的3D预测形状受到形状基础的约束，因此当识别失败时，即使是错误的估计也具有真实的对象形状。我们的结论是，DISCO是能够学习的3D模式的对象类除了汽车类，并显示出潜力作为一个通用的方法来联合建模多个对象的3D几何结构。4.5. 定性结果在图4中，我们展示了DISCO在KITTI-3D和PASCALVOC上的预测示例。从左到右，每行显示原始对象图像，预测的2D对象骨架以及实例分割和具有可见性的3D对象骨架我们可视化了无遮挡（第1行）、截断（第2行）、多车遮挡（第3行）和其他遮挡物（第4行）下的示例我们可以看到，DISCO可以在具有复杂遮挡场景和轿车、SUV和皮卡等多种车型的真实图像上定位2D和3D关键点此外，DISCO的能见度推断基本正确。这些功能突出了DISCO作为在杂乱场景中进行整体场景理解的构建块的潜力最后一行显示了两个失败的情况，其中左边的汽车大部分被另一个物体遮挡，右边的汽车在投影中被严重截断和扭曲。我们可以通过在使用更复杂的occlusions [29]模拟的合成数据和具有2D和3D注释的真实数据上训练DISCO来提高DISCO在这些具有挑战性的情况下的性能。最后，我们定性地比较了3D-INN和DISCO在图中可视化的两个例子。五、在椅子示例中，3D-INN未能描绘倾斜的座椅靠背。对于沙发，DISCO捕获了沙发扶手，而3D-INN将扶手与座位区合并。我们将DISCO的这种相对成功归因于从图像到3D结构的直接映射5472图4：KITTI-3D（左列）和PASCAL VOC（右列）上的2D/3D预测、可见性推断和实例分割的可视化。最后一行显示失败案例。圆和线表示关键点及其连接。红色和绿色表示汽车的左右两侧，橙色线连接两侧。如果推断其中一个关键点被遮挡，则虚线连接关键点。浅蓝色遮罩表示分割结果。图5：3D-INN和DISCO在IKEA数据集上进行3D狭窄预测的定性比较而不是将2D关键点预测提升到3D。5. 结论我们提出了一个框架，该框架深度监督CNN架构，以使用一系列中间形状概念来逐步开发2D/3D形状理解。3D CAD模型渲染流水线生成具有用于深度监督的监督信号的大量合成训练图像形状概念与3D重建的基本关系得到了我们的网络的支持，该网络在测试时很好地推广到真实图像，尽管我们的合成渲染不是照片级的。实验表明，我们的网络在公共数据集上的2D和3D地标预测方面优于当前最先进的方法，即使有遮挡和截断。此外，我们提出了初步-在单个CNN内联合学习多个对象类的3D几何的初步结果。我们未来的工作将通过学习不同对象类的表示来扩展这一方向。由于缺乏CAD训练数据，以及拓扑不一致的对象类别（如建筑物），本方法无法对高度可变形的对象进行建模这些也是今后工作的途径。更有趣的是，我们的深度监督可以潜在地应用于具有丰富中间概念的任务，例如场景物理推断。致谢这项工作是C的一部分李我们还感谢NSF在批准号下的支持NRI-1227277。5473引用[1] M. Aubry，D. Maturana，A.埃夫罗斯湾Russell和J.西维克3D椅子：使用大型CAD模型数据集的示例性基于零件的2D-3D对齐。CVPR，2014。2[2] A.班萨尔湾Russell和A.古普塔。Marr再访：通过表面法线预测进行2D-3D对齐。在CVPR，2016年。2[3] A. X.张氏T. 芬克豪泽湖 Guibas，P. Hanrahan，et al.Shapenet：一个信息丰富的3D模型存储库。arXiv：1512.03012，2015。四、五[4] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3D-R2 N2：一种用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。2[5] A.多索维茨基Springenberg和T.布洛克斯学习用卷积神经网络生成椅子。CVPR，2015。2[6] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI Vision Benchmark Suite。CVPR，2012。二、五[7] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。5[8] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。AISTATS，2010年。5[9] S. 古普塔山口阿尔韦阿埃斯河Girshick和J. 马利克在RGB-D图像中推断3DarXiv：1502.04652，2015年。2[10] S. Ioffe和C.赛格迪批次归一化：通过减少内部协变量偏移来加速深度网络训练。JMLR，2015. 4[11] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。arXiv：1408.5093，2014。5[12] A. Kanazawa，D. W. Jacobs和M. Chandraker WarpNet：用于单视图重建的弱监督匹配在CVPR，2016年。三五六[13] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象CVPR，2015。2[14] A.克里热夫斯基岛Sutskever和G. E.辛顿使用深度卷积神经网络的ImageNet分类NIPS，2012年。4[15] T. D. Kulkarni、W.F. Whitney，P.Kohli和J.B. 特南鲍姆深度卷积逆图形网络。2015年，在NIPS2[16] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深深地-监督网AISTATS，2015. 二、三[17] H.- J.Lee和Z.尘从单个视图确定3D人体姿势。CVGIP，1985年。2[18] J. J. Lim，A. Khosla和A.托拉尔巴FPM：精细姿态零件模型与三维CAD模型.2014年，在ECCV。2[19] J. J. Lim，H. Pirsiavash和A.托拉尔巴解析IKEA对象：精细姿势估计。InICCV，2013. 二、五、七[20] J. L.新界元朗Zhang和T.达雷尔。Convnets学习通信吗？在NIPS，2014。6[21] D. G. 洛感知组织与视觉识别。Kluwer Academic Publishers ， Norwell ， MA ， USA ，1985.1、4[22] D.马尔视野亨利·霍尔特公司股份有限公司、1982. 1、4[23] F.马萨湾Russell和M.奥布莉通过从真实视图到渲染视图的自适应深度示例CVPR，2015。2[24] R. Mohan和R.奈瓦提亚使用感知组织来提取3D结构。PAMI，1989年。1[25] P. Moreno，C. K.威廉斯角，澳-地Nash和P.科利。用逆向图形克服遮挡。在ECCV，2016年。 2[26] R. Mottaghi，Y. Xiang和S. Savarese一种由粗到细的三维姿态估计和子类别识别模型。CVPR，2015。7[27] B.佩皮克湾Stark，P. Gehler，and B.席勒用于对象类别检测的遮挡模式。CVPR，2013。2[28] D. J. Rezende，S.Eslami，S.Mohamed，P.巴塔利亚山Jader-berg和N.海斯图像三维结构的无监督学习。在NIPS，2016年。2[29] S. R. Richter，V.Vineet，S.Roth和V.科尔顿。玩数据：来自电脑游戏的地面真相。在ECCV，2016年。7[30] S. Sarkar和P.soundararajan 大型感知组织的监督学习：图谱划分和学习自动机。PAMI，2000年。1[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络arXiv：1409.1556，2014。4[32] B. J. 史密斯随机刺激下的组织知觉1986. 1[33] H.苏C. R. Qi，Y. Li和L.吉巴斯为CNN渲染：使用经过渲染的3D模型视图训练的CNN进行图像中的视点估计。在ICCV，2015年。二、四[34] M. Tatarchenko，A.Dosovitskiy和T.布洛克斯使用卷积网络从单个图像创建多视图在ECCV，2016年。2[35] L. Torresani、A. Hertzmann和C.布莱格勒从二维运动学习非刚性三维形状。在神经信息处理系统，页无，2003年。1[36] S. Tulsiani和J.马利克观点和关键点。CVPR，2015。二、六[37] J. Wu ， T. 薛， J.J. 林， Y。 Tian ， J.B. Tenenbaum，A.Torralba和W.T. 弗里曼。单图像3D解释器网络。在ECCV，2016年。二、五、七[38] T.吴湾，澳-地Li和S.- C.竹学习与或模型表示上下文和遮挡的汽车检测和视点估计。PAMI，2016. 2[39] Y. Xiang，中国西南地区崔，Y。Lin和S.Savarese 用于对象类别识别的数据驱动3D体素模式CVPR，2015。二、七[40] Y. 湘河，巴西 - 地 Mottaghi 和 S.Savarese BeyondPASCAL：A Benchmark for 3D Object Detection in theWild.InWACV，2014. 二五六七[41] Y. Yang和D. Ramanan具有柔性部件混合的铰接姿态估计。CVPR，2011。五、六[42] X. Yu，F. Zhou和M. Chandraker用于目标标志定位的深度变形网络。ECCV，2016。二、五、六5474[43] T. Zhou，P. 克雷亨布尔，M. Aubr y，Q. Huang和A. A.埃夫罗斯通过3D引导的循环一致性学习密集对应在CVPR，2016年。二、三[44] M. Z. Zi

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于深度监督的3D对象解析方法

基于深度学习的人体解析研究综述.pdf

基于深度学习的图像配准方法综述.pdf

写一份opencv基于深度学习的对象检测方法检测视频中的对象的说明文档

基于像素分类、基于对象分类、基于深度学习方法分类的区别联系

基于深度学习的人脸识别方法

基于深度学习的干旱预测方法研究进展

详细介绍基于深度学习的时频分析方法

基于深度学习的3D目标检测网络模型有哪些，要求要用上RGBD数据，尽量新一点的模型

基于深度学习的图像分类方法

基于深度学习的位姿估计方法研究背景

基于深度学习的图像去噪方法研究综述 baiduxueshu

基于深度学习的MRI重建方法

基于深度学习的数据增强方法

基于深度学习的上采样方法

基于深度学习的情感分析方法

基于深度学习的文本分类方法研究

基于半监督学习的深度神经网络有哪些？

基于深度学习的目标检测方法有哪些

基于深度神经网络的蒙特卡罗方法

基于单目视觉的深度估计方法

最新资源