室内场景理解中使用合成数据进行训练对多个计算机视觉任务有改进作用

78 浏览量更新于2023-10-16 收藏 4.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5287基于卷积神经网络张茵达<$宋舒然<$<$Ersin Yumer<$ Manolis Savva<$ Joon-Young Lee<$ Hailin Jin<$ Thomas Funkhouser<$†普林斯顿大学<$Adobe Research摘要室内场景理解是机器人导航和人类同伴辅助等应用的核心。在过去的几年里，数据驱动的深度神经网络由于其表示学习能力而优于许多传统方法。训练以获得更好的表示的瓶颈之一是核心场景理解任务（例如语义分割、法线预测和对象边界检测）所需的可用的每像素地面实况数据的量为了解决这一问题，提出了一些利用合成数据的工作.然而，缺乏对这种合成数据是如何产生的系统研究。在这项工作中，我们介绍了一个大规模的合成数据集与500K的物理渲染图像从45K逼真的3D室内场景。我们研究了渲染方法和场景照明对三个计算机视觉任务训练的影响：表面法线预测，语义分割和物体边界检测。这项研究提供了对使用合成数据进行训练的最佳实践的见解（更真实的渲染是值得的），并表明使用我们的新合成数据集进行预训练可以在所有三个任务上改进当前最先进的结果。1. 介绍室内场景理解对于许多应用是至关重要的，包括但不限于机器人代理路径规划、辅助人类同伴和监控系统。解决这些问题的最有前途的方法之一是使用数据驱动的方法，其中表示是从大量数据中学习的。然而，真实世界的数据是非常有限的，大多数这些任务，如广泛使用的室内RGBD数据集的正常预测所介绍的Silberman等人。[21]，其中仅包含1449个图像。由于各种要求，例如深度传感技术，*表示平等缴款。真实光传感器正常注释段。注释边界同步彩色图像同步正常同步段同步边界图1. 实际数据（顶部）与合成数据（底部）。对于真实数据，请注意法线贴图中的噪声和语义标签中对象边界的精确度下降。nology [21，23]和语义分割的过度人工努力[14，8]。此外，由于传感器噪声或标记错误，目前的数据集缺乏像素级准确性（图1）。①的人。这最近导致利用来自数字3D模型的2D渲染对（RGB图像和每像素标签图）形式的合成数据[2，6，11，30，24，17]。然而，有两个主要问题没有得到解决：（1）由于缺乏大型场景数据集，无法研究室内场景上下文如何影响训练，因此训练主要在具有独立3D对象的存储库上进行[4];（2）尚未对如何渲染此类数据进行系统研究;在训练中经常使用不切实际的渲染方法。效率的利益为了解决这些问题，我们引入了一个大规模（500K图像）的合成数据集，该数据集是由人类设计的45K3D房屋创建的[20]。使用这种真实的室内3D环境使我们能够创建2D图像，用于在现实环境设置中进行训练，其中支持结构（例如，例如墙壁、天花板、窗户）以及光源与普通家用电器一起存在。由于我们可以访问源3D模型，因此我们可以为所有任务生成密集的每像素训练数据，虚拟地没有成本。对3D场景的完全控制使我们能够系统地操纵室外和室内照明，5288OpenGL-DLOpenGL-ILMLT-IL/OLOpenGL-DLOpenGL-ILMLT-IL/OL图2. 使用OPEN GL-DL、OPEN GL-IL和MLT-IL/OL渲染输出示例。基于物理的渲染与适当的照明提供了最佳的渲染质量与软阴影和现实的材料，突出显示在放大的看法。前两行显示了我们数据集中的四个典型示例，最后两行显示了两个放大视图的示例。采样尽可能多的相机视点所需的，使用的形状在上下文或上下文外，并渲染与简单的着色方法，或基于物理的渲染。对于三个室内场景理解任务，即正常预测，语义分割和对象边缘检测，我们研究了不同的照明条件，渲染方法和对象上下文如何影响性能。我们使用我们的数据来训练深度卷积神经网络，用于语义分割，正常预测和对象边界预测的每像素预测，然后对真实数据进行微调。我们的实验表明，对于所有三个室内场景理解任务，我们提高了最先进的性能。我们还demonstrate，基于物理的渲染与现实的照明和软阴影（这是不可能的，没有上下文）优于其他渲染方法。综上所述，我们的主要贡献如下：• 我们引入了一个具有500K合成图像实例的数据集，其中每个实例由三个图像组成使用不同的渲染质量、每像素精确的法线贴图、语义标签和对象边界进行渲染数据集将被释放。• 我们演示了不同的渲染方法如何影响正常，分割和边缘预测任务。我们研究了物体背景、光照和光线对视觉效果的影响关于业绩的方法论。• 我们提供预训练的网络，经过微调后，在所有三个室内场景理解任务上都达到了最先进的水平2. 背景使用合成数据来增加深度神经网络训练的数据密度和多样性已经显示出了令人鼓舞的结果。迄今为止，合成数据已被用于生成用于预测对象姿态[24，17，9]、光流[6]、语义分割[12，11，30，18]和研究对象特征[2，13]。Su等人[24]使用在相对于相机具有规定角度的任意背景前面渲染的单个对象来生成用于学习预测对象姿势的数据。类似地，Dosovitskiyet al. [6]使用以任意运动渲染的个体物体来生成合成运动数据，用于学习预测光流。这两个作品都使用了不切实际的OpenGL渲染和固定的灯光，其中没有考虑到基于物理的效果，如阴影，反射。Movshovitz等人[17]使用环境地图照明，并表明它有利于姿势估计。然而，由于单个对象是在任意2D背景前面渲染的，因此这些方法生成的数据由于其周围环境（例如阴影和来自具有不同材料的附近对象的此外，它们也缺乏所审议对象的现实背景。Handa等人[12，11]介绍了一个费力创建的3D场景数据集，并演示了语义分割训练的用法。然而，他们的数据包括数十个房间，与我们的45K真实房屋数据集相比，这在上下文5289布局。此外，由于在场景描述中缺乏颜色和表面材料，他们的数据集没有RGB图像，因此他们只能生成深度通道。Zhang等人[30]提出用ShapeNet [4]的3D模型替换深度图像中的对象。然而，并不能保证替换是否会相对于周围的对象正确地定向，或者在上下文中具有风格。相比之下，我们利用了由人类创建的室内场景的大型存储库，这保证了数据的多样性，质量和上下文相关性。Xiang等[27]介绍了一个3D对象-2D图像数据库，其中3D对象被手动对齐到2D图像。图像提供上下文，但是3D数据仅包含没有房间结构的对象，不可能提取整个场景的每像素地面实况。该数据集也受到提供的图像数量（90K）的限制。相比之下，我们可以提供尽可能多的（渲染图像，每像素地面实况）对。最近，Richteret al.[18]演示了通过拦截游戏和图形硬件之间的通信从真实游戏引擎收集他们表明，收集的数据可以用于语义分割任务。他们的方法确保了游戏中尽可能多的上下文（尽管它仅限于户外上下文，类似于SYNTHIA[19]数据集）。然而，他们通过跨帧跟踪几何实体，大大减少了注释中的人力，地面实况（即，每像素语义标签）收集过程不是完全自动化的，并且由于人机交互而容易出错：即使它们通过帧跟踪几何形状，并且传播大部分标签，人们也需要标记在所记录的合成视频中出现的新对象。此外，由于缺乏对场景中的低级别构造的另一方面，我们的数据和标签生成过程是自动化的，我们可以完全控制场景的照明和渲染方式。3. 数据我们修改了来自SUNC数据集[20]的3D场景模型以生成合成数据。在SUCG中，有45，622个场景，包含84个对象类别中2644个唯一对象的500多万个实例。对象模型提供用于获得照片级真实感渲染的表面材料，包括反射率、纹理和透明度。该数据集的一个重要方面是室内布局、家具/对象对齐和表面材料是由人们设计的，以复制现有的设置。然而，这些原始3D模型缺乏足够准确的几何形状（例如，固体壁）和材料（例如，用于照明的发射表面）以用于基于物理的呈现。我们解决了这些问题，并在我们的项目网页上发布了精确的全3D场景模型。图3. 我们数据集中的典型相机样本，以及从这些视点渲染的相应图像。3.1. 摄像机采样对于每个场景，我们选择一组摄像机，其过程是寻求一组不同的视图，在上下文中看到许多对象。我们的过程开始于为每个房间的六个水平视图方向扇区中的每一个选择对于六个视图中的每一个，我们在具有0.25分辨率的2D网格上对密集的一组相机进行采样，在每个网格单元内选择随机视点，在60度扇区内选择随机水平视图方向，在地板上方1.5-1.6m的随机高度，以及11度的向下倾斜角，同时排除任何障碍物的10 cm内的视点对于这些摄像机中的每一个，我们渲染一个项目缓冲区，并计算图像中每个可见“对象”（除了墙、天花板和地板之外的所有对象）覆盖的像素数对于每个房间中的每个视图方向，我们选择像素覆盖率最高的视图，只要它至少有三个不同的可见对象，每个对象至少覆盖1%的像素。该过程产生用于N个房间的6N个候选相机。图3显示了从示例房屋中采样的摄像机。3.2. 图像渲染我们使用渲染算法和照明条件的四种组合从这些选定的相机渲染图像，范围从使用OpenGL管道的方向光的快速/不真实渲染到使用Mitsuba的局部光的基于物理的渲染。OpenGL with Directional Lights（OPEN GL-DL）.我们的第一种方法使用OpenGL管道渲染图像场景使用三种灯光照明：沿着摄像机观察方向指向的单方向头灯和相对于场景指向几乎相反的对角方向的两个方向灯。不包括局部照明、阴影或间接照明。OpenGL with Indoor Lights（OPEN GL-IL）. 我们的第二种方法也使用OpenGL管道.然而，在这方面，5290完全渲染路径BDPTMLT+16 ds MLT+512 ds基于室内灯光的物理渲染（MLT- IL/OL）。我们还为场景中的照明设备产生的光设置了室内照明。然而，3D数据集是在对象级别标记的（例如，灯），并且具体的发光部件（例如灯泡）未知。因此，我们手动标记所有发光部件MLT+512 ds40s132s25s31s以产生正确的室内照明。为图4. 不同渲染技术的质量和运行时间niques.路径跟踪不能很好地收敛，并引入白点伪影。双向路径跟踪工作良好，但非常慢。具有用于直接照明的低采样率的大都会光传输（MLT）仍然偶尔引入白点伪影。我们采用高采样率的MLT直接照明。用近似于室内照明器具的发射的局部光来增强场景。对于每个发光的对象，我们创建一组OpenGL点光源和聚光灯，以近似其发射模式。然后，我们在启用这些灯光的情况下渲染场景（根据照明强度为每个对象选择最佳的8个光源），并且不包括阴影或间接照明。基于室外灯光的物理渲染（MLT-OL）。我们的第三种方法尽可能地复制正确照明的物理原理，以生成照片级真实感渲染。为了做到这一点，我们设置了室外照明，这是一个环境映射的形式与真正的高清晰度球形天空的照片。复制室外照明的环境贴图通过窗户投射，并自然地对室内照明做出贡献所有窗户都设置为全透明，以防止玻璃上的伪影，并方便室外光线通过。由于模型不真实，因此将人和植物从场景中删除。默认的墙纹理设置为纯白色。我们使用Mitsuba[1]进行基于物理的渲染。我们使用路径空间Metropolis光传输（MLT）积分器[26]，因为它可以更有效地处理复杂的结构和材料。图4显示了使用不同积分器时渲染质量与时间的比较。我们可以看到，具有直接照明采样率512的MLT积分器以可负担的计算时间产生几乎无伪影的渲染。所有材料均设置为双面，以防止翻转曲面法线。使用SUCG的原始模型渲染的图像显示房间角落有严重的漏光。原因是墙、地板和天花板由单个平面表示，因此光线可以在边界处穿过。我们通过给墙指定厚度（在我们的实验中为10厘米）来解决这个问题，这样每个墙都由两个表面表示。我们还强制连接墙彼此牢固相交，以防止渲染过程中浮点数精度问题导致的漏光。不具有灯泡的照明器具，表示几何形状在灯泡被认为不可见的情况下，我们在适当的位置手动添加球形灯泡几何照明器具的灯泡几何形状被设置为区域发射器以作为室内灯工作与室外照明类似，我们使用Mitsuba和MLT积分器用于基于物理的室内照明。图2显示了在同一个摄像机下通过不同渲染技术生成的图像的几个示例我们可以看到，特别是从放大的观点，MLT-IL/OL产生柔和的阴影和自然的外观材料。3.3. 图像选择我们的图像合成流水线的最后一步是选择图像的子集用于训练。理想情况下，我们的合成训练集中的每个图像都将与测试集中的图像相似（例如，NYUv2）。然而，由于照明不足或深度的非典型分布（例如，被特写对象遮挡）。我们执行一个选择过程，只保留在颜色和深度分布方面与NYUv2数据集中的图像相似具体来说，我们首先计算NYUv2数据集中每个真实图像的归一化颜色直方图。对于由MLT-IL/OL渲染的每个图像，我们还获得归一化的颜色直方图，并计算与来自NYUv 2的直方图的相似性，作为每个bin的最小值的总和（图5）。然后，对于每个合成的图像，我们将其与所有NYUv2图像相比的最大相似性分配为分数，并对深度通道进行相同的最后，我们选择颜色得分和深度得分都大于0.70的所有图像。此过程从原始的779，342个渲染图像中选择568，793个图像。这些图像形成了我们的合成训练集，在本文的后半部分称为MLT3.4. 地面实况生成我们生成每像素地面实况图像编码表面正常，语义分割和对象边界的每个图像。由于我们拥有完整的3D模型和摄像机视点，因此可以通过OpenGL渲染来生成这些地面图像具有项目缓冲器）。4. 室内场景理解任务我们研究了三个基本的场景理解任务：（1）表面法线估计，（2）语义分割，以及（3）对象边界检测。对于所有任务，我们展示了我们的方法和合成数据与52910.50.60.70.80.9深度直方图相似性颜色直方图相似性0.5 0.6 0.70.80.9图5. 合成数据和NYUv2的真实数据之间的直方图相似性，基于此我们进行图像选择。最先进的作品。具体来说，我们比较与Eigen等人。[7]对于正态估计，Longet al. [15]Yuet al. [29]对于语义分割，谢等人。[28]用于物体边界检测。我们使用第3节中介绍的不同渲染条件系统地执行这些比较。此外，对于正常估计，我们还添加了没有上下文渲染的对象，这使得我们能够在使用合成数据时研究上下文的重要性。4.1. 法线估计法我们利用具有跳过层的全卷积网络[15]（FCN）进行正常估计，通过结合VGG-16网络[22]中的多尺度特征图来执行正常估计。具体来说，前端编码器与VGG-16中的conv 1-conv 5保持相同，解码器与具有卷积和解池层的编码器对称。为了生成高分辨率的结果并缓解消失梯度问题，我们在网络的下游和上游部分的每对相应卷积层之间使用跳过链接。为了进一步用最大池化来补偿空间信息的损失，网络记住下游的池化开关我们使用地面实况和估计之间的点积的倒数作为损失函数，类似于Eigen等人。[七]《中国日报》没有上下文的对象。为了便于与以对象为中心的合成数据进行系统的比较，在缺少正确上下文的情况下，除了第 2 节中介绍的渲染方法外，我们还使用ShapeNet[4]中的形状。3.2. 我们从家具相关的类别中随机挑选了3500个模型（例如，床、椅子、橱柜等）并从随机选择的距离和观察方向设置20个摄像机。更具体地说，我们将模型放置在3D球体的中心，并通过将球体细分为二十面体的面来均匀地采样球体上的162个点。对于每个摄像机，选择二十面体的随机顶点。这一点与球面中心相机放置在距离中心1. 5 × 4。对象边界框的5倍对角线，并指向中心。训练我们直接对我们的合成数据进行预训练，然后在NYUv2上进行微调，类似于Bansa等人。[3]的文件。我们使用RMSprop[25]来训练我们的网络。学习率设定为1×10−3，每300K iter减少一半预培训的情况; 1 × 10−4减半每一万次迭代进行微调。彩色图像128.第128章.我们使用[21]提供的程序在NYUv2上生成地面实况表面正态分布，因为它提供了更多的局部细节，与其他程序相比，它产生了更真实的形状表示[16]。地面实况还为每个像素提供分数，指示从局部深度转换的法线是否可靠。我们在训练过程中只使用可靠的像素。实验我们用不同的训练方案对NYUv2进行了正常的估计实验。首先，我们直接在NYUv2上训练。然后我们分别在各种MLT和OpenGL渲染设置上进行预训练，并在NYUv2上进行微调。表1显示了性能。我们可以看出：• 在MLT上预训练并在NYUv2上微调的模型（最后一行）实现了最佳性能，优于最先进的技术。• 在没有微调的情况下，MLT上的预训练模型明显优于OpenGL上的预训练模型基于渲染，并实现与直接在NYUv2上训练的模型相似的性能这表明，基于物理的渲染与正确的照明是必不可少的编码有用的信息，为正常的预测任务。• 在图像选择之后使用图像训练的模型比使用所有渲染的模型获得更好的性能图像，这表明良好的训练图像的质量是重要的预训练。• 具有室内和室外照明的MLT显著优于仅具有室外照明的情况，这表明室内照明的重要性。图6显示了NYUv2测试分割的正态估计的视觉结果。我们可以看到，与在NYUv2上进一步微调的模型相比，在MLT渲染上预训练的模型的结果图6的最后一列显示了我们的结果与地面实况相比的角度误差，我们可以看到，误差的重要部分集中在墙壁上，其中我们的纯平面预测是墙壁法线的更好表示另一方面，地面实况显示出与正确的法线贴图的显著基于这一观察，我们强调了高质量地面实况的重要性。很明显，在合成数据上进行训练有助于我们的模型在某些区域（如大面积平坦区域）超越并纠正NYUv2地面实况数据5292预训练Finetune选择平均值（%）↓中位值（%）↓11个国家。25岁以下（%）↑二十二岁5%（%）↑30天（%）↑Eigen等人[七]《中国日报》NYUv222.227.3015.321.1238.627.2164.052.6173.964.72MLT对象--48.7847.493.5612.7921.35MLT-OL-没有49.3342.307.4723.2434.09MLT-IL/OL-没有28.8222.6624.0849.7061.52MLT-IL/OL-是的27.9021.2926.7652.2163.75OPEN GL-DL-是的34.0228.0018.5641.1452.90OPEN GL-IL-是的33.0626.6820.8943.4654.66OPEN GL-ILNYUv2是的23.3816.1235.9862.9373.17MLT-IL/OLNYUv2是的21.7414.7539.3766.2576.06表1. 使用不同训练协议对NYUv2进行正态估计的性能。前三列列出了用于预训练和微调的数据集，以及图像选择是否完成。评估指标是角度误差的平均值和中值，以及误差小于11的像素的百分比。25度22度5分，30分。测试图像地面实况NYUv2 MLT MLT+NYUv2误差图图6. 正常估计结果。MLT上的预训练模型提供了更多的局部细节，而NYUv2上的进一步微调模型提供了最佳性能。最后一列显示了覆盖有角度误差图的彩色图像我们可以看到，在地面真实噪声很大的情况下，会出现相当多4.2. 语义分割法我们使用[29]中提出的网络模型进行语义分割。网络结构采用VGG-16网络[22]，但使用扩张卷积层来编码上下文信息，在我们的实验中，它在NYUv 2上实现了比[15]更好的性能。我们使用[29]中描述的过程在ImageNet分类任务上训练的VGG-16网络[22]初始化权重。我们对与[10]相同的40个语义类进行评估。训练为了使用合成数据进行预训练，我们将合成的地面实况标签映射到适当的类在这40个类别中命名（请注意，某些类别在我们的合成数据中不存在）。我们首先使用ImageNet中预先训练好的权重初始化网络。然后，我们在我们的合成数据集上进行预训练，最后在NYUv2上进行微调。我们还通过在Ima-geNet上进行预训练，然后直接在NYUv2上进行微调，复制了相应的最先进的训练时间表。我们使用随机梯度下降与学习在合成数据和NYUv2上训练的速率为1× 10−55293实验我们使用平均像素级交集（IoU）来评估语义分割的性能。我们在合成数据5294图7. 语义分割结果。在合成渲染数据上预训练的模型给出了更准确的分割结果。例如，仅使用纽约大学数据训练的模型错误地标记了椅子，而使用合成数据预训练的模型预测正确。0.120.100.08输入预训练平均IoUHHAImageNet 27.6ImageNet+OpenGL 30.2Long等人[15]31.6Yu等人[29]31.70.06RGBImageNet + OPEN GL 32.8ImageNet + MLT33.20.040.02表2.在不同训练设置下，NYUv2上的语义分割性能。所有型号都在NYUv2上进行了微调。0.00图8.我们数据中的类分布。4.3. 目标边界检测使用不同的渲染方法：深度、OpenGL颜色渲染和MLT颜色渲染。对于基于深度的模型，我们使用与[9]相同的HHA对深度进行编码。总的来说，与直接在NYUv2上训练相比，在合成数据上进行预训练有助于提高语义分割的性能，如图7和表4.2所示。这表明，合成数据有助于网络学习比有限的真实数据更丰富的高级上下文信息。Handa等人[11]仅使用渲染深度来训练他们的11类语义分割模型，因为他们的数据集中缺乏真实的纹理和材料（参见表4.2中的HHA结果）。然而，我们的研究结果表明，颜色信息对于更精细的语义分割任务至关重要：在40类任务中，用颜色信息训练的模型取得了明显更好的性能。对于基于颜色的模型，基于物理渲染图像的预训练有助于实现比OpenGL渲染的这一发现与正常的估计实验是法我们采用谢等人。s[28]用于对象边界检测任务的网络架构，因为他们在NYUv2上报告了性能。该网络从VGG-16的前端开始，然后是一组并行输出层，这些层以从细到粗的多个尺度生成边界图。然后，加权融合层学习权重，以多尺度组合边界输出，以产生最终结果。为了评估网络，我们遵循[10]中的设置，其中边界真实值被定义为实例级分割的边界。训练与语义分割类似，我们首先在ImageNet上使用预训练的权重初始化网络然后，我们在我们的合成数据集上进行预训练，并在NYUv2上进行微调。我们还通过在ImageNet上进行预训练来复制最先进的训练程序，并直接在NYUv2上进行微调，以进行比较。为了突出多种渲染技术之间的差异，我们只在彩色图像上训练，我们遵循同样的程序床椅子沙发桌子门窗柜台书桌百叶窗枕头电视床头柜台灯梳妆台布书架马桶浴缸驾驶室后视镜地垫纽约大学渲染像素比地面实况NYUv2+MLTNYUv2测试图像袋浴缸床百叶窗书书架箱衣服橱柜顶棚椅子反幕书桌门梳妆台地板地板垫冰箱家具灯镜床头柜纸人图片枕头道具货架淋浴浴缸水槽沙发结构台式电视厕所毛巾壁白板窗口5295图9. 边界估计结果。最后一行显示了覆盖有无（NYUv2）和有（MLT+NYUv2）合成数据预训练的模型之间的差异的地面实况。红色和绿色表示通过MLT+NYUv2增强和抑制的像素与没有预训练的模型相比，具有合成数据预训练的在NYUv2上微调。表3显示，合成数据预训练对所有评估指标提供了一致的改进。一致地，我们看到使用MLT渲染预训练的模型实现了最佳性能。图9显示了不同模型结果之间的比较。合成数据的预训练模型，表3.NYUv2上的边界检测性能在[28]。采用标准的随机梯度下降法进行优化。学习率最初设置为较小（2× 10−7），以处理NYUv 2的较大图像分辨率，并且在NYUv 2上每10K次迭代后降低到1/ 10对于合成数据，类似对于我们的类似于正常估计任务的过程，每300k次迭代降低学习速率。实验我们训练谢等人提出的模型。s [28]，并在表3中显示了我们对NYUv2的比较和评估。按照[28]的设置，我们将第2到第4个多尺度层的输出平均值作为最终结果，并执行非最大值抑制和边缘细化。我们在[10]中使用地面真实，在[5]中使用评估指标。我们使用[28]发布的代码进行训练，并实现了表3第一行所示的性能。我们无法复制论文中的确切数字，但我们相当接近，这可能是由于训练过程的随机性。我们首先根据合成数据集上的ImageNet初始化来微调模型，然后进一步对真实数据的微调产生更清晰的结果，但对噪声更敏感最后一列强调了在我们的综合数据上进行预训练和不进行预训练的模型之间的我们可以看到，对象本身的边缘以及背景中的边缘（绿色）被抑制，真实对象边界（红色）被模型通过合成的预训练增强。5. 结论我们引入了一个大规模的合成数据集，其中包含500K渲染图像，这些图像是具有不同照明和渲染设置的上下文有意义的3D室内场景，以及它们渲染的室内场景模型我们表明，预训练我们的物理为基础的渲染与现实主义的照明提高性能的室内场景下的理解任务后，国家的最先进的方法。致谢这项工作得到了Adobe、Intel、Facebook和NSF的支持（IIS-1251217和VEC 1539014/ 1539099）。它使使用来自Planner5D的数据以及NVIDIA和Intel提供的硬件。Gnd错误MLT+NYUv2NYUv2MLT预训练FinetuneOSD↑OIS↑AP↑R50↑[28]第二十八话-0.7130.7250.7110.267OPEN GL-IL-0.5230.5550.5110.504MLT-IL/OL-0.6040.6210.5870.749OPEN GL-ILNYUv20.7160.7290.7150.893MLT-IL/OLNYUv20.7250.7360.7200.887测试图像5296引用[1] Mitsuba 物理渲染器。 http ： //www.mitsuba-renderer.org/网站。[2] M.奥布里和B. C. Russell.用计算机生成的图像理解深层特征。在IEEE计算机视觉国际会议论文集，第2875[3] A.班萨尔湾C. Russell和A.古普塔。Marr再访：通过表面法线预测进行2D- 3D对齐。计算机视觉与模式识别会议，2016年。[4] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. Su等人Shapenet：一个信息丰富的3d模型库。arXiv预印本arXiv：1512.03012，2015。[5] P. Dol la'r和C. L. 齐特尼克使用结构森林的快速边缘检测 IEEE transactions on pattern analysis and machineintelligence，37（8）：1558[6] A.多索维茨基山口Fischery，E.伊尔格角哈兹尔巴斯河谷戈尔科夫，P. van der Smagt，D.Cremers，T.Brox等人Flownet：使用卷积网络学习光流。2015年IEEE国际计算机视觉会议（ICCV），第2758IEEE，2015年。[7] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页[8] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal of Computer Vision，88（2）：303[9] S. 古普塔山口阿尔韦阿埃斯河Girshick和J. 马利克将3d模型与杂乱场景的rgb-d图像对齐。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition中，第4731-4740页[10] S. Gupta，P. Arbelaez，and J.马利克rgb-d影像室内景物的感知组织与识别在IEEE计算机视觉和模式识别会议的Proceedings，第564-571页[11] A. 汉达河谷帕特劳齐安河谷Badrinarayanan，S.支架和R.西波拉Scenenet：用合成数据理解真实世界的室内场景。arXiv预印本arXiv：1511.07041，2015年。[12] A. Handa，T. Whelan、J.McDonald和A.戴维森RGB-D视觉里程计、3D重建和SLAM的基准。在IEEE Intl. Conf.on Robotics and Automa-tion ， ICRA ， Hong Kong ，China，May 2014.[13] B. Kaneva，A. Torralba和W. T.弗里曼。使用真实感虚拟世界评价图像特征。2011年国际计算机视觉会议，第2282- 2289页IEEE，2011年。[14] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在欧洲计算机视觉会议上，第740-755页。Springer，2014.[15] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。InProceedings of theIEEE计算机视觉和模式识别会议，第3431-3440页，2015年。[16] B. Z. 卢伯·拉迪克和M. 波勒菲。判别式训练的稠密表面法线估计。[17] Y. Movshovitz-Attias，T. Kanade和Y.酋长照片级真实感渲染对视觉学习有多大用处？arXiv预印本arXiv：1603.08152，2016年。[18] S. R. Richter，V. Vineet，S. Roth和V.科尔顿。播放数据：从电脑游戏中得到的真相。欧洲计算机视觉会议，第102-118页。施普林格，2016年。[19] G.罗斯湖Sellart，J. Materzynska，D. Vazquez和A. M.洛佩兹synthia数据集：一个大的合成图像集，用于城市场景的语义分割。在IEEE计算机视觉和模式识别会议的Proceedings中，第3234-3243页[20] A. Z. A. X. C. M. S. T. F. 宋修然，余费舍尔从单个深度图像完成语义场景。在arXiv，2016。[21] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746-760页。Springer，2012.[22] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[23] S. 宋，S.Lichtenberg和J.萧SUN RGB-D：一个RGB-D场景理解基准套件。CVPR，2015。[24] H.苏C. R. Qi，Y. Li和L.吉巴斯为cnn渲染：使用经渲染3d模型视图训练的cnn进行图像中的视点估计。在IEEE国际计算机视觉会议集，第2686[25] T. Tieleman和G.辛顿讲座6.5-rmsprop：将梯度除以其最近幅度的运行平均值。COURSERA：Neural Networksfor Machine Learning，4（2），2012。[26] E.维奇和L.吉巴斯大都会轻型运输车。在第24届计算机图形和交互技术年会的会议记录中，第65-76页。ACM出版社/Addison-Wesley出版公司一九九七年。[27] Y. Xiang ，中国西南地区金， W 。 Chen ， J. Ji ， C.Choy，H.苏河，巴西-地莫塔吉湖Guibas和S.SavareseObjectnet3d：用于3D对象识别的大型欧洲计算机视觉会议，第160-176页。施普林格，2016年。[28] S. Xie和Z.涂。整体嵌套边缘检测。在IEEE计算机视觉国际会议的Proceedings，第1395-1403页[29] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR，2016年。[30] Y. Zhang，M. Bai，P. Kohli，S. Izadi和J.萧Deepcont-text：用于3d整体场景理解的上下文编码神经通路arXiv预印本arXiv：1603.04922，2016。

下载后可阅读完整内容，剩余1页未读，立即下载