基于分层RGB-D融合的表面法线估计

124 浏览量更新于2023-10-19 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6153基于分层RGB-D融合的曾锦1黄童1，2黄云牧1严琼1孙文秀1陈静2王永田21商汤科技2北京理工1{曾进，童艳峰，黄云木，燕琼，孙文秀}@ sensetime.com2{chen74jing29，wyt}@ bit.edu.cn摘要商品RGB-D相机的不断增长推动了场景理解领域的应用。然而，作为一个基本的场景理解任务，从RGB-D数据的表面法线估计缺乏深入的研究。本文提出了一种自适应特征重加权的分层融合网络，用于从单个RGB-D图像中估计表面法线。具体地说，彩色图像和深度的特征在多个尺度上连续集成，以确保全局表面平滑度，同时保留视觉上显著的细节。同时，深度特征在合并到颜色分支之前用从深度估计的置信图此外，一个混合多尺度损失函数的设计，学习准确的正常估计噪声地面实况数据集。大量的实验结果验证了融合策略和损失设计的有效性，优于最先进的正常估计方案。1. 介绍近年来，逐像素表面法线估计得到了广泛的研究。以往的正常估计工作大多假设单一的RGB图像输入[8，26，1，33]，在大多数情况下提供令人满意的结果，尽管形状特征的损失和错误的结果在突出或黑暗的地区，如图所示。第1段（c）分段。RGB-D摄像机现在是商业上可获得的，导致在场景理解的应用中的巨大性能增强，例如，语义分割[27，5，23]、对象检测[11，20]、3D重建[15，18，12]等。利用传感器给出的深度，可以通过广泛使用的NYUv2数据集[22]中使用的最小二乘优化[21，9]*表示同等贡献。(a) RGB图像（b）传感器深度（c）使用RGB(d) 使用深度（e）早期融合（f）分层融合图1。Matterport3D数据集中的示例。(a)RGB输入;（b）深度输入;正常估计（c）单个RGB [33]，（d）深度修复[9]，（e）RGB-D早期融合[32]，（f）提出的分层RGB-D融合。但是正常的质量受到深度的破坏，例如，由于光滑、黑色、透明和遥远的表面[24]，沿物体边缘的传感器噪声或丢失的像素，如图所示。第1段（d）分段。这促使我们结合颜色和深度输入的优势，同时弥补彼此在正常估计任务中的不足。具体地，利用RGB信息在深度上填充缺失像素;同时将深度线索融合到RGB结果中，增强了清晰边缘，纠正了错误估计，得到了具有精细细节的完整法线图。然而，结合RGB和深度进行正常估计的研究尚未得到广泛研究。据我们所知，唯一考虑RGB-D输入进行正常估计的工作采用早期融合，即。，使用深度作为RGB输入的附加通道，与仅使用RGB输入的方法相比，性能提高很少[32]。缺乏适当的网络设计来结合深度和彩色图像中的几何信息是充分利用的障碍6154深度传感器。与先前使用早期融合的RGB-D法向估计工作不同[32]，我们提出在解码器侧以分层方式合并来自RGB和深度分支的多个尺度的特征，以保证融合结果中的全局表面平滑度和局部另外，从深度输入估计逐像素置信度图，用于在合并到RGB分支中之前重新加权深度特征，以便减少来自深度的伪影，其中对缺失像素和沿着对象边缘的像素具有较小一个例子显示在图。1，其中所提出的方案优于现有技术的基于RGB、基于深度、基于RGBD的方法。除了缺乏RGB-D融合方案之外，提供传感器深度和地面实况深度对的数据集的短时间是RGB-D正常估计的另一个障碍，因为DNN方法的性能受到数据集质量的影响[19，30]。广泛使用的火车-将数据集用于正常估计，例如，NYUv 2 [22]不为捕获的RGB-D图像提供完整的地面真实法线，因为它是在修复后直接从捕获的深度计算的[14]。如果在NYUv2上训练，网络将接近修复算法。相反，我们使用Matterport 3D [2]和ScanNet [6]数据集，其中RGB-D由相机捕获，地面实况正常通过[32]提供的多视图重建获得。然而，由于多视图重建误差，地面实况并不完美为了克服地面实况中的伪影，我们提出了一种基于地面实况法线图中的噪声统计的混合多尺度损失函数，在大分辨率下使用L1损失以获得更清晰的结果，在小分辨率下使用L2损失以确保粗尺度精度。总之，我们工作的主要贡献是：• 通过将RGB和深度输入经由所提出的分层融合方案合并，这两个输入能够在正常估计中互补，用深度细化细节，并且用颜色填充缺失的深度像素;• 利用置信度图对深度特征进行重新加权，减少了深度特征中伪影的影响;• 通过分析地面实况中的噪声统计量，设计了一种混合多尺度损失函数，在地面实况不完善的情况下仍能提供高保真的精确结果。通过与现有方法的比较和广泛的消融研究，验证了网络结构的设计损失函数。本文的结构如下。第2节讨论了相关工作，第3节详细讨论了所提出的方法。消融研究和与最先进方法的比较见第4节，工作总结见第5节。2. 相关工作2.1. 表面法线估计以前的作品大多使用单个RGB图像作为输入。Eigen等人[8]设计了一种三尺度卷积网络架构，该架构首先用全图像产生粗略的Wang等人[28]提出了一种网络结构，它集成了不同的几何信息，如局部、全局和消失点信息来预测表面法线。最近，Bansalet al.[1]提出了一种跳跃连接结构，将不同尺度的CNN响应连接起来，以捕获每个尺度的相应细节，Zhanget al.[33]采用了U-Net结构，实现了最先进的性能。由于从RGB输入中提取几何信息和纹理干扰的困难，预测的细节很差，在照明不足或高照明的区域中具有错误的结果基于深度的表面法线可以通过几何方法从深度推断，其在几何上取决于相邻像素然而，在普通数据集中使用的深度相机，NYUv2 [22]，Matterport3D [2]，ScanNet [6]通常无法感知光滑，明亮，透明和遥远表面上的深度[32，29]，导致获得的深度图像中出现孔洞和损坏。为了克服从深度推断的法线图中丢失的像素，一些作品提出使用RGB图像对深度图像进行修补[7，10，16，25，31]。Silberman等人[22]使用基于优化的方法[14]来填充深度图中的孔。Zhang等人[32]使用卷积网络来预测单个RGB图像的像素表面法线，然后使用预测的法线来填充原始深度中的孔。然而，深度修复不能处理深度上的大洞;此外，深度中的噪声将破坏基于深度的正常估计性能。基于法线-深度一致性的深度和表面法线之间存在很强的几何相关性。法线可以从邻近像素的深度计算，并且深度可以用法线变化来细化。例如，Wanget al.[26]提出了一种四流卷积神经网络来检测平面区域，然后使用稠密条件随机场分别对平面区域和平面边界中基于深度和表面法线相关性的结果进行平滑。Chen等人[3]第三节6155图2.提出了一种层次化的RGB-D融合算法，该算法由位于图像上方的RGB分支、位于图像右下方的深度分支和位于图像左下方的置信度图模块组成。融合模块被抽象为融合网络中的融合层，并在左下方示出。一个320×240的输入用于演示。建立了一个新的数据集，并提出了两个损失函数来衡量预测法线和深度标签之间的一致性，用于深度和法线预测。Qi等人[21]提出使用彩色图像预测初始深度和表面法线，然后使用几何一致性相互交叉细化。这些方法提供不同的方案来促进法线和深度之间的几何一致性，但是依赖于单个RGB输入并且不考虑来自深度传感器的噪声。基于RGB-D的基于RGB-D的正态估计在以前的工作中没有被广泛研究已简要讨论了RGB-D输入的正常估计，[32]其中采用了早期融合，据报道几乎与使用RGB输入相同。但方法设计不当，结论不明确.虽然基于3D重建的方法（如[18]）可用于正常估计，但这些方法需要一系列RGB-D图像，这超出了本文的范围在RGB-D融合表面法线估计设计的缺乏激发了我们的工作。2.2. RGB D融合方案尽管缺乏基于RGB-D的正常估计的研究，但已探索了用于其他正常估计的RGB-D融合方案。任务，其中语义分割是研究最广泛的任务之一，例如，使用RGB-D作为四通道输入的早期融合[8]、后期融合[4]、深度感知卷积[27]或使用3D点云格式[20]。与这些作品的不同之处在于，它们不像正常预测那样需要每像素精度，即，一个物体的标签内部是恒定的，但是对于正常估计，需要在每个像素处进行正确的预测，并且最显著的困难在于精确的尖锐细节。因此，我们采用分层融合与置信图重新加权，以加强边缘的融合结果，而不会带来的深度伪影。3. 方法如示于图2、分层RGB-D融合网络由RGB分支、深度分支和置信度图估计三个模块组成。在本节中，我们介绍了用于RGB和深度分支的分层融合的流水线，其中融合模块在不同尺度下，以及融合模块内部用于深度调节的置信图估计，之后详细介绍了混合损失函数设计。在补充中提供了深度网络的详细架构。6156nnc d cd3.1. 层次RGB D融合给定彩色图像Ic和传感器深度Id，我们的目标是通过最小化其与地面真实法线I（gt），i的距离来估计表面法线映射In。e. 、3.1.2与现有RGB-D融合方案的比较现有的RGB-D融合方案大多采用单尺度融合。[32]在输入端融合RGB-D，即使用深度作为RGB的附加通道然而，RGBminθL（I（gt），fθ（Ic，Id）），（1）和深度来自不同的域，并且不能使用与四通道输入相同的编码器来正确处理其中fθ表示用于生成由参数θ参数化的正态估计In的融合网络函数，其经由反向传播进行端到端训练采用层次融合的方法将深度分支与RGB分支融合，实现了整体表面方向的校正和视觉显著特征的增强。3.1.1网络设计首先，在输入是彩色图像I c的RGB分支中，我们采用了与[ 33 ]中使用的类似的网络结构，其中全卷积网络（FCN）[17]用VGG-16骨干构建，如图3中的RGB分支所示。二、具体地，编码器与VGG- 16相同，除了在编码器的最后两个卷积块中，即，、 conv4 和conv5，信道数目从512减少到256以去除冗余模型参数。编码器配有对称解码器，并配备了跳过连接和共享池掩码用于学习局部图像特征。同时，Id被馈送到深度分支中以提取具有与RGB分支类似的网络结构的几何特征，除了RGB编码器中的最后一个卷积块被移除以给出简化模型。融合发生在解码器侧。如图2、将解码器中每个尺度的深度特征（以绿色着色）传递到融合模块中，并用下采样的置信图（以紫色着色）重新加权，并重复到与深度特征相同的分辨率。然后，重新加权的深度特征与具有相同分辨率的颜色特征连接，并通过去卷积层以给出融合输出特征（以黄色着色）。因此，在尺度l下的融合模（简称为FM）被给出为：放。例如，我们采用与[ 33 ]相同的网络结构，由VGG-16编码器和具有跳跃连接的对称解码器组成，并使用RGB-D四通道输入而不是单个RGB来生成法线，如图所示。第7（d）段。输出法线不显示全局平滑度，尤其是在缺少深度像素的区域。这是因为CNN网络无法在没有关于深度伪影的先验知识的情况下处理来自RGB和深度的不同域信息。在[4]中采用RGB和深度的概率图的后期融合进行分割，在这里，我们通过用指示深度像素是否可用的二进制掩码替换概率图来概括正常估计的网络结构，给出图中的结果7（e）。我们使用的二进制掩码的作用与[4]中的概率图的作用是一致的，它表明源是可信的。与早期融合类似，晚期融合的结果沿深度孔具有明显的伪影，表明融合不平滑。鉴于此，当RGB和深度包含不同的噪声时，单尺度融合对于融合RGB和深度不是有效的RGB对光照条件很敏感，而深度在对象边缘和远处的表面上会损坏，这表明RGB和深度的输出可能不一致。如果在单一尺度下将深度集成到RGB中，则融合难以消除两个源之间的差异并给出平滑的结果。这促使我们以层次化的方式将深度特征合并到四个不同尺度的RGB分支中。以这种方式，来自两个分支的特征被相继合并，其中全局表面定向误差将在小分辨率特征处被校正，而细节细化将在最终尺度处发生。如图7.所提出的分层融合的结果给出了更平滑的结果，并且细节得到了很好的保留。FM（Fl，Fl|Cl）= deconv（Fl（Fl Cl）），（2）3.2. 置信图估计而分层融合改善了正态估计其中，Fl，Fl是RGB和深度的特征在现有的融合方案，进一步检查像素Cd分支，并且Cl是深度调节的置信图。表示逐元素乘法，解卷积层后的级联结果给出融合输出。融合在四个尺度上实现，其中最后一个尺度输出给出最终的正常估计。置信图估计将在第3.2节中讨论。深度孔周围显示，过渡不平滑，如图所示。8（e）其中表的右侧具有接近深度保持边界的错误预测。这表明二进制掩蔽对于深度条件化是不够的，并且更自适应的重新加权将是更有利的。因此，深度置信度图的轻量网络设计如下。6157nnn(a) RGB图像(b) 对应地面实况法线图3.从输入图像和地面实况非-（a）平均数（b）中位数图4.使用相同RGB输入的正态观测结果的平均值和中位数将学习所有输入和地面实况对的期望[13]：水平方向的错误映射。上一行：输入图像，修补最小 E（gt）L（I（gt），fθ（Ic，Id））.（三）红色矩形，绿色矩形中的补丁。底行：地面实况法线贴图，红色矩形中的补丁，绿色矩形中的补丁。θ（Ic，Id，In）n对于L 损失L（I（gt），I）=I（gt）−I第二，最低限度-2 2nnnn2将导致观察的算术平均值深度和二进制掩码指示丢失的像素-而L损失L（I（gt），I）=|I（gt）−I| will lead to1 1无无无无无无无深度的els被馈送到具有五个层如图所示 2，其中前两层具有3×3的内核大小，随后的三层具有1×1的内核。以这种方式，感受野足够小以限制局部适应深度变化。然后，使用具有深度分支的共享池化掩码对置信度图进行下采样，并将其传递到融合模块中以简化融合操作，如等式2中所述。二、通过比较图1和图2，如图8（e）和（f）所示，置信图导致更准确的融合结果，校正了表格右侧的误差。观察结果的中位数。为了查看哪种损失对于给定的数据集更合适，我们沿着图1中的边缘对补丁进行采样。图3所示为与彩色矩形中的斑块具有相同水平位置的样本斑块，并计算这些样本斑块的平均和中值正态结果。4，其中两者都产生合理的结果，尽管中值结果比平均结果具有更尖锐的边缘，这表明L1损失将产生具有尖锐细节的更具视觉吸引力的结果。在这项工作中，我们采用混合多尺度损失函数：Σ为了理解置信图的作用，我们在图中显示了置信图。第8（d）段。边缘像素具有最小置信度值，指示异常值或噪声的高可能性，而孔区域具有小但非零的值，这表明为了实现平滑过渡，L（I（gt），In）=wlL2（I（gt）（l），In（l））（4）l=1，2Σ+wlL1（I（gt）（l），In（l）），l=3， 4深度孔中的信息可以被传递到合并结果中，只要RGB特征起主导作用。3.3. 混合损耗如第1节所述，我们使用Matterport 3D和ScanNet数据集进行训练和测试，因为提供了相机捕获的RGB-D数据和地面实况正态对。然而，地面实况法线遭受多视图重建误差，如图1所示3（b）其中法线贴图在网格三角形内是分段恒定的，并且边缘不与RGB输入对齐考虑到像这样的噪声地面实况，训练期间损失函数处理不当原因如下。给定图中绿色和红色矩形的类似输入。3（a），产出将类似。然而，相应的地面实况法线图是不同的，如图所示。3（b），因此通过最小化损失函数，网络其中l=1，2，3，4表示从小到大的尺度并且Wl是在不同标度下的损失的权重并且被设置为[0.2，0。四，零。八，一。0]。L1损失用于大规模输出，细节增强，而L2损失用于粗尺度输出的整体精度。使用混合损失产生干净的，视觉上比广泛用于正常估计的L2损失更好的结果[21，33，1]，如图所示。7.第一次会议。所提出的方法被命名为分层RGB-D Fu-带置信度图的子模型，简称HFM-Net。4. 实验4.1. 实现细节数据集我们在两个数据集上评估了我们的方法，Mat-terport 3D [2]和ScanNet [6]。对于相应的地面实况法线数据，我们使用[32]提供的渲染法线，该法线是通过多视图重建生成的。Matterport3D分为105432个图像，6158基于rgb基于深度基于RGBD我们度量跳网[1]第一章张[33个]彩色化[14个]DC[32个]GeoNet-D[21日]GFMM[10个国家]HFM-Net是说26.08119.34621.58819.12617.23416.53713.062事宜─中值19.08912.07012.0799.5638.7448.0286.090Port3D11.25o31.7652.6458.0761.4864.8965.372.2322.5◦57.6172.1269.5974.0878.579.9484.4130◦67.6079.4475.0079.2283.7584.1688.31是说26.17423.30633.07130.65223.28921.17414.590扫一扫中值20.59815.9523.45120.76215.72513.5987.468净11.25o28.7840.4334.5239.3546.4150.7865.6522.5◦54.3063.0849.4755.2764.0467.3081.2130◦67.0071.8856.3760.0376.7877.0086.21运行时2.501s0.039s0.156+0.9s0.156+ 0.058秒0.156+ 0.041秒0.156+ 0.041秒0.085s表1.在Matterport3D和ScanNet数据集上执行表面法线预测培训和11302用于测试; ScanNet分为用于训练的59743和用于测试的 7517 ，文件列表见 [32] 。由于Matterport3D中的地面真实正态数据受到重建噪声的影响，例如，在室外场景或镜面区域，我们删除测试数据集中误差较大的样本，以避免不可靠的评估。在数据修剪之后，6.47%（12084个中的782个）测试图像被移除，导致剩余11302个。有关数据修剪的详情，请参阅补充资料。我们使用RMSprop优化器，初始学习率设置为1e−3，并在epoch [2，4，6，9，12]衰减，衰减率为0。五、该模型是从零开始训练的，没有预先训练的模型15个epoch。我们首先在前4个时期中对所有尺度使用L2损失，然后改变为等式中定义的4、保证训练初期的稳定我们使用PyTorch在NVIDIA GeForceGTX Titan X GPU上实现评估方法正态预测性能通过五个指标进行评估。我们计算预测和地面实况之间的每像素角度距离，然后计算给定地面实况法线的有效像素的均值和中值。除了平均值和中位数之外，我们还计算具有小于t的地面实况的角度差的像素的分数，其中t= 11.25，22.5和 30，如[9]中所使用的。4.2. 主要结果我们将我们提出的HFM-Net与最先进的法线估计方法进行比较，根据第2节将其分为三类，而基于法线深度一致性的方法被用作RGB-D融合的替代方法，因此也被归入RGB-D类别。基于 RGB 的方法包括 Skip-Net[1] 和ZhangMatterport3D上的预训练模型，张的ScanNet基于NYUv2数据集上的预训练模型，使用公共可用的训练代码，针对Matterport3D和ScanNet进行了微调。基于深度的深度信息用于基于深度和表面法线之间的几何关系计算表面法线，在现有的工作[22，6，2]由于输入的深度是不完整的，我们先进行深度修补，然后再转换成法线贴图.使用两种算法来预处理输入深度图像：[ 14 ]中的彩色化算法，如NYUv2中所用，以及最先进的深度完成（简称DC）[32]。在深度内绘之后，我们遵循[21]中的相同过程从深度生成法线.对于RGB-D融合方法，我们采用GFMM [10]和最先进的GeoNet中的[21] 将深度输入合并到初始的基于RGB的正常输出中以进行细化。具体来说，我们选择Zhang我们分别使用表1所示的五个指标对两个数据集进行测试，其中HFM-Net在不同指标上优于所有其他方案。在平均值方面，HFM-Net比基于RGB的方法至少高出6.284，比基于深度修补的方法高出6.064，比基于RGBD的方法高出3.475。视觉评价结果如图所示。图5和图6。基于RGB的方法忽略了图中沙发等细节五是边缘模糊基于深度的方法在深孔区域存在严重的误差和明显的噪声。竞争的RGB-D融合方法无法在深度有噪声或损坏的区域生成准确的结果。相反，我们的HFM-Net6159(a) RGB图像（b）深度图像（c）地面实况（d）Skip-Net [1]（e）Zhang(f)彩色化[14]（g）DC [32]（h）GeoNet-D [21]（i）GFMM [16]（j）HFM-Net图5.使用不同算法进行表面法线估计，在Matterport3D数据集上进行测试(a) RGB图像（b）深度图像（c）地面实况（d）Skip-Net [1]（e）Zhang(f)彩色化[14]（g）DC [32]（h）GeoNet-D [21]（i）GFMM [16]（j）HFM-Net图6.使用不同算法进行表面法线估计，在ScanNet数据集上进行测试在平滑的平面区域和沿着尖锐的边缘都表现出很好的正常预测。4.3. 消融研究为了更好地理解HFM-Net的工作原理，我们通过以下消融研究来研究网络中每个组件的效果。我们将分层融合（HF）与单尺度融合进行比较，包括如第3节所述的早期融合和晚期融合，在表2中分别表示为早期-F和晚期-F。二进制掩码用于Late-F和HF，如果没有指定，则使用混合损失进行训练。从表2中可以看出，早期-F和晚期-F的效果不如HF+面罩+混合，验证了HF的使用。此外图图7（d-f）示出了单尺度融合和分级融合之间的差异分层融合在平面中提供更准确的结果，特别是在以黑色矩形标记的深孔区域中。置信度图我们比较了置信度图和二元掩模。图8显示了融合与置信度图和二值掩模融合。采用置信度图进行融合，可以减少融合过程中深度孔的负面影响，平滑深度孔边界区域的预测。混合损失除了融合方法之外，在实验中还检查了损失函数的不同组合。在混合损失比较中，置信图被用于融合。如果网络在所有层都使用L2另一方面，具有L1损失的网络将倾向于保留更多的细节.如第3.3节所述，混合损失函数设计可以生成同时具有光滑表面和精细物体细节的结果，如图2中的比较所示。7（g-l）。4.4. 模型复杂性和运行时间表1报告了我们的方法和其他最先进的方法的运行时。Skip-Net方法使用MatCaffe中的官方评估代码。着色方法使用NYUv2数据集中提供的代码。GeoNet-D是带有RGBD输入的GeoNet，我们在PyTorch中实现了它的6160(a) RGB图像（b）传感器深度（c）地面实况（a）RGB图像（b）传感器深度（c）地面实况(d)早期融合（e）晚期融合（f）分层融合(g)L2损失（h）L1损失（i）混合损失(j)L2损失细节（k）L1损失细节（l）混合损失细节图7. 具有不同融合方案和不同损失函数的表面法线估计：（a）RGB输入，（b）深度输入，（c）地面实况，（d）早期融合，（e）晚期融合，和（f）高分辨率融合的结果;（g）L2损失，（h）L1损失，（i）混合损失;（j-l）是来自（g-i）的放大的斑块。分层融合在黑色矩形中标记的区域中产生更准确的预测混合损失设计保留了L2（光滑表面）和L1损失（局部细节）的优点，在深孔中具有更清晰的细节和更准确的结果。表2.在Mat-terport 3D和ScanNet数据集上评估拟议HFM-Net的变体在GeoNet-D中添加一致性损失作为比较（d）置信图（e）HF（Mask）（f）HF（Map）图8. 使用不同贴图/遮罩的表面法线估计：(a)RGB输入，（b）深度输入，（c）地面实况，（d）置信图，（e）与掩模的分层融合，（f）与图的分层融合。基于深度和基于RGBD的方法还包括几何计算所花费的时间。如表1所示，我们的方法在度量性能方面超过了竞争方案，同时花费了相当快的时间。5. 结论在这项工作中，我们提出了一种分层融合方案，将多个尺度的RGB-D特征与根据深度输入估计的置信图相结合，以便于进行特征融合。此外，一个混合损失函数的设计，以产生干净的正常估计，即使训练目标遭受重建噪声。大量的实验结果表明，我们的HFM网络优于国家的最先进的方法，提供更准确的表面正常预测和更清晰的视觉显着特征。消融研究验证了所提出的分层融合方案优于现有工作中的单尺度融合方案，置信图在深度输入中缺失像素周围产生准确估计的有效性，以及混合损失函数在克服数据集缺陷方面的优势。引用[1] A.班萨尔湾Russell和A.古普塔。 Marr再访：经由表面法线预测的2D- 3D对准。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第5965-5974页，2016年。一、二、五、六、七[2] A. Chang，A.戴氏T.Funkhouser M.Halber，M.尼斯纳M. Savva ， S. Song ，中国黑杨 A. Zeng 和 Y. 张某Matterport3D：从室内环境中的RGB-D数据学习。间方案。网络转发运行时间平均为Matterport3D测试集，在NVIDIA GeForce GTX TITANX GPU上输入大小为320×256的图像。除了神经网络前向传递的时间开销外，2017年全国3D视觉会议（3DV）。二、五、六[3] W. Chen，中国粘蝇D.Xiang和J.邓小平更野外的曲面法线在2017年IEEE计算机视觉国际会议论文集，意大利威尼斯，第22-29页，2017年。2度量早期-F晚期-FHF+地图+L2HF+面罩+混合HF+地图+混合Matter-port3D平均中值 ◦11.25◦22.5◦3013.9686.85571.9383.5487.4413.6456.56770.7983.6887.7513.6887.23569.2183.4587.9413.4376.50770.9883.9688.0513.0626.09072.2384.4188.31扫描-网络是说中值◦11.25◦22.5◦3016.0458.94961.1779.3284.8717.42510.27756.0176.9383.2614.9468.32262.8780.1285.7214.6967.54565.4281.1086.1114.5907.46865.6581.2186.216161[4] Y.成河，巴西-地蔡氏Z. Li，X. Zhao和K.煌用于rgb-d室内语义分割的具有门控融合的局部敏感反卷积网络。在IEEE计算机视觉和模式识别会议集，第3卷，2017年。三、四[5] H. Chu，W.- C. M. K.昆杜河Urtasun和S.菲德勒Sur-fconv：桥接rgbd图像的3d和2d卷积。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第3002-3011页，2018年。1[6] A. Dai ， A. X. 张， M 。 Savva ， M. Halber ， T.Funkhouser和M.尼斯纳ScanNet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集（CVPR），2017年。二、五、六[7] H. C. Daniel，J. Kannala，L. Ladick和J.嘿，基于二阶平滑先验的深度图修复。Springer Berlin Heidelberg，2013. 2[8] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉和模式识别会议（CVPR）中，第2650-2658页一、二、三[9] D. F. Fouhey，A.Gupta，和M。赫伯特用于单个图像理解的数据驱动3d在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第3392-3399页，2013年。1、6[10] X.龚，J.刘，W. Zhou和J.刘某通过快速行进法引导深度增强。Image Vision Computing，31（10）：695-703，2013. 二、六[11] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从rgb-d图像中学习丰富的特征，用于目标检测和分割。欧洲计算机视觉会议（ECCV），第345-360页。Springer，2014. 1[12] S. 伊萨迪D.Kim，O.希利格斯，D。莫利诺河纽科姆P. Kohli ， J. Shotton ， S. Hodges ， D. Freeman ， A.Davison等人运动融合：使用移动深度照相机的实时3D重建和交互。第24届ACM用户界面软件和技术研讨会集，第559-568页。ACM，2011年。1[13] J.莱赫蒂宁，J.芒克伯格，J。哈塞尔格伦S。莱恩，T.Kar-ras，M. Aittala和T.艾拉Noise2Noise：没有干净数据的学习图像恢复。第35届国际机器学习会议论文集，第80卷，第2965-2974页，2018年5[14] A. Levin，D. Lischinski和Y.韦斯使用最佳化着色。在ACM图形交易（TOG），第23卷，第689-694页中。ACM，2004年。二六七[15] O. Litany，A.布朗斯坦M. Bronstein和A. 马卡迪亚用图卷积自动编码器完成可变形形状在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1886-1895页1[16] J. Liu，X. Gong和J.刘某Kinect深度图的引导修复和过滤。模式识别国际会议，第2055-2058页，2012年。二、七[17] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。InProceedings of theIEEE计算机视觉和模式识别会议（CVPR），第3431-3440页，2015年。4[18] R. A. Newcombe，D. Fox和S. M.塞茨动态融合：非刚性场景的实时重建与跟踪。在IEEE计算机视觉和模式识别会议论文集，第343-352页，2015年。第1、3条[19] J. Pang ， W. 孙角，澳 - 地 Yang ， J. Ren ， R. Xiao ，J.Zeng，和L.是林书缩放和学习：将深度立体匹配推广到新领域。在IEEE计算机视觉和模式识别会议，2018年6月。2[20] C. R.齐，W. Liu，C. Wu，H. Su和L.吉巴斯从rgb-d数据中检测三维目标的截头体点网。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。第1、3条[21] X.齐河，巴西-地廖，Z.柳河，巴西-地Urtasun和J.贾Geonet：用于联合深度和表面法线估计的几何神经网络.在IEEE计算机视觉和模式识别会议论文集，第283一、三、五、六、七[22] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746Springer，2012. 一、二、六[23] H. Su，V. Jampani，D.孙习Maji、E. Kalogerakis，M.-H. Yang和J.考茨Splatnet：用于点云处理的稀疏网格网络。在 IEEE 计算机视觉和模式识别会议论文集（CVPR）中，第2530-2539页，2018年。1[24] S. Su，F.海德湾Wetzstein和W.海德里希深度端到端飞行时间成像。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第6383-6392页，2018年。1[25] A. K. Thabet，J. Lahoud，D. Asmar和B.加尼姆分段平面场景中深度图的3D感知校正和完成在亚洲计算机视觉会议上，第226-241页，2014年。2[26] P. Wang，X.申湾Russell，S.科恩湾Price和A. L.尤尔。Surge：从单个图像进行表面正则化几何估计神经信息处理系统的进展，第172-180页，2016年。一、二[27] W. Wang和U.诺伊曼用于rgb-d分割的深度感知cnn。欧洲计算机视觉会议（ECCV）Springer，2018. 第1、3条[28] X. Wang，中国山杨D. Fouhey，和A.古普塔。设计用于表面法线估计的深层网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议中，第539-547页，2015年。2[29] J. Zeng，G. Cheung，M. Ng，J. Pang，and C.杨基于低维流形模型的图拉普拉斯正则化的三维点云去噪。arXiv预印本arXiv：1803.07252，2018。2[30] J. Zeng，J. Pang，W. 孙，G. Cheung和R. 萧深度图拉普拉斯正则化。 arXiv 预印本 arXiv ： 1807.11637 ，2018。2[31] H.- T. Zhang，J. Yu和Z.- F.王.概率轮廓引导的深度图修复与非局部全广义变分超分辨率。多媒体工具和应用，77（7）：9003-9020，2018。26162[32] Y. Zhang和T.放克豪瑟单个rgb-d图像的深度完成。在IEEE计算机视觉和模式识别会议（CVPR）中，第175-185页一、二、三、四、五、六、七[33] Y. Zhang，S.Song，E.Yumer，M.Savva，J.-Y. Lee，H.晋T.放克豪瑟使用卷积神经网络进行室内场景理解的基于物理的渲染。在 IEEE计算机视觉和模式识别会议（CVPR）的，第5057IEEE，2017年。一、二、四、五、六、七

下载后可阅读完整内容，剩余1页未读，立即下载