基于重构的深度图像增强方法

118 浏览量更新于2023-10-13 收藏 2.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于重构的两两深度数据集的CNN深度图像增强Junho Jeon和Seungyong LeePOSTECH{zwitterion27，leesy}@postech.ac.kr抽象。由消费者深度相机捕获的原始深度图像遭受噪声和缺失值。尽管基于CNN的图像处理在彩色图像恢复上取得了成功，但由于缺乏原始干净的成对数据集，用于深度增强的类似方法尚未得到太多解决。在本文中，我们提出了一种成对的深度图像数据集生成方法，使用密集的3D表面重建与过滤方法，以消除低质量的对。我们还提出了一个基于多尺度拉普拉斯金字塔的神经网络和结构保护损失函数，以逐步减少从粗到细尺度的噪声和孔。实验结果表明，我们的网络训练与我们的成对数据集可以增强输入的深度图像，成为从深度流获得的3D重建相媲美，并可以加速密集的3D重建结果的收敛关键词：深度图像数据集，深度图像增强，3D重建，深度学习，拉普拉斯金字塔网络1介绍对于消费类RGB-D相机，例如，ASUS Xtion [2]和枕骨结构传感器[34]，可以轻松捕获深度图像，并已用于改善视觉算法的性能，例如3D重建[32，33，7]，对象识别[3，11]和语义分割[26，14，39，6]。然而，来自那些手持式消费者RGB-D相机的深度图像的质量仍然是有限的，因为它们的重要设计目标是速度而不是3D几何形状的精确获取由于传感器的物理限制和低处理能力，捕获的深度图像受到严重的噪声和缺失值的影响（见第1b段）。已经开发了几种图像处理方法用于深度图像增强。由于同时捕获的RGB图像的质量比深度图像相对更好，因此研究了利用颜色和几何信息之间的相关性（称为传感器融合），主要使用基于局部滤波器的方法[37，38，47]。然而，单个退化的深度图像仅包含场景几何形状的部分信息，并且先前的基于单个图像的方法具有有限的能力，特别是在解决重噪声和缺失值方面。2J. Jeon和S. 李(a) 彩色图像（b）噪声输入深度（c）我们的结果（d）3D重建Fig. 1. 低质量原始深度图像的深度增强。在（b-d）中，右上和左下部分分别显示深度和曲面法线。法线的可视化清楚地显示了小但振荡的噪声。使用深度学习的图像处理的最新进展已经在彩色图像增强和恢复方面取得了令人印象深刻的改进，例如单图像超分辨率（SISR）[23，25]，模糊去除[45，30]和图像完成[36，18]。在那些技术中，深度学习网络使用大型数据集进行优化，以自动提取有用的特征并将其组合以产生期望的输出。然而，由于缺乏合适的数据集，基于深度学习的深度图像增强到目前为止尚未被积极研究。在彩色图像恢复的情况下，可以使用自监督数据集来训练网络，该数据集可以通过降低高质量图像来轻松生成[1]。相比之下，RGB-D相机只能捕获低质量的深度图像，并且不能以与彩色图像恢复相同的方式构建用于深度图像增强的自监督数据集。因此，使得能够实现用于深度图像增强的基于深度学习的方法的大规模数据集具有以下优点：尚未提供。在本文中，我们提出了一个大规模的成对深度数据集，由嘈杂的原始深度图像和相应的干净的深度图像。为了构建原始-干净深度图像对，我们利用来自RGB-D流的密集3D重建对于输入的原始深度图像，我们通过在估计的相机位置处渲染重建的3D场景来生成对应的干净深度图像在此过程中，测量基于结构的图像相似性[42]，以过滤由相机位置的未对准和精确场景几何形状的轻微不匹配引起的低质量深度图像对这种过滤有效地提高了我们用于深度图像增强的数据集的质量。使用该数据集，我们训练基于拉普拉斯金字塔的神经网络，以从给定的原始深度图像获得干净的深度图像。我们引入了基于梯度的结构损失函数，以有效地保留对象边界周围的我们的网络可以通过产生从粗到细的中间清晰深度图像来逐步减少输入中的噪声和漏洞。在实验中，我们表明，用我们的数据集训练的网络显著减少了原始深度图像中的噪声和孔洞，同时保留了所需的不连续性，例如，在前景物体和背景之间。作为深度图像增强的应用，我们证明了基于重构数据集的CNN深度图像增强3密集3D表面重建的收敛可以通过用我们的增强方法预滤波输入深度流来显著加速我们的主要贡献可概括如下：– 我们通过在RGB-D流上应用最先进的密集3D表面重建来生成可用于深度图像增强的监督学习的大规模原始干净成对深度图像数据集。– 我们提出了一种用于深度图像增强的具有多尺度跳跃连接的深度拉普拉斯金字塔网络，其以级联方式减少噪声和空洞。– 我们用于训练网络的损失函数使原始几何结构在深度图像增强期间得以保留，并且该属性有助于加速密集3D表面重建的收敛。2相关工作2.1深度图像增强从RGB-D相机细化低质量深度图像的最常见方法除了传统的基于联合双边滤波的方法[5，24]之外，已经尝试了各种方法来利用颜色和几何形状之间的相关性例如，低秩矩阵完成[29]，多尺度稀疏表示学习[22]，阴影形状[46，43]和分析表示模型[13]已用于深度图细化。提高深度图像质量的另一研究方向是深度图像超分辨率。与深度增强类似，已经使用了高分辨率彩色图像[28]、字典学习[19，41]和阴影形状[15]。虽然这些技术可以增强来自于深度图像的质量。对于消费类RGB-D相机，他们的主要目标是提高空间分辨率，而不是降噪或填孔。2.2基于CNN的图像处理基于卷积神经网络（CNN）的图像处理方法已经在各种问题上表现出很好的性能，从低级图像恢复，例如单图像超分辨率[10，25，23]和图像去模糊[45，30]，到高级任务，例如图像完成[36，18]和图像生成[9]。他们的成功基于新型网络架构的开发[16，12]和大规模训练数据集的可用性[8，27]。相比之下，深度学习尚未被广泛应用于深度图像处理，主要是由于缺乏大规模的训练数据集。最近，Hui et al.[17]提出了一种基于CNN的深度图超分辨率方法。他们的多尺度引导网络可以用高分辨率的彩色引导图像来放大深度图，但网络和数据集不能直接用于增强消费者RGB-D相机捕获的深度图像4J. Jeon和S. 李2.3密集3D重建和RGB-D数据集我们用于构建成对深度数据集的方法利用密集的3D重建方法和大规模的RGB-D数据集。基于KinectFusion [32]的开创性工作，已经提出了以下几项工作Nießner等人[33]使用稀疏散列数据结构大大减少了重建的内存消耗Dai等人。[7]提出了BundleFusion算法，该算法使用额外的颜色特征进行配准和全局束调整，以获得更精确的场景几何形状。通过使用消费者RGB-D相机捕获深度流，已经发布了用于计算机视觉任务的若干SUN RGB-D数据集[39]由具有手动注释语义信息的10 K图像组成ScanNet数据集[6]包含来自超过1500次扫描的250万张图像在我们的数据集构建中，我们使用ScanNet数据集[6]，因为它提供原始RGB-D流和使用最先进的BundleFusion算法重建的相应场景几何结构[7]。同时和独立于我们的工作，张等人。[49]提出了使用来自RGB-D流的3D重建生成的成对深度图像数据集然而，与我们的工作相反，他们主要集中在估计大的未观察到的深度值，而不是从低质量的RGB-D图像中去除噪声和空洞。此外，它们没有解决由不准确的3D重建引起的原始输入和渲染深度图像之间可能的不对准，这应该被解决以有效地训练深度图像处理网络。3我们的方法在本文中，我们主要解决三个关键问题，应考虑处理消费者RGB-D相机捕获的原始深度图像时：深度噪声，深度孔，深度不连续性。深度噪声原始深度图像通常包含强烈的非均匀噪声模式。由于RGB-D相机通过分析投影图案（结构光相机）或测量发射光的行进时间（ToF相机）来捕获3D几何形状，因此噪声分布受表面材料和与相机的距离的影响（图10）。第2b段）。因此，传统的图像滤波器固定的内核大小，如双边滤波器[40]，不足以处理各种噪声。相反，在我们的工作中，我们使用了一个深度CNN，它可以通过从给定的深度图像中提取多尺度特征来自适应地处理噪声与深度噪波类似，RGB-D相机的物理限制会导致缺失深度值，称为洞。这些孔通常在物体边界周围发现，因为光发射器和图像传感器之间的可见性差异（图1）。第2c段）。此外，过于闪亮或吸光的部分也会基于重构数据集的CNN深度图像增强5(a) 原始深度图像（b）噪声（c）孔洞（d）不连续性图二. 降低原始深度图像质量的关键因素。(a)原始深度图像，（b）空间变化的深度噪声（使用表面法线可视化），（c）边缘附近的深度孔（蓝色区域），（d）对象边界处的深度不连续性导致缺少深度值。预测缺失值需要理解输入场景的局部和全局上下文。为了实现这种预测，我们的网络架构逐步增强深度图像，从粗略（输入的1/4大小）到精细尺度。深度不连续深度图像中的值沿着深度边缘具有很强的不连续性（图10）。第2d段）。与在边缘周围具有抗锯齿平滑像素的彩色图像不同，深度图像不应具有通过混合前景和背景深度而获得的抗锯齿深度值这种混合的深度像素将导致前景和背景之间的对象边界的小浮动片段在我们的工作中，为了保持深度图像中的原始不连续性，我们提出了一种基于梯度的结构保持损失，可以强烈地惩罚深度边缘的平滑。为了使用监督学习实现从原始噪声深度到干净深度的增强是非常重要的.特别地，孔填充和不连续性保持滤波需要几何特征（诸如深度边缘）的精确空间对准，以用于原始和干净的深度图像对。在数据集生成过程中，我们通过测量结构相似性来检查原始-干净深度图像对的质量，并过滤掉低质量对以提高数据集的整体质量。4成对深度数据集生成为了训练用于深度图像增强的深度神经网络，我们需要由原始干净图像对组成的大规模成对深度图像数据集除了RGB-D相机之外，用高精度激光扫描仪捕获场景另一方面，我们可以通过渲染合成建模的高质量3D场景来获得干净的深度图像，但在这种情况下，降级渲染的深度图像以获得真实的原始深度图像并不简单，因为捕获设置和对象材料之间的复杂物理相互作用应该反映在降级过程中。6J. Jeon和S. 李(a) SSIM直方图（b）良好对齐（c）不良对齐图三. 生成的补丁对和来自好（蓝色）和坏（红色）比对集的示例补丁对的结构相似性直方图。顶部：原始修补程序，底部：渲染面片。在本文中，在不使用任何额外的传感器或3D模型的情况下，我们通过采用密集的3D表面重建技术[7]来构建原始-干净的深度图像对。给定深度流，密集3D表面重建将多个深度图像集成到单个体积空间中。集成降低噪声，并通过聚合在多个视图处捕获的几何信息来填充缺失的几何。同时，重建估计输入帧的相机姿态，因此我们可以使用估计的相机姿态来渲染重建的几何形状，以生成对应于以下的清晰深度图像：输入噪声深度图像。4.1三维重建数据集为了成功学习，生成的成对深度数据集应该尽可能多地覆盖真实世界场景。我们使用ScanNet数据集[6]作为3D重建的输入。ScanNet由从数百个场景中捕获的超过一百万张RGB-D图像组成。此外，ScanNet [6]提供了高质量的三角形网格数据和BundleFusion [7]获得的估计相机姿态。对于输入深度帧，我们使用重建的三角形网格和估计的相机姿态渲染相应的干净的深度图像。由于相邻帧包括大量重叠的几何形状，因此我们仅每40个连续帧对一帧进行采样。此外，我们从ScanNet中选择了40个场景，避免了冗余的场景信息。因此，我们总共获得了数据集的4，000个深度图像对。请注意，3D场景通常由简单的基本形状（如平面和曲线）组成，并且与彩色图像相比没有那么复杂。因此，数千个良好采样的帧对于我们的深度增强框架。最后，我们将深度图像切成128×128块作为训练样本。这是为了有效的网络训练和离群值处理，这将在以下部分中讨论。图3示出了渲染的干净深度片和对应的低质量原始深度片。基于重构数据集的CNN深度图像增强74.2数据集的未对齐离群值过滤尽管渲染的干净深度图像是平滑的并且包含与对应的原始深度图像相同的更少的孔BundleFusion [7]显示了最先进的3D重建，但其相机跟踪可能包含一些错误。此外，通过RGB-D流的几何积分有时会错过尖锐和薄的结构，例如，椅子腿和衣架。这些误差可能会在输入深度图像的几何形状和对应的渲染干净深度图像之间引入未对准（图11）。第3c段）。特别是，当深度边缘周围的深度值快速变化并在体积重建中合并时，在对象边界周围的未对准变得突出在网络学习中，这些不对准作为离群样本工作，并且训练变得不稳定（图8a）。因此，我们需要对数据集进行过滤处理以丢弃未对齐的深度补丁对。为了丢弃未对齐的深度补丁对，我们测量原始输入和对应的干净标签补丁之间的结构相似性（SSIM）[42]。SSIM可以有效地测量两幅图像之间的结构错位。图3a示出了原始构建的成对深度补丁数据集的SSIM直方图。在图3中，我们可以看到，大部分补丁对具有由深度边缘周围的未对准和小的丢失对象引起的低SSIM值。我们丢弃SSIM值低于0.8（约为原始数据集的20%）的补丁对。我们还丢弃不完整的对，其原始或干净的补丁包含一个洞大于10%的补丁面积。在离群值过滤过程之后，我们的成对深度数据集由56，000个深度补丁对组成，其中52，288对用于训练，3，712对用于验证。5拉普拉斯金字塔深度增强网络5.1网络架构如第3节所述，为了通过考虑局部和全局上下文来处理空间变化的噪声和孔洞，我们的网络逐步减少噪声并从粗到细填充孔洞。我们选择深度拉普拉斯金字塔网络（LapSRN）作为我们的基础网络架构，该架构是针对图像超分辨率提出的[23]。LapSRN通过预测图像金字塔中下一个精细级的残差图像来对输入的低分辨率图像进行渐进式上采样。有关更多详细信息，请参阅原始文件[23]。通过对LapSRN进行深度图像增强的改进，提出了深度拉普拉斯金字塔深度图像增强网络（LapDEN）。图4示出了LapDEN的整体架构。与直接对给定输入图像的空间分辨率进行上采样的超分辨率不同，LapDEN首先以最粗的尺度预测干净的完整深度图像，其具有原始分辨率的四分之一。然后，通过金字塔对预测的四分之一大小的干净深度图像进行渐进上采样，以预测半个和原始大小的深度图像。8J. Jeon和S. 李图4.第一章基于拉普拉斯金字塔的深度图像增强网络（LapDEN）。清晰的深度图像。此外，在下采样期间提取的特征被传递到具有跳过连接的上采样金字塔，以防止在上采样期间输入深度图像中的原始细节LapDEN的整体结构引入了两个优点。首先，当在粗略尺度下尝试时，降噪和孔填充变得更容易对输入深度图像进行下采样自然会减少噪声和空洞，并且CNN的接收场大小会变得更大。然后网络可以很容易地学习预测代表场景整体结构的干净完整的深度图像。其次，由于我们在粗尺度预测中估计了整体结构和平滑表面，因此细尺度层只需要学习预测残差，这些残差会锐化深度边缘不连续性和精细细节。网络架构细节如图所示。4，LapDEN通过3级图像金字塔预测增强的深度图像。在使用具有7×7内核的卷积层将输入深度图像投影到64通道特征图上之后，我们使用具有局部残差跳过连接的多个卷积层的堆栈来提取多级特征。的每个水平在图像金字塔中，长跳跃连接直接将提取的特征传递到网络的后面相应部分，以实现在不同尺度下提取的特征的融合（红色箭头）。在最粗糙的水平，我们预测的四分之一大小的残留深度图像从提取的特征，使用图像重建层。在这个水平上，噪音和漏洞之后，对特征进行上采样并进一步变换，以预测上层的精细尺度子带残差我们分别在金字塔的中间和高层对残差块使用20和40个卷积层除了预测残差的层之外的每个卷积层（即，重构层）具有以下具有0.2的负斜率的漏校正线性单元（LReLU）。遵循原始的LapSRN架构[23]，所有卷积层使用64个大小为3×3的滤波器。下采样和上采样由卷积和转置卷积层使用大小为4 ×4的64个滤波器执行。基于重构数据集的CNN深度图像增强95.2训练损失函数我们的目标是训练用于从具有新工作参数θ的给定噪声深度图像x估计增强的深度图像y的函数y=f（x;θ）的树。令y为对应于X的真实干净深度图像。然后我们的新训练是找到使损失函数最小化的参数集θ。对于成对深度图像中的训练样本，tion（x，y）∈DL（f（x;θ），y数据集D.我们的整体损失函数被定义为数据损失LD和结构保持损失LS：L（y=f（x;θ），y）=LD（y，y）+10LS（y，x）.（一）多尺度数据丢失我们首先通过深度的L1距离以及y和y之间的深度梯度来定义LD，如通常的基于CNN的图像回归[44，23]。此外，我们还利用了它们之间的表面法线映射的L1表面法线方向对深度振荡噪声高度敏感值，因此与前两个测量相比，最小化表面法线距离对于去除小的深度噪声是有效的。总体而言，我们将数据丢失LD定义如下：1Σ。LD（y，y）=Npρ（yp−yp）+λg ρ（yp−yp）+λn ρ（np−np）Σ、（二）其中p是y∈，yp的像素位置，np是像素的深度和表面法线p.，特别是。N是像素的数量，是运算器的梯度n，ρ（x）=x我们使用L1范数，因为它对可能仍然存在于我们的训练数据中的未对齐离群值对λg和λn是平衡的参数在我们的实验中，我们设置λg=λn= 2正如我们在第3节中所讨论的，深度图像沿着前景和背景区域之间的边缘具有明显的不连续性和强烈的混叠。传统的损失函数，如L2或L1的深度值很难保持这种不连续性。在这项工作中，我们提出了一个基于梯度的结构保持损失LS保持原来的几何结构和深度图像的不连续性。在数学上，深度不连续性介绍了在边缘像素的强梯度幅度如果发生抗锯齿或混合，则边缘周围的最大梯度幅度会变小，因为陡峭的边缘会扩展到多个像素。基于这一观察，LS被定义为：1Σ。LS（y，x）=NpMaxq∈Ω（p）|−max|−maxq∈Ω（p）Σ2|x q|、（3）其中Ω（p）是以像素p为中心的局部窗口。LS计算像素p周围的最大梯度幅度，并测量这些梯度幅度10J. Jeon和S. 李maximumsfory和x. 因此，最小化LS强制y和x有类似深度不连续结构。在我们的实验中，我们设置了一个5×5的窗口的所有级别的图像金字塔。与先前的数据丢失L_D不同，L_S使用输入深度图像x作为监督。由于训练样本对可能不完全对齐，尽管数据集滤波，在目标深度图像之后促进强不连续性可能增加待训练的变换的模糊性。相反，我们使用输入深度图像作为我们的监督，以指导网络输出保持给定输入深度图像的原始结构此外，而不是给一个强大的惩罚未对齐的边缘，我们允许通过比较边缘像素周围的最大梯度幅度的边缘位置的它使得预测边缘能够从相邻像素获取结构信息，即使深度像素在输入图像中的该位置处缺失因此，通过用结构保持损失LS以及数据损失LD训练网络，有效地保留了输入图像的原始深度不连续性，同时显著增强了其噪声和缺失的深度值6实验结果为了进行实验，我们在两个数据集上测试了我们训练的网络LapDEN：Scan- Net [6]和NYU-Depth V2数据集[31]。对于ScanNet数据集，我们通过将其与干净的深度图像进行比较来评估我们的结果。6.1培训详情和参数LapDEN包含90多个卷积层，网络中还包含多尺度金字塔监督。很难在一次会话中训练整个网络。相反，我们使用三阶段策略进行培训。在第一阶段，我们只使用最粗糙的监督来训练网络。换句话说，网络经过训练，通过减少噪音和填充四分之一大小的空间分辨率中的孔来预测整体结构和平滑表面之后，我们用预先训练好的参数初始化网络，在这个阶段中，我们使用第一和第二级监督来保留粗集级别的场景结构的预测能力。同样，在最后的第三阶段，我们使用所有三个监督级别来训练整个网络，这些网络使用第二阶段的预训练参数初始化，以预测原始空间分辨率的结果。我们使用NVIDIA Titan Xp GPU来训练网络。我们在Pytorch库上构建了我们的框架[35]。对于优化，我们使用Adam优化器[20]，其中β = 0。9 .第九条。在第一和第二阶段，我们用一个学习率为10- 4，持续30个epochs。对于最后一个阶段，我们使用10−4的学习率进行30个epoch，然后在另外20个epoch中将其衰减到10−5第一阶段和第二阶段的批次大小为64，最后一阶段训练基于重构数据集的CNN深度图像增强11(a)输入图像（b）第一级（c）第二级（d）第三级（e）目标图五. 我们的方法的渐进深度增强结果。(a)输入颜色(b)输入深度（c）输入法线(d)我们的深度（e）我们的正常图六、 NYU-Depth v2数据集上的深度增强结果[31]6.2增强结果渐进式深度图像增强LapDEN通过3级图像金字塔渐进地增强深度图像。图5示出了金字塔层级和目标干净深度图像处的中间增强结果。这个例子表明，深度噪声和孔是在最粗的尺度上细化的，细节和尖锐边缘是通过两个较细的尺度恢复的目标清晰深度图像是通过用最先进的3D重建方法整合数十个RGB-D帧而生成的[7]。LapDEN只需要一个深度图像作为输入，但它仍然可以产生一个干净和锐利的深度图像，这是可比的目标图像。附加的增强结果在图中给出。1.一、我们还在来自纽约大学数据集的深度图像上测试了我们的方法[31]。图6显示，我们的方法显著降低了给定原始深度图像的噪声，并很好地预测了缺失的深度值。与以前的方法比较图。图7示出了我们的方法与以前的方法的比较结果对于基线方法，我们选择滚动引导滤波器（RGF）[48]，其最初被提出用于图像纹理分解。由于振荡深度噪声可以被视为纹理模式，因此RGF通过几次滤波迭代来降低噪声。我们还将我们的结果与最近的联合滤波方法[38]进行了比较，其中利用颜色和深度图像之间的相互结构来增强深度图像。由于这两种方法都不擅长孔洞填充，因此在应用这两种方法之前，12J. Jeon和S. 李(a)输入图像（b）RGF（c）联合滤波器（d）我们的结果（e）目标见图7。我们的结果与（b）滚动引导过滤器[48]和（c）互结构联合过滤器[38]的视觉比较。请注意，由于3D重建不完整，目标图像包含孔洞。补充材料中有其他例子。表1. 与测试集的性能比较。我们测量了基线的噪声输入深度和地面实况深度原始输入深度RGF [48]联合过滤器[38]我们SSIM0.86200.90650.91520.9229RMSE0.34500.24010.23600.2148具有联合双边上采样[21]的孔在相应彩色图像的引导下。如图7，我们的方法优于以前的方法去除深度噪声，以及保持深度不连续性。RGF [48]使用固定大小的滤波器内核，并且需要大的内核大小来去除远离相机的区域中的严重联合滤波方法[38]在降低噪声方面显示出相对较好的结果，但它在桌子边缘周围引入了一些波动伪影，这似乎是由未对齐的颜色信息引起的在曲面法线中可以更清楚地看到伪影为了进行定量比较，我们测量了增强结果与测试集上的真实深度图像之间的平均SSIM和RMSE，该测试集由从ScanNet场景子集中采样的355个深度图像组成[6]。表1显示了我们在实验中报告的最高性能。更多的比较可以在补充材料中找到。6.3成分分析数据集过滤如图所示如图8（a）所示，如果我们不对数据集进行滤波以去除未对齐的深度对，则训练过程变得不稳定并收敛到与过滤后的数据集相比，损失更大。因此，输出补丁在没有滤波的情况下训练的网络显示边缘周围的模糊和嘈杂的深度值（图1）。第8c段）。相比之下，我们的数据集过滤提高了数据集的质量，并能够获得干净和清晰的结果（图1）。8e）。基于重构数据集的CNN深度图像增强13(a)（b）（c）（d）（e）（f）图8. 我们网络的成分分析。（a）训练损失曲线，（b）输入补丁，（c）没有数据集过滤，（d）没有L S，（e）我们的结果，（f）地面真相。为了验证我们的结构保留损失L_S的有效性，我们仅使用数据损失L_D训练网络，其他设置不变。如图8d，虽然该网络可以很好地降低平滑表面的噪声，但与完整网络的结果相比，它引入了模糊的深度边界。这些模糊的像素在对象边界周围的空间中导致3D浮动点，这将在深度图像的应用中充当异常值，例如3D重建。6.4应用：使用预滤波深度图像进行3D重建正如我们在第4节中所描述的，我们使用密集3D重建来生成成对数据集。作为我们的深度图像增强的应用，现在我们证明了我们的方法可以通过增强输入深度流来大大加速密集3D表面重建的收敛在密集3D表面重建中，来自多个视点的输入深度图像被集成以减少噪声并完成3D几何形状。在该实验中，我们使用我们的增强方法对输入深度流进行预滤波，并将其提供给3D重建方法[7]。图9a示出了结果。通过仅整合几个帧，我们已经可以获得收敛的平滑表面，如果使用原始流，则需要整合更多帧。这个例子表明，3D重建过程可以更有效和节省时间与我们的增强方法，因为我们不需要等待，直到许多帧被整合，以产生光滑的表面的场景。我们还表明，即使我们省略每隔一帧以将原始流的帧速率降低到一半，预过滤的深度流也可以重建完整的几何形状。如图图9b中，由于我们的增强方法加速了深度积分的收敛，重建的网格没有随着跳帧流而退化。这个实验意味着我们可以比平常快两倍地移动RGB-D相机，同时使用我们的深度图像增强方法仍然保持3D重建的质量。14J. Jeon和S. 李原始5帧过滤5帧原始5帧过滤5帧(a) 收敛加速跳过帧的预过滤流完整原始流(b) 使用跳帧流的见图9。使用预滤波深度图像的3D重建实验。输入图像输入深度输入法线输出深度输出法线见图10。所提出的算法的失败情况。7结论提出了一种两两深度图像数据集生成方法，基于从RGB-D流的密集3D表面重建。我们还提出了一个拉普拉斯金字塔为基础的神经网络和基于梯度的结构保持损失的深度图像增强。实验表明，该方法可以从原始深度图像中生成清晰的深度图像，从而加速三维重建过程。我们的方法几乎没有局限性。首先，速度不是实时的，并且该方法不能应用于实时应用。此外，大于用于网络训练的补丁大小的深度孔可能无法清楚地恢复（图2）。第10段）。解决这些限制与更轻量级和先进的网络结构将是有趣的未来工作。致谢我们感谢审稿人的建设性意见。这项工作得到了韩国科学和信息通信技术部的支持，通过IITP资助（IITP-2015-0-00174），Giga Korea资助（GK18 P0300）和NRF资助（NRF-2017 M3 C4 A7066317）。基于重构数据集的CNN深度图像增强15引用1. Agustsson，E.，Timofte，R.：Ntire 2017挑战单幅图像超分辨率：数据集和研究。IEEE计算机视觉和模式识别研讨会（CVPRW）。pp. 11222. 华硕XtionProLive：https://www.asus. 3D-传感器/Xtion_PRO_LIVE/3. Blum，M.，Springenberg，J.T.，Wül Fing，J.，Riedmiller，M.：rgb-d数据中物体识别的学习特征描述器。在：Proc.IEEE International Conference on Roboticsand Automation（ICRA）中。pp. 12984. Bruhn，A.，Weickert，J.，Schnörr，C.：Lucas/Kanade遇上Horn/Schunck：结合局部和全局光流方法。International Journal of Computer Vision（IJCV）61（3），2115. Chen，L.，中国地质大学，林，H.，李S：使用区域生长和双边滤波器增强kinect的深度图像。国际模式识别会议（ International Conference on PatternRecognition，ICPR）pp. 30706. Dai，A.，Chang，A.X.，Savva，M.，Halber，M.，Funkhouser，T.，Nießner，M.：Scannet：室内场景的丰富注释3D重建。IEEE计算机视觉和模式识别会议（CVPR）。pp. 24327. Dai，A.，Nießner，M. Zollhöfer，M.，Izadi，S.，Theobalt，C.：Bundlefusion：实时全球一致的三维重建使用的飞行表面重新整合。 ACM Transactions onGraphics（ToG）36（3），24（2017）8. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模层次化图像数据库。IEEE计算机视觉和模式识别会议（CVPR）。pp. 2489. Denton，E.L.，Chintala，S.，费格斯河等：深度生成图像模型使用对抗网络的拉普拉斯金字塔神经信息处理系统进展（NIPS）。pp. 148610. 董，C.，Loy，C.C.，他，K.，唐X：学习用于图像超分辨率的深度卷积网络。欧洲计算机视觉会议（ECCV）。pp. 18411. Eitel，A.，Springenberg，J.T.，斯皮内洛湖，Riedmiller，M.，Burgard，W.：用于鲁棒rgb-d对象识别的多模态深度学习。在：Proc. IEEE/RSJ智能机器人和系统国际会议（IROS）上。pp. 681-687（2015年）12. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A. Bengio，Y.：生成性对抗网。神经信息处理系统进展（NIPS）。pp.267213. Gu，S.，左，W.，Guo，S.，陈玉，陈春，Zhang，L.：用于深度图像增强的学习动态引导In：Proc.IEEE计算机视觉与模式识别会议（CVPR）。pp. 71214. 古普塔，S.，格尔希克河Arbeláez，P.，Malik，J.：从rgb-d图像中学习丰富的特征用于目标检测和分割。欧洲计算机视觉会议（ECCV）。pp. 34515. Han，Y.，Lee J.Y. Kweon，I.S.：在未校准的自然光照下从单个rgb-d图像获得高质量形状。IEEE International Conference on Computer Vision（ICCV）. pp. 161716. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议（CVPR）。pp. 77016J. Jeon和S. 李17. 许德华Loy，C.C.，唐X：通过深度多尺度引导实现深度图超分辨率。欧洲计算机视觉会议（ECCV）。pp. 35318. Iizuka，S.，Simo-Serra，E.，Ishikawa，H.：全局和局部一致的图像完成。ACMTransactions on Graphics（ToG）36（4），107（2017）19. Kiechle，M.， Hawe，S.， Kleinsteuber，M.：一个联合强度和深度共同稀疏深度图超分辨率分析模型。在：Proc.IEEE International Conference on ComputerVision（ICCV）中。pp.第154520. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法In：Proc.在-国际学习表征会议（ICLR）（2015）21. Kopf，J.，Cohen，M.F.，Lischinski，D.，Uyttendaele，M.：联合双边上采样。ACM Transactions on Graphics（ToG）26（3），96（2007）22. Kwon，H.，Tai Y.W.Lin，S.：通过多尺度数据驱动的深度图细化稀疏表示IEEE计算机视觉和模式识别会议（CVPR）。pp. 15923. Lai W.S.Huang，J.B.，Ahuja，N.，Yang，M.H.：深拉普拉斯金字塔网络实现快速准确的超分辨率。IEEE计算机视觉和模式识别会议（CVPR）。pp. 62424. Le，A.V.，Jung，S.W.，Won，C.S.：用于深度图像的定向联合双边滤波器传感器14（7），1136225. 莱迪格角泰斯湖胡萨尔，F.卡瓦列罗，J.，Cunningham，A. Acosta，A. Aitken，A.，Tejani，A.，托茨，J.，王志，等：使用生成对抗网络的照片级真实感单幅图像超分辨率。IEEE计算机视觉和模式识别会议（CVPR）。pp. 468126. Lin，D. Fidler，S.，乌尔塔松河：基于rgbd相机的三维目标检测的整体场景理解IEEE International Conference on Computer Vision（ICCV）. pp. 141727. Lin，T.Y.，Maire，M.，Belongie，S.， Hays，J.， Perona，P.， Ramanan，D.Dollár，P.，Zitnick，C.L.：微软coco：上下文中的公用对象。欧洲计算机视觉会议（ECCV）。pp. 第74028. 卢，J，Forsyth，D.：稀疏深度超分辨率。IEEE计算机视觉和模式识别会议（CVPR）。pp. 224529. Lu，S.，Ren，X.，Liu，F.：通过低秩矩阵完成的深度增强于：IEEE计算机视觉和模式识别会议（CVPR）。pp. 339030. 不S金T.H.Lee，K.M.：深度多尺度卷积神经网络动态场景去模糊IEEE计算机视觉和模式识别会议（CVPR）。pp. 25731. Nathan Silberman Derek Hoiem P.K.Fergus，R.：室内分段和超从RGBD图像的端口推断。欧洲计算机视觉会议（ECCV）。pp. 74632. Newcombe，R.A.，Izadi，S.，Hilliges，O.，Molyneaux，D.，Kim，D.，Davison，A.J.，Kohi，P.，Shotton，J.，Hodges，S.，Fitzgibbon，A.：运动融合：实时密集表面映射和跟踪。IEEE International Symposium on Mixed and Augmented Reality（ISMAR）pp. 12733. Nießner，M. Zollhöfer，M.，Izadi，S.，Stamminger，M.：利用体素散列法进行大规模实时三维重建。ACM Transactions on Graphics（ToG）32（6），169（2013）34. 枕骨结构传感器：https://structure.io/35. Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.：Pytorch：张量和动态Python中的神经网络具有强大的GPU加速（2017）基于重构数据集的CNN深度图像增强1736. Pathak，D.，Krähenbühl，P.，Donahue，J.，Darrell，T.，Efros，A.：上下文编码器：通过图像修复进行特征学习。IEEE计算机视觉和模式识别会议（CVPR）。pp. 253637. Schmeing，M.，江X：使用颜色分割的边缘感知深度图像滤波。模式识别快报（PR）50（C），6338. 沈，X.，Zhou，C.，中国地质大学，徐，L.，Jia，J.：联合过滤的共同结构。IEEEInternational Conference on Computer Vision（ICCV）. pp. 340639. Song，S.，Lichtenberg，S.P.，Xiao，J.：Sun rgb-d：一个rgb-d场景理解基准测试套件。IEEE计算机视觉和模式识别会议（CVPR）。pp.第56740. 托马西角Manduchi，R.：用于灰度和彩色图像的双边滤波。IEEE InternationalConference on Computer Vision（ICCV）.pp. 83941. 托西奇岛Drewes，S.：学习联合强度-深度稀疏表示。IEEE Transactions on ImageProcessing（TIP）23（5），212242. 王志，Bovik，A.C.，Sheikh，H.

下载后可阅读完整内容，剩余1页未读，立即下载