没有合适的资源?快使用搜索试试~ 我知道了~
1242自监督深度去噪弗拉基米罗斯·斯捷尔岑岑科·列奥尼达斯·萨罗格鲁·阿纳吉罗斯·查齐托夫斯Spyridon Thermos Nikolaos ZioulisAlexandrosDoumanoglou Dimitrios Zarpalas Petros Daras信息技术研究所(ITI),希腊研究和技术中心(CERTH),希腊摘要深度感知被认为是一个非常宝贵的来源各种视觉任务的信息。然而,使用消费级传感器获取的深度图仍然受到不可忽略的噪声的影响。这一事实最近促使研究人员利用传统滤波器以及深度学习范例,以便抑制上述非均匀噪声,同时保留几何细节。 尽管付出了努力,但深度去噪仍然是一个开放的挑战,主要是由于缺乏可以用作地面实况的干净数据。在本文中,我们提出了一个完全卷积的深度自动编码器,它可以学习去噪深度图,克服缺乏地面真实数据的问题。具体地,所提出的自动编码器利用来自不同视点的相同场景的多个视图,以便在训练期间使用深度和颜色信息而在推断期间仅使用深度来学习以自监督的端到端方式抑制噪声为了加强自我监督,我们利用可微渲染技术来利用光度监督,并使用几何和表面先验进一步正则化。由于所提出的方法依赖于原始数据采集,因此使用英特尔实感传感器收集大型RGB-D语料库。作为定量评估的补充,我们证明了所提出的自监督去噪方法对已建立的3D重建应用程序的有效性。代码可在https://github.com/VCL3D/DeepDepthDenoising获得1. 介绍深度感知是所有视觉相关任务的重要信息线索。随着消费级深度传感器的出现,研究界已经利用深度信息的可用性在各种领域实现性能飞跃。这些包括用于机器人导航的SLAM技术、静态场景捕捉或跟踪,*同等贡献图1.所提出方法的抽象表示。我们的模型利用深度图像为基础的渲染在多视图设置,丁实现自我监督使用光度一致性和几何和表面先验。与传统滤波结果(中间)相比,去噪示例增强现实应用[42],动态人类表现捕捉[2],自动驾驶[7]。深度传感器可以基于它们在被动(纯光学)和主动(致动后的观察)中与观察到的场景的交互,或者它们分别在立体、结构光(SL)和飞行时间(ToF)中的技术基础虽然后两者根据定义是主动的,但是基于立体的传感器可以在被动和主动模式下操作,因为它们经由双目观察和三角测量来估计深度。考虑到它们是由对应关系建立驱动的然而,上述传感器类型遭受高水平的噪声和结构伪影。1243旨在解决噪声深度估计的大多数工作依赖于使用传统的滤波方法[30,48],显式噪声建模[37,16,3]以及在深度去噪自动编码器方面利用深度学习(DL)范式。然而,前两个需要广泛的参数调整,以适当地适应不同级别的噪声,努力保持细节,并导致本地(传感器特定的)解决方案。另一方面,最近的研究利用深度自动编码器[18,46]能够捕获上下文并导致更多的全球解决方案。数据驱动方法的主要挑战尽管最近的无监督数据驱动方法[31]试图解决地面实况缺点,但它们依赖于对噪声性质和属性的假设,这不适用于消费者级深度传感器。在这项工作中,采用DL范式来解决缺乏地面真实数据的问题,以及在没有先验假设的情况下研究去噪的必要性。一个完全卷积的深度自动编码器是按照自我监督的方法设计和训练的。特别地,自我监督依赖于使用以其视场(FoV)重叠的方式放置的多个RGB-D传感器从不同视点同时捕获观察到的场景。由传感器获取的颜色信息用于使用给定已知传感器姿态的预测深度图来合成目标视图该过程实现了直接的光度监测,而无需地面实况深度数据。深度和法向平滑度先验用于训练过程中的正则化,而我们的推理只需要一个深度图作为输入。该模型在使用最新英特尔实感传感器收集的语料库上进行训练和评估[20],由具有高度深度变化的稀疏数据组成然而,请注意,在推理上,该模型可以应用于任何消费级深度传感器。我们的方法的概述,以及去噪的例子,在图中描绘。1.一、广泛的定量评估表明,所提出的自监督去噪方法相比,国家的最先进的方法的此外,通过在成熟的3D重建应用中使用去噪深度图,进一步定性评估了深度自动编码器的性能,在给定所用传感器的噪声水平的情况下,显示了有希望的结果。请注意,该模型结构使有效的干扰,参考最近的图形卡。2. 相关工作每种深度感测技术都受到不同的系统噪声的影响,这一事实使得单深度去噪方法的开发成为在下面的概述中,相关工作分为三大部分类别,呈现文献中可用的最先进的深度去噪方法。噪声建模由于深度传感器在不同的原理上操作,因此它们也受到对于它们的底层操作而言是唯一的不同系统噪声的影响。因此,解决深度图中的噪声水平的一种方法是对底层传感器噪声进行建模。[16]的初始工作将Kinect的系统噪声建模除了去噪,[37]还对SL深度传感器产生的数据进行深度图补充。采用了前景-背景分割的概率框架,然后采用邻域模型进行去噪,以防止沿不连续性的深度模糊[3]最近提出了一种类似的方法,其关键区别在于多项式无失真函数,该函数在像素级以更细的粒度进行估计,而不是封闭形式的方程。然而,传感器噪声模型的异质性很难推广和应用于各种传感器。一个突出的例子是最近的大量工作,这些工作涉及ToF传感器的噪声诱导多径干扰(MPI)问题[12],[29]和[1]。它们采用DL方法来校正和去噪生成的深度数据,但这些方法不适用于其他传感器类型。经典和引导过滤。传统的滤波方法更适用于各种传感器类型,在各种应用中用于深度去噪的最典型方法(例如[32])是双边滤波器[43],一种成熟的计算机视觉滤波器。从更实际的角度来看,由于深度传感器通常伴随有至少一个光强度传感器(彩色、红外),因此许多工作已经求助于使用这种额外的模态作为更清晰的虽然确实是一种有前途的方法,但强度信息的使用依赖于两种模态之间的对齐边缘假设,因此,联合双边[30]和滚动引导[48]滤波器都受到纹理转移伪影的影响。因此,后续工作集中在广告引导和目标图像之间缺乏结构相关性[38,13,28]。最后,类似的概念方法[33,14,45,47]利用从强度图像中提取的阴影信息,以细化所获取的深度图。尽管从表面信息利用获得了增加的鲁棒性,但是所有前述方法都不能减轻由于模态未对准而产生的伪影另外,典型过滤的最显著缺点是其不能理解全局上下文,因此在局部水平上操作。学习方法。另一方面,数据驱动方法可以更好地捕获每个场景的全局上下文,1244可以驱动去噪任务的重要信息来源在[10]和[26]中,已经使用卷积神经网络(CNN)实现了引导滤波概念。前者提出了一种加权分析表示模型,以便对强度和深度图像之间的依赖性进行后者目前代表了联合滤波的最新技术水平。它使用3个CNN来学习将结构信息从引导图像转移到噪声图像。虽然有效,但它是以完全监督的方式学习的,这意味着它需要地面实况数据,这些数据很难获得,并且需要为每种不同类型的传感器收集。最近的工作已经求助于近地面实况数据集生成,以便规避获取地面实况深度数据的缺乏和困难。ScanNet [9]数据集用于[18]以通过在扫描期间利用经增强去噪的3D重建模型和已知传感器姿态来产生原始-干净深度对,以经由渲染来合成它们。使用基于非常深的多尺度拉普拉斯金字塔的自动编码器模型,并使用附加的基于梯度的结构保持损失来直接监督。尽管结果令人满意,但由于其网络的深度,推理速度相当缓慢,因此在现实世界中使用其模型是不可行的 类似地,Kwonet al.[23][24][25][26][27][28][29]图2.我们的多视图前向飞溅计划说明。源视图-1和3(分别为绿色和橙色)将其贡献splat到目标视图-2(蓝色)。每个源像 素 ( p1 和 p3 ) 重 新 投 影 到 目 标 视 图 ( 分 别 为 p1→2 和p3→2)。它们从源头携带的颜色信息视图以双线性方式在其重投影的邻域上散布。此外,这些贡献也加权每个源像素如目标视图的突出显示的像素所示,多个视图在目标飞溅图像中组合它们的颜色信息。尽管在训练期间利用颜色信息,但是在推断期间仅需要单个深度图作为输入。3.1. 多视图自监督每个传感器共同获取彩色图像I(p)∈R3和深度图D(p)∈R,其中p:=(x,y)∈R是在W×H网格中定义的图像域中的像素坐标,其中W和H分别是其宽度和高度 考虑V个空间对准的传感器v ∈ {1,...,V},其视点位置在一个由他们的姿势来表达的一个三角形坐标系以训练他们的基于多尺度字典的方法。此外,Wuet al.[46]第46话,我的好朋友Tv:=Rvtv01,其中Rv和tv表示旋转和反式-方法[11],以非刚性地融合深度数据并构建原始-干净的深度图对。这项工作采用了一个自动编码器与跳跃连接,再加上一个细化网络在年底融合的降噪数据与强度信息,以产生细化的深度图。在各种背景下生成地面实况数据的不可用性和困难是无监督方法的主要动机。Noise2Noise [31]及其扩展Noise2Self [4]和Noise2Void [22]演示了如何在没有干净数据的情况下以无监督的方式实现去噪然而,上述方法依赖于某些分布假设(即零均值高斯i.i.d.噪声),这不适用于消费级深度传感器获取的数据。显然,需要在没有直接监督的情况下进行培训的方法我们的工作通过提出在多视图设置中使用多个传感器来解决这个问题。3. 深度去噪我们的方法旨在避免缺乏地面实况深度数据。在没有干净的深度测量的情况下训练的端到端框架学习对输入深度图进行降噪。使用非结构化的多视图传感器捕获未标记的颜色和深度数据,我们的方法依赖于视图合成作为监督信号,分别地,我们可以关联图像域坐标-从一个视点到另一个视点,使用:Ts→t(ps)=π(Ts→tπ−1(Ds(ps),Ks),Kt),(1)其中Ts→t是传感器s(源)和(目标),箭头显示方向。的转变。π和π−1是使用每个传感器的内禀矩阵K将3D坐标转换为像素坐标的投影和去投影函数,反之亦然。请注意,为了符号简洁,我们省略了深度图D s、姿态Ts→t以及函数T中的固有参数Ks和Kt。在多视图上下文中,并且假定每个v传感器彩色图像Iv和深度图D v在相同的图像域上对准和定义,则可以使用等式(1)将颜色信息从每个视图传送到其他视图。1的像素。注意,与噪声深度测量相反因此,所获取的颜色信息可以被认为是干净的(或者是更一致和更高质量的信号)。通过噪声深度从一个视图遍历到另一个视图将产生失真的彩色图像,这是由于深度误差表现为不正确的重投影。因此,我们可以自我监督的深度噪声,通过视图间的颜色重建下的光一致性假设。即使视图合成监督需要至少2个传感器,也可以采用更多的传感器,只要它们的1245R(p)图3.所提出的深度去噪方法的详细网络架构 该网络从所有可用的传感器(D1-D4)接收原始深度信息,并预测去噪深度图(D1-D 4)。使用可区分的渲染(见3.1节),一个新的w从非目标深度图预测D2-D4合成彩色图像DI 1。随后,使用Lp1计算Lph损失(参见第3.3节),将I1视为基础事实。请注意,每个输入深度图都被迭代地视为目标帧,而总损失从每个传感器损失的总和得出。通过几何对应函数T,已知公共坐标系中的姿态。这使我们能够解决明显的问题,如遮挡和一致基线的局限性(有限的准确性)。此外,由于噪声不一致,观察同一场景的多个深度图直观,与宽基线立体相似,由于基线的多样性,增加注意,由于该方法是纯几何的,因此支持任何数量的非结构化传感器放置。大多数使用视图合成作为监督信号的作品利用逆扭曲[17]进行图像重建。在该重建方案下,每个目标像素采样因此,许多目标像素可以从源图像采样每个源像素对重新投影的焦油有贡献,....得到像素{xpty,xpty,xpty,xpty},其中。一个接一个请分别注意子表脚本图像域方向x,y。实际上,每个源像素将其贡献分裂到四个目标像素,从而增强局部可微性。我们通过考虑其不确定性来对每个像素的贡献进行加权,该不确定性被表示为沿射线的测量噪声以及径向失真误差的组合:w c(D,p)=w d(D,p)w r(p).为了增加适用性,深度不确定性和径向失真置信度权重以通用方式建模。对于深度不确定性,我们认为更接近传感器原点的测量值更远的;w(D,p)= exp(−D(p)),由σ控制。dσDD来自同一个源像素。然而,依靠错误的深度值是有问题的,因为遮挡和可见性需要通过深度测试本身类似地,对于径向失真置信度,使用通用FoV模型[41]:tan(r(p)tan(ω))依赖于嘈杂的深度图为了克服这一点,我们采用微分渲染R(p)=tan(ω)、(3)[44]并使用前向溅射来积累颜色信息。√其中r(p)=(x2+y2)是像素目标视图的信息。 在向前溅射每个源时像素积累其对目标图像的贡献,因此,如图所示在图2中,许多源像素(来自相同或甚至不同的视图)可以贡献于单个目标像素。这需要加权平均累积方案来重建渲染图像。我们定义一个溅射函数Ss→t(At,Bs,Ds,ps):失真中心(即主点),ω是传感器FoV的一半。以这种方式,高失真区域中的测量被认为是较不可信的,并通过wr(p)= exp(r(p))加权。我们把加权后的颜色贡献-从源图像s到目标图像t的分割,以及权重本身通过splatting函数S:At(Ts→t(ps))=wc(Ds,ps)wb(Ts→t....s ss s(p),pt)B(p)(二)其中A、B图像定义在图1中,wc加权源像素1产生亚像素精度的结果。因此,我们认为, 我们Ss→t(It,Is,Ds,ps),Ss→t(Wt,1,Ds,ps),(4)其中W和1分别是在图像域中定义的飞溅权重和1的标量映射。为了计算重建图像,在目标视图中执行加权平均归一化;1246It请注意,通过前向溅射,目标图像的混合值使梯度流能够流向所有圆锥,贡献测量。在传统渲染(离散光栅化)中,接近表面的深度值的梯度流将被切断,并且鉴于噪声的双向性质,这将妨碍学习过程。相反,使用前向溅射,由于指数权重因子,背景深度仅对混合像素有最小贡献,接收最小梯度,从而隐式地处理遮挡和可见性测试。在具有S传感器的多视图设置中,我们可以在多对一方案中splat贡献,以便充分利用多视图预测。对于每个视图t,通过累积颜色和权重splat来呈现splat图像从所有其他视图到零初始化的队列,Wt:为了确保去噪不受由于数据稀疏或边缘情况下的深度差异而导致的无效值的影响,最近提出的部分卷积[27]在每个CONV层中使用。通过解析输入深度图D并且对于D(p)>0设置M(p)= 1并且对于零深度设置M(p)= 0来形成所需的有效性(二进制)掩码M。该掩码作为网络的输入,并在每次部分卷积后更新,如[27]所示。在训练过程中,网络为每个传感器推断去噪深度考虑来自4个传感器的输入,如图1所示。3,所有深度图被迭代地设置为目标帧。因此,根据提出的前向溅射技术,在第3.1节中,使用信息合成目标函数I从非目标预测的深度图。目标我和计算的光度损失,这是不确定的。在下一节中被诅咒。请注意,梯度是准确的,针对所有不同的目标深度图和权重进行{s,t|t/=s}∈S:Ss→t(I,I,D,p),S(W,1,D,p)网络的更新被执行一次。我们这样-S t s ss→tsss在每次迭代中形成更密集的反向传播,即使(五)并且随后归一化Δt。所提出的基于深度图像的可微分绘制允许我们在多对多方案中开发光度监控从而仅依赖于对齐的颜色信息来监督深度去噪。3.2. 网络架构所提出的数据驱动方法被实现为图1中描绘的深度自动编码器。3.第三章。它的结构受到U-Net [35]架构的启发,该架构分别由编码器、潜伏期和解码器部分组成请注意,网络是完全卷积的,因为没有线性层。编码器遵循CNN的典型结构,由9个卷积(CONV)层组成,每个层后面都有一个指数线性单元(ELU)[8]激活函数。输入在潜在空间之前使用具有3×3内核和步幅2的卷积进行3次下采样,而通道数量在每个下采样层之后加倍。潜在部分由2个连续的残差块组成,每个残差块遵循采用预激活技术和恒等式的ELU-CONV-ELU-CONV结构。我们的输入是稀疏的,导致更快和更平滑的收敛。3.3. 损失建议的网络使用几何导出的光度一致性损失函数进行训练。此外,深度和正常的先验被利用作为进一步的正则化,这迫使空间的一致性和表面光滑。用于计算网络梯度的总损耗定义为:L总=λ1Lph+λ 2L深度+λ 3L表面,(6)`x` x数据先验其中λ1,λ2,λ3∈(0,1)是和等于1的超参数。下面详细讨论光度损失以及正则化函数光度一致性:Lph迫使网络最小化输入I和输入I之间的pix el误差。注意,为了执行正确的逐像素监督,我们计算MSPlat的二进制掩码,表示为MSPlat,其中对于MSPlat(p)>0,MSPlat(p)=1,对于0,MSPlat(p)=0I(p)values. 相应地,经掩蔽的输入图像I是在[15]中引入了映射以提高性能。解码器与编码器共享类似的结构用作基础真值,计算公式为-I=Msplat 我,由9个CONV层组成,每个CONV层后面是ELU非线性。特征在最终预测之前被上采样3次,使用最近邻上采样,然后是CONV层。请注意,每个下采样图层都是其中⊙表示逐元素乘法。PH值为-提出了两个术语,即基于颜色的损失定义为:用跳过连接与对应的上采样(具有相同尺寸的特征)连接随后,上采样层的激活是连贯的,LcolΣ=ρ(M(p)||(1)、(7)||1),(7)p与来自相应的跳过连接的那些级联后,随后是一个具有1×1内核大小的CONV层,强制进行通道内相关性学习。其中M是有效性掩模(见第3.2节),ρ(x)=x2+γ2是Charbonnier罚分[6,40](γ是近-零常数)用于对离群值的鲁棒性。Lcol12472c旨在惩罚颜色强度之间的偏差我和你。另一方面,我们使用结构化相似性度量(SSIM)作为I和I之间的结构损失,其定义为:ΣLstr=0。5φ(M(p)(1−SSIM(?I(p),?I(p),(8)p其中M是与等式中相同的有效性掩码。φ(x)是Tukey的惩罚,如在[ 5 ]中使用,给出其属性以将离群值的梯度的幅度减小到直觉上,L应力迫使预测对局部照明变化和结构信息保持不变性。请注意,上述惩罚函数用于解决缺乏约束(即朗伯表面,无遮挡),这些约束需要满足光度一致性监督,尽管不适用于真实世界的多视图场景。最后,总光度损失函数被定义为上述基于颜色的损失和结构损失的线性组合,并且由下式给出:Lph=(1−α)Lcol+αLstr,(9)其中α ∈(0,1)是超参数。深度正则化 我们选择进一步定期-将上述光度一致性损失通过例如利 用 深 度 信 息 先 验 。 特 别 地 , 考 虑 到 残 差 r=M(D−D ),其中D是网络的去噪预测,我们使用逆Huber(BerHu)惩罚[25]:. |R|、|R|≤ c图4.收集的训练集样本显示捕获的内容(气球和多人活动)。4. 实验结果在本节中,我们定量和定性地证明了我们的自监督方法对最新的最先进的监督方法,以及传统的过滤方法的有效性。最近发布的英特尔实感D415,主动立体声RGB-D传感器,索尔,用于数据收集和评估。训练RGB-D数据集。为培训我们模型,一个新的RGB-D语料库已经收集,使用多个D415设备包含超过10 K四元组RGB-D帧。我们采用V= 4垂直定向的传感器在半结构化部署中,如图1所示,使用定制的H结构。H型结构提供近似对称的放置和不同的垂直和水平基线。为了传感器的颜色流和深度流之间的时空对准 这确保了颜色和深度图像域的对准,并且规避了不提供预处理的传感器的技术限制L深度=2 2、(10)r+c,|> C|> c其中c是边界值,定义为每批最大残差的20%,c= 0。2 max(r).选择BerHu而不是L2是基于[24],其中发现它更适合作为深度估计器,因为它对于低于边界值的残差表现为L1曲面正则化除了深度正则化之外,表面正则化先验被用于在预测的深度图中强制平滑。特别地,表面损失由下式给出:cise立体声对和RGB摄像头。传感器被配置为其即,在典型的人类捕捉场景中的零深度值的约60%使用[39]捕获数据,通过[34]的多传感器校准实现4个传感器之间的空间对准,而通过D415传感器提供的传感器间HW同步实现精确的时间对准。由于我们的方法依赖于视图合成进行监督,ΣL表面= 1 −pΣp′∈Θp|n(p),n(p′)|M(p)G(Θp)、(11)我们可以很容易地收集原始数据进行训练。与使用3D重建方法生成接近地面实况数据集相比,这是一种快速的方法[46,18]。关于数据集内容,旨在创建足够深度的数据集其中,n(p)是由解投影点v(p)计算的3D局部表面的法向向量,Θp是p周围的所有2D相邻像素的集合,G(Θp)是对邻域Θp,最后,θ·,θ·是两个向量之间的内积注意,n(p)被归一化,使得|[0 , 1] 和 |·| 是 绝 对 值 运 算 符 。 |is the absolute valueoperator.可变性,我们捕捉了人类的行动,同时执行-形成了多个人,以及一套特殊的移动纹理气球的不同颜色。详细地,多个受试者(1-7)执行自由(即,未预定义)动作,同时使用吹制机在空中吹制各种气球,从而创建高度可变性的深度图。请注意,随机运动模式完全覆盖了1248图5.使用D415数据的定性结果。传感器的FoV和防止训练集中的空间偏差。指示性样品如图所示。4.第一章实施详情。补充材料的第1.1节介绍了训练方法和网络超参数。评价方法。针对传统滤波方法(如双边滤波器(BF[43])、联合双边滤波器(JBF [21])、滚动制导(RGF [48]))以及数据驱动方法(如DRR [18]和DDRNet [46])对所提出的模型进行了评估请注意,对于DDRNet情况,网络的细化部分被省略,以便在去噪中进行公平的比较。 由于缺乏地面实况,Kinect v2(K2)[36]的深度图被用作定量评估的“接近地面实况”数据。也就是说,使用结合K2和D415的刚性结构捕获具有变化内容的即时样本的70对RGB-D集合,并且将其用作用于评估目的的测试集特别是,为了实现模态之间最接近的可能定位,两个传感器的放置方式应确保其FoV重叠度较高,同时使用Matlab StereoCamera Calibration App [49]校准结构。评估包括3个实验,从直接深度图比较到特定于应用的测量。详细地说,对于第一个实验,由D415传感器捕获的深度图通过所提出的网络和最先进的方法进行去噪,并使用K2地面真实数据评估结果。随后,使用上述刚性结构,我们用两个传感器(D415,K2)同时捕获15个扫描序列,然后将其用作KinectFusion的输入。对于我们的最后一个实验,我们利用多视图设置来捕获5个全身样本。请注意,除了定量评价外,还提供了每个实验的定性结果。结果在第一个实验中,我们使用投影数据关联来比较去噪方法的性能图6.使用KinectFusion的定性结果。ods对D415数据与接近地面实况的K2深度图。 结果示于表1中(第2- 4栏)。7)并展示了所提出的方法对监督方法和传统滤波器的有效性。尽管量化方法之间的平均绝对误差差异较低,但RMSE结果证明了我们的方法通过实现最低误差偏差来对深度图进行去噪的有效性关于表面误差,我们的方法在DRR [18]和RGF[48]之后排名第三,略有差异。然而,DRR滤波导致深度图过度平滑和空间偏移(弯曲),使高频细节退化,从而导致大的距离误差。另一方面,DDRNet [46]在D415深度数据去噪中表现不佳这可以归因于网络在没有背景的人类的高密度深度图上的上下文特定学习,这展示了使用特定3D重建方法来生成用于监督的近地面实况数据的缺点,以及不能很好地概括另一个原因可能是D415的噪声水平高于传感器[46]的训练水平。此外,D415产生稀疏结果的事实阻碍了基于CNN的方法的适用性,由于卷积回归的性质,基于CNN的方法没有考虑到这一点。最后,经典和引导滤波器呈现相对较大的误差比所提出的方法。深度图去噪的定性结果1在图1中示出。五、很明显,局部滤波由于其局部性质而不能充分去噪,而基于学习的替代方案要么过平滑(DRR ),要么不能推广到其他传感器(DDRNet)。相反,我们的方法在保留结构细节的同时平滑了噪声。第二个实验展示了使用KinectFusion进行3D重建静态场景的应用设置中的结果。该实验背后的基本原理是使用D415的去噪深度图对扫描结果进行比较,并将结果与K2扫描的结果进行比较。定量结果见表1(最后一列),定性结果见图1。六、1与我们的实验相关的其他定性结果包括在补充材料文件中。1249表1.去噪算法的定量评估:深度图和表面误差以及3D重建任务中的误差欧氏距离法向角度差Kinect融合图7.使用泊松重建的定性结果。图8.使用K2数据进行定性比较。在这个实验中,我们选择使用一个聚合的度量,处理表面和几何信息联合,点到面。我们使用5mm半径内的所有顶点(3D扫描时使用2mm体素网格大小)计算接近地面真实点云中每个点的最小二乘平面,而不是依赖于最近邻进行距离计算。地面实况点云的每个计算平面相对于去噪点云的最大点的距离为最终RMSE贡献了一个项。虽然KinectFusion通过聚合和融合深度测量重建表面,但它也通过TSDF融合过程隐式地对结果进行降噪。为了强调表面误差,我们进行了另一个实验,这次使用泊松重建[19],这需要更好的表面估计,以便适当地执行3D重建。这使我们能够定性地评估去噪输出平滑度,同时还展示了保存结构。我们在空间上对齐4个D415传感器在一个360°的位置和捕捉深度帧四倍的静态人。我们使用去投影的原始和去噪的深度图来点云,并使用10个最近的邻居计算每个点的法线。 这些定向点云使用[19]重建,结果如图所示。7.第一次会议。很明显,BF,第一个实验的执行滤波器之一,执行平滑而不去除所有噪声,因为它在局部水平上操作。相反,使用我们模型的去噪深度图的3D重建模型实现了更高质量的结果,这主要归功于其更有效地捕获全局上下文的能力。最后,虽然使用其他传感器训练的其他去噪CNN未能在D415上产生良好的结果,但我们也给出了K2数据2的定性结果,尽管使用D415噪声深度进行了训练。图8显示,我们的模型优雅地处理来自其他传感器的噪声,与在特定上下文(传感器,内容)的数据集上训练的完全监督方法5. 结论本文提出了一种用于深度去噪任务的端到端模型为了解决缺乏地面实况深度数据的问题,使用同一场景的多个RGB-D视图以自监督方式使用光度、几何和表面约束来训练模型。通过直接深度图去噪评估和两个成熟的3D重建应用程序,该模型优于传统的滤波和数据驱动方法。此外,实验表明,与其他数据驱动方法不同,我们的模型在对从其他传感器捕获的深度图进行去噪时保持其性能。该方法的局限性在于需要颜色信息进行监控,以及传感器鸣谢。我们感谢Antonis Karakottas在硬件设置方面的帮助,以及我们数据集中记录的受试者的参与。我们还感谢H2020 EC项目VRTogether根据合同762111提供的财务支持,以及英伟达捐赠的GPU。2我们收集自己的数据,因为[46]的K2数据集尚未公开。MAE(mm)RMSE(mm)平均值(%)↓10.0(%)↑20.0(%)↑30.0(%)↑RMSE(mm)DDRNet [46]114.57239.0652.851.787.3016.5950.79DRR [18]75.40201.4930.2310.9534.6957.7637.31JBF [21]27.1084.8438.576.1421.0839.6127.68RGF [48]26.6081.3531.849.4631.0053.5832.58[第43话]26.1173.2535.047.4225.3846.1129.85我们25.1158.9532.099.6131.3453.6524.741250引用[1] 吉安卢卡·阿斯蒂和彼得罗·扎努蒂格。用于ToF传感器中多路径误差去除的深度学习。在ECCVW,第410-426页[2] Dimitrios S.Alexiadis , Nikolaos Zioulis , DimitriosZarpalas,and Petros Daras.使用消费级RGB-D传感器进行基于快速可变形模型的人体图像捕获和FVV。模式识别,79:260[3] Filippo Basso , Emanuele Menegatti , and AlbertoPretto.RGB-D 相 机 的 内 部 和 外 部 标 定 。 IEEETransactions on Robotics,(99):01[4] 乔舒亚·巴特森和罗伊克·罗耶Noise2Self:通过自我监督进行盲去噪。在ICML,2019。[5] Vasileios Belagiannis 、 Christian Rupprecht 、 GustavoCarneiro和Nassir Navab 。深度回归的稳健优化。在ICCV,第2830-2838页[6] Qifeng Chen和Vladlen Koltun。应用于深度重建的快速MRF优化。在CVPR,第3914-3921页[7] Yiping Chen,Jingkang Wang,Jonathan Li,Cewu Lu,Zhipeng Luo,Han Xue,and Cheng Wang. LiDAR视频驱动数据集:有效学习驾驶政策。第5870-5878页[8] Djork-Arne 'Clevert , Thomas Unterthiner , and SeppHochre- iter.通过指数线性单元(ELU)进行快速准确的深度网络学习ICLR,2016年。[9] AngelaDai , MatthiasNießner , MichaelZoll höfer ,ShahramIzadi,and Christian Theobalt.BundleFusion ACMTrans- actions on Graphics,36(4):1,2017。[10] 古书航、左王梦、石果、陈云锦、陈崇宇、张磊。用于深度图像增强的学习动态引导。在CVPR中,第712-721页,2017年。[11] Kaiwen Guo , Feng Xu , Tao Yu , Xiaoyang Liu ,Qionghai Dai,and Yebin Liu.使用单个RGB-D相机进行实时几何、 运动和运动重建。ACM Transactions onGraphics,36(3):32,2017。[12] Qi Guo,Iuri Frosio,Orazio Gallo,Todd Zickler,andJan Kautz.通过学习和FLAT数据集处理3D ToF伪影。在ECCV,第368-383页[13] Bumsub Ham,Minsu Cho,and Jean Ponce.使用联合静态和动态引导的鲁棒图像滤波。在CVPR,第4823-4831页[14] Yudeog Han,Joon-Young Lee,and In So Kweon.在未经校 准 的 自 然 光 照 下 , 从 单 个 RGB-D 图 像 获 得 高 在ICCV,第1617-1624页[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射。在ECCV,第630-645页[16] Dani e lHerrera,JuhoKannala,andJanneHeikeaa?. 联合深度和彩色相机校准与失真校正。IEEE Transactions onPattern Analysis and Machine Intelligence,34(10):2058[17] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在NIPS中,第2017-2025页2015年。[18] 全俊浩和李承晶。使用CNN的用于深度图像增强的基于重建的成对深度数据集在ECCV中,第438-454页[19] Michael Kazhdan和Hugues Hoppe屏蔽泊松曲面重建。ACM Transactions on Graphics,32(3):29,2013。[20] Leonid Keselman,John Iselin Woodfill,Anders Grunnet-Jepsen , and Achintya Bhowmik. 英 特 尔 ( R ) 实 感(TM)立体深度相机。在CVPRW,第1267-1276页,2017年。[21] 放大图片作者:Michael F.科恩,丹尼·利辛斯基和马特·乌滕代尔。联合双边上采样。ACM Transactions onGraphics,26(3),2007.[22] Alexander Krull,Tim-Oliver Buchholz,and Florian Jug.Noise 2 Void-从单个噪声图像中学习去噪。在CVPR中,第2129-2137页[23] HyeokHyen Kwon,Yu-Wing Tai,and Stephen Lin.通过多尺度稀疏表示的数据驱动深度图细化在CVPR,第159-167页[24] Iro Laina、Christian Rupprecht、Vasileios Belagiannis、Federico Tombari和Nassir Navab。使用全卷积残差网络进行更深的深度预测。在3DV中,第239-248页[25] 索菲·兰伯特·拉克鲁瓦和劳伦特·兹瓦尔德。鲁棒回归中的自适应BerHu惩罚Journal of Nonparametric Statistics,28(3):487[26] Yijun Li,Jia-Bin Huang,Narendra Ahuja,and Ming-Hsuan Yang. 联 合 图 像 滤 波 与 深 度 卷 积 网 络 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,第1页,2019年。[27] Liu Guilin , Fitsum A. 凯 文 · 瑞 达 Shih , Ting-ChunWang,Andrew Tao,and Bryan Catanzaro.基于部分卷积的不规则孔洞图像修复。在ECCV,2018。[28] 司禄、任晓峰、凤琉。通过低秩矩阵完成的深度增强在CVPR,第3390-3397页,2014年。[29] 2009年7月,Marco,QuercusHernandez,AdolfoMunNederoz , YueDong , Adrian Jarabo , MinH.Kim,Xin Tong,and Diego Gutierrez.DeepToF:飞行时 间 成 像 中 多 径 干 扰 的 现 成 实 时 校 正 。 ACMTransactions on Graphics,36(6):1[30] 松本一树,弗朗索瓦·德·索比耶,斋藤秀夫。实时对来自3D-ToF相机的噪声深度图进行基于平面拟合和深度方差的上采样。在ICPRAM。科技出版物,2015年。[31] Valeriya Naumova和Karin Schnass。从不完整数据中进行字典学习以实现高效的图像恢复。在EU- SIPCO,第1425-1429页[32] Richard A. 作 者 : Newcombe , Shahram Izadi , OtmarHilliges,David Molyneaux,David Kim,Andrew J.戴维森,这是科希,杰米·肖顿,史蒂夫·霍奇斯,安德鲁·菲茨 吉 . KinectFusion : 实 时 密 集 表 面 映 射 和 跟 踪 。ISMAR,第127-136页,2011年[33] Roy Or - El、Guy Rosman、Aaron Wetzler、Ron Kimmel和Alfred M.布鲁克斯坦RGBD融合:实时高精度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功