基于辅助图像重建的深度补全模型

59 浏览量更新于2023-10-25 收藏 1022KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11306从深度你能看到什么？基于辅助图像重建的卢凯越*1，2，尼克巴恩斯1，赛义德安瓦尔2，1，梁铮11澳大利亚国立大学2Data61，CSIRO摘要深度完成从稀疏测量恢复密集深度激光雷达。现有的仅深度方法使用稀疏深度作为唯一输入。然而，由于1）深度点的稀疏性质和2）缺乏提供语义线索的图像，这些方法可能无法恢复语义上一致的边界或小/薄的对象本文继续这一研究方向，旨在克服上述不足.我们的深度补偿模型的独特设计是，它同时输出重建图像和密集的深度图。具体地说，我们制定从稀疏深度的图像重建作为一个辅助任务，在训练过程中，是由未标记的灰度图像的监督。在测试过程中，我们的系统接受稀疏深度作为唯一的输入，即，不需要图像我们的设计允许深度补全网络学习有助于更好地理解对象结构的补充图像特征。图像重建所引起的额外监督是最小的，因为除了图像之外不需要注释。我们评估我们的方法KITTI深度完成基准，并表明，深度完成可以显着提高通过辅助监督图像重建。我们的算法consistently优于深度的方法，也是有效的室内场景，如NYUv2。1. 介绍密集和准确的深度对许多计算机视觉任务都是有益的，例如，3D对象检测[5，39]，光学光流估计[31，48]和语义分割[42，45]。然而，从传感器（如LiDAR）获取的深度图过于稀疏，无法满足实际需求。因此，深度完成的目的是从稀疏的测量恢复密集的深度现有的深度完井研究一般分为仅深度完井法和多输入完井法。仅深度方法使用稀疏深度作为唯一输入[36，26，11]。然而，它们可能无法恢复语义一致的边界，或者由于内部的稀疏性而导致的小/薄对象。*通讯作者：www.example.comkaiyue.lu @ data61.csiro.au把深度点和图像的缺乏，以提供语义线索（见图。1）。直观的解决方案是将RGB图像或其灰度作为模型的附加输入，如多输入方法[40，30，7]所使用的那样。然而，从两种模态中聚合特征是具有挑战性和复杂的[11，30]，并且在实践中将图像校准到深度图可能是昂贵的[14，20]。此外，对于诸如自动驾驶车辆的终端使用系统，结合额外的校准传感器（如相机）和相关联的处理模块可能显著增加成本。由此产生的问题是，我们是否可以继续只深度的范式，但纳入更多的图像特征，以提供更丰富的语义，以克服这种范式的缺点为了回答这个问题，我们从观察开始，从稀疏深度，我们仍然可以根据它们的一般形状和与背景的深度差粗略地看到一些对象结构，例如，图中的车和杆的例子。1.一、这促使我们思考，如果可以从稀疏深度恢复一些图像语义，我们将能够放松将图像作为输入的需要出于上述考虑，我们提出了一种深度补全模型，该模型将稀疏深度作为唯一输入，同时具有从图像特征中学习以提供语义线索的能力具体来说，我们训练网络同时输出重建图像和密集深度图，如图所示第2段（a）分段。我们制定从稀疏深度的图像重建作为一个辅助任务，在训练过程中，是由未标记的灰度图像的监督。在测试期间，不需要图像作为输入。我们的模型的独特设计允许深度补全网络学习补充图像特征，这些特征有助于更好地理解对象结构，从而产生比现有的仅深度方法更语义一致和准确的结果（见图1）。1）。此外，在训练阶段由图像重建引起的额外监督是最小的，因为除了图像之外不需要注释因此，我们的方法是实用的。我们在KITTI深度完成基准上评估了我们的方法，并表明通过图像重建的辅助学习可以显着提高深度完成11307(a) 稀疏深度(b)RGB图像(c)[38]第三十八话(d)S2D [26](e)我们的战利品。图像(f)我们的深度(g)地面实况图1.从稀疏深度完成深度。仅给定（a）稀疏深度作为输入而没有（b）对应的RGB图像，现有的仅深度方法，如（c）Globguide [38]和（d）S2D [26]不能适当地完成具有特定边界的对象的深度（例如，汽车）和小/薄的物体（例如，极点），这是由于缺乏深度点和图像来提供语义线索。（e）与他们不同的是它有助于（f）我们的深度补全恢复更语义一致的边界，并更准确地处理小/薄对象，我们的结果更接近（g）地面实况。所有的深度图都是彩色的，以便更好地可视化。综上所述，我们做出了以下主要贡献：• 我们提出了一个深度补全网络，它只以稀疏深度作为输入，同时输出重建图像和密集深度图。这种实践在很大程度上克服了现有的仅深度方法的缺点，即，缺乏语义线索• 通过将图像重建公式化为训练期间的辅助任务，我们不需要图像以外的其他这是廉价和易于实施。在测试过程中，不需要图像• 我们证明了我们的方法在KITTI深度完成基准上显著优于仅深度方法，并且可以应用于室内场景。2. 相关工作本节介绍了深度完成和多任务学习以及辅助学习的现有文献。2.1. 深度完井现有的深度完井方法可以大致分为仅深度完井和多输入完井。仅深度方法仅将稀疏深度作为输入，并输出密集深度图（见图1）。第2段（b）分段）。为了处理数据稀疏性，Uhriget al. [36]提出SparseConvs，一种稀疏不变的CNN方法，其中生成二进制掩码以指示深度值i的可用性。例如，1表示可用深度值，0表示无。二进制掩码可以迭代更新，但在浅层中过饱和，在较深层中性能有限[17]。它可以通过设计一个更自适应的掩码[15]或使用其他技术来改进，如压缩感知[8]，置信度/注意力图构建[12，38]以及多尺度学习和改进[27，26]。然而，它们在计算上是昂贵的，并且由于缺乏图像来提供语义线索而无法恢复对象的完整结构。相应地，多输入方法将额外的信息补充到输入中，并利用来自其他模态的互补特征。传统上，大众-更大的选择是将图像作为额外的输入，因为它可以提供丰富的语义提示[30，40，11，26，7，16]。这在区分不同对象、生成一致的边界和保留细节方面特别有用。在这种情况下，融合策略被广泛采用，早期融合，其中图像和深度图被连接以获得4D张量，以及后期融合，通过分别从图像和深度中提取特征，然后将它们融合，如图所示。2（c）和（d）。一些研究还试图利用其他方式，表面法线[30，40]，语义类[18]，点云[6]和视差图[41]。然而，这不可避免地增加了模型的复杂性。2.2. 多任务学习多任务学习（MTL）旨在通过同时学习单个但相关的任务来提高绩效[2]。这些任务之间共享特征以利用共同的表示，同时它们也可以彼此互补[19]。这种学习策略已被广泛应用于语义分割[19，29]，对象检测[22，23]，单图像深度估计[4，46]。同样，对于深度完井，Qiuetal.建议同时回归完成和表面法线估计[30]。Jaritz等人联合训练具有语义分割和深度完成的网络[18]。Recently, a variant of MTL, known as Auxiliary Learning(AL), is becoming popular. 在这个框架中，定义了一个主要任务，而所有其他任务都作为辅助正则化器来增强主要任务[32]。人工智能已被证明在许多计算机视觉任务中是有效的，手写数字识别[43]、语义分割[24]、人脸反欺骗[25]、视觉里程计[37]等。我们也采用它，并专注于深度完成作为首要任务。我们期望辅助任务，即。图像重建，以便于它与互补的图像特征，可以帮助更好地理解对象的结构。据我们所知，我们的工作是第一次将辅助学习引入深度完成。极车11308CNN图像在训练中使用的图像？是的测试中使用的图像？是的稀疏CNNCNNCNN图像在训练中使用的图像？是的测试中使用的图像？是的稀疏DD不Fdpt稀疏稀疏密集密集密集在训练中使用的图像？是的测试中使用的图像？没有在训练中使用的图像？没有测试中使用的图像？没有(a) 我们的（b）仅深度（c）早期融合（d）晚期融合图2.不同深度完井模式。(a)我们的模型将稀疏深度作为唯一的输入，并同时输出重建图像和密集深度。图像重建只是作为训练阶段的辅助任务在测试过程中，不需要图像(b) 仅深度模型输入稀疏深度并输出其密集图。(c)（d）多输入模型将图像作为具有早期或晚期融合策略的附加输入，并且在训练和测试中都需要图像。3. 方法在本节中，我们首先给出一个一般公式来描述现有的深度完井模型，并将其与我们的模型进行对比。然后，我们详细说明我们的方法。3.1. 深度完井模型给定一个稀疏的深度图x，其中空位置被填充为零，一般的深度完成模型学习在其地面真值x的监督下重建密集的深度x。深度模型仅深度模型D仅取稀疏深度x作为输入：x=D（x;θD），（1）where θD denotes the model parameters. 最优模型由θ参数化，并在训练期间通过最小化损失函数L获得，即，n=argminL（xn，xn）.（二）θD其中Wdpt和Wimg是两个任务的加权因子。这是一个典型的多任务学习框架[3]，其中网络联合学习以恢复密集深度并直接从稀疏输入重建图像。更具体地说，我们将深度完成视为主要任务，图像重建作为辅助任务，这被称为辅助学习[32]。其目的是将有用的知识从辅助任务转移到主要任务，以增强后者的特征学习[10]。在我们的例子中，通过共享来加强特征相关性，我们希望深度补全网络能够学习更多互补的图像特征，为理解对象结构提供语义线索。请注意，辅助图像重建由未标记的相机图像监督，这比手动标记的数据更便宜。在下文中，我们将说明网络架构、损失函数以及图像重建如何促进深度完成。在测试过程中，我们只关注主要的深度完成，而不需要图像，即，多输入模型。多输入模型T将稀疏深度x和对应的校准图像r组合作为输入：xθ=Gdpt（F（x;θ）;θ3.2. 网络架构∗SHR）的情况。（七）x∈ T=T（x，r;θT），（3）最优模型为θθ=argminL（x∈，x∈）.（四）用于训练我们的模型的整体网络架构基于Eq. 5，如图所示。3.第三章。我们在下面指定每个模块，每个层的配置的更多细节可以在补充材料中找到。θT我们的模型。如示于图3，我们的模型G将稀疏深度x作为唯一的输入，并同时输出密集深度x和重建图像r：.特征编码器F.我们提取多尺度特征，通过与不同的内核大小进行卷积来处理输入这是受到Inception 架构的启发 [35] ，但使用了 3×3 ， 5×5 ，7×7，9×9内核。在最后一层中，所有特征图的分辨率都是输入的1/16x∈，θr=G（x;θG）θx=Gdpt（F（x;θF）;θdpt，θshr）r=Gimg（F（x;θF）;θimg，θshr），并以信道方式连接。我们表示该编码器的输出，表示来自（五）其中，由θF参数化的F从输入中提取特征θshr表示两个模块之间的特征共享。在训练期间，联合模型的参数θG=（θF，θdp t ，θim g ，θsh r）被优化，使得CNNCNN图像密集θ，θ11309G稀疏输入，如f0= F（x）。深度完井模块Gdpt。它由深度特征提取器Gd1和深度解码器Gd2组成。Gd1专注于学习深度特定的特征，并通过转置卷积（1/16→1/8 → 1/16）逐渐对f0进行1/4→1/2）。Gd1中的中间特征也是转移到功能共享模块（见图1）。4）. 其θ=arg min（wdptθG·L（x，x）+wimg ·L（λr，r）），（6）包含深度和共享特征的输出Gd1（f0）被馈送到Gd2以产生密集深度。1131022图像解码器Gr2重建图像r（辅助）灰度图像特征编码器特征共享模块稀疏深度x深度解码器Gd2密集深度x（主要）深度地面实况x*深度完井模块Gdpt深度特征Gd1共享特征图像特征Gr1图像重建模块Gimg图3.用于训练模型的网络架构它包括：1）特征编码器-从稀疏输入中提取初始特征2）深度完成模块-专门化深度特征并产生密集深度; 3）图像重建模块-专门化图像特征并从稀疏深度重建图像;以及4）特征共享模块-聚集来自深度和图像模块的特征深度补全是主要任务，而图像重建是辅助任务，由灰度图像监督fr（n）= Φ（fr（n−1））fd（n）= Φ（fd（n−1））fs（n）=fr（n）<$fd（n）<$Φ（fs（n−1））.（九）在最后一层，其中n=Nt，仅执行卷积，fr（Nt）= Φ（fr（Nt−1））fd（Nt）= Φ（fd（Nt−1））fs（Nt）=Φ（fs（Nt−1））.（十）图4.功能共享模块的结构。它聚集Gd1和Gr1的最终输出是它们对应的特征图和共享特征的通道级级联，即，.深度和图像特征通过逐元素求和，然后在每层中进行卷积。深度和图像特征模块Gd1（f0）=Cat（fd（Nt），fs（Nt））Gr1（f0）=Cat（fr（Nt），fs（Nt））.（十一）输出其最后一个图层要素和共享要素的串联图像重建模块Gimg. 底层这两个级联的特征被进一步馈送到深度和图像解码器中以产生密集深度xk和重构图像xr，i。例如，.图像重建模块的架构与深度完成模块相同，其中Gr1专门化并且x=Gdpt（f0）=Gd2（Gd1（F（x）F（x）=Gimg（f0）=Gr2（Gr1（F（x）））.（十二）传输图像特征，并且图像解码器Gr2输出-基于图像特定和共享特征放置重建图像。损失函数。为了训练网络，我们首先定义l2深度完井损失（主要任务）：功能共享模块。该模块通过元素聚合来自深度和图像特征模块的1ldpt=N1ǁΨ⊙(x˜−x∗)ǁ2,(13)明智的总和，然后在每一层卷积，如示于图4.第一章假设每个模块中有Nt层，我们将第n层卷积层的特征映射记为Gd1，Gr1，共享模块记为fd（n），fr（n）和fs（n）都是独立的。我们使用Φ（·）来表示一般卷积算子在第一层，i。例如，n=1，其中，N1是在地面真值x中具有深度值的像素的数量，x是x的二进制掩码，其中1表示可用深度值，0表示没有，并且x是逐元素乘数。我们使用灰度图像r来监督辅助图像重建l2损失函数为：⎧fr（1）= Φ（f0）limg =1r−r2，（14）N2fd（1）= Φ（f0）fs（1）=fr（1）<$fd（1）宾馆（1（2）Nt−1（Nt−1）+宾馆（1）中文（简体）+s（2）宾馆（2…Nt−1）Gd1ƒ0宾馆（1宾馆（2…d（N t− 1） cGd1（100）Conv. 层+逐元素求和深度特征共享特征图像特征Gr1在最后一层之前，i. 例如，1

下载后可阅读完整内容，剩余1页未读，立即下载