拥挤动态室内场景中的密集深度估计方法

164 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1DnD：拥挤动态室内场景中的密集深度估计Dongki Jung*1 Jaehoon Choi*1，2 Yonghan Lee1Deokhwa Kim1Changick Kim3Dinesh Manocha2Donghwan Lee11NAVER LABS2马里兰大学3KAIST投影深度RGB图像单目深度估计图1：使用传统的3D重建方法[45，46]，我们可以在复杂和拥挤的室内环境中获得3D模型。我们的新方法，DnD，需要从这个3D模型投影的RGB图像和稀疏深度图作为输入。我们的方法预测密集和绝对规模的深度图的单视图动态场景。摘要我们提出了一种新颖的方法，用于在单目相机移动通过复杂和拥挤的室内环境时从单目相机估计深度，例如，百货公司或地铁站。我们的方法预测绝对规模的深度图在整个场景组成的静态背景和多个移动的人，通过训练动态场景。由于难以从拥挤的室内环境中收集密集的深度图我们的网络利用传统3D重建方法生成的RGB图像和稀疏深度图我们使用两个约束来处理深度的非刚性移动的人没有明确跟踪他们的运动。我们证明，我们的方法提供了一致的改进，最近的深度估计方法的NAVERLABS数据集，其中包括复杂和拥挤的场景。1. 介绍有相当大的兴趣在使用机器人和aug-* 这两位作者贡献相当。电子邮件：dongki. naverlabs.com，kevchoi@umd.edu在对应于商场、机场或公共场所的拥挤的现实世界空间中的虚拟现实技术。为了执行安全导航或结合真实和虚拟世界，机器人[29，28，44]或移动设备[50，35]需要大规模室内环境的3D几何表示。虽然在使用LiDAR或立体相机捕获深度方面有相当大的进步，但现有设备仍然有其自身的局限性。例如，3D LiDAR [8]倾向于为远处的物体产生稀疏的深度图，并且由于多个移动的人引起的高水平的遮挡，可能导致噪声点云图此外，由于深度传感器的高价格和大体积，因此迫切需要考虑仅单个相机可用的情况。给定大量视频帧，诸如运动恢复结构（SfM）和多视图立体（MVS）[14，49，45，46]的传统3D最近，已经开发了视觉定位技术[38]，以允许移动设备获得拍摄图像的位置和相机姿态。然而，给定3D模型和视觉位置，移动通过拥挤的室内环境的移动设备仅能够捕获稀疏且高噪声的深度图。这是因为传统的重建方法基于静态场景假设（即场景的静态区域）和静态场景假设。127973D模型输出输入12798可以从两个不同的视点观察场景）以及在两个或更多个图像中进行正确的特征匹配。然而，在拥挤的室内环境中，移动的行人往往违反静态场景假设。此外，传统的3D重建方法可能无法对非纹理（例如，纹理）图像执行正确的匹配壁）、镜面和反射区域（例如，玻璃）的场景。因此，这些问题导致复杂和拥挤的室内环境的3D模型主要结果：为了解决这些限制，我们探索了新的方法，可以利用使用传统的3D重建方法[45，46]生成的3D模型来进行动态场景的基于学习的深度估计算法。给定的3D模型，我们的方法可以用于一般的应用，因为它可以计算密集的深度图的动态场景，而无需迭代地重建这个3D模型。与监督学习方法[27，5，26]相比，我们的方法不依赖于从深度感测设备生成的密集深度图。我们的方法，如图所示。1，将RGB图像和从3D模型投影的稀疏深度图作为输入，并输出密集深度图。给定从SfM [45]获得的姿势，我们建议使用光度一致性损失，这使我们的方法能够估计密集的深度图和深度损失，迫使我们的网络学习绝对尺度深度。虽然这些损失函数对于在静态背景区域中提供密集深度图是有用的，但是在估计多个非刚性移动对象的深度中仍然存在很大的挑战，即，行人。为了克服这一限制，我们提出了两个约束：1）一个流引导的形状约束，通过填充人类区域的缺失部分并去除视觉伪影来细化人类区域的深度图，以及2）一个法线引导的尺度约束，迫使我们的神经网络学习由人类地面接触点的深度值引导的人类区域的绝对尺度深度。与传统的重建方法或基于最近学习的方法[26，66，25]相比我们在NAVERLABS数据集[24]上评估了我们的方法，这是第一个提供度量3D SfM模型和从百货公司和地铁站收集的动态场景的数据集。本文的主要贡献总结如下：• 我们引入了一种新的方法来估计的深度图，使用动态场景从移动的单目摄像机和给定的稀疏深度图。我们用由传统3D重建算法生成的3D模型训练单目深度估计网络[45，46]。• 我们提出了两个新的约束光流的基础上和表面法线，这提高了我们的单目深度估计网络的准确性，以预测移动的人的绝对尺度深度。• 我们强调了我们的方法在拥挤的室内环境中的最先进的方法的好处，并观察到 RMSE 的 3.6%-10.2%的改善。此外，我们的方法在TUM RGB-D和NYUv 2等不同的室内数据集中效果良好2. 相关工作传统SfM系统[49，1，45]依赖于跨同一场景的两个或更多个图像的匹配特征并使用对极几何[19]来重建深度。多视图立体（MVS）算法估计场景的密集3D结构，具有来自任意视点的多个校准图像[14]。最近，一些研究人员提出了基于学习的MVS方法[62，66]，该方法建立在神经网络上以学习3D成本体积的正则化。然而，由于不正确的特征匹配和动态对象，传统的SfM和MVS方法通常会产生稀疏和错误的3D重建[37]。由于静态场景假设，它们要么以低置信度丢弃像素，要么为动态对象估计不正确的深度值。现有的基于学习的深度估计方法分为两组。一组是基于监督学习[11，10，32，23，13，25，63]，这需要一个大规模的数据集与groundtruth深度图。然而，所有这些方法都需要从有源深度传感器收集的密集地面实况。其他最近的作品探索了用弱监督训练的想法，例如，使用顺序深度关系作为地面实况[69，4，56，57]，并利用多视图立体重建算法从互联网照片集合中生成伪地面实况[27，5]。另一组基于使用矫正立体图像对[15，16]或单眼视频序列[68，64，17]的自监督学习。18，59，61，6]作为训练数据。基于视频的深度估计在假定仅处理静态场景的情况下，推理方法[31，53，34]使用时间上连续的已经提出了用于单目深度完成的若干工作[12，36，58，60，7]，以利用具有相应图像的稀疏深度图，从而产生密集的深度估计。动态场景的深度估计现有作品[43，41]使用对象级运动分割来重建动态场景。将深度神经网络应用于此任务的关键挑战是缺乏包含多样化和动态场景的大规模数据集。许多作品采用数据驱动的方法，通过从互联网立体视频[54]或3D视频[40]构建不同的数据集一些作品[26，5]使用SfM和MVS构建数据集，其中12799Σ图2：我们提出的方法的概述。带虚线的黑框显示了我们的单目深度估计网络，由RGB编码器、深度编码器和解码器组成为了训练，网络将具有从3D模型投影的对应稀疏深度图（Dt，Dt’）的连续时间帧（I t，I t’）作为输入。我们的训练方法是四个术语的组合1）深度损失鼓励我们的网络从深度输入编码绝对尺度。2）光度一致性损失基于视图合成，并且针对静态背景区域正则化网络训练。3)流引导的形状约束使网络能够以适当的深度值完成人类区域中缺失的像素，并消除视觉伪影。4)法线引导的尺度约束使我们的网络能够估计移动的人的准确和绝对尺度的深度。深度groundtruth从互联网视频集合。 Li等人。[26]使用一组Mannequin Challenge视频来训练网络，以进行动态场景中的深度估计。Yoon等人[65]通过利用预先训练模型的单目深度估计来呈现动态场景的视图合成[40]和MVS。Luo等人。[34]微调预训练模型以满足连续视频帧的3D几何约束。虽然他们的方法可以处理具有适度对象运动的场景，但它容易受到具有极端对象运动的拥挤场景的影响。相比之下，我们的方法不需要特定的数据集或预先训练的深度估计网络。我们的方法可以推广到现实世界拥挤的室内环境中的大规模数据集。3. 我们的方法：DnD我们提出了一种基于学习的方法来估计密集和绝对规模的深度图在复杂和拥挤的室内环境中的场景。直观地，大多数场景由静态背景（例如，墙壁）和动态对象（例如，移动的人）。从3D模型投影的稀疏深度图在静态背景的小区域中具有绝对尺度深度投影深度图中的其余区域，包括静态背景和动态对象，具有空的深度值。我们所提出的方法训练了一个密集的深度估计网络，从单目视频序列与相应的稀疏深度图。如图2，我们的深度估计模型采用具有稀疏深度图的当前图像ItD t和具有稀疏深度图Dt′的时间相邻图像It′。稀疏深度图Dt和Dt’从3D模型投影。I t′包括两个时间帧I t−1和I t+1。我们的深度估计模型预测密集深度图Dt和Dt′ 以计算流引导形状约束。3.1. 绝对尺度深度损失通常，单目深度估计方法遭受固有的尺度模糊问题。为了减轻这种限制，我们使用绝对尺度深度输入Dt作为地面实况。我们应用L1损失来惩罚深度输入D t和深度预测Dt之间在Dt值存在的像素上的差异。深度损失被公式化为，Ld=Dt（p）−Dt（p），（1）p∈Ω其中，Ω表示涉及可用稀疏深度的有效点这种损失使我们的网络能够学习深度输入区域中的绝对尺度深度值，并进一步在包括静态背景和移动人员的空区域中用绝对尺度外推深度值。3.2. 光度一致性损失为了训练我们的网络，我们转向以前的自监督单目深度估计方法[68，17]，这些方法利用光度损失作为训练网络的主要损失函数。我们可以合成一个深度编码器SfM + MVSI��RGB解码器编码器光度一致性损失（第3.2节）��′深度编码器导流形状约束（第3.3节）I’��′RGB编码解码��→��′深度损失（第3.1节）法线引导的尺度约束（第3.4节）相对姿态估计光流生成12800up1p2p3ppp46Y3D投影PX曲面P2法线ZvP31pp7p8p9P4P7P8P6P92⟨·⟩Σ1∗Σ通过利用相机固有矩阵K、预测深度Dt 和关系位置Tt→t′将时间上相邻的帧I t′重新投影到当前帧I t，来确定当前帧It′。计算连续时间帧之间的该相对姿态从SfM的绝对姿势[45]。L1和SSIM组合的光度一致性损失[55]为（一）像素坐标世界坐标（b）第（1）款相机模型��=(��,��,��)地面公式如下：图像表面法线地面规模监管Lph =α1−SSIM（It，It′）+（1−α）I-It'，（二）It′（p）=It′∠π（KTt→t′Dt（p）K−1p~）∠，其中α=0。是p的齐次坐标，π表示从齐次坐标到图像坐标的投影，并且指示双线性采样函数。注意，一个当前帧和两个时间上相邻的帧用于计算光度一致性损失。在[17]之后，我们去除了被遮挡和视图外的像素，并且还通过最小重新投影损失和自动掩蔽技术掩蔽了低纹理区域。特别是，这种光度一致性损失鼓励我们的网络在静态背景上预测密集的深度图。图3：（a）从像素坐标和对应的深度值获得表面法线的过程。（b）示出地面法线n不与相机坐标的y方向对准底部图像指示用于传播针对虚线红色圆圈中的人的可靠量表的过程。第三列中的红点表示小块B，表示人类的地面接触点。在第四列中，黄色点和蓝色点分别示出了人体掩模中的地面贴片交叉点3.3. 流引导形状约束遮挡问题，这意味着来自Mt的不在前面的章节中描述的损失函数在有移动的人时提供准确深度的能力仍然有限这是因为MVS和光度一致性损失都在单个移动相机和静态场景的假设下操作。这一假设意味着不同观点之间的不一致每个图像仅从相机自运动导出出现在Ft′→t（Mt′）中。在由移动相机捕获的动态场景中，动态人体区域的绝对深度值可能不一致。因此，我们应用光流场来比较梯度域中人类区域的连续逆深度我们提出的流引导形状约束被定义为在静态场景中[19]。如果我们正确地估计连续帧之间移动的人的运动，则视图▽（d*（p））=▽d*（p），|+的|d*（p）|d∗(p)|（四）可以针对两种情况获得3D重建的一致性L=|▽d（p）−▽F ′F（d*（p））|不同的观点。然而随着多个搬家的人动态场景中，基于三角测量的方法无法实现| M|不p∈Mt→tt′场景一致深度图。由于场景中的多个移动的人经历非刚性变形，因此难以明确地估计其3D运动[54，26，22]。而不是在3D中建模对象运动，我们利用单目视频帧来估计时间上相干的深度图相对于移动的相机运动和非刚性移动的人。为了实现这一点，我们使用光流F、来自当前帧I t的人类掩模Mt和来自当前帧It的人类掩模Mt。其中▽和▽表示梯度和标度不变梯度，d*t=dt/µ（dt）表示平均归一化逆深度。我们的流引导形状约束强制执行平滑梯度并以精确的深度值完成人体区域的缺失部分为了正则化静态背景中的深度，我们在非人类区域M，C中的像素上施加边缘感知深度平滑度损失L，s：人类从时间上相邻的帧It′中掩蔽Mt′。给定连续帧对，光流描述这些像素对具有相同的强度。人类面具Ls=p∈MC|e−|▽I t（p）|.|.（五）还用于找到由于运动摄像机的高度遮挡、非刚性变形和复杂的自我运动而重叠的正确区域。M=Mt∩Ft′→t（Mt′），（3）其中，M是流动变形的人类掩模Mt′和要呈现的当前人类掩模Mt的重叠区域，不128013.4. 法线引导的比例约束为了实现尺度感知的深度估计，对于移动的人具有绝对尺度的准确深度估计是至关重要的。我们利用静态背景中的绝对尺度深度值来约束移动的人的深度值的尺度。直觉上，人们站在地面上，人类的深度值几乎与12802联系我们×{1}|||·Nt（p）=4Σ−P−→Pi×−P−P→j−p→pi−p→pj2地上的那些人的地面接触点可以是用于尺度感知深度估计的重要几何线索。因此，我们引入了弱监督，其迫使对应于特定人类面具的几个随机选择的点与地面接触点受[61，59]的启发，我们使用表面法线估计地面面积。8-邻居约定用于指定法线方向，如图所示。第3（a）段。2D坐标处的那8个点被分成4对，其中每对向量是垂直的，例如，（i，j）=（2，6），（3，9），.四个法线的平均值确定位置p的最终表面法线：1 Σ−P−→Pi×−P−P→j4. 实验4.1. 实验设置为了验证我们的方法，我们用NAVERLABS数据集，NYUv 2和TUM RGB-D数据集进行了实验。深度值以度量标度（m）表示。我们使用标准度量来评估我们的方法[11]。NAVERLABS室内定位：NAVERLABS数据集1[24]包括从两个不同地方收集的场景：百货公司（Dept）和地铁站（MS）。该数据集在MS中被分成用于训练的60K图像和用于测试的835图像，以及在Dept中被分成用于训练的25K图像和用于测试的443图像。为了评估室内数据集的拥挤程度，我们使用了一个拥挤的洞穴-sity是场景中人体像素的面积与所有图像像素的面积之间的比率。大多数公共室内其中P表示像素P乘以预测深度，运算符表示叉积。在许多像素点p中，我们只需要地面区域中的点。地面的真实法线方向n~=（0，1，0）和估计的法线Nt（p）应当匹配。如图3（b）所示，摄像机与地面不垂直，摄像机模型相差θ，并且存在估计的正常Nt（p）的不确定性。因此，我们将S_th设置为阈值以找到地面面积并计算真实地面法线n~与预测法线N_t（p）之间的余弦相似性：数据集[48，2，9，3，47，52]不包含具有移动的场景人（0.1%人群密度）。<在NAVERLABS中，Dept和MS的人群密度分别为6.87%和12.9%，是最拥挤的数据集。此外，部门和MS有6.7和3.6 平均每个场景的人数包括不同动态场景的不同类型的数据集[4，56，54，26]仅包含点对的图像或顺序深度关系。NAVERLABS使用从6个摄像头收集的所有图像通过COLMAP构建3D模型[45，46]。输入图像的地面实况姿态最初由LiDAR SLAM计算，并通过与先前结果的捆绑调整进一步细化之后，度量深度im-G=pcos−1n~·Nt（p）

下载后可阅读完整内容，剩余1页未读，立即下载