无监督学习深度和运动——视频中学习相机参数的新方法

32 浏览量更新于2023-10-13 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1影片来源：Videos in the Wild：未知相机的无监督单目深度学习Ariel Gordon12，Hanhan Li2，Rico Jonschkowski12，AneliaAngelova121 Robotics at Google，2Google AI{gariel，unique，rjon，anelia}@ google.com摘要我们提出了一种新的方法，同时学习，ING深度，自我运动，对象运动，和相机的内在，从单目视频，仅使用相邻视频帧的一致性作为监督信号。与之前的工作类似，我们的方法通过对帧应用不同的扭曲并将结果与广告进行比较来学习，但它提供了几项改进：我们直接使用训练过程中预测的深度图，以几何和可区分的方式处理遮挡。我们introduce随机层规范化，一种新的正则化，我们占相对于场景的对象运动据我们所知，我们的工作是第一个以无监督的方式从视频中学习相机内部参数，包括镜头失真，从而使我们能够从任意未知来源的视频中提取准确的深度和运动。我们评估我们的结果的城市景观，KITTI，和EuRoCMAV数据集，建立新的国家的最先进的深度预测和里程计，并定性地证明，深度预测可以从YouTube视频的集合中学习。代码是公开可用的1。1. 介绍从视频中估计三维结构和摄像机运动是计算机视觉中的一个关键问题解决这个问题的传统方法依赖于在多个连续帧中识别场景中的相同点，然后求解在这些帧中最大限度地一致的3D结构和相机运动[23]。但是，帧之间的这种对应关系只能针对所有像素的子集来建立，这使得估计深度的问题无法确定。与反问题通常所做的一样，基于连续性、平面性等的假设来填充间隙。1github.com/google-research/google-research/tree/master/深度来自野外视频图1.我们的方法用于从未知源的视频学习深度的定性结果，其通过同时学习相机外部和内部参数来实现。由于我们的方法不需要知道相机参数，它可以应用于任何一组视频。所有深度图（在右侧可视化，作为视差）都是从原始视频中学习的，而不使用任何相机内在的地面实况。从上到下：来自YouTube8M [1] 、来自 EuRoC MAV 数据集 [5] 、来自Cityscapes [7]和来自KITTI [11]的帧而不是手动指定这些假设，深度学习能够从数据中获得它们。在信息不足以解决模糊性的地方，深度网络可以通过从他们已经看到的先前示例进行无监督方法允许仅从原始视频中学习，使用与传统方法相似的一致性损失，但在训练过程中对其进行优化在推理时，经过训练的网络能够从单个图像预测深度，并且从成对或更长的图像序列预测自运动。897789781随着这一方向的研究获得了牵引力[47，10，12，33，24，34]，很明显，物体运动是一个主要的障碍，因为它违反了静态场景的假设。已经提出了几个方向来解决这个问题[44，40]，包括通过实例分割来利用场景的语义理解[6]。遮挡是另一个限制因素，最后，在该方向的所有现有工作中，必须提供相机的内部参数。这项工作解决了上述问题，因此，减少了监督，提高了未标记视频的深度和运动预测的质量。首先，我们展示了一个深度网络可以被训练来预测相机的内在参数，包括镜头失真，以一种无监督的方式从视频本身（见图1）。①的人。其次，我们是第一个在这种情况下，直接解决闭塞，在几何的方式，从预测的深度，因为它是。最后，我们大大减少了解决场景中移动元素所需的语义理解量：我们需要一个覆盖可能属于移动对象的像素的单个掩模，而不是分割移动对象的每个实例并跨帧跟踪它[6该掩模可以像矩形边界框的并集一样粗糙。获得这样一个粗略的掩模是一个比实例分割简单得多的问题，并且可以用现有模型更可靠地解决。除了这些定性的进步，我们进行了广泛的定量评估，我们的方法，并发现它建立了一个新的国家的最先进的多个广泛使用的基准数据集。将数据集汇集在一起，这是大大提高了我们的方法的能力，证明了提高质量。最后，我们第一次证明了可以在YouTube视频上学习深度和相机内在函数预测，这些视频是用多个不同的相机捕获的，每个相机都具有未知的且通常不同的内在函数。2. 相关工作场景深度估计是机器人导航和操作的一项重要任务。历史上，已经对其进行了大量研究，包括对立体、多视图几何和主动感测的大量研究[29，21，9]。最近，基于学习的方法用于密集深度预测得到了关注[9，22，19，45]。在这些中，从输入RGB图像预测场景深度，并且使用由传感器（诸如LiDAR）提供的监督来学习深度估计函数。类似的方法用于其他密集预测，例如表面正态分布[8，38]。无监督深度学习无监督深度的学习，其中从单目视频本身获得唯一的监督并且不需要深度传感器，最近也已经普及[47，10，12，33，24，34，44]。Garg等人[10]介绍了深度和自我运动的联合学习。Zhou等人。[47]展示了一种完全不同的方法，其中深度和自我运动由深度神经网络联合预测。技术被开发为单眼[33，42，24，41，44，35，6]和双目[12，33，40，46，35，46]设置。在后者中，示出了当在训练期间使用立体声输入时，在干扰处的单眼深度质量得到改善。其他方法直接学习立体显示[17，18，43]。其他新技术包括使用运动[41，35，44，6，40]。从来自未知相机的图像或视频中学习。这是一个活跃的研究领域，专注于单视图或多视图图像[2，30，20]。由于输入源的多样性和摄像机参数的缺乏，这对于网络照片尤其困难，如Li等人所示。[20 ]第20段。我们的工作通过学习野外视频的相机固有特性，在解决这一挑战方面迈出了一步。遮挡感知学习。已经提出了与几何结构分离的多种方法，用于在光流的背景下处理遮挡[36，15，25]。差分网格渲染[26，16]采用几何方法来遮挡。在学习预测深度和自运动的背景下，通过学习的解释性掩模[47]，通过惩罚前一帧或下一帧到中间帧之间的最小重投影损失，并通过光流[40]来解决遮挡问题在后一种情况下，我们是第一个通过可微损失在直接几何方法中解决遮挡的人。学习Intrinsic。学习预测相机的内在函数主要局限于强监督方法。Groundtruth的来源各不相同：Workman等人[37]使用采用来自运动的经典1D结构估计的焦距。Yan等人。[39]基于EXIF获得焦距。Bogdan等人[4]使用具有已知内在特征（包括失真）的虚拟相机从相机合成图像。据我们所知，我们的方法是唯一一种以无监督的方式直接从视频中学习相机本质的方法，与深度，自我运动和对象运动一起。3. 预赛类似于先前的工作[47，12，44，32]，我们方法的主干是使用深度图（z）和相机矩阵K将两个相邻视频帧联系在一起的等式。当量1描述了由于旋转矩阵R和平移向量t而导致的像素位置p的移位：′ ′ −zp=KRK zp+Kt（1）p’和z’是像素el和新深度的新齐次坐标。8979内部函数旋转角度背景翻译场（由于自运动）的t0rxryrz+残余平移场δt（x，y）=FCFCFC图2.运动预测网络的示意图。网络接收两个图像作为输入。卷积的堆栈创建了瓶颈，全连接（FC）网络头预测背景的固有、旋转角度和平移矢量分量（由于自运动）。一系列解码器层预测残差平移场，该残差平移场预测对象相对于场景的运动（图1中解释了颜色编码）。4.第一章掩模（图中未示出，参见等式（Eq. 2）将不属于可能移动对象的所有像素处然后将残余平移场添加到背景平移以获得总平移场。图片来自CityScapes。单独的网络（未示出）从单个图像预测深度使用深度网络预测的z、R和t，等式（1）1用于将一个视频帧扭曲到另一个上。然后将结果与实际的其他帧进行比较，并且差异构成训练损失的主要分量。前提是通过惩罚差异，网络将学会正确预测z，R和t。4. 方法在这项工作中，我们提出了同时学习的深度，自我运动，物体运动，和相机的本质从单目视频。运动预测网络预测相机运动，每个像素相对于背景的运动，以及相机固有参数：焦距，偏移和失真。第二网络预测深度图。通过将相邻帧之间的一致性作为损失，网络同时学习预测深度图、运动场和相机固有特性。为了仅在未被遮挡的像素中应用这种损失，我们基于估计的深度图几何地估计遮挡。我们根据从预训练的分割或对象检测网络获得的指示哪些像素可能属于移动对象的掩码来正则化运动场。4.1. 网络和损失网络深度由UNet [28]编码器-解码器网络从单个图像预测，该网络具有ResNet 18基础和softplus激活（z（） =log （ 1+e ））以将 logits （）转换为深度（z）。第二个网络（如图所2）预测摄像机运动、表示对象相对于场景的运动的密集残差平移以及摄像机本征函数，从两个连续的图像。补充材料（SM）中给出了有关网络的更多详细信息损失基于估计的深度图、相机本质、旋转和平移场，我们扭曲第一帧以匹配第二帧，并使用两个损失来比较它们：1）结构相似性（SSIM）损失和2）颜色通道的L1距离的总和[6]的文件。此外，我们通过估计向前和向后运动对运动场施加周期一致性损失由于在对应像素处的那些运动估计应该是相反的，因此我们定义了与相反旋转和平移的相对偏差的L2损失此外，我们应用空间L1平滑损失的深度和运动场，一个temporalL1平滑损失的深度，和L2权重正则化项。SM中提供了更多详细信息4.2. 遮挡感知一致性当相机和/或对象移动时，场景中在一个帧中可见的区域可能在另一帧中被遮挡，反之亦然。不能在与这些区域对应的像素中强制实施光度一致性。给定一个帧中的深度图和运动场，可以实际检测遮挡将要发生的位置，并且从一致性损失中排除遮挡区域。检测被遮挡的像素需要对由深度图和z缓冲表示的表面的连接性进行某种推理保持该机制对于训练循环足够可区分和有效可能构成挑战。因此，我们采取不同的方法，如图3所示。对于源帧中的每个像素（i，j），预处理（pre-pixel）8980i′，i′，i、jRLRLLR使用所指示的深度zi j和摄像机固有矩阵来获得空间中的相应点（xij，yij，zij）。根据预测的运动场在空间中移动该点。在部分i cula r中，深度变为z’。新的空间位置被重新投影回到相机帧上，并且落在目标帧上的某个通常不同的位置（i’，j’）处。i’和j’通常是非整数。因此- 获得目标帧上在（i’，j’），z，t，re处的深度需要插值。在（i′，j′）处发生阻塞，其中z′变为多值。在这些点上，颜色和深度一致性应该仅应用于z’的可见分支，即z’是smalle r的分支。如果源帧和目标帧几乎一致，可见分支将接近目标深度（i′，j′），zt . 我们建议选择视觉的方式-可能的分支仅包括损失点（i′，j′）其中z′′ti′，j’。换句话说，只有当一个转换后的图3.我们提出的处理oc-的源帧上的像素落在目标帧，我们是否将该像素包括在损失中。该方案相对于互换源帧和目标帧是不对称的，这就是为什么我们总是以对称的方式应用它：我们将源转换到tagret上，计算损失，然后切换源和目标的角色。图3示出了该方法。结论在顶部，我们显示了一个二维由两个直的表面组成，一个部分地遮挡另一个。两个相机，左（我们的方法是单目的，因此这些表示移动的同一相机的两个位置，并且“左”和“右”用于方便。在底部，由每个相机观察到的深度图被示出为在相应侧（zL和zR）上的实线。虚线示出了从扭曲一个视图获得的深度图损失描述在SEC。 4.1在在另一个（z′）和z′）。扭曲的深度图可以变成“occlusion-aware” manner, as described in this section,对于后者，我们通过将所有平均操作替换为加权平均来处理遮挡，其中像素的权重是该像素中的深度误差的递减函数。精确表达式在SM中给出。4.3. 正则化翻译场的语义正则化Eq. 1可以将帧不一致性损失传播到每个像素处的z、R和t然而，如果没有进一步的正规化，他们仍然大大不足。虽然z，R和t的连续性是一个强大的正则化器，但我们发现进一步的正则化有很大的帮助。特别是，我们在整个图像中施加R的恒定性，并允许t仅在被指定为可能移动的像素处偏离恒定值。与先前的工作[6]不同，不需要实例分割和跟踪，因为我们需要的只是一个我们写t（x，y）=t0+m（x，y）δt（x，y），（2）其中t0和δt（x，y）是背景运动（由于相机运动）和残余运动（由于对象运动）。我们在烧蚀实验中表明，m（x，y）可以像边界框的并集一样粗糙（见图1B）。4）. 此外，本发明还提供了一种方法，对t（x，y）应用L1平滑算子。随机层归一化在实验中，我们一个多值函数，表示遮挡（见绿色阴影矩形）。为了处理这个问题，我们只在z′≤z和z′≤z的像素处应用光度损失和几何损失。当深度图和运动估计正确时，该方案中的损失将确实评估为零。观察到以下与批次归一化（BN）相关的异常行为：• 评估指标始终更好地运行时，宁推理的“训练模式”的BN。也就是说，代替长期平均均值和方差，使用在推断期间从图像本身获得的均值和方差2，使得批归一化更类似于层归一化[3]。• 当我们在训练时增加批量大小时，无论我们如何缩放学习率，评估准确性都会越来越差。这两个异常导致的结论是BN的作用类似于层归一化（LN）[3]，并且对于批次中的每个用具有乘性高斯噪声的LN代替BN导致改进的评估度量，并且允许增加批量大小（伴随着学习率的线性增加[14]）而没有损失，甚至在评估度量中有轻微的改进2即使批量为1，空间维度上仍会存在均值和方差场景和摄像机摄像头z'RzLXXzRz'L深度≤z′8981图4.使用对象检测网络识别能够运动的对象的所有实例，例如行人、骑自行车的人和汽车。边界框的并集包括“可能移动的”掩码，在该掩码内允许平移场变化。来自Cityscapes的顶部图片说明了掩码，底部图片是由网络预测的平移场（x，y，z编码为RGB）。金色背景对应于负z方向上的运动，因为整个场景正在朝向相机移动。绿色的轮廓是骑自行车的人稍微向左移动，稍微向相机移动。请注意，网络从粗糙的遮罩中雕刻出轮廓。4.4. 学习本质通过Eq。1，相邻帧之间的光度一致性损失提供K的监督信号，但仅当它们之间存在非零相机旋转R1时。实际上，当 R=1 时， Eq. 1 被简化为z′p′=zp+Kt，这意味着损失仅通过乘积Kt取决于K。然而，即使K和t不正确，Kt也可以完全正确事实上，对于任何（非单数）K~ ，则存在t~=K~ -1Kt，使得K~t~=Kt。尤其是当K和t由两个头和茎预测时-来自同一个网络，后者可以幸运的是，旋转可以为K提供监督信号。当量3（在SM中导出）将可以确定焦距的容差（δfx和δfy，以像素表示）与在两者之间发生的相机旋转量跨一系列不同数据集的内部函数。5.1. 数据集KITTIKITTI数据集是在城市环境中收集的，是深度和自运动估计的主要基准。它配有一个LIDAR传感器，仅用于评估我们使用标准的分割成训练集、验证集和测试集，通常称为特征分割。使用来自KITTI的39835个训练示例。CityscapesCityscapes数据集是一个更新的城市驱动数据集，我们将其用于训练和评估。这是一个具有许多动态场景的更具挑战性的数据集。除了少数例外[27，6]，它尚未用于深度估计评估。它有38675个训练样本。我们使用来自视差数据的深度来对1250个样本的标准评估集进行评估[27，6]。EuRoC Micro Aerial Vehicle DatasetEuRoC Micro AerialVehicle（MAV）Dataset [5]是一个由室内飞行器收集的非常复杂的数据集。虽然数据包含一套全面的传感器测量，包括立体对、IMU、精确的Leica激光跟踪仪地面实况、Vicon场景3d扫描和相机校准，但我们仅使用单眼视频进行训练。由于相机具有显著的镜头失真，这是测试我们学习镜头失真的方法的机会。YouTube8M视频为了证明可以从未知相机的野外视频中学习深度，我们从YouTube8M数据集中收集了视频[1]。从YouTube8M中具有标签“四轴飞行器”的3079个视频中，人类评分者选择包含来自四轴飞行器的显著量的镜头的视频。当然，这些视频是用不同的未知相机拍摄的，具有不同的视野和不同程度的镜头失真。YouTube8M ID列在SM中。5.2. 深度由于单目方法只能估计高达全局比例因子的深度，因此我们遵循该领域KITTI表1总结了对KITTI的评价结果。2f22f2KITTI在KITTI上训练的模型的特征分区的δfx

下载后可阅读完整内容，剩余1页未读，立即下载