自然野外图像的单视图深度学习

68 浏览量更新于2023-10-19 收藏 21.81MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

156040使用质量评估网络从视频中学习单视图深度0Weifeng Chen 1,2 Shengyi Qian 1 Jia Deng 201. 密歇根大学安娜堡分校0{ wfchen,syqian } @umich.edu02. 普林斯顿大学0jiadeng@cs.princeton.edu0摘要0在野外从单张图像中估计深度仍然是一个具有挑战性的问题。其中一个主要障碍是缺乏野外图像的高质量训练数据。在本文中，我们提出了一种通过互联网视频上的运动结构（SfM）自动生成此类数据的方法。该方法的核心是一个质量评估网络，用于识别从SfM获得的高质量重建。使用这种方法，我们从大量的YouTube视频中收集单视图深度训练数据，并构建了一个名为YouTube3D的新数据集。实验证明，YouTube3D对于训练深度估计网络非常有用，并推动了野外单视图深度估计的最新技术。项目网站：http://www-personal. umich.edu/˜wfchen/youtube3d。01. 引言0本文解决了单张图像深度估计的问题，这是一个基本的计算机视觉问题，仍然具有挑战性。尽管最近取得了显著的进展[45, 15, 35, 24, 17, 27, 46, 49, 11, 25, 22, 50, 23, 13, 43,54, 20,44]，但当前系统在野外任意图像上的表现仍然不佳[6]。一个主要障碍是缺乏多样化的训练数据，因为大多数现有的RGB-D数据集是通过深度传感器收集的，并且仅限于室内[39,10,5]和道路[14]。正如最近的研究所示[6]，在这些数据上训练的系统无法推广到真实世界中的各种场景。解决这个数据问题的一种方法是众包，如Chen等人所示[6]，他们众包了深度的人工注释，并构建了一个名为“Depth-in-the-Wild（DIW）”的数据集，涵盖了广泛的场景。然而，一个缺点是它需要大量的人工劳动。另一个可能性是使用合成数据[4,28, 34,21]，但如何自动生成与真实世界图像多样性匹配的场景仍然不清楚。在本文中，我们探索了一种新的方法，自动化地生成与真实世界图像多样性匹配的场景。0在自然野外图像上自动收集单视图训练数据，无需众包或计算机图形。其思想是使用运动结构（Structure-from-Motion，SfM）从互联网视频中重建3D点，通过匹配视频帧上的特征点并使用多视图几何推断深度。然后可以使用重建的3D点来训练单视图深度估计。由于互联网视频的供应几乎是无限的，这种方法特别适用于生成大量的单视图训练数据。然而，要在实践中实现这种方法，仍然存在一个重要的技术障碍-尽管已经取得了巨大的成功[1, 19, 36, 37,30]，但现有的SfM系统在应用于任意互联网视频时仍然远未达到可靠性。这是因为SfM通过匹配视频帧上的特征并在假设静态场景的情况下重建深度，但特征匹配通常不可靠，场景通常包含移动物体，这两者都会导致SfM产生错误的3D重建。也就是说，如果我们简单地将现成的SfM系统应用于任意互联网视频，得到的单视图训练数据将质量较差。为了解决这个问题，我们提出了训练一个深度网络来自动评估SfM重建质量的方法。该网络通过检查整个SfM流程的操作-输入、最终输出以及在流程内部生成的中间输出来预测SfM重建的质量得分。我们称这个网络为质量评估网络（QANet）。使用QANet，我们可以过滤掉不可靠的重建，并获得高质量的单视图训练数据。图1说明了我们的数据收集方法。值得注意的是，由于互联网视频几乎是无限的，QANet只需要能够可靠地识别出一小部分高质量的重建即可。换句话说，高精度是必要的，但高召回率不是。这意味着训练一个QANet不会非常困难，因为我们不需要检测到每个好的重建，只需要一些好的重建即可。我们在野外使用互联网视频进行实验。我们的实验表明，通过将QANet与SfM集成，我们可以生成YouTube3D数据集，该数据集对于训练深度估计网络非常有用，并推动了野外单视图深度估计的最新技术。项目网站：http://www-personal.umich.edu/˜wfchen/youtube3d。Feature Extraction & MatchingTwo-view Reconstruction...56050视频帧0质量评估网络0不丢弃0是0单视图深度的训练数据0重建0分数0高质量？0特征匹配0运动结构0估计相机参数0三角测量0特征匹配0F矩阵和相机参数0图1.我们数据收集方法的概述。给定任意视频，我们按照结构运动的标准步骤进行操作：提取特征点并在帧间进行匹配，估计相机参数，并进行三角测量以获得重建结果。质量评估网络（QANet）检查SfM流程的操作，并为重建结果分配一个分数。如果分数高于某个阈值，则认为该重建结果质量高，我们将其用作单视图深度训练数据。否则，将丢弃该重建结果。0可以从未标记的视频中收集高质量的单视图训练数据，这些训练数据可以补充现有数据，显著提高单图深度估计的性能。使用我们提出的方法，我们构建了一个名为YouTube3D的新数据集，它包含了795K个野外图像，每个图像都与通过SfM重建过程生成的深度注释相关联，并由QANet过滤。我们展示了作为野外深度估计的独立训练集，YouTube3D优于使用人工注释构建的现有数据集。YouTube3D还优于最近通过SfM自动收集的MegaDepth[26]数据集。此外，我们还展示了作为现有RGB-D数据的补充，YouTube3D推动了野外单图深度估计的最新技术。我们的贡献有两个方面：（1）我们提出了一种新的方法，通过集成SfM和质量评估网络来自动收集高质量的单视图深度训练数据；（2）使用这种方法，我们构建了一个大规模数据集YouTube3D，它推动了野外单视图深度估计的最新技术。02. 相关工作0深度传感器的RGB-D大量来自深度传感器的RGB-D数据在推动最近关于单图深度估计的研究中起到了关键作用[14, 39, 5,010,38]。但由于深度传感器的限制和数据收集中的人工工作量，这些数据集缺乏任意真实世界场景所需的多样性。例如，KITTI [14]主要包含道路场景；NYU Depth [39]、ScanNet[10]和Matterport3D[5]只包含室内场景。我们的工作旨在通过关注野外多样图像来解决这个缺点。0计算机图形学中的RGB-DRGB-D来自计算机图形学是一个有吸引力的选择，因为深度质量高且易于生成大量数据。事实上，合成数据已经在计算机视觉中取得了很大的成功[16, 42, 28, 41, 4, 12, 8, 47,33]。特别是，SUNCG[40]已经被证明可以改善来自NYU深度数据集[53]的自然室内图像的单视图表面法线估计。然而，合成数据的多样性受到3D“资产”的限制，即形状、材料、布局等的可用性，并且自动组合代表真实世界的多样场景仍然很困难。0众包深度的RGB-D 众包深度注释[6,7]最近受到越来越多的关注。它具有吸引力，因为它可以应用于真正多样的野外图像集合。Chen等人[6]众包了相对深度的注释，并构建了一个名为Depth in theWild（DIW）的大规模单视图野外深度数据集。众包的主要缺点显然是人工劳动的成本，我们的工作试图缓解这个问题。56060或通过自动方法避免这种成本。0基于多视图几何的RGB-D当同一场景的多个图像可用时，可以通过多视图几何重建深度。先前的工作利用了这一事实来收集RGB-D数据。Xian等人[48]对立体图像进行立体视觉，即由两个校准相机拍摄的图像对，以收集名为“ReDWeb”的数据集。Li等人[26]对同一场景的无序在线图像进行SfM，以收集名为“MegaDepth”的数据集。我们的工作与先前的工作有两个不同之处。首先，我们使用了一种新的RGB数据来源-单目视频-这可能提供更好的可用性和多样性-立体图像的可用性有限，因为它们必须由立体相机拍摄。同一场景的多个图像往往偏向于游客常去的知名景点。其次，我们的质量评估方法是新的。先前的工作都进行了某种形式的质量评估，但没有使用学习。Xian等人[48]手动删除了一些质量较差的重建；Li等人[26]使用基于语义分割的手工标准。相比之下，我们的质量评估网络可以学习超出易于手工制作的标准和模式。0预测失败我们的工作还与先前关于预测视觉系统失败的工作有关[52,9, 3,2]。例如，Zhang等人[52]仅基于输入预测各种视觉任务的失败。Daftry等人[9]直接从输入视频流中预测自主导航系统的失败。我们的方法不同之处在于，我们预测SfM系统的失败以过滤重建，而不是基于输入图像，而是基于SfM系统的输出。03. 方法0我们的方法包括两个主要步骤：SfM和质量评估，如图1所示。SfM生成候选的3D重建，然后通过QANet进行过滤，然后我们使用它们生成单视图训练数据。03.1. 运动结构0我们方法中的SfM组件是标准的。我们首先在帧间检测和匹配特征点。然后，我们估计基础矩阵并进行三角测量以生成3D点。值得注意的是，SfM只产生稀疏重建。虽然我们可以通过后续的多视图立体视觉步骤生成稠密点云，但我们选择放弃它，因为在无约束环境下的立体视觉往往包含大量错误，特别是在低纹理表面或移动物体存在的情况下。0我们的SfM组件与标准的完整SfM系统相比，还进行了一些次要的修改。首先，我们只进行两视图重建。这是为了简化质量评估的任务-质量评估网络只需要检查两个输入图像而不是许多个。其次，我们不执行束调整[18]，因为我们观察到在未知的互联网视频焦距的情况下（我们假设中心主点和焦距是唯一的未知内参数），束调整通常会导致较差的结果。这是因为束调整对初始化非常敏感，如果焦距的初始化不接近正确值，往往会收敛到不正确的局部最小值。相反，我们搜索一定范围的焦距，并选择在三角测量后导致最小重投影误差的焦距。这种方法不会陷入局部最小值，并且可以通过焦距是在两个视图中的一个固定相机的唯一未知内参数时可以唯一确定的事实来证明其合理性[31]。03.2. 质量评估网络（QANet）0质量评估网络的任务是识别好的SfM重建并过滤掉差的重建。在本节中，我们讨论了包括输入、输出、架构和训练在内的重要设计决策。0QANet的输入QANet的输入应该包括来自特定输入的SfM流程的各种线索。请注意，我们只考虑两视图重建；因此，SfM的输入只有两个视频帧。我们考虑与整个重建相关的线索（重建线索）以及与每个重建的3D点相关的线索（点线索）。我们的重建线索包括推断的焦距和平均重投影误差。我们的点线索包括特征匹配的2D坐标，恢复的基础矩阵下的Sampson距离，以及连接重建的3D点和相机中心的两条射线之间的角度。请注意，我们不使用任何来自像素值的信息。QANet只能访问匹配特征的几何信息。这样做可以通过防止过度拟合图像内容来实现更好的泛化。还要注意，在SfM流程中，通常使用RANSAC来处理异常值。也就是说，对特征匹配的随机子集尝试多次重建。在这里，我们只将QANet应用于不包含异常值的最佳子集。0QANet的输出QANet的输出是整个重建（即稀疏点云）的质量分数。sharedmlp(6,64,128,256)Nx256Maxpool256mlp(256+32,512,256,64,1)Scoremlp(2,32,64,128,64,32)232concat256+32Point-wise BranchReconstruction-wise BranchN x 6sharedmlp(6,64,128,256)Maxpool256mlp(256+32,512,256,64,1)concatenate256+32Point-wise Branchmlp(2,32,64,128,64,32)232Reconstruction-wise BranchN x 6N x 256......h(s′1, s′2, s1, s2) =� ln (1 + exp(s′2 − s′1)) ,if s1 > s2ln (1 + exp(s′1 − s′2)) ,if s1 < s2(1)56070分数0图2. 质量评估网络（QANet）的架构。0理想情况下，这个分数应该对应于两个点云之间的相似度度量，即重建的点云和真实点云之间的相似度度量。有许多可能的相似度度量选择，具有不同的不变性和鲁棒性（例如，对尺度的不变性和对变形和异常值的鲁棒性）。使用哪种度量应该依赖于应用，并不是这项工作的主要关注点。而且，我们的方法是通用的，不局限于特定的相似度度量。0QANet架构图2展示了我们的QANet的架构。它由两个分支组成。重建线索分支处理重建线索（焦距和整体重投影误差）。点线索分支处理与每个重建点相关的特征。两个分支的输出然后被连接并输入到多个全连接层中生成质量分数。点线索需要一个单独的分支，因为它们涉及一个无序的特征向量集合，大小可变。为了对向量的数量和顺序不变，我们采用了类似于PointNet[32]的架构。在这个架构中，每个向量都由共享子网络独立处理，并在最后进行最大池化。0为了训练QANet，一种直接的方法是使用回归损失来最小化预测质量分数与真实分数之间的差异——重建的3D点云与真实点云之间的相似性。然而，使用回归损失会使学习变得更加困难。实际上，分数的绝对值远不及分数的排序重要，因为当我们使用QANet进行过滤时，我们会删除所有分数低于阈值的重建，而阈值可以通过交叉验证选择。换句话说，网络只需要告诉我们一个构建比另一个更好，而不需要量化确切的程度。此外，排名靠前的重建的精度比其他重建更重要，并且在损失中应该更加强调。这个观察结果激发了我们使用排名损失。令s1为“真实质量分数”（即与真实重建的相似性）0训练集中一个重建的“地面真实质量分数”（即与真实重建的相似性）为s1。令QANet预测的质量分数为s'1。类似地，令另一个重建的真实质量为s2，预测的质量分数为s'2。我们定义了一个关于这对重建的排名损失h(s'1, s'2, s1, s2)。0如果对成对的分数排序不正确，该损失函数会施加惩罚。当应用于所有可能的成对时，如果一个糟糕的重建排名靠前，它会产生非常大的总惩罚，因为许多成对会有错误的排序。显然，在实践中，我们无法承担使用所有可能的成对进行训练的代价。相反，我们均匀采样差异大于某个阈值的随机成对。04. 实验0相对深度在之前的章节中我们留下了一个未解决的实现问题，即QANet的“真实”质量分数的选择。具体来说，为了训练一个实际的QANet，我们需要一个相似度度量，用于比较重建的点云与真实点云（两者具有相同数量的点和已知对应关系）。在我们的实验中，我们基于相对深度定义了相似度度量。我们考虑重建点云中的所有点对，并计算与真实点云具有相同深度排序的点对的百分比。请注意，深度排序是视角相关的，因为我们的SfM组件执行双视图重建，我们从两个视图中取平均值。我们选择相对深度作为质量度量的原因有两个。首先，相对深度对异常值更加鲁棒。与基于度量差异（如RMSE）的度量不同，相对深度不会被单个异常值点主导误差。其次，相对深度已被用作野外深度预测的标准评估指标[6, 24, 48,51]，部分原因是除了使用人工标注的相对深度，很难为任意互联网图像获得真实深度。另一个实现问题是如何使用由我们的方法生成的单视图数据来训练单视图深度网络，即由QANet过滤的SfM中的3D点。在这里，我们选择从3D点中导出相对深度。换句话说，我们自动收集的训练数据的最终形式是一组视频帧，每个帧与一组具有“真实”深度排序的2D点相关联。020406080100Top n%020406080100Average Precision of Top n% (%)QANetUpperboundRandom Ranking020406080100Top n%020406080100Average Precision of Top n% (%)QANetUpperboundRandom RankingNYUFlyingThings3D-2D80.53%85.34%-Sam83.20%88.66%-Ang82.09%85.00%-RepErr83.37%88.50%56080FlyingThings3D质量排序0图3. FlyingThings3D数据集上的质量排序曲线。0NYU质量排序0图4. NYU数据集上的质量排序曲线。0使用相对深度作为训练数据的一个优点是它是尺度不变的，并且避开了我们SfM重建中尺度模糊的问题。此外，之前的研究[6]表明，即使目标是预测密集度量深度，相对深度也可以作为一个很好的监督来源。最后，使用相对深度可以让我们将自动收集的数据与之前的工作（如MegaDepth[26]）进行比较，后者也以相对深度的形式生成训练数据。04.1. 评估QANet0首先，我们评估QANet作为一个独立组件是否能够成功训练以识别高质量的重建。我们使用现有的RGB-D视频数据集（NYU Depth [39]，FlyingThings3D [28]和SceneNet[29]）的组合来训练QANet。我们使用RGB视频生成SfM重建，并使用深度图计算每个重建的真实质量分数。我们通过绘制质量排序曲线来衡量我们的QANet的性能，其中Y轴是平均真实质量分数。0QANet变体AUC0-焦点82.54% 88.37%0完整 83.56％ 89.02％0上界 87.49％ 91.28％0随机排序 75.09％ 71.41％0表1. QANet不同消融版本的AUC（曲线下面积）。0真实质量（即由QANet排名的前n％重建的正确相对深度排序百分比）与n的关系。在相同的n下，更好的QANet将具有更好的平均质量。我们在FlyingThings3D和NYUDepth的测试集上测试了我们的QANet。结果如图3和图4所示。在这两个图中，我们提供了来自完美重建排序的上界曲线和来自随机重建排序的随机排序曲线。从图3和图4可以看出，我们的QANet可以成功地按质量对重建进行排序。在FlyingThings3D上，未经过滤（或随机排序）的重建的平均质量为71.41％，而由QANet排名的前20％重建的平均质量为95.26％。在NYUDepth上，这些数字分别为75.09％和86.80％。此外，我们可以看到QANet曲线与上界曲线非常接近。在FlyingThings3D上，上界曲线的AUC（曲线下面积）为91.28％，QANet的AUC为89.02％。在NYUDepth上，这些数字分别为87.49％和83.56％。0消融研究接下来，我们研究了不同线索对质量评估的贡献。我们通过（1）删除2D坐标特征（-2D）；（2）删除Sampson距离特征（-Sam）；（3）删除角度特征（-Ang）；（4）删除焦距（-Focal）；（5）删除重投影误差（-RepErr）来训练QANet的五个消融版本，并将它们与完整的QANet在AUC方面进行比较。它们的表现都不如完整的QANet，表明所有线索都对成功的质量评估有贡献。04.2. 评估完整方法0现在我们转向评估我们的完整数据收集方法。为此，我们需要一种比较我们的数据集与其他方法收集的数据集的方式。注意，仅仅使用地面真实标签的准确性来比较数据集是不足够的，因为数据集NYU31.31% [6]DIW22.14% [6]MegaDepth22.97% [26]YTCol34.47%11%YouTube3D19.01%56090图5.YouTube3D中自动收集的相对深度注释示例。相对深度对被可视化为两个连接的点，红点比蓝点更接近。这些相对深度注释大多是正确的。0可能具有不同数量的图像、不同的图像或同一图像上的不同注释（例如，相对深度的不同点对）。数据集的标签可能不太准确，但由于其他原因（如更好的多样性或更多的信息注释），它可能仍然更有用。相反，我们通过它们对训练的有用性来比较数据集。在我们的情况下，如果一个数据集能够训练出更好的用于单视图深度估计的深度网络，则认为它更好。给定一个相对深度的数据集，我们使用Chen等人的方法[6]来训练一个图像到深度的网络，通过对输出深度值施加排序损失来鼓励与真实排序的一致性。我们通过加权人类不一致率（WHDR）[6]来衡量训练网络的性能，即错误排序点对的百分比。0YouTube3D我们使用随机关键字爬取了90万个YouTube视频。我们随机采样并选择具有特征匹配的帧对。我们将我们的方法应用于这些帧对，并获得了涵盖121,054个视频的2百万个经过滤的重建。从这些重建中，我们构建了一个名为YouTube3D的数据集，其中包含795,066个图像，每个图像平均有281个相对深度对。图5显示了YouTube3D的示例图像和注释。作为基准，我们构建了另一个名为YTUF的数据集。它是由用于构建YouTube3D的所有重建构成的，但没有应用QANet过滤。注意，YTUF是YouTube3D的超集，包含3.5M个图像。0Colmap 我们的SfM实现是基于Colmap[36]进行改编的，Colmap是一个最先进的SfM系统。我们使用Colmap生成的相同特征匹配，并根据第3.1节的描述修改了其余步骤。在我们的实验中，我们还将原始未修改的Colmap系统作为基准。为了从Colmap给出的稀疏点云中生成相对深度，我们随机采样点对并将其投影到不同的视图中。我们在相同的特征和匹配集上运行Colmap。0训练集 WHDR0QA训练 31.77%0NYU + QA训练 31.22%0表2.使用不同独立数据集训练的Hourglass网络[6]在DIW测试集上的错误率。0用于构建YouTube3D和YTUF的数据集，获得了647,143个跨越486,768个视频的重建。我们构建了一个名为YTCol的数据集。它包含3M个图像，每个图像平均有4,755个相对深度对。0Depth-in-the-Wild (DIW) 我们使用Depth-in-the-Wild(DIW)数据集[6]来评估单视角深度网络的性能。DIW包含覆盖不同类型场景的互联网图像。它有74,000个测试图像和420,000个训练图像；每个图像都有一个点对的人工标注相对深度。除了使用DIW的测试集进行评估外，我们还使用其训练集作为独立的训练集。0作为独立数据集的评估我们将YouTube3D作为独立数据集进行评估，并与其他数据集进行比较。也就是说，我们使用每个数据集从头开始训练单视角深度网络，并在DIW上测量性能。为了直接与文献中的现有结果进行比较，我们使用了在许多先前工作中使用的相同的hourglass网络[6,26]。表2比较了在YouTube3D上训练的hourglass网络与在其他三个数据集上训练的网络（MegaDepth [24]、NYUDepth[39]和DIW的训练集[6]）在DIW上的性能。结果如表2所示。我们可以看到，YouTube3D不仅优于使用深度传感器获取的NYUDepth，还优于通过SfM收集的另一个高质量深度数据集MegaDepth。值得注意的是，尽管评估是在DIW上进行的，但YouTube3D的性能超过了DIW的训练集，表明我们的自动数据收集方法可以替代手动注释。表2还将YouTube3D与YTUF（没有QANet过滤的YouTube3D）和YT Col（现成的SfM）进行了比较。我们可以看到，即使YTUF是YouTube3D的一个更大的超集，但YouTube3D的性能仍远远优于YTUF，这凸显了QANet过滤的有效性。此外，YouTube3D的性能也远远优于YTCol，这表明我们的方法比直接应用现成的最先进的SfM到互联网视频要好得多。值得注意的是，YT UF已经明显优于YTCol。这是我们在第3.1节中描述的改进的结果：（1）我们要求基于RANSAC的基础矩阵估计没有异常值；（2）我们用焦距的网格搜索替换了束调整。图6显示了使用不同数据集训练的深度估计网络的定性比较。我们可以看到，与其他数据集相比，YouTube3D的训练通常产生更好的结果，特别是与YTCol和NYU相比。我们还对YouTube3D和QA训练进行了比较，QA训练是用于训练QANet的数据。这是为了回答一个问题，即是否将这些额外的数据直接用于训练单视角深度网络会给予YouTube3D相同的优势，从而使我们的方法变得不必要。从表2中我们可以看到，直接从QA训练中训练单视角深度的性能要比YouTube3D差得多（31.77% vs.19.01%），这表明QA训练本身不是一个很好的像素到深度映射的训练集。此外，将QA训练添加到NYUDepth（在表2中为NYU + QA训练）几乎没有改善NYUDepth单独的性能。这表明直接使用这些额外的数据不会带来改进。6296195855765636734919637199168076012511919581017113619481171118118916401857Input ImageYouTube3DYT_UFYT_Col NYUInput ImageYouTube3DYT_UFNYU12731221171514231467YT_Col196013986377601251171DIWDIWNYU Depth, which was acquired with depth sensors, butalso MegaDepth, another high-quality depth dataset col-lected via SfM. Most notably, even though the evaluation ison DIW, YouTube3D outperforms the training split of DIW,showing that our automatic data collection method is a vi-able substitute for manual annotation.Tab. 2 also compares YouTube3D against YTUF(YouTube3D without QANet ﬁltering) and YTCol (off-the-shelf SfM). We see that YouTube3D outperforms the unﬁl-tered set YTUF by a large margin, even though YTUF is amuch larger superset of YouTube3D. This underscores theeffectiveness of QANet ﬁltering. Moreover, YouTube3Doutperforms YTCol by an even larger margin, indicatingour method is much better than a direct application of off-the-shelf state-of-the-art SfM to Internet videos. Notably,YTUF already outperforms YTCol signiﬁcantly. This is aresult of our modiﬁcations described in Sec. 3.1: (1) werequire the estimate of the fundamental matrix to have zerooutliers during RANSAC; (2) we replace bundle adjustmentwith a grid-search of focal length.Fig. 6 shows a qualitative comparison of depth estima-tion by networks trained with different datasets. We can seethat training on YouTube3D generally produces better re-sults than others, especially compared to Y TCol and NYU.We also include a comparison between YouTube3D andQA train, the data used to train QANet.This is to an-swer the question whether a naive use of this extra data—using it directly to train a single-view depth network—would give the same advantage enjoyed by YouTube3D,rendering our method unnecessary. We see in Tab. 2 thattraining single-view depth directly from QA train is muchworse than YouTube3D (31.77% vs. 19.01%), showing thatQA train itself is a not a good training set for mapping pix-els to depth. In addition, adding QA train to NYU Depth(NYU + QA train in Tab. 2) barely improves the perfor-mance of NYU Depth alone. This shows that a naive useof this extra data will not result in the improvement achiev-56100图6. 使用不同数据集训练的Hourglass网络[6]在DIW测试集上的定性结果。列名表示用于训练的数据集。0网络训练集 WHDR0Hourglass NYU + DIW 14.39% [6]0[6] NYU + DIW + YouTube3D 13.50%0EncDecResNet ImageNet + ReDWeb 14.33%0[48] ImageNet + ReDWeb + DIW 11.37%0EncDecResNet ImageNet + ReDWeb 16.31%0（我们的实现）ImageNet + YouTube3D 16.21%0（来自[48]的）ImageNet + ReDWeb + DIW 12.03%0ImageNet + ReDWeb + DIW + YouTube3D 10.59%0表3.使用和不使用YouTube3D作为补充数据训练的网络在DIW测试集上的错误率。0我们的方法可以处理各种图像。它还表明，QANet在野外图像上具有良好的泛化能力，即使在像素内容方面与训练数据相差很大。值得注意的是，这个结果并不令人惊讶，因为QANet不使用像素值来评估质量，只使用特征匹配的几何形状。作为补充数据集的评估我们评估了YouTube3D作为补充数据。之前的研究已经通过结合多个训练数据源[6,48]展示了DIW上的最新最佳性能。我们研究了将YouTube3D作为额外数据添加到NYU +DIW中，这是Chen等人[6]用于训练野外单视图深度的第一个最新最佳系统的组合训练集。我们使用了与[6]中相同的hourglass网络进行训练。表3中的结果显示，添加了YouTube3D后，网络能够取得显著的改进。接下来，我们评估了是否可以通过添加YouTube3D来改进DIW上的最佳现有结果，该结果是基于ResNet50的编码器-解码器网络[48]实现的（我们将其后续称为EncDecResNet）。该网络在ImageNet、DIW和ReDWeb的组合上进行训练，ReDWeb是通过对立体图像进行视差生成并手动去除质量较差的重建结果而收集的相对深度数据集。表3总结了我们的结果，我们504, 512, 518, 532, 535542, 567, 576, 585, 1525632, 679, 637, 760 , 826890, 1000, 1183, 1136, 10661200 +IW71471, 280, 1872, 1951, 19031988,1017,1464,1527,11717Input Imagew/ YouTube3DInput ImageOutput Depth1727, 1527, 1671,1558,13121152,170,1617,1773,15861562,619,1200,1423,1967w/o YouTube3DInput Imagew/ YouTube3Dw/o YouTube3DInput Imagew/ YouTube3Dw/o YouTube3DInput Imagew/ YouTube3Dw/o YouTube3D56110图7. 使用ImageNet + ReDWeb + DIW（无YouTube3D）训练的EncDecResNet [6]和在YouTube3D上进行微调（有YouTube3D）的DIW测试集上的定性结果。0在下面详细阐述。我们实现了自己版本的EncDecResNet，该版本在[48]中使用，因为截至撰写本文时，没有公开的可用代码。为了验证我们的实现，我们在ImageNet和ReDWeb上训练网络，并获得了一个错误率为16.31%的结果，略差于[48]中报告的14.33%。这种差异可能是因为我们的实现中某些细节（例如每层的通道数）与他们的论文中的不同。另外，我们还在ImageNet和YouTube3D上训练了相同的EncDecResNet，得到了一个错误率为16.21%的结果，与ImageNet和ReDWeb给出的16.31%相当。这表明YouTube3D与ReDWeb一样有用。这值得注意，因为与ReDWeb不同，YouTube3D不限于立体图像，也不需要任何手动过滤。请注意，与[48]中报告的14.33%进行比较是没有意义的-要比较两个训练数据集，我们需要训练完全相同的网络，但14.33%很可能来自稍微不同的网络，因为[48]中缺少一些细节。最后，我们在ImageNet、DIW和ReDWeb的组合上训练了一个EncDecResNet，该网络在[48]中在DIW上取得了最新的最佳结果。通过我们自己的实现，我们获得了一个错误率为12.03%的结果，略差于[48]中报告的11.37%。将YouTube3D添加到混合数据集中，我们获得了一个错误率为10.59%的结果，这是DIW上的最新最佳性能（请参见图7中的深度估计示例）。这个结果证明了YouTube3D作为补充的单视图训练数据的有效性。01 [48]中的所有结果都是基于ImageNet的。0讨论上述结果表明，我们提出的方法可以在野外生成高质量的单视图深度训练数据。这样的结果是显著的，因为我们的数据集是通过完全自动的方法收集的，而像DIW[6]和ReDWeb[48]这样的数据集受到人工劳动和/或立体图像的可用性的限制。我们的自动方法可以轻松应用于更大规模的互联网视频集合，因此有潜力更显著地推进单视图深度的最新技术。05. 结论0在本文中，我们提出了一种完全自动和可扩展的方法，用于从互联网视频中收集单视图深度的训练数据。我们的方法执行SfM，并使用质量评估网络找到高质量的重建，这些重建用于生成单视图深度的地面真值。我们将所提出的方法应用于YouTube视频，并构建了一个名为YouTube3D的单视图深度数据集。我们展示了YouTube3D在训练深度预测器方面既可以作为独立数据集，也可以作为补充数据集的有用性。借助它，我们在野外单视图深度估计方面取得了最先进的结果。6. 致谢0本出版物基于部分由国家科学基金会资助的工作，资助号为1617767，由沙特阿拉伯国王阿卜杜拉科技大学（KAUS

下载后可阅读完整内容，剩余1页未读，立即下载