单目立体学习的端到端卷积网络DeMoN的介绍及其在运动恢复结构任务中的应用

15 浏览量更新于2023-10-16 收藏 1.86MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1DeMoN：用于学习单目立体的Benjamin Ummenhofer*，1 Huizhong Zhou*，1{ummenhof，zhouh}@ cs.uni-freiburg.deJonas Uhrig1，2 Nikolaus Mayer1 Eddy Ilg1 Alexey Dosovitskiy1 Thomas Brox1 1弗莱堡大学2戴姆勒股份公司研发{uhrigj，mayern，ilg，dosovits，brox}@ cs.uni-freiburg.de摘要在本文中，我们制定结构从运动作为一个学习问题。我们训练了一个端到端的卷积网络，以从连续的、无约束的图像对中计算深度和相机运动。该架构由多个堆叠的编码器-解码器网络组成，核心部分是能够改进其自身预测的迭代网络。该网络不仅估计深度和运动，而且还估计表面法线，图像之间的光流和匹配的置信度。该方法的一个与传统的两帧结构运动估计方法相比，该方法具有更高的精度和鲁棒性.与流行的单图像深度网络相比，DeMoN学习了匹配的概念，因此可以更好地推广到训练过程中看不到的结构1. 介绍从运动恢复结构（SfM）是计算机视觉中的一个长期任务。代表现有技术的大多数现有系统都是精心设计的管道，由几个连续的处理步骤组成。这些管道的基本构建块是计算两个图像的结构和运动。目前这一步骤的实施有一些固有的局限性。例如，在通过密集对应搜索推断场景的结构之前，通常从相机运动因此，相机运动的不正确估计导致错误的深度预测。此外，通过关键点检测和描述符匹配计算这种低级过程容易出现离群值，并且在非纹理区域中不起作用。最后，一切都存在-*同等贡献图1.图为DeMoN。网络的输入是来自单目相机的两个连续图像。网络估计第一图像中的深度和相机运动。ing SfM方法在小相机平移的情况下失败这是因为在这些退化情况下，很难整合可以提供合理解的先验知识。在本文中，我们首次成功地训练了一个卷积网络，从一对无约束的图像中联合估计深度和相机运动。这种方法与典型的SfM流水线非常不同，因为它联合解决了运动和密集深度估计的问题。我们还不能为大规模SfM提供一个完整的基于学习的系统，但两帧的情况下是实现这一目标的关键的第一步从长远来看，学习方法具有很大的潜力，因为它自然地集成了X方法的所有形状：多视图，轮廓，纹理，阴影，散焦，雾。此外，可以从数据中有效地学习关于对象和结构的强先验，并在退化情况下正则化问题;例如参见图6。这种潜力是由我们的结果表明的两帧的情况下，学习方法明显优于传统的方法。最近，卷积网络在从单个图像进行深度预测方面表现出色[7，8，24]。通过学习对象及其形状的先验知识，这些网络在受限评估sce中达到了非常好的性能。50385039narios，如室内或驾驶场景。然而，单图像方法在推广到不可见的图像类型时有更多的问题。这是因为它们不利用立体视觉。图9显示了一个例子，其中来自单个图像的深度失败，因为网络之前没有看到类似的结构。我们的网络学会了利用运动视差，没有这种限制，并且可以很好地推广到非常新的场景。为了利用运动视差，网络必须将两个输入图像对应起来。我们发现，一个简单的编码器-解码器网络无法利用立体声：当被训练从两个图像计算深度时，它最终只使用其中一个。从单个图像的深度是满足训练目标的捷径，而无需将两个图像对应起来并从这些对应关系导出相机运动和深度。在本文中，我们提出了一种避免这种捷径的方法，并详细说明了它，以获得准确的深度图和相机运动估计。问题的关键是一个架构，交替光流估计与估计相机的运动和深度;参见图3。为了求解光流，网络必须同时使用这两种图像。为此，我们采用了FlowNet架构[5]来适应我们的案例。我们的网络架构有一个迭代部分，与递归网络可比较，因为权重是共享的。而不是典型的展开，这是训练循环网络时的常见做法，我们将以前训练迭代的预测这种训练技术节省了大量内存，并允许我们包含更多的迭代进行训练。本文的另一个技术贡献是采用一种特殊的梯度损失来处理运动恢复结构中的尺度模糊问题该网络是在Kinect相机的真实图像混合上训练的，包括SUN3D数据集[43]，以及我们为此工作创建的各种2. 相关工作从成对的图像中估计深度和运动可以追溯到Longuet-Higgins [25]。基本的3D几何学是一个统一的领域，在教科书中有很好的介绍[17，10]。最先进的系统[14，42]允许重建包括整个城市在内的大型场景它们由一长串方法组成，从描述符匹配开始寻找图像之间的稀疏对应集[26]，然后估计基本矩阵以确定相机运动。通常通过RANSAC [11]过滤掉对应关系中的离群值尽管这些系统使用束调整[39]来联合优化许多图像的相机姿态和结构，但它们取决于用于初始化的图像对只有在估计相机运动和稀疏的3D点云之后，才通过利用对极几何来计算密集的深度图。[4]。LSD-SLAM [9]通过联合优化半密集对应和深度图偏离了这种方法。它考虑来自短时间窗口的多个帧，但不包括光束法平差。DTAM[30]可以通过与密集的深度图进行匹配来可靠地跟踪关键运动的相机姿势。然而，需要外部深度图初始化，这又依赖于经典的结构和运动方法。Valgadian等人已经提出了从密集对应的相机运动估计。[41]。在本文中，我们通过训练单个深度网络完全偏离了这些以前的方法，该深度网络包括计算密集对应关系，估计深度以及两帧之间的Eigen等人[7]训练了一个ConvNet来预测单个图像的深度。从单个图像进行深度预测是一个固有的不适定问题，只能使用先验知识和场景的语义理解来解决-已知 ConvNets 非常擅长的任务。 Liu 等人。 [24] 将ConvNet与基于超像素的条件随机场相结合，产生了改进的结果。我们的双帧网络还学习利用与单帧网络相同的线索和先验，但除此之外，它还利用了一对图像和它们之间的运动视差。这使得能够泛化到任意新场景。ConvNets已经被训练来取代上述SfM系统中的描述符匹配模块 [6 ， 44] 。同样的想法也被 Z.Bontar 和LeCun[45] 用来估计立体图像之间的密集视差图。Dosovit- skiy等人提出了使用在任务上进行端到端训练的ConvNet计算密集对应关系。[5]的文件。Mayer等人[28]将相同的概念应用于立体对中的密集视差估计。我们也利用了FlowNet思想[5]，但与[28，45]相反，两个视图之间的运动不是固定的，而是必须估计以获得深度估计。这使得学习问题更加困难。Flynn等人[12]使用卷积网络从单目视频隐式估计场景的3D结构。他们假设已知的相机姿势-一个大的简化，使他们能够使用平面扫描的方法来插入场景的给定视图之间。此外，它们从未明确预测深度，仅从中间视点预测RGB图像。Agrawal 等 [2] 和 Jayaraman& Grauman [19] 应用ConvNets来估计相机运动。这些工作的主要焦点不是相机运动本身，而是学习对识别有用的特征表示估计的相机运动的准确性是没有竞争力的经典方法。Kendall等人[21]训练ConvNet进行相机重新定位-从单个图像预测相机在已知场景中的位置。这主要是一个实例识别任务，需要重新训练50403x图像对自举网迭代网精化网深度r，t自运动图2. 体系结构概述。DeMoN将图像对作为输入，并预测第一图像的深度图和第二相机的相对姿态该网络由一系列编码器-解码器网络组成，这些网络对光流、深度和自运动估计进行迭代;详见图3。细化网络增加了最终深度图的分辨率。图3. 自举和迭代网络中使用的编码器-解码器对的示意图。灰色字体的输入仅适用于迭代网络。第一编码器-解码器从图像对和先前的估计预测光流及其置信度第二编码器-解码器预测深度图和表面法线。附加到编码器的全连接网络估计相机运动r、t和深度比例因子s。比例因子s将深度值的比例与相机运动相关联。每一个新场景所有这些工作都没有提供深度估计。3. 网络架构整体网络架构如图所示。二、DeMoN是一个解决不同任务的编码器-解码器网络该体系结构由三个主要组成部分组成：Bootstrap网、迭代网和精化网。前两个组件是成对的编码器-解码器网络，其中第一个计算光流，而第二个计算深度和相机运动;见图3 .第三章。迭代网络递归地应用于成功地细化前一次迭代的估计最后一个组件是单个编码器-解码器网络，其生成最终的上采样和细化的深度图。Bootstrap net. 引导组件获取图像对作为输入，并输出初始深度和运动估计。在内部，首先编码器-解码器网络计算光流和流的置信度图（图1的左部分）。（3）第三章。该编码器由在y和x方向上具有1D滤波器的卷积层对组成。使用[37]中建议的1D滤波器对允许我们使用空间较大的滤波器，同时保持参数数量和运行时间可管理。我们以步长2逐渐降低空间分辨率，同时增加通道数量。解码器部分经由一系列步长为2的上卷积层以及随后的两个卷积层从编码器的表示生成光流估计它输出两个分量的光学方法L1-inv sc-inv L1-rel单个图像0.0800.1590.696朴素象对0.0790.1650.722妖0.0120.1310.097表1.简单的两帧深度估计在任何误差测量上都不比来自单个图像的深度更好（越小越好）。DeMoN的架构迫使网络同时使用这两个映像，从而大大提高了性能。流场及其置信度的估计关于损失和培训程序的详细信息见第5节。第二个编码器-解码器，如图3的右边部分所示。3、将光流、其置信度、图像对以及利用估计的流场变形的第二图像作为输入基于这些输入，它估计深度，表面法线和相机运动。架构与上述相同，除了额外的3个完全连接的层计算相机运动和用于深度预测的缩放因子后者反映了深度和运动预测之间的内在联系，由于规模模糊;参见第4节。通过将光流估计馈送到第二编码器-解码器中，我们让它利用运动视差。选项卡. 1显示了一个编码器-解码器网络，它被训练成直接从一个图像对（朴素图像对）来估计深度和相机运动，但它未能像单个图像网络那样利用立体提示和另一方面，DeMoN的表现要好得多。迭代网迭代网络被训练以改善前5041搜索深度、法线和运动估计。该编码器-解码器对的架构与引导网络相同，但需要额外的输入。我们将由引导网络或迭代网络的先前迭代估计的深度图和相机运动转换成光流场，并将其与其他输入一起馈送到第一编码器-解码器中。同样，我们使用先前的相机运动预测将光流转换为深度图，并将其与光流一起传递到第二编码器-解码器。在这两种情况下，网络都呈现有从先前编码器-解码器的预测生成的预测建议图4显示了光流和深度如何随着网络的每次迭代而改善。迭代实现了尖锐的不连续性，提高了深度值的尺度，并且甚至可以校正初始引导网络的错误估计。改进在3或4次迭代后基本饱和定量分析见补充资料。在训练过程中，我们通过将先前训练迭代的预测附加到小批量来模拟4次迭代。与展开不同，没有通过迭代进行梯度的反向传播。相反，每次迭代的梯度由定义良好的网络输出上的损失来描述：光流、深度、法线和相机运动。与时间反向传播相比，这节省了大量内存，并允许我们拥有更大的网络和更多的迭代。Li等人也采用了类似的方法。[23]，他们在单独的步骤中训练每个迭代，因此需要存储预测作为下一阶段的输入我们也会单独训练第一次迭代，然后联合训练所有迭代，这避免了中间存储。精炼网。虽然以前的网络组件在64 × 48的分辨率下运行，以节省参数并减少训练和测试时间，但最终的网络组件在64×48的分辨率下运行finement net 将预测放大到完整的输入图像分辨率（256×192）。它得到全分辨率第一图像和最近邻上采样的深度和法线场作为输入。图5示出了低分辨率输入和改进的高分辨率输出。在Nvidia GTX Titan X上，通过网络进行3次迭代的前向传递需要110 ms。补充材料中提供了所有网络组件的实施细节和准确的网络定义4. 深度和运动参数化网络计算第一视图中的深度图和到第二视图的相机运动我们代表第二相机与r的相对姿态，t∈R3。旋转r=θv是具有角度θ和轴v的角度轴表示。在笛卡尔坐标系中给出平移t-Bootstrap迭代1 2 3 GT图4. 上图：迭代深度细化。自举网络无法准确估计深度的尺度。迭代细化深度预测，并大大提高了深度值的比例。 L1逆误差从0下降。0137比0。0072之后第一次迭代。下图：光流的迭代细化。图像显示了光流的x分量，以获得更好的可见性。引导网的流预测遗漏了对象彻底在第一次迭代中已经检索到运动边缘，并且端点误差从0.0176减小到0.0120。精确预测Ground Truth图5. 细化网络从低分辨率估计（64×48）和输入图像生成高分辨率深度图（256×192）。深度采样保留深度边缘，甚至可以修复错误的深度测量。具有未知相机运动的图像只能按比例确定。我们通过归一化平移和深度值来解决尺度模糊性，使得λtλ=1。通过这种方式，网络学习预测单位范数平移向量。网络估计的不是深度z，而是逆深度λ=1/z。逆深度允许表示无穷远处的点，并说明随着距离的增加，点的局部化不确定性不断增加。为了匹配单位平移，我们的网络预测标量缩放因子s，我们使用该因子来获得最终的深度值s。5. 训练过程5.1. 损失函数网络估计非常不同性质的输出：高维（每像素）深度图和低维相机运动矢量。损失必须平衡这两个目标，并刺激两项任务的协同作用，而不会过度适应特定场景。点智亏损我们将逐点损失应用于我们的输出：反深度投影，曲面法线n，光流W和光流置信度C。对于深度，我们直接在逆深度值上使用L1损失：nates。众所周知，L深度=i、j|s（i，j）−（i，j）|、（1）深度流Σ5042X2¨g¨地面实况转播请注意，我们将预测的比例s到预测值。对于法线和光流的损失函数，我们使用（非平方）L2范数来惩罚与相应的基础事实n和w的偏差。Σ5.2. 训练时间表网络训练基于Caffe框架[20]。我们使用Adam [22]从头开始训练我们的模型整个培训过程包括三个阶段。L正常=i，j<$n（i，j）−n<$（i，j）<$2首先，我们顺序地训练四个编码器-解码器L流Σ=i，j w（i，j）−w<$（i，j）<$2（二）.在引导和迭代网络中的组件，每次迭代25万次，批量大小为32。当训练一个对于光流，这相当于通常的端点误差。我们训练网络，通过预测每个光流分量的置信度图来评估其自身流预测的质量x分量置信度的基础真值为c（i，j）=e−|Wx（i，j）−W<$x（i，j）|，（3），相应的损失函数读作在编码器-解码器中，我们保持所有先前分量的权重固定。对于预测光流的编码器-解码器，在10 k次迭代之后应用尺度不变损失。其次，我们只训练迭代网络的编码器-解码器对在这个阶段，我们将前三次训练迭代的输出附加到minibatch。在这个阶段，引导网络使用大小为8的批。前三次网络迭代的输出被添加到批处理中，L流置信度Σ=i，j |cx（i，j）−c<$x（i，j）|.（四）迭代网络的总批量大小为32。我们运行了160万次训练迭代。运动损失。我们使用最小的参数化，具有用于旋转r的3个参数的相机运动，以及翻译每个人运动矢量的损失是L旋转=r−r2最后，在所有其他权重固定的情况下，对精化网络进行600k次迭代的训练。补充材料中提供了培训过程的详细信息L平移 =t−t。（五）6. 实验平移地面实况总是被归一化，使得Δr=1，而Δ r的幅度编码旋转的角度。尺度不变梯度损失。我们将离散尺度不变梯度g定义为.f（i，j）−f（i，j）f（i，j+h）−f（i，j）6.1. 数据集SUN3D[43]提供了一组不同的室内图像，包括深度和相机姿势。这个数据集上的深度和相机姿势并不完美。因此，我们从数据集中采样图像对，并自动丢弃图像对gh[f]（i，j）=|+|f（i，j）|、|f（i，j + h）|+|f（i，j）|f (i,j)|.（六）具有高的光一致性误差。我们分割数据集，使相同的场景不会出现在训练和基于这个梯度，我们定义了一个尺度不变损失，惩罚相邻像素之间的相对深度误差测试集。RGB-D SLAM[36]提供高质量的相机姿势L梯度=ΣΣ¨¨h∈{1，2，4，8，16}i，jh[j]（i，j）−gh¨（i，j）“。2（七）通过外部运动跟踪系统获得。深度图受到测量噪声的干扰，我们使用与SUN3D相同的预处理我们创造了一个训练为了覆盖不同尺度的梯度，我们使用5个不同的间距h。这种损失刺激网络比较每个像素的局部邻域内的深度值。它强调深度不连续性，刺激深度图中的锐利边缘，并增加均匀区域内的平滑度，如图所示10个。请注意，由于关系式gh[z]（i，j）=−gh[z]（i，j）对于m，z >0，损失对于实际的非逆深度值z是相同的。我们对光流的每个分量应用相同的尺度不变梯度损失。这增强了估计流场的平滑度和运动不连续性的锐度。5043称重。我们单独衡量损失以平衡其重要性。权重因子通过经验确定，并在补充材料中列出。和一个测试装置。MVS 包括几个室外数据集。我们使用 [15] 中的Citywall和Achteckturm数据集以及Breisach数据集[40]进行训练，并使用COLMAP [33，34]提供的数据集进行测试。重建场景的深度图通常是稀疏的，并且可能包括重建误差。Scenes11是一个合成数据集，包含随机几何形状的虚拟场景的生成图像，提供完美的深度和运动地面真实感，但缺乏真实感。因此，我们引入了Blendswap数据集，它基于来自blendswap.com150个场景。该数据集提供了各种各样的场景，从卡通般的场景到逼真的场景。该数据集主要包含室内场景。我们只将此数据集用于训练。5044NYUv2[29]提供了各种室内场景的深度图，但缺乏相机姿势信息。我们没有在纽约大学进行培训，并使用了与Eigen等人相同的测试分割[7]的文件。与Eigen等人相比，我们还需要第二输入图像，该第二输入图像不应与前一输入图像相同。因此，我们根据差异图像上的阈值自动选择与第一图像充分不同的下一图像。在曲面法线不可用的所有情况下，我们都从深度图中生成它们。我们专门针对SUN 3D中使用的相机固有特性训练了De- MoN，并通过裁剪和缩放来适应所有其他数据集，以匹配这些参数。6.2. 误差度量虽然单图像方法旨在以实际物理尺度预测深度，但双图像方法通常产生相对于相机平移向量的范数的尺度。比较这两类方法的结果需要一个尺度不变的误差度量。我们采用[8]的尺度不变误差，其定义为：.1Σ21 Σ2sc-in v（z，z）=2019 - 02 -12 01：01：02（idi），（8）表2. 左：两帧深度和运动的比较其中di=logzi−logzi。为了与经典的运动恢复结构方法进行比较，估算方法更低的是更好的所有措施。争取公平与基线方法相比，我们仅在两个图像中可见的对于Base-Matlab深度仅可用-L1-rel（z，z）=1|zi−zi|我爱你。.L1-i n v（z，z）=1|ξ−ξˆ|=1μ m。 1-1（九）（十）能够作为稀疏点云，因此不与这里进行比较我们不报告NYUv2上的错误，因为运动地面实况（因此深度比例）不可用。右：比较niii尼岛zi我是。到单帧深度估计。由于规模估计数不L1-rel计算相对于地面实况深度的深度误差，因此在地面实况深度大的情况下减少误差，并增加地面实况中接近对象L1-inv的行为类似，并且类似于我们的预测逆深度值的损失函数（1）。为了评估相机运动估计，我们报告了平移和旋转的预测与地面实况之间的角度（以度为单位）根据定义，平移向量的长度为1光流场的准确性由平均值来衡量年龄终点误差（EPE），即预测的和真实的流向量之间的差的欧几里德范数，在所有图像像素上平均。缩放该流，使得图像大小的位移对应于1。6.3. 与经典结构的比较我们比较了我们从最先进的组件（“Base-*”）中实现的几个强大的基线对于这些基线，我们通过匹配SIFT关键点（“Base-SIFT”）或使用来自Bailer等人的FlowFields光流方法来估计图像之间的对应关系。[3]（“Base-FF”）。接下来，我们使用归一化8点算法[16]和RANSAC计算基本矩阵。到相比之下，我们只报告尺度不变误差度量。进一步提高精度我们使用Ceres库[1]使重投影误差最小化最后，我们通过平面扫描立体生成深度图，并使用Hirschmueller等人的方法。[18]优化。我们还报告了当提供地面实况相机运动（“Base-Oracle”）时深度估计的准确性。（“Base-Matlab”）和（“Base-Mat-F”）在Matlab中实现。（基本矩阵是用RANSAC和5点算法[31]计算的。选项卡. 2显示DeMoN在运动和深度精度方面优于所有基线方法，1 .一、在大多数数据集上为5到2。唯一的例外是MVS数据集，其中DeMoN的运动精度与基于FlowFields光流的强基线相当这证明了传统方法在MVS中存在的纹理丰富的场景上工作良好，但是例如在室内场景上表现不佳，其中具有大的均匀区域或小的基线，其中先验可能非常有用。除了深度运动深度方法L1-inv sc-inv L1-rel腐反式方法sc-invMVSBase-Oracle0.0190.1970.10500Base-SIFT0.0560.3090.36121.18060.516Base-FF0.0550.3080.3224.83417.252刘室内0.260Base-Matlab---10.84332.736刘户外0.341基础垫-F---5.44218.549本征VGG0.225妖0.0470.2020.3055.15614.447妖0.203场景11Base-Oracle0.0230.6180.34900Base-SIFT0.0510.9001.0276.17956.650Base-FF0.0380.7930.7761.30919.425刘室内0.816Base-Matlab---0.91714.639刘户外0.814基础垫-F---2.32439.055本征VGG0.763妖0.0190.3150.2480.8098.918妖0.303RGB-DBase-Oracle0.0260.3980.33600Base-SIFT0.0500.5770.70312.01056.021Base-FF0.0450.5480.6134.70946.058刘室内0.338Base-Matlab---12.83149.612刘户外0.428基础垫-F---2.91722.523本征VGG0.272妖0.0280.1300.2122.64120.585妖0.134Sun3D基础预言机0.0200.2410.22000Base-SIFT0.0290.2900.2867.70241.825Base-FF0.0290.2840.2973.68133.301刘室内0.214Base-Matlab---5.92032.298刘户外0.401基础垫-F---2.23026.338本征VGG0.175妖0.0190.1140.1721.80118.811妖0.126NYUv2基础预言机-----Base-SIFT-----Base-FF-----刘室内0.210Base-Matlab-----刘户外0.421基础垫-F-----本征VGG0.148妖-----妖0.1805045GT Base-OEigenDeMoN图6. 通过增加DeMoN的两个输入图像之间的基线来获得定性性能增益。深度图是用左上参考图像和下面的第二图像产生的。第一个输出是用两幅相同的图像作为输入获得的，这是传统的运动结构的退化情况。第一帧前视图顶视图图7.RGB-D SLAM数据集序列的结果[36]。我们的网络（红色）累积的成对姿态估计与地面真实轨迹（黑色）局部一致。示出了第一帧的深度预测。该网络还在其深度输出中分离前景和背景。所有Base-* 方法都使用640×480的全分辨率图像，而我们的方法使用256×192的下采样图像作为输入。更高的分辨率使Base-* 方法在深度精度方面具有优势，但另一方面，然而，这些方法更倾向于离群值。有关详细的误差分布，请参阅补充材料。值得注意的是，在除了MVS之外的所有数据集上，DeMoN的深度估计优于传统方法在给定地面实况运动的情况下可以产生的深度估计。这得到了图中定性结果的支持。8.我们还注意到，DeMoN具有比（“Base-Mat-F”）更小的运动误差与经典方法相比，我们还可以处理没有和只有很少摄像机运动的情况，见图。六、我们使用我们的网络通过简单的连续帧运动的连接来计算相机的运动，如图所示。7.第一次会议。轨迹主要显示平移漂移。我们也没有应用任何漂移校正，这是SLAM系统中的关键组成部分，但结果使我们相信，DeMoN可以集成到这样的系统中。6.4. 与单个图像的深度比较为了证明运动视差的价值，我们还比较了EigenFergus [7]和Liu等人的单图像深度估计方法。[24]第10段。我们比较了基于VGG网络架构的本征费格斯方法的改进版本和两个图8. 上图：不同数据集上的定性深度预测比较。DeMoN的预测是非常尖锐和详细的。NYUv 2上的Base-Oracle预测丢失，因为运动地面实况不可用。更多方法和示例的结果在补充材料中显示。Liu等人的模型：一个在来自NYUv2数据集的室内场景上训练（图中的比较结果表明，DeMoN生成的深度图当结果被可视化为点云时，这一点变得更加明显;请参阅补充材料中的视频。除了一个数据集外，DeMoN在所有数据集上的表现都优于单帧方法，而且通常是大幅度的。值得注意的是，即使在室内数据集Sun 3D和RGB-D上也可以观察到很大的改善，这表明额外的立体视觉补充了可以从可用于该场景的大量训练数据中学习的其他线索。只有在 NYUv2 数据集上， DeMoN 稍微落后于 EigenFergus的方法。这是因为这种比较并不完全公平：Eigen& Fergus和Liu indoor的网络是在NYUv2的训练集上训练的，而其他网络以前没有见过这种数据。6.4.1推广到新数据在训练过程中学习的场景特定先验可能会在面对与训练数据非常不同的场景时使用较少甚至有害。相比之下，一对图像之间的几何关系与场景的内容无关，并且应该推广到未知场景。为了分析DeMoN的泛化特性，我们编译了一个小型的图像数据集，这些图像显示了不常见或复杂的场景，例如抽象雕塑，人和物体的特写镜头，旋转90度的图像。参考二NYUv2 场景11 MVSSun3DRGBD5046GT Eigen Liu DeMoN图10.不同输出和损失的深度预测比较（a）绝对深度值上的仅L1损失。（b）法线的附加输出和法线上的L1损失。（c）与（b）类似，但具有拟议的梯度损失。（d）地面实况。深度运动grad 规范流L1-inv sc-inv L1-rel腐Tran没有没有没有0.0400.2110.354 3.127 30.861是的没有没有0.0570.1590.437 4.585 39.819没有是的没有0.0370.1900.336 2.570 29.607没有是的是的0.0290.1840.266 2.359 23.578是的是的是的0.0320.1500.276 2.479 24.372刘德谟图9. 将DeMoN的泛化能力可视化单帧方法在这种情况下具有严重的问题，如在最后一个示例的深度估计的点云可视化中最清楚可见的。方法L1-inv sc-inv L1-rel[24]第二十四话0.055 0.247 0.194本征[7]0.062 0.238 0.185妖0.041 0.183 0.130表3. 对以前看不见的场景，物体和相机旋转的定量泛化性能，使用自记录的表4. 损失函数对性能的影响。梯度损失改善了尺度不变误差，但降低了尺度敏感措施。曲面法线预测提高了深度精度。所有组件的组合导致最佳折衷。深度运动流信心L1-inv sc-inv L1-rel罗特兰EPE没有是的0.0300.028 0.260.0320.027 0.2825.26224.3720.0270.027表5.置信度预测对不同输出的总体性能的影响流动的信心。自运动估计只需要稀疏但高质量的对应关系。选项卡. 5示出了给定相同的流，当和重建的数据集。最佳对数缩放后的误差。Eigen等人的最佳模型。 [7] 这一任务是基于 VGG ，刘等人。 [24] ，在Make3D上训练的模型[13]表现最好。DeMoN在两次迭代后实现了最佳性能。图9和Tab. 3表明，DeMoN，如预期的那样，比单图像方法更好地推广到这些意想不到的场景。这表明网络已经学会了利用运动视差。6.5. 消融研究我们的架构包含一些设计决策，我们通过以下消融研究证明。所有结果都是在Sun3D数据集上用bootstrap网络获得的。损失函数的选择选项卡. 图4示出了损失函数对所估计的深度和运动的精度的影响。有趣的是，虽然尺度不变损失大大提高了定性预测（见图1）。10），它对深度尺度估计有负面影响。这导致在非尺度不变度量和运动精度上的弱性能估计曲面法线会略微改善所有结果。最后，具有尺度不变损失、正常估计和流上的损失的完整架构导致最佳结果。给定流置信度作为额外输入。我们的口译员-最重要的是，流置信度有助于找到最准确的对应关系。7. 结论和未来工作DeMoN是第一个学会从两个不受约束的图像中估计深度和相机运动的深度网络。与从单个图像估计深度的网络不同，DeMoN可以利用运动视差，这是一个强大的线索，可以推广到新类型的场景，并允许估计自我运动。该网络在两帧上的表现优于传统的运动结构技术，因为与这些技术相比，它是端到端训练的，并学会从X线索中整合其他形状当涉及到处理具有不同内部参数的相机时，它还没有达到经典方法的灵活性。下一个挑战是解除这一限制，并将这项工作扩展到两个以上的图像。如在经典技术中，这被期望显著提高鲁棒性和准确性。鸣谢我们感谢ERC Starting Grant VideoLearn、DFG赠款BR- 3815/5-1和欧盟项目Trimbot 2020的资助。一BCD5047引用[1] S. Agarwal，K. Mierle及其他谷神星解算器6[2] P. Agrawal，J. Carreira和J.马利克学习通过移动来观察。在IEEE国际计算机视觉会议，2015年12月。2[3] C. 贝勒湾Taetz和D.斯特里克流场：高精度大位移光流估计的密集核心响应场IEEEInternational Conference onComputer Vision（ICCV），2015年12月。6[4] R. T.柯林斯一种真正的多图像匹配的空间扫描方法。在Proceedings CVPR2[5] A.DosovitskiyP.Fischer ， E.Ilg ， P.Hausser ，C.Hazzirbassoul，诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流。IEEEInternationalConference on Computer Vision （ ICCV ）， 2015 年 12月。2[6] A.多索维茨基山口Fischer，J. T. Springenberg，M. Ried-miller和T.布洛克斯使用示例卷积神经网络进行区分性无监督特征学习IEEE Transactions on Pattern Analysisand Machine Intelligence，38（9）：1734-1747，2016年10月。TPAMI-2015-05-0348.R1. 2[7] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。 IEEEInternationalConference on Computer Vision （ ICCV ）， 2015 年 12月。一二六七八[8] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测在Z. Ghahramani，M.威灵角Cortes，N. D. Lawrence和K.Q. Weinberger，编辑，《神经信息处理系统进展》27，第2366Curran Asso-ciates，Inc.，2014. 1、6[9] J. Engel，T. Scho ¨ ps和D. 克莱姆斯LSD-SLAM：大规模直接单眼SLAM。欧洲计算机视觉会议（ECCV），2014年9月。2[10] O.福格拉斯三维计算机视觉：几何学观点.麻省理工学院出版社，美国马萨诸塞州剑桥，1993年。2[11] M. A. Fischler和R. C.波尔斯随机样本同意：模型拟合的范例及其在图像分析和自动制图中的应用. Commun.ACM，24（6）：381-395，June 1981. 2[12] J. Flynn，I. Neulander，J. Philbin和N.很聪明深立体声：学习从世界的图像中预测新的观点。在计算机视觉和模式识别会议，2016年。2[13] D. A.福赛斯Make3d：从单个静态图像学习3D场景结构。IEEE Transactions on Pattern Analysis and MachineIntelligence，31（5）：824 - 840，2009年5月。8[14] J. - M. 弗拉姆P. Fite-Georgel，D. 盖洛普T. 约翰逊先生，R. 拉古兰角吴玉-H. Jen、E.邓恩湾Clipp，S.Lazeb-nik和M.波勒菲斯在无云的一天建造罗马。在K. Daniilidis，P.Maragos和N. Paragios，编辑，欧洲计算机视觉会议（ ECCV ），计算机科学讲义中的第 6314 号，第368Springer Berlin Heidelberg，2010. 2[15] S. Fuhrmann，F. Langguth和M. Goesele多视图重建环境。在欧洲图形与文化遗产研讨会（GCH）中，第6卷，第8页，2014年。5[16] R. I. 哈特利为八点算法辩护。 IEEE Transactions onPattern Analysis and Machine Intelligence，19（6 ）：580-593，1997年6月。6[17] R. I. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社，ISBN：0521540518，第二版，2004。2[18] H. 赫希穆列河利用半全局匹配和互信息进行精确高效的立体图像处理在 IEEE International Conference onComputer Vision and Pattern Recognition（CVPR），第2卷，第807-814页，2005年6月。6[19] D. Jayaraman和K.格劳曼学习与自我运动相关的图像表示。在ICCV，2015年。2[20] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地 Gir- shick ， S. Guadarrama 和 T. 达雷尔。 Caffe ：Convolutional Architecture for Fast Feature EmbeddingarXiv预印本arXiv：1408.5093，2014。5[21] A. Kendall和R.西波拉在深度学习中对相机重新定位的不确定性建模。国际机器人与自动化大会（ICRA），2016年。2[22] D. Kingma和J. BA.亚当：一种随机优化方法。arXiv：1412.6980 [cs]，2014年12月。ar

下载后可阅读完整内容，剩余1页未读，立即下载