2019虚拟现实硬件的单眼视频深度学习方法技巧包研究

59 浏览量更新于2024-01-24 收藏 833KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

虚拟现实智能硬件2019年第5期引文：董博文，吕胜.从单眼视频中学习深度和相机运动的技巧包。虚拟现实智能硬件，2019，1（5）：500-510DOI：10.1016/j.vrih.2019.09.004·文章·从单眼视频BowenDongG1，LuShengG2*1. 哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨1500012. 北京航空航天大学软件学院，北京100191*通讯作者，lsheng@buaa.edu.cn投稿时间：2019年7月19日修订日期：2019年9月16日接受日期：2019年9月18日基于Zhou等人提出的开创性工作，学习单眼视觉里程计，即，从单目视频的深度和相机运动，可以归因于训练过程中的技巧，如数据增强和学习目标。方法本文通过理论分析和实证研究，对这些技巧进行分类，并对它们对视觉里程计最终准确性的影响进行评价。结果/结论通过结合上述技巧，我们能够显着改进从SfMLEarner改编的基线模型，而无需额外的推理成本。并分析了这些手法的原理和成功的原因。还提出了未来研究的实际指导方针。关键词无监督学习;单目视觉里程计1引言新兴的深度学习模型，特别是深度卷积神经网络（CNN），为计算机视觉领域提供了非凡的见解。此外，它们还增强了各种应用程序的性能，从图像分类和对象检测等高级视觉任务到图像增强和语义编辑等低级视觉任务。具体来说，单目视觉里程计是计算机视觉、机器人和虚拟现实的基础和跨学科应用，它成功地采用了数据驱动的深度模型来提高其质量。当前方法在KITTI和Cityscapes等知名自动驾驶基准测试中的准确性不断提高，证明了这些方法在无监督学习方式下实现了令人印象深刻的可靠性和准确性。然而，是什么导致了这一进展？最近的大多数方法非常类似于Zhou等人提出的SfMLearner[1]的原始网络结构和学习管道。它们将估计输入RGB帧的合理深度图的单目深度预测器D与成对相机姿态估计器P相结合，该估计器P回归相邻RGB帧之间的相对相机姿态。这两个模块被设计为两个独立的CNN网络。优化了用于加强相邻帧之间的光度一致性的目标函数，以学习两个模块的参数。由于这种基本结构自SfMLEarner以来没有改变，是什么使现代方法的性能提高？www.vr-ih.comBowen DONG等人：从单眼视频中学习深度和相机运动的技巧包501本文中，我们专注于研究可以提高单眼视觉里程计性能的有效和通用技巧，即，深度预测和相机姿态估计，但在推断期间不引入额外的计算成本。许多最近的方法依赖于涉及后处理的迭代细化模块，以逐步增强回归的深度图和自我运动，例如DDVO[2]和BA-Net[3]。我们研究了一系列技巧，包括网络架构、输入预处理、输出后处理和损失函数，这些技巧已经允许基线模型满足那些耗时的后处理或附加模块的质量。这些技巧近年来已经被提出，但受到的关注相对较低;其中许多技巧在实现细节中被简要提及，或者只能在其源代码中找到。我们将在多个测试场景和数据集上对其进行评估，并通过全面的消融研究报告其对最终准确性的影响。本文的主要贡献如下：（1）全面分析了中国武术套路的套路特征及其成功的基本原理，为今后的研究提供了实践指导。(2)系统评估应用于单目视频里程计的无监督训练管道和网络结构(3)据我们所知，这是第一个研究调查有价值的技巧设计视觉里程计模型从单眼视频，以下无监督的方式。这些改进不会产生额外的推理成本。本文的其余部分组织如下。首先，我们在第2节中简要介绍基线方法。在第3节中，详细讨论了所提出的技巧。实验结果在第4节中进行了基准测试。最后，第五部分对本研究进行了总结。2基线模型我们按照与SfMLEarner[1]相同的框架描述基线模型，即。例如，该模型包括两个问题：一个是单变量的估计，另一个是变量D t=RGBframeIt;一个是变量ap估计，另一个是变量θa→b=Pt=A a，b是变量a p估计，另一个是变量a pθa→b。结果θ=ω，tω是指示6-DOF姿态参数的向量，其中ω是3D欧拉旋转角度，t是3D平移。此外，深度图D具有与输入帧I相同的空间分辨率。另外，RND和RNP分别表示深度预测器和姿态估计器的网络参数。它们是在无监督训练阶段学习的。2.1网络结构（1）单循环表中的预还原或还原数据因此，D是针对S f M L耳建议的pNe t结构，其包括作为其骨干的编码器-解码器以及融合编码图像特征与解码的多尺度深度特征的多个快捷链接。解码器同时生成多尺度视差图，最终深度图的旁路产物。所有卷积层之后都是 ReLU 激活操作，除了预测层，它遵循 1/（10×+0.1），以限制结果视差图。深度图被简单地转换为视差图的倒数。(2)摄像机位置估计或P&Pemplloyeconcatenatedicntframesasitsinti n t indrectlyregressetherelativé以预定义的顺序设置姿势参数例如，当输入帧按照以下顺序连接时，建议，结果姿态的顺序为θ t→t-1，θ t→t+。它建议N个输入帧产生（N-1）× 6个输出姿态矩阵，其中每行指示一个姿态参数。它的网络结构类似于SfMLearner中的PoseNet有关这两个模块的简要说明，请参见图1502虚拟现实智能硬件2019年第5期1图1单眼视觉里程计的基线模型。实线表示推理路径，紫色虚线表示训练路径。Ir是参考帧，It是目标帧，It→r是将目标帧向后扭曲到参考帧的图像坐标。2.2无监督训练为了简单起见，正如SfMLeaner所建议的，我们从视频中提取了大规模的2N+ 1帧剪辑，KITTI数据集[4]，并将每个剪辑的第N帧定义为参考帧。目标帧是该剪辑中的其余帧。在训练过程中，所有输入帧都被调整为128 × 416，并通过随机水平翻转、随机缩放和颜色抖动来增强。Zhou等人建议N= 2，我们选择了SfMLEarner[1]中提出的训练样本列表，以公平地比较相关方法并进行分量分析。基线模型采用光度一致性和视差平滑性作为目标，旨在优化视差和刚性相机姿态方面的视图合成质量。(1)通过根据估计的刚性姿态和参考帧的深度图像最小化变形的目标帧和参考帧之间的视觉不相似性来获得光度一致性。该扭曲操作是可微分的，并且从目标帧It-1到目标帧I t - 1的扭曲帧It-1→tIt可以写成It-1→t（x）=It-1（Wx;Dt，θt→t-1），其中Wx;Dt，θt→t-1是从参考系It到目标系It-1的刚性翘曲场。因此，光度一致性是LPC =∑∑ ρIt，It-τ→t+ρIt，It+τ→t（一）t∈Tτ∈1，其中，ρπι，ρπ ι是计算两个量之间的逐像素相异性的度量（通常l1范数是足够的，但是我们可以使用更高级的度量）。T指示参考帧的索引集合在训练阶段使用。该项将所有反向扭曲的目标帧测量到参考帧的图像坐标。（2）视差平滑项应用TV-I范数以鼓励分段视差平滑。这种方法和设备的可靠性很高，因为它的成本很低。Wedet ei ta sLds=∑dtl，其中dt= 1/Dt。因此，综合目标是t∈T1L基线=Lpc +λdsLds（2）其中加权因子λds用于平衡两项的贡献。通过随机梯度下降及其变体优化学习目标。我们在本研究中应用Adam优化器，并将学习率设置为0.0002。2.3评估指标深度预测根据Eigen等人[5]引入的度量进行评估。述度量包括以下各项中Bowen DONG等人：从单眼视频中学习深度和相机运动的技巧包503、D不(1) δ = max的百分比Dt**Dt低于预定义的阈值;（2）线性和对数空间;（3）绝对相对差（abs rel）和平方相对差（sq rel）。如Zhou等人所建议的，在测试数据集中的5[1]的文件。3锦囊妙计在本节中，介绍了一系列改进单目视觉里程计的无监督学习的技巧，而不改变基线模型的主要结构，也不添加计算要求很高的后处理模块。3.1水垢稳定从单目视频学习的视觉里程计通常遭受深度图和姿势的尺度模糊性。这是因为扭曲操作是尺度不变的，这意味着深度图的尺度可以通过对应的姿态参数的尺度来补偿。因此，相同的翘曲场适用于任意深度尺度。因此，在优化的光度一致性Lpc下，预测视差图的比例仍然不清楚。然而，因为视差平滑项L_ds最小化视差图的梯度，所以如果视差尺度是任意的，则具有较小尺度的视差图总是倾向于较小的L_ds。这种现象已经在DDVO[2]中进行了讨论，并且在基线模型或开创性工作SfMLEarner[1]中导致了任何接近零的视差图的灾难性训练失败。一个简单的技巧是有益的规模模糊的规则化。我们可以在原始图像处理之后和之前对视差进行自归一化，即。e. ，η=d，其中d是rw视差图，并且d是该原始图的空间平均值。这种简单的修正将不会产生轨迹或场景几何形状的精确尺度，但是它防止视差平滑项Lds减小视差尺度，并且在足够的训练时期之后建议收敛尺度。作为旁路产品，可确保姿势比例稳定（图2）。图2是否将深度图上采样到最佳分辨率。完整模型包含基线模型中报告的技巧。UD表示3.2节中的深度上采样技巧。有了这个简单的技巧，较粗尺度的深度误差将有较少的机会传播到较细尺度的深度误差。请勾选彩色图像中的红框和深度图像中相应的白框。最好在屏幕上观看。 D 不504虚拟现实智能硬件2019年第5期13.2克服梯度局部性基于扭曲的光度一致性Lpc的反向传播只能将梯度流到一阶局部附近，如果正确的刚性对应在无纹理区域中或远离当前估计，则这将不可避免地妨碍训练[1]。根据在立体和光流估计中经常应用的从粗到精的优化策略，SfMLEarner[1]使用深度监督来显式优化其自身分辨率中的多级光度一致性和视差平滑损失。然而，如在粗到细优化中出现的典型缺点中，较粗级别中的估计失败（通常从非理想采样策略到输入帧）将向较细级别提供负面指导，从而导致贯穿所有级别的一致深度误差。克服该问题的一个技巧是将较粗糙级别中的深度图的分辨率上采样到最终深度图的分辨率，并且随后最小化对应于输入帧的公共图像坐标中的多级学习目标。这个技巧将显著降低孤立的不稳定预测在粗糙水平上的置信度。另一个有用的技巧是改进逐点度量，以将光度一致性转换为某些区域感知度量。一个有效的方法是添加SSIM[6] 以确保在以下方面的一致性重叠的3 × 3窗口中的本地统计数据，例如ρI t，I t-τ= α1I t-I t-τl + α21-SSIM I t，I t-τ（3）其中α1和α2是加权因子。此外，最近的方法计算逐像素CNN特征（例如，VGG特征[7]）距离，也称为感知损失[8]，在扭曲的目标帧和参考帧之间，从而鼓励梯度流过大规模的感受野。3.3无效区域视觉里程计学习的光度一致性隐含地假设在目标区域中(1)场景是静态的，没有对象运动;（2）在参考帧和目标帧之间不存在遮挡/解除遮挡;以及（3）表面是朗伯的，并且环境光是一致的，没有突然的变化。在自动驾驶场景中的大多数情况下，照明变化或成像噪声可以通过鲁棒的度量（例如SSIM和感知损失）进行过滤。然而，在训练数据中违反前两个假设将污染反向传播处理中的梯度，从而抑制训练。SfMLEarner[1]应用统一的可解释性预测网络作为其PoseNet的解码器部分，其输出软掩码以去除任何潜在的无效区域（即，咬合/不咬合和动态对象）在光度一致性Lpc的计算中。然而，由于相异性度量由于ρ ε，ρε在强度空间中有界，Zhou等人发现这种可解释性掩模并不一定有助于单眼视觉里程计的学习，正如他们在GitHub存储库上的更新结果所建议的那样。3.3.1闭塞/不闭塞我们假设场景只传达刚性运动。最近的研究，如Struct2Depth[9]和Godard等人的研究。[10]试图以非参数方式解决光度一致性中的遮挡处理。他们计算了从配对的前一目标帧It-τ或下一目标帧It+τ到参考帧It的扭曲之间的最小重建损失，写为505Bowen DONG等人：从单眼视频中学习深度和相机运动的技巧包t∈Tτ∈DPLpc=∑min$> Itx-It-τ→t <$>l1，<$It -It+τ→t $$>l1$（四）重建损失W。R. t. 参考帧中的一个像素x将始终优于因为深度预测器D和相机姿态估计器P是均匀的，应用于任何一对连续帧;最小化该损失将鼓励至少在一个方向上的合理视图合成，并排斥遮挡/解除遮挡区域内的无约束扭曲。同时，另一类方法应用双向扭曲场之间的一致性来指示遮挡/非遮挡区域。例如，像素x的不一致性x;D t，θ t→t-τ+Wx;D t，θ t→t-τ;D t-τ，θt-τ→tτ（5）高于与比例相关的阈值[11，12]将被指示为无效。使用这种硬阈值来替换SfMLEarner[1]中的可学习可解释性掩模，导致预测深度图中的模糊少得多，并且估计的相机姿势变得更可靠。3.3.2动态对象前面的技巧仅在场景是静态的情况下有效。因此，处理静态背景之外的动态对象并以鲁棒的方式学习相机姿态（进而学习深度图）是有益的。我们可以重新制定我们的视图合成为基础的目标与动态对象的场景流估计问题，同时估计三维场景结构，刚性相机运动，和三维对象流。与基于显式分割掩模学习分割移动对象的监督方法不同[9，13，14]，无监督方法通常依赖于辅助光流估计任务来软检测动态区域。在这种情况下，一个像素x的光流将逐像素对象流（如果存在）与从深度图和刚性相机运动生成的刚性流组合。(1)光流作为输入EPC[15]，Ranjan et al.[16]，Lv et al.[14]和DF-Net[17]采用经过良好训练的光流估计网络（如PWC-Net[18]）来提供自监督光流，以便在与刚性扭曲场进行一致性验证后软检测移动对象。给定对象流的适当先验，例如对象级平滑度和双向一致性，深度预测和相机姿态估计的学习可以得到很好的约束。(2)光流作为输出另一组方法不采用光流作为输入来增强训练。例如，GeoNet[11]将最终结果制定为光流，其中预测的深度图和相机姿势作为中间输出，为后续的流生成器提供信息。物体流成为运动残差，流发生器将补偿最终的光流。然而，预测的运动残差对翘曲噪声敏感，因此可能妨碍动态对象的发现，这反过来可能损害视觉里程计。3.4提高物理可靠性光度一致性学习外观流，但不学习物理运动（例如，无纹理区域中的扭曲场通常满足光度一致性，但它们在物理世界中不可靠），这可能不会对物理可靠的场景结构进行编码。因为物理上可靠的光流总是符合双向流的周期一致性，所以来自参考帧的有效流总是具有从目标帧回到其在参考帧中的原始位置的对应反向流。虚拟现实智能硬件2019年第5期506t∈T τ ∈ {-N，t∈T τ ∈ {-N，参照系因此，将这种一致性模拟为约束所生成的扭曲场的分布的有效先验是有帮助的。具体来说，一致性包含两个重要组成部分：双向光度一致性项Lbi-vc=∑∑Mτ→t<$ρ（It，Iτ→t）+∑∑Mt→ττρ（It→τ，Iτ）（6）t∈Tτ∈N，以及循环翘曲一致性项t∈Tτ∈ {-N，Lcc=∑∑∑Mτ→t∑Mτ→tx <Wx;Dτ，θτ→t+WWx;Dt，θτ→t;Dt，θt→τ其中Mτ→t和Mt→τ是由第3.3节中描述的方法生成的有效掩码。Mt-t指示从目标帧It到参考帧It的有效区域，并且Mt-t指示从参考帧I t到目标帧I t的有效区域。它值得注意的是，无效区域中的深度值是通过其邻域内的深度平滑度先验L ds来简单地估计的（图3）。图3是否约束双向刚性翘曲场的周期一致性完整模型包含基线模型中报告的技巧CC是指3.4节中的循环一致性技巧这个技巧减少了纹理映射伪影，并恢复了更可靠的空间结构。请检查彩色图像内的红框中标记的详细信息，深度图像内的白框中也有标记最好在屏幕上观看3.5加强长期稳健性基线模型以及大多数无监督视觉里程计系统应用短长度视频序列（通常为5帧片段）作为训练示例，这导致用于处理大型或罕见相机运动的短学习系统。与增加训练片段的长度以显著增加训练和测试阶段的计算成本不同，一种有效的方法是在更长的距离内随机采样相邻帧。在这种情况下，训练片段的长度与基线模型的长度保持相同，但训练模型处理更大和更复杂运动的能力得到增强。此外，相邻帧之间的复杂运动使三角测量（或从另一个角度的视图合成）更具挑战性;因此，优化的光度一致性要求学习的深度图更好地呈现场景结构。为了结束本节，我们在表1中列出了一组现有的无监督单眼视觉里程计方法。这些方法中使用的技巧数量可以从这个表中计算出来。值得注意的是，即使这些方法使用相同的技巧集，每个技巧中的不同特定处理也会导致不同的性能增益。4实验结果我们根据基线模型评估我们的技巧组合，即。例如，尺度归一化，多尺度（七）507Bowen DONG等人：从单眼视频中学习深度和相机运动的技巧包表1现有无监督单目视觉里程计方法方法[2]第二届中国国际汽车工业展览会[15]第十五届全国政协委员Ranjan等人[16个]DF-Net[17]我们比例归一化×√√√√√√√克服梯度局部性√√√√√√√√处理无效区域√√×√√√√√动态对象×√×√√√√×物理可靠性×√××√√√√长期稳健性×××××××√深度上采样、遮挡处理、周期一致性和长期数据增强。动态对象处理在训练阶段需要外部模块;因此，在我们的测试场景中省略了它。训练配置类似于第2节中的无监督学习范式。深度预测的评估使用Eigen等人的协议和测试列表。[5]的文件。姿态估计的评估应用SfMLEarner[1]的协议，并且测试列表是KITTI里程计分割[4]。值得注意的是，单目视觉里程计固有的尺度模糊性需要深度图和轨迹的归一化。4.1深度预测如表2所示，如果将深度预测截断80m，则组合技巧使无监督基线模型能够在大多数评估指标上优于所有比较的单眼深度预测方法，即使在使用具有校准立体数据的最新方法时也是如此。我们的方法在训练过程中结合了这些技巧，在没有额外训练或训练的情况下实现了卓越的性能。表2深度预测结果的KITTI数据集[4]使用分裂的Eigen等人。[五]《中国日报》方法上限80米设置ABSREL平方相对RMSERMSE（log）δ 1.25δ 1.252δ 1.253Eigen等人[五]《中国日报》深度0.2031.5486.3070.2820.7020.8900.958Liu等人[19个]深度0.2021.6146.5230.2750.6780.8950.965Godard等人[10个国家]立体声0.1481.3445.9270.2470.8030.9220.964Zhou等人[1]第一章单0.2081.7686.8560.2830.6780.8850.957Zhou等人[1]*单0.1831.5956.7090.2700.7340.9020.959[第11话]单0.1641.3036.0900.2470.7650.9190.968DDVO[2]单0.1511.2575.5830.2280.8100.9360.974我们的无CC单0.1681.2595.9370.2470.7550.9200.969Ours w/o Aug单0.1441.1755.4300.2200.8190.9420.976我们单0.1391.0215.4180.2090.8030.9370.976上限50米Godard等人[10个国家]立体声0.1400.9764.4710.2320.8180.9310.969Garg等人[20个]构成0.1691.0805.1040.2730.7400.9040.962Zhou等人[1]第一章单0.2011.3915.1810.2640.6960.9000.966[第11话]单0.1570.9904.6000.2310.7810.9310.974我们单0.1310.8054.0210.2020.8200.9470.982注：我们报告了Eigen等人提出的七个指标。[5]的文件。粗体表示总体最佳结果。“w/oCC“和“w/oAug“分别降级了在没有周期一致性或没有长期数据增强的情况下训练的视觉里程计模块。 * 最新结果见Zhou et al的网站。[1]的文件。虚拟现实智能硬件2019年第5期508测试模块（例如，DDVO[2]和GeoNet[11]）。如果将预测截断50m，我们的模型在所有指标上都达到了最佳性能。请参考图4中的定性结果以及消融研究中关于周期一致性和长期数据扩充的删除。这些技巧，特别是循环一致性，对于获得预测深度图的可靠空间结构非常重要。最近的一些方法在其流量估计中应用了周期一致性，例如GeoNet;然而，它没有直接应用于深度预测，这导致与我们的策略相比，学习效果不佳。图4更多关于KITTI数据集上深度预测比较的结果。最好在屏幕上观看。4.2相机姿态估计我们比较我们的方法与传统的ORB-SLAM（完整），后者的结果是从网站上获得的周等。[1]的文件。此外，我们将我们的方法与SfMLEarner[1]和GeoNet[11]进行了比较。如表3所示，我们的方法优于“平均里程计”和传统的OBR-SLAM（全）。此外，对于基于深度学习的方法，我们估计的姿势比几乎所有参考方法都更准确，证明了应用技巧的重要性。值得注意的是，EPC++（单声道）是通过单目视频学习的EPC[15]的扩展。此外，GeoNet[11]和DF-Net[17]，它们不如我们的方法，应用循环一致性来强制执行相机运动的可靠性。因此表3KITTI视穹上的摄像机姿态评估-尝试拆分，基于ATE我们的相机姿态估计的性能增益归因于长期数据增强，这证明了这个简单技巧的可靠性。5结论总之，这是第一次从理论上研究方法平均里程ORB-SLAM（完整）Zhou等人[17]第十一届中国国际纺织品展览会EPC++（单声道）[21]Struct2Depth[9]Seq-090.032 ± 0.0260.014 ± 0.0080.021 ± 0.0170.012 ± 0.0070.017 ± 0.0070.013 ± 0.0070.011 ± 0.006Seq-100.028 ± 0.0230.012 ± 0.0110.020 ± 0.0150.012 ± 0.0090.015 ± 0.0090.012 ± 0.0080.011 ± 0.010分析和分类的把戏申请我们的0.010 ± 0.0070.008 ± 0.007509Bowen DONG等人：从单眼视频中学习深度和相机运动的技巧包从单目视频中学习视觉里程计，而无需额外的细化模块来增强基本的深度预测和相机姿态估计网络。我们证明了这些技巧的适当组合显着改善了基线模型，并且偶尔优于复杂的参考方法，例如KITTI数据集等众所周知的自动驾驶场景。引用1Zhou T H，Brown M，Snavely N，Lowe D G.视频深度和自我运动的无监督学习。2017年IEEE计算机视觉与模式识别会议（CVPR）Honolulu，HI，USA，IEEE，2017 DOI：10.1109/cvpr.2017.7002王春英，朱瑞，刘建超.使用直接方法从单眼视频中学习深度。2018年IEEE/CVF计算机视觉和模式识别会议。美国犹他州盐湖城，IEEE，2018 DOI：10.1109/cvpr.2018.002163Tang C，Tan P. BA-Net：密集束调整网络。国际学习表征会议（International Conference on LearningRepresentation，ICLR）20194张文辉，张文辉，张文辉. Vision meets robotics：The KITTI dataset.国际机器人研究杂志，2013，32（11）：1231DOI：10.1177/02783649134912975放大图片作者：J.使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统进展（NIPS），2014，23666Wang Z，Bovik A C，Sheikh H R，Simoncelli E P.图像质量评估：从错误可见性到结构相似性。IEEE图像处理学报，2004，13（4）：600DOI：10.1109/tip.2003.8198617Simonyan K，Zisserman A.用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，20148李福福，李福福.实时风格转换和超分辨率的感知损失2016. Cham：Springer International Publishing，2016，694DOI：10.1007/978-3-319-46475-6_439Casser V，Pirk S，Mahjourian R，Angelova A.无需传感器的深度预测：利用结构进行单目视频的无监督学习。AAAI人工智能会议论文集，2019，33，8001-8008DOI：10.1609/aaai.v33i01.3301800110Godard C，Aodha O M，Brostow G J.具有左右一致性的无监督单目深度估计。2017年IEEE计算机视觉与模式识别会议（CVPR）Honolulu，HI，USA，IEEE，2017 DOI：10.1109/cvpr.2017.69911尹志昌，施建平，GeoNet：无监督学习的密集深度，光流和相机姿态。2018年IEEE/CVF计算机视觉和模式识别会议。美国犹他州盐湖城，IEEE，2018 DOI：10.1109/cvpr.2018.0021212放大图片作者：Meister S，Hur J，Roth S. UnFlow：具有双向普查损失的光流的无监督学习。在：第三十二届AAAI人工智能会议（AAAI），2018年13Cao Z，Kar A，Hane C，Malik J.从未标记的立体视频中学习独立对象运动。IEEE计算机视觉与模式识别会议（CVPR），2019，559414Lv Z，Kim K，Troccoli A，Sun D Q，Baug J M，Kautz J.使用移动相机进行3D运动场估计的动态场景中的学习刚性//计算机视觉-ECCV 2018。Cham：Springer International Publishing，2018，484-501 DOI：10.1007/978-3-030-01228-1_2915杨志辉，王平，王勇，徐伟，Nevatia R. Every pixel counts：unsupervised geometry learning with holistic 3D motionunderstanding//计算机科学讲义。Cham：Springer International Publishing，2019，691-709 DOI：10.1007/978-3-030-11021-5_4316[10]李文，李文，李文.竞争协作：联合无监督虚拟现实智能硬件2019年第5期510学习深度、相机运动、光流和运动分割。IEEE计算机视觉与模式识别会议（CVPR），2019，1224017邹燕玲，罗志玲，黄建波. DF-net：Unsupervised joint learning of depth and flow using cross-task consistency//Computer Vision-ECCV 2018. Cham：Springer International Publishing，2018，38DOI：10.1007/978-3-030-01228-1_318Sun D Q，Yang X D，Liu M Y，Kautz J. PWC-net：使用金字塔，翘曲和成本体积的光流CNN。2018年IEEE/CVF计算机视觉和模式识别会议。美国犹他州盐湖城，IEEE，2018 DOI：10.1109/cvpr.2018.0093119刘芳燕，沈春华，林国生，李德毅.使用深度卷积神经场从单目图像学习深度。IEEE Transactions on PatternAnalysis and Machine Intelligence（T-PAMI），2016，38（10），202420李国忠，李国忠，李国忠.用于单视图深度估计的无监督CNN：几何拯救// Computer Vision-ECCV 2016。Cham：Springer International Publishing，2016，740DOI：10.1007/978-3-319-46484-8_4521杨志，王勇，徐伟，李文. Every Pixel Counts++：Joint Learning of Geometry and Motion with 3D HolisticUnderstanding. arXiv预印本arXiv：1810.06125，2018

下载后可阅读完整内容，剩余1页未读，立即下载