无监督学习：跨任务一致性提升深度预测与光流估计

54 浏览量更新于2024-06-20 收藏 2.53MB PDF 举报

本文主要探讨了"跨任务一致性损失的无监督学习方法用于深度预测和光流估计"这一主题，针对单视点深度预测和光流估计这两个高度相关的计算机视觉问题。传统的研究方法往往孤立地处理这两个任务，而本文则提出了创新的解决方案。作者邹玉良、罗泽伦和黄家斌提出的DF-Net（Depth and Flow Network）框架，利用无标记的单目视频序列，引入了一种新的无监督学习策略。他们强调了几何一致性作为额外的监督信号在训练过程中的重要作用。在深度预测中，通过预测的场景深度和摄像机运动，结合反向投影生成3D场景流，然后与光流模型估算的流进行比较，从而实现跨任务一致性损失的计算。这种一致性损失促使深度预测和光流估计模型在训练过程中协同优化，但又保持各自的独立性，以便于在测试阶段各自应用。相较于传统的监督学习方法，如需要大量标注的训练数据和密集像素级的注解，无监督学习框架极大地降低了对人工标注的依赖，能够利用现有的未标记视频资源进行联合训练。尽管如此，这种方法并未忽视深度和流量模型间的内在关联，而是通过几何一致性这个桥梁，有效地整合了两者的学习，使得模型在性能上能够与最先进的无监督方法竞争。现有的深度和流量估计方法大多依赖于亮度恒定性和空间平滑度等先验知识，但本文的方法更加注重底层的几何约束，这对于处理复杂场景和动态背景下的任务具有显著的优势。实验结果表明，该方法不仅提高了模型的准确性，而且在实际应用中展现出良好的泛化能力，对于减少标注数据的需求以及提升整体性能具有重要意义。因此，跨任务一致性损失的无监督学习方法对于推动计算机视觉领域的深度预测和光流估计技术的发展具有重要的理论和实践价值。

Y. Zou

，

Z. Luo

和

J. - B.

黄

然后，合成帧和目标帧之间的光度损失可以用作训练网络的无监督代

理损失然而，由于无纹理区域和遮挡边界的模糊性，单独使用光度损

失是不够的因此，网络训练通常是不稳定的，并且需要对损失函数进

行仔细的超参数调整。我们的方法建立在现有的无监督损失的基础

上，用于训练我们的深度和流量网络。我们表明，所提出的跨任务一

致性损失比单独训练的模型提供了相当大的性能提升。

利用几何线索的方法。最近，许多工作利用深度、相机姿势和流

量之间的几何关系来学习深度或流量模型[60，65，68，73]。这些方

法首先估计输入图像的深度。与两个确定的帧之间的估计的相机姿态

一起

，该方法确定了区域流的大小

。

来自深度和姿态的合成流可以用于

刚性区域中的流预测[60，65，68，48]，或者用于视图合成以使用单

眼视频训练深度模型[73]。可以结合诸如表面法线[67]、边缘[66]、物

理约束[59]的附加线索以进一步提高性能。

这些方法利用结构和运动之间的固有几何关系。然而，由深度或

相机姿态估计产生的误差我们的关键见解是，对于刚性区域，估计的

流量（来自流量预测网络）和合成的刚性流量（来自深度和相机姿态

网络）应该是一致的。因此，耦合训练允许深度和流量网络相互学

习，并强制执行场景的几何一致性预测。

结构源于运动。从给定场景的多个图像联合估计结构和相机姿

态是一个长期存在的问题[46，15，64]。常规方法可以通过关键点

跟踪/匹配来恢复（半）密集深度估计和相机姿态这些算法的输出

可以潜在地用于帮助训练流网络，而不是相反。我们的工作有所

不同，因为我们也对学习深度网络从单个输入图像中恢复密集结

构感兴趣

多任务学习。通过多任务学习同时处理多个任务[52]已经显示出优

于处理单个任务的方法[70]。例如，通过分层模型[6，56]或特征共享

[9]对视频分割和光流进行联合学习单视图深度模型学习也可以受益于

与表面法线估计[35，67]或语义分割[13，30]的联合训练。

我们的方法解决了学习

深度

和流量模型的问题。与现有的多任务学习

方法不同，这些方法通常需要使用每个任务的

真实

训练

数据进行

直接监

督

，我们的方法利用

元监督

来耦合

深度

和流量模型

的

训练虽然我们的模

型是联合训练的，但它们可以在测试时独立应用

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督学习：跨任务一致性提升深度预测与光流估计

无监督学习方法以及应用

在无监督学习环境下，如何通过几何约束实现深度预测和光流估计的跨任务一致性损失计算？

Python-MonoDepthPyTorchPyTorch无监督单目深度估计

Python-用于训练和测试深度估计模型的参考PyTorch实现

基于深度学习的视觉运动估计与理解

【图像处理高手进阶】：掌握OpenCV这5大技术，不再误判图像内容有效性

026-SVM用于分类时的参数优化，粒子群优化算法，用于优化核函数的c,g两个参数(SVM PSO) Matlab代码.rar

铅酸电池失效仿真comsol

小程序项目-基于微信小程序的童心党史小程序（包括源码，数据库，教程）.zip

小程序项目-基于微信小程序的新生报到系统（包括源码，数据库，教程）.zip

最新资源