DCVNet:实时光流估计的新方法

PDF格式 | 1.83MB | 更新于2025-01-16 | 187 浏览量 | 0 下载量 举报
收藏
"DCVNet:扩张成本体积网络是一种新的快速光流估计模型,旨在解决光流估计中的计算效率问题。该模型由东北大学和马萨诸塞大学的研究者提出,通过构建不同膨胀因子的成本卷来同时处理小位移和大位移,从而减少了计算负担。与传统的粗到细或递归处理方式不同,DCVNet采用一次性前馈处理,不需要顺序处理策略,能够在中端1080ti GPU上实现30fps的实时推理速度,同时保持与现有方法相当的精度。" 光流估计是计算机视觉领域的一个基础任务,旨在找出连续视频帧间像素的运动轨迹。自20世纪80年代以来,光流估计已经历了多种方法的发展,从早期的物理模型到现在的深度学习技术。深度神经网络的引入显著提升了光流估计的性能,但同时也带来了计算复杂度的增加,导致推理速度变慢。 为了解决这一问题,研究者们开始将传统的优化方法与深度学习结合。成本体积是其中一种关键的表示方法,它能有效地编码像素间的相似性,用于寻找最佳对应。然而,处理大位移时,需要较大的邻域半径,这会增加计算成本。DCVNet的创新之处在于它构建了不同膨胀因子的成本体积,通过这种方式,模型能够同时考虑短距离和长距离的像素运动,而无需进行多次的精细处理。 在DCVNet中,膨胀的成本体积通过关联转换成所有可能位移的插值权重,进而得到光流估计。模型结构基于U-Net,通过膨胀操作(dilation)来扩大感受野,而不需要增加网络深度或宽度,从而减少了计算资源的消耗。此外,通过一次性前馈处理,DCVNet避免了递归或序列处理的需要,提高了运行效率。 与PWC-Net和RAFT等代表性方法对比,DCVNet在保持相似精度的同时,实现了更快的推理速度。这使得DCVNet在实时应用如场景流估计、动作识别和视频编辑等领域具有潜力。尽管深度学习方法在光流估计上的表现不断改善,但如何在保证精度的同时优化计算效率仍然是一个重要的研究方向。DCVNet的提出为这一挑战提供了一个有效的解决方案。

相关推荐