无监督深度学习：GyroFlow——融合陀螺仪的光流改进

PDF格式 | 4.56MB | 更新于2025-01-16 | 23 浏览量 | 举报

本文探讨了一种创新的无监督光流学习方法，名为GyroFlow，针对计算机视觉中的关键任务——光流估计。传统光流方法在遇到挑战性场景，如雾、雨和夜晚，由于光照和梯度的不稳定性而表现不佳。GyroFlow的核心在于将陀螺仪数据引入光流学习，以增强对光照变化和纹理缺失情况下的鲁棒性。首先，研究者提出将陀螺仪读数转换为一个表示运动状态的场，即“陀螺仪场”。这种方法突破了光流假设的局限，使得网络能够利用陀螺仪提供的角度速度信息，即使在低纹理或光照变化的环境中也能捕捉到相对稳定的运动特征。其次，文章设计了一个自导引融合模块，该模块能有效融合陀螺仪场中的背景运动信息与传统的光流场。这种融合策略引导网络更加关注运动细节，从而提高估计的精度。GyroFlow是首个基于深度学习的框架，同时结合了图像内容和陀螺仪数据，为光流学习提供了新的可能性。为了验证GyroFlow的有效性，研究者开发了一个包含常规场景和复杂场景的新数据集，进行了严格的实验对比。结果显示，无论在常规还是具有挑战性的环境下，GyroFlow都能显著优于现有的无监督光流学习方法，如ARFlow。由于其在无需依赖图像纹理和光照一致性的情况下依然表现出色，GyroFlow对于低光、动态变化环境中的视觉任务具有明显优势。此外，GyroFlow的潜力还体现在其在物体跟踪、视觉 odom-etry 和图像对准等领域的广泛应用。尽管当前基于深度学习的方法在有标签的数据集上表现良好，但GyroFlow的无监督特性使其能够在更广泛的现实世界场景中展现出实际价值。总结来说，GyroFlow通过集成陀螺仪信息，提供了一种增强型的光流学习方法，不仅提升了在复杂光照和纹理条件下的性能，而且为未来在计算机视觉领域结合多种传感器数据提供了新的研究方向。感兴趣的读者可以在<https://github.com/megvii-research/GyroFlow>获取代码和数据集。

12871

∈

一

该方法将模糊图像转化为清晰图像，并对模糊图像的特征

，

和融合结果

−

进行处理

b ab

浓雾场景[46]。在本文中，我们建立我们的Gy-roFlow

上的无监督组件与融合的陀螺仪，以涵盖常规和具有

挑战性的场景。

2.3.

基于陀螺的运动估计

Hwangbo

等人

提出了一种惯性辅助KLT特征跟踪方

法，用于处理摄像机滚动和照明变化[14]。 Bloesch

等

人

提出了一种用于融合光流和惯性测量以进行鲁棒自

我运动估计的方法[2]。Li

等人

提出了一种陀螺辅助光

流估计方法，以提高快速旋转下的性能 [27]。具体

地，它们产生忽略前景运动的稀疏光流然而，他们都

没有考虑到具有挑战性的场景，也没有使用神经网络

来融合陀螺仪数据以改善光流。在这项工作中，包括

产生密集的光流并考虑卷帘快门效应，我们提出了一

种基于DNN的解决方案，该解决方案将陀螺仪数据融

合到基于图像的流中以改善光流估计。

算法

我们的方法建立在卷积神经网络上，该卷积神经网

络输入陀螺仪场G

和两个帧

、

以估计前向光流

，该前向光流

V ab

将每个像素从

朝向

的运动描述为：

（

，

）

，

（

）

哪里是参数为θ的网络。

图2示出了我们的流水线。首先，陀螺仪场

Gab

由相

对帧

和

之间的陀螺仪读数产生（第二节）。3.1），

然后将其与要馈送到网络中的两个帧级联，以产生

和

之间的光流

Vab

。我们的网络由两个阶段组成。对于

第一阶段，我们提取不同尺度的特征对。对于第二阶

段，我们使用解码器

和自引导融合模块

SGF

（Sec.

3.2）以粗到细的方式产生光流。

我们的解码器D与UPFlow [36]相同，其由特征扭曲

[42]、成本体积构造[42]、成本体积归一化[19]、自引

导上采样[36]和参数共享[13]组成总之，第二金字塔解

码阶段可以被公式化为：

−

SGF

。

，

−

，

−

，

作为输入和输出流

。具体地，输出流在最后一层处

被直接上采样。接下来，我们首先描述如何将陀螺仪

读数转换为第二节中的陀螺仪场。3.1，然后在第2节

中介绍我们的SGF模块3.2.

3.1.

陀螺场

我们从广泛可用且易于访问的移动电话获得陀螺仪

读数。对于移动电话，陀螺仪反映相机旋转。我们计

算旋转复合陀螺仪读数，包括3轴角速度和时间戳。特

别是，与以前从API读取陀螺仪读数的工作[21，24，

39]相比，我们直接从Android架构的HAL读取它们，

以避免对陀螺仪精度至关重要的重要同步问题在帧

和

之间，根据方法[21]计算旋转向量 n

（ω

，

）

，然后由Rodrigues公式[5]产生旋转矩阵R（t）

SO（3）

在全局快门相机的情况下，例如，对于针孔相机，

仅旋转单应性可以被计算为：

（

）=

（

）

−

，

（3

）

其中，

是相机固有矩阵，

表示从第一帧

到第二

帧

的时间，并且

（

）表示从

到

的相机旋转。

对于大多数移动电话采用的滚动快门相机，图像的

每个扫描线在稍微不同的时间曝光，如图3所示。因

此，Eq。公式（3）不再适用，因为图像的每一行都应

该具有不同的取向。在实践中，不需要为每一行分配

旋转矩阵。我们将几个连续的行分组为一个行补丁，

并为每个补丁分配一个旋转矩阵。行补丁的数量取决

于每帧陀螺仪读数的数量。

这里，帧I的第n行与帧I

的

第

并且

可以被建模为：

（

）

（

）

（

）

−

，

（

）

其中n是行块的索引，

（t）表示从

到

的

第n行块的

单应性，并且R（t

）R（t

）可以通过累积从t

到t

的

旋转矩阵来计算。

在我们的实现中，我们将图像重新分组为

。

，

−

，

计算单应性阵列的

个贴片包含-

其中

表示金字塔层级的数目，

、

是

跳转此外，为了避免跨行的不连续性

在第i个金字塔级从

和

提取特征

在第

层中，

SGF

从第

层获取图像特征

、

。

贴片，我们将单应性阵列转换为4D四元数阵列[48]，

然后应用球面线性

特征金字塔，解码器

的输出V

-1

最后一层和下标度陀螺仪场

i−

作为输入，然后

它

产生一个融合结果

−

，该

结果

被馈送到

。的

插值（SLERP）来平滑地插值相机取向，从而产生平

滑的单应如图3所示，我们使用单应性阵列来变换每个

（

二

）

ing14两个连续单应性之间的水平单应性

剩余11页未读，继续阅读

cpongm

粉丝: 6

无监督深度学习：GyroFlow——融合陀螺仪的光流改进

光流法在车载陀螺仪偏差补偿中的应用研究

学习陀螺仪应用：简易水平仪制作指南

陀螺仪引导的DeepOIS技术在CVPR 2021展示图像稳定解决方案

陀螺仪选型陀螺仪陀螺仪选型型陀螺仪选型

mpu6050陀螺仪使用方法.docx mpu6050陀螺仪使用方法

DeepOIS：CVPR 2021：DeepOIS：陀螺仪引导的深光学图像稳定器补偿

三轴陀螺仪 陀螺仪

网络游戏-基于神经网络上界学习的微陀螺仪鲁棒自适应控制方法.zip

陀螺仪的数据采集与滤波算法.zip_stm32_数据滤波_陀螺仪_陀螺仪数据_陀螺仪滤波

MEMSNEW_matlabIMU滤波_陀螺仪_卡尔曼陀螺_陀螺仪滤波_陀螺仪噪声_

最新资源

三轴陀螺仪陀螺仪