没有合适的资源?快使用搜索试试~ 我知道了~
12869GyroFlow:陀螺仪引导的无监督光流学习Haipeng Li1Kunming Luo1Shuaicheng Liu2,1*1旷视科技2电子科技大学{李海鹏,罗坤明}@ megvii.com,liushuaicheng@uestc.edu.com摘要现有的光流方法是错误的,在挑战性的场景,如雾,雨,和夜晚,因为基本的光流假设,如亮度和梯度恒定性被打破。为了解决这个问题,我们提出了一种无监督的学习方法,融合gyroscope到光流学习。具体来说,我们首先将陀螺仪读数转换成运动场,称为陀螺仪场。第二,我们设计了一个自导引融合模块,将从陀螺场中提取的背景运动与光流场进行融合,引导网络聚焦(a)输入帧(c)地面实况(b)ARFlow(d)我们运动细节。据我们所知,这是第一个基于深度学习的框架,它融合了陀螺仪数据和图像内容,用于光流学习。为了验证我们的方法,我们提出了一个新的数据集,涵盖了规则和具有挑战性的场景。实验结果表明,该方法在常规场景和复杂场景中均优于现有方法 。 代 码 和 数 据 集 可 在 https://github.com/megvii-research/GyroFlow获得。1. 介绍光流估计是一项基本但必不可少的计算机视觉任务,其已广泛应用于各种应用中,例如对象跟踪[1]、视觉odom-etry [4]和图像对准[23]。Horn和Schunck [10]提出了光流场的原始公式,此后光流场估计算法的精度得到了稳步提高。早期的传统方法在各种假设和约束下最小化预定义的能量函数[35]。基于深度学习的方法通过卷积神经网络直接学习每像素回归,可以分为监督[6,40,43]和无监督方法[41,36]。由于缺乏地面真实标签,前一种方法主要在合成数据[6,3*通讯作者图1. (a)输入低光帧。(b)现有基线方法ARFlow的光流结果[30]。(c)地面实况(d)来自我们的GyroFlow。相比之下,后者可以通过最小化两个图像之间的光度损失来在丰富且多样的未标记数据上进行训练。虽然现有的方法取得了很好的效果,但它们依赖于图像内容,要求图像包含丰富的纹理和相似的光照条件。另一方面,陀螺仪不依赖于图像内容,其提供可以转换为3D运动的滚动、俯仰和偏航方面的角速度,广泛用于系统控制[26]和移动设备的HCI [8]。在所有潜在的可能性[2,27,14]中,一个是融合用于运动估计的陀螺仪数据。Hwangbo等人提出融合陀螺仪以提高KLT特征跟踪的鲁棒性[14]。Bloesch等人融合陀螺仪进行自我运动估计[2]。这些尝试表明,如果陀螺仪正确集成,则可以大大提高该方法的性能和鲁棒性。给定摄像机内部参数,陀螺仪读数可以被转换成运动场来描述背景运动,而不是动态对象运动,因为它被限制为摄像机运动。吸引人的是,陀螺仪不需要图像内容,但在较差的纹理或纹理的条件下仍然产生可靠的背景相机运动。12870动态场景因此,陀螺仪可以用来改善光流估计的性能,在challenging场景,如纹理差或不一致的照明条件。在本文中,我们提出了GyroFlow,陀螺仪引导的无监督光流估计方法。我们结合了基于图像的光流的优点,恢复运动细节的基础上的图像内容与陀螺仪,提供可靠的背景摄像机运动独立的图像内容。具体来说,我们首先将陀螺仪读数转换为陀螺仪场,该陀螺仪场描述给定图像坐标和相机固有的背景运动。其次,我们估计光流与无监督的学习框架,并插入一个建议的Self-Guided融合(SGF)模块,支持融合的陀螺场在基于图像的流量计算。图1示出了一个示例,其中图1(a)表示具有较差图像纹理的夜景的输入,并且图1(c)是两个帧之间的地面实况光流。基于图像的方法,如ARFlow [30](图1(b))可以产生动态对象运动,但无法计算天空中的背景运动,其中没有纹理可用。图1(d)示出了我们的GyroFlow融合结果。如图所示,全局运动和运动细节都可以被保留。从实验中,我们注意到,运动细节可以更好地恢复,如果提供全局运动。为了验证我们的方法,我们提出了一个数据集GOF(陀螺仪光学Flow),包含4个不同类别的场景,同步陀螺仪读数,包括一个规则的场景(RE)和三个具有挑 战 性 的 情 况 下 , 低 光 场 景 ( 黑 暗 ) , 雾 场 景(雾),和下雨的场景(雨)。对于定量评估,我们进一步提出了一个测试集,通过广泛的努力,该测试集包括方法[29]的准确光流标签。请注意,由于缺少陀螺仪读数,现有流量数据集(如Sintel [3]、KITTI[7,38])无法用于评估。总而言之,我们的主要贡献是:• 我们提出了第一个基于DNN的框架,将陀螺仪数据融合到光流学习中。• 提出了一种自引导融合模块,有效地实现了陀螺仪与光流场的融合。• 我们提出了一个数据集的评估。实验结果表明,该方法优于现有方法。2. 相关工作2.1. 基于陀螺仪的视觉应用陀螺仪反映相机旋转。配备有陀螺仪的许多应用已经被广泛应用,包括但不限于视频稳定[21]、图像去模糊[39]、光学图像稳定器(OIS)[25]、同时定位和映射(SLAM)[11]、自我运动估计[2]、基于手势的用户认证[14]、基于手势的用户认证[15]、基于手势的用户认证[16]、基于手势的用户认证[17]、基于手势的用户认证[18]、基于手势的用户认证[19]、基于手势的用户认证[在移动设备上[9],与OIS校准[33]和人类步态识别[49]的图像对准。陀螺仪在移动电话中很重要。陀螺仪读数和视频帧之间的同步是重要的。Jia等人 [18]提出了陀螺仪校准以改善同步。Bloesch等人 [2]融合了光流和惯性测量来处理漂移问题。在这项工作中,我们从Android 布 局 的 底 层 获 取 陀 螺 仪 数 据 硬 件 抽 象 层(HAL),以实现精确的同步。2.2. 光流我们的方法是与光流估计。传统方法最小化图像对之间的能量函数以计算光流[35]。最近的深度方法可以分为监督[6,40,43]和无监督方法[41,36]。监 督 方 法 需 要 标 记 的 地 面 实 况 来 训 练 网 络 。FlowNet [6]首先提出在合成数据集FlyingChairs上训练完全为了处理大位移场景,SpyNet [40]介绍了一种由粗到细的金字塔网络。PWC-Net [42],LiteFlowNet[12],IRR-PWC [13]通过扭曲特征,计算成本体积,并引入残差学习以进行具有共享权重的迭代优化来设计轻量级和高效的网络最近,RAFT [43]通过构建像素级相关体积并使用递归网络来估计光流,实现了最先进的性能。无监督方法不需要地面实况注释。DSTFlow [41]和Back2Basic [17]是无监督光流估计的首选。几项工作[37,31,44,30]专注于通过向前-向后遮挡检查、范围图遮挡检查、数据蒸馏和增强正则化损失来处理遮挡问题。其他方法通过改善图像对齐来集中于光流学习,包括普查损失[37],多帧的制定[16],极线约束[51],深度约束[47],特征相似性约束[15]和遮挡修复[34]。UFlow [19]提出了一个统一的框架来系统地分析和集成不同的无监督组件。最近,UP-Flow [36]提出了神经上采样模块和金字塔蒸馏损失,以改善金字塔网络的上采样和学习,实现最先进的性能。然而,上述方法在挑战场景下可能不能很好地工作,诸如黑暗、雨和雾环境。Zheng等人提出了一种数据驱动的方法,该方法建立了一个噪声模型,以从低光图像中学习光流[50]。Li等人提出了一种RainFlow,它包括两个模块,分别处理雨幕效应和雨条纹效应,以在大雨中产生光流[28]。Yan等人提出了一种半监督网络12871F∈∈ABABABABAB一BABABAB一BAB该方法将模糊图像转化为清晰图像,并对模糊图像的特征Fi,Fi和融合结果Vi−1进行处理ab ab浓雾场景[46]。在本文中,我们建立我们的Gy-roFlow上的无监督组件与融合的陀螺仪,以涵盖常规和具有挑战性的场景。2.3. 基于陀螺的运动估计Hwangbo等人提出了一种惯性辅助KLT特征跟踪方法,用于处理摄像机滚动和照明变化[14]。 Bloesch等人提出了一种用于融合光流和惯性测量以进行鲁棒自我运动估计的方法[2]。Li等人提出了一种陀螺辅助光流估计方法,以提高快速旋转下的性能[27]。具体地,它们产生忽略前景运动的稀疏光流然而,他们都没有考虑到具有挑战性的场景,也没有使用神经网络来融合陀螺仪数据以改善光流。在这项工作中,包括产生密集的光流并考虑卷帘快门效应,我们提出了一种基于DNN的解决方案,该解决方案将陀螺仪数据融合到基于图像的流中以改善光流估计。3. 算法我们的方法建立在卷积神经网络上,该卷积神经网络输入陀螺仪场Gab和两个帧Ia、Ib以估计前向光流Vab,该前向光流V ab将每个像素从Ia朝向Ib的运动描述为:Vab=Fθ(Gab,Ia,Ib),(1)哪里是参数为θ的网络。图2示出了我们的流水线。首先,陀螺仪场Gab由相对帧Ia和Ib之间的陀螺仪读数产生(第二节)。3.1),然后将其与要馈送到网络中的两个帧级联,以产生Ia和Ib之间的光流Vab。我们的网络由两个阶段组成。对于第一阶段,我们提取不同尺度的特征对。对于第二阶段,我们使用解码器D和自引导融合模块SGF(Sec.3.2)以粗到细的方式产生光流。我们的解码器D与UPFlow [36]相同,其由特征扭曲[42]、成本体积构造[42]、成本体积归一化[19]、自引导上采样[36]和参数共享[13]组成总之,第二金字塔解码阶段可以被公式化为:Vi−1=SGF。F i,F i,Vi−1,Gi−1Σ,作为输入和输出流Vi。具体地,输出流在最后一层处被直接上采样。接下来,我们首先描述如何将陀螺仪读数转换为第二节中的陀螺仪场。3.1,然后在第2节中介绍我们的SGF模块3.2.3.1. 陀螺场我们从广泛可用且易于访问的移动电话获得陀螺仪读数。对于移动电话,陀螺仪反映相机旋转。我们计算旋转复合陀螺仪读数,包括3轴角速度和时间戳。特别是,与以前从API读取陀螺仪读数的工作[21,24,39]相比,我们直接从Android架构的HAL读取它们,以避免对陀螺仪精度至关重要的重要同步问题在帧Ia和Ib之间,根据方法[21]计算旋转向量n=(ωx,ωy,ωz)R3,然后由Rodrigues公式[5]产生旋转矩阵R(t)SO(3)在全局快门相机的情况下,例如,对于针孔相机,仅旋转单应性可以被计算为:H(t)=KR(t)K−1,(3)其中,K是相机固有矩阵,t表示从第一帧Ia到第二帧Ib的时间,并且R(t)表示从Ia到Ib的相机旋转。对于大多数移动电话采用的滚动快门相机,图像的每个扫描线在稍微不同的时间曝光,如图3所示。 因此,Eq。公式(3)不再适用,因为图像的每一行都应该具有不同的取向。在实践中,不需要为每一行分配旋转矩阵。我们将几个连续的行分组为一个行补丁,并为每个补丁分配一个旋转矩阵。行补丁的数量取决于每帧陀螺仪读数的数量。这里,帧I的第n行与帧I的第n并且Ib可以被建模为:Hn(t)=KR(tb)R(ta)K−1,(4)其中n是行块的索引,Hn(t)表示从Ia到Ib的第n行块的单应性,并且R(tb)R(ta)可以通过累积从ta到tb的旋转矩阵来计算。在我们的实现中,我们将图像重新分组为Vi=D。F i,F i,Vi−1Σ,计算单应性阵列的14个贴片包含-其中i表示金字塔层级的数目,Fi、Fi是跳转此外,为了避免跨行的不连续性aB在第i个金字塔级从Ia和Ib提取特征在第i层中,SGF从第i层获取图像特征Fi、Fi。贴片,我们将单应性阵列转换为4D四元数阵列[48],然后应用球面线性aB特征金字塔,解码器D的输出Vi-1最后一层和下标度陀螺仪场G i−1作为输入,然后它产生一个融合结果Vi−1,该结果被馈送到D。的插值(SLERP)来平滑地插值相机取向,从而产生平滑的单应如图3所示,我们使用单应性阵列来变换每个(二)ing14两个连续单应性之间的水平单应性12872ABABABABAB场iGABABAB一BABABABABABAB~⊙D:解码器模块SGF:融合模块向上:双线性上采样DSGFDSGFDSGFDSGFD起图2.我们的算法概述。它由一个金字塔编码器和一个金字塔解码器。对于每对帧Ia至Ib,我们的编码器以不同尺度提取特征解码器包括两个模块,在每一层l,SGF用于融合陀螺场Gl以及光流V1以产生融合流Vl作为D的输入,D估计到下一层的光流图3.陀螺场产生流水线。给定时间戳tla和tlb,陀螺仪读数可以被读出以计算旋转矩阵的阵列R =(R1. . . Rn)T. 然后,我们将旋转数组转换为投影的像素p的单应性数组将第一个图像转换为p′,产生陀螺场Gab。像素p到p’,并且从p减去p’为:图4.我们的自导融合模块(SGF)的插图。对于特定层i,我们使用2个块来独立地产生p′=H(n)p,(u,v)=p′−p,(5)融合图Mi和融合流Oi,然后我们生成计算每个像素的偏移产生陀螺场Gab。3.2. 自导式融合模块输出V~ iAB由等式六、以及光流Vi到融合块将融合流Oi . 最后,我们融合了Gi和Oi如图1所示:图1(a)表示输入图像。AB关于MiAB AB图1(b)是ARFlow [30]的输出,ARFlow [ 30 ]是一种无监督的光流方法,其中只有运动的运动引导网络聚焦移动前沿地面区域。该过程可以描述为:粗糙地产生物体。作为基于图像的光学流方法依赖于图像内容进行配准,但它们在具有挑战性的场景中容易出错,例如V~ i =Mi⊙O+。1−MiΣ⊙Gi、(6)无纹理场景、浓雾环境[46]、黑暗[50]和雨天场景[28]。图1(c)表示地面实况。为了结合陀螺场和基于图像的光流的优点,我们提出了一种自引导融合模块(SGF)。在图1(d)中,使用陀螺仪场,我们的结果比ARFlow [30]好得多。我们的SGF的架构如图所示4.第一章给定第i层的图像Ia和Ib的输入特征为Fi和Fi。Fi被陀螺场Gi扭曲,这是因为-其中Vi是我们的SGF模块的输出,并且表示元素乘法器。4. 实验结果4.1. 数据集用 于 光 流 估 计 和 评 价 的 代 表 性 数 据 集 包 括FlyingChairs [6] 、 MPI-Sintel [3] 、 KITTI 2012 [7] 和KITTI 2015 [38]。在陀螺仪侧,嵌入陀螺仪的专用数据集,名为baab从特征Fi流向Fi。然后,针对单应性估计提出了扭曲特征 GF4 [33]。aB与Fi级联作为映射块的输入,产生-然而,它们中没有一个组合精确的陀螺仪读数-对融合图M执行范围从0到1。注意,在与图像内容的环,以评估光流。在那里-Mi,可以与陀螺场对准的那些背景区域接近于零,而其余区域以不同的权重分布。接下来,我们输入陀螺仪....经纱融合块映射块保险我AB12873因此,我们提出了一个新的数据集和基准:GOF 与GF4 [33]类似,使用手机记录一组具有陀螺仪读数相比12874∼×个×个×个∼RE暗雾雨图5.查看我们的评估集。它可以分为4类,包括常规场景(RE),低光场景(Dark),雾场景(Fog)和雨天场景(Rain)。每个类别包含70对,总共280对评估数据集与同步陀螺仪读数一起提出。到GF4,它使用带有OIS摄像头的手机。我们谨慎地选择非OIS相机手机,以消除OIS模块的影响。我们收集4种不同环境下的视频,包括常规场景(RE)、低光场景(黑暗)、雾场景(雾)和雨天场景(雨)。对于每个场景,我们记录一组持续60秒的视频,在每个环境下产生1800我们总共为训练集收集了5000为了评估,类似于训练集,我们在4个场景中捕获视频以与基于图像的配准方法进行比较每个类别包含70对,产生280对评估集。图5示出了一些示例。对于定量评估,每对都需要地面实况光流然而,标记地面实况流是不平凡的。据我们所知,没有强大的工具是可利用的这项任务。在[28,46]之后,我们采用最相关的方法[29]来标记地面实况流许多努力。它的成本约为20 - 30分钟,每张图像,特别是具有挑战性的场景。我们首先标记500个包含刚性物体的示例,然后选择具有良好视觉性能的示例,即,图像对准的性能,并丢弃其它性能。此外,我们细化选定的样本与详细的修改,阳离子周围的运动边界。为了验证我们标记的光流的有效性,我们选择标记来自KITTI 2012 [7]的几个样本考虑到地面事实,我们将我们的标记光流与由最先进的监督方法产生的结果进行比较,即, RAFT [43]在FlyingChairs上预先训练。我们的标记流计算端点误差(EPE)为0。7,其中RAFT计算EPE为2。4,比我们的大3倍多。图6示出了一个示例。如误差图所示,我们的标记流比当前SOTA方法准确得多。我们利用这种方法来生成用于评估的地面实况。4.2. 实现细节我们在GOF数据集上进行了实验。我们的方法建立在PWC-Net [42]上。对于第一阶段,我们在没有遮挡遮罩的情况下训练我们的模型100k步。对于第二阶段,我们启用双向occlu-图6.KITTI 2012上的一个标签示例[7],与RAFT[43](第二行)计算EPE等于2。6,我们的标签流(第一行)产生0。72EPE。从误差图中,我们注意到我们标记的光流要准确得多。Sion mask [37]、普查损失[37]和空间变换[30]以微调模型约300k步。我们收集视频与陀螺仪读数使用Qual-comm QRD配备了Snapdragon 7150,它可以录制600800分辨率的视频。我们在训练中添加随机裁剪、随机水平翻转和随机天气修改(添加雾和雨[20])我们在评估集中报告终点误差(EPE)实现是在PyTorch中,并且使用一个NVIDIA RTX 2080 Ti来训练我们的网络。我们使用Adam优化器[22],参数设置为LR=1。010−4,β1=0。9,β2=0。九九九ε=1。010-7 批量大小为4。 完成整个培训过程需要3天时间。在一个单个1080ti上,生成光流的时间是每帧58ms。与以前的工作[19,36]相同,我们使用光度损失和平滑项来训练网络。4.3. 与基于图像的方法的在这一节中,我们将我们的方法与传统的,监督的和无监督的方法在GOF评估集上进行了比较。4.3.1)和定性比较(第4.3.2)。为了验证关键部件的有效性,我们在第二节进行了消融研究。4.44.3.1定量比较在表1中,最好的结果用红色标记,第二好的结果用蓝色标记。括号中的百分比表示相对于次佳结果的改进因此,最佳结果的百分比为负。第二个最好的是全零,而其他的是积极的。‘对于传统方法,我们将我们的GyroFlow与在Sintel[3]上预训练的DIS [23]和DeepFlow [45]进行比较(表1,3 4)。如图所示,它们的平均EPE比我们的大4倍。特别是,DIS在有雾的场景中失败,DeepFlow在下雨的场景中崩溃。此外,我们尝试实现传统的基于陀螺仪的光流法[27],因为没有从作者那里收到回复。由于缺乏实施细节,我们没有得到合理的结果,因此没有报告。接下来,我们与深度监督光流进行比较12875∼∼图7.我们的方法与陀螺仪场,ARFlow [30]和UFlow [19]在GOF评估集上的视觉比较。对于前3个具有挑战性的情况下,我们注意到,我们的方法通过融合来自陀螺仪场的背景运动和来自光流的运动细节来实现令人信服的结果。对于最后一个示例,在常规场景中,融合陀螺仪场有助于光流的学习,其中网络在对象的边界周围产生准确和尖锐的流。方法,包括FlowNet 2 [6]、IRRPWC [13]、SelF-low[32]和最近的最新技术方法RAFT [43](表1,第58行)。由于在训练过程中缺乏地面实况标签,我们无法在训练集上改进这些方法因此,对于每种方法,我们搜索不同的预训练模型,并在评估集上对其我们只报告最好的在FlyingChairs [6]上预先训练的RAFT表现最好,但仍然不如我们的好。我们还将我们的方法与深度无监督光流方法进行了比较,包括DDFlow [31],UnFlow [37],ARFlow [30]和UFlow [19](表1,9第12段)。在这里,我们在训练集上优化模型。UFlow实现了3个第二好的结果。但是,由于在具有挑战性的场景中表现不稳定,它仍然无法与我们的相媲美如第2,RainFlow [28]旨在评估雨天场景下的光流。FogFlow [46]旨在雾环境,DarkFlow [50]旨在来计算低光照场景下的流量。我们还比较了这些方法。请注意,所有这些方法都不是开源的。对于DarkFlow [50] , 作 者 没 有 提 供 源 代 码 , 但 提 供 了FlyingChairs上的预训练版本,结果在表1中的第13行报告。对于其他两种方法[28,46],没有收到作者的答复我们尝试实现它们,但由于一些实现细节的不确定性,结果并不令人满意因此,结果未在表1中示出。我们发现我们的GyroFlow模型在所有场景中都是鲁棒的,并且计算出0。717 EPE错误,即26。平均比第二好的方法好46%。值得注意的是,对于为了进一步与监督方法进行比较,我们12876方法RE黑暗雾雨Avg1)I3×34.962(+457.53%)3.278(+228.13%)7.358(+643.23%)5.567(+425.68%)5.665(+481.03%)2)陀螺场2.583(+190.22%)0.999(+0.00%)1.279(+29.19%)1.703(+60.81%)1.922(+97.13%)3)DIS [23]2.374(+166.74%)2.442(+144.44%)4.677(+372.42%)3.004(+183.66%)3.399(+248.62%)4)[45]第四十五章:我的心3.521(+295.62%)3.425(+242.84%)3.029(+205.96%)11.812(+1015.39%)4.858(+398.26%)5)[3]第六届全国政协委员11.140(+1151.69%)44.641(+4368.57%)2.633(+165.96%)5.767(+444.57%)6.701(+587.28%)6)[13]第六届全国人大代表选举12.487(+1303.03%)69.864(+6893.39%)1.916(+93.54%)9.799(+825.31%)8.234(+744.51%)7)[32]第三十二话4.186(+370.34%)2.747(+174.97%)7.307(+638.08%)4.787(+352.03%)5.626(+477.03%)8)[43]第四十三话1.246(+40.00%)1.297(+29.83%)1.136(+14.75%)1.187(+12.09%)1.349(+38.36%)9)DDFlow [31] -GOF2.273(+155.39%)2.843(+184.58%)3.070(+210.10%)2.422(+128.71%)2.527(+159.18%)10)[37]第三十七话1.120(+25.84%)1.671(+67.17%)0.990(+0%)1.343(+26.53%)1.221(+25.13%)11)ARFlow [30] -GOF0.972(+9.21%)1.205(+20.62%)1.186(+19.80%)1.093(+3.21%)1.035(+6.15%)12)UFlow [19] -GOF0.890(+0.00%)1.641(+64.26%)0.994(+0.40%)1.059(+0.00%)0.975(+0.00%)[50]第六届中国国际纺织品博览会4.127(+363.71%)4.346(+335.04%)7.316(+638.99%)4.891(+361.85%)5.758(+490.56%)14)我们的0.742(−16.63%)0.902(-9.71%)0.658(-33.54%)0.730(-31.07%)0.717(-26.46%)表1.评价数据集的定量比较。我们用红色标记最佳性能,用蓝色标记第二好。括号中的百分比表示相对于次佳结果的改进我们使用将评估集扩展到400对,然后将其分为两部分,GOF-clean(用于训练)和GOF-final(用于测试)。我们在Flying- ingChairs [6]上预训练监督方法,然后在GOF-clean上对其进行微调。我们还在GOF-clean上微调UFlow [19]和GyroFlow。GOF-最终评价结果见表2。如所见,对于无监督方法,我们比UFlow更好。对于监督方法,我们优于FlowNet2 [6]和假设无监督光流方法[31,30,19]在给定足够纹理的RE场景中工作良好。然而,我们注意到,即使对于RE类别,我们的方法优于其他方法,特别是在运动边界。在陀螺场的帮助下,解决了全局运动,网络可以专注于具有挑战性的区域。其结果是,我们的方法仍然实现了更好的视觉质量,并产生较低的EPE错误在RE的情况下。IRRPWC [13]。RAFT [43]平均达到最佳水平请注意,监督方法在整个训练过程中有标签指导,而我们没有。表2. GOF最终比较(200对)。我们使用4.3.2定性比较在图7中,我们示出了评估集上的定性结果。我们为四个不同场景中的每一个选择一个示例,包括低光场景(暗)、雾场景(雾)、雨天场景(雨)和常规场景(RE)。为了比较方法,我们选择了陀螺仪场和2种最近的无监督方法,即,[30]和UFlow [19],它们在我们的训练集上进行了细化。图在图7中,我们示出了光流以及相应的误差图,并且还报告了每个示例的EPE误差。如图所示,对于挑战情况,我们的方法可以将来自陀螺仪场的背景运动与来自基于图像的光流的动态对象的运动融合,从而提供更好的视觉质量和更低的EPE误差。方法RE黑暗雾雨AvgDWI3.773.155.594.244.38DPGF0.951.671.320.890.98SGF保险丝0.720.990.990.940.80SGF-Map1.071.021.190.700.90SGF-密集0.771.690.871.000.89无SGF的0.791.711.351.060.95我们的SGF0.740.900.660.730.72模型RE黑暗雾雨AvgFlowNet2 [6] -GOF-clean0.674.745.213.733.36IRRPWC [13] -GOF-清洁0.645.005.004.403.62RAFT [43] -GOF-清洁0.141.200.881.330.74UFlow [19] -GOF-clean0.723.541.503.512.37我们0.642.500.553.031.7812877表3.与SGF模块的替代设计的比较4.4. 消融研究为了评估每个模块的设计的有效性,我们在评估集上进行消融实验。EPE误差报告在5个类别下,包括黑暗,雾,雨和RE,以及平均误差。4.4.1SGF的设计对于SGF,我们测试了几种设计,并在表3中报告了结果。首先,采用两种简单的方法来构建模块。DWI是指直接用陀螺场对Ia进行扭曲,然后将扭曲后的图像和Ib输入,产生一个残余光流场。DPGF表示,对于每个金字塔层,我们直接将陀螺仪场添加到光流上。如表3所示,对于DWI,结果不佳。除了训练时没有陀螺仪制导外,另一种可能性是翘曲操作--12878图8.我们的自引导融合模块(SGF)的可视化示例。示出了UFlow和具有SGF的UFlow的结果。融合图用于引导网络聚焦于运动细节。无流量[37] + SGF 0.83 1.33 0.94 0.94 0.90ARFlow [30] 0.97 1.21 1.19 1.09 1.04ARFlow [30] + SGF0.771.540.850.940.861/8分辨率0.891.171.190.870.89UFlow [19]0.891.640.991.060.981/4清晰度0.811.130.940.910.87UFlow [19]+ SGF 0.890.95 0.71 0.78 0.80所有分辨率0.74 0.90 0.66 0.73 0.72表4.当配备我们的SGF模块时,与无监督方法的比较。这种处理破坏了图像结构,例如模糊和噪声。DPGF得到了更好的结果,但仍然不能与我们的SGF设计相比,因为陀螺仪场记录了不应与动态对象运动相关联的背景运动。此外,我们比较了我们的SGF与三个变种:(1)SGF-Fuse,我们删除了地图块,并最终融合过程。 尽管它计算出0。8 EPE错误,它在具有挑战性的场景中表现不稳定;(2)SGF图,其中融合块被移除。这导致了较差的性能,因为除了雨天场景之外,融合地图Mab往往是不准确的(3)SGF-密集,我们将两个块集成为一个统一的密集块,这产生3通道张量,其中前两个通道表示融合流Oab,最后一个通道表示融合图Mab。我们的SGF平均来说要好得多。4.4.2使用SGF的我们将SGF模块插入到无监督方法中[37,30,19],并且基线表示没有SGF的GyroFlow。特别是,类似于图。在图2中,我们针对每个金字塔层在解码器D之前添加SGF。在我们的数据集上训练了几种未监督的方法,我们在表4中报告了EPE错误。在将我们的SGF模块插入到这些模型中之后,可以在表1和表4中观察到明显的改进,这证明了我们的SGF模块表5.在不同的金字塔层中添加陀螺仪场。基线指示没有SGF的GyroFlow。提出了SGF模块。图8示出了示例。背景运动和边界运动的改善后,集成我们的SGF。4.4.3陀螺场融合层直观地说,在训练过程中也可以只融合一次陀螺仪场,因此我们将SGF模块添加到特定的如表5所示,我们注意到,我们添加的SGF越底层,它产生的EPE误差越低。只有当我们在所有层上添加陀螺场时才能获得最佳结果。5. 结论我们提出了一种新的框架GyroFlow的无监督光流学习融合陀螺仪数据。我们提出了一种自引导融合模块,融合的陀螺场和光流。为了评估,我们提出了一个数据集GOF和标记400地面实况光流的定量指标。结果表明,我们所提出的方法实现了国家的最先进的所有常规和具有挑战性的类别相比,现有的方法。鸣 谢 : 本 研 究 得 到 了 国 家 自 然 科 学 基 金 项 目(61872067、61720106004)和四川省科技攻关项目(2019YFH0016)的部分资助。模型RE黑暗雾雨Avg金字塔层RE黑暗雾雨AvgUnFlow [37]1.121.670.991.341.22基线0.791.711.351.060.951/32决议1.031.040.851.030.951/16分辨率0.940.980.950.930.92我们的基线0.791.711.351.060.95我们0.740.900.660.730.7212879引用[1] Aseem贝尔OmidHosseini贾法里湿婆Karthik Mustikovela , Hassan Abu Alhaija , CarstenRother,and Andreas Geiger.边界框、分割和对象坐标:在自动驾驶场景中,识别对于3d场景流估计有多重要?在Proc. ICCV,第2574-2583页,2017年。一个[2] MichaelBloesch 、 SammyOmari 、 Pe'terFankhauser 、HannesSommer、Christian Gehring、Jemin Hwangbo、Mark A Hoepflinger、Marco Hutter和Roland Siegwart。光流和惯性测量融合用于鲁棒自运动估计。在Proc.IROS,第3102-3107页,2014中。一、二、三[3] Daniel J Butler 、 Jonas Wulff 、 Garrett B Stanley 和Michael J Black。一个用于光流评估的自然开源电影。在Proc. ECCV,第611-625页,2012中。一二四五七[4] JasonCampbell , RahulSukthankar , andIllahNourbakhsh.极端地形中视觉里程计的光流评估技术。在Proc. IROS,第3704-3711页,2004中。1[5] 简S戴。欧拉-罗德里格斯公式变异、四元数共轭与内禀联系。Mechanism and Machine Theory,92:144-152,2015. 三个[6] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick VanDer Smagt、Daniel Cremers和Thomas Brox。Flownet:使用卷积网络学习光流。在procICCV,第2758-2766页,2015年。一二四六七[7] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在Proc.CVPR,第3354-3361页,2012中。二、四、五[8] Hari Prabhat Gupta 、 Haresh S Chudgar 、 SiddharthaMukher-jee、Tanima Dutta和Kulwant Sharma。一种基于加速度计和陀螺仪传感器的人机交互连续IEEE SensorsJournal,16(16):6425-6432,2016. 一个[9] DennisGuse和BenjaminMüller. 使用加速度计和陀螺仪在移动设备上进行基于手势的用户认证在Informatiktage,第243-246页,2012中。二个[10] Berthold KP Horn和Brian G Schunck。确定光学流。Artificial intelligence,17(1-3):185-203,1981. 一个[11] 黄伟波和刘红。单目视觉-惯性slam的在线初始化和自动摄像机-imu外部标定在Proc. ICRA,第5182-5189页,2018年。二个[12] Tak-Wai Hui,Xiaoou Tang,and Chen Change Loy. Lite-flownet:用于光流估计的轻量级卷积神经网络。在Proc.CVPR,第8981-8989页,2018年。二个[13] Junhwa Hur和Stefan Roth。联合光流和遮挡估计的迭代残差细化 在procCVPR,第5754-5763页,2019年。二三六七[14] Myung Hwangbo,Jun-Sik Kim和Takeo Kanade。运动摄像机的惯性辅助klt特征跟踪 在procIROS,第1909-1916页,2009年。第1、3条[15] Woobin Im,Tae-Kyun Kim和Sung-Eui Yoon。具有深度特征相似性的光流非监督学习在Proc. ECCV,第172-188页,2020中。二个[16] Joel Janai 、 Fatma Guney 、 Anurag Ranjan 、 MichaelBlack和Andreas Geiger。具有遮挡的多帧光流的无监督学习 在proc ECCV,第690-706页,2018年。二个[17] J Yu Jason , Adam W Harley , and Konstantinos GDerpanis.回到基础:通过亮度恒定性和运动平滑性的光流的无监督学习。在procECCV,第3-10页,2016年。二个[18] Chao Jia和Brian L Evans.手机摄像头与陀螺仪的在线标定与在2013年IEEE信号和信息处理全球会议上,第731-734页,2013年。二个[19] Rico Jonschkowski,Austin Stone,Jonath
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功