没有合适的资源?快使用搜索试试~ 我知道了~
1725Σ利用时间一致性进行实时视频深度估计张浩奎1、沈春华2、李颖1、曹元洲韩2、刘宇2、严友良31西北工业大学2阿德莱德大学3华为诺亚摘要最近,通过利用来自深度卷积神经网络(CNN)的分层特征,来自静态图像的深度估计的准确性已经显著提高。与静态图像相比,视频帧间存在大量的信息在这项工作中,我们专注于探索从单眼视频的时间信息深度估计。具体来说,我们利用卷积长短期记忆(CLSTM)的优势,提出了一种新的时空CSLTM(ST-CLSTM)结构。我们的ST-CLSTM结构不仅可以捕获空间特征,而且可以捕获连续视频帧之间的时间相关性/一致性,计算成本可以忽略此外,为了保持估计的深度帧之间的时间一致性,我们应用生成对抗学习方案并设计时间一致性损失。时间一致性损失与空间损失相结合,以端到端的方式更新模型通过利用时间信息,我们构建了一个视频深度估计框架,该框架实时运行并生成视觉上令人愉快的结果。此外,我们的方法是灵活的,可以generalized到大多数现有的深度估计框架。代码可在:https://tinyurl.com/STCLSTM1. 介绍受益于强大的卷积神经网络(CNN),最近的一些方法[47,10,30,9,21]在单目静态图像的深度估计方面取得了出色的性能这些方法的成功是基于深度堆叠的网络结构和大量的训练数据。例如,现有技术的深度估计模型DORN [10]具有超过一百个卷积层,高计算成本可能阻碍其实际应用。然而,在一些场景中,例如自动驾驶[2]和机器人导航[35],重新实时估计深度H.张在阿德莱德大学访问。信件应寄至C。Shen和Y.李问。将现有的方法从静态图像直接扩展到视频序列是不可行的,因为计算量过大。此外,通常在这样的场景中提供包含丰富的时间信息的顺序帧。现有的方法没有考虑时间信息。在 这 项 工 作 中 , 我 们 利 用 卷 积 长 短 期 记 忆(CLSTM)和生成对抗网络(GANs)从视频中提取时间信息,并提出了一个实时深度估计框架。我们在图中说明了我们提出的框架。1.一、它由三个主要部分组成:1)空间特征提取部分; 2)时间相关性收集部分和3)时空损失计算部分。空间特征提取部分和时间相关性收集部分组成了我们的时空CLSTM(ST-CLSTM)结构空间特征。ES提取部分首先将n连续地作为输入。s帧x1,x2,...,xn,并输出高级特征f1,f2,...,fn。时间相关性收集部分然后作为i。nputthehigh-l输入高-升生成并输出深度估计d1,d2,...,dn。与单元和门模块,CLSTM可以利用从先前帧获取的线索来推理当前帧,并因此对时间信息进行编码。至于时空损失计算,我们首先计算估计深度和地面实况深度之间的空间损失。为了进一步加强时间一致性,我们通过引入生成式对抗学习方案设计了一个新的时间损失。具体来说,我们应用3D CNN作为鉴别器,其将估计的和地面实况深度序列作为输入,并输出时间损失。时间损失与空间损失组合,并通过整个框架反向传播,以端到端的方式更新总结起来,我们的主要贡献如下。• 我们提出了一种新的ST-CLSTM结构,能够捕获空间特征以及时间相关性用于视频深度估计。据我们所知,这是CLSTM第一次被用于视频深度估计。• 我们设计了一个新的时间一致性损失使用生成对抗学习计划。我们的tem-1726poral损失可以进一步加强时间一致性并提高视频深度估计的性能。• 我们提出的视频深度估计框架可以实时执行,并可以推广到大多数现有的深度估计框架。1.1. 相关工作深度估计最近,已经提出了许多基于深度学习的深度估计方法,并取得了重大成就。举几个例子,Eigen等人。 [9]采用了具有两个组件的多尺度神经网络来全局生成粗略估计并局部细化结果。Xie等人 [42]在他们的网络中使用快捷连接来融合低级和高级功能。Cao等人 [3]提出将深度估计公式化为分类问题而不是回归问题。Laina等人。 [21]采用反向胡贝尔损失来估计深度分布,并采用上采样模块来克服低分辨率问题。 Yin等人 [45]设计了一个损失项来强制几何约束。为了进一步提高性能,一些方法在其方法中结合了条件随机字段[40,26]。最近,DORN [10]提出了一种间距递增离散化(SID)策略,并估计深度,并具有有序回归损失。虽然已经实现了出色的性能,但网络深度和计算量很大。一些其它工作集中于从视频估计深度值Zhou等人。[47]提出使用束调整以及超分辨率网络来改善深度估计。具体地,光束法平差用于同时估计深度和相机姿态,并且超分辨率网络用于恢复细节。Mahjourian等人 [30]将3D损失与几何约束相结合,以同时估计深度和自我运动。在这项工作中,我们建议利用视频的时间信息来估计深度。循 环 神 经 网 络 ( RNN ) , 特 别 是 长 短 期 记 忆(LSTM)在各种计算机视觉任务中取得了巨大成功,如语言处理[34]和语音识别[13]。利用存储器单元,LSTM可以捕获短期和长期的时间依赖性。然而,传统的LSTM仅将一维向量作为输入,因此不能应用于图像序列处理。为了克服这种限制,Shi et al. [43]提出了卷积LSTM(CLSTM),它可以捕获长期和短期的时间依赖性,同时保留处理二维特征映射的能力。最近,CLSTM已被用于视频处理。在[39]中,Song等人提出了一种更深的双向CLSTM(DB-CLSTM)结构,该结构以级联和更深的方式学习时间特征,用于视频显著对象检测。第Liu等人 [27]提出了一种基于树结构的遍历方法,用于在时空域中对人体的3D骨架进行建模。他们应用CLSTM来处理3D骨架数据中的噪声和遮挡,这提高了结果的时间一致性。 Jiang et[18]开发了一个双层ConvLSTM(2C-LSTM)来预测视频显着性。还提出了对象到运动卷积神经网络。GAN生成对抗网络(GAN)自Goodfellow等人在[12]中提出以来一直是一个活跃的研究课题。GAN的基本思想是训练两个对抗网络,一个生成器和一个判别器。在对抗训练过程中,生成器和鉴别器都变得更加鲁棒。GAN已广泛用于各种应用,如图像到图像转换[17]和合成数据生成[31]。GAN主要用于生成图像。应用对抗性训练来改进结构化输出学习的第一个工作之一可能是[7],其中使用了一个模糊损失来区分预测姿态和地面实况姿态,以用于从单目图像中进行姿态估计 。 最 近 , GAN 也 被 用 于 深 度 估 计 。 在 [1] 中 ,Almalioglu et al. 使用GAN来生成更清晰和更准确的深度图。在本文中,我们设计了一个新的时间损失,采用GAN。我们的时间损失可以加强视频帧之间的时间一致性。2. 我们的方法在本节中,我们详细介绍了我们提出的视频深度估计框架。我们首先介绍了我们的ST-CLSTM结构;然后,我们提出了我们的生成对抗学习方案和我们的空间和时间损失函数。2.1. ST CLSTM我们的深度估计框架包含三个主要组件:空间特征提取;时间延迟收集;和时空损耗计算,如图1B所示。1.一、2.1.1空间特征提取网络空间特征提取是性能和处理速度的关键,因为它包含我们的深度估计框架中的大多数可训练在我们的工作中,我们使用的修改后的结构提出的胡等人。 [15 ]第10段。我们在图中展示了我们的空间特征提取网络的细节二、该网络包含一个编码器,一个解码器和一个多尺度特征融合模块(MFF)。编码器可以是任何2D CNN模 型 , 例 如 VGG-16 [38] , ResNet [14], SENet [16]等。为了构建实时深度估计框架,我们1727空间特征提取时间相关性收集时间卷积LSTM通道压缩一致性损卷积LSTM空间特征提取网络卷积LSTM基于3DCNN的鉴别器ST-CLSTM框架1框架2帧n图1该框架包含三个主要部分:空间特征提取;时间相关性收集;和时空损耗计算。前两部分包括我们的ST-CLSTM结构,它捕获空间特征和时间相关性。在ST-CLSM生成深度估计之后,引入3D CNN来计算时间损失。空间和时间损失被组合以更新框架。帧iConcatenate编码器解码器注意,在我们的深度估计框架中,空间特征提取网络可以由其他深度估计模型代替。换句话说,我们提出的深度估计框架可以应用于其他国家的最先进的深度估计方法与最小的修改。2.1.2CLSTM由于输入帧在时间维度上是连续的,因此考虑这些帧的时间相关性是直观的,并且可能有助于提高深度估计性能。在实现这一目标方面,3D CNN和CLSTM都是完全相同的。在这里,我们使用CLSTM,因为它比3D CNN更灵活,可以进行在线推理。我们提出的CLSTM的结构如图所示。3(b)款。图图3(a)展示了传统的LSTM。所述输入端和所述图2 该网络由三部分,包括编码器、解码器和多尺度特征融合模块(MFF)。在本文中,我们采用相对较浅的模型ResNet-18作为快速处理的编码器。应用浅ResNet-18模型而不是SENet-154作为编码器。输出是向量,关键操作是Hadamard乘积。时间t处的单个LSTM单元可以表示为:ft=σ(Wf<$[ht−1,xt]+bf),it=σ(Wi<$[ht−1,xt+bi]),Ct=tanh(WC[ht−1,xt]+bC),解码器采用四个上投影模块来提高空间分辨率,减少特征映射的通道数。这种编码器-解码器结构已广泛用于像素级任务[5,10]。的Ct=ft×Ct−1+it×Ct,ot=σ(Wo <$[ht−1,xt]+bo),ht=ot×tanh(Ct),(一)MFF模块的设计是为了集成不同规模的功能。在[29]中使用了类似的策略。其中σ和tanh是sigmoid和双曲正切激活函数。△和×表示Hadamard乘积时空损失输入输出地面实况空间损失ConcatenateConcatenateConv1 Block1 Block2 第3区第4区上1上2上3上4x2x4 x8 x16Conv2MFF特征图上8上7上6上5x2 x2 x2 x21728ConcatConcConcat折叠术意(在(通道压缩点态乘法Sigmoid函数 ConcatConcatenate双曲正切函数的逐点加法√i我不2.2. 时空损失如图1,我们的ST-CLSTM的输出是估计的深度。我们设计了两个损失函数来训练我们的ST-CLSTM模型:用于保持空间特征的空间损失和用于捕获时间一致性的时间损失。图3 - LSTM和CLSTM。(a)LSTM;(b)CLSTM。在LSTM中,输入和输出都是向量。在我们提出的CLSTM中,输入是特征图,输出是估计的深度。和逐点乘法。2.2.1空间损失我们遵循[15]并设计一个类似的损失函数作为我们的空间损失,它可以表示为:L空间=l深度+λl梯度+µl法线,(3)其中λ和μ是加权系数。它由三个术语组成。 应用l深度来惩罚不准确的深度估计。大多数现有的深度估计方法只是简单地应用1001或1002损失。正如[22]中所指出的,这种类型的损失的一个问题是,随着地面实况深度的增加,值往往会更大我们应用对数损失,其表示为:(2)x = 0(||x − y||一加一。0)。(四)与传统的LSTM相比,我们提出的CLSTM表现出两个主要差异:1)操作。接下来[43],我们在LSTM中替换Hadamard乘积因此,我们的L深度 定义为:1Σn用卷积来处理提取的2D特征图。(2)结构。我们调整了CLSTM的结构,l深度=ni=1F(di,gi),(5)深度估计任务。具体地,我们提出的CLSTM单元可以表示为:其中n是像素的数量;di和gi分别是像素i的估计深度和地面实况深度。f=σ。t,D t−1(ft−1)ΣWf+bf,lgrad旨在惩罚边缘周围的错误。其定义为:it=σ([ft,Dt−1(ft−1)]<$Wi+bi),Ct=tanh([f t,Dt−1(f t−1)]<$WC+bC),l梯度=Σn(六)Ct=ft×Ct−1+it×Ct,ot=σ([ft,Dt−1(ft−1)]<$Wo+bo),(二)1ni=1(F(nx(di),nx(gi))+F(ny(di),ny(gi),Rt=Conv([ot,tanh(Ct)]),其中*是卷积算子。 Wf,Wi,WC,Wo以及bf、bi、bC、bo表示k个核和偏置项,其中,x和y表示沿x轴和y轴。最后一项l法线被设计为测量两个表面法线之间的角度,因此对小深度结构敏感。它表示为:对应的卷积层。在我们把温泉撤出后-视频帧的特征,我们将t−1l正常=1Σn .ηd·ηg1−√Σ、(7)前一帧F进入卷积层Dt-1,nηd·ηdηg·ηg将通道数从C压缩到8。然后我们i=1我我我将ft−1与当前帧ft的特征图用C+8通道公式化特征图接下来我们将连接的特征图馈送到CLSTM以更1729我新其中ηd产品=[− 1] x(di),−y(di),1]和·表示内部存储在存储单元中的信息。最后,将更新后的存储单元Ct中的信息与输出门的特征映射连接起来,然后将它们送入由两个卷积层组成的精化结构Rt,得到最终的估计结果。2.2.2时间损失我们提出的ST-CLSTM能够利用节奏-连续视频帧之间的相关性。为了进一步加强帧间的一致性,1730NRGBD1RGBDn作为时间损失函数在我们的ST-CLSTM的训练期间,我们将我们的时间损失与上述空间损失组合如下:L=L空间+αL时间,(9)二进制标记图4它包含四个卷积块,一个全局平均池化层和一个全连接层。它将级联的RGB-D视频帧作为输入,并输出指示输入源的二进制标签应用生成对抗学习方案并设计时间一致性损失。具体来说,在我们的ST-CLSTM产生深度估计之后,我们引入三维卷积神经网络(3D CNN),其将估计的深度序列作为输入并输出分数。该分数表示深度序列来自我们的ST-CLSTM而不是地面实况的概率。然后,3DCNN充当鉴别器。我们通过最大化将正确标签分配给估计深度序列和地面实况深度序列的概率来训练神经网络。我们的ST-CLSTM充当发电机。该方法尝试将生成器的输出(标记为“假”)与地面实况深度序列(标记为“真”)区分开在收敛时,我们希望生成器在鉴别器的训练过程中,我们同时训练生成器我们的生成对抗学习的目标如下所示最小值最大值V(G,D)=G D (8)Ez∈<$[log(D(z))]+ Ex∈χ[log(1−D(G(x)],其中x=[x1,. x n]是输入RGB帧,其中α是加权系数。我们根据经验将其设置为0的情况。1.一、我们的3DCNN的详细结构如图所示。见图4。它由4个卷积块、一个全局平均池化层和一个全连接层组成。每个卷积块包含一个3D卷积层,然后是一个批归一化层,一个ReLU层和一个最大池化层。第一3D卷积层和所有最大池化层具有2的步幅。在实践中,如图所示。4,我们的3DCNN将级联的RGB和深度帧作为输入,以加强视频帧和相应深度之间的一致性。为了增加我们的深度估计的鲁棒性,在我们生成的输入深度序列中,我们以一定的概率随机混合一些注意,这里的对抗训练主要是为了加强时间一致性,而不是像[ 6 ]中那样提高单帧深度的深度精度3. 实验在本节中,我们将在室内NYU Depth V2数据集和室外KITTI数据集上评估我们提出的深度估计框架,并与一些现有的深度估计方法进行比较。3.1. 数据集NYU Depth V2包含464个从室内场景拍摄的视频。我们应用与Eigen等人相同的训练/测试分割。 [9]包含249个视频用于训练,654个样本来自其余215个视频用于测试。在训练过程中,我们将图像从640×480调整为320×240,然后随机种植304×228个小块进行训练。KITTI包含61个户外视频场景,由安装在驾驶汽车上的摄像头和深度传感器我们应用与Eigen等人相同的训练/测试分割。[9]其中包含32个用于训练的视频,以及来自其余29个视频的697个样本用于测试。在训练过程中,我们从原始图像中随机裁剪大小为480×320的补丁作为输入。3.2. 评估指标我们使用定义为以下的常用指标来评估框架的性能:[d1,. d n]是地面实况深度帧。χ和χ是1)平均相对误差(Rel):1μN||(1 ; 2)||1;2)输入RGB帧和地面实况深度.Ni=1gi均方根误差(RMS):1ΣN(d-g)2; 3)分别i=1i i由于我们的神经网络是一个二元分类器,我们训练它,平均log10误差(log10):1Ni=1 || 1个;||1;使用交叉熵损失。交叉熵损失则为4)具有阈值t的准确度:di的百分比,使得5x 5x 5Conv32,/2,BN+ReLU3x 3x 3最大池,/25x 5x 5Conv64,/2,BN+ReLU3x 3x 3最大池,/25x 5x 5Conv128,/2,BN+ReLU3x 3x 3最大池,/25x 5x 5Conv256,/2,BN+ReLU3x 3x 3最大池,/21731i=1max(di,gi)= δ
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功