没有合适的资源?快使用搜索试试~ 我知道了~
2563利用Transformer实现中国科学技术大学摘要通过检测时空亮度变化来输出事件的事件相机为具有高动态范围和低延迟的图像传感器带来了新颖的范例。以前的工作已经取得了令人印象深刻的性能基于事件的视频重建,通过引入卷积神经网络(CNN)。然而,卷积运算的固有局部性不能对长程依赖性进行建模,这对许多视觉任务至关重要。在本文中,我们提出了一个混合的CNN- Transformer网络的基于事件的视频重建(ET-Net),它的优点是从CNN和变压器的全局上下文的精细局部信息此外,我们还提出了一种令牌金字塔聚合策略,以实现多尺度的令牌集成,将令牌空间中的内部语义概念和外部语义概念联系起来。实验结果表明,我们提出的方法在多个真实世界的事件数据集上实现了优于最先进的方法的性能。该代 码 可 在 https://github.com/WarranWeng/ET-Net上获得。1. 介绍事件摄像机,也称为神经形态摄像机[45],是一种新型的生物视觉传感器,为研究人员提供了一种完全不同的传感模式。不是在常规相机中以固定速率直接报告基于帧的表示,事件相机被专门设计为检测和记录每个像素的时空变化。与基于帧的计数器相比,事件摄像机具有几个优越的特性:高时间分辨率(约1µs)、高动态范围(140 dB)和低功耗(5 mW)[24],适用于对传统相机具有挑战性的场景,例如HDR场景和高速移动场景。然而,事件流由于其稀疏、不规则和非结构化的特性而不便于观察和后处理。更好地利用*通信应发送至zhyuey@ustc.edu.cn为了了解事件摄像机的优点,一种直观的方式是将事件流转换成由连续强度帧组成的视频,其用作将现成的基于帧的算法[12,13,11,26,42,41,44,43]连接到事件摄像机的桥梁。深度学习技术,特别是卷积神经网络,在计算机视觉领域取得了巨大成功。最近,一些作品通过深度学习方法进行了基于事件的视频重建,并表现出令人印象深刻的性能。使用监督学习,Rebecqet al. [29,28]首先提出了基于E2VID CNN的模型,在图像质量和时间一致性方面与手工制作的方法相比实现了显着的性能 提 升 [4 , 21 , 32] 。 基 于 E2 VID , Scheer-lincketal.[33]使用轻量级网络FireNet减少了推理时间和模型容量,而准确性仅略有下降。此外,Stoffregenet al.[35]提出,这些监督训练方法显示出对事件摄像机模拟器(如ESIM)生成的合成数据的强烈依赖性[27]。因此,为了放松这种数据依赖性,Federicoet al. [22]第一次从自我监督学习的角度出发,通过结合估计的光流和基于事件的光度恒定性来训练神经网络,而不需要地面实况,来解决重建问题这些基于CNN的架构[29,28,35,22]显示了事件摄像机在视频重建中的优势。然而,由于卷积运算的本质局部性,经典的基于CNN的模型不能够对长程依赖性进行实际上,捕获长程依赖性在深度神经网络中对于NLP任务中的序列数据和视觉任务中的图像数据都特别地,基于CNN的模型不能有效地处理在纹理、形状和尺寸方面示出大的内部变化的结构。为了解决这一限制,最近已经提出了一些工程。Wang等人[39]提出了一种非局部操作,可以插入到多个现有的CNN模型中。Schlemper等人[34]将附加注意力门模块集成到全局上下文的跳过连接中最近,为序列到序列预测而设计的Trans- former[362564[36,38,6,10,7]。Transformer仅建立在自注意机制而不是CNN的基础上,在建模全局上下文信息方面显示出了吸引人的潜力在本文中,我们提出了第一次尝试,探索应用Transformer的高速视频重建事件摄像机的背景下。基于序列到序列预测的新视角,我们提出了事件转换器网络(ET-Net),以利用Transformer从纯事件重建视频的强大潜力与以前的工作不同[10,48],我们的ET-Net采用混合CNN-Transformer架构,以利用来自CNN特征的详细多分辨率空间信息和Transformer编码的全局上下文。我们验证了局部特征和全局上下文的组合能够进一步提高重建质量。此外,我们提出了一种新的令牌金字塔聚合(TPA)模块来实现多尺度令牌集成,这是ET-Net的核心组件。建议的TPA表示的2-D功能,使用视觉令牌和学习直接相关的语义概念在令牌空间,而不是卷积运算符,产生更好的重建精度。在现有的常用事件相机数据集上进行的广泛实验表明,我们提出的架构ET-Net优于现有的基于CNN的方法,证实了我们基于变压器的方法的有效性。我们将我们的贡献总结为三个方面。(1)我们提出了ET-Net,一种新的混合CNN-Transformer框架,以利用来自CNN的精细局部信息和来自Transformer的全局上下文来接近基于事件的视频重建任务。(2)提出了一个To- ken Pyramid Aggregation模块,用于对符号空间中的内部和相交语义概念进行多尺度(3)我们通过大量的实验全面展示了我们的架构设计的有效性,实现了基于CNN的方法的性能大幅2. 相关工作2.1. 基于事件的视频重建视频重建是基于事件的视觉研究中的一个热门课题.光度恒定性,这意味着每个事件提供一个方程的强度梯度和光流,作为一个早期的尝试,以接近基于事件的视频重建问题。Kim等人[14]显示了设计扩展卡尔曼滤波器以重建梯度图像的第一项研究,并提出了在其未来工作中预测6-DOF相机运动的可行性[15]。使用原始-对偶算法,Bardowet al.[4]通过滑动时空窗口同时优化光流和强度估计。另一条平行的研究路线是建立在直接事件不需要假设场景结构或运动动力学。Reinbacher等人[21]介绍了直接积分与周期流形正则化表面上的活动事件,并优化了能量函数,以重建视频从事件。Scheerlinck等[32]提出了补充和高通滤波,以实现计算高效的连续时间视频重构。最 近 , 深 度 学 习 方 法 , 特 别 是 卷 积 神 经 网 络(CNN),已经显示出解决基于事件的视频重建问题的潜力Wang等人[37] Piniet al. [25]利用生成对抗网络(GAN)来重建具有真实灰度帧的强度。Rebecq等人[29,28]提出了一种新的基于CNN的模型,该模型以监督的方式使用大规模合成数据集进行训练,以提高重建质量。Scheerlinck等[33]提出了一个轻量级框架,以实现推理时间方面的显着加速。 最近,Stoffregenetal.[35]提出了一种减少合成数据集和现实数据集之间的模拟到现实差距的新策略,从而在多个数据集上带来相当大的性能提升。在本文中,我们提出了一种新的方法,而不是只使用CNN网络,通过制定一个基于Transformer的框架,从纯事件重建视频,使我们能够合成更高质量的视频。2.2. TransformerTransformer最早由Vaswani等人提出。[36]用于机器翻译,并且在各种自然语言处理任务中占主导地位[9,46,8,16]作为事实上的架构。Transformer由多个自注意层组成,用于对长距离依赖进行建模并在整个序列中聚合全局上下文,这与非局部神经网络[39]类似,但没有任何递归或卷积运算符。随着Transformer在自然语言处理领域取得的巨大成功Carion等人[6]从序列到序列的角度将对象检测重新表述为直接集合预测问题,并提出了一种新的端到端检测Transformer(DETR)来生成边界框。Chen等人[7]利用预训练技术最大限度地挖掘变压器的能力,并在多 个 低 级 图 像 处 理 任 务 中 获 得 最 先 进 的 性 能 。Dosovitskiy等人[10] 提出了Vision Transformer(ViT)进行图像识别,表明当结合足够数据的预训练时,Transformer相对于卷积神经网络具有坚实的优势。据我们所知,没有以前的作品开发基于事件的视频重建的Transformer模型。2565I+1+1I������������−1E ∈−∈ EE∈K k=1E{}(a)(b)第(1)款图1.(a)重建框架概览(b)我们建议的ET-Net的架构通常,ET-Net是一个U形网络,由递归卷积骨干(RCB),令牌金字塔聚合(TPA)和多级上采样器(MLU)组成。RCB从事件体素网格中提取特征金字塔。TPA进一步从特征金字塔对内部和相交的长距离依赖性进行建模,并输出全局上下文。然后MLU聚合来自RCB的局部特征和来自TPA的全局上下文以重建最终强度帧。我们的网络架构的细节,包括超参数和Transformer块设计的阐述在第二节。3.2和补充材料。3. 该方法在本节中,我们提出了基于变换器的模型ET-Net来解决这个问题。首先,我们介绍了我们的策略,以产生固定大小的体素网格,以适应在规范的神经网络的处理方式在第二。第3.1条随后,我们提出的框架ET-Net和损失函数在第2节中详细说明。3.2和第二节3.3分别。我们的方法的总体流水线在图1中示出。1.一、3.1. 事件表达式纯事件流=etNe,其中Ne表示事件的数量,被馈送到我们的网络中。每个事件etk被表示为四元素元组(xk,yk,tk,pk),分别报告空间坐标、时间戳和极性。为了使事件流与为基于帧的视觉设计的处理算法兼容,有必要通过时间双线性插值将事件流转换为具有B个时间仓的网格状事件体素网格VRB×H ×W[50]。具体cally,我们根据下式执行此转换其中t〇、tNe分别表示事件流的开始时间和结束时间,k[0,B1]。 这种转换方法将整个事件流均匀地填充到B个连续且不重叠的部分,其中每个事件将其极性贡献给两个最接近的仓。在这项工作中,我们使用B=5进行所有实验。3.2. 事件Transformer网络(ET-Net)我们提出了一种混合CNN-Transformer模型ET-Net,用于基于事件的视频重建。我们的模型联合使用CNN和Transformer分别产生本地化特征和全局上下文。所提出的ET-Net遵循经典的编码器-解码器架构。我们的网络的输入是通过填充事件的事件体素网格V流E,如在Sec. 第3.1条我们的模型的输出是最终重建的强度帧I。递归卷积主干(RCB)。我们不是直接在事件体素网格V上执行特征序列化,而是首先将其馈送到递归卷积主干,该递归卷积主干由头部和三个递归卷积块组成。头部用于转换输入事件体素网格V∈RB×H ×W到第一尺度特征fRCB∈RC0×H ×W.在我们的工作中,我们将C0设置为32。V(k)=Σip imax(0,1−|k−ti−t0 (B − 1)|),(1)0利用 时间 一致性 在连续tNe−t0头RCBMLU⊕刘 晓波0帧0ConvLSTM0������R������B������������−10局部特征I刘 晓波⊕11ConvLSTM1������−1R B1刘 晓波⊕2事件体素网格������������−12ConvLSTM2卢晓R B23⊕R B3硬分割TPA…P⊕……⊕…⊕…⊕…全球背景…P……事件纯⊕Transformer块Transformer块Transformer块Transformer块重塑尾巴Interp2dInterp2dInterp2d展开线性体素化事件事件ET-NetET-Net≀≀≀≀25663P2l我P2Ll我0HW×LL联系我们{|联系我们--LHW∈I∈ {|联系我们2LPL2L{2L3������′我们具有相同数量(HW)的小补丁。然后我们将这些面片展平成一维向量,形成P2Cl序列fP′∈R 4l|i∈ {0,..,HW -1} }。 我们212������′1进一步应用线性投影fproj和正弦位置编码[36]ei∈RD将每个补丁fP映射到一个潜在一维嵌入令牌T1,iRD,其中0������′被配制为T1,i=f proj(fP)+ei。(三)内部依赖交叉依赖ll,i请参考[36]了解位置编码的原因,如果图2. TPA中使用的Transformer块的详细结构(此处显示四个比例)。单个Transformer块由N个变压器编码器和M个变压器解码器组成。采用跳过连接来通过以下方式传送输出令牌这是必要的,为了简洁起见,这里没有要求保护。顺序化操作的图示过程可参见补充资料。在补丁嵌入和位置编码之后,我们重新制定令牌序列Transformer编码器到最终令牌Z1′。{T1,i}到令牌矩阵Z1∈RP2×D,可以近似为帧有利于我们对事件的视频重建。 作为在[29]中,在每个递归块中采用ConvLSTM层,其利用先前的状态来增强重建的时间稳定性。此外,在每个重流块中,我们应用卷积层(步幅为2)以将特征的空间大小减少一半。同时,信道数随着尺度级别的增加而增加一倍I.E. Cl=C〇2l。因此,三个堆叠的递归块产生三个尺度的特征图,其可以被公式化为fRCB,st=frec(fRCB,st−1),(2)l l l l−1l其中,11,2,3表示第1层,st表示第1层在时间t的状态。 通过递归卷积主干,我们最终得到一个多尺度特征金字塔fRCBl0、1、2、3,其随后被传递到令牌金字塔聚合模块和多级上采样器模块。请参见图1了解RCB的更多细节令牌金字塔聚合(TPA)。 对于视觉转换器,现有的作品[10,48]通过对输入图像执行图像序列化来生成单尺度令牌。类似地,基于CNN主干的特征,DETR [6]通过ResNet50对最后一个尺度特征(具有小空间尺寸)的长程依赖性进行建模,这丢失了来自其他尺度的交叉相关性和空间细节。实际上,多尺度聚合在许多视觉任务中显示出良好的促进作用[18,31,30]。因此,我们设计了令牌金字塔聚合模块,这是基于Transformer,模型的内部和相交的依赖关系,从RCB提取的特征金字塔。首先,对RCB提取的特征金字塔中的每个特征执行序列化操作具体地说,我们将特征f RCB∈ RCl× H×W分成小随后被Transformer Blocks取代。在我们的工作中,我们将D设为256。如图2,对于每个尺度,使用一个Transformer块来从特征金字塔对内部依赖性和非依赖性进行建模。在每 个 Transformer 块 中 , 我 们 堆 叠 了 几 个 香 草Transformer编码器,这些编码器通过自注意操作提取每 个 尺 度 中 的 令 牌 的 内 部 依 赖 性 。 然 后 附 加Transformer解码器以构建对相邻尺度令牌的相交依赖注意,馈送到Transformer解码器的键和值向量来自较低尺度中的Transformer块的编码器,而查询向量仍然来自当前Transformer块的编码器这种设计赋予我们的网络学习提取和交换多尺度上下文的能力,这可以在第二节中进一步演示。四点三。此外,我们还引入了残余连接来维护Transformer编码器的内部依赖性.具体地,对于每个尺度,来自Transformer编码器和Transformer解码器的输出令牌经由跳过连接被添加为Z1’。然后,我们聚合所有令牌Zl’以生成隐藏的令牌矩阵ZTPA表示TPA。注意,ZTPA与Zl共享相同的维度。在我们的工作中使用的Transformer块的细节二、多级上采样器(MLU)。 TPA输出一个二维矩阵Z TPARP2× D,其分辨率与原始分辨率不相同。因此,我们设计了一个多级上采样器来恢复全分辨率的强度图像RH×W来自隐藏令牌Z TPA和特征金字塔fRCB10,…3 .第三章。值得注意的是,隐藏令牌捕获跨多尺度特征集的长程依赖性,而特征金字塔提供本地化信息。这两个数据流都值得CNN和Transformer,显着增强补丁.第l尺度中的每个块的维度是与仅使用以下中的一个相比的重建质量:Cl×P×2l(在我们的工作中P = 8)。 因此对于每个尺度,这一点,可以在第二节中进一步说明。四点三。N×M×跳过连接,,,, ,Trans-EnTrans-DeTrans-DeTrans-EnTrans-DeTrans-EnTrans-DeTrans-En2567∈HW∈LN×ΣL=LλLTCRTC具体地,MLU由三个堆叠的上采样块和尾部组成(请参见图1B)。1了解更多详细信息)。 每个上采样块都是用双线性插值操作构建的,然后是卷积层,其中上采样因子为2,以最大限度地减轻对抗效应。 在将令牌矩阵Z TPAR P2 × D馈送到MLU之前,我们将其重塑为三维特征f TPAD×H ×W以平移、旋转和扩张方面的各种2-D运动特性在背景图像上移动。我们将[35]提供的对象图像与来自COCO数据集[17]的图像相结合,以生成候选前景多对象。背景图像也从COCO数据集中随机选择。我们通过赋予每个图像随机轨迹来启动模拟过程对比度阈值(CT)被选取为:RPP 形式上,upsam的计算过程-填充块可以被公式化为. fup(fMLU+fRCB),l=0,1,2L1至1.5之间,其中阳性CT和阴性CT限于以下限制:Cp = Cn×x,x∈ N(μ=1. 0,σ=0。①的人。 整个×fMLU=l+1l+1fTPA,l=3(四)训练数据集包含280个序列,具有256 256个分辨率。解决方案每个序列持续10秒。其中fMLU表示通过上采样生成的特征在第l个尺度上的块尾部是一个简单的卷积层,取f个MLU和f个RCB特征的组合训练数据扩充策略与[35 ]第35段。具体地,高斯噪声 (μ=0,σ= 0. 第一章被添加到输入事件张量,用于模拟后-0 0作为输入(请参见RCB和图1中的MLU),生成最终重建强度图像I∈[0,1]H×W。3.3. 损失函数我们采用LPIPS和时间一致性损失函数进行训练,这些函数也在[29]中采用。LPIPS损失是用于评估帧质量的可区分的相似性度量。时间一致性损失测量两个对齐的连续重建图像之间的光度误差,其用于减轻时间伪影。T个时间步长上的最终损耗L可以计算为地面噪声一些也是模拟的。我们执行大小为112 - 112的随机裁剪和输入事件张量的随机翻转。此外,我们还采用随机暂停增强。暂停增强请参见[35测试数据集。我们在三个公开发布的基于事件的数据集上评估我们的模型:[ 35 ][36][37][38][39][由两个DAVIS240C [5]相机记录的HQF数据集提供了高质量的地面实况帧,其中在优选的曝光下最大限度地消除了运动模糊。包含14个序列,涵盖了更广泛的运动和场景类型,包括静态场景和慢、中、快的运动场景,室内和室外场景。IJRR提供25个真实的-不tRt=0不tTCt=L0、(五)通过DAVIS240C [5]和两个合成数据集通过事件摄像机模拟器。MVSEC由同步立体事件相机系统记录。每个序列其中,Lt、Lt是LPIPS重建损失和TEM。MVSEC发布了大量的地面实况参考数据进行评估。与HQF、IJRR和MVSEC相比时间t处的孔隙稠度损失,L0表示起始时间。用于计算时间一致性损失的dex和λTCcon-在最终损失中的时间一致性比例设T、L0和λTC分别为40、2和14. 实验和结果4.1. 实验装置训练数据集。我们提出的网络进行视频重建纯事件在监督的方式。大量的事件序列与相应的地面实况帧是必不可少的训练。为了进行公平的比较,我们遵循与E2VID+ [35]相同的生成方案,通过ESIM[ 27 ]合成训练数据集,ESIM[27]是一种用于合成具有可靠地面实况帧的事件的优秀模拟器。具体地说,不是专门为基于事件的视频重构问题设计的。为了公平比较,我们从两个数据集中选择与[35]中报道的序列相同的序列。IJRR和MVSEC序列的确切切割时间可以在补充材料中找到。评估指标。对于定量评估,我们考虑三个广泛使用的评估指标:(i)均方误差(MSE),(ii)结构相似性(SSIM)[40]和(iii)感知相似性(LPIPS)[47],它们也在[28,35,33]中使用。MSE和LPIPS的较低值或SSIM的较高值指示较好的性能。实作详细数据。我们的网络是使用Pytorch框架实现的[23]。AdamW [19]被用作优化器,初始学习率为0.0002。我们采用指数衰减策略的学习率与伽玛为0.99。我们的模型在2个NVIDIA Tesla V100 GPU上训练了300个epoch,批量大小为2。2568↓↑ ↓FireNet FireNet+ E2VID E2VID+ET-Net(我们的)地面实况图3.与基线方法对HQF(第1和2行)、IJRR(第3和4行)和MVSEC(第5行)进行定性比较。我们提出的网络展示了更好的重建结果,具有细粒度的细节和轻微的伪影,而其他基线在整个图像中呈现出模糊的效果,这会引起严重的亮度干扰。更多的视觉结果可以在补充材料中找到方法HQFMSESSIM LPIPSJRR MVSEC HQF JRR MVSEC HQF JRR MVSECFireNet0.09810.13330.2870.5220.4880.2470.4670.3380.718FireNet+0.04650.05680.2280.5950.5350.2650.3260.2980.574E2VID0.18240.18300.3130.4770.4480.2270.5150.3570.727E2VID+0.03710.06500.1350.6380.5510.3370.2580.2410.513我们0.03490.05030.1130.6430.5850.3580.2740.2370.491表1. HQF、IJRR和MVSEC上基于事件的视频重建基线方法的定量比较。粗体最好,下划线次之。细分结果见补充材料。4.2. 与最新方法的我们将我们提出的方法与四种最先进的方法FireNet[33]、FireNet+ [35]、E2VID [28]和E2VID+[35]进行比较 。与 FireNet和 E2VID共 享相 同 架 构的 FireNet+ 和E2VID+使用合成训练数据集进行重新训练[35]。对于所有最先进的方法,我们使用从[1,2,3]中获得的预训练模型进行评估。为了公平比较,我们保持所有实验设置相同。对于所有方法,不执行后处理操作(诸如灰度归一化和直方图均衡化)。表1显示了定量比较结果。在MSE方面,我们的ET-Net在所有三个数据集上的表现都比FireNet+和E2 VID+高出15%,这是一个坚实的进步。在SSIM方面,我们的ET-Net以明显的优势超过了E2VID+,分别达到0.643、0.585和0.585。HQF、IJRR和MVSEC分别为0.358。在LPIPS方面,ET-Net仍然匹配或超过最先进的方法E2 VID+,除了HQF略有下降的2569↓ ↑↓↓ ↑↓↓ ↑↓型号MSE SSIM LPIPS ET-Net-2-s40.1130.376 0.494型号MSE SSIM LPIPS ET-Net-4-s40.05520.587 0.236E2VID-res60.1650.3190.536ET-Net-5-s3 0.0584 0.564 0.242ET-Net-4-s40.1180.3550.491ET-Net-8-s2 0.0636 0.547 0.260E2VID-res120.1690.3090.521ET-Net-16-s1 0.0991 0.509 0.284ET-Net-6-s40.1670.3120.538E2VID-res160.1800.3110.518表3. ET-Net变体的消融结果不同IJRR上TPA中的聚合规模表2. ET-Net和E2 VID变体的消融结果MVSEC。每对模型具有相似的参数量。区别在于模型中是否使用基于Transformer的TPA补充材料中提供了三个数据集的每个场景的定量比较。应该注意的是,当在Transformer块中N=3、M=2并且在TPA中聚合三个尺度时,我们实现了最佳性能。该ET-Net的总参数量为22 M。图3示出了通过我们的ET-Net和所有基线方法对来自HQF、IJRR和MVSEC数据集的视频剪辑图像重建的定性结果。地面实况图像也被列出用于比较。可以观察到,FireNet和E2VID重构具有较高强度值的帧,从而在整个图像平面上呈现模糊伪影。E2VID+和FireNet+ 的 重 建 结 果 在 视 觉 效 果 上 优 于 FireNet 和E2VID,呈现出更真实的场景。我们的ET-Net进一步为最终重建带来了更详细的背景,还减少了常见的故障情况,如FireNet+中出现的妊娠纹。我们的重建帧的图像对比度是非常接近的地面实况图像。这些定性结果支持表1中的定量结果。在补充材料中,我们还提供了几个重建的视频剪辑,并将我们的模型应用于高速和HDR场景。4.3. 网络体系结构分析为了研究ET-Net中组件的重要性,我们在各种设置下进行消融分析,包括:1)TPA是否存在; 2)TPA中的标度数; 3)每个刻度中Transformer块的深度; 4)TPA中是否存在Transformer解码器; 5)跳过RCB和MLU之间的连接。所有模型都在我们的合成训练数据集上训练了200个epoch,批量大小为8,并在所有三个测试数据集上进行了评估。值得注意的是,除非在主要论文中专门说明,否则其他消融结果可以在补充材料中找到,并进行了额外的说明。所有其他实验设置保持与Sec相同。4.1.在展示详细的消融结果之前,我们描述了ET-Net变体的命名法。名称型号MSE SSIM LPIPSET-Net-2-s4 0.04130.619 0.288ET-Net-4-s40.0403 0.635 0.277ET-Net-6-s4 0.0430 0.623 0.286表4. HQF上Transformer块中具有不同编码器和解码器编号的ET-Net变体的消融结果ET-Net变体的集合遵循模式“ET-Net-(A)-s(B)”,其中A表示TPA中的每个尺度下的Transformer编码器和解码器的总数,并且B表示TPA中的聚合尺度。详情请参阅我们的补充资料TPA。 我们提出的TPA被用来利用事件张量的全局上下文,这也是我们的工作的主要贡献。我们设计了消融实验来验证TPA的有效性。我们的ET-Net的基本结构类似于E2 VID。因此,我们比较了ET-Net和E2VID,并定量地评估了性能。我们首先选择具有不同配置的三个ET-Net变体:ET-Net-2-s4,ET-Net-4-s4和ET-Net-6-s4,它们具有不同的参数量。为了公平比较,我们通过添加更多的残差块来修改E2VID的结构,使得这些E2VID变体具有与其对应物相似的参数量。具体来说,我们构建了三个E2 VID变体:E2 VID-res 6,E2 VID-res 12和E2 VID-res 16,其中在模型中使用的Resblock数分别为6,12和16表2显示了MVSEC上三对模型的定量结果。可以看出,使用我们的TPA模块,性能得到了很大程度的提高,这验证了TPA的有效性TPA中的聚集缩放。我们进一步研究了不同尺度的TPA对ET-Net的影响。为了保持参数数目的相似性,我们采用ET-Net- 4-s4、ET-Net-5-s3、ET-Net-8-s2和ET-Net-16-s1对IJRR进行消融。值得注意的是,这些ET-Net变体由类似数量的Transformer编码器和解码器组成,其中堆叠方式是主要区别。表3显示,我们的具有多尺度TPA的ET-Net比单尺度变体(ET-Net-16-s1)表现更好,尽管ET-Net-16-s1变体具有更深层的全局上下文建模。2570↓ ↑↓设置设置MSEIJRRMVSEC HQF↓ SSIM ↑ LPIPS ↓ MSE ↓ SSIM ↑ LPIPS ↓ MSE ↓ SSIM ↑ LPIPS↓0.0522 0.587 0.236 0.118 0.355 0.4910.04030.635 0.277不带反译码器表5.TPA中有和没有Transformer解码器的ET-Net-4-s4模型的消融结果MSE SSIM LPIPSET-Net-4-s4 E2VID-res12 ET-Net-4-s4 E2VID-res12 ET-Net-4-s4 E2VID-res12带跳过连接0.1180.1690.3550.3090.4910.521不带跳过连接0.1320.1790.3200.2730.6530.716表6.ET-Net-4-s4和E2 VID-res 12型号在MVSEC上有和没有跳过连接的消融结果Transformer块的深度 我们提供了我们的调查,在每个规模的Trans-block的数量上探索,ING在每个TPA规模的编码器和解码器的适当数量。我们选择ET-Net变体ET-Net-2-s4、ET-Net-4-s4和ET-Net-6-s4对HQF进行消融实验。表4显示了消融结果。可以观察到,少量或大量的Transformer编码器和解码器不能产生令人满意的性能。我们的小容量模型无法从潜在的CNN特征中捕获长范围依赖性,而大模型显示出过拟合并降低了泛化能力。因此,我们推测,最好的perfor-曼斯应实现附近的地方,其中Transformer编码器和解码器在变压器块的总数是4。ET-Net模型,我们在SEC中报告了最佳性能。4.2有5个编码器和解码器,这与之前的猜测一致。TPA中的Transformer解码器ET-Net中的TPA具有两种Transformer组件:变换器编码器用于对每个尺度中的标记的内部依赖性进行建模,并且Transformer解码器用于构建来自相邻尺度的标记之间的交叉依赖性。为了研究Transformer解码器在TPA中的影响,我们用相同数量的Transformer编码器替换Transformer解码器,以形成用于进行这种消融的新的ET-Net变体。我们报告了表5中广泛比较的IJRR、MVSEC和HQF结果。可以观察到,Transformer解码器的利用提高了所有三个数据集上的重建性能。跳过连接。我们的ET-Net利用了来自CNN的低级精确细节和来自Transformer的全局上下文。我们通过跳过连接将本地化的特征合并到由MLU中的Transformer逐步生成的全局令牌中。为了确定局部特征在ET-Net中的作用,我们通过去除跳跃连接进行了烧蚀实验,并以MSE,SSIM和LPIPS的形式报告了实验结果更多-此外,我们还在E2VID模型上执行这种消融,其采用UNet [31]设计之后的跳过连接。ET-Net-4-s4和E2 VID-res 12变体都被用来进行实验,它们共享相似数量的参数。该实验在MVSEC数据集上进行如表6所示,具有跳过连接的两个变体优于没有跳过连接的那些变体,带来15%的平均改进值得注意的是,我们的ET-Net在w/ skip和w/o skip设置下都比E2 VID实现了更好的性能,这强烈地加强了全球背景在我们的ET-Net中的重要性5. 结论在本 文中, 我们提 出了ET-Net ,一 个新的 基于Transformer的框架,以解决基于事件的视频重构问题的第一次。将CNN与Transformer相结合,ET-Net具有最大限度地挖掘CNN和Transformer各自优势的潜力此外,我们还提出了TPA模块来执行多尺度令牌集成。通过CNN提取的金字塔低级特征的输入,TPA使用视觉令牌表示2-D特征,并学习在令牌空间而不是卷积运算符中直接关联语义概念。大量的实验表明,我们提出的网络在多个数据集上实现了优于最先进方法的性能,为基于事件的视频重建开辟了一条新的途径。然而 ,虽然 ET-Net 显示 出显着 的改进 ,但由 于Transformer中复杂的自注意力计算,推理时间和模型内存消耗比基于CNN的模型占用更多。在未来,我们将进一步应用知识蒸馏和模型prun- ing技术,以促进我们的模型。鸣 谢 。 我 们 感 谢 国 家 重 点 研 发 计 划( 2017YFA0700800 ) 和 国 家 自 然 科 学 基 金(61901435)的资助。2571×引用[1] https://www.cedricscheerlinck.com/.6[2] http://rpg.ifi.uzh.ch/E2VID。 6[3] https://timostoff.github.io/20ecnn网站。6[4] Patrick Bardow , Andrew J Davison , and StefanLeutenegger.从事件照相机的同时光流和强度估计。在IEEE计算机视觉和模式识别会议论文集,第884-892页,2016年。一、二[5] Christian Brandli,Raphael Berner,Minhao Yang,Shih-Chii Liu,and Tobi Delbruck.240 180 130 db 3µ s延迟全局快门时空视觉传感器。IEEE Journal of Solid-StateCircuits,49(10):2333-2341,2014. 5[6] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。二、四[7] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。在IEEE计算机视觉和模式识别会议的Proceedings中,第12299-12310页2[8] Zihang Dai , Zhilin Yang , Yiming Yang , JaimeCarbonell , Quoc Le , andRuslan Salakhutdinov.Transformer-XL:超越固定长度上下文的意向语言模型。在计算语言学协会第57届年会的会议记录中,第2978-2988页,意大利佛罗伦萨,2019年7月。计算语言学协会。2[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT:用于语言理解的深度双向变换器的预训练。在计算语言学协会第57届年会的会议记录中,第4171-4186页,明尼苏达州明尼阿波利斯,2019年6月。计算语言学协会。2[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器ICLR,2021年。二、四[11] Muhammad Haris Gregory Shakhnarovich 和 NorimichiUkita。用于视频超分辨率的递归反投影网络。在IEEE计算机视觉和模式识别集,第3897-3906页,2019年。1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition,第770-778页,2016中。1[13] Huaiizu Jiang , Deqing Sun , Varun Jampani , Ming-Hsuan Yang,Erik Learned-Miller,and Jan Kautz.超级斯洛莫:用于视频内插的多
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功