事件训练的弱监督视频帧插值

195 浏览量更新于2023-10-13 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14589用事件训练弱监督视频帧插值Zhiyang Yu<$1，2，Yu ZhangXiang2，3，Deyuan Liu<$2，5，Dongqing Zou2，4，Xijun ChenXiang 1，Yebin Liu3，JimmyRen2，41哈尔滨工业大学，2商汤科技和Tetras.AI，3清华大学4上海交通大学清源研究院，5北京大学摘要基于事件的视频帧插值是有前途的事件摄像机捕捉密集的运动信号，可以大大促进运动感知合成。然而，训练用于该任务的现有框架需要具有同步事件的高帧率在这项工作中，我们展示了基于事件的帧插值可以在不需要高帧率视频的情况下进行训练。这是通过一种新的弱监督框架来实现的，该框架1）通过从事件中提取补充信息来校正图像外观对于后者，我们提出了亚像素注意力学习，它支持搜索高分辨率的对应关系，有效地在低分辨率的特征网格。虽然在低帧率视频上进行了训练，但我们的框架在GoPro数据集和新的基于真实事件的数据集上都优于用完全高帧率视频（和事件）训练的现有模型。代码、模型和数据集将在https://github.com/YU-Zhiyang/WEVI上提供。1. 介绍现代专用摄像机现在能够捕获高帧速率视频（例如，视频）。240 FPS对于索尼GoPro系列），让用户打造专业的慢动作效果。然而，大多数流行的设备，如智能手机，在克服硬件和软件设计上的各种挑战之前，仍然无法与它们竞争。因此，期望开发计算技术以从较低分辨率视频合成高时间分辨率视频视频插值的挑战中最重要的是由输入视频的时间采样率不足引起的运动损失。许多先前的工作线性或二次流[14，48]，相位模型[25，24]）或数据驱动模型[13，7，34，18，32]。†本研究是在商汤科技研究院实习期间完成的※ 通讯作者：张宇（ zhangyulb@gmail.com ）、陈锡军（chenxijun@hit.edu.cn）。图1.这项工作的动机。对于插值具有挑战性的现实世界视频，即使是最先进的二次视频插值（QVI）[48]也无法推断正确的运动。基于事件的方法（EDVI）[21]由于训练和测试之间的间隙而生成更好但仍然次优的重建。该方法能够直接在原始低帧率视频上进行训练，具有最佳的泛化性能。由于中间缺乏地面实况，输入帧被示出为参考。然而，尽管端到端学习视频插值的快速发展，但该任务本质上是不适定的，具有不能仅从输入帧的稀疏集合来平凡地解决的大的模糊性在这个时代，基于事件的传感器[20]开始在解决不适定的低级任务中发挥作用，例如去模糊[15，33]和帧插值[47，21]。事件摄像机以高时间分辨率和有限的功耗捕获每像素的强度变化，使其成为低帧率图像传感器的理想补充，具有捕获密集运动信号的能力[2]。尽管它的潜力，事件信号具有明显的模式差异时，与视频帧。在最近的作品[15，47，21]中，它主要是通过将事件转换为密集时间站点的图像空间表示来解决的然而，收集同步的训练事件和高帧率视频需要复杂的硬件14590∈我我我我我我我我我专用摄像机的校准;这就是为什么最近的方法[15，47，21]主要采用合成的训练数据。在这项工作中，我们提出了一个弱监督的帧工作的视频帧内插，绕过了需要高帧率的训练视频的事件。我们的框架不是合成训练，而是专门设计用于在具有事件流的低帧率视频上进行训练，从而提高了对真实数据的泛化能力（见图2）。1为例）。对于中间时刻的插值，我们首先用粗略的运动模型扭曲输入帧。然后通过融合从多个尺度的事件中提取的互补外观线索来校正这种生成的即时重建我们进一步利用时间上下文来改进第一阶段估计，具有轻量级变换器架构[45，50]。这取代了密集建模运动动力学的需要，这在低帧率训练的情况下是困难的，具有注意力机制。我们开发了新的注意力模块，从低分辨率特征网格中学习子像素偏移，以有效地提取准确的运动对应，而无需处理高分辨率特征的成本。尽管使用低帧率训练，但是所提出的框架在GroPro数据集[28]和由DAVIS240C相机捕获的新数据集[1]上都超过了用完全高帧率视频训练的最先进的基于图像和基于事件的模型总之，本文的贡献包括：1）提出了一种新的弱监督事件视频插值框架，它超越了现有的完全监督模型，具有更好的泛化能力; 2）在多尺度下自适应聚合图像和事件外观的补充外观融合; 3）支持在低分辨率网格上进行高分辨率对应学习的亚像素注意机制; 4）新的真实事件数据集及其基准测试结果，以促进基于事件的帧内插的未来研究。2. 相关工作视频帧内插通常通过从稀疏输入帧推断似然立即运动来解决。最近的大部分研究集中在推断一个单一的即时帧[30，23，24，29，4，9]。理论上，递归地应用单帧内插可以达到任何期望的帧速率，但效率低下，并且有累积错误的风险[14]。相反，密集视频插值需要连续的运动表示。它可以通过计算光流和拟合线性[14，30，34]，二次[48]或三次[7]轨迹模型来实现。另一个重要的主题是修复由场景几何形状的变化出现了各种提议，包括流的高斯重分布[48]、软溅射[30]、流细化[22]、上下文特征合并[29]。还有以数据驱动方式学习的运动表示，例如体素流[23]，深阶段模型[24]、特征流[11]、像素变化核[31，32，18，41]、任务特定流[49，16]。深度，语义和场景自适应线索进行了探索，以提高准确性[3，51，8]。在[39]中，循环一致性被探索为自由的自我监督，以减轻对高帧率训练视频的需求。然而，上述方法都解决了帧内插的不适定设置，其没有观察到输入帧之间的中间运动。基于事件的传感器[20]捕获时间上密集的信号，这些信号表示微秒级的局部像素强度的变化。它提供了通过提供具有同步事件相机的低帧速率图像传感器来对抗视频插值的病态的机会，该同步事件相机已经具有工业模型[1，2]。提出了基于事件的去模糊[33，47，15]和帧插值[21]的解决方案。在这些方法中，事件通过对图像和事件之间的物理关系进行建模来贡献最终图像结果，而深度网络在[47，15，21]中被探索以学习数据驱动的重建。为了训练这样的网络，需要高帧速率视频和同步事件，这在实践中难以收集并且在很大程度上被合成数据绕过。值得一提的是，事件本身可以在不需要图像的情况下重建视频[27，40，38，52]。然而，这种基于对比度的重建看起来不自然。与[15，21]类似，我们感兴趣的是使用事件作为指导，合成可能由高帧率图像传感器产生的自然外观视频。3. 方法3.1. 概述给定连续视频帧0和1，我们感兴趣的是内插任何中间帧t，其中t（0，1）是归一化的分数时刻。根据[47，15，21]，我们假设对于同一输入场景同时捕获的密集时空事件的可用性。对于在时间t的帧t，它给出在本地时间窗口处引起的事件Et 我们提出了一个两阶段的框架，该框架支持在连续的时间稀疏帧0，1，2的三元组上进行训练，但适用于推理期间的任意时刻。如图所示二、它由一个互补外观融合（ CAF ）网络和一个亚像素运动 Transformer（SMT）。在CAF中，我们首先将0和2扭曲到具有光流的中间帧，产生粗略对齐的重建，其中在流量估计不可靠的地方周围具有潜在的误差。CAF通过探索事件E1的互补线索来纠正这种错误。为此，双分支UNet分别消耗图像和事件，用自适应外观融合块（AAFB）在多个尺度上融合它们的解码器输出，并输出细化的插值结果1. 不像以前的作品[14，48，7]，这些作品与内部14591我我我↑×我我我x⊙··图2.我们的框架的管道，由两个阶段组成：互补外观融合和亚像素运动转移。见第3.1为精致。由于篇幅所限，我们将详细的层配置参考补充材料。最好用彩色看我们将CAF作为校正中间AP。对事件的忍耐。它通过消除运动建模的需要，确保在看不见的时刻泛化。为了进一步探索运动上下文，我们的框架的第二阶段被实现为Transformer [45，50，6]。它将（1，E1）视为查询和周围的观测（0，E0），（2，E2）作为支持存储器。子像素注意模块在查询和子像素注意模块之间找到准确的对应关系。存储器，通过该存储器，来自存储器的相关信息被检索并利用子像素块转移聚集，从而作为最后一步，我们将这些特征和第一阶段产生的解码特征与AAFB和残差块融合，以产生最终的细化插值结果。SMT利用具有注意力机制的运动上下文，与先前的工作[15，21]形成对比，该工作明确地对沿着密集的时间站点演化的运动动态进行建模。这样做在很大程度上缩小了培训和测试之间的差距，不需要联合国，xs=g。xs−1;fs，esΣ，s∈{1，2，3，4，5}，（1）其中， xs-1 表示 xs-1 的 2x 上采样版本，以匹配 re↑solution，fs和es是第s次图像和事件分支的比例。姓名首字母缩写-通过级联两个分支的最深编码器输出，然后进行11次卷积来获得x0为了有效地用图像和事件fea调制xs在目前的规模下，我们把fs，es看作是两种不同的基本重建视图。我们遵循学习的特征重正化[12，19]，该特征重正化在保持细粒度空间细节的同时对齐不同视图的特征分布。对于fs或es，我们用单独的卷积层处理它们，以学习空间变化的逐像素缩放和偏置sf和bf，或者se和be。我们将这些统计数据转移到融合特征，如下所示，即。.xs− µ（xs）Σee训练阶段的真实高帧率视频合成3.2. 互补外观融合（CAF）ye=↑ ↑σ（xs）↑⊙s+b，（2）为了创建CAF网络的输入，我们计算从0或2到1的前向光流[43]，通过该光流，输入图像通过前向渲染[44]进行扭曲以实现I0→1和I2→1。使用向前而不是向后的曲速-其中，µ（）和σ（）是在空间维度上计算的s的统计平均值和标准表示有一个↑mard产品。这样做的话，你就可以重写了xs与事件引起的信息。我们可以得到你的-ing，我们消除了在离开时进行遮挡填充的需要-↑显然，通过替换sf和bf转化为（2）。以供以后处理。与扭曲的输入图像一起的是堆叠的帧表示[46]（在Sect.3.4）的事件E1。如示于图2，CAF是一个两分支UNet，其每个分支处理一个特定的模态。为了有效地安排跨模态信息，我们自适应地融合解码器输出之间的图像和事件的多个级别的特征多尺度自适应融合。我们的融合模块受到最近高保真图像合成的启发，该高保真图像合成以粗到细的方式用传输的统计数据逐渐调制即时特征[35，17，19]。第s个尺度的融合特征（用Xs表示）递归地产生为：14592通常，由于快速的照度变化，事件对物理运动边界敏感对于无纹理区域，事件不如光流活跃和可靠这种补充线索与自适应软掩模m相结合由xs-1通过卷积和sigmoid层产生：↑y= ye⊙ m + yf（1 − m）。（三）步骤（2）和（3）完成单个融合通过，其总结在图1中。3.第三章。我们通过堆叠2个融合通道，并与3×3卷积交错来获得非线性14593我{|联系我们8∈ −¨00∥·∥¨¨×8×.Σ2πσ2−·02uTu2σ2¨¨Σ¨−¨{|{\d i s p l a y sty l e {\ f r a c { -}}接着是LeakyReLU非线性。所有这些操作构成我们的自适应外观融合块（即图中的AAFB。（2和（1）中的函数g（·））。3.3. 亚像素运动Transformer（SMT）我们采用了一个轻量级的Transformer来捕获上下文线索，以提高CAF的估计。如图在图2中，SMT通过将级联的图像和事件表示（，E）作为输入开始，然后将它们馈送到具有三个卷积块的共享编码器中，产生3尺度特征vs0，1，2。最深尺度和最低分辨率特征v2也被克隆和表示与k.对于（I0，E0）或（I2，E2），所得到的vs或vs被命名为值，而k0或k2被命名为keys。 F或（I1，E1），计算出的k1称为quer y。关键字、值和查询构成注意力模块的成分在一个变压器，经常用于记忆检索[42，26]。为了检索存储在值中的内存，我们在两个键映射上搜索查询映射k1的每个pixel的对应关系，我们以k0为例。由于我们使用的是输入分辨率为1的偏移指示原始图像中的大像素运动。因此，我们将对应搜索限制在每个像素周围的（2m+1）2局部窗口（m=3）给定像素站点i关于k1和f集p的空间[m，m]2，则相关性为测量为Euclidean距离对102归一化特征：2图3.所提出的自适应融合的一次通过过程，详情参见文本。在该图中，二阶多项式[36，10]，其全局最小值可以在封闭形式中实现。通过在学习中插入多项式拟合，它提供了正则化距离场形状的机会，并提供了亚像素级的精度。具体最后，我们从距离补丁中采样一个以p* 为中心的较小的局部（2n+1）2窗口（在我们的实现中n=1），用d表示。我们将局部距离场定义为d（u）= D0（i，p*+ u），u ∈ Z2∩ [−n，n]2.（5）为了使这个域在[−n，n]2上连续定义，我们拟合¨k¨（i）k（i+p）¨0局部二次曲面如下：D（i，p）=1k-k0（i+p）2¨2、（四）d（u）≈d（u）=1uTAu+bTu+c，（6）哪里2表示2范数。相关矩阵D0可用于聚集来自存储器值 VS的信息。传统的Transformer通过软编码来实现它，软编码对这种相关矩阵执行softmax归一化，并将知识作为所有位置处的值的加权和进行传输。对于图像合成，它可能会模糊直接的特征和退化的最终质量。这个问题由[53，50]通过硬编码解决，该硬编码计算最大亲和力的硬位置（此处为最小距离）并仅在这些位置收集值。但随着偏移p是在1分辨率上定义的，即使最佳偏移也可能无法很好地对准{vs}中的较高分辨率特征。2其中A假定为22正定矩阵，b为a是向量，并且c是偏置常数。这些条件使得（6）具有全局最小值的有效二次曲面。为了估计未知参数A、b和c，我们使用加权最小二乘法，根据u和d（u）之间的（2n+1）2个已知映射：minw（u）d（u）d（u）2，（7）A， b，cu其中权重w（u）可以用各种方式定义，e.G.空间高斯w（u）=1exp.年龄网格，其指示当向上采样到高分辨率时的改进的准确度。对于k1上的特征pix eli，硬注意力计算给出了k0上的匹配像素j，I.E. j=i+p*其中p*=arg minpD0（i，p）。以适当的方式，行元素D0（i，p）p[m，m]2可以被组织成一个（2m +1）2的距离片，其中p*对应于其最小值的索引。为了达到亚像素级，我们做了归纳偏置，即以p* 为中心的局部距离场可以通过连续表示很好地近似，参数为可以证明1，对于恒定权重w，A、b和c的元素都可以通过形式cTvec（d）简单地估计，其中c是取决于元素的恒定向量，vec（）表示向量化。这使得多项式拟合可微层易于实现并插入到网络中。然而，所估计的A并不保证是正定的，这一点我们简单地加以说明我们假设A的非对角元素为零，仅优化对角元素，并对它们进行1请查看我们的补充材料以了解详细的推导。亚像素注意力学习。我们介绍了一种解决方案，计算子像素级的偏移低分辨率的IM，14594·←000×0×--01111−−----00022max（0，）如果是负数。去除非对角参数使得（6）仅能够拟合各向同性表面;然而，通过将子像素拟合集成到网络训练中，距离场（5）的形状可以用反向传播正则化以弥补该限制。（6）的最优最小值采取以下形式.b（0）b（1） TBT个街区.第一块保持分辨率，而其他块顺序地将特征下采样2x。译码器采用对称跳接方式.在多尺度分支融合之后，最高分辨率的特征经过具有32个输出通道的两个卷积块以生成最终输出。对于SMT，我们直接继承[50]的相同特征提取器来生成键和值映射。损失函数。我们首先训练CAF收敛，然后u*=−A（0，0）+，−A（1，1）+、（8）固定其重量以训练SMT。对于两个阶段，碳-[5]在预测和地面实况之间其中ε是一个小常数，以避免除以零。在估计u*之后，我们将初始匹配位置移动j*j+u*，以注入所学习的子像素信息。亚像素块转移。通过前面的步骤，我们为k∈1上的每个pix eli获得k0上的匹配子pix el位置j∈，通过该位置，多尺度值vs被扭曲。假设第s个尺度vs的值映射是每个边界中k0的大小的t倍我们在Vs上裁剪以j* 为中心的t t块，并通过双线性插值来寻址子像素块索引这在循环所有is之后产生N t2张量zs，其然后通过在空间上组织k 1的N个站点上的补丁，将其重塑为v s的大小。它可以被看作是整数格上的补丁交换的子像素扩展[53，50]。在实践中，我们应用子像素拟合和补丁转移到k0和k2，产生转移值zs和zs。我们训练三元组中的中间帧是唯一的损失函数。推理。给定输入视频帧和要插值的中间时刻，我们定位最近的两个帧，并将它们向前渲染到目标时刻，以形成CAF的输入。为了扭曲中间结果，我们计算输入帧之间的光流[43]并为每个像素拟合二次运动模型，以便可以估计到目标时间的中间前向流读者可参考[48]了解更多详情。然而，如图所示，在节。4.3，CAF由于事件的指导而对运动模型的选择具有鲁棒性。4. 实验4.1. 实验设置0 2根据距离执行面片的硬选择.zs（i），如果D（i，p*）D（i，p*），2数据集。我们在两个数据集上评估了所提出的框架。Nah等人介绍的GoPro数据集。[28日]由720p高帧率视频组成，240FPS。我们1zs（i），否则为。它利用以下事实：-10的中间帧上的像素找到来自至少一个输入帧的对应关系[14]。跨阶段融合。如图2，检索到的时间上下文被并入以增强第一阶段估计。具体地，第s个尺度的z_s首先被重新整形为v_s的大小，从而产生多尺度扭曲的上下文值v~s。两个解码器的多尺度特征融合第一级CAF的分支进一步与v~s，使用利用残余块增强的另一自适应融合过程最高分辨率的融合特征被解码以产生输入的细化残差R11，给出结果I1*=I1+R1。3.4.实现细节事件表示。对于时刻t，我们将本地时间窗口（t τ，t+τ）量化为20个仓，其中τ是连续帧之间的时间间隔的一半。落入每个仓中的事件的极性逐像素地求和，并且被剪切到范围[10，10]以形成20通道张量Et。它类似于堆叠的事件表示[46]。架构对于CAF，我们构建了一个4尺度的两分支UNet，每个分支的编码器通过卷积将特征扩展到32，64，128，256，256通道按照官方数据集分割，使用22个视频进行训练-11、测试。GoPro数据集上以往作品的评价策略不一致：最近的基于事件的方法[15，21]采用10x插值，而许多基于图像的方法（例如，[14，48]）采用7x。为了公平起见，我们统一了10倍设置的评估。为此，我们对具有21个连续帧的训练序列进行采样，使用第1、第11和第21帧来形成稀疏训练三元组以训练我们的方法，而密集帧则相应地训练总共有4304个序列用于训练，1190个序列用于测试。我们遵循[15]并采用ESIM模拟器[37]来合成事件流。除了GoPro数据集之外，我们还介绍了一个使用DAVIS 240 C相机捕获的真实数据集[1]，名为SloMo-DVS。它由60个分段慢动作视频组成，具有同步的视频帧和事件流，涵盖室内，室外和实验室场景，如标准测试图表。为了提供定量比较，我们通过对9个连续帧进行采样来创建合成4x插值设置，其中第1、第5和第9帧用于形成我们的方法的训练三元组，并且完整序列用于训练完全监督的方法。总共有24500个序列用于训练，5115个序列用于测试。在这个数据集上，我们还通过对20个额外捕获的视频进行定性比较，评估了真实数据上的泛化行为，而没有下载。zs（i）=（九）14595×表1.比较GoPro数据集上的模型，以PSNR和SSIM测量粗体表示第一位，下划线表示第二位。监督方法高FPS视频[14][16][ 17][18] [19][19][19]高FPS视频+活动[14]第十四话：我的世界 QVI*[48] [21]第二十五话：低FPS视频+活动[33]第三十三话PSNR27.7929.54 27.3032.9131.1032.2532.7933.0729.6730.9028.4933.33SSIM0.8380.872 0.8360.9430.9170.9250.9400.9430.9270.9050.9200.940†TAMI还采用外部私有数据集进行训练。*将事件添加到网络输入中的增强变体。表2. 比较SloMo-DVS数据集上的模型，以PSNR和SSIM测量粗体表示顶部，下划线表示第二个。监督方法高FPS视频SloMo[14] QVI[48][16]第三届中国国际纺织品展览会高FPS视频+活动ETV[38]SloMo*[14]QVI*[48]EDVI [21] 低FPS视频+活动[33]第三十三话PSNR30.6930.9330.3830.7932.0633.4633.7033.6022.9534.17SSIM0.9150.9200.9140.9170.9360.9500.9530.9480.8280.952图4.在GoPro（顶部）和Slomo-DVS（底部）数据集上从不同方法生成的代表性结果最好在电子版中对本文进行比较与缩放。采样帧率最先进的方法。我们报告了9种有代表性的密集视频帧插值方法的基准测试结果，分为两组。基于图像的组由 SloMo [14] 、 DAIN [3] 、 QVI [48] 、 FLAVR[16]、和TAMI [7]，由没有事件的高帧视频训练基于事件的组包括EMD [15]，EDVI [21]和ETV [38]在高帧速率视频和事件上训练，以及免学习方法BHA [33]。由于原始ETV是纯粹基于事件的，因此其重建与缺乏数据集特定外观不可比较。为此，调整模型，使得在其推断步骤中的每个推断步骤中，输入视频中时间上最接近的2个帧与事件一起被馈送，并且在两个数据集上被微调。为了评估10倍插值，我们使用已发布的代码重新训练SloMo，DAIN和QVI，使用FLAVR在GoPro上，并在SloMo-DVS上重新训练。对于他们，我们保证原始结果的复制，并参考我们的补充材料的细节。对于TAMI和EMD，由于代码/模型不可用，我们复制原始结果。EDVI在两个数据集上重新训练，以进行公平比较（我们从作者那里获得代码）。培训详情。对于每个阶段，我们分别在GoPro上训练100和600个epoch，在SloMo-DVS上训练200和1000个epoch，两者都具有初始学习率5e-4，使用指数衰减策略。在GoPro数据集上，我们使用了一批16张裁剪为640张的图像480，而在SloMo-DVS上，一批128张图像没有裁剪。未进行数据扩充。Xavier初始化被用于所有可学习的权重。训练分布在 16 个 NVIDIAGTX1080 TI GPU上，大约需要50个GPU小时。14596图5.真实数据的定性比较在第一列（参考）我们将最近的输入帧可视化为参考，因为没有地面实况。我们建议读者观看我们的补充视频，以便对真实世界的视频插值进行更多的定性比较表3. 低帧率训练时的PSNR性能方法帧率SloMo*[14]高低QVI高*[48]低建议低GoPro32.79 三十一点四十33.0729.8833.33SloMo-DVS33.46 32.7633.7031.8034.17表4.分析性能设置CAF网络PSNRSSIM用cat.+conv.32.270.930仅使用图像分支29.430.882仅使用事件分支31.370.927完整模型32.470.9294.2. 与最新型号的基准结果。我们总结的结果表1和2，分别，其中提出的框架超过所有其他的PSNR，而表现与领先的SSIM。为了表明改进并不完全归因于事件的并入，我们通过在时刻t馈送相同的事件表示Et用于插值来训练SloMo和QVI的增强变体。在图4中，我们示出了不同方法的视觉比较。我们的方法恢复正确的场景几何形状（顶部），在快速运动的情况下保留对象结构（顶部），并恢复细节（底部）。与低帧率训练的比较。大多数以前的方法都是用高帧率视频训练的，而我们的训练框架只观察低帧率视频。为了展示我们的框架在低帧率训练下的优势，我们重新训练了两种性能最好的方法，SloMo*和QVI*，使用三元组来训练我们的方法，并在表3中报告了结果。它显示SloMo*的性能显著下降，而有趣的是，QVI*的性能显著下降。我们怀疑，由于QVI采用了更强大，因此灵活的运动模型，它需要更密集的视频帧进行必要的正则化。这个实验说明了我们的框架的优势，从低帧率视频学习运动。真实数据上的泛化行为。我们的方法最大的优点是它可以在图6.可视化CAF网络中自适应融合图像和事件外观特征的影响。低帧速率视频而不合成高帧速率训练数据，使其在应用于现实世界的视频插值时具有更好的泛化能力。为了说明这一点，我们在来自SloMo-DVS的附加实数序列上测试各种模型，进一步将其原始帧速率提高4倍。我们在图中显示。5，现有的方法在合成大小的数据上训练生成更多的伪影，特别是在快速运动视频上，而我们的方法没有。4.3. 性能分析在本节中，我们通过在GoPro数据集上进行的一系列实验来分析所提出的框架。分析CAF网络。为了证明互补外观融合（CAF）网络的几个关键设计的合理性，我们在表4中报告了几种设置下的结果。首先，我们评估所提出的融合机制的有效性，取代AFFB图。图2具有简单的特征连接，随后是卷积块。这显然使最终结果退化，证明了AFFB的优势。其次，我们还评估了图像和事件分支的贡献。消除任何一个分支都会导致性能损失，这表明图像和事件线索是互补的。想象学会的融合面具。我们进一步说明-14597∼∼∼表5.分析了SMT网络的性能ID 密钥类型值类型Att. 类型熔化阶段PSNR1图片+evt.图像subpix。两32.722图片+evt.事件subpix。两32.913图像图片+ evt.subpix。两33.014事件图片+ evt.subpix。两33.035图片+evt.图片+ evt.subpix。第一33.006图片+evt.图片+ evt.subpix。二32.567图片+evt.图片+ evt.硬两33.028图片+evt.图片+ evt.软两32.509图片+evt.图片+ evt.subpix。两33.33图中的互补效应。六、排除事件线索，前景风车没有重建好，由于其复杂的运动，这给现有的运动估计模型带来困难使用事件线索仅很好地解决了前景运动，然而背景由于在静态背景运动下缺乏事件证据而模糊融合掩模清楚地表达了这种适应性，识别出要解释的任一模态的区域。分析SMT网络。为了证明亚像素运动Transformer（SMT）网络的关键设计，我们改变了几个重要的构建块，并在表5中总结了最终结果。在第一组实验（ID 1）中4），我们的目标是看到图像和查询键匹配和值传递中的事件提示我们发现在键或值表示中隔离任何模态在第二组（ID5 -6）中，我们分析了从第一和第二阶段中提取的信息的贡献，通过从AAFB融合中移除任何一个结果表明，仅使用第二阶段上下文信息并没有取得良好的结果，证明了第一阶段外观校正的有效性。在最后一组（ID79）中，子像素注意力被替换为硬或软注意力。我们根据经验发现，软注意力并不像[50]中评论的那样有效。亚像素注意力比硬注意力提高大约0。3dB，示出了将子像素拟合集成到学习中的有效性。可视化贴片转移。在图7中，我们将输入帧到参考帧的扭曲结果可视化，其中扭曲场是从不同类型的注意力学习的。软注意导致模糊的结果，而硬注意产生更清晰的结果，但由于补丁位置的大步幅而学习块的子像素偏移以较少的伪影呈现更准确的转移。对运动模型选择的鲁棒性。初始化我们的CAF网络需要一个启发式的运动模型输入-把帧扭曲。默认情况下，我们采用二次模型[48]，但在图中。8我们展示了不太准确的模型的结果。我们用线性模型估计中间流，并将它们与二次模型估计我们评估建议的CAF和QVI，和一个变体的CAF，排除在输入中的事件图7.不同类型的注意导致斑片转移。图8.我们的方法和QVI的性能作为扭曲输入帧的运动模型的线性度的函数。完整CAF的PSNR的下降比其他的慢得多，表明事件引导带来了鲁棒性的运动模型的不准确性。5. 结论在这项工作中，我们提出了一个新的框架弱监督视频插值事件。我们配备了互补的外观融合块和运动变换器与亚像素的关注。仅使用低帧率视频进行训练，它在两个基准测试中达到了最先进的结果，并更好地推广到现实世界的视频。通过这项工作，我们的目标是提供一个新的例行训练基于事件的视觉以外的数据模拟，通过更好地探索事件线索它可以被进一步扩展以解决更多的任务，例如从事件中去模糊和深度/运动。14598引用[1] 戴维斯240规格。https://inivation.com/wp-content/uploads/2019/08/DAVIS240.pdf.访问时间：2021-02-24。二、五[2] 索尼和prophesee开发了一种基于事件的堆叠式视觉传感器，具有业界最小的像素和最高的 hdr 性能。https://www.sony.net/SonyInfo/News/Press/202002/20-0219E/.访问时间：2021- 02-24。一、二[3] W.包，W.- S.莱角，澳-地妈，X。Zhang，Z. Gao和M.-H.杨深度感知视频帧插值。在IEEE计算机视觉和模式识别会议（CVPR）中，第3703-3712页，2019年。二、六[4] W.包，W.- S.莱，X。Zhang，Z. Gao和M.- H.杨Memc-net：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI），43（3）：933-948，2021。2[5] P. 沙邦尼河 Blan c-F e'raud，G. Aubert和M. Bar-laud。计算成像的两个确定性半二次正则化算法。在国际图像处理会议（ICIP），第168-172页，1994中。5[6] H. Chen，Y. Wang，T. Guo，C. Xu，Y.邓氏Z. Liu，S.妈，C. Xu，C. Xu和W.高.预训练的图像处理Transformer。IEEE计算机视觉和模式识别会议（CVPR），2021。3[7] Z.奇河M. Nasiri，Z. Liu，J. Lu，J. Tang和K. N. Pla-taniotis。一次全部：具有高级运动建模的时间自适应多帧插值。在 European Conference on Computer Vision（ECCV），第12372卷，第107-123页一、二、六[8] M. Choi，J.崔，S。Baik，T.H. Kim和K.M. 李你经由元学习的场景自适应视频帧内插。在IEEE计算机视觉和模式识别会议（CVPR）中，第9441-9450页，2020年。2[9] M.崔，H。金湾，澳-地Han，N. Xu和K. M.李你通道注意力是所有你需要的视频帧插值。在AAAI人工智能会议（AAAI），第10663-10671页2[10] G. 去你的。用于方向和运动估计的多项式展开。博士论文，Linko¨ pingUni versity，瑞典，2002年。4[11] S.圭角王，英-地Chen和D.涛.特征流：通过结构到纹理生成的防错视频插值。在IEEE计算机视觉和模式识别会议中，第14001-14010页2[12] X. Huang和S.J. 贝隆吉具有自适应实例规范化的实时任意样式传输在IEEE International Conference on ComputerVision（ICCV），第15103[13] Z. Huang，T. Zhang，W.亨湾Shi和S.舟RIFE：视频帧插值的实时中间流估计。Arxiv预印本，2011.06294v2[cs.CV]，2020。1[14] H. Jiang，中国粘蝇D. Sun，V. Jampani，M.- H. Yang，E. G. Learned- Miller，and J.考茨超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议（CVPR），第9000-9008页，2018年。一、二、五、六、七[15] Z. Jiang，Y. Zhang，L. Zou，S. J. Ren，J. Lv，and Y.刘某学习基于事件的运动去模糊。在IEEE计算机视觉和模式识别会议（CVPR）中，第3317-3326页，2020年。一二三五六[16] T. Kalluri ， D.Pathak ， M.Chandraker 和 D. 交易。FLAVR：用于快速帧内插的流无关视频表示。IEEE计算机视觉和模式识别会议（CVPR），2021。二、六[17] T. Karras，S. Laine和T.艾拉一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），第4401-4410页，2019年。3[18] H.李，T. Kim，T.- Y. Chung，D. Pak，Y. Ban和S.李你Adacof：视频帧插值的自适应流协作。在2020年IEEE计算机视觉和模式识别会议（CVPR），第5315-5324页，2020年。一、二[19] L. Li，J. Bao，H. Yang，杨氏D. Chen和F.文先进的高保真身份交换伪造检测。在2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第5073-5082页，2020年。3[20] P.Lichtsteine r ， C. Posch 和 T. 德尔布鲁克。128×128120db 15µ s延迟异步时间对比视觉传感器。IEEE Jounral of Solid State Circuits ， 43 （ 2 ）： 566-576，2008. 一、二[21] S. Lin，J.张，J.潘，智-地Jiang，中国粘蝇D.Zou，Y.Wang，J.Chen和S. J. Ren学习事件驱动的视频去模糊和插值。在欧洲计算机视觉会议（ECCV），第12353卷，第695-710页，2020年。一二三五六[22] Y.-- L.刘玉- T. Liao，Y.- Y.林和Y Y.创.使用循环帧生成的深度视频帧内插。在AAAI人工智能会议（AAAI），第8794-8802页，2019年。2[23] Z. 柳河，巴西-地A. 是的X唐，Y。Liu和A.阿加瓦拉使用深体素流的视频帧合成在IEEE国际计算机视觉会议（ICCV），第44732[24] S.迈耶，A.杰卢阿湾McWilliams，A. Sorkine-Hornung，M. H. Gross和C.施罗德用于视频帧插值的相位网。在IEEE计算机视觉和模式识别会议（CVPR）中，第498一、二[25] S. Meyer，O.Wang，H.Zimmer，M.Grosse和A.Sorkine-Hornung基于相位的视频帧内插。在IEEE计算机视觉和模式识别会议（CVPR）中，第1410-1418页，2015年。1[26] A. H. Miller，A. Fisch，J. Dodge，A.- H. Karimi，A.Bor- des和J.韦斯顿用于直接读取文档的键值存储网络在EmpiricalMethodsinNaturalLanguageProcessing（EMNLP），第1400-1409页，2016中。4[27] G.蒙达角Reinbacher和T. Pock使用流形正则化的事件相机的实时强度图像重建 International Journal onComputer Vision（IJCV），126（12）：1381-1393，2018。2[28] S.不T H. Kim和K. M.李你用于动态场景去模糊的深度多尺度卷积神经网络。在14599IEEE计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载