自适应流协作：视频帧内插的新翘曲模块方法

86 浏览量更新于2023-10-25 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5316AdaCoF：视频帧内插的自适应流协作Hyeongmin Lee1Taeoh Kim1Tae-young Chung1Daehyun Pak1Yuseok Ban2Sangyoun Lee11延世大学{minimonia，kto，tato0220，koasing，syleee}@yonsei.ac.kr2防卫开发ban@add.re.kr摘要视频帧内插是视频处理研究中最具挑战性的课题之一最近，已经提出了许多基于深度学习的研究。这些方法中的大多数然而，他们中的许多人有自由度（DoF）的限制，并未能处理复杂的运动中发现的现实世界的视频。为了解决这个问题，我们提出了一个新的翘曲模块命名为自适应流协作（AdaCoF）。我们的方法估计每个目标像素的内核权重和偏移向量来合成输出帧。与其他方法相比，AdaCoF是最通用的翘曲模块之一，并且涵盖了其中的大多数作为其特例。因此，它可以处理相当宽的复杂运动域。为了进一步完善我们的框架(a)基于内核的方法��−1日本+1(c)内核与流的结合(b)基于流程的方法��−1日本+1(d)我们并合成更真实的输出，我们引入了仅适用于视频帧插值任务的双帧对抗性损失。实验结果表明，我们的方法优于国家的最先进的方法固定的训练集环境和米德尔伯里基准。我们的源代码可在github.com/HyeongminLEE/AdaCoF-pytorch上获得。1. 介绍在提供连续帧的情况下合成中间帧是视频处理领域的主要研究课题之一。使用帧插值算法，我们可以从普通视频中获得慢动作视频，而无需使用专业的高速摄像机。此外，我们可以自由地转换视频的帧速率，因此它可以应用于视频编码系统。插值视频的中间帧需要了解运动，这与图像像素插值不同。不幸的是，现实世界的视频不仅包含简单的动作，而且还包含大型和复杂的动作，使得任务图1：主流和我们的方法的总体描述。每个图的蓝色部分表示用于生成目标像素的参考点。明显更困难。大多数方法将视频帧内插定义为寻找输入帧中的参考位置的问题，所述参考位置包括用于估计每个输出像素值的信息。这可以被视为运动估计过程，因为该任务涉及跟踪目标像素的路径因此，每种算法都覆盖其自身的运动域，并且该区域直接与性能相关。为了处理真实世界视频中的运动，我们需要一个通用的操作，可以引用输入帧中任何位置的任何数量然而，大多数现有的方法在自由度（DoF）方面具有各种限制一种是基于内核的方法（图1（a））[34，35]，其自适应地估计每个像素的大尺寸内核，并通过将内核与输入卷积来合成中间帧这种方法通过给像素分配较大的权重来找到合适的参考位置��−1日本+1��−1日本+15317感兴趣然而，它不涉及任何位置，因为它不能处理超出内核大小的大运动。即使运动很小，保持核的大尺寸是不有效的第二种方法是基于流的方法（图 1（b））[20，27]，其估计直接指向每个输出像素的参考位置的流矢量。然而，它不能引用任何数量的像素，因为在每个输入帧中仅引用一个位置。因此，它不适用于复杂的运动，并且当输入帧是低质量的时，结果可能遭受缺乏信息。最近，提出了将基于内核的方法和基于流的方法相结合的方法，以补偿彼此它们将核与流向量所指向的位置相乘。因此，它们可以引用任何位置加上一些额外的相邻像素。然而，这种方法与基于流的方法没有太大的不同，因为它使用比基于内核的方法明显更少的此外，在DoF方面存在改进的空间，因为内核的形状是固定的正方形。在本文中，我们提出了一种操作，涉及到任何数量的像素和任何位置称为自适应协作流（AdaCoF）。为了合成一个目标像素，我们估计多个流，称为偏移向量，指向参考位置和采样它们。然后通过线性组合采样值来获得我们的方法受到可变形卷积（Def- Conv）[8]的启发，但AdaCoF在某些方面与它有显着不同。首先，DefConv对于所有位置都有一个共享权重，并且它不适合视频，因为在帧的每个位置都有各种运动。因此，我们允许的权重是空间自适应的。第二，AdaCoF被用作帧扭曲的独立模块，而不是像DefConv那样用于特征提取因此，我们将权重作为神经网络的输出，而不是将它们作为可学习的参数进行训练。第三，我们添加扩展的偏移向量的起始点，以强制他们搜索更宽的区域。最后，我们添加遮挡掩模，以在参考像素中的一个被遮挡时仅利用两个输入帧中的一个。如图1（d）所示，它可以指输入帧中任何位置内的任何数字，因为内核的大小和形状不是固定的。因此，我们的方法具有最高的自由度相比，大多数其他竞争算法，因此可以处理各种复杂的运动在现实世界的视频。为了使合成帧更真实，我们进一步训练鉴别器以检测给定输出和输入帧中的一个所生成的帧然后，我们使用双帧对抗性损失来训练生成器以最大化熵。在各种基准测试上的实验结果表明，AdaCoF的有效性超过了最新的国家的最先进的方法。2. 相关工作大多数经典的视频帧插值方法使用光流算法[12，19，44，46]估计密集流图并扭曲输入帧[1，4，47，50]。因此，这些方法的性能在很大程度上取决于光流算法。此外，基于光流的方法在许多情况下具有限制，诸如遮挡、大运动和亮度变化。尽管存在一些不使用外部光流模块的方法[25，29]，但它们仍然难以处理这些问题。 Meyer等人 [32]将视频帧视为具有不同方向和频率的小波的线性组合。这种方法插值每个小波该方法在性能和运行时间上都有他们最近的工作也将深度学习应用于这种方法[31]。然而，对于高频分量的大运动，它仍然具有限制。最近的工作已经证明了在计算机视觉领域应用深度学习的成功[10，14，18，21，23，41]，这反过来又激发了各种基于深度学习的帧内插方法。由于我们训练神经网络所需的全部内容是三个连续的视频帧，因此基于学习的方法适用于此任务。Long等人。 [28]提出了一种CNN架构，该架构使用两个输入帧并直接估计中间帧。然而，这种类型的方法通常导致模糊的结果。一些其他方法集中于从输入帧中在哪里找到输出像素，而不是直接估计图像。该范例基于以下事实：即使在遮挡的情况 Niklaus等人 [34]估计每个位置的核，并通过在输入片上卷积它来获得输出像素。每个内核通过选择性地组合适当的输入像素来对它们进行采样。然而，这需要大量的存储器，并且为每个像素估计大的内核Niklaus等人。 [35]通过从两个向量的外积估计每个核来解决这个问题然而，这种方法不能处理大于核大小的运动，并且对于小运动估计大核仍然是Liu等人。 [27]估计了一个由直接指向参考位置的向量组成的流图。它们根据流图对适当的像素进行采样。然而，由于它们假设向前和向后的流动是相同的，因此难以处理复杂的运动。 Jiang等人 [20]提出了一个类似的算法，但他们分别估计前向流和后向流。它们还通过定义翘曲损失来改进流动计算阶段。然而，从每个帧中仅获得一个像素值可能是有风险的，尤其是当输入补丁质量差时。为了解决这些问题，Reda等人 [38]和Bao等人 [3]结合了基于内核和流图的方法。他们多起来5318具有由流动矢量指向的位置的小尺寸内核。然而，参考点仍然被限制在小区域中，因为内核保持其正方形形状，这导致低DoF。有一些方法使用附加信息来解决视频帧内插中的问题。Niklaus等人。 [33]利用ResNet-18 [18]中的上下文信息来实现信息插值，并成功获得高质量的结果。此外，Bao等人 [2]使用从沙漏架构[6]估计的深度图来解决遮挡问题。最后，Liu等人。 [26]通过循环一致性损失和额外的边缘图获得了更好的性能。这些方法可以独立地应用于许多其他算法，包括我们的方法。3. 该方法3.1. 视频帧插值给定连续视频帧In和In+1，其中n∈Z是一个帧索引，我们的目标是找到中间帧我出局了。从In和In+1可以得到产生I所需的所有信息。因此，我们所要做的就是找到它们之间的关系我们认为，(a)d= 0（b）d= 1（c）d= 2图2：各种扩张下AdaCoF的偏移矢量图示3.2. 流的自适应协作让框架从我是我是扭曲。当我们将T定义为一个经典的conv解时，我们可以将I写成如下。F−1F−1Ik（i，j）=Wk，I I（i+k，j+1），（3）k=0l =0其中F是核大小，Wk，l是核权重。输入图像I被认为是被填充的，使得原始输入和输出大小相等。可变形卷积[8]将偏移向量pk，l=（αk，l，βk，l）添加到经典卷积中，如下所示。从In的翘曲操作T我n+1个到I出来. 为I（i，j）=F−1F−1WI（i+k+α，j+l+β）（4）对于前向和后向保序运算Tf和Tb，我们可以把Iout看作Tf（In）和Tb（In+1）的组合。k=0l =0k，lk，lk，l如下Iut=Tf（In）+Tb（In+1）（1）与经典的可变形卷积不同，AdaCoF不会在不同的像素上共享内核权重因此，内核权重Wk，l的符号应写成如下。F−1F−1帧内插任务导致如何找到空间变换T我们采用了一种称为自适应流协作（AdaCoF）的新操作I（i，j）=k=0l =0Wk，l（i，j）I（i+k+αk，l，j+l+βk，l）（五）其将输入图像与每个输出像素的自适应核权重和偏移向量进行卷积遮挡推理。假设输入和输出图像大小都是M×N。在遮挡的情况下，目标像素将在输入图像中的一个中不可见。因此，我们定义了遮挡映射V∈[0，1]M×N，并修改了方程（1）如下。Iout=V<$Tf（In）+（J-V）<$Tb（In+1），（2）偏移值αk ， l和βk ， l可以不是整数值。换句话说，（αk，l，βk，l）可以指向任意位置，而不仅仅是网格点。因此，必须定义任何位置的I的像素值我们使用双线性插值来获得非网格位置的值作为DCN [8]。它还使模块可区分;因此，整个网络可以端到端训练。扩张。我们发现，扩大偏移向量的起始点有助于AdaCoF探索更宽的区域，如图2所示。因此，我们添加伸缩项d∈ {0，1，2，. 操作如下。其中⊙是逐像素乘法，J是一个M×N矩阵。对于目标像素（i，j），V（i，j）= 1意味着像素仅在In中可见，并且V（i，j）= 0意味着像素仅在In+1中可见。I（i，j）=F−1F−1k=0l =0Wk，l5319（ i，j） I（ i+ dk+ αk，l，j+ dl+ βk，l）（六）5320↔��X3↕��AdaCoF↔��↕��⨀AdaCoF平均池SoftmaxSigmoid上采样ConvReLU图3：神经网络架构。该模型由三个主要部分组成：U-Net、子网络和自适应流协作（AdaCoF）。U-Net架构从输入图像中提取特征。然后，子网络从提取的特征估计AdaCoF所需的参数每个子网络的输出输出像素的每个参数组被获得为沿着通道轴的1D矢量AdaCoF部分使用输入帧和参数来合成中间帧。3.3. 网络架构我们设计了一个全卷积神经网络可以使用102范数，但已知在大多数情况下，其估计核权重Wk，l，偏移矢量图像合成任务[16，28，30，43]。以下Liu等人。 [27]，我们使用Charbonnier函数Φ（x）=（α k，l，β k，l）和遮挡图V。因此，任何视频帧大小可以用作输入。此外，由于神经网络的每个模块都是可微的，因此它是端到端可训练的。我们的神经网络从U- Net架构开始，它由编码器，解码器和跳过连接组成[39]。每个处理单元基本上都包括-支持3× 3卷积和ReLU激活。在编码器部分，我们使用平均池来提取特征.对于解码器部分，我们使用双线性插值进行上采样。在U-Net架构之后，七个子网络最终估计输出（每个帧的Wk，l，αk，l，βk，l和V）。我们对V使用S形激活来满足V ∈[0，1]M×N. 此外，由于权重Wk，l对于每个像素必须是非负的并且必须相加为1，softmax层用于约束。图3中描述了网络的更具体的架构。3.4. 目标函数损失函数。首先，我们必须减少模型输出Iout和地面实况Igt之间的差异。我们使用如下的损失的101L1=Iout−Igt1（7）（x2+x2）1/2，其中x2= 0。001。感知损失。已经发现感知损失在产生视觉上更逼真的输出方面是有效的[11，21，51]。我们使用ImageNet预训练VGG16网络的conv4 3中的特征提取器F添加感知损失Lvgg=<$F（Iout）− F（Igt）<$2（8）双帧对抗性损失。众所周知，训练具有对抗性损失的网络[15]可以导致更高质量和清晰度的结果，而不是增加均方误差[24，5]。这可以应用于视频帧插值任务。然而，简单地将其应用于单个输出帧不考虑时间一致性，并且导致与输入帧相比不同的结果我们想要的是使合成帧在相邻帧中自然出现因此，我们以时间顺序连接生成的帧和输入帧之一，并训练判别器C以区分这两个帧中的哪一个是具有以下损失的生成的帧。−LC= log（C（[In，Iout]））+log（1−C（[Iout，In+1]）），（9）ReLUConv5321Middlebury UCF101 DAVISMiddlebury UCF101 DAVISPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIMPSNRSSIM我们的-fb32.8790.95633.4490.96724.7870.828F= 132.8790.95633.4490.96724.7870.828我们的-kb34.7620.97234.6890.97325.8020.854F= 335.2120.97534.7280.97326.5350.867我们的-ws35.4120.97634.9010.97326.6230.866F= 535.7150.97835.0630.97426.6360.868我们的-woocc35.4710.97534.9070.97326.4820.863我们的-sdc34.9730.97234.6730.97426.3670.866我们的-vgg35.6940.97734.9730.97326.7730.869我们35.7150.97835.0630.97426.6360.868表1：翘曲手术的消融研究结果。其中[·]是连接。然后我们训练主网络以最大化不确定性，即，熵，具有以下损失的判别器。这个想法的灵感来自于一些以前的作品[9，13]。2019 -05 - 2900：00：002019 - 06 -2500：00：002019-04-2510：00：00表2：关于核大小F的实验结果。Middlebury UCF 101 DAVISLadv=C（[In，Iout]）log（C（[In，Iout]））+C（[Iout，In+1]）log（C（[Iout，In+1]））（十）表3：关于扩张d的Niklaus等人 [35]。使用RTX 2080 Ti GPU，需要0.21因此，网络旨在生成与相邻输入帧相比真实的输出。最后，我们将上述损失组合成两个版本的目标函数：失真导向损失（Ld）和感知导向损失（Lp）如下。Ld=L1，（11）Lp=λ1L1+λvggLvgg+λadvLadv，（12）对于面向感知的版本，我们首先用Ld训练网络，然后用Lp对其进行微调。4. 实验4.1. 实验设置学习策略。我们使用AdaMax优化器训练我们的神经网络[22]，其中β1= 0。9，β2= 0。999学习率最初为0.001，每20个epoch衰减一半。批量大小为4，网络训练50个epoch。训练数据集。我们使用Vimeo90K [49]数据集进行训练。它包含51，312个256×448视频帧的三元组。为了增强数据集，我们从原始图像中随机裁剪256×256块补丁我们还消除了通过水平翻转、垂直翻转和交换概率为0.5的帧的顺序来消除由于先验而导致的偏差。计算问题。我们的方法是使用PyTorch实现的[36]。为了实现AdaCoF层，我们使用CUDA和cuDNN [7]进行并行处理。我们将内核大小设置为5×5，所有权重都设置为-集合和遮挡贴图需要0.94 GB的内存，1080p视频帧。这是70%的需求，PSNRSSIMPSNRSSIMPSNRSSIMd= 035.4890.97735.0320.97426.7100.870d= 135.7150.97835.0630.97426.6360.868D= 235.8760.98035.0990.97426.9100.8705322秒来合成1280 ×720帧。评估设置。用于实验的测试数据集是Middlebury数据集[1]，有些是随机的来自UCF101 [42]和DAVIS数据集[37]的采样序列。我们通过测量所有测试数据集的PSNR（峰值信噪比）和SSIM（结构相似性）[45]来对于本节中的所有表，红色数字表示最佳性能，蓝色数字表示次佳性能。4.2. 消融研究我们根据五个关键词分析每个模块的贡献：扭曲操作、感知损失、内核大小、膨胀和对抗损失。翘曲操作。为了验证更高的自由度会带来更好的性能，我们修复了骨干网络，并将AdaCoF替换为其他一些较低的扭曲操作。DoF. 我们用Ld训练所有版本的warping操作，内核大小固定为5，除了我们的-fb。• 我们的-fb：为了比较AdaCoF和基于流的ap-proaches，我们将内核大小设置为1。• 我们的-kb：SepConv [35]是最具代表性的基于内核的方法之一。但因其不包含遮挡贴图，比较不公平。因此，我们用遮挡图训练了一个新的SepConv网络• 我们的-sdc：为了将我们的算法与内核和流组合方法进行比较，我们利用空间离散卷积（SDC）[38]代替AdaCoF。• Ours-ws：变形卷积和AdaCoF之间的区别之一是我们的算法不共享图像所有位置的权重。在那里-因此，我们将其与重量共享版本进行比较。5323爱你爱你AVERAGEMequon Schefflera Urban Teddy Backyard Basketball Dumptruck Evergreen IE NIE IE IE NIE IEIE IE NIE IENIE[48]第四十八话5.830.872.890.593.47 0.623.661.245.200.9410.200.986.131.097.360.707.75 0.78[46]第四十六话5.970.862.980.623.88 0.743.620.865.390.9911.001.045.911.027.140.637.80 0.96SepConv [35]5.610.832.520.543.560.674.171.075.411.0310.200.995.470.966.880.686.63 0.70[20]第二十话5.310.782.510.593.66 0.722.910.745.050.989.560.945.370.966.690.606.73 0.69CtxSyn [33]5.280.822.240.502.960.554.321.424.210.879.590.955.220.947.020.686.66 0.67[26]第二十六话4.200.732.260.643.190.672.760.724.970.958.000.913.360.874.550.534.480.52TOF-M [49]5.490.842.540.553.70 0.723.430.925.050.969.840.975.340.986.880.727.14 0.90DAIN [2]4.860.712.380.583.28 0.603.320.694.650.867.880.874.730.856.360.596.25 0.66MEMC-Net [3]5.000.742.390.593.36 0.643.370.804.840.888.550.884.700.856.400.646.37 0.63AdaCoF（我们的）4.750.732.410.603.100.593.480.844.840.928.680.904.130.845.770.585.600.57表4：Middlebury基准的评估结果。Middlebury UCF 101 DAVIS(a) Ours-Ld（b）Ours-Lp表5：使用固定训练数据集的评估结果• Ours-woocc：AdaCoF without occlusion map.通过简单地平均来自前向和后向扭曲的输出来获得中间帧。如表1所示，我们的扭曲操作优于其他具有较低自由度的操作特别地，我们可以发现Ours-sdc和Ours之间的PSNR差距大于Ours-kb和Ours-sdc之间的差距。这意味着将正方形的核打碎成任何形状比允许核自由移动更重要。感知损失。我们添加了3.4节中介绍的感知损失Lvgg，而没有对抗损失。我们设置λ vgg= 0。01.表1中的Ours-vgg行显示，PSNR一般仅在DAVIS数据集上降低和增加。这意味着感知损失提高了具有大而复杂运动的硬序列的鲁棒性。内核大小。我们用不同的核大小F∈ {1，3，5，7，9，11}来训练网络，这意味着使用了F2个如表2所示，较大的内核大小gen-通常导致更好的性能，并且PSNR随着F的增加而饱和。特别是，饱和是较早的UCF 101数据集，因为它包含相对较小的运动和低分辨率序列，使没有空间的性能提高。扩张。在第3.3节中，我们将膨胀添加到AdaCoF操作中，以强制偏移向量从更宽的区域开始。我们通过训练网络来检查膨胀的效果(c)WGAN-GP（d）TGAN图4：增加对抗性损失的结果。其中F= 5，d∈ {0，1，2}。d= 0意味着偏移矢量从相同的位置开始表3显示，较大的扩张通常导致较好的结果。尽我们所能从图6的第4 - 7列可以看出，在大运动的情况下，偏移因此，膨胀为它们提供了更好的初始化图6将在第4.5节中更详细地介绍。对抗性损失。为了获得视觉上更令人信服的结果，我们首先用Ld训练网络50个epochs，然后用Lp微调10个epochs，这在第3.4节中介绍。我们设定λ1= 0。01，λ vgg= 1，λ adv= 0。005。为了比较，我们将改变Ladv的版本训练为WGAN-GP损失[17]和TGAN损失[40]。然后我们将它们与建议的双帧对抗性损失（Ours-Lp）的结果进行视觉比较根据图4，对具有对抗性损失的网络进行微调可以增加结果的清晰度。然而，WGAN-GP和TGAN损失会对输出图像造成一些伪影，而我们的损失保留了帧的结构。PSNRSSIMPSNRSSIMPSNRSSIM重叠27.9680.87930.4450.93521.9220.740基于阶段[32]31.1170.93332.4540.95323.4650.800[28]第二十八话31.3460.94332.4370.96325.5700.852SepConv [35]35.5210.97734.7350.97326.2580.861DVF [27]34.3400.97134.4650.97225.8800.858[20]第二十话34.2340.97234.0550.97025.6990.858我们35.7150.97835.0630.97426.6360.868我们的+36.1390.98135.0480.97427.0700.8745324基于MIND SepConv DVF SuperSlomo Ours-LdOurs-Lp的地面实况重叠相位图5：具有大运动的样本序列的视觉比较（第1-第2行）和具有遮挡的样本序列的视觉比较（第3-第4行）。汽车的前部和后部都有遮挡区域4.3. 定量评价我们将我们的方法与简单重叠的结果和几种竞争算法进行比较，包括基于相位的[32]，MIND [28]，SepConv [35]，DVF [27]，[20]第20话我们评估我们的算法的两个版本。一个是F= 5，d= 1的基本版本（我们的），另一个是F= 11，d= 2的版本（我们的+）。为了进行公平的比较，我们修复了培训环境。我们实现了竞争算法，并使用第4.1节中介绍的训练数据集训练它们，通常为50个epoch。我们对三个测试数据集测量了每种算法的PSNR和SSIM结果示于表5中。根据该表，基于内核的方法（ SepConv ）通常比基于流的方法（ DVF ，SuperSlomo）性能更好。最后，我们的方法优于其他算法的所有测试数据集的高利润率。我们我们还将我们的结果上传到Middlebury Benchmark [1]，并将其与其他最新的最先进的算法进行比较。如表4所示，AdaCoF在Middlebury网站上所有已发表的方法中的IE（插值误差）和NIE（归一化插值误差）均排名第二此外，在IE中排名第一的CyclicGen [26]使用额外的边缘图来获得更清晰的结果，并且循环一致性损失正交适用于我们的方法。此外，在NIE中排名第一的DAIN [2]使用预训练的光流估计器和深度图，而我们的方法不需要任何额外的信息。最后，我们的方法显示出更好的性能与动态运动的数据，如篮球，自卸车和常青树。4.4. 视觉比较由于视频帧内插任务没有一个固定的答案，基于PSNR和SSIM的评估本身并不完美。因此，我们通过比较每个结果来定量评估方法。特别是，我们检查了我们的方法和其他最先进的算法如何处理在现实世界的视频中使运动复杂的两个主要障碍：大运动和咬合。大动作。当参考点位于远处时，搜索区域必须相应地扩大。因此，大运动问题是视频帧内插研究中最具挑战性的障碍之一图5的第一行和第二行显示了包括我们的方法在内的各种方法的估计结果。MIND、SepConv的结果往往是模糊的，DVF、Super- Slomo受到一些伪影的影响。与其他竞争算法相比，我们的方法更好地合成快速移动的对象。此外，面向感知的Ada-CoF（Ours-Lp）减轻对象的运动模糊。闭塞。中间帧中的大多数对象将出现在两个相邻帧中。然而，在遮挡的情况下，对象不出现在帧中的一个中因此，必须为每种情况选择合适的框架，这使得问题更加困难。在图5的第三和第四行中，汽车在其前部和后部引起遮挡。通过比较遮挡区域的估计图像，我们的方法比其他方法更好地处理遮挡问题。5325帧1帧2阻塞图平均流量1平均流量2变量流量1变量流量2图6：网络输出的各种可视化。4.5. 偏移可视化我们的方法估计一些参数，从内-F−1F−1把图像：核权重Wk，l，偏移向量Fv（i，j）=Wk，l（i，j）（Fm（i，j）−Pk，l）2（15）（αk，l，βk，l）和遮挡图V。以检查是否参数的行为如预期的那样，我们以各种方式可视化它们。此外，由于网络是通过自监督学习训练的，因此可以在没有任何监督的情况下获得可视化。因此，它们可以用于运动估计研究中的一些其他任务。闭塞图。图6的第三列示出了遮挡图V。为了处理遮挡，必须在每种情况下选择适当的帧。例如，在第二帧中找不到红色区域因此网络决定只考虑第一帧而不考虑第二帧。蓝色区域可以用同样的方式解释第二帧，绿色区域意味着没有遮挡。平均流量图。图6的第四列和第五列示出了每个像素的后向偏移矢量和前向偏移矢量的加权和我们称之为平均流量Fm，可以通过以下公式计算。pk，l=（αk，l，βk，l）（13）F−1F−1Fm（i，j）=Wk，l（i，j）pk，l（14）k=0l =0这意味着偏移矢量的总体趋势。因此，它们可能表现得像前向/后向光流，数字证明了这一点。这可以用作密集光流，并且也可以从其他基于流的算法（诸如DVF和SuperSlomo）获得。方差流图。图6的第六和第七列是后向和前向偏移向量的加权方差我们称之为方差流映射Fv，它们可以通过以下等式计算。k=0l=0此映射的较大值意味着像素的偏移向量更加分散，以便它可以引用更多像素。根据该图，更具有挑战性的位置（诸如大运动和遮挡区域）具有更大的变化值。因此，它可以被用作一种不确定性地图的一些运动估计任务。与平均流量图不同，它只能通过我们的方法获得。5. 结论本文指出，处理各种复杂运动的翘曲操作的自由度是视频帧内插中最关键的因素之一。然后，我们提出了一个新的操作称为自适应 Collabo- ration 的流量（AdaCoF）。这种方法是最一般化的，因为所有以前的方法是特殊版本的AdaCoF。AdaCoF操作所需的参数从端到端可训练的全卷积网络中获得。我们的实验表明，我们的方法优于大多数的竞争算法，即使在几个具有挑战性的情况下，如大的运动和遮挡。我们将网络输出可视化，以检查它们是否按预期运行，以及可视化的映射是否有意义，因此它们可以用于其他运动估计任务。鸣谢本研究得到了科学与信息通信技术部资助的韩国国家研究基金会（ NRF ）的高级集成智能识别（AIID）研发计划（NRF-2018 M3 E3 A1057289）的支持。5326引用[1] Simon Baker 、 Daniel Scharstein 、 JP Lewis 、 StefanRoth、Michael J Black和Richard Szeliski。光流数据库和评价方法。International Journal of Computer Vision，92（1）：1-31，2011。二、五、七[2] Wenbo Bao ， Wei-Sheng Lai ， Chao Ma ， XiaoyunZhang，Zhiyong Gao，and Ming-Hsuan Yang.深度感知视频帧插值。在IEEE计算机视觉和模式识别会议集，第3703- 3712页，2019年。三六七[3] Wenbo Bao，Wei-Sheng Lai，Xiaoyun Zhang，ZhiyongGao，Ming-Hsuan Yang.MEMC-NET：运动估计和运动补偿驱动的神经网络，用于视频插值和增强。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。二、六[4] John L Barron，David J Fleet和Steven S Beauchemin。光流技术的性能。国际计算机视觉杂志，12（1）：43-77，1994. 2[5] 约柴·布劳和托莫·麦克利。感知失真的权衡。在IEEE计算机视觉和模式识别会议论文集，第6228-6237页，2018年。4[6] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知。神经信息处理系统的进展，第730-738页，2016年。3[7] Sharan Chetlur，Cliff Woolley，Philippe Vandermersch，Jonathan Cohen ， John Tran ， Bryan Catanzaro 和 EvanShelhamer。cudnn：高效的深度学习原语。arXiv预印本arXiv：1410.0759，2014。5[8] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEEInternationalConferenceonComputerVision（ICCV），2017年10月。二、三[9] Emily L Denton等.从视频中分离表示的无监督学习神经信息处理系统的进展，第4414-4423页，2017年。5[10] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.使用深度卷积网络的图像超分辨率。IEEEtransactionsonpatternanalysisandmachineintelligence，38（2）：295-307，2016。2[11] Alexey Dosovitskiy和Thomas Brox基于深度网络生成具有感知相似性度量的图像。神经信息处理系统的进展，第658-666页，2016年4[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流。在IEEE计算机视觉国际会议（ICCV）中，2015年12月。2[13] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。5[14] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26724[16] Ross Goroshin，Michael F Mathieu，and Yann LeCun.学习在不确定性下线性化。 In C. Cortes ， N. D.Lawrence ， D. D. 李， M 。 Sugiyama 和 R. Garnett ，editors ， Advances in Neural Information ProcessingSystems 28，pages 1234Curran Associates，Inc. 2015. 4[17] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年。6[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。二、三[19] Eddy Ilg 、 Nikolaus Mayer 、 Tonmoy Saikia 、 MargretKeu- per、Alexey Dosovitskiy和Thomas Brox。流动网络2.0：利用深度网络的光流估计的演进。在IEEE计算机视觉和模式识别会议，第2卷，第6页，2017年。2[20] Huaiizu Jiang ， Deqing Sun ， Varun Jampani ， Ming-Hsuan Yang，Erik Learned-Miller，and Jan Kautz.超级斯洛莫：用于视频内插的多个中间帧的高质量估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。二六七[21] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。二、四[22] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。2[24] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， A

下载后可阅读完整内容，剩余1页未读，立即下载