基于深度学习的轻量级视频运动放大网络

10 浏览量更新于2023-10-15 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2041∼用于视频运动放大的轻量级网络Jasdeep Singh、Subrahmanyam Murala和G.计算机视觉与模式识别实验室印度理工学院Ropar，印度{jasdeep.19eez，subbumurala，raju} @ iitrpr.ac.in图1.球囊视频：显示了视频的第一帧，旁边显示了从红色条带中获取的时间切片，用于可视化球囊爆破运动。与输入相比，运动放大可以被感知为气球中的更多运动（在时间切片中也可见而其他方法会产生失真，如振铃伪影，虚假运动等（在红框中突出显示）。所提出的方法产生更好的放大率与更小的失真。(a)输入视频，（b）基于加速的方法[39]，（c）Jerk-Aware方法[30]，（d）各向异性方法[28]，（e）Oh等人。 [23]，（f）我们的基本模型，以及（g）我们的轻量级模型。请放大以获得更清晰的视图。https://github.com/jasdeep-singh-007/LightweightNetworkForVideoMotionMagnification摘要视频运动放大提供信息，以了解工业、医疗保健、体育等应用对象中存在的细微变化。大多数最先进的（SOTA）方法使用手工制作的带通滤波器，其需要运动放大的先验信息，产生振铃伪影和小放大率等。虽然其他人使用基于深度学习的技术来实现更高的放大率，但他们的输出受到人为引起的运动、失真、模糊等的影响。此外，SOTA方法在计算上是复杂的，这使得它们不太适合实时应用。为了解决这些问题，我们提出了基于深度学习的简单而有效的运动放大解决方案。所提出的方法使用特征共享和外观编码器，以获得更好的运动放大，具有更少的失真、伪像等。此外，为了减少噪声放大和其他不必要的变化，提出了基于代理模型的训练。一个计算轻量级的模型（0.12M参数）提出了与基础模型。所提出的模型的性能进行了测试定性和定量，与SOTA方法。结果表明，所提出的轻量级和基本模型的有效性超过现有的SOTA方法。1. 介绍对动态或静止物体中存在的细微运动的理解是一项非常具有挑战性的任务。例如，在投掷东西时发生轻微的皮肤变形，在呼吸时发生小的胸部运动，在移动时物体发生小的扭曲等。这些微小的有意义的动作用肉眼是很难看到的.例如，如图1所示，气球在爆破时产生的细微运动，用肉眼难以感知，但在放大的帧中容易看到。因此，视频中这些变化的放大变得重要，并导致许多工业和医疗保健应用[25]，[17]，[5]，[3]，[2]，[26]，[21]，[8]。但这些视频也包含在摄影过程中引入的噪声（低光照水平，高传感器增益，短曝光时间等）[28]。由于该噪声与微小变化处于相同水平，这使得难以区分感兴趣信号与噪声，并且使得运动放大任务更具挑战性。为了解决最初的运动放大的问题许多SOTA手工制作的方法都是基于时间滤波器的，在静态场景中得到了很好的结果[36]，[33]，[34]，但它们不能在动态场景中工作为了减轻这一点，2042后来[39]，[30]提出了可以在静态和动态场景中工作的方法。但它们的输出容易出现振铃伪影或放大倍数过小等问题。此外，他们的过滤器不是最佳的[23]。为了解决手工制作的过滤器的这些问题，提出了基于深度学习的方法[23]即使没有时间滤波器，它也显示出对噪声的一定鲁棒性，并且产生更高的放大倍数而没有振铃伪影。但它有一些局限性。• 他们从形状信息中提取运动信息，使网络对强度变化具有鲁棒性。但是，它们不能有效地分离形状信息和纹理信息。有时它会导致扭曲的中间特征，产生不必要的闪烁或上运动。• 它们的纹理特征有时会偏离输入纹理很多，这可能是造成某些帧中模糊失真的原因。• 他们没有考虑计算的复杂性.呼吸率监测等实时应用或需要时间受限输出的行业要求低延迟。目前基于深度学习的方法在不同的任务，如去盲，去模糊，对象检测[38]，[14]，[15] 等显示出用于实时应用的前景。受此启发，我们提出了一个轻量级的视频运动放大网络。我们提出的轻量级方法不会像[23]那样产生不必要的失真，并且对微小的运动敏感。在静态和动态场景中，它比SOTA方法产生更多的放大率。它有一个简单而高效的架构。此外，不同的实验做了显示的定性，定量分析，和物理精度的建议方法在comparison SOTA方法。建议工作的主要贡献如下：• 提出了一种用于视频运动放大的轻量级深度学习模型。• 提出了一种用于运动放大的特征共享编码器模块。该模块负责为运动提取生成适当的特征图，并在放大前减少噪声的影响。• 提出了一种外观编码器来提取跨帧的共同外观，其输出受到输入帧的限制。该模块负责输出的适当纹理合成。• 提出了一种基于代理模型的正则化损失，以减少运动特征中的噪声和其他不必要的变化的放大。在接下来的第2节中，将讨论与运动放大此外，在第3节中，详细解释了所提出的在第4节中，提供了自然视频和合成视频的定性和定量比较2. 相关工作最初，提出了两种不同的方法：1）基于欧拉的运动放大和2）基于拉格朗日的运动放大。欧拉[36]是一种基于滤波的方法，拉格朗日[19]是一种基于光流的运动放大方法。Liu等[19]建议首次使用基于拉格朗日的视频运动放大方法。他们假设在视频中，随着时间的推移在某些对象位置发生的变化可以使用光流来估计。它从帧中提取特征并跟踪这些特征以将其聚类为一组点，其中的变化被放大。但是在这个任务中计算光流是昂贵的。Flotho等人[9]提出了一种基于局部拉格朗日运动放大方法，该方法专门针对微观表情放大。与拉格朗日方法不同，基于欧拉的方法[36]，[33]，[34]，[39]，[30]不明确需要跟踪对象来检测固定点上的颜色和细微运动变化为了放大颜色变化，基于欧拉的方法[36]，[39]，[30]首先使用空间金字塔分解输入帧。他们使用高斯金字塔进行彩色放大，[33]，[34]，[39]，[30]使用复杂的可操纵金字塔[10]进行细微的运动放大。空间分解后，在每个金字塔级别上对每个像素应用时间滤波器。这些带通时间滤波器有助于选择需要放大的频率，并忽略噪声。它们在静态场景中生成良好的但是，它们不能区分视频中发生的静态运动和动态变化。因此，它们会在动态场景中生成扭曲、模糊的输出。最近，开发了不同的方法来解决这个问题[39]，[30]。它们忽略大的运动，只放大小的变化。然而，它们对细微变化的放大率很小，并且依赖于窄带滤波器来减轻噪声的影响。为了放大有意义的细微信号，Elgharibet al.[7]，Vermaet al. [31]，Kooijet al. [18]建议需要用户干预或特定环境方法。而其他方法独立于这些约束。Verma等人[32]应用局部拉普拉斯滤波器（LLP）[24]以便更好地进行空间分解并减少噪声和伪像。 Wu等[37]使用PCA分解输入帧，然后选择与需要放大的细微信号的空间变化最匹配的分量。但是，与主要组件中的其他变化相比，它需要更大的有意义的变化。Takeda等人 [28]建议使用分数2043各向异性（FA）放大有意义的细微运动并忽略无意义的运动。Takeda等人。 [29]提出了一种更准确的时间滤波，同时与先前的方法相比但是，所有这些方法都需要从视频到视频基础的超参数的微调此外，他们有小的放大倍率，他们没有考虑闭塞[23]等。为了解决与手工制作的过滤器相关的问题，最近提出了基于深度学习的方法[23]，[4]，[6]。 Chen等人[4]使用梯度上升来放大细微的颜色和运动变化，但它的放大率很小，需要大量的预处理。Nowara等人 [22]使用[4]并探讨运动放大作为恢复光电容积图的预处理任务的可能性Dorkenwald等人 [6]，解开形状和外观特征。但是，在不同的场景下生成输出，它需要在相应场景的视频上进行训练[6]。Oh等人 [23]提出使用合成数据来训练深度神经网络。它一次将两个帧和一个放大因子作为输入，以产生运动放大的输出帧。与仅使用两帧的其他方法[23]然而，有时它会产生虚假的运动。此外，这些方法在计算上是复杂的，这使得难以在不同的实时医疗保健或工业应用中使用它们。3. 该方法在随后的小节中，首先详细解释所提出的随后，讨论了最终的损失函数、训练数据集、过程以及所提出的基础和轻量级模型。3.1.网络架构我们提出了一个轻量级的基于深度学习的网络来放大视频中的细微动作。组成基于编码器-解码器的架构。它使用两个基于特征共享的编码器，将输入帧从图像空间转换到可以提取运动信息的特征空间手工制作的方法[33]，[34]，[39]，[30]使用复杂的可操纵金字塔来完成相同的任务。但是，Oh et al. [23]使用简单的编码器并将其特征赋予形状编码器以提取形状特征。它从形状特征中提取运动信息。为了将形状信息从图像特征中分离出来，在编码器之间进行正则化相反，我们让网络决定运动提取的编码特征空间。运动放大的一个主要问题是在放大有意义的变化的同时减少由于噪声、照明等引起的变化的影响。这是个难题。手工制作的方法[33]，[34]，[39]，[30]依赖于窄行带通滤波器（这需要关于关注的频率）。而Oh等人 [23]的方法假设噪声、不需要的照明等变化是强度变化的一部分，并且运动信息存在于形状变化中。因此，他们试图将形状与纹理表示（强度信息）分开。为此，在训练网络时，它们提供具有与未扰动帧相同的形状信息的强度扰动帧然后，他们采取L1损失跨扰动和未扰动的框架功能。他们假设强度变化的形状信息应该保持不变。他们采取这些形状特征之间的差异，放大它，并将其添加到纹理编码器功能。但他们的方法并不有效。它有时会导致扭曲的中间特征，从而产生闪烁或上运动。该方法采用特征共享编码器进行运动提取，采用基于代理模型的特征丢失和近似编码器丢失来降低放大前噪声的影响。网络训练中的去噪信号来自三个不同的地方：1）来自最终预测输出，2）基于正则化损失的常见外观，3）基于代理模型的特征损失。联合优化这些损失有助于减少运动放大中的噪声影响（下面的章节中给出了详细讨论）。操纵器将运动特征乘以放大因子（决定放大量操纵器输出被添加到共同外观编码器输出并且被给予解码器。解码器将中间特征转换到图像空间并生成最终的放大输出。图2（A）描述了所提出的模型。特征共享编码器（E（. 特征共享编码器用于降低放大前噪声的影响（解码器用于降低放大后噪声的影响）。我们假设不同的帧将具有不同的噪声。通过跨特征的级联操作，每个编码器将具有关于输入帧的信息和其他编码器的改进特征。该网络可以计算加权平均值，以减少照明，噪声等的影响。它还用于将输入从图像空间转换到特征空间以进行运动提取。与[23]不同，它的输出特征（Ea，Eb）不受正则化的限制。残差块[11]用于将输入帧映射到特征空间，在该特征空间中，通过采用如图3所示的特征差异来最大池用于对特征进行下采样，以减少计算量并增加感受野。特征共享编码器在图2（A）中示出。外观编码器（A）））：需要相关的纹理内容与运动信息相结合以生成放大帧。用于生成纹理内容，[23]2044× ×× ××× ×-××图2. （A）提出了用于运动放大的深度学习模型。它由特征共享编码器、外观编码器、操作器和解码器组成。Ft和Ft−1是两个连续的帧，Mf作为放大因子，作为网络的输入。Fo是放大的输出帧。具有3 3 48的残差块示出存在具有48个通道的3 3卷积滤波器，类似地对于具有3324的残差块。 Ea和Eb是特征共享编码器的输出特征，Ea′和Eb′是特征共享编码器的中间特征。（B）操纵器块上的代理模型特征损失。请放大以获得更清晰的视图。提出了一个正则化项，以尽量减少帧之间的纹理特征表示的差异。为了满足这个正则化项，具有不同输入的两个纹理编码器尝试生成共同的表示。但是这种表示可能偏离实际的纹理表示。我们假设这可能是有时产生纹理失真（模糊失真）为了解决这个问题，我们提出了外观编码器（A（。））。通常，放大帧与输入帧具有高度相关性，因为大多数对象是静止的。在A（. 我们利用这一事实来生成适当的纹理。外观编码器A（. ）特征和输入帧用于提取共同的外观特征。这也防止了可学习参数生成偏离Ft和Ft−1的特征。为了计算这种损失，没有噪声被添加到地面实况（输入帧）。因此，它也将迫使去噪特性在常见的纹理特征。这将有助于更好地生成输出。两个编码器中间特征Ea′ 和Eb′（如图所示在图2（A）中，作为两个编码器的输出）是连续的。catenated（表示级联操作），并作为外观编码器的输入给出。然后将残差块应用于它们以进行特征变换，以产生输出A（Ea′，Eb′）。正则化损失LA在输入帧Ft、Ft-1和外观编码器输出之间，putA（Ea′，Eb′）定义在等式中。（一）其中，n表示与3的卷积运算3 3过滤器和双曲正切激活。机械手（M（. ））：我们假设可以从编码器特征的差异中提取运动信息。这与[23]的假设有些不同，在[23]的假设中，他们假设可以从编码器形状特征的差异中提取运动信息操纵器（M）获得Ea和Eb的非线性变换的编码器共享特征作为输入。它取它们的差，并将它们乘以放大因子Mf。然后将这些特征赋予残差块以进行非线性变换，以生成输出M（（EaEb）Mf）（mipulator的结构类似于[23]）。图3示出了突出显示运动信息的特征共享编码器块的差异特征解码器：外观编码器和操纵器的组合输出提供给解码器，如图所示图3中的在解码器中，使用上采样之前的十个残差块，因为它们降低了计算要求并增加了感受野。上采样的特征通过三个残差块。最后，使用具有3 3滤波器大小和tanh激活的卷积层来生成放大输出Fo（解码器的结构类似于[23]）。LA=|<$（A（<$（Ea′，Eb′）−Ft）|1个以上|<$（A（<$（Ea′，Eb′）−Ft−1）|1（一）基于代理模型的特征丢失：代理模型与所提出的模型具有相同的架构，但它是经过训练的2045-×^∇Σ^×基于特征的损失可以定义如下：LM=|（（Ea−Eb）×Mf）−（（Ea−Eb）×Mf）|第一章（二）其中上标符号“”表示代理模型。最终损失函数：为了提高输出质量，我们考虑了L1损失、边间损失（Ledge）和感知损失（Lp）. L1损失计算预测标签y和地面实况y的像素级差异。L1损失如图所示图3. (a)描绘了输入帧，（b）示出了运动特征（在减去编码器特征之后）。这些特征突出了运动物体.而不增加噪音。（无噪声图像的）代理模型特征被视为理想特征，并且（具有噪声输入的）主要模型特征应该尝试接近它（也可以被视为教师-学生训练范例[12]，[20]，[13]，其中教师具有与学生相同的网络，但是教师网络用于将去噪信息传递给学生网络。特征空间）。在训练主模型时，代理模型权重是固定的。为了计算代理模型无噪声特征和主模型噪声特征之间的距离，使用L1损失。该特征空间损失仅对运动信息中存在的而外观编码器损失项对纹理中存在的噪声敏感，并且预测的输出损失项对放大的噪声敏感（特别是放大后可能导致大的变化因此，基于代理模型的特征丢失将有助于使运动信息更稳健。如图 2 （ B ）所示，在与放大因子（（EaEb）Mf）相减和相乘之后，在操纵器特征之间进行损失我们假设这将有助于防止由于噪声放大、照明变化等而产生的任何失真。代理模型L1=0|y−y|第一章（三）在运动放大问题中，L1损失对对象运动不太敏感，因为输出帧中的大部分区域没有运动。此外，L1中可能存在许多最小值，这些最小值在运动部分周围（边缘附近）产生模糊输出[35]。因此，为了更加关注输出的边缘，我们采用预测帧和真实帧的边缘之间的损失（L边缘）（如[1]中定义的）。L边缘，有助于使模型对重建的运动放大帧的边缘更敏感[1]。L边缘给出为L边缘=| ∇y − ∇y|1（4）示出了水平和垂直方向的有限差分，计算边的方向[1]。运动对象的纹理的另一个问题是仍然存在许多最小值，这些最小值可以给出低损失但具有差的感知质量。为此，需要更高维度的损失。因此，为了提高运动mag-帧的感知质量，我们使用感知损失（Lp）[16]以及L1和L边缘。Lp被给出为Lp=0|i（y）−|1（5）式中，VGG-16 [27]表示特征空间激活。所提出的网络的最终损耗（Ltotal）在等式中给出。（六）L总=λ1L1+λ2Lp+Ledge+LA+LM（6）其中λ1和λ2分别是L1损失和感知损失（Lp）的权重λ1=10。0，且λ2=0。1的值被认为是用于网络训练，并且它们是通过实验确定的。数据集和训练：所提出的模型，基础模型和轻量级模型在[23]提供的训练数据集上进行训练。在网络中，C通道主要用于层中，并且在下采样之后使用C2通道。对于基本型号C=24和轻型2046××图4.一个玩具在桌子上从右向左振动和移动。来自各个方法的时空切片取自红色条带。所提出的方法显示了更大的放大率（在红色边界框中突出显示了背景的更高运动）。（a）输入视频，（b）基于加速的方法[39]，（c）Jerk-Aware方法[30]，（d）各向异性方法[28]，（e）Oh等人。 [23]，（f）我们的基本模型，以及（g）我们的轻量级模型。表1. SOTA学习方法[23]与所提出的基础网络（M1）和轻量级网络（M2）在参数数量，FLOPS和运行时间方面的比较。(Run时间值在NVIDIA 2080 R TX上以720X720分辨率计算，以获得更高质量的输出）。模型参数GFLOPS运行时Oh等人[23日]0.98M268.695毫秒M11.10M375.5142毫秒M20.12 M42.438毫秒模型C=8。对于训练，学习率设置为.0001，并使用ADAM优化器模型被训练了47个epoch。所提出的轻量级模型具有7.6更少的参数和6.3与[23]相比，更少的触发器，如表1所示。4. 实验结果在真实生活和合成视频上对所提出的模型进行定性和定量评估此外，进行消融研究，以显示所提出的方法的不同方面。与最小的计算复杂度，所提出的轻量级模型提供了更好的结果比SOTA方法。详细讨论见以下各小节。4.1. 实时视频气球视频分析：在气球视频中，向气球发射水炮以使其破裂，如图1所示。由于这个原因，气球中的小运动随着其大的爆破运动而发展。我们的目标是放大微小的气球运动，同时产生最小的失真，由于突然的大运动。图1显示了气球在红色条带处随时间的运动。手工制作的方法[30，28，39]会产生振铃伪影沿着气球（在图1中，气球附近可见白色边缘，红色框中突出显示的颞叶切片中可见白色尖峰）。此外，Oh等人。[23]在某些帧中（在气球和背景对象中）产生模糊失真，在时间切片中可见为尖峰（图1时间切片中的红色边界框所示）。然而，所提出的方法显示出更好的放大率，球囊周围的失真更小。玩具视频分析：玩具视频如图4所示。在这个视频中，玩具随着振动在桌子上移动。我们的目标是在玩具线性运动（沿着桌子从左到右移动）的情况下，为玩具Jerk-aware [30]、Acceleration [39]和Anisotropy [28]方法产生的放大倍数较小。此外，加速度[39]和Oh等人[23]在输出中产生一些模糊。Oh等人 [23]的方法产生了良好的放大效果，但会导致虚假运动（图4（e）中红色框中可见的尖锐尖峰）。然而，与[30]，[39]，[28]，[23]相比，我们提出的模型可以更好地放大振动玩具枪击视频分析：图6显示了不同SOTA方法对枪击视频的结果。这段视频包含了一个大的背景运动，由于相机运动和快速枪后坐力产生的前地运动。我们的目标是在摄像机运动较大的情况下放大前臂的微小运动.图6示出了在红色条带处使用时空切片的前臂的运动。前臂运动越大，颞叶的弯曲程度越大（如图6的红框所与所提出的方法相比，Jerk感知方法[30]、各向异性[28]、加速度[39]方法产生较低的放大率。Oh等人的方法[23]在某些帧中诱导虚假运动并产生模糊失真（在Oh等人的方法中可见为大尖峰）。[23] tempo- ralslice）。然而，所提出的方法产生更高的放大倍数的细微前臂运动与更少的差异，2047图5.钻孔视频：比较所提出的方法与现有方法，以放大钻孔旋转运动。首先，示出了来自各个方法的输出，然后示出了它们相对于红色条带的时空切片所提出的方法产生更好的结果，更少的文物。（a）输入视频，（b）基于加速度的方法[39]，（c）Jerk-Aware方法[30]，（d）各向异性方法[28]，(e)Oh等人 [23]，（f）我们的基本模型，（g）我们的轻量级模型。图6.枪击视频：子弹穿过手臂的冲击力。我们在红条处拍摄颞叶切片，以显示放大对前臂的影响。建议的方法输出具有最高的放大率（在红框中显示为前臂的更多弯曲）。(a)输入视频，（b）基于加速的方法[39]，（c）Jerk-Aware方法[30]，（d）各向异性方法[28]，（e）Oh等人。 [23]，（f）我们的基本模型，以及（g）我们的轻量级模型。扭转，即使在大的相机运动的存在下，与SOTA方法相一致。旋转运动分析：图5示出了沿其轴线产生旋转运动的手钻。为了分析放大对旋转运动的影响，拍摄了静止视频。在2D中，手钻旋转运动可以被感知为螺旋运动。我们的目的是增加螺旋运动（更高的螺旋运动显示为杆半径的更多向外延伸手钻的旋转运动在图15. 基于手动设计滤波器的方法[30，28，39]在杆周围产生振铃伪影（如图5（b），（c），（d）中杆附近的白色边缘和颞切片中的白色尖峰）。Oh等人的方法[23]放大了运动，但在放大的帧中产生了一些失真（可观察到图5（e）时间切片中的白色尖峰）。与SOTA方法相比，我们提出的模型具有更好的放大率和更少的运动伪影。我们放大的输出是否物理上准确？为了检查所提出的方法的物理准确性，我们图7.物理精度：我们的方法和其他SOTA方法的输出（红色）与传感器信号（蓝色）之间的比较。计算补丁区域中的光流方向，以从视频中提取放大的信号（蓝色）(a)输入，（b）我们的基本模型（c）我们的轻量级模型，(d) Oh等人方法[23]（e）Jerk-aware方法[30]，（f）迭代方法[39]和（g）各向异性[28]方法。表2.各向异性[28]、Jerk-aware方法[30]、加速方法[39]、Oh等人方法[23]、我们的基本方法（M1）和我们的轻量级模型（M2）的SOTA方法的平均绝对误差（MAE）。在从放大视频提取的信号和传感器测量的信号之间计算MAE。所提出的方法具有最小的MAE值。（第一个最佳显示为粗体，第二个最佳显示为斜体。）方法[28日][30个][39]第三十九届[23日]M1M2Mae0.1460.1490.1460.1440.1210.131做这个实验。如图7所示的机械杆使用通用振动装置上下移动。采用超声波传感器，测量机械杆的位移信号，并将其记录在视频中。为了首先从视频中提取运动信号，通过沿着图7中红色框中标记的区域获取输入帧t-1和放大帧t来计算光流然后计算沿图像块的平均运动方向光流和传感器测量信号都从0重新调整为1。根据重新缩放的信号，平均绝对误差2048表3.分别在加速方法[39]、Jerk感知方法[30]、各向异性[28]、Oh等人的方法[23]、我们的基本方法（M1）和我们的轻量级模型（M2）上具有不同背景的合成视频的聚合均方误差（MSE）。所提出的方法具有最小的误差。（第一个最佳显示为粗体，第二个最佳显示为斜体。）方法[28日][30个][39]第三十九届[23日]M1M2MSE36.455.368.038.823.0727.8表4.在（a）没有基于代理模型的特征损失训练、（b）没有特征共享编码器、（c）没有出现编码器、（d）没有L边缘损失、（e）没有Lp损失和（e）我们的合成视频基础模型（M1）上跨合成视频计算的聚合均方误差（MSE）。该方法具有误差最小的特点.（第一个最好用粗体显示。）方法M1（一）（b）第（1）款（c）第（1）款（d）其他事项（e）MSE23.0727.8530.137.731.140.2(MAE)如表2所示，计算不同SOTA方法的。所提出的方法具有最小的MAE。4.2. 合成视频为了定量分析，我们生成了25个不同背景的合成视频。为了模拟照片噪声，高斯噪声也被加入到视频中.这将有助于了解每种方法在不同背景下的行为以及它们对噪声的鲁棒性。每个视频包含三个圆圈来模拟不同方向上的运动（一个水平，一个垂直，一个对角）。这将有助于分析不同的方法[30]，[23]，[28]和[39]如何单独放大运动。对于合成视频，我们选择一个简单的运动范围（上下，左右和圆周的对角线运动）。因为与复杂运动（圆的随机运动）相比，对于更简单的情况更容易生成准确的地面实况。输入视频包含具有0.1亚像素移动的圆，而地面实况具有10像素移动。对于不同的方法，为了产生相同的输出运动量，它们的放大系数是不同的.表3描述了不同SOTA方法[30]，[23]，[28]，[39]和我们的25个不同合成视频的平均MSE。我们的方法产生更好的结果与最小的aggre门MSE。消融术研究：对所提出的结构进行了烧蚀研究，以了解不同模块的重要性。为此，训练五个不同的模型：（a）没有基于代理模型的特征损失训练，（b）没有特征共享编码器，（c）没有外观编码器，（d）没有L边缘损失，以及（e）没有Lp损失。我们在合成视频上测试它们，并在表4. 所提出的方法显示了最小的MSE值。所提出的基于特征的代理损失用于减少不必要的变化的放大。基于损失的外观编码器有助于提供去噪信号，使网络对光照变化具有鲁棒性。此外，特征共享编码器用于减少噪声的影响。此外，外观编码器、L边缘和Lp损失有助于生成适当质量的放大帧。如表4所示，在训练过程中包括所有模块和损失之后，所提出的方法具有最小的MSE值。5. 限制Oh等人产生的数据集。[23]用于训练所提出的网络。由于数据集是合成的（由于真实地面实况的不可用），因此存在域间隙。由于手工方法忽略了快速大运动加速度和加加速度运动。而在数据集中，用于放大的最大输入像素位移高达10个像素。如果物体有不需要的细微运动，如雪或雨等进入这个输入范围，它们也会被放大。此外，手工制作的方法也可以放大颜色的变化。但SOTA深度学习方法仅用于运动放大（包括我们的）。杂合方法可以作为一个有趣的研究领域来探索，此外，深度学习方法会产生一些模糊和纹理平滑，以减少噪音的影响。因此，基本模型和轻量级模型之间存在差距。需要做更多的工作来进一步改进轻量级模型。6. 结论在本文中，我们提出了一个基于深度学习的视频运动放大模型。它包括基于代理模型的特征丢失、基于特征共享的编码器和基于正则化项的应用编码器，以减少噪声、光照等的影响，并细化运动特征。外观编码器还有助于提取输入帧中的常见外观，并将其与操纵器输出相结合，该输出被提供给解码器以产生放大帧。此外，一个轻量级的模型，降低了计算复杂性，提出了随着基础模型。所提出的模型的结果进行了定性和定量评估与SOTA方法的真实和合成视频。结果表明，所提出的模型表现出更好的定性和定量的运动放大比SOTA引用[1] MiikaAittala和Fre'doDurand。基于排列不变卷积神经网络的突发图像去模糊在2049欧洲计算机视觉会议论文集（ECCV），第731-747页[2] BiagioBrattoli，UtaB uüchler，Mich a elDor k en wald，PhilippReiser ， Linard Filli ， Fritjof Helmchen ， Anna-Sophia Wahl，andB joürnOmme r.使用深度学习的无监督行为分析和Nature Machine Intelligence，3（6）：495[3] 贾斯汀G陈，尼尔Wadhw a，Young-JinCha，弗雷杜兰德，威廉T弗里曼和口头Buyukozturk。通过高速摄像机视频进行结构模态识别：运动放大。模态分析专题I，第7，第191-197页。Springer，2014.[4] Weixuan Chen和Daniel McDuff. Deepmag：使用梯度上升的源特定变化放大。ACM事务处理图表，40（1），Sept. 2020年。[5] Abe Davis* ， Katherine L. 作者： Justin G. Chen ，MichaelRubinstein，OralBué yué koé ztué rk，Fre'doDurand，andWilliam T.弗里曼。视觉振动测量：从视频中的微小运动估计 IEEE Transactions on Pattern Analysis andMachine Intelligence，39（4）：732[6] Michael Dorkenwald，Uta Buchler，and Bjorn Ommer.受试者之间姿势偏差的未超视放大IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[7] Mohamed Elgharib，Mohamed Hefeeda，Fredo Durand，and Bill Freeman.存在大运动时的视频放大。在IEEE计算机视觉和模式识别会议中，第4119-4127页[8] Wenkang Fan，Zhuohui Zheng，Wankang Zeng，YinranChen，Hui-Qing Zeng，Hong Shi，and Xiongbiao Luo.使用鲁棒混合视频运动放大的机器人手术血管定位。IEEE Robotics and Automation Letters，6（2）：1567[9] Philipp Flotho ， Cosmas Heiss ， Gabriele Steidl ， andDaniel J Strauss. 拉格朗日运动放大率，稀疏光流分解arXiv预印本arXiv：2204.07636，2022。[10] William T Freeman，Edward H Adelson，等.可操纵滤波器的设计和使用。IEEE Transactions on Pattern analysisand machine intelligence，13（9）：891[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[12] Geoffrey Hinton，Oriol Vinyals，Jeff Dean，et al.提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2（7），2015。[13] Guanzhe Hong，Zhiyuan Mao，Xiaojun Lin，and StanleyH Chan. 学生-教师从干净输入到嘈杂输入的学习在IEEE/CVF计算机视觉和模式识别会议论文集，第12075-12084页，2021年。[14] 胡晓斌，任文琪，于凯成，张凯浩，曹晓春，刘伟，比约恩·门泽. 实时图像去模糊的金字塔结构搜索。在IEEE/CVF计算机视觉国际会议论文集，第4298-4307页[15] RachelHuang ， JonathanPedoeem ， andCuixianChen.yolo-lite：一个为非gpu计算机优化的实时目标检测算法。在2018年IEEE大数据国际会议（大数据），第2503-2510页。IEEE，2018年。[16] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694-711页。施普林格，2016年。[17] Hyungjun Kim ， Youngbeen Chung ， Jie Jin ， andJunhong Park. 钢轨弯曲振动模态的表现形式通过基于相位的放大方法。IEEE Access，9：98121[18] Julian FP Kooij和Jan C van Gemert。深度感知运动放大。欧洲计算机视觉会议，第467-482页施普林格，2016年。[19] 刘策，安东尼奥·托拉尔巴，威廉·弗里曼，杜兰德和爱德华·H·阿德尔森。动作放大。ACM图形交易（TOG），24（3）：519[20] Tambet Matiisen，Avital Oliver，Taco Cohen，and JohnSchulman.师生课程学习。IEEE Transactions on NeuralNetworks and Learning Systems，31（9）：3732[21] Ernesto Moya-Albor ， Jorge Brieva ， Hiram Ponce ，andLour-desMar t'ınez-Villas en o r. 一种利用视频放大和神经网络的非接触式心率估计IEEE仪器测量杂志，23（4）：56[22] 埃瓦 ·MNowara ， DanielMcDuff ， andAshokVeeraraghavan.结合放大和测量用于非接触式心脏监测。在2021年IEEE/CVF计算机视觉和模式识别研讨会（CVPRW）会议上，第3805-3814页[23] Tae-Hyun Oh ， Ronnachai Jaroensri ， Changil Kim ，Mohamed Elgharib，Fr基于学习的视频运动放大。在欧洲计算机视觉会议（ECCV）的会议记录中，第633-648页[24] Sylvain Paris，Samuel W Hasinoff，and Jan Kautz.局部拉普拉斯滤波器：具有拉普拉斯金字塔的边缘感知图像处理。Communications of the ACM，58（3）：81-91，2015.[25] 彭聪，曾聪，王彦刚。高速磁悬浮转子振动的相位法非接触测量。 IEEE Transactions on Instrumentation andMeasurement，69（7）：4807[26] 包括佩罗特、塞巴斯蒂安·萨勒斯、迪迪埃·弗拉伊和赫维 · 李高特。视频放大在超声中的应用。 IEEETransactions on Biomedical Engineering，66（1）：283-288，2019。[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[28] 竹田昭一郎、赤木康典、冈上一树、矶贝惠和木田秀明。使用时间分布中的分数各向异性的野外视频放大在IEEE计算机视觉和模式识别会议上，第1614-1622页，2019年2050[29] 武田硕一郎、丹羽健太、矶川麻里子、清水伸弥、冈上和树、青野优史。双向视频放大过滤器。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第17369-17378页[30] 武田昭一郎，冈上一树，三上丹，矶贝惠，木田秀明。Jerk-aware视频加速放大。在IEEE计算机视觉和模式识别会议论文集，第1769- 1777页[31] Manisha Verma和Shanmuganathan Raman。基于感兴趣区域的运动放大。在图像分析和处理国际会议上，第27-39页。Springer，2017.[32] Manisha Verma和Shanmuganathan Raman。基于边缘感知空间滤波的运动放大。第二届计算机视觉图像处理国际会议论文集，第117-128页。Springer，2018.[33] NealWadhw a ， MichaelRubinstein ， Fre' doDurand 和William T Freeman。基于相位的视频运动处理。ACMTransactions on Graphics（TOG），32（4）：1[34] NealWadhw a ， MichaelRubinstein ， Fre' doDurand 和William T Freeman。Riesz金字塔用于快速相位视频放大。2014年IEEE国际计

下载后可阅读完整内容，剩余1页未读，立即下载