时间稳定的卷积神经网络在视频序列中的应用

3 浏览量更新于2023-10-17 收藏 939KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1时间稳定CNN加布里埃尔·埃勒特森1拉斐尔K. Mantiuk 2JonasUnger11Dept. 瑞典林克平大学科技学院2部英国剑桥大学计算机科学与技术学院@liu.serafal. cl.cam.ac.uk摘要卷积神经网络（CNN）可以对图像之间复杂的非线性关系进行建模。然而，他们对输入的微小变化非常敏感.大多数经过训练以描述图像到图像映射的CNN在应用于视频序列时会生成时间上不稳定的结果，导致闪烁伪影和其他不一致性。为了将CNN用于视频素材，先前的方法依赖于在训练和/或推断阶段中估计密集的帧到帧运动信息（光流），或者通过探索重复的学习结构。我们采取不同的方法来解决这个问题，提出时间稳定性作为成本函数的正则化正则化被公式化以考虑帧之间可能发生的不同类型的运动，使得可以在不需要视频材料或昂贵的运动估计的情况下训练时间稳定的CNN。训练可以作为微调操作来执行，而无需CNN的架构修改我们的评估表明，训练策略导致时间平滑性的大幅此外，对于小数据集，正则化可以帮助提高泛化性能，其程度远远超过天真的增强策略。1. 介绍深度神经网络（DNN）可以表示复杂的非线性函数，但往往对输入非常敏感。对于图像数据，这表现为对像素值的微小变化的敏感性。例如，用于生成对抗性示例的技术已经证明，存在视觉上无法区分的图像，同时生成广泛不同的预测[32]。也可以找到自然发生的图像操作，这些操作可能导致卷积神经网络（CNN）在学习任务中失败[2，9，39]。对于应用于视频序列的图像到图像CNN，这种敏感性导致从帧到帧的突然和不连贯的变化。frame.这种变化被视为闪烁或局部特征的不自然运动。以前将CNN应用于视频材料的方法通常使用帧之间的密集运动信息，以增强时间相干性[29，13，6，24]。这需要用于训练的地面实况优化流、对CNN架构的修改此外，在许多情况下，无法估计帧之间的可靠对应关系，例如，由于闭塞或缺乏纹理。我们不依赖于自定义架构，而是采用一种简单、高效和通用的方法来解决CNN的时间稳定性问题。我们将稳定性作为损失函数中的一个正则化项，这可能适用于任何CNN。我们制定了两个不同的正则化的基础上观察到的预期行为的时变处理。其结果是一种用于在时域中稳定CNN它可以通过微调预训练的CNN权重来应用，并且不需要特殊用途的训练数据或CNN架构。通过在彩色化和单次曝光高动态范围（HDR）重建中的应用实验，我们证明了正则化策略的有效性。总之，本文探索了正则化以稳定时间域中的CNN，并提出了以下主要贡献：• 两种新的正则化公式用于CNN的时间稳定，它们都对视频序列中连续帧的动态进行建模。• 一种新的用于评估时间稳定性的感知平滑度量• 一项评估表明，所提出的训练技术显着提高了时间稳定性，同时保持甚至提高了CNN的性能。• 对于训练数据有限的场景，正则化策略的泛化性能明显优于传统的数据增强。11176111772. 背景和以前的工作对抗性例子：对抗性示例引入了输入图像的微小扰动，这使得DNN分类器失败[32，12]，也没有访问特定模型[23]，并且通过执行自然图像操作[2，9，39]。这表明对DNN的输入具有很大的敏感性，并且对于图像到图像的CNN，当应用于视频序列时，它表现为帧之间的不一致变化。我们的目标是在视频序列中帧之间可能发生的变化类型方面进行鲁棒性训练，以便使用CNN处理的视频可以预期表现良好。这并不意味着CNN对其他类型的变化具有鲁棒性，例如某些对抗性示例生成方法所创建的变化正规化：虽然有很多方法可以归类为正则化[22]，但我们对那些旨在解决神经网络输入敏感性问题的方法特别感兴趣。根据上下文和不同的定义，术语不变性、鲁棒性、不敏感性、稳定性和收缩性在文献中可互换地用于描述这种正则化的目标。提高鲁棒性和泛化能力的最直接的方法是采用数据扩充。然而，单独的增强不能补偿CNN它需要太多的训练数据来学习所有转换的鲁棒性，并且很可能导致欠拟合。需要强制执行一个显式约束来学习一个映射，是平滑的，因此输入的微小变化会导致输出的微小变化。这一概念已经在各种各样的公式中进行了探讨，例如：通过权重衰减[21]，权重平滑[19]，标签平滑[38]，或相对于网络权重惩罚输出导数的范数[14]。我们的问题特别感兴趣的是通过惩罚Jacobi的范数来正则化的时间一致性：用于在图像处理中实施时间一致性的方法主要基于估计帧之间的密集运动或光流[26，4，7，37]。这也是以前在时间上一致的CNN中的工作的情况例如，基于流的方法已经被建议用于视频风格传输[29，13]，通过生成对抗网络（GAN）的视频到视频操作[34]，以及作为后处理操作施加时间一致性[24]。使用神经网络进行视频推理的另一个方向是采用循环学习结构，例如长短期记忆（LSTM）网络[15]。对于图像数据，已经使用ConvLSTM [36]及其变体[20]构建了用于递归的CNN，e.G.在视频超分辨率[33]和视频简洁方法[24]中。然而，大多数这些结构已经在分类和理解方面进行了探索。也有其他循环或多帧的基础上的结构，已用于图像到图像的应用，例如。用于视频超分辨率[16，5]，去模糊[31]和GAN的不同应用[34]。基于流的方法和递归方法都存在以下一个或多个问题：1）高复杂性和应用特定的结构修改，2）需要专用训练数据，例如视频帧和运动信息，3）训练和/或推断的计算复杂性的显著增加，4）在运动估计困难的情况下失败，例如具有遮挡或缺少纹理的图像区域。我们提出的战略处理了所有这些限制。它是轻量级的，可以应用于任何图像到图像CNN而无需更改，并且不需要视频材料或运动估计。同时，它在不影响重建精度的情况下，极大地提高了时间稳定性。3. 时间正则化我们考虑图像到图像CNN的监督训练，总损失公式为：[28，39].关于输入的bian。比如郑等人[39]将噪声扰动应用于输入图像，以及L=（1−α）Lrec +αL reg.（一）构造一个正则化项，该正则化项收缩干净样本和噪声样本的预测，从而增加对图像退化的鲁棒性。虽然上述工作主要涉及分类，但我们表明，同样的推理适用于应用于视频序列的图像到图像CNN-我们不能简单地在单独的视频帧上训练CNN，或者通过增强的方式变换图像，并期望时间变化的鲁棒行为因此，我们制定了不同的正则化策略，特别是用于训练视频应用的CNN，并对实现时间稳定性最有效的方法进行了研究。第一项是CNN的主要目标，其促进从输入图像x重建地面实况图像y。给定一个已经用Lrec损失训练的任意CNN，添加Lreg是我们为了使CNN适应视频素材而进行标量α用于控制正则化目标的强度。本节介绍了三种不同的正则化策略，等式1中的Lreg，用于提高CNN的时间稳定性。第一个是介绍了郑等。[39]，而另外两个是专门设计用于解决视频中帧到帧变化的新颖定义所有11178三种策略依赖于执行输入图像的扰动，并且关键方面是将这些建模为在自然视频序列中发生的常见变换。3.1. 稳定性正则化与我们的工作最相似的是Zheng等人提出的稳定性训练。[39 ]第39段。给定一个输入图像x，以及它的一个具有小扰动T（x）=x+x的变体，正则化项被公式化以使两个图像的预测可能相似。对于图像到图像的映射f，我们可以将该项直接应用于输出图像，Lstability=||f（x）−f（T（x））||二、（二）虽然可以使用不同的距离度量，但为了简单起见，我们只考虑了N2范数。扰动Δx被描述为每像素独立的正态分布噪声，Δx Δ N（0，Δ x），其中Δ x =σ2I。3.2. 变换不变正则化时间不相干性的典型度量[26，4]使用两个连续帧yt-1和yt来公式化，E=||yt−W（yt−1）||其中W描述从帧t-1到t的扭曲操作使用两帧之间的光流场如果3.3. 稀疏雅可比正则化监督学习通常依赖于将函数拟合到多个训练点，而不考虑这些点附近的函数行为可以说，更希望不仅向训练提供函数值，而且还提供关于该函数在给定点处的雅可比矩阵形式的偏导数然而，对于典型的图像到图像CNN，使用完整的雅可比矩阵是不切实际的：如果使用32×32的补丁，我们需要训练f：R1024→R1024，雅可比矩阵有超过一百万个元素。但我们我们将证明，即使我们使用雅可比矩阵的稀疏估计，并且只对输入空间的几个随机方向进行采样，我们也可以大大提高预测的稳定性和准确性通过提供关于雅可比矩阵的稀疏信息，我们还可以将领域专业知识注入到我们的训练中。在图像到图像映射的情况下，我们知道通过平移、旋转和缩放变换的输入块应该导致变换的输出块。这些变换中的每一个都映射到输入和输出空间中的向量变化，我们可以数值估计偏导数。也就是说，我们希望训练函数f的偏导数可能接近地面真实输出补丁的偏导数：是不能由流场运动解释的帧到帧的变化，这些被记录为不一致。为了使用这种方法进行正则化，f（x）-f（x）∆xy（x+∆x、（6）需要视频数据或光流信息，我们引入具有几何变换W（x）=T（x）的帧内扭曲（该变换在3.4节中更详细地描述）。然后，x和T（x）模拟两个连续的帧，用于推断f（x）和f（T（x））。如果这些在时间上是一致的，则执行扭曲以配准两个帧应当产生相同的重定向。其中，x表示输入空间上的一个变换的效果，y（x）是对应于x的训练集的输出补丁，y（x+x）是变换后的输出补丁。为了保持符号的一致性，我们定义T（x）=x+x和T（y）=y（x+x），这样我们就可以将正则化项公式化为：结果，将f（x）与T−1（f（T（x）进行比较，或者将L雅可比为||（f（T（x））− f（x））−（T（y）− y）||2（七）T（f（x））到f（T（x））。这导致正则化项Ltrans-inv=||f（T（x））−T（f（x））||二、（四）请注意，该损失与增强补丁的标准重建损失根本不同：Laugment=||f（T（x））−T（y）||二、（五）虽然L增强促进关于增强（变换）样本的准确重建，但Ltrans-inv促进与trans-inv一致的重建形成，但不一定准确。如果在重建中存在误差，L增强将最小化变换（增强）补丁中的误差，可能以一致性为代价，而Ltrans-inv将确保原始和变换补丁之间的任何误差都是一致的补丁.11179为||（f（T（x））− T（y））−（f（x）− y）||二、（八）尽管该项可能看起来类似于等式5中的L增大，但L雅可比矩阵促进了一致性而不是准确性：变换后的片类似于原始片的预测误差3.4. 转换规范所有引入的正则化项中的扰动函数T（·）为了我们的目的，这应该捕捉到可能在视频序列中的帧之间可能发生的运动。我们利用简单的几何变换，以便实现这一点。这些包括平移、旋转、缩放和剪切，所有这些都可以用2×3的11180表1.变换参数的范围。参数MinMax平移旋转-2像素-12像素1像素变焦剪切0.97×-11.03×1◦变换图像x的指数的变换矩阵（参见补充材料的精确公式）。该矩阵是随机指定的每个图像，从均匀分布中提取的变换参数，bustions在一个选定的范围内的值，如表1中指定的。虽然在真实视频中，运动可能发生在更局部的水平上，但我们认为变换可以实现良好的正则化。值得注意的是，我们没有训练网络来预测变换或变换后的补丁，这可能需要对局部变换进行训练相反，我们训练生成一个图像，其中像素不会移动，并且在存在任何局部或全局变换的情况下与输入一致。我们认为，在这种情况下，运动的类型（全局/局部）不太相关，只要正则化项推动训练模型以预测一致的结果。3.5. 执行虽然可以从头开始使用其中一个正则化项训练损失函数，但我们从一个预先训练的网络开始，并在第二个训练阶段中包含正则化以进行微调。我们发现，微调使训练收敛更稳定，同时提供与从头开始训练相同的时间一致性增益。另一个非常重要的优点是，微调可以应用于已经优化的大规模CNN，这需要很长时间来训练。对于每种正则化方法，我们遵循完全相同的损失评估方案。扰动样品原始和变换后的样本x和T（x）分别通过权重共享（siamese）架构通过CNN获取这就给出了f（x），f（T（x）），其可以通过与变换T（f（x））和T（y）互补而与三个不同的正则化定义（等式2、4和8）一起使用。4. 实验我们使用两种不同的应用程序来评估新的时间CNN稳定化/正则化技术：灰度图像的着色和从单次曝光图像的HDR重建。选择这些任务是因为它们的性质不同，并且依赖于不同的CNN架构。虽然彩色化试图推断整个图像的颜色，但HDR重建试图恢复表2.评估实验中使用的CNN训练设置彩色化HDR重建架构自动编码器[17]自动编码器[8]下采样跨越式转换Max-pooling上采样调整大小+转换转座转换跳接没有是的权重1,568,6981,289,653训练数据美国[27]手术影像决议128 ×128128 ×128培训规模20,00010,000历元5050训练时间35米20米由于传感器饱和而丢失的局部像素信息。着色CNN使用与Iizuka等人描述的相同的设计。[17]，但是没有全局特征网络并且具有更少的权重。它实现了一个自动编码器架构，下采样与跨越卷积，最近邻卷积后卷积上采样。HDR重建CNN使用与Eilertsen等人描述的相同的设计。[8]但重量较少。这也是一个自动编码器架构，但使用最大池化和转置卷积实现，并且在编码器和解码器网络之间具有跳过连接。关于CNN和训练设置的更多细节列于表2中。为了能够探索广泛的超参数，我们使用仅限于特定问题的数据集。对于彩色化，我们只学习了近距离面部拍摄的任务对于HDR重建，我们将任务限制为简单的程序HDR动画。着色任务的训练数据是来自CelebA数据集的20，000张图像[27]。为了进行测试，我们使用了来自YouTube Faces数据集的72个视频序列[35]。这些都为了与训练数据更相似，选择了显示特写面部，并将其切割为50-200帧长。图1显示了一个测试框架的示例HDR重建任务的训练数据是以完全程序化的方式生成的这些包含一个随机选择的图像特征与不同数量的饱和像素。这些特征以随机模式移动，有时会被随机放置的光束遮挡。对于训练数据，我们只使用静态图像，没有运动，对于测试数据，我们包括运动来评估时间行为。测试集由50个序列组成，每个序列200帧。图2示出了测试视频帧的示例。4.1. 业绩计量所提出的正则化策略的目标是在保持重构性能的同时实现时间稳定的结果。为了评估这两个目标是否都达到了，我们通过PSNR来衡量重建性能，并引入了一种新的衡量标准，11181102输入预测地面实况图1.着色测试样本，来自YouTube Faces [35]。1010 10 20 30 40 50 60时间频率[Hz]图3.彩色线条：基于[ 25 ]中的模型，不同空间频率ρ的时空对比敏感度函数，以每个视觉度的周期为单位。黑色虚线：用于平滑度测量的高通滤波器。输入预测地面实况图2. HDR重建测试样本，来自程序HDR视频数据集。图像以降低的曝光显示，以显示饱和区域的差异。随着时间的推移。我们的测量计算参考和重建的视频序列之间的高时间频率我们首先从两个序列中提取高时间频率分量的能量，最后，我们还包括通过转换使用传统增强的培训。对于上述每个设置，我们运行10个单独的训练，以估计每个数据点的平均值和标准差我们还试验了将变换后的样本的反射损失（等式5）并入，但这主要降低了性能，可能是由于欠拟合。4.3. 结果D（f（x））i，j，t为|f（x）i，j，t-（Gσ f（x））i，j，t|2,(9)实验的结果可以在图中找到。图4中用于彩色化，图5中用于HDR增强。其中在时间维度t中执行与高斯滤波器Gσ的卷积。选择参数σ以消除眼睛不敏感但携带高能量的低频分量。图3示出了视觉系统的时空对比敏感度函数和我们使用的σ = 0的高通滤波器。15秒平滑度计算为地面真值与重建视频之和的第基线条件使用预先训练的模型进行微调并且没有正则化。PSNR和平滑度测量已经针对着色应用在CIELab颜色空间的a和b通道上计算，并且针对HDR重构应用仅在饱和像素这种经过修改的措施可以更好地反映细微的差异。在这两个实验中，我们可以观察到显着的改善-能量，. Σi，j，tD（y）i，j，t所有正则化战略布局然而，依赖于噪声的稳定性每-S=Σi，j，tD（f（x）i，j，t）.（十）在这两个实验中形成明显比相同的reg更差，但它是基于转换的。变换不变量-如果S> 1，则重构视频不如地面实况视频平滑，并且对于S >1可以说相反。4.2. 实验装置我们针对这两个应用程序对表2中的CNN进行了微调，并运行了大量训练，以便在不同设置下对性能进行采样。对于等式1中的总损失，我们比较了三种不同的正则化公式：稳定性（2），稀疏雅可比矩阵（8）和变换不变性（4）。使用第3.4节中描述的转换对这些进行评价。对于稳定性正则化，我们还包括具有噪声扰动的设置T（x）=x+<$x，其中<$x <$N（0，σ2I），以便与以前的工作相一致.我们为每个图像选择不同的σ，从均匀分布中绘制，σ <$U（0. 010 04）。与稳定性正则化相比，稳定性正则化和稀疏雅可比正则化可以获得更高的PSNR和更好的视觉重建效果（请参阅视频资料）。虽然稳定性公式可以生成用于HDR重建的更平滑的视频，但是这是以非常高的重建误差为代价的，并且对于α >0。99它最经常学习恒等映射f=x。两种新制剂的性能相当。稀疏雅可比矩阵导致HDR重建的PSNR略高，而变换不变性导致更高的平滑度。稀疏雅可比矩阵似乎也更鲁棒的选择，正则化强度。使用变换的传统增强（蓝色虚线）可以改善平滑度和PSNR，但改善比其他正则化策略小得多。=8=4=2=1灵敏度11182基线增强稳定性，噪声稳定性，变换稀疏雅可比变换不变性18 1918171716161515141413130.000 0.333 0.667 0.889 0.970 0.992 0.998正则化强度120.000 0.333 0.667 0.889 0.970 0.992 0.998正则化强度1011001000.000 0.333 0.667 0.889 0.970 0.992 0.998正则化强度图4.着色性能，使用PSNR（顶部）和平滑度（底部）进行评估。数据点估计为10次单独训练的平均值，阴影区域表示标准差。基线条件隐藏在底部图中的蓝色增强虚线下。总之，实验给了我们一个很好的指示，可以实现显式正则化为这个目标的广泛不同的应用程序的时间稳定性的大幅改善。然而，区分这两种提出的配方更加困难，并且可能潜在地取决于应用。最后，我们在训练数据有限的情况下，PSNR有很大的改善，表明所提出的正则化策略可以提高泛化性能。5. 示例应用在本节中，我们证明了提出的正则化项不仅改善了第4节中有限场景的结果，而且改善了在大量数据上训练的大规模5.1. 彩色化对于这个应用程序，我们从Iizuka等人使用的架构开始。[17 ]第10段。然而，我们跳过了全局特征网络，并将CNN的编码器部分替换为VGG16的卷积层[30]。通过这种方式，我们可以使用预训练的权重来初始化编码器以进行分类。这种设置导致在一个显着的改善，在性能相比，使用原始的编码器设计- ment。总的来说，网络是从0.000 0.333 0.667 0.889 0.970 0.992 0.998正则化强度图5. HDR重建性能，使用PSNR（顶部）和平滑度（底部）进行评估。符号与图4中相同。1900万磅。我们在Places数据集上训练它[40]，并使用预先训练好的权重进行分类。数据集。我们从训练中删除了大约5%的颜色饱和度最低的图像。然后，CNN在剩余的202.1M图像上训练了2015个时期，分辨率为224×224像素。我们使用两种建议的正则化策略微调着色CNN。微调的效果是根据PSNR和平滑度测量来测量的，参见表3。该表还包括用于比较的微调，以及使用Lai等人的方法处理基线输出。[24]第10段。在- 所有这些正则化都能略微改善PSNR（约0.3−0.5dB），同时显著增加平滑度。这也与基于流的帖子进行了比较，Laiet al.α = 0时的变换不变性公式。95给出了最佳平滑度，并且PSNR接近其他正则化设置。正则化技术的影响示例如图6所示。基线CNN可以表现出大的帧间差异，这在执行正则化训练后不太可能。此外，重建性能总体上有所提高-尽管基线在许多帧中有失败的趋势，但在损失评估中考虑帧之间的差异时，这种情况不太可能发生例如，在图6的底部示例中，变换不变性rse雅可比矩Spa直线运动、噪音转换能力BasAug刺戳BNCErse雅可比变换不变量SpaTran心理状态ility，noiseility，Aug刺戳天冬氨酸基线增强稳定性，噪音NCE雅可比变换不变量StabSpaTran峰值信噪比[dB]平滑度峰值信噪比[dB]平滑度11183基线变换不变性稀疏雅可比矩阵20151050基线变换不变性稀疏雅可比矩阵10 20 30 40 50 60 70帧161412108642070 80 90 100 110 120 130帧图6.来自YouTube-8 M数据集的两个视频着色示例[1]。在左侧，每个序列显示了两个连续的帧，将基线与两种视频正则化技术进行比较。右侧的图显示了在较大范围的帧内标记的位置的像素值这些值取自Lab颜色空间的a通道。垂直虚线指示显示的帧的位置。变换不变性正则化已经在两个强度α下执行。表3.彩色CNN微调后的性能。测量值已在Lab颜色编码中的a和b通道上进行了评估和平均。测试数据是来自YouTube-8 M数据集的23个序列[1]。训练策略PSNR平滑度表4. HDR重建CNN微调后的性能。仅在饱和像素测试数据是来自两个不同来源的10个HDR视频序列[10，3]。已经对伽马校正的HDR图像执行了盲视频一致性基线18.58050.7243培训战略PSNR平滑度微调（无正则化）18.43150.6348基线25.51315.9951变换不变性，α = 0。9518.88802.8934微调（无正则化）25.98655.8538变换不变性，α = 0。818.94371.9074变换不变性，α = 0。9524.167810.6435稀疏雅可比矩阵，α = 0。9518.88522.5079变换不变性，α = 0。825.43748.0798视频盲一致性[24]18.60861.0287稀疏雅可比矩阵，α = 0。9524.72877.3048视频盲一致性[24]25.37027.2035在许多情况下，为基线CNN绘制的曲线接近0，偶尔会出现峰值。这个问题通过正则化得到缓解，从而导致整体更好的重建和帧之间更平滑的变化。5.2. HDR重建在这个应用中，我们采用了Eilertsen等人使用的CNN。[8]并使用训练的权重由作者提供。CNN总共包含2900万个权重。我们对从不同在线资源收集的2.7K HDR图像集进行微调，这些图像用于通过随机裁剪和增强来创建125K320×320像素训练图像的数据集微调结果由表4中的PSNR和平滑度测量，表明平滑度的显著增加是以PSNR的小的降低为代价的。Com-对于彩色化应用，HDR重建的正则化应选择略低的α，以便不降低重建性能。α = 0时的变换不变性公式。8仅将重建性能降低了0.1dB，而提供了从而比稀疏雅可比公式具有更好的平滑性与Lai等人的盲视频一致性方法相比，该设置也显示出更好的性能。[24]，两者在PSNR和平滑度方面。图7示出了一个HDR视频序列的性能差异的示例。与彩色化应用相反，在并排组合中难以清楚地看到连续帧之间的差异。然而，在视频材料中，饱和图像区域周围的时间鲁棒性的差异是明显的。这可以在图7中的像素图中看到，基线变换不变性0.95变换不变性0.8稀疏雅可比矩阵0.95地面实况基线变换不变性0.95变换不变性0.8稀疏雅可比矩阵0.95地面实况框架110框架111框架62框架63实验室a值实验室a值11184输入重建（基线）地面实况1009080706050403020100输入基线变换不变性0.95变换不变性0.8稀疏雅可比矩阵0.95地面实况10 20 30 40 50 60 70帧输入基线地面真值变换不变性（0.95）稀疏雅可比矩阵（0.95）图7.来自HdM-HDR数据集的HDR视频重建示例[10]。在左上角，我们有一个与输入和地面实况相比的重建示例，以降低的曝光（-3档）显示，以展示饱和像素的差异底行显示了两个连续帧之间的绝对差异，用于图像的放大区域和不同的训练策略。右边的图显示了帧中标记的像素在更大范围内的HDR亮度值垂直虚线指示用于差异评估的帧。其中对于所选择的饱和像素，正则化结果随时间更稳定。该图还示出了放大图像区域的两帧之间的绝对差异，突出显示了与地面真实差异相比时从正则化实现的改进6. 局限性和今后的工作在重建性能和平滑性之间取得适当的平衡小的正则化强度使视频具有时间伪影，而太大的强度可能有降低重构性能的风险。此外，在强正则化的情况下损害重建性能的趋势在某些方面可以类似于当L2范数用作重建问题（去噪、去卷积等）中的损失函数我们在目前的工作中没有解决这个问题，但相信这可以通过探索其他正则化损失函数来缓解，例如L1，感知损失（对于颜色），或者通过GAN架构。该方法还可以受益于结合重建误差和平滑度，以更好地测量感知质量。此外，尽管变换不变性公式在某些情况下可以给出PSNR和平滑度之间的更好的折衷，但是稀疏雅可比公式倾向于对大的正则化强度更鲁棒，参见例如，图5.我们的方法优化了短期的时间稳定性，而不保证长期的时间一致性。例如，即使颜色在用于着色应用的连续帧中是一致的，它们也可能在较长的帧序列上不一致地改变。因此，今后工作的一个有趣领域是研究如何在解决方案上实施长期时间相干性。最后，探索更复杂的损失函数的正则化也是有趣的，例如基于GAN的损失函数[11]，例如。pix2pix[18] CNN或cycle-GANs [41]。7. 结论本文探讨了如何使用问题动力学模型的正则化来提高视频重建任务中像素到像素CNN的时间稳定性。我们提出了两种时间正则化的公式，可以在从头开始训练网络时使用，也可以用于微调预训练的网络。该策略是轻量级的，它可以在不修改CNN架构的情况下使用，并且它不需要视频或运动信息进行训练。它避免了以前的稳定方法所固有的昂贵的和经常不准确的光流估计。我们的实验表明，所提出的方法导致时间稳定性的大幅改善，同时保持重建性能。此外，对于某些情况，特别是当训练数据有限时，正则化也可以改善CNN的重建性能，并且在比传统增强技术更大的程度上。该项目得到了瓦伦堡自治系统和软件计划（WASP），战略研究环境ELLIIT的支持，并获得了欧洲研究委员会（ERC）在欧盟地平线2020研究和创新计划下的资助|第31帧-第30帧|框架31第31帧（放大）相对亮度11185引用[1] S. Abu-El-Haija，N. Kothari，J. Lee，P.纳采夫湾托代里奇，B. Varadarajan和S. Vijayanarasimhan。YouTube-8 M：大规模视频分类基准。 arXiv 预印本 arXiv ：1609.08675，2016。7[2] A. Azulay和Y.韦斯为什么深度卷积网络对小图像变换的泛化能力如此之差？ arXiv 预印本 arXiv ：1805.12177，2018。一、二[3] A. Banitalebi-Dehkordi，M. Azimi，M. T. Pourazad，以及P. Nasiopoulos。使用HEVC和H.264/AVC标准。异构网络质量、可靠性、安全性和鲁棒性国际会议论文集（QShine 2014），第8-12页。IEEE，2014。7[4] N. Bonneel，J.Tompkin，K.Sunkavalli，D.孙习巴黎和H. 菲斯特盲视频时间一致性。ACM Transactions onGraphics，34（6）：196：1-196：9，2015。二、三[5] J. Caballero， C. 莱迪格， A. 艾特肯 A. Acosta，J.Totz，Z. Wang和W.石利用时空网路与运动补偿的即时视讯超解析在IEEE计算机视觉和模式识别会议（CVPR 2017）上，2017年。2[6] D.作者：Chen，J. Liao，L. Yuan，N. Yu和G.华连贯的在线视频风格转移。IEEE International Conference onComputer Vision（ICCV 2017），2017。1[7] X.东湾，澳-地博涅夫，Y. Zhu和A. L.尤尔。基于区域的时间一致性视频后处理。在IEEE计算机视觉和模式识别会议论文集中，2015年。2[8] G. Eilertsen，J.克罗南德湾德内斯河K. Mantiuk，以及J·昂格尔使用深度CNN从单次曝光重建HDR图像ACMTransactions on Graphics（TOG），36（6）：178，2017。四、七[9] L. Engstrom，D.齐普拉斯湖Schmidt和A.马德里旋转和平移就足够了：用简单的变换愚弄CNN。arXiv预印本arXiv：1712.02779，2017。一、二[10] J. 弗罗利希 S. 格兰迪内蒂 B. 埃伯哈特 S. 沃尔特A. Schilling和H.布兰多创建电影宽色域HDR视频，用于评估色调映射算子和 HDR 显示器。在 SPIE 的Proceedings， Digital Photography X，第9023卷，2014年。七、八[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Proceedings of International Conference onNeural Information Processing Systems（NIPS 2014），第2672-2680页8[12] I. Goodfellow，J. Shlens和C. 赛格迪解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572，2014。2[13] A. Gupta，J. Johnson，A. Alahi和L.飞飞表征和提高神经风格转移的稳定性。在IEEE计算机视觉和模式识别会议（ CVPR 2017 ）的 Proceedings 中，第 4067-4076页，2017年。一、二[14] S. Hochreiter和J.施密特胡博通过发现平坦极小值简化神经网络。神经信息处理系统进展（NIPS 1995），第529-536页，1995年2[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。2[16] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。神经信息处理系统进展（NIPS 2015），第235-243页，2015年。2[17] S. Iizuka、E. Simo-Serra和H.石川要有颜色！：全局和局部图像先验的联合端到端学习，用于同时分类的自动图像着色。ACM Transactions on Graphics，35（4）：110：1四、六[18] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议（CVPR 2017）上，2017年。8[19] J. S. Jean和J. Wang。权值平滑提高网络泛化能力.IEEETransactions on Neural Networks，5（5）：752-763，1994。2[20] N. Kalchbrenner，A. van den Oord，K.西蒙尼扬岛Dani-helka，O. Vinyals，A. Graves和K. Kavukcuoglu视频像素网络。在国际机器学习会议论文集（ICML 2017），第70卷，第17712[21] A. Krogh和J. A.赫兹一个简单的重量衰减可以提高推广。神经信息处理系统进展（NIPS 1992），第950-957页，1992年。2[22] J. Kukacka，V. Gol kov和D. 克莱姆斯深度学习的再教育：分类学。arXiv预印本arXiv：1710.10686，2017。2[23] A. 库拉金岛Goodfellow和S.本吉奥。物理世界中的对抗性考试arXiv预印本arXiv：1607.02533，2016。2[24] W.- S. 赖， J. - B. Huang 、 O. Wang ，中国山核桃 E.Shechtman，E. Yumer和MH. 杨学习盲视频时间一致性。欧洲计算机视觉会议（ECCV 2018），2018年。一、二、六、七[25] J. Laird，M. Rosen，J. Pelz，E. Montag和S.戴利使用不稳定刺激的空间速度CSF作为视网膜速度的函数。人类视觉和电子成像，第6057卷，第605705页，2006年。5[26] M. Lang，O.Wang，T.Aydin，A.Smolic和M.恶心基于图像的图形应用程序的实际时间一致性。 ACMTransactions on Graphics，31（4）：34：1-34：8，2012. 二、三[27] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。 IEEE International Conference on Computer Vision（ICCV 2015），2015年。4[28] S. Rifai，P. Vincent，X. Muller，X. Glorot和Y.本吉奥。收缩式自动编码器：特征提取过程中的显式不变性。国际机器学习会议论文集（ICML 2011），第8332[29] M. Ruder，A.Dosovitskiy和T.布洛克斯视频的艺术风格德国模式识别会议，第26-36页。施普林格，2016年。一、二11186[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。6[31] S. 苏，M。Delbracio，J.Wang，G.Sapiro，W.海德里希，以及O.王.用于手持相机的深度视频去模糊。 IEEE计算机视觉与模式识别会议论文集，2017年。2[32] C. 塞格迪，W。扎伦巴岛萨茨克弗布鲁纳D。二涵I. Goodfellow，和R。费格斯。神经网络的有趣特性arXiv预印本arXiv：1312.6199，2013。一、二[33] X. Tao，H.加奥河，巴西-地Liao，J.Wang和J.贾细节揭示深度视频超分辨率。在IEEE国际计算机视觉会议（ICCV 2017）的会议记录中，第22-29页，2017年。2[34] X. Wei，J. Zhu，S. Feng和H.苏具有全局时间一致性的视频到视频翻译。在ACM国际多媒体会议（MM 2018）的会议记录中，第18-25页，2018年。2[35] L.沃尔夫，T.哈斯纳和我。毛兹匹配背景相似性的无约束视频中的人脸识别。IEEE International Conference onComputer Vision（CVPR 2011），第529-534页。IEEE，2011年。四、五[36] S.星剑，Z. Chen，H.王维，D.- Y.杨维K. Wong和W. C.哇哦。卷积LSTM网络：降水临近预报的机器学习方法。神经信息处理系统进展（NIPS 2015），第802-810页，2015年。2[37] C.- H.姚角Y. Chang和S.- Y.简遮挡感知视频时间一致性。ACM国际多媒体会议论文集（MM 2017），第777ACM，2017。2[38] H. Zhang，M. Cisse，Y. N. Dauphin和D.洛佩兹-帕斯mixup：超越经验风险最小化。国际学习

下载后可阅读完整内容，剩余1页未读，立即下载