基于时间一致性的视频演示

78 浏览量更新于2023-10-26 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17622基于时间一致性的视频演示彭岱1新余一号兰马酒店2* 张宝恒佳丽3李文博4沈家骏2Xiaojuan Qi酒店，中国1香港大学2TCL人工智能实验室3中山大学4香港中文大学摘要当用数码相机拍摄屏幕时，莫尔条纹以颜色失真的形式出现，严重降低了图像和视频质量。考虑到视频采集需求的不断增长，我们研究了如何去除视频中这种不必要的莫尔图案，即视频演示。To为此，我们引入了第一个手持视频演示t-20t t+20数据集与专用的数据收集管道，以确保捕获的数据的空间和时间对齐。此外，开发了一种具有隐式特征空间对齐和选择性特征聚合的基线视频演示模型，以利用来自附近帧的互补信息来改进帧级视频演示。更重要的是，我们提出了一种基于关系的时间一致性损失，以鼓励模型直接从地面实况参考视频中学习时间一致性先验，这有助于产生时间一致性预测并有效地保持帧级质量。大量的实验表明了该模型的优越性.代码可在www.example.com上获得https://daipengwa.github。io/VDmoire_ProjectPage/。1. 介绍视频是娱乐、信息记录和通过社交媒体传播的重要来源。当在屏幕上拍摄视频时，频率混叠会导致莫尔条纹（图1），这些条纹看起来像彩色条纹，严重降低了捕获内容的视觉质量和保真度。虽然许多研究工作已经取得了消除这种莫尔图案在一个单一的图像[14，15，25，31，40，54]，并取得了显着的进展，深度学习[14，15，25，40，54]，视频演示仍然是一个尚未探索的研究问题，据我们所知，由于视频数据在我们日常生活中的普遍性和重要性，这一点仍然非常重要。这篇论文研究了视频演示的问题。与图像演示相比，该任务通过以下方式为高质量的帧级恢复提供了更多的机会图1. 第一行显示了不同时间的莫尔条纹，第二行显示了我们的演示结果。请看我们的视频，这些视频干净且时间一致。利用来自附近视频帧的辅助信息，但是更具挑战性，因为它不仅要求帧级视觉质量，而且要求时间一致性。最先进的图像演示方法[54]无法恢复时间上一致的视频，因为它无法... 访问临时信息/监督的能力。使用诸如[18，22]的前处理后处理方法;然而，在这样做时，失去了利用视频信息来增强帧级质量的机会。此外，这些后处理方法容易受到人为因素的影响，并使系统设计复杂化，导致计算成本增加。另一种被广泛采用的策略是在训练期间对预测视频采用基于小波的一致性规则化[21，37，51，52]，这鼓励来自附近帧的对齐像素具有相同的像素强度值。虽然简单，但这种正则化忽略了视频中像素的自然强度变化（图3（a）），易于在估计的光学流中产生误差（图3（b）和（c）），并且有可能将一个帧的伪影传播到附近的帧。因此，改进的时间一致性倾向于牺牲帧级质量和保真度，导致模糊和低对比度结果（图7（a）：模糊纹理）。在这项工作中，我们提出了一个简单的视频演示模型，利用多个视频帧和一个新的基于关系的一致性损失，以提高视频级的时间consideration没有牺牲帧级质量。此外，我们构建了第一个手持视频演示数据集，以促进进一步研究基于学习的方法。*通讯作者我们分析了莫尔条纹的特点，模式我们的结果莫尔条纹17623视频，并开发一个视频演示基线模型，遵循[40，49，50]，采用选择性聚合方案自适应地组合对齐特征和金字塔架构，以扩大接收场。基线模型可以有效地利用附近的帧，以获得更好的帧水平演示。在训练过程中采用不同尺度的深度监督，以促进模型优化。此外，受人类可以直接从连续帧中感知视频重叠[11]而无需使用显式对齐的视频的观察的启发，我们提出了一种简单的基于关系的时间一致性损失，其鼓励直接关系（例如，像素强度差）以跟随地面实况帧。特别地，我们在多个级别利用这样的关系，包括使用像素强度差的像素级别和使用强度统计的补丁级别（例如，平均值）考虑不同贴片尺寸的变化。相反通过将对准像素的强度约束为相同，我们的基于关系的正则化直接将附近视频帧的自然关系和变化与地面实况视频的自然关系和变化相匹配。这种简单的设计绕过了基于小波的一致性规则化的上述缺点，并避免牺牲帧级质量，同时仍然能够强制模型从地面实况视频中学习时间一致性先验。此外，由于没有可用的数据集用于开发和评估视频演示方法，我们收集了一个新的视频演示数据集，并使用专用管道来确保莫尔视频和相应的地面实况视频之间的空间和时间对齐。最后，在我们的视频演示数据集上的实验证明了我们的方法的优越性能。特别是，与MBCNN [54]相比，我们的方法在LIPIS方面获得了22%的改进，并且当与不使用基于多尺度关系的一致性损失的结果进行比较时，超过75%的用户更喜欢我们的结果。2. 相关工作图像演示。当两个相似的重复图案相互作用时会出现莫尔图案为了去除它，早期的工作已经研究了谱模型[38]和稀疏矩阵分解方法[23]。然而，这些方法只能去除某些类型的莫尔条纹。随着深度学习的兴起，各种卷积神经网络[14，15，25，26，40，54]被设计用于图像演示。 Sun等人[40]构建了第一个大尺度图像演示数据集，并设计了一个多尺度架构来去除莫尔图案。此外，MopNet [14]将莫尔图案的特征集成到网络中，并实现了更好的结果。对于高分辨率IM-(a)(b)（c）第（1）款图2.视频中莫尔条纹的特征每行表示具有不同时间戳的帧，两行之间的差异用红色圆圈突出显示agedemoir e'ing，Heetal. [15]设计了一种双阶段方法，可以同时去除大的莫尔图案并保留图像细节。除了上述在图像域中设计网络的方法之外，一些方法试图从频率域的角度解决这个问题[25，54]。最近，Liu等人。[26]设计了一种自监督学习方法，仅从由一个聚焦莫尔条纹分级图像和一个散焦莫尔条纹无图像组成的图像对中恢复图像。我们的工作与上述研究工作的不同之处在于，我们研究了使用收集的数据集进行视频演示的新任务，这为通过改变时间信息来提高演示质量提供了新的机会。多帧恢复。多帧恢复[3，24，39，41，44]旨在通过利用来自辅助帧的信息来提高恢复性能，并且通常比基于图像的对应物表现得更好。多帧拼接中的一个关键组成部分是多帧的配准，并且先前的方法通常使用光学拼接来实现[1，3]。最近，Tian等人。[43]将可变形卷积[10]引入视频超分辨率中，以隐式对齐多个帧并获得更好的结果。该模块已得到进一步发展，并通过几个后续工作[5，6，28，49]。在这项工作中，我们遵循[49]中的方法在特征空间中对齐多个帧，并开发了一个模块来自动从附近的莫尔帧中选择有价值的信息。视频时间一致性。为了获得时间上一致的视频，以前的方法在网络训练期间采用了一致性正则化[21，33，37，47，51]或将其用于后处理[2，18，22]视频。最广泛采用的一致性正则化是基于密集对应（例如，opticalcrowd），其强制不同帧中的对齐像素的强度相同[21，37，51]。然而，这种基于小波的方法对估计的密集对应的质量敏感[12，42]，并且忽略了视频中的自然变化。在没有光学流的情况下，Lei等人[22]通过开发一种需要耗时的测试时间训练的视频先验方法来获得时间上一致的视频。此外，该方法的有效性依赖于时间上连续的视频输入，这与我们的情况不同。一些17624S3OtS1PCDAFPFA德穆瓦尔像素重排自动对焦下采样：对齐功能OS1不OTS2It-1ItIt+1（a）（b）（c）图3.基于时序的时序一致性问题前两行是两个连续的帧，最后一行使用RAFT [42]可视化扭曲误差。(a)当人从阴影走到阳光下时，强度会发生变化。(b)、（c）示出了两个帧之间的未对准。方法[13，32，48]通过将单个帧增强为多个帧并强制其一致性来提高CNN预测的时间一致性。不幸的是，视频中的莫尔图案很难模拟，这使得基于增强的方法无效。与以前的工作相比，我们的基于关系的正则化是简单的，可以考虑到视频的自然变化。在不使用光学光流的情况下，我们的方法也避免了由不准确的光学光流估计所引起的问题。3. 方法本文首先介绍了视频莫尔条纹的特征。3.1，这启发了我们的基线视频演示模型的设计。然后，我们详细介绍了我们的基线模型的关键组成部分（图4），包括帧对齐，特征聚合和演示的重建。3.2.此外，我们分析了基于时间一致性的弱点，并在3.3中详细介绍了我们新提出的基于关系的一致性正则化。最后，我们在第二节中展示了我们的培训目标。三点四分。3.1. 视频中莫尔条纹的特征莫尔条纹的颜色、形状和位置通常受相机视点的影响，如图2（a）和（b）所示。在一个温和的视频捕捉设置使用手持摄像机，我们观察到以下特点的莫尔图案在捕获的视频。首先，当视频播放时，由于出现位置的变化，退化区域有机会变干净（图2（a）：不同位置的白盒），这可以提供有价值的信息来恢复附近帧中的失真区域。第二，拍摄视频时不可避免的手抖动会轻微改变相机的视角，并在附近的视频帧中产生不同的莫尔条纹（图1）。2（b）：不同的文本颜色），这可以用来更好地区分莫尔区域，通过比较这种出现-图4. 我们方法的总结。我们的视频演示网络主要由三部分组成：首先，PCD [49]将连续帧作为输入，以隐式对齐特征空间中的帧。其次，特征聚合模块通过预测混合权重来合并不同尺度的对齐帧特征第三，合并后的特征被发送到具有密集连接的demoire模型，以实现莫尔伪影的去除。变化。第三，由于焦距的自动变化，莫尔图案的强度在不同的视频帧中会有所不同[26]，这提供了一个机会，可以利用较少的基于上述分析，我们的基线视频演示网络（第二节）。3.2）为了外观比较的目的而对准多个帧，有效地聚集来自附近帧的特征，并结合混合机制以可学习的方式从附近帧中选择有价值的信息。3.2. BaselineVideoDemoir e'ingNet work我们的基线视频演示网络工作如图4所示，将多个连续视频帧（I t-1，I t，I t+1）作为输入，并输出恢复的预测O t（等于O t），利用多个附近的视频帧来恢复I t。请注意，我们采取三个相邻的帧来说明我们的模型，而不失一般性。给定输入（It−1， It， It+1），我们首先在[ 28 ]中引入金字塔级联可变形（PCD）模型，以提取和生成隐式对齐特征（F t−1， F t， F t+1）。为了处理高分辨率视频中的大量莫尔图案，我们在将输入馈送到PCD模块之前应用像素shuffle对输入进行下采样，这可以有效地扩大模型的接收场而不牺牲原始信息。然后，金字塔特征聚合（PFA）模块PFA（Ftm_s1Ftm_s2（ωts3s3S3Ftm_s3德穆瓦雷Ftm_s1O不S1Ftm_s2O不S2Ftm_s3OtS3CNNsFtAFCNNsCNNsCNNsCNNsCNNsCNNsCNNsCNNsCNNs像素混洗CNNsCNNsCNNsCNNsCNNsCNNsCNNsWS：加权和WS WSWS17625msiSISISI∈（a）（b）（c）（d）（e）（f）图5.生成视频演示数据集的流水线（图4：绿框）被开发以选择性地聚集多个尺度（S1，S2，S3）的对准特征。具体而言，使用步长为2的卷积层对对齐的特征进行下采样，以产生特征金字塔，该特征金字塔允许以不同的分辨率执行特征聚合，以处理多尺度莫尔图案。在每个尺度s i处，对齐的特征被连接在一起并用于预测归一化的混合权重（ωt−1，ωt，ωt+1（0，1））。通过对齐特征的逐像素加权求和进一步生成聚合特征Ft，这使得能够进行选择性特征聚合。最后，演示重建模块产生演示图像Ot。我们在不同尺度上密集连接特征，以允许它们按照[46，50]（图4：蓝色框）相互通信。我们在较低分辨率的分支上应用更多的卷积块来捕获大视场，从识别和去除大的莫尔图案中受益，并在较高分辨率的分支上使用较少的卷积块来保留图像细节。3.3. 时间一致性虽然我们的基准视频演示网络可以生成高质量的帧级结果，但它不能确保视频级的一致性。在这里，我们研究如何生成时间上一致的视频演示结果的问题。在下文中，我们从分析经典的基于时间的一致性正则化开始，其倾向于降低帧级质量，然后详细说明我们简单的基于关系的时间一致性损失。基于流的时间一致性正则化。经典方法通过估计附近视频帧中的像素对应关系（主要是光学卷积方法）并建立损失，当量（1）强制匹配像素的强度相同[18，51，52]。由于诸如照明和观看方向的环境因素，随着时间的推移而改变[34]，并且因此时间上令人满意的视频不一定意味着相同区域的强度永远不会改变（图3（a）：人从阴影到阳光）。然而，这样的自然变化将在基于时间一致性正则化的时间一致性正则化中产生很大的损失（图3（a）第三行：扭曲误差），从而破坏自然现象。其次，基于光流的时间一致性的有效性受到光学光流的不准确估计的不利影响。即使是现有的最先进的光流估计方法RAFT [42]，也存在许多故障模式（图3（b）和（c）：由于光流估计不准确而导致的扭曲误差），特别是在观测边界和重复纹理中。这些错误匹配的像素将招致不存在的惩罚。最后，上述不准确的惩罚将迫使模型为了时间一致性而权衡帧级质量，例如，平均匹配的像素，导致模糊和低对比度的结果（请参阅视频和实验）。基于时间一致性。人类可以通过直接观察连续的视频帧而不使用显式对齐的帧来评估视频是否在时间上一致，这促使我们重新思考是否需要预对齐的对应来学习时间上一致的结果，并研究如何直接从地面实况参考视频学习时间上一致的结果，因为它们是自然一致的。在这里，为了从参考视频中学习时间一致性模式，我们提出匹配直接时间关系将预测视频帧（Ot，Ot+1）的预测视频帧与参考视频帧（Gt，Gt+1）的预测视频帧进行比较，其中G指示地面实况视频。最简单的时间关系可以通过比较视频帧之间的像素强度来建立;我们还研究了以下时间关系的其他选项L f=||M·（Wt+1→t（Ot+1，Ft+1→t）−Ot）||1、（1）基本关系丧失。我们考虑的最基本的关系是两个帧之间的差，如等式（1）。（二）：其中，M表示用于排除被遮挡像素的遮挡图，Wt+1→t表示基于光流的图像扭曲[16]，以基于光流Ft+1 →t对齐像素，Ot，Ot+1是附近的输出帧。关键观察结果。我们对基于时间一致性损失的时间一致性损失进行了系统的研究，并有以下关键观察。首先，视频通常经历自然的Lr=||（Ot+1−Ot）−（Gt+1 − Gt）||1 .一、（二）相对于Eq.（1），其约束对齐的预测以具有相同的强度值，基本关系损失要求输出和参考帧的差应该是相似的，即，预测结果应该跟随参考视频的时间变化。10 fps30 fpsCtM3t+1180帧，M60帧，C17626Dt ttSI∈SINn- T型|联系我们D不SISISISI(a) 输入（b）U-Net（c）DMCNN（d）MBCNN（e）Ours_S（f）Ours（h）GT图6.定性比较。与其他基线进行比较，在去除莫尔伪影方面取得了较好的效果多尺度区域级关系损失。除了像素级关系，我们还考虑了遵循人类习惯的区域级关系[8，30]。在生物学上，视网膜细胞接收来自区域而不是点的光，并且区域大小由视网膜细胞与观察对象之间的距离决定。对于区域级别的关系，我们使用像素统计数据，例如像素强度的平均值，来建立关系损失。我们根据经验得出平均值在实践中效果很好原因可能是λ t用于控制时间一致性的程度。为了构造L d，我们采用L1和感知损失[17]，引导回归过程。除了损失原始的分辨率，深度监督[20]在不同的尺度上应用，以帮助网络训练。帧-l evel demoiringlossLt用公式表示为Eq. （五）：Lt=0||Ot−G||1+λ||Φl（O）−Φl（G）||第1 条，第（5）项我，我斑块的平均值反映了该区域的亮度，这与斑块的亮度密切相关[9]。具体地说，我们使用不同大小k C的补丁来考虑各种接收场，从这些补丁中提取统计数据，并构建一个多尺度区域级关系损失，如等式2所示。（三）、此外，我们只惩罚引起最小差异的尺度，以保护来自附近潜在的干扰区域的时间一致的预测。其中，0 t和G t是输出和在s i尺度上的对应的地面真值。 Φ1是一组VGG-16层，λ是用于平衡不同部分的重量。4. 视频演示数据集我们收集第一个由手持摄像机拍摄的视频演示数据集，例如，智能手机摄像头。帽子-L=1μL|调整管道以确保空间和时间的一致性、MBRN n=1Knkk = argmin k {|（Tk（Ot+1）−Tk（Ot））n|}，k∈C摄像机录制的视频和原始视频之间的差异显示在L k=|（（Tk（O哪里电话+1）− Tk（Ot））n−（Tk（G电话+1）k（Gt））n，（三）图5和下文详述。首先，屏幕上显示的720p高质量源视频由来自REDS[29]，MOCA [19]，k表示计算统计量的大小为k C（C=1是基于基本关系的损失）的补丁，并且n是像素位置索引。分析. 基于关系的损失是简单的，而不需要估计密集的对应关系，因此避免了由光学光流估计引起的未对准的问题，并且地面实况视频中的自然变化可以被转移到输出帧。同时，该模型可以通过模仿参考视频的时间关系来学习产生时间一致的结果，这自然包含时间一致性先验。3.4. 培养目标我们的整体训练目标是L训练，在Eq。（4），是帧级解调损耗Lt，Lt+1，还有我们自己拍的视频为了确保收集的视频的多样性，我们手动选择覆盖各种场景的视频，包括人类、风景、文本、运动和动物（图5（a）中的示例）。我们收集了290个视频，每个视频有60帧。其次，考虑到不同的帧速率和异步开始时间戳，很难将摄像头记录的视频与屏幕上播放的源视频对齐。例如，如果摄像机帧速率不能被视频帧速率整除，则记录的帧将包含来自源视频的多帧信息（在切换帧时发生），这导致模糊图像。即使帧速率满足要求，不同的开始时间-tamp（即，开始播放和录制视频）也会导致多帧混淆的问题对于这些障碍，我们其将不同尺度下的输出回归到地面实况，以及时间一致性的关系损失LmbrLtrain=Lt+Lt+1+λtLmbr，（4）17627调整帧速率并将开始/结束标签插入视频。具体来说，我们设置摄像机和源视频帧速率30 fps和10 fps，并扩展源视频Dd17628--（a）（b）（c）（d）图7.不同类型的时间一致性。(a)基于流的时间一致性。(b)我们的基本关系丧失。(c)我们方法的完整版本（d）没有时间限制的结果（参考文献）。我们可以观察到（c）最好地保留了细节在每个视频的开始和结束处有几个白帧更重要的第三，给定源视频、移动电话和监视器，可以通过调整相机视点来产生莫尔图案。在拍摄时，手机由人手持以模拟实际的视频记录场景，并采用不同的拍摄角度和距离来增加莫尔图案的多样性（图5（c））。在记录后，我们可以从每个视频中删除预先插入的白色帧（图5（d））后获得180帧（源视频的三倍），最后的莫尔帧在三个连续帧中采样。这里，我们对中间的一个进行采样，因为它对帧转换不敏感（图5（e））。最后，为了获得训练对（图5（f）），源帧和捕获帧应该通过帧对应性（例如光学光流和单应矩阵）对齐。在这项工作中，我们采用单应矩阵来对齐两个帧（图5（e））。不是仅使用在图像区域[15]或辅助黑色区域[40]上检测到的关键点（ORB [36]），而是利用它们两者来使用RANSAC [45]算法估计单应性矩阵。5. 实验在本节中，我们首先介绍培训细节（第二节）。5.1），然后定性和定量地比较我们的方法与其他基线在帧水平（第5.2）和视频电平（第5.3）。最后，我们验证了我们的视频演示模型和基于关系的一致性规则化（第二节）。5.4）。5.1. 培训详细信息视频演示网络以三个连续的视频帧作为输入，预测一幅恢复图像。为了训练模型，我们自动将视频演示数据集分为247个训练视频和43个测试视频，超参数λ和λ t分别设置为0.5和50。此外，我们采用四个区域大小C=1，3，5，7来模拟不同的感受野。我们实现中的优化器是具有余弦学习率的Adam [27]。总共，我们在一个NVIDIA 2080Ti GPU上训练了60个批处理大小为1的时期，并且在最后10个时期调用了时间一致性损失以保证训练稳定性。5.2. 帧级比较我们将我们的方法与图像演示方法（即，MBCNN[54]和DMCNN [40]）和其他广泛使用的骨干，如U-Net[35]。为了验证视频演示的效果而不受其他因素（例如，参数的数量和损失函数的选择），我们采用我们的视频演示模型，但不将输入改变为单个帧的重复（我们的S，见图8（b））。为了定量测量演示的性能，我们采用PSNR，SSIM和LPIPS[53]，17629更符合人类的感知作为我们的衡量标准。（“↑”：值越大越好，“”：值越小越好。）方法LPIPS↓PSNR↑SSIM↑MBCNN [54]0.26021.5340.740[40]第四十话0.32120.3210.703U-Net [35]0.22520.3480.720我们的S0.21221.7720.729我们0.20221.7250.733表1. 演示不同方法的性能。（红色：最好，蓝色：第二好）图8.权重图的可视化。(a)三个连续的帧和权重图。（b）用单个帧和权重图的重复替换连续帧表2. λt为50时的时间一致性测量。我们的S：具有三个重复帧的视频演示模型0.50.40.30.210 30 50 70 90 λ0.760.740.720.700.680.66t1030 50 70 90λtOurs：多帧视频演示模型，Ours+F：添加基于小波的一致性损失， Ours+R ：添加基于基本关系的一致性损失，Ours+M：添加基于多尺度关系的一致性损失。在用户研究中，将所有其他基线与Ours+M进行比较，该表报告了每个基线被选择的百分比（Ours+M优于所有基线）。定性比较。在图6中，我们示出了通过不同方法恢复的图像。实验结果表明，该方法在去除喷泉、白T恤、地板等物体上的莫尔条纹方面优于其他方法。我们属性的优越性，我们的方法，它能够利用辅助信息从附近的视频帧。定量比较。帧级定量结果报告于表1中。在单图像演示的情况下，我们的方法（OursS）优于以前的方法（虚线以上）。此外，使用多帧（我们的），特别是LPIPS，进一步提高了性能，这表明了利用多帧来改善感知结果的有效性。5.3. 视频级比较根据以前的工作[7，47]，我们采用FID和翘曲误差来测量视频级性能。在这里，FID使用I3D [4]在特征域中测量输出和地面实况视频之间的距离，而扭曲误差计算通过光学投影对齐的两帧之间的差异[42]。请注意，由于不准确的光学流和视频中的自然变化，扭曲误差不能准确地反映视频时间一致性。为了说明这一点，我们计算了地面实况视频的扭曲误差（表2：最后一行），它仍然非常大。此外，我们还进行用户研究，以协助视频级别的比较。对于用户研究，参与者被要求选择一个LPIPS SSIM图9.增加λt时性能下降。根据视频质量对两个视频进行区分或将其标记为无法区分;他们有足够的时间做出决定。在我们的用户研究过程中，两个由不同方法产生的视频以随机顺序显示，并且参与者可以以不同的帧速率回放视频。总共有14人参加了我们的实验。由于我们的基线视频演示模型（Ours）比其他比较方法获得更好的结果，我们将其作为视频级评估的基线模型。具体地说，我们将视频时间一致性和质量与单个图像demoir e′ ing（OursS）、基于类卷积的一致性正则化（Ours+F，在等式中将L mbr损失替换为L f损失）的结果进行比较。（1））和基于多尺度关系的一致性正则化（Ours+M，Lmbr损失）。如表2所示，多帧解调（我们的）比单帧解调（我们的S）更一致此外，FID表明通过多帧恢复的视频更接近具有更高质量的地面实况视频。通过引入时间约束，提高了视频的时间一致性。具体而言，基于小波的方法（Ours+F）具有最佳的扭曲误差，但LPIPS显示帧级质量可能会显著下降。此外，与我们的方法（Ours+M）的完整版本相比，只有9%的用户更喜欢这种类型的视频。相比之下，我们的基于多尺度关系的损失（Ours+M）可以提高视频时间一致性，同时保持帧级质量（LPIPS类似于不使用时间一致性正则化的方法，0.201 vs. 0.202）。与所有基线相比，更多的用户更喜欢这些结果。时间一致性的进一步分析。在下文中，我们将进行更多的分析，以证明我们基于关系的损失的稳健性。我们绘制出我们的+F我们的+M我我们的+F我们的+M我（b）重复帧(a)多个帧方法FID↓翘曲误差↓用户研究↑LPIPS↓我们的S0.0945.98百分之十四0.212我们0.0845.65百分之二十五0.202我们的+F0.1092.70百分之九0.339我们的+R0.0884.79百分之四十二0.21117630方法LPIPS↓PSNR↑SSIM↑无像素切换无深度监管损失0.2050.21621.37221.1530.7330.728我们0.20221.7250.733(a) 输入（b）无像素混洗（c）有像素混洗图10.不同的接受领域。一个大的接收场（像素shuf）有利于去除莫尔伪影。演示在不同的时间一致性损失权重λ t下的性能。结果如图9所示，其中虚线表示没有时间约束的性能（我们的）。随着λt的增加，基于Ours +F的一致性正则化导致更差的LPIPS和SSIM。相反，我们的基于多尺度关系的方法（Ours+M）直接从地面实况视频中学习一致性参数，而不会牺牲视频质量（请参阅我们的视频）。我们在图7中显示了视觉比较。当与没有时间约束（Ours）的参考图像（图7（d））进行比较时，基于小波的方法（Ours+F）严重模糊了图像细节，例如草的重复纹理和石头上的裂缝。相比之下，基于多尺度关系的方法（ Ours+M ）很好地保留了图像细节（图 7（c）），这与具有改进的时间一致性的参考图像相当。5.4. 消融研究网络的组成部分。我们从以下两个方面验证了我们的网络设计。1)由于像素shuffle操作导致的接收场放大：我们删除了像素shuffle操作，以减少网络的接收场并评估性能。从表3中的结果，我们观察到，在不使用像素重排的情况下，性能会下降。此外，大的接收场有利于高分辨率图像和大的莫尔图案。这可以在图10中看到，其中湖上的莫尔伪影在大的接收场下被去除。2)混合权重的分析：为了更好地理解混合权重在我们模型中的作用，我们可视化了用于合并多帧特征的权重图（见图8）。权重图可以反映莫尔图案，并从附近的帧中选择有价值的信息进行融合，如图8（a）所示。此外，我们比较了一个特殊的sce- nario的输入是一个单一的帧的重复。在这种情况下，很难在没有辅助帧的线索的情况下推断莫尔图案，如权重图所示（图1）。第 8（b）段）。因此，最终演示结果（图8最后一列）变得更糟。深度监管缺失。为了说明这一点，我们只在原始图像尺度上构建损失函数。从表3中，我们观察到深度监督损失提高了所有三个指标的性能。一个可能的解释是，严重的监督损失迫使每个分支机构学习更合理的民主表示和公平竞争。表3.对网络的消融和损耗进行研究加快优化进程。基于时间一致性。我们验证了基于关系的损失的两种变体：多尺度基于关系的损失（Ours+M）和基本基于关系的损失（Ours+R）。从图7（b）中，纹理由于基于基本关系的损失而有点模糊，并且比我们的多尺度设计的结果（图7（c））更差。原因可能是区域一级统计数据（即，平均值）有助于减少时间一致性正则化的负面影响，时间一致性正则化倾向于平均化和擦除图像细节。与表2中的多尺度设计相比，较少的用户（42%）选择基本的单尺度设计。更重要的是，基于多尺度的正则化可以很好地保持帧级的定性性能（参见图 1B中的LPIPS）。第9段）。6. 限制和更广泛的影响虽然我们设计了一个管道来确保捕获的数据对的对齐，但很难在不同的相机视图下完美地对齐它们。目前，如果对使用新设备捕获的数据进行评估，我们的模型也会遇到泛化问题（例如，不同的ISP和Bayer过滤器）和筛网（例如，不同的分辨率）。扩大数据集的规模是一个潜在的解决方案，这将是我们未来的工作。此外，基于关系的损失是通用的，并且可以潜在地应用于其他视频任务，例如视频稳定。在实践中，我们已经发现，由帧错位引起的视频不稳定性已经减少。一个可能的解释是，稳定先验是从地面实况视频中学习的。7. 结论在这项工作中，我们构建了第一个视频演示基准，包括一个手持视频演示数据集，并开发一个基线视频演示模型，有效地利用多个帧。更重要的是，我们设计了一个有效的基于关系的一致性规则化，同时提高视频的时间consideration和保持视觉质量。对视频莫尔条纹进行了详细的分析，以帮助理解视频莫尔条纹的特征，并指出了基于小波的一致性规则化的不足。最后，大量的实验证明了我们的方法的优越性。鸣谢：本研究得到国家重点研发计划（编号：2021YFA 1001300）、香港大学-TCL人工智能联合研究中心及粤港澳应用数学中心资助2020 B1515310011。17631引用[1] 卢卡·博戈尼通过融合扩展单色和彩色图像的动态范围载于2000年国际人口政策审查委员会。2[2] Nicolas Bonneel，James Tompkin，Kalyan Sunkavalli，De- qing Sun，Sylvain Paris，and Hanspeter Pfister.盲视频时间一致性。TOG，2015。2[3] Jose Caballero 、 Christian Ledig 、 Andrew Aitken 、Alejandro Acosta 、 Johannes Totz 、 Zehan Wang 和Wenzhe Shi。结合时空网路与运动补偿之即时视讯超解析。在CVPR，2017年。2[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在CVPR，2017年。7[5] Kelvin CK Chan，Xintao Wang，Ke Yu，Chao Dong，and Chen Change Loy.Basicvsr：寻找视频超分辨率及更高分辨率的基本组件在CVPR，2021年。2[6] Kelvin CK Chan，Shangchen Zhou，Xiangyu Xu，andChen Change Loy. Basicvsr++：通过增强的传播和对齐来提高视频的超分辨率 .arXiv 预印本 arXiv ：2104.13371，2021。2[7] 张亚良，刘哲宇，李冠英，徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复在ICCV，2019年。7[8] 杨成，曹杰，张扬坤，郝群。回顾最先进的人工复眼成像系统。Bioinspiration biomimetics，2019。5[9] 蔡乐权和艾伦·康拉德·博维克考虑局部模糊视觉掩蔽的视频质量评估信号处理：图像通信，2018年。5[10] Jifeng Dai ， Haozhi Qi ， Yuwen Xiong ， Yi Li ，Guodong Zhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 2[11] 乔迪·达文波特。场景中对象之间的一致性效果。记忆认知，2007年。2[12] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser 、 Caner Hazirbas 、 Vladimir Golkov 、 PatrickVan Der Smagt 、 Daniel Cremers 和 Thomas Brox 。Flownet：使用卷积网络学习光流在ICCV，2015年。2[13] Gabriel Eilertsen Rafal K Mantiuk和Jonas Unger。时间稳定cnns的单帧正则化。在CVPR，2019年。3[14] Bin He，Ce Wang，Boxin Shi，and Ling-Yu Duan.使用mopnet拖把云纹图案。在ICCV，2019年。一、二[15] Bin He，Ce Wang，Boxin Shi，and Ling-Yu Duan.Fhde2 net：完全高定义demoireing网络。在ECCV，2020年。一、二、六[16] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，AlexeyDosovitskiy，andThomasBrox.Flownet 2.0 ：深度网络的光流估计的演变在CVPR，2017年。4[17] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。5[18] Wei-Sheng Lai ， Jia-Bin Huang ， Oliver Wang ， EliShechtman，Ersin Yumer，and Ming-Hsuan Yang.学习盲视频时间一致性。在ECCV，2018。一、二、四[19] 哈拉·兰道阿尔、杨查理、谢伟迪和安德鲁·兹瑟曼。被运动背叛：Camou通过运动分割实现了对象在ACCV，2020。5[20] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。在人工智能和统计，2015年。5[21] 李晨阳和陈奇峰全自动视频着色与自我正规化和多样性。在CVPR，2019年。一、二[22] 雷晨阳、邢雅洲、陈奇峰通过深度视频先验的盲神经IPS，2020年。一、二[23] Fanglei Liu，Jingyu Yang，and Huanjing Yue.利用低秩稀疏矩阵分解去除纹理图像中的莫尔在VCIP，2015年。2[24] Jiaying Liu ， Wenhan Yang ， Shuai Yang ， andZongming Guo.填充物？深关节复发性降雨清除和重建的视频。在CVPR，2018年。2[25] Lin Liu ， Jianzhuang Liu ， Shanxin Yuan ， GregorySlabaugh，Ales Zhao Leonardis，Wengang Zhou，and QiTian.基于小波变换的双分支网络在图像演示中的应用在ECCV，2020年。一、二[26] 刘琳，袁善新，刘建庄，鲍丽萍，格雷-戈里·斯拉博，田琦。自适应学习从聚焦和散焦图像对中去除“。arXiv预印本arXiv：2011.02055，2020。二、三[27] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：Stochas-tic 梯度下降与热重启。 arXiv 预印本 arXiv ：1608.03983，2016。6[28] 罗紫微，余雷，莫轩，李有为，贾兰鹏，范浩强，孙健，刘帅成.Ebsr：具有可变形对齐的增强突发超分辨率功能在CVPR，2021年。二、三[29] Seungjun Nah 、 Sungyong Baik 、 Seokil Hong 、Gyeongsik Moon 、 Sanghyun Son 、 Radu Timofte 和Kyoung Mu Lee。Ntire 2019年视频去模糊和超分辨率挑战：数据集和研究。在CVPR研讨会，2019年。5[30] EYK Ng，Jen Hong Tan，U Rajendra Acharya和Jasjit SSuri。人眼成像和建模。2012. 5[31] 西冈公彦，长谷川直树，小野克也，龙野裕隆.内窥镜系统配备低通滤波器，用于去除波纹，2000年2月15日。美国专利6，025，873。1[32] 欧阳昊，王腾飞，陈奇峰。通过隐式长距离传播的内部视频修复。ICCV，2021。3[33] Kwanyong Park ， Sanghyun Woo ， Dahun Kim ，Do

下载后可阅读完整内容，剩余1页未读，立即下载