GIF2Video:基于学习的提高GIF视觉质量的方法

129 浏览量更新于2023-10-19 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1419GIF 2Video：GIF图像Yang Wang1，Haibin Huang2 <$，Chuan Wang2，Tong He3，Jue Wang2，MinhHoai11石溪大学，Megvii Research USA2， UCLA 3，<$通讯作者摘要图形交换格式（GIF）是一种高度可移植的图形格式，在Internet上无处不在。尽管尺寸很小，GIF图像通常包含不希望的视觉伪像，如平坦的颜色区域，虚假的轮廓，颜色偏移和点状图案。在本文中，我们提出了GIF2Video，这是第一个基于学习的方法，用于增强GIF的视觉质量。我们专注于GIF恢复的挑战性任务，通过恢复在GIF创建的三个步骤中丢失的信息：伪影：1. 假轮廓2. 平坦区域3. 色移伪影：4. 点状图案采样、颜色量化和颜色抖动。首先，我们提出了一种新的CNN结构的颜色去量化。它是建立在一个组成架构的多步色彩校正，与一个全面的损失函数设计，以处理大的量化误差。然后，我们适应SuperSlomo网络的GIF帧的时间插值。我们引入了两个大型数据集，即GIF-Faces和GIF-Moments，用于训练和评估。实验结果表明，该方法可以显著提高GIF的视觉质量，优于直接基线和最先进的方法。1. 介绍GIF [1]无处不在，每天都有数百万互联网用户在互联网上创建和消费。GIF的广泛使用可以归因于其高可移植性和小文件大小。然而，由于创建过程中的大量量化，GIF的视觉质量通常比原始源视频差得多。从视频创建动画GIF涉及三个主要步骤：帧采样、颜色量化和可选的颜色抖动。帧采样引入了不稳定的运动，而颜色量化和颜色抖动创建了平坦的颜色区域、假轮廓、颜色偏移和点状图案，如图所示1.一、在本文中，我们提出了GIF2Video，这是第一个基于学习的方法，用于增强GIF的视觉质量我们的算法由两个部分组成。首先，它为动画gif序列的每一帧执行颜色反量化，去除由颜色量化和颜色抖动引入的伪像。其次，它增加了图1. 颜色量化和颜色抖动。两大创建GIF图像的步骤。这些都是有损压缩过程，会导致不希望的视觉伪影。我们的方法能够去除这些伪影并生成更自然的图像。通过使用用于时间内插的修改的SuperSlomo [20这项工作的主要努力是开发一种用于颜色去量化的方法，即，去除由重色彩量化引入的视觉伪像。颜色量化是一种有损压缩过程，它将原始像素颜色重新映射到小调色板中的有限条目集。此过程引入量化伪影，类似于当图像的位深度减小时观察到的那些伪影。例如，当图像位深度从48位减少时，到24位，调色板的大小从2. 8×1014颜色17×107颜色，导致少量伪影。然而，GIF的颜色量化过程具有256种不同颜色或更少的典型调色板。我们的任务是从一个微小的调色板（例如，256或32种颜色），并且它比传统的位深度增强更具挑战性[15，25，38]。当然，从量化图像中恢复所有原始像素颜色几乎是不可能的，因此我们的目标是呈现原始图像可能看起来的合理版本。这个想法是收集训练数据并训练ConvNet [16，23，29，34，44]将量化图像映射到其原始版本。然而，很难获得一个好的颜色量化颜色抖动颜色$% le）142022反量化网络，适用于各种GIF图像。为此，我们提出了两种新的技术，以提高去量化网络的性能。首先，我们把去量化作为一个优化问题，提出了一种新的迭代颜色去量化的网络架构 -- 组合颜色去量化网络（CCDNet）。类似于迭代Lucas-Kanade算法[28]，该迭代过程消除了与严重颜色量化相关的问题。其次，在训练过程中，我们考虑像素颜色和图像梯度的重建损失和生成对抗损失[10，19，32事实证明，这比仅在颜色值上定义的损失函数有效得多该论文的另一个贡献是创建了两个大型数据集：GIF-Faces和GIF-Moments这两个数据集都包含动画GIF及其相应的高质量视频。GIF-Faces是以脸为中心的，而GIF-Moments则更通用和多样化。在这两个数据集上的实验表明，我们的方法可以显着增强，输入的GIF。3. GIF生成和工件从视频创建GIF的三个主要步骤是：(1)帧采样、（2）颜色量化和（3）颜色抖动。帧采样减小了所获得的GIF的文件大小，但它也降低了视频内容的时间分辨率。在本节中，我们将提供有关颜色量化和颜色抖动过程以及由此产生的视觉伪影的更多详细信息，如图1所示。3.1. GIF颜色量化GIF颜色量化过程采用输入图像I∈RH×W×3和N种不同颜色的调色板C ∈RN×3，并产生颜色量化的GIF图像G.量化是针对每个像素计算的，因此G具有与输入图像相同的宽度和高度。像素处的Gi，j（i，j）被简单地设置为调色板C中最接近¨ ¨2提高GIF的视觉质量，减少各种类型的AR-时间相比之下，我们的方法优于其直接基线以及现有的方法，如虚假轮廓检测去除[15]和Pix2Pix [19]。2. 相关工作虚假轮廓检测和去除。图像和视频帧的平滑区域不应包含颜色边缘，但在颜色位深度减少或视频编解码器编码后，这些区域中通常会出现虚假轮廓已经提出了几种错误轮廓检测和去污染方法[2，5，7，15，21，24，42]来解决这个问题。其中，虚假轮廓检测和去除（FCDR）[15]是最新的最先进的方法。它首先定位伪轮廓的精确位置，然后应用专用操作来抑制它们。然而，GIF中的颜色量化伪影要严重得多，并且GIF颜色去量化需要的不仅仅是去除由位深度减少产生的微小错误轮廓。视频插值。经典的视频插值方法依赖于跨帧运动估计和遮挡推理[3，4，14，18]。然而，运动边界和严重遮挡对于现有的光流估计方法仍然具有挑战性[6，9]。此外，流计算、遮挡推理和帧内插是没有适当耦合的分离步骤。从深度学习在高级视觉任务中的成功中汲取灵感[12，22，36]，已经提出了许多用于单帧插值[26，27，30，31]和多帧插值[20]的深度模型。SuperSlomo [20]是最近提出的用于可变长度多帧插值方法的最先进方法。我们采用这种方法的GIF帧插值，以提高时间分辨率，输入颜色I i，j，即，G i，j=argmin c∈ C<$I i，j−c<$.调色板C可以用聚类算法来优化，以最小化总量化误差ΔI-GΔ2。不同的聚类算法在实践中使用，但Me-dian Cut [13]由于其计算效率而最受欢迎。GIF中的大多数视觉伪影都是由颜色量化过程产生的，其中使用了一个微小的调色板（N= 256，32，. ）.如图1所示，三种最明显的伪影类型是（1）平坦区域，（2）假轮廓和（3）色偏。我们注意到GIF图像有很多颜色值相同的连接组件，这些组件将被称为“平坦区域”。创建平坦区域是因为具有相似颜色的相邻像素被量化到调色板中的相同颜色箱中。假轮廓也出现在具有接近颜色值的平坦区域之间的边界处。这是因为颜色空间的连续性已经被打破，并且颜色变化不能是渐进的。我们还注意到，对于某些小区域（如图1中婴儿的嘴唇），输入图像和GIF之间的颜色偏移较大。这是因为调色板不会在这些小区域上花费预算，即使它们具有独特的，不同的颜色。3.2. GIF颜色抖动用小的调色板进行颜色量化会产生大量的量化误差和伪像.颜色抖动是一种可用于隐藏量化误差和减轻大规模视觉模式（如GIF中的假轮廓最流行的颜色抖动方法是Floyd-Steinberg抖动[8]。它在反馈过程中将量化误差从每个像素扩散到其相邻像素。抖动的GIF具有相同的小调色板。它似乎有更多的颜色。这个想法14212IC2I¨¨是使用混合颜色的邻域来在视觉上近似调色板中没有的颜色。颜色抖动会产生其自身的视觉伪像，即类似噪声的点状图案。当人们注意到局部区域时，这些点状图案是明显的。这种类型的伪像在某种程度上更容易去除，因为与非抖动GIF相比，抖动GIF使用误差扩散算法在相邻像素的帮助下保留了更多的颜色信息。值得注意的是，即使使用颜色抖动，GIF仍然包含平坦区域，虚假轮廓和偏移的颜色。4. 我们的方法我们的方法将GIF帧序列转换为具有更高视觉质量的视频。主要有两个步骤：彩色反量化和帧内插。对于颜色去量化，我们开发了一个新的组合ConvNet，灵感来自Lucas-Kanade算法的迭代优化过程[28]。该网络通过结合颜色值和图像梯度向量的重建损失和生成对抗损失在进行颜色反量化后，我们采用一种改进的视频帧插值方法来提高输出视频的时间分辨率。4.1. 颜色反量化设G = fC（I）表示颜色量化函数，其中G和I分别是GIF图像和原始输入图像，并且C是用于量化的调色板。颜色去量化的目标是在给定GIF图像G和调色板C的情况下恢复原始图像，即，I=f−1（G）。然而，量化函数fCI%⊕I（⊕I）G⊖G%！我G⊖G（！我G− G%G- G（图2. 拟议的CCDNet的结构。给定当前图像估计It，我们首先使用与输入GIFG相同的调色板来计算其颜色量化图像Gt。然后，UNet模块将（It，G，Gt，G-Gt）作为输入并输出将被添加到当前图像估计的I tI这个过程可以在训练和测试期间反复应用。¨ ¨2损失项-fC（I）-G-不能直接用作I的损失，因为量化函数关于输入图像的导数几乎每-其中.这是因为量化过程使用了一个微小的调色板。我们建议使用Lucas-Kanade迭代优化第二个损失项。在每次迭代中，我们计算恢复图像的更新，以进一步最小化损失：¨ ¨2min-fC（I+I）−G-，（2）∆I其中，Rfl是对地面实况图像I的当前估计的更新。Lucas-Kanade算法假定fC（I+ λI）是λI的线性函数，λ I很小，它可以用一阶Taylor级数展开式很好地近似fC（I+I）<$fC（I）+<$fC（I）<$I.因此，求解方程（2）可以近似为求解：是一个多对一的映射，所以颜色去量化是一个病态的，提出的问题。我们提出的方法嵌入了quan-¨¨最小-C（I）+C（I）¨¨吉.（三）将函数fC本身分解到组成网络中，∆I¨∂I¨其提供有价值的信息来指导反函数的学习和推断。以上是关于RPMI的二次规划，并且存在用于最优更新的封闭形式的解：4.1.1组合式建筑I=.萨夫角（一）+（G−fC（I）），（4）给定颜色量化的GIF图像G和调色板C，我们寻找接近地面实况图像I的图像I，并且同时满足颜色量化条件。应变fC（I）=G.这可以用公式表示为最优化问题，最小化I和Iω 之间以及fC（I）和G=fC（Iω）之间的重建误差，即，¨ ¨2¨ ¨2I其中+表示伪逆算子。 Lucas-Kanade算法在计算上述最新值和更新参数之间迭代：I=I+ ΔI。等式（4）表明更新参数R1是一个简单的两个GIF之间的差异的线性函数图像.然而，在实践中，minüI−I我2 +λ-fC（I）−G-2 .（一）量化函数和输入图像很少是线性的。在这种情况下，泰勒第一个损失项是恢复图像和地面实况图像之间的重建误差，其可以基于神经网络的输出和目标地面实况图像直接计算但第二级数展开不是紧密的，并且用于计算最优更新的简单线性模型可能没有足够的容量来拟合数据。相反，我们建议用深度ConvNet代替线性函数。具体来说，我们建议使用221422L/1 rre/02016年01月a#$3ReconL：AdvU-Net架构[34]估计最佳更新我是。等式4变为：I=g（I，G，fC（I），G−fC（I）），（5）其中g表示我们需要学习的深度ConvNet。遵循Lucas-Kanade算法的迭代优化方案，我们在计算最新方向和更新去量化图像之间交替：G **CCDNetL2ra#re/0I=g（It，G，Gt，G−Gt），））It+1←It+I（六）* 你 *图3. 颜色去量化损失。在EQUA中的拟议损失其中Gt=fC（It）。这导致了所提出的组合颜色去量化网络（CCDNet）。CCDNet的组成架构如图2所示。设It是地面实况图像的当前估计，我们首先将fC（用于生成G的相同颜色量化函数）应用于It以获得Gt。理想情况下，Gt应该等于G。但是如果有区别的话-在两个量化图像之间，差值G-Gt将为估计如等式4所示的CtI提供有价值的信息。因此，我们连接（It，G，Gt，G-Gt）并再次应用网络g来计算ΔI，这是subse。第7项基于颜色值和梯度值两者来测量估计图像I和地面实况图像I之间的差异我们还可以使用条件GAN框架来训练CCDNet，以鼓励更逼真的图像输出。Ii尽可能接近原始图像Iii我们建议使用方程中描述的损失函数（7）测量两种图像之间的差异。Lcolor（Ii，Ii）+Lgrad（Ii，Ii）+λadvLboth（Ii，Ii）.（七）用于更新估计图像I。这个过程ReconReconAdv可以迭代地应用于多个步骤。CCDNet可以通过多次展开架构来训练，如图2所示。假设一个该损失函数基于颜色值和梯度值两者来测量I i和I i之间的差异。为了得到更清晰的图像估计，我们使用L1范数来计算CCDNet展开k倍，我们参考相应的重建损失L颜色梯度侦察将模型设置为CCDNet-k。请注意，相同的U-Net模块在除第一步之外的所有展开步骤中共享。¨L颜色？¨ ¨和Lgrade¨你好。（八）重复使用相同的U-Net模块可显著降低recon=<$Ii−Ii <$1recon=1与其中不共享不同阶段处的U-Net参数的替代方法相比，模型参数的数量。我们允许U-Net在第一个展开步骤中具有与其余部分不同的参数，因为它期望不同的输入（t= 0时，It和Gt未定义）。对于颜色抖动的GIF，由于丢失了关于误差扩散步骤的信息，精确的量化函数fC不同的GIF创建软件程序使用不同的错误扩散算法，并且有关算法的信息不存储在GIF文件中。对于颜色抖动的GIF，我们建议不计算Gt和CCDNet中的G−Gt。幸运的是，颜色抖动和非抖动GIF具有不同的局部模式，可以通过简单的分类器轻松识别。我们建议为颜色抖动和非抖动GIF训练两个单独的CCDNet，并使用经过训练的分类器将输入GIF路由到相应的网络。4.1.2颜色去量化损失设Gi为CCDNet的输入GIF图像，Ii为相应的输出。我们想训练一个CCDNet，我们还可以使用条件GAN框架优化CCDNet，以鼓励网络的输出具有与原始地面真实图像相同的分布。这可以通过添加在颜色和梯度值上定义的对抗损失函数来完成：Lboth=logD（Gi，Ii，Ii）+log（1−D（Gi，Ii，Ii）），其中，D是用于区分地面实况图像集合{Ii}和估计图像集合{I i}的插值函数。将λ adv设置为0。01或0，取决于是否启用对抗性损失。实验表明关键的是包括在图像梯度值上计算的损失与原始图像相比，GIF图像具有截然不同的梯度签名（由于平坦区域，虚假轮廓，点状图案），因此在图像梯度上使用额外的损失会更有效。4.2. 时间内插我们调整了最近提出的SuperSlomo [20]网络，以逆转帧采样过程并提高GIF的时间分辨率SuperSlomo设计1423在每个时间步长tG编号&#答：颜G1&1&1（（1，$t→1）$t→1&1Vt→1C1美元t→C：优化&不$C#t→G#G1G1G#$#→1B：流（（，#t→#Vt→#$1→#&#&#图4. GIF2Video管道概述。网络A对两个连续的输入GIF帧G0和G1进行颜色反量化;网络B估计它们之间的双向流图;网络C接收来自A和B的输出，并产生t ∈（0，1）的插值帧It's。我们使用建议的CCDNet2作为网络A，修改后的SuperSlomo作为网络B和C。用于可变长度多帧插值。给定在时间步长t= 0和t= 1处的两个连续帧，一步中的超级Slomo可以在t= 0和t= 1之间的任何地方内插帧。这比仅中间帧t = 0的方法更有效。五是生产。有关SuperSlomo的更多详细信息可以在[20]中找到。我们实施SuperSlomo并使其适应我们的任务。图4描绘了整个GIF2Video管道，其中调整如（B）和（C）所示该算法有三个主要组成部分。网络A执行颜色去量化并输出估计的地面实况图像I0和I1。网络B估计两个输入帧之间的双向流图F0→1和F1→0网络C接收网络A和B的输出，并且它产生对于t ∈（0，1）的插值帧It我们使用建议的CCD-Net作为网络A，而网络B和C都是U-Net模块[20]。请注意，网络B直接从输入GIF图像估计光流，而不是使用网络A的输出。这允许网络A和B并行运行。实验表明，这种并行模型执行类似的替代顺序模型。5. 数据集使用第3节介绍的方法，我们可以将任何视频帧转换为GIF图像。这使我们能够用大量的训练图像对来训练CCDNet。作为副产品，我们引入两个GIF视频数据集：GIF-面孔和GIF-时刻。前者旨在以面部为中心，而后者则更通用，并建立在互联网用户共享的真实GIF上。图5显示了两个数据集的一些GIF帧（非抖动）。图像第一行中的图片来自GIF-Faces数据集，它们还覆盖了具有不同背景场景的上半身部分第二行显示了来自GIF-Moments数据集的图像。内容丰富，涵盖体育、电影、动漫等多个场景，图5. 来自GIF-Faces和GIF- Moments的GIF框架示例。第一行：GIF-Faces（以脸为中心）;第二行：GIF- Moments（互联网用户共享的通用GIF）。第关于这两个数据集的详细信息见下文。5.1. GIF Faces大部分在线GIF都是以面部为中心的，它们在脸颊和嘴唇等面部区域上包含明显的伪影。鉴于以面部为中心的GIF的流行，有强烈的动机来优化面部网络。GIF-Faces数据集就是为此目的而设计的。我们首先从FaceForensics数据集中提取了大量以面部为中心的视频片段[35]。FaceForensics中的大多数人脸都有近正面的姿势和跨帧的以Face-Forensics提供的视频为例，首先在每一帧上检测人脸，然后计算一个覆盖所有检测到的人脸的最小正方形区域。我们进一步将这个正方形区域扩大了1.5倍，以增加场景的覆盖范围。从FaceForensics数据集中共提取了987个高质量的以面部为中心的视频片段这些视频的帧被调整大小为256p×256p分辨率，时间分辨率不变。我们用了883用于培训的视频和104个用于评价的视频。每个视频平均有相应的GIF帧（抖动和非抖动）是从这些以面部为中心的视频中计算出来的，调色板大小设置为32。我们使用32作为默认的调色板大小，使颜色去量化任务尽可能具有挑战性，但不是不合理的。为了处理不同调色板大小的GIF，我们可以简单地读取它们的调色板大小，并将它们路由到在类似颜色量化级别上训练的适当模型。5.2. GIF时刻我们还策划了GIF-Moments，这是互联网用户共享的通用GIF数据集具体而言，Gygli et al.[11]抓取流行的GIF分享网站，收集了10万张GIF及其相应的原始视频。为每个1424RMSE3433323130292827抖动非抖动10.950.90.850.80.750.7抖动非抖动量子化我们观察到颜色抖动的GIF比互联网上的非抖动GIF更受欢迎。颜色抖动是首选的，因为它可以减少大的视觉伪影，如GIF中的假轮廓然而，非抖动GIF也被广泛分享。它们还表现出更多的伪影，并且对于GIF颜色去量化的任务更具挑战性。图6. 为颜色抖动和非抖动GIF使用单独的去量化网络的好处。青色：对两种类型的图像使用单个CCDNet。黄色：使用单独的专用网络。在这里，我们使用GIF-Faces数据集来训练CCDNet 1，λadv= 0。01.性能由PSNR和SSIM（越高越好）衡量。GIF剪辑，其数据集提供相应的YouTube视频ID以及开始帧和结束帧。这些视频时刻是通用的和多样的，覆盖广泛的视频类别和主题，例如体育、电影和动画。我们首先从YouTube上下载所有候选视频的最高分辨率，并使用注释的开始和结束帧对视频进行临时我们只保留具有足够空间和时间分辨率的高视觉质量视频：宽度和高度必须至少为360p，时间分辨率不低于20 fps，并且总帧数必须大于40。最终，我们收集了71，575个视频片段，总计1200万帧。我们分别使用85%、5%和10%的视频进行训练、验证和评估。与GIF-Faces类似，我们计算了相应的GIF帧（抖动和非抖动），调色板大小设置为32。6. 实验在我们的实验中，PSNR（峰值信噪比）和SSIM（结构相似性指数）作为评价指标。PSNR通过估计图像和地面实况图像之间的均方根误差（RMSE）来定义。更具体地，PSNR= 20 log10MAX。粗略地说，PSNR提高1dB、2dB和3dB分别相当于图像颜色空间中RMSE降低10%、20%和30%SSIM是量化图像质量的感知度量。我们首先计算每帧的PSNR和SSIM，并在每个视频中对它们进行平均，最后在测试集中的所有视频中对它们进行6.1. GIF颜色反量化6.1.1GIF颜色抖动模式颜色抖动步骤在GIF生成过程中是可选的。这是由创建工具或最终用户来决定是否执行颜色抖动后，颜色我们应该学习一个单一的CCD网络或两个单独的CCD网络的颜色抖动和非抖动GIF？后一种方法更好，如图6所示。此图显示了GIF-Faces数据集上的实验结果，其中我们使用λadv=0的情况。01.从图6中，我们观察到，学习一个同时使用抖动和非抖动GIF的CCDNet，训练数据降低了GIF颜色去量化性能，由PSNR和SSIM测量我们还观察到，更容易恢复抖动GIF的颜色值原因是抖动GIF使用误差扩散算法在相邻像素的帮助下比非抖动GIF保留更多的颜色信息。对于颜色抖动和非抖动GIF，使用单独的CCDNet的好处是显而易见的。但是，在测试时，GIF图像的颜色抖动模式不会存储在文件中。幸运的是，颜色抖动和非抖动GIF表现出非常不同的局部模式，特别是在梯度空间上。因此，我们可以训练分类器来推断输入GIF是否抖动我们在GIF-Faces训练集上训练了一个只有五个Conv层的简单分类器它在GIF- Faces和GIF-Moments测试集上分别实现了100%和98.6%的准确率。模型是一个有层的CNN：C（9，64）→NL→ C（64，128）→NL →C（128，256）→NL →C（512，1）→GAP。C（m，n）表示具有m个输入通道的Conv层，并且n个输出通道。 NL代表非线性，即一个BatchNorm后跟一个LeakyReLU（负斜率：0.2）。GAP是GlobalAverage Pooling的缩写。输入是一个带有渐变贴图的GIF帧。6.1.2网络损耗我们对GIF-Faces数据集进行了广泛的消融研究和定量评估。从这些实验中，我们得出以下几个结论。U-Net是CCDNet的有效组成部分。等式（6）中的函数g表示用于计算迭代更新的深度神经网络。有许多候选网络架构可用于g。我们使用三种模型进行了实验，这些模型已成功用于类似于颜色去量化的其他任务：[34]，[ 37 ]，[38]，[39]，U-Net架构允许多层次信息在网络上快捷传输，并广泛用于图像分割和图像到图像转换任务[19]。DRRN（深输入GIF单CCDNet独立CCD网络PSNRSSIM1425AdvRecon(a)基本模块3433323130（c）展开步骤（对抗性损失）3433323130(b) 损失（d）展开步骤（无损失）0.950.90.850.950.90.85图7. CCDNet在GIF-Faces数据集上的消融研究。U-Net是CCDNet的一个比其他构件更有效的构件(b)包含定义在梯度值上的损失是至关重要的，使用对抗性损失会产生更真实的图像。（c、d）分多个步骤展开CCDNet是有益的。GIF-Faces GIF-Moments示例GIF GIF 2Video GIF GIF 2Video表1.GIF颜色去量化的定量结果1/130.99/0.868 34.05/0.928 33.71/0.902 36.10/0.948GIF表情。第1-9行是CCDNet在不同设置下的结果-1/230.02/0.857 33.27/0.921 29.05/0.859 31.92/0.918东西。UNet-k代表以UNet为主干的CCDNet-k。行1/429.01/0.842 32.08/0.908 26.16/0.812 28.38/0.86510-13是几种现有方法的结果性能通过PSNR和SSIM来衡量（越高越好）。1/827.41/0.815 30.20/0.884 23.29/0.751 24.95/0.800递归残差网络（Recursive Residual Network）是一种用于单图像超分辨率的最先进网络。通过全局和局部的残差学习，可以大大减少模型参数的数量。GLCIC（全局和局部一致的图像完成）被提出用于图像和视频修复任务[41]。GLCIC的中间层是扩张的Conv层[43]，允许在不增加模型参数的情况下使用更大的输入区域计算每个输出像素。结果见表1（第1-3行）和图7（a）。可以看出，使用U-Net作为CCDNet的基本模块明显优于使用DRRN或GLCIC。我们认为DRRN从严重量化的GIF中恢复颜色的能力受到其小参数大小的限制。并且GLCIC通常不善于预测高频纹理区域内的图像（例如，衣服上的条纹，背景上的文字）。包括梯度值上定义的损失是至关重要的。表1的第3行显示了通过使用所有损失项训练CCDNet 1所实现的颜色去量化性能，而第4行显示了排除梯度值损失时的性能更具体地说，为了禁止梯度值的丢失，我们丢弃了梯度值。表2. 时间GIF帧插值的结果。创建的GIF的视觉质量会随着时间降采样因子从1增加到8而迅速恶化。建议的GIF 2 Video在GIF-Faces数据集上将恢复视频的PSNR提高了3dB，相当于像素颜色值的均方根误差降低了30%。第3行和第4行（也见图7（b）），我们观察到禁用基于图像梯度的损失后，定量性能显著下降。但更重要的是，我们发现，如果没有基于梯度的损失，网络无法减少伪影，如平坦区域和虚假轮廓。原因可以从图3中看出：I和I的差异在梯度空间中比在原始颜色空间中更明显因为GIF中显示的伪影与地面真实图像具有截然不同的梯度签名例如，GIF中的平坦区域具有零图像梯度，而GIF中的点状图案表现出类似噪声的梯度图案。使用对抗性损失产生更真实的图像。比较表1的第3行和第5行，并考虑图7（b），我们观察到，在去除对抗性损失Lboth后，PSNR/SSIM实际上提高了。这并不奇怪，因为它与许多以前使用对抗性梯度重构损失L梯度别再用“我”了学习对抗性损失是为了-把渠道给对抗性的CMDs。把图像比较逼真，这有时是不完美的PSNRSSIMPSNRPSNRSSIMSSIM#方法GIF-F非抖动aces抖动1DRRN-130.52/0.874-2GLCIC-130.71/0.883-3UNet-132.23/0.90733.72/0.9404UNet-1（无梯度损失）31.20/0.88432.68/0.9275UNet-1（无高级损失）32.83/0.91833.90/0.9446UNet-232.65/0.91134.31/0.9437UNet-332.85/0.91734.43/0.9458UNet-2（无高级损失）34.05/0.92835.63/0.9569UNet-3（无高级损失）33.75/0.92734.59/0.95010[19]第十九话31.41/0.89532.80/0.92511FCDR [15]31.51/0.878-12高斯（σ= 0. 第五章）31.36/0.87631.20/0.8731426GIF Pix2Pix CCDNet，无梯度CCDNet，no advCCDNet，全损GT图8. GIF颜色去量化的定性结果。Pix2Pix和CCDNet在没有基于图像梯度的损失的情况下训练，不能很好地去除量化伪影，如平坦区域和虚假轮廓。使用对抗性损失训练CCDNet会产生更逼真和更丰富多彩的图像（参见皮肤和嘴唇的颜色）。最好在数字设备上观看。与改善定量测量（如PSNR或SSIM）的目标一致。从定性结果来看，我们发现对抗性损失确实有助于使输出图像更加真实。我们还进行了一项小规模的用户研究，涉及五个主题。我们展示了两个CCDNet2（带和不带）产生的一对图像Ladv）随机排列。受试者选择对他们来说更现实的。三个选择和被选择的百分比年龄如下。使用Ladvv：53%;不使用Ladvv：12%;不确定：35%。将量化过程嵌入到CCDNet中，有利于CCDNet的多步展开。如图2所示，所提出的CCDNet是一种可以通过多个步骤展开的组合架构从经验上看，这样做是有益的，如图7（c）和（d）所示我们观察到，随着更多的展开步骤，CCDNet可以更准确地估计地面实况图像，特别是在对象边界周围。我们还研究了将GIF颜色量化过程嵌入到CCDNet中在等式4、5和6中，我们推导出输入GIF与当前实例的对应GIF之间的差异图像估计，即， G−Gt=G−fC（It），提供了有价值的关于如何更新当前估计的信息和指导。如果我们将Gt和G−Gt从U-Net基本模块的输入通道中移除，CCDNet2的色彩去量化性能将显著下降。对于在没有Ladv的情况下训练的CCDNet 2，PSNR/SSIM从34.05/0.956至33.40/0.923。对于CCDNet 2，Ladv，PSNR/SSIM从32.65/0.911下降到32.48/0.904。6.1.3与其他方法的表1第10-13行报告了GIF-Faces数据集上几种其他方法的颜色去量化性能。我们首先考虑应用具有不同核大小的高斯平滑（行12，13）。正如预期的那样，这种朴素方法的颜色去量化性能确实很差。然后，我们实现FCDR（虚假轮廓检测去除[15]），这是最近提出的用于图像位深超分辨率的最先进方法它可以减轻由图像位深缩减引入的轻度颜色量化伪影。然而，GIF生成中使用的颜色量化远比图像位深缩减中使用的颜色量化更具侵略性。FCDR无法处理严重的GIF伪影，如第11行所列。我们还测试了Pix2Pix [19]，这是一种为图像到图像翻译任务设计的对抗网络。它的表现类似于我们的CCDNet1训练，没有基于图像梯度的损失。6.2. 时间GIF帧插值表2显示了所提出的GIF2Video算法在非抖动GIF面部和GIF矩数据集上的性能。性能由PSNR/SSIM（越高越好）衡量。对于这个实验，我们使用CCDNet2训练，而没有对抗性损失用于颜色去量化。可以观察到，随着时间下采样因子从1增加到8，创建的GIF的视觉质量迅速恶化。对于较大的下采样因子，GIF矩的视觉质量比GIF面差。这是因为GIF-Moments数据集包含更多的动态内容和更大的运动。在GIF-Faces数据集上，GIF 2 Video算法能够将恢复视频的PSNR提高3dB，相当于在图像颜色空间中均方根误差降低30%7. 结论本文介绍了GIF2Video，这是第一个基于学习的方法，用于增强GIF的视觉质量。GIF2Video的主要任务是颜色反量化和帧插值。对于第一个任务，我们提出了一种新的组合网络架构CCDNet和一个用于训练它的综合损失。对于第二个任务，我们采用SuperSlomo进行可变长度多帧插值，以提高输入GIF的时间分辨率。实验表明，我们的方法可以显着提高输入GIF的视觉质量，并显着减少量化文物。我们希望我们的方法可以激发更多解决方案来从GIF重建视频的任务，例如基于将图像序列视为3D体积的想法[39，40]，或者应用递归神经网络来增强帧间一致性[33]。1427引用[1] 图形交换格式，版本 89a 。网址： //www.w3.org/Graphics/GIF/spec-gif89a.txt。1[2] W. Ahn和J. - S. Kim.数字电视显示中的平坦区域检测与伪轮廓去除。多媒体与博览会，2005年。ICME 2005年。 IEEE国际会议，第1338-1341页。IEEE，2005年。2[3] S. Baker、D. Scharstein，J.刘易斯，S。罗斯，M。J.Black和R.塞利斯基光流数据库和评价方法。IJCV，92（1）：1-31，2011. 2[4] J. L. Barron，D.J. Fleet和S.S. Beauchemin 光流技术的性能。IJCV，12（1）：43-77，1994. 2[5] S. Bhagavathy，J.Llach和J.翟用于抑制数字图像中轮廓伪影的多尺度第18卷，1936-1945页。IEEE，2009年。2[6] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影在Proc. ECCV中，第611-625页。Springer，2012. 2[7] S. J. Daly和X.峰去污：伪轮廓伪影的预防和消除。在Human Vision and Electronic Imaging IX，第5292卷，第130-150页中。国际光学与光子学会，2004年。2[8] R.弗洛伊德和L.斯坦伯格空间灰度自适应算法。《信息传播学会会刊》，1976年。2[9] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在procCVPR，第3354-3361页。IEEE，2012。2[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在Z. Ghahramani，M. 威林C. Cortes，N.D. Lawrence和K.Q. Weinberger编辑NIPS。2014. 2[11] M. Gygli，Y. Song和L.曹Video2gif：从视频自动生成动画GIF。在Proc. CVPR，2016中。5[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在Proc. CVPR，2016中。2[13] P. Heckbert 彩色图像量化的帧缓冲显示，第16卷。ACM，1982年。2[14] E. Herbst，S. Seitz和S.贝克基于光流的时间内插遮挡推理。华盛顿大学计算机科学与工程系。代表UW-CSE-09-08-01，2009年。2[15] Q. Huang，H.Y. Kim，W.-J. Tsai，S.Y. Jeong，J.S. Choi和C.-C.郭敬明hevc压缩图像中伪轮廓的理解与去除。IEEE Transactions on Circuits and Systems for VideoTechnology，28（2）：378-391，2018。一、二、七、八[16] Z. Huang，T.Li，W.Chen，Y.Zhao，J.兴角，澳-地勒让德尔，L.罗角，澳-地Ma和H.李从非常稀疏的多视图性能捕获的深度体积视频。在欧洲计算机视觉会议（ECCV）的会议记录中，第336-354页1[17] S. Iizuka、E. Simo-Serra和H.石川全局和局部一致的图像完成。ACM Transactions on Graphics（TOG），36（4）：107，2017。6[18] E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：利用深度网络的光流估计的演进。在proc CVPR，第2卷，第6页，2017年。2[19] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在procCVPR，2017年。二、六、七、八[20] H. Jiang，中国粘蝇D. Sun，V. Jampani，M.- H. Yang，E. Learned- Miller，and J.考茨Super slomo：用于视频插值的多个中间帧的高质量估计2018. 一、二、四、五[21] X. Jin，S. Goto和K. N.颜用于抑制解压缩视频中轮廓伪影的基于复合模型

下载后可阅读完整内容，剩余1页未读，立即下载