没有合适的资源?快使用搜索试试~ 我知道了~
可切换时间传播网络刘思飞1,钟广宇1,3,Shalini De Mello1,Gu Jinwei1,Varun Jampani1,Ming-Hsuan Yang1,2,Jan Kautz11NVIDIA2UC Merced3大连理工抽象。视频在帧之间包含高度冗余的信息这样的冗余已经在视频压缩和编码中被广泛研究,但是对于更高级的视频处理较少探索在本文中,我们提出了一个可学习的统一框架,用于传播视频图像的各种视觉属性,包括但不限于颜色,高动态范围(HDR)和分割掩模,其中属性仅适用于少数关键帧。 我们的方法是基于一个时间传播网络(TPN),它的模型之间的过渡相关的亲和力一对帧在一个纯粹的数据驱动的方式。我们从理论上证明了TPN的两个基本性质:(a)通过将来自于任意方向的帧的全局训练规则化,可以在传播期间很好地保持该性质的“稳定性”;以及(b)这种规则化可以通过所提出的具有对帧对的双向训练的可切换TPN来我们将可切换TPN应用于三个任务:基于几个彩色关键帧对灰度视频进行着色,从低动态范围(LDR)视频和几个HDR帧生成HDR视频,以及从视频中的第一帧传播分割掩模实验结果表明,我们的方法是显着更准确和更有效的比国家的最先进的方法。1介绍视频在帧之间包含高度冗余的信息。考虑从视频中随机采样的一对连续帧,很可能它们在大多数区域中的外观、结构和内容方面相似。在视频压缩中已经广泛地研究了这种冗余以减少存储并加速视频的传输,但是对于更高级的视频处理较少探索。许多最近的算法,例如基于光流的扭曲[1]、相似性引导的滤波[2,3]和双边CNN模型[4],探索帧之间的局部关系以传播信息。这些方法根据手工制作的像素级特征(例如,像素强度和位置)或视在运动(例如,光流)。它们具有几个潜在的问题:(a)设计的相似性可能不忠实地反映图像结构,以及(b)这种相似性可能不表达帧之间的高级成对关系,例如,用于在语义域中传播分段掩码。2Sifei Liu等人Fig. 1.我们提出了TPN模型,该模型采用已知属性(例如,颜色、HDR、分割掩模),并将其变换为附近帧(k + τ),通过“预处理”来确定。该形式由可学习矩阵G来绘制,其从一些已知信息(例如,亮度、LDR、RGB图像)。我们以合适的大小示出了三个任务,其中k表示为其提供地面实况属性的关键帧。橙色的边界框显示了我们算法的传播结果,在左列中的信息的指导下。我们突出显示(红色边界框)的区域,所提出的方法成功地处理大的过渡或保留精细的细节。放大以查看详细信息。在本文中,我们开发了一个时间传播网络(TPN)来显式地学习一对帧之间的像素级相似性(见图1)。①的人。它包含一个传播模块,用于传输属性(例如,颜色)到附近帧,该全局线性变换矩阵是用CNN从任何可用的指导信息(例如,亮度)。当在时间域中学习传播时,我们执行两个原则(a)双向性,即,一对帧之间的传播应该是不可见的,并且d(b)c是 不 可 见 的 ,即。例如,“stylenergy”(即“结构性能量”)。G. 在传播期间应当保留目标属性的颜色(例如,颜色的比例)。我们从理论上证明:在TPN中实施这两个原理等同于确保变换矩阵相对于每个传播方向正交。这一理论结果使我们能够实现TPN作为一种新的,特殊的网络架构-可切换的TPN(见图1)。2)-不显式求解变换矩阵。它在传播模块中对一对帧进行双向训练,这是由来自指导CNN网络的切换输出映射指导的。实验表明,所提出的架构是有效的,即使在两个相距甚远的帧之间保持风格的能量我们为三个传播任务验证了所提出的模型:(a)来自几个彩色关键帧和灰度视频的视频着色(第5.2节)。通过这种时间传播,黑白视频彩色化的工作量可以大大减少到只注释少量的关键帧。(b)从具有几个HDR关键帧的LDR视频重构HDR视频(第5.3节)。这是用于HDR视频捕获的新方式,其中整个视频可以用几个提供的HDR帧来重构(c)当仅提供第一帧中的目标的分割掩模时的视频分割我们表明可切换时间传播网络3即使没有任何基于图像的分割模型,所提出的方法可以实现与最先进的算法相当的性能。所有这些任务揭示了时间上接近的帧之间的视频属性是高度冗余的,并且它们之间的关系可以从相应的指导信息中学习。与现有方法相比,除了新颖的架构之外,我们提出的方法还具有以下优点:(一).高精度。与先前的工作[4,5]相比,TPN显著提高了视频质量。更重要的是,可切换TPN比没有可切换结构的网络显著更好地保持风格能量。(b).高效的我们的方法在单个Ti- tan XP GPU上实时运行所有三个任务,比之前的工作快30倍到50倍[4,5](见表1)。此外,我们的模型不需要视频帧的顺序处理,即,所有视频帧可以并行处理,这可以进一步提高其效率。2相关工作和问题背景对像素传播的亲和性进行建模。亲和度是两个像素/实体之间的接近度的通用度量,并且广泛用于所有级别的视觉任务中良好建模的亲和力揭示了如何将信息从已知像素传播到未知像素。大多数现有方法基于简单、直观的函数来设计亲和性度量[2,6,3]。最近,提出了一种深度CNN模型,通过将像素的传播建模为图像扩散过程来学习任务相关的亲和度度量[7]虽然[7]限于图像分割的像素的空间传播,但其高级思想启发我们通过CNN学习其他领域中的像素亲和力,例如,在本工作中提出的视频序列中。开发用于跨视频帧传播时间信息的方法受到的关注相当少。Jampani等人[4]提出通过将像素嵌入到基于空间、时间和颜色信息定义的双边空间[8]中来传播视频分割和颜色信息。虽然来自不同帧的相同区域的像素在该空间中可以更接近我们提出的算法是不同的,因为它明确地学习像素的亲和力,描述了特定于任务的时间帧转换,而不是手动定义一个相似性度量。图像和视频中的着色是通过[3]中的交互式过程实现的,该过程基于抠图拉普拉斯矩阵并具有手动定义的相似性,在帧内或跨帧在空间上传播手动注释的最近,已经开发了几种基于CNN的方法,用于使用全自动或稀疏注释的颜色对图像中的像素进行着色[9,10]。由于彩色像素的多项式性质[10],交互式过程通常会给出更好的结果。虽然交互式方法可以用于单个图像,但对所有帧进行注释是不实际的4Sifei Liu等人单色视频的一部分。在这项工作中,我们提出了一个更合理的方法,通过使用几个颜色的关键帧传播视觉信息之间的所有帧为此,如第5.2节所述,通过仅在几个关键帧中的稀疏位置处进行注释,可以轻松实现对完整视频进行着色HDR成像的视频传播大多数消费级数码相机的动态范围有限,并且经常捕获具有曝光不足/过度区域的图像,这不仅降低了捕获的照片和视频的质量,而且还损害了许多应用中的计算机视觉任务的性能。实现HDR成像的常见方式是捕获具有不同曝光的LDR图像的堆叠并将它们融合在一起[11,12]。这种方法假设静态场景,因此需要去重影技术[13捕获动态场景的HDR视频提出了更具挑战性的问题。创建HDR视频的现有方法主要基于在帧之间交替曝光的硬件[16,17],或使用多个相机[18],或具有逐像素曝光控制的专用图像传感器[19,20]。最近已经开发了一些基于深度模型的方法用于HDR成像。Kalantari等人[21]使用深度神经网络将多个LDR图像对齐为动态场景的单个HDR图像。Zhang等人[22]开发自动编码器网络以从单个曝光的LDR图像预测单个HDR全景以用于基于图像的渲染。此外,Eilertsen et al.[5]提出了一个类似的网络,用于从单个LDR输入图像进行HDR重建,其主要集中在恢复高强度饱和区域中的细节。在本文中,我们将TPN应用于从LDR视频重建HDR视频。给定几个HDR关键帧和LDR视频,TPN将场景辐射信息从关键帧传播到其余帧。注意,与所有现有的基于单个LDR的方法[22,5](其使图像中缺失的HDR细节产生幻觉)不同,我们专注于将HDR信息从输入的几个HDR图像传播到相邻LDR帧,这为高效、低成本的HDR视频重构提供了替代解决方案。3该算法我们利用视频中的冗余,并提出了TPN的学习亲和力和帧之间的传播目标属性以视频彩色化为例。给定一部老的黑白电影,其中一些关键帧被艺术家着色,我们可以自动为整部电影着色吗?该问题可以等效地重新表述为传播目标属性(即,颜色)基于一些特征的亲和性(例如,亮度)。直观地,这是可行的,因为(1)视频随时间具有冗余一一附近的帧往往具有相似的外观,以及(2)亮度域中的两个帧之间的像素相关性通常与颜色域中的像素相关性一致。在这项工作中,我们模拟了目标属性的传播(例如,颜色)作为线性变换,Ut=GUk,(1)可切换时间传播网络5图二.可切换TPN的架构,其包含用于双向训练的两个传播模块。我们具体地使用红色虚线框来表示可切换结构。在反向对中,输出通道{P}被切换(红色)用于水平和垂直传播。其中U∈Rn2×1和U ∈Rn2×1是n × n的向量化形式k t2 2一个关键帧和一个邻近帧的性质映射,G∈ Rn×n是待估计的变换矩阵4.假设我们观察到两个帧的一些特征(例如,亮度)Vk和Vt,变换矩阵G因此是Vk和Vt的函数,G = g(θ,Vk,Vt).(二)矩阵G应该是密集的,以便在全局范围内对任何类型的像素转变进行建模,但是G还应该是简洁的,以便进行有效的估计和传播。在第3.1节中,我们提出了一个解决方案,称为基本TPN,通过将线性变换G公式化为类似于[7]的图像扩散过程接下来,在第3.2节中,我们介绍了我们工作的关键部分,可切换的TPN,它执行时间传播的双向性和风格一致性我们证明,执行这两个原则是等价的,以确保变换矩阵G是正交的,这反过来又可以很容易地实现,通过配备一个普通的时间传播网络与可切换的结构。3.1通过基本TPN学习像素转换经由CNN直接学习变换矩阵G是禁止的,因为G具有巨大的维度(例如,n2×n2)。相反,受最近工作[7]的启发,我们将变换公式化为扩散过程,并通过沿图像中的每行和每列线性传播信息来有效地实现它。假设我们在传播过程中只保留前一列(行)的k = 3个最近邻,并且我们在d = 4个方向上执行传播,则要估计的参数总数从n2× n2显著减少到n2×k× d(参见图2的示例)。2)的情况。4对于具有多个通道n×n×c的属性映射,我们分别处理每个通道6Sifei Liu等人作为扩散过程的线性变换。从帧k到帧t的扩散过程可以用离散形式的偏微分方程(PDE)表示为:▽U=Ut−Uk=−LUk=(A−D)Uk,(3)其中L=D−A是拉普拉斯矩阵,D是对角度矩阵,A是亲和矩阵。在我们的例子中,这表示属性映射U随时间的传播(3)可以重写为Ut=(I-D+A)Uk=GUk,其中G是两个状态之间的变换矩阵,如(1)中所定义的,并且I是单位矩阵。线性传播网络利用传播结构,帧之间的扩散可以被实现为沿着图像的行或列的线性传播。在这里,我们简要地展示了它们的等价性。在[7]之后,我们以从左到右的空间传播操作为例:yi=(I−di)xi+wi yi−1,i∈[2,n],(4)其中x∈Uk和y∈Ut,n×1向量{xi,yi}表示传播前和传播后的第i列,初始条件为y1=x1,wi是空间变化的n×n子矩阵。这里,I是单位矩阵,di是边形矩阵x,其中Σ所用的元素是以下所有元素的总和i(t,t)=nj=1,j/=tw i(j,t)。 [17]如:(1)递归项,以及(b)将所有行/列连接为矢量化映射,很容易证明(4)等价于Uk和Ut之间的全局变换G,其中每个元素是几个空间变化的wi矩阵的乘积[7]。本质上,传播结构不是将G中的所有条目预测为独立变量,而是将问题转移到学习(4)中的每个子矩阵wi,这显著降低了输出维度。学习子矩阵{wi}。我们采用一个独立的深度CNN,即指导网络,输出所有的子矩阵wi。注意,(1)中的传播是对d = 4个方向独立进行的,如图所示。2.对于每个方向,它将一对图像{Vk,Vt}作为其输入,并输出具有与U相同的空间大小的特征图P(参见图2)。图i,j中的每个像素都包含图i,j中的所有值,其中所述值表示相邻列之间的局部关系,但是通过传播结构导致G与[7]类似,我们仅保留来自前一列的k= 3个最近邻居,这导致wi是三对角矩阵。因此,总共使用n×n×(k×d)个参数来实现变换矩阵G。这样的结构显著地压缩了引导网络,同时仍然确保对应的G是可以描述一对帧之间的全局和密集成对关系的密集矩阵。3.2通过可切换的TPN在这一部分中,我们表明,有两个独特的特点,传播在时间域中,这并不存在传播的空间做-可切换时间传播网络71→2main [7]。首先,时间传播对于两个帧是双向的,即,能够将帧U1变换为帧U2的网络也应该能够从U2变换为U1,其中对应的是输入到所述帧U1和U2的相反顺序。因此,在预处理期间,跨图像传播的属性的总体“风格”应当在帧之间保持恒定,例如,在颜色传播期间,短视频剪辑内的所有帧的颜色饱和度是相似的。 我们称之为“强制执行”。如下所示,我们证明了强制双向性和一致性等同于确保变换矩阵G是正交的,这进而可以通过为普通时间传播网络配备可切换结构来容易地实现。TPN的双向性。我们假设附近视频帧中的属性不具有因果关系。该假设适用于自然存在于现实世界中的大多数属性颜色和HDR。因此,这些属性的时间传播通常可以在方向上切换而不中断该过程。给定扩散模型G和一对框架{U1,U2},我们有一对方程:U2=G1→2U1,U1=G2→1U2,(5)其中箭头表示传播方向。双向性特性意味着通过{V1,V2}将两个帧的角色反转为输入。{V2,V1},并且相应的监控信号对应于网络应用逆变换矩阵G2→1=G−1。序列中的样式保持。风格一致性是指当传播颜色或HDR信息时,所生成的帧是否可以保持类似的色彩属性或亮度,这对于产生高质量视频而不随时间消失属性是重要的。在这项工作中,我们确保这样的全球时间一致性,通过最小化的差异,在风格损失的传播属性的两个帧。风格丢失已被广泛用于风格转移[23],但尚未用于正则化时间传播。在我们的工作中,我们表示的风格的革兰氏矩阵,这是成比例的非中心协方差的属性地图。风格损失是关键帧和后续帧的格拉姆矩阵之间的差的平方弗罗贝尼乌斯范数:定理1.通过正则化样式损失,我们得到以下优化w.r.t.指导网络:最小1UU1−UU22(六)N1 2FS.T.U2= GU1。(七)当G是正交的时,达到最优解证据 由于函数(6)是非负的,当UU1=UU2。将其与(7)结合,我们得到GG=I。1 28Sifei Liu等人假设G是正交的,则(5)中的G2→1可以用G代替,其中1→2−1等于G1→2。因此,可以表示通过一对相互转置的变换矩阵。在下面的部分中,我们将展示如何通过特殊的网络架构在线性传播网络中对变换矩阵G请注意,在我们的实现中,即使我们使用章节中描述的信道传播3.1,其中UU实际上减少到非中心方差,定理1的结论仍然成立。一种可切换的传播网络。 线性变换矩阵G具有重要性质:因为传播是定向的,所以变换矩阵G是三角矩阵。考虑沿着水平轴的两个方向(即,-,←)在图2中。G是特定方向的上三角矩阵(例如,→),而它是下三角形的相对的一个(例如,←).假设P→和P←是制导网络w.r.t.的输出图。这两个相反的方向。这意味着对于在从左到右方向上的传播是下三角形的变换矩阵对于相反的传播方向变成由于上三角矩阵:(a)对应于在从右到左的方向上传播,并且(b)包含相同的权重子矩阵集合,从而将CNN输出信道切换为从右到左的方向。相反的方向P→和P→等价于在TPN中转置变换矩阵G。这一事实被利用作为正则化结构(见图中的红色bbox)。(2)在训练中。总而言之,TPN的可切换结构源自两个原理(即,双向性和风格一致性)以及矩阵G由于特定形式而为三角形传播。注意,[7]没有解决矩阵的三角测量,因此仅限于空间域中的传播。我们表明,可切换的TPN(STPN)大大提高了基本的TPN的性能,在推理时间没有计算开销。4网络实现我们提供了共享的颜色,HDR和分段掩码传播,这是在这项工作中提出的网络实现细节。这些设置也可以潜在地推广到视频的其他属性。基本TPN。基本TPN包含两个独立的分支:(a)用于引导网络的深度CNN,其将所提供的信息作为输入{V1,V2},并输出构成状态变换矩阵G的所有元素(P),以及(b)线性传播模块,其获取一个帧U1的属性映射并输出U2。它还将遵循公式(4)的传播系数{P}作为输入,其中{P}包含kd个通道(对于每个方向的每个像素,k= 3个连接,并且总共d{V,U,P}根据⑷具有相同的空间大小。我们使用节点最大池[24,7]来整合隐藏层并获得最终的可切换时间传播网络9图3.第三章。我们展示了通过基本TPN输出的两组颜色过渡对于每个组,左侧是提供了地面实况彩色图像的关键帧,右侧是从左侧传播的新帧。{ak,bk}和{ak+τ,bk+τ}是TPN的输入和输出。所有四个示例都显示了由对象移动引起的明显外观放大以查看详细信息。表1.不同方法的运行时我们为VPN颜色传播设置K= 30 [4]以计算其运行时间。最后四列是我们的方法。方法VPN [4](彩色)VPN [4](分段)HDRCNN[5] 颜色 HDR SEG(t)SEG(t+s)(毫秒)73075036515251784传播结果所有子模块都是可微的,并使用随机梯度下降(SGD)进行联合训练,基本学习率为10−5。可切换的TPN。 图2示出了如何在训练期间利用TPN的可切换结构作为附加的正则化损失项。对于训练数据的每对(U1,U2),(8)中的第一项示出了由在U2上的两个权值和在U2上的广义权值得到的正则 补充。In如图所示,在图2(b)中,由于我们想要在可切换TPN中强制双向性和风格一致性,因此相同的网络应该能够通过简单地切换引导网络的输出的通道而从U 2传播回到U 1,即,切换{P→,P←}和{P↓,P↑}的信道以用于在相反方向上传播信息。这将形成(8)中的第二个损失项,其在训练期间用作正则化(由λ加权)。我们设置λ = 0。1为本文中的所有实验。¨ˆ ˆ¨¨2¨ ¨2ˆ¨ ¨ ˆ¨L(U1,U1,U2,U2)=¨U2(i)−U2(i)¨+λ¨U1(i)−U1(i)¨.(八)在推理时,可切换TPN简化为第3.1节中介绍的基本TPN,因此没有任何额外的计算开销。5实验结果在本节中,我们将展示我们在视频中传播颜色通道、HDR图像和分割掩模的实验结果。我们注意到,跨相对较长的时间间隔传播信息可能不满足本发明的要求。10Sifei Liu等人见图4。使用(b)基本TPN或(c)可切换TPN,从关键帧(a)到具有相当大的外观过渡的新帧的颜色传播的示例。特写镜头显示了详细的比较。放大以查看详细信息。扩散模型的假设,特别是当新的对象或场景出现时。因此,对于颜色和HDR传播,不是考虑这样的复杂场景,而是将“关键帧”设置为针对背景的预定义值。 此时,为每K个帧提供地面实况颜色或HDR信息,并将其传播到它们之间的所有帧。这是一个现实世界应用的实用策略。请注意,对于视频分割掩码传播,我们仍然遵循DAVIS数据集的协议[25],并且仅使用第一帧的掩码。5.1常规网络设置和运行时我们使用一个类似于[7]的指导网络和传播模块,具有两个级联的传播单元。为了计算和存储器效率,以较小的分辨率实现传播,其中U在被馈送到传播模块之前从原始输入空间下采样隐藏层然后被双线性上采样到图像的原始大小我们采用对称的U形网,轻量级深度CNN,所有任务都有跳过链接,但层数略有不同,以适应不同的输入分辨率(见图1)。2作为颜色传播的示例)。我们首先在从图像数据集生成的合成帧对上预训练模型。(e.g.、用于颜色和分割传播的MS-COCO数据集[26],以及用于HDR传播的自收集数据集,参见补充材料)。给定一幅图像,我们通过相似性变换以两种不同的方式对其进行增强,该相似性变换具有来自s ∈ [0]的均匀采样参数。九,一。1],θ ∈[−15◦,15 ◦],dx ∈ [−0. 1,0。1]×b,其中b= min(H,W).我们还应用这种数据增强,同时从视频序列的补丁训练。我们在表1中展示了使用单个TITAN X(Pascal)NVIDIA GPU(不含cuDNN)在512×512图像上使用不同方法可切换时间传播网络115.2视频中的颜色传播我们使用ACT数据集[27],其中包含7260个训练序列,总共约600K帧,包含各种类别的动作。所有的序列都很短,具有小的相机或场景过渡,因此更适合于所提出的任务。我们在ACT数据集上重新训练和评估VPN网络,以进行公平的比较。原始测试集包含3974个序列,超过300K帧。为了更快地处理,我们从每个动作类别中随机选择五个视频,以保持原始ACT数据集的先验分布。我们使用一个用于测试,其余四个用于训练。我们在CIE-Lab颜色空间中执行所有计算。在MS-COCO数据集上进行预训练后,我们通过从序列中随机选择两帧并在同一空间位置裁剪两帧作为单个训练样本来微调ACT数据集上的模型。具体来说,我们的TPN将从关键帧随机裁剪为256×256的级联ab通道作为输入然后,在输 入到 传 播 模块 之 前 ,通 过步 长 = 2的2个 卷积 层 将 补丁 转 换 为64×64×32在传播之后,输出图被上采样为针对关键帧之后的帧的变换的ab指导CNN将两个帧的一对亮度图像(L)作为输入我们优化了地面实况和由我们的网络生成的传播颜色通道之间的欧几里得损失(在ab注意,对于可切换TPN,我们具有根据(8)的具有不同权重的两个在测试期间,我们将估计的ab通道与给定的L通道相结合以生成彩色RGB图像。我们所有的评估指标都是在RGB颜色空间中计算的。表2.对于不同的关键帧间隔K,ACT数据集上的视频颜色传播的RMSE和PSNR(括号中)。我们比较了K= 30的VPN。eval均方根峰值信噪比间隔K=10K=20K=30K=40K=10K=20K=30K=40BTPNim+BTPNvd4.435.466.046.4436.6535.2234.4633.96BTPNim+STPNvd4.005.005.586.0137.6336.0935.2634.70STPNim+STPNvd3.984.975.555.9937.64 36.12 35.29 34.73VPN(第1阶段)[4]--6.86---32.86-我们比较了三种组合的模型。我们将基本的TPN网络称为BTPN网络,将STPN网络称为S TP N网络,这两种网络分别在MS-COCO上进行了有效的“im“预训练,在ACT上进行了有效的“v d”微调我们比较的方法包括:(a)BTPNim+BTPNvd,(b)BTPNim+STPNvd,和(c)(c)STPNim+STPNvd;并且评估不同的关键帧间隔,包括K ={10,20,30,40}。均方根误差(RMSE)和峰值信噪比(PSNR)的定量结果从结果中可以推断出两种趋势第一,可切换TPN始终优于基本TPN和VPN [4],并且使用可切换TPN结构用于12Sifei Liu等人图五、使用基本/可切换TPN和VPN [4]模型在不同时间间隔从关键帧到两个进行帧(第18帧和第25帧)的颜色传播的结果放大以查看详细信息。预训练和微调阶段都产生最佳结果。第二,虽然在减小相邻关键帧之间的时间间隔时误差急剧减小,但是即使当K被设置为接近公共帧速率(例如,25到30 fps)。我们还显示在图。4(b)和(c)可切换结构通过保持颜色的饱和度而显著地改善了定性结果,尤其是当在所生成的图像和它们对应的关键帧之间存在大的过渡时。对于相当长的视频序列,TPN还保持良好的着色,这从图1中的着色视频帧与地面实况的比较中五、在更长的时间间隔内,可切换TPN的质量比基本TPN和VPN的质量更温和地降级[4]。5.3视频中的HDR传播我们将我们的方法与[5]的工作进行比较,[5]的工作在给定对应的LDR帧作为输入的情况下直接重建HDR帧虽然这不是苹果对苹果的比较,因为我们也使用HDR关键帧作为输入,但工作[5]是与我们的HDR重建方法最相关的最先进方法。据我们所知,之前没有使用深度学习在视频中传播HDR信息的工作,我们的工作是解决这个问题的第一个工作。我们使用与颜色传播类似的网络架构,除了通过一个卷积层将U转换为128× 128×16以保留更多图像细节,以及两阶段训练过程,首先使用从HDR图像数据集创建的随机增强补丁对预训练网络,然后在HDR视频数据集上进行微调。我们收集了补充材料中列出的大多数公开可用的HDR图像和视频数据集,并在第一阶段[5]中利用所有HDR图像和HDR视频的每第10帧进行训练。除了我们用于测试的四个视频(与[5]相同)之外,我们使用所有收集的视频训练我们的TPN我们在[5]用于测试的四个视频上评估了我们的方法,并与他们的方法进行了比较。为了处理HDR图像中像素值的长尾、偏斜分布,类似于[5],我们使用对数空间进行HDR训练,其中U=可切换时间传播网络13图六、HDR视频传播的结果我们示出了利用我们的可切换TPN(中间列)重建的一个HDR帧(距离关键帧τ= 19顶行示出了地面实况HDR,并且底行示出了HDRCNN [5]的输出。HDR图像使用两种流行的色调映射算法显示,Drago03 [30]和Reinhard05 [31]。插图示出了可切换TPN可以有效地将HDR信息传播到新帧并且保留场景细节的动态范围。放大以查看详细信息。表3.对于关键帧K的不同间隔,TPN输出的视频HDR传播的RMSE,具有LDR混合的输出。在相同的实验设置下比较从单个LDR [5]的重建设置HDR与共混HDR无混合间隔K=10K=20K=30K=40K=10K=20K=30K=40BTPNim+BTPNvd0的情况。0310的情况。0340的情况。0380的情况。0420的情况。1190的情况。1600的情况。2160的情况。244BTPNim+BTPNvd0的情况。0280的情况。0310的情况。0340的情况。0380.096 0.1150的情况。1460.156BTPNim+BTPNvd 0.027 0.0300的情况。0340.0370的情况。0980的情况。1210.1420的情况。159HDRCNN [5]0.0380.480log(H + ε),其中H表示HDR图像,ε被设置为0。01.由于记录在HDR图像中的图像辐照度值在相机之间显著变化,因此将不同的数据集简单地合并在一起通常会在训练样本中产生域差异为了解决这个问题,在合并由不同相机获取的数据集我们使用与[5]中相同的数据增强,在训练期间改变曝光值和相机曲线[29]。在测试期间,我们遵循[5]以将从输入LDR图像创建的逆HDR图像与由我们的TPN网络预测的HDR图像混合以获得最终输出HDR图像。更多细节见补充材料。我们比较针对关键帧之间的不同间隔的所生成的HDR帧的RMSE,其中LDR信息与表3中的TPN生成的HDR图像混合或不混合。我们的研究结果表明,与基本TPN相比,可切换TPN也可以显着改善HDR传播的结果我们还比较了逐帧重建方法[5],图中有和没有基于混合的后处理。6.如图所示,我们的TPN恢复距离每个关键帧多达K= 30帧的HDR图像在不同的色调映射算法下,重建的HDR图像保留与地面实况相同的场景更多结果见补充材料。如前所述,由于我们有...14Sifei Liu等人表4.DAVIS数据集上视频分割的比较J均值f平均VPN [4] OSVOS [32]SEG(t)SEG(t+s)VPN [4] OSVOS [32]SEG(t)SEG(t+s)70.279.871.176.1965.580.675.6573.53虽然使用基于单个图像的HDR关键帧作为输入,但它不是与基于单个图像的HDR方法(如[5])的苹果对苹果的比较。然而,图中的结果图6示出了利用所提出的TPN方法使用稀疏采样的HDR关键帧来从LDR视频重建HDR视频的可行性。5.4视频中的分割掩模传播此外,我们使用与VPN[4]相同的设置在DAVIS数据集[25]上进行视频分割,以表明所提出的方法也可以推广到视频中的语义级传播。我们注意到,保持风格一致性不适用于语义分割。对于要预测的每一帧,我们使用第一帧的分割掩码作为唯一的关键帧,同时使用相应的RGB图像作为指导网络的输入。我们为此任务训练了两个版本的基本TPN网络:(a)输入/输出分辨率降低到256 × 256的基本TPN,U变换为64 ×64 × 16,与颜色传播模型的方式相同。我们使用与[7]相同的指导网络架构,同时删除最后一个卷积单元以适应传播模块的维度。在表1中表示为SEG(t)的该模型比大多数最近的视频分割方法[4,25,32]更有效。(b)SPN[7]细化应用于基本TPN输出的更准确模型,表示为SEG(t+s)。该模型使用与[7]相同的架构,除了它用Sigmoid交叉熵代替了每像素分类任务的损失。与颜色和HDR传播类似,我们在MS-COCO数据集上预训练(a),然后在DAVIS训练集上对其进行微调。对于(b)中的SPN模型,我们首先在如[7]中所述的VOC图像分割任务。我们将图像中的每一类都作为二值掩码,将原始模型转化为两类分类模型,同时替换相应的损失模块。然后,我们对来自DAVIS训练集的粗掩码上的SPN进行微调,这些粗掩码由中间模型产生-来自MS-COCO数据集的(a)的补充材料中介绍了更多细节。我们将我们的方法与VPN [4]和一种最新的最先进的方法[32]进行比较。VPN和我们的方法都完全依赖于来自第一帧,并且不利用任何图像分割预训练模块(与[32]相比)。与其他两个任务类似,两个模型在视频分段传播方面的表现都明显优于VPN [4](见表4),而所有模型的运行速度都快了一个数量级(见表1)。SEG(t+s)模型的性能与OSVOS [32]方法相比,OSVOS [32]方法利用预训练的图像分割模型并且需要长得多的推理时间(7800ms)。可切换时间传播网络15引用1. 加德河Jampani,V.,Gehler,P.V.:通过表示扭曲的语义视频CNNIEEEInternational Conference on Computer Vision(ICCV)(2017年)2. 他,K.,孙,J.,唐X:引导图像滤波。IEEE Transactions on PatternAnalysandMachineIntelligence(TPAMI)35(6)(2013)13973. Levin , A. , Lischinski , D. , Weiss , Y. : 使 用 最 佳 化 着 色 。 ACMTransactions on Graphics(TOG)(2004年)4. Jampani,V.,加德河Gehler,P.:视频传播网络。 IEEE计算机视觉与模式识 别 会 议 论 文 集 ( Proceedings of IEEE Conference on Computer Vision andPattern Recognition,CVPR)(2017年)5. Eilertsen,G.,Kronander,J.,Denes,G. Mantiuk河Unger,J.:使用深度CNN 从 单 次 曝 光 重 建 HDR 图 像 。 ACM Transactions on Graphics(SIGGRAPH Asia)(2017年)6. Levin,A.,Lischinski,D.,Weiss,Y.:一个封闭形式的解决方案,以自 然 图 像 抠 图 。 IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI)30(2)(2008)7. Liu,S.,Mello,S.D.顾,J.,Zhong,G.,杨,M.,Kautz,J.:通过空间传播网络学习亲和力。在:神经信息处理系统(NIPS)。(2017年)8. Jampani,V.,Kiefel,M.,Gehler,P.V.:学习稀疏高维滤波器:图像滤波,密集CRF和双边神经网络。IEEE计算机视觉与模式识别会议论文集( Proceedings of IEEE Conferenceon Computer Vision and Pattern Recognition(2016年)9. 张,R. Isola,P.,Efros,A.A.:彩色图像着色。欧洲计算机视觉会议(ECCV)论文集。(2016年)10.张,R. Zhu,J.Y.,Isola,P.,耿X,Lin,A.S.,余,T.,Efros,A.A.:实时用户引导的图像彩色化与学习的深度先验。ACM Transactions on Graphics(SIGGRAPH)(2017年)11.Debevec , P. , Malik , J. : 从 照 片 恢 复 高 动 态 范 围 辐 射 图 ACMTransactions on Graphics(SIGGRAPH)(一九九七年)12.Reinhard,E.,Heidrich,W.,Debevec,P.,Pattanaik,S.,沃德,G.,米兹科夫斯基K.:高动态范围成像:采集、显示和基于图像的照明。03 TheDog(2010)13.胡,J,加洛岛普利,K.,太阳,X.:HDR去重影:如何应对饱和?IEEE计算 机 视 觉 与 模 式 识 别 会 议 论 文 集 ( Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,CVPR)(二零一三年)14.小泰李,J.,Tai,Y.,Kweon,I.:基于秩最小化的鲁棒高动态范围成像。IEEE Transactions on Pattern Analysis and Machine Intelligence( TPAMI)37(6)(20 15)121915.加洛岛Troccoli,A.,胡,J,普利,K.,Kautz,J.:移动HDR摄影的局部非右IEEE计算机视觉与模式识别会议论文集(Proceedings of IEEEConference on Computer Vision and Pattern Recognition , CVPR ) ( 2015年)16.康,S.,Uyttendaele,M.,Winder,S.,Szeliski,R.:高动态范围视频。ACM Transactions on Graphics(SIGGRAPH)(2003年)17.Kalantari,N.Shechtman,E.,巴恩斯角Darabi,S.,Goldman,D.Sen,P. : 基 于 补 丁 的 高 动 态 范 围 视 频 。 ACM Transactions on Graphics(SIGGRAPH)(二零一三年)18.Tocci,M.,凯泽角Tocci,N. Sen,P.:多功能HDR视频制作系统。ACMTransactions on Graphics(SIGGRAPH)(2011年)16Sifei Liu等人19.Nayar,S.,Mitsunaga,T.:高动态范围成像:空间变化的像素曝光。IEEE计算机视 觉与模式识别会议 论文集(Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,CVPR)(2000年)20.顾,J.,Hitomi,Y.,Mitsunaga,T.,Nayar,S.:编码滚动快门摄影:灵 活 的 时 空 采 样 。 IEEE International Conference on ComputationalPhotography(ICCP)(二零一零年)21.Kalantari,N. Ramamoorthi,R.:动态场景的深度高动态范围成像。ACMTransactions on Graphics(SIGGRAPH)(2017年)22.张杰,Lalonde,J.:从户外全景图中学习高动态范围。IEEE InternationalConference on Computer Vision(IC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功