没有合适的资源?快使用搜索试试~ 我知道了~
14468遮挡感知的视频对象修复李克1戴玉荣2邓志强11香港科技大学2快手科技{lkeab,cktang} @ cse.ust.hk,yuwing@gmail.com摘要传统的视频修复既不是面向对象的,也不是遮挡感知的,这使得当大的遮挡对象区域被修复时,容易出现明显的伪影。本文提出了一种基于遮挡感知的视频对象修复方法,该方法在给定视频中被遮挡对象的可见掩模分割的情况下,恢复被遮挡对象的完整形状和外观为了促进这项新的研究,我们构建了第一个大规模的视频对象修复基准YouTube- VOI提供逼真的遮挡场景,包括可见的对象掩模。 我们的技术贡献VOIN共同执行视频对象形状完成和遮挡纹理生成。特别地,形状完成模块对长距离对象相干性进行建模,而流完成模块恢复具有尖锐运动边界的准确流,用于跨帧将时间一致的纹理传播到相同的移动对象。为了获得更真实的结果,VOIN使用T-PatchGAN和一种新的基于时空注意力的多类鉴别器进行优化。最后,我们比较了VOIN和YouTube-VOI上的强基线。实验结果清楚地证明了我们的方法的有效性,包括修复复杂和动态对象。VOIN随着输入可见掩码不准确而适度降级。1. 介绍传统的视频修复通过从剩余的未掩蔽的视频区域提取信息来推断丢失的像素区域。然而,如图1所示,这些模型[1,2,3,4]通常无法通过用不相关的背景颜色错误地修补被遮挡区域来恢复具有大遮挡的移动对象,并且产生明显的伪影。这是由于他们缺乏对象和遮挡意识。相反,我们的人类视觉系统具有强大的非模态感知能力,可以推理完整的结构。1项目页面位于https://lkeab.github.io/voin。2本研究获香港特别行政区研究资助局拨款资助。16201420和快手科技。遮挡下的移动物体的真实性,包括不可见区域的高保真度外观[5,6]。为了克服上述限制,我们在遮挡感知视频对象修复上进行了第一次重要的尝试,其通过恢复它们在运动中的形状和外观来完成被遮挡的视频对象虽然存在对象完成模型,但它们仅适用于高度有限场景中的单个图像[7],例如汽车和室内家具[8,9]。这些单图像模型在掩模和内容生成期间不利用时间相干性,因此当直接应用于视频时导致时间伪影和不平滑过渡。遮挡推理的训练模型需要大量的和各种各样的被遮挡的视频对象与amodal掩模注释。一个困难来自于现有的非模态数据集,其主要来自单个图像并且很小[11,12],或者覆盖非常有限的对象类[13]。受[7]的启发,我们的方法以自我监督的方式进行训练,只有模态注释。为了创建大量的真实数据,我们贡献了第一个大规模的视频对象修复基准与不同的遮挡模式和对象类的训练和评估。具体来说,我们产生的视频对象的遮挡掩模的高保真模拟重叠的对象在运动中,从而考虑到对象的遮挡模式,运动和变形下的各种程度的遮挡。我们基于YouTube-VOS[14]的新YouTube-VOI数据集包含5,305个视频,65个类别的标签集,包括人,动物和车辆等常见对象,具有超过200万个用于移动视频对象的遮挡和为了推断不可见的遮挡对象区域,我们提出了VOIN(视频对象绘画网络),一个统一的多任务框架,用于联合视频对象掩模完成和对象外观恢复。我们的对象形状completion模块学习推断完整的对象形状,只有可见的掩模区域和对象语义,而我们的外观恢复模块inpaints闭塞的对象regions与似是而非的内容。为了获得像素级的时间一致性,我们设计了一种新颖的遮挡感知流完成模块,通过在帧间执行流一致性,来捕获移动视频对象并在时间上甚至间隔开的帧上传播一致的视频内容。144691破坏后的输入LGTSMFGVC STTN我们的图1.视频对象修复结果与最先进的LGTSM [10],FGVC [2]和STTN [3]的比较。我们的VOIN以损坏的视频与自由形式的遮挡掩模作为输入,并忠实地恢复被遮挡的对象区域,同时保留空间细节和时间相干性。可见对象区域生成。此外,我们使用一个新的多类鉴别器与专门设计的时空注意力模块(STAM),有效地加速模型收敛,并进一步提高修补质量的时间补丁为基础的GAN训练过程。最后,我们在YouTube-VOI基准上评估了VOIN和强适应基线,定量和定性结果清楚地表明了VOIN本文补充了传统的视频修复和fa-cilits未来发展的新算法修复被遮挡的视频对象。2. 相关工作视频修补。关于视频修复的先前工作[15,16,17,18,19]通过利用基于深度学习的方法[20,4,21,22]23,24,3,1,10]成为近年来的主流。在视频修复中应用的第一个深度生成模型[20]结合了3D和2D卷积,以产生时间上一致的修复内容。为了实现更好的时间一致性,在[4,21,2]中,使用光流来引导跨帧的信息传播。在[22]中,使用具有循环反馈的时间存储器模块。为了对长距离依赖性进行建模,在[23]中,将逐帧注意力应用于通过全局仿射变换对齐的帧上,并且在[24]中,作者采用逐像素注意力从其边界逐渐填充孔。提出了基于SN-PatchGAN [25]和时间移位模块[10]的时间PatchGAN [1],以进一步增强修补质量。最近,在[3]中提出了一种时空Transformer,用于通过使用基于多尺度块的注意力模块来完成视频虽然通过上述方法已经实现了有希望的结果,但是由于它们缺乏对象和遮挡意识,它们仍然不能令人满意地恢复被遮挡的视频对象的外观。另一方面,我们的VOIN共同优化的amodal形状和流动的闭塞对象的completion。与以前的随机缺失区域的流完成[4,21,2]不同,我们的流完成可以忠实地恢复闭塞区域对象区域。使用我们的大规模合成数据与准确的流可用于训练,我们可以执行和维护强大的流的一致性,在空间和时间纹理生成以前不可能在其他方法。与预测的非模态掩模一起,我们因此可以产生具有比[4,2]更尖锐的运动边界的更准确的对象流。此外,语义信息被纳入我们提出的时空多类判别器,这使得GAN训练过程更快,更稳定,并进一步提高了未看到的区域的修复质量。无模式对象完成。在非模态对象完成中,给出了对象的可见掩模,任务是将模态完成为非模态掩模,这与非模态实例分割不同[26,11,27,13]。先前的非模态掩模完成方法对遮挡区域进行了假设,例如EulerSpiral [28]、三次Bézier[29]和简单曲线(直线和抛物线)[30]。这些无监督方法不能处理具有复杂形状的对象。闭塞处理也得到了广泛研究[31,32,33,34,35,36,37,38,39],尤其是在手术中。对象检测[40,41,42,43]、分割[44]和跟踪-ing [45,46,47,48],但大多数不考虑恢复被遮挡物体的外观。在现有的具有外观恢复的非模态对象完成工作中,Ehsani等人[8]通过利用约5,000个限于室内场景(例 如厨房和客厅 )的合成图像, 使用Unet[49Yan等人 [9]通过合成遮挡车辆数据集来恢复遮挡车辆的外观。Zhan等人 [7]提出了一种自监督的场景去遮挡方法PCNet,该方法可以完成更常见对象的不可见部分的掩模和内容,而无需作为超视图的非模态注释然而,所有这些方法都是基于单个将它们直接扩展到复杂的视频序列可能容易导致不想要的时间伪影。3. 视频对象修复网络给定XT={X1,X2,…X T}作为输入视频序列,帧长T,帧分辨率H×W,14470111× ××−--可见对象遮罩X$$,$输入视频帧初始可见对象掩码完成目标对象掩码超临界流体(a) 对象形状完成(b)对象流完成图2. (a)对象形状完成,其将变换的时间片和对象语义相关联;(b)对象流完成,其恢复经受非模态对象轮廓的完整对象流。红色表示遮挡区域。并且MT=M1,M2,…M T表示目标遮挡对象的可见区域的对应的逐帧二进制掩模,我们用公式表示视频对象inpaint。将 问 题 作 为 自 监 督 学 习 来 推 断 完 整 的 对 象 掩 码MT={M1,M2,...,并生产玉米-并行地对相邻和远处编码的空间特征片之间的相同被遮挡对象的时间形状关联进行建模具体地,假设在Transformer层中有k个头,那么我们计算自关注特征V':填充的视频帧YT非模态对象内容。={Y1,Y2,… Y T}具有现实的V¯=多头(Q,K,V)=f([V¯]k),(1)c ii=1图2和图3一起描绘了我们提出的视频对象修复方法VOIN的整个流水线,其由以下三个阶段组成:V¯i=SelfAtt(Qi,Ki,Vi)=softmax(Qi KT)iV i,(2)DK完成:我们基于其可见对象内容来计算非模态对象形状(3.1节); b)对象流完成:在非模态对象轮廓的指导下利用尖锐的运动边界来估计完整的对象流(3.2节); c)流引导的视频对象修补:利用完成的对象和其轮廓内的流,运动轨迹被用于扭曲相关像素以内绘制被破坏的帧。为了生成高度合理的视频内容,我们通过使其具有遮挡感知来改进时间移位模块,并使用具有时空注意力的多类鉴别器,而不是仅使用如[2,4]中的单图像完成技术(第3.3节)。3.1. 遮挡感知形状完成给定输入视频序列,使用现有视频对象/实例分割[50,51,52]容易获得目标被遮挡对象的模态掩模。然而,由于不同的对象形状和遮挡模式,学习被遮挡实例的完整视频蒙版是非常困难的。为了解决这个问题,我们提出了一种新的对象形状完成模块(见图2(a)),它恢复了自监督训练方案中的被遮挡视频对象的非模态分割掩模。我们具有8个Transformer层的形状模块的灵感来自视频理解中最近的时空变换器[53,54,55,3,56],用于捕获长距离时空相干。每个Transformer层具有多头结构,以处理从整个输入视频序列变换的多尺度嵌入图像块,随后是缩放点积注意机制[57],其其中V¯i是第i个磁头Qi上的自关注特征,Ki、Vi分别是这些空间特征块的查询、键和值嵌入矩阵,总大小为TH/r1W/r2,帧分辨率为HW,r1和r2是补丁大小,dk是查询补丁特征的维度和fc是合并来自k个头的输出的卷积层。然后V¯通过框架-LVel形状用于上采样的解码器,其与乘以可见对象掩模的类嵌入特征相结合,用于合并语义和空间形状先验。最后,通过融合卷积层细化合并的特征以产生非模态对象形状掩模。3.2. 阻塞感知流量完成我们的流完成算法首先计算的初始光流,然后专注于恢复内完成的闭塞对象区域的非模态对象轮廓的流在图2(b)中,流生成器采用Unet [49]编码器-解码器结构,其具有从编码器到解码器中的对应层的跳过连接,其将相邻图像帧、初始流、可见和非模态对象掩码作为输入x。代替直接计算恢复的流,我们将流完成公式化为剩余学习问题[58],其中φ (x):=OO’,O’是期望的流输出,O’是初始损坏的流,并且Φ(X)表示由编码器-解码器生成器学习的流残差。该公式有效地降低了密集像素回归的训练难度。为了恢复准确的对象流与尖锐的运动边界,特别是对于闭塞的区域,我们incorpo-预训练视频实例分割模型初始流+相邻帧形状完成模块对象流完成模块X11非模态目标边缘制导,初始流融合Xt普流量编解码器,图像梯度+拉普拉斯金字塔损失+图像扭曲约束面片比例iTransformer层类嵌入类别价值补丁i形状解码器融合%可视遮罩密钥修补程序i自助式特征%i补丁编码器头i查询修补程序i×8层√14471不S不OCCOCCx为oh不不不t−n不t+n不不OCC之后的模态遮罩图像框架+完整对象遮罩视频对象修复结果流引导像素传播遮挡感知扩张闭塞感知T-Patch GAN鉴别器门控TSM门控TSM3D步进卷积1每个补丁concat普遮挡感知门控遮挡感知功能ConvConvConv可见对象遮罩非模态对象掩码T时空多类鉴别器时空注意模块真实对象类别或伪对象类别(K+1个类)3D步进卷积特征遮挡感知门控(c)流引导视频对象修复图3. (c)利用遮挡感知门控方案的流引导视频对象修复。图4进一步示出了我们的遮挡感知时间移位模块(TSM)的操作。我们采用T-patch鉴别器[1,25],并提出了一个具有时空注意力模块(STAM)的多类鉴别器来规范GAN训练。STAM在图5中详细描述。黄色标记由光流跟踪的已知像素填充的区域;蓝色区域是在最后阶段要修复的未看到/被遮挡的区域通过在完整的对象区域内加强流动平滑性来对非模态对象轮廓进行评级,以引导流动预测过程为了有效地正则化流补偿网络,而不是像[4]中那样简单地采用预测和地面实况流之间的L1回归损失,我们还利用图像梯度损失,拉普拉斯金字塔损失[59]和幻觉内容的图像扭曲损失进行联合优化,这进一步提高了流预测的精度,并在第3.4节中详细介绍。3.3. 流引导的视频对象修复上面得到的完成的对象流被用来构建跨帧的密集像素对应关系,这是必要的,因为当前帧中的先前被遮挡的区域可以被解除遮挡并且在远处的帧中变得可见,特别是对于慢动作中的对象,这对于生成模型来说非常难以处理这样的长范围时间依赖性。我们遵循[4,2],使用前向-后向循环一致性阈值(5像素)过滤掉不可靠的流量估计,并双向扭曲像素以填充缺失基于有效流的区域主要的区别是3.3.1阻塞感知TSM我们在这里采用残差时间移位模块(TSM)[60,10]作为我们的构建块,其沿着时间维度移位部分通道以执行联合时空特征学习,并以2D CNN的复杂度实现3D卷积的性能然而,原始TSM平等地对待所有特征点,使得属于同一对象的可见区域和被遮挡区域之间没有差异因此,为了使TSM遮挡感知并学习不同空间位置的动态特征选择机制,我们使用非模态对象掩模和遮挡掩模来引导门控特征学习过程[25],从而使我们的改进或遮挡感知模型能够从沿时空维度的其他可见部分推理遮挡区域,如图4所示。具体来说,图3中的生成器具有编码器-解码器结构,其中遮挡感知TSM替换所有香草卷积层,其具有比原始设置更大的时间感受野n[60],并且可以表示为Gatex,y(t)=Σ Wg·Ix,y+f¨x,y(M¨occ,M¨t),(3)我们只扭曲前景物体内的像素Sx,y=ΣWf·TSM(Ix,y,···,Ix,y,···,Ix,y),gion,它保证遮挡区域不会被任何背景颜色,同时减少总的计算负担。图3突出显示了由光流跟踪的完整掩模内的黄色区域。为了在上述传播之后填充剩余的像素(即,图3中的蓝色区域),其对于先前严重遮挡的对象可能是大量的,我们提出训练遮挡感知选通生成器以修补视频对象的遮挡区域,其中选通特征在非模态对象掩模和遮挡掩模以及具有多类别对抗损失的两个时空判别器的指导下学习像往常一样,鉴别器将在测试期间被丢弃。Outx,y=σ(Gatex,y(t))φ(Sx,y(t)),(5)其中,Gatex,y用作TSM输出的特征体积x,y上的软注意力图(用于识别遮挡/可见/背景区域),f是融合遮挡掩模Mocc和完整对象掩模的卷积层Mt、Wg和Wf分别是门控卷积和移位模块,并且Ix,y和Outx,y分别表示在(t,x,y)处的输入和最终输出激活,σ是S形函数,并且φ是ReLU函数。3.3.2基于STAM的为了使目标修复结果更真实,我们采用两个鉴别器同时正则化GAN不x为oh不14472LL× ×LLLLL(七)(八)(十一)ReferenceFram eXt“sTargetInpaintgFrameXtReferenc eFram eXt$sS1S2S3S4图4.我们的闭塞感知门控方案的图示。为了修补目标帧Xt中老虎的被遮挡区域(白色),VOIN仅从沿着由S1和S2指示的时空维度的有效可见对象部分学习,同时通过S3和S4排除培训过程。第一鉴别器考虑视频感知质量和时间一致性,而第二鉴别器考虑基于全局和局部特征的对象语义,因为遮挡孔可以出现在具有不规则形状的视频中的任何地方。我们采用T-PatchGAN作为第一个鉴别器[1,3]。对于第二鉴别器,我们提出了一种新的基于时空注意力的多类鉴别器,其通过从输入视频中挑选最相关的帧,同时关注它们的判别空间区域,将修复对象的类别分类为K个真实类中的一个和附加的假类图3示出了多类别鉴别器由六个3D卷积层(内核大小3 5 5)组成,其中时空注意力模块(STAM)嵌入在第4层上方。这种STAM设计的灵感来自[61,62]。图5显示了空间和时间注意力的并行分支。图5.时空注意力模块的设计,其中两个并行分支分别用于计算空间和时间注意力权重。加权特征与原始输入形成残余连接以用于最终输出。虽然T-PatchGAN [1]的深层可以覆盖整个视频,具有较大的感受野,但我们发现使用对象语义和STAM增强的多类神经网络有效地加速了模型收敛,并进一步提高了修复质量(见表4)。3.4. 优化目标我们在联合优化中训练多任务VOIN框架,其中综合目标被设计为产生清晰和时空一致的视频内容,分别为形状完成损失形状、流量完成损失流量和外观恢复损失app。对于视频对象形状完成,除了传统的二进制交叉熵(BCE)损失外,我们还采用骰子损失[63]来解决前景和背景像素数量之间的不平衡,因为遮挡区域有时只占据整个图像中的一小部分区域。因此,L形状被公式化为:Lshape=LBCE(M′,M¨)+λ1LDice(Mo′cc,M¨ occ),(6)其中,M′和M′cc分别表示预测的完全掩模和用于遮挡区域的掩模,分别是对应的地面真值掩码,并且λ1是平衡权重。对于密集对象流完成,我们强制恢复-具有像素级精度和平滑流场的层流,其中L流被设计为Lfl ow=||(1+M)(O−O)||1+λ2LLa p(O,O)+Lg+Lw,Lg=M(λ3||(G∆(O)−G∆(O))||1+λ4||G∆(O)||1)、其中0和0分别是预测的和真实的流,GΔ计算水平和垂直方向上的流梯度,其中我们使用g来最小化完整对象内部的非边缘像素的梯度,以确保平滑连续,同时保持对象运动边界具有急剧过渡。Lap用于保留不同空间尺度的细节[64],w使用预测流监督图像扭曲一致性。为了恢复合理的对象外观,我们使用时空对抗损失和语义损失来优化二进制T-PatchGAN鉴别器Dp(以区分真实或虚假内容)[1]和我们的多类全局鉴别器Dcls(以分类类别,具有K用于两个鉴别器的优化函数Dis被定义为LDis=Expdat a(x)[1− Dp(x)]+Expdat a(x)[lo g(Dcl s(y|x))]+ Ezpz(z)[1 + D p(G(z))]+ EzPz(z)[log(Dcls((K+1))|G(z))],(九)其中y∈ {1,.,K},为了简单起见,省略了ReLU,并且用于修复生成器的损失LGen为L Gen = −Ezpz(z)[D p(G(z))] − Ezpz(z)[D cls((K+1)|G(z))],(十)每像素内容重构损失L_content和外观恢复损失L_app分别被定义为:L含量=||M(Y′−Y)||1+λ5||(1−M)(Y′−Y)||1、其中Y’和Y分别是基础事实和预测的完成帧。因此,总体优化目标总结为L total =L shape +λ flow L flow + λ app Lapp(十三)空间注意输入要素空间权重加权特征CConvAvgPool输出要素���×��� ×ℎ×������×2×ℎ×������×1×ℎ×������×��� ×ℎ×���可学习内核时间注意力时间权重���×��� ×ℎ×���c级联元素求和���×1���( ×1���×1���×1���×ℎ×���点积ReLU乙状ConvMaxPoolFCFC14473×4. 实验4.1. 数据集和评估指标遮挡修复设置由于本文的重点是修复视频对象的遮挡区域,我们提出了一个新的修复设置,这是不同于以前的不希望的对象去除或任意掩模区域修复。填充区域被限制为目标对象的包含区域,其可以由用户或我们的对象形状完成模块使用可见对象内容给出。此设置符合实际应用,例如视频场景去遮挡(图11)。YouTube-VOI基准测试。 为了支持我们新的视频对象修复任务的训练和评估,我们使用YouTube-VOS[14]数据集作为我们的视频源来构建我们的大规模YouTube-VOI基准,其中包含5,305个视频(4,774个用于训练,531个用于评估),分辨率高于640480,65个类别标签集,包括人,动物和车辆等常见对象,以及超过200万个遮挡和可见口罩。对象/遮挡变形和移动图6.样本可见掩模(橙色框)和遮挡掩模(蓝色框)的移动视频对象所产生的我们的算法,m与不同的对象类别和遮挡模式。我们生成遮挡蒙版和可见蒙版通过运动中重叠对象的高保真度模拟(图6),对视频对象进行模拟,其中我们考虑了在从10%到70%的各种遮挡程度下的各种类似对象的遮挡图案、遮挡物移动和形状变形我们的YouTube-VOI是一个非常具有挑战性的视频对象修复数据集虽然在Youtube-VOS中没有标注非模态对象掩码,但我们表明,通过结合[7]中的自监督训练方案来学习帧之间的对象形状关联,利用标注的对象语义,并在各种程度和遮挡模式下对大量遮挡掩码进行训练,所提出的VOIN模型仍然可以为仅具有模态注释的视频执行非模态对象形状完成。评估指标。为了评估视频对象修补质量,我们使用广泛采用的PSNR,SSIM和LPIPS度量[2,4],其中LPIPS [65]是使用Alexnet [66]作为主干获得的,其中中间特征顶部的线性校准作为其默认设置。实施详情。我们建立我们的闭塞意识修复生成器改编自编码器-解码器结构[10]。对于数据预处理,我们将视频帧大小调整为384 × 216,并通过随机水平翻转将其随机裁剪为320× 180。我们基于自由遮罩[25,1]生成视频对象遮挡遮罩。更多网络及实现细节请参考补充资料。4.2. 与现有技术的使用Youtube-VOI基准测试,我们将VOIN与最新和相关的最先进的视频绘画方法进行比较,并通过附加连接可见对象遮罩来调整其原始输入:1)DFVI [4],其基于预测的完整流使用像素传播来填充损坏的区域;2)LGTSM [10],其中可学习移位模块被设计用于修复生成器并且利用T-PatchGAN鉴别器[1]; 3)FGVC[2],其使用由Canny边缘提取[67]和连接[68]引导的流完成模块; 4)STTN [3],其使用基于多尺度补丁的注意力模块来完成缺失区域。注意,DFVI和FGVC两者都进行用于修复的流完成,并且仅使用图像修复方法[69]来填充剩余的不可见视频区域。流程完井对比。我们比较我们的对象流完成模块与[4,2]定性和定量。表1示出了使用RAFT [70]从原始未遮挡视频计算的伪地面实况流与缺失区域上的预测完成流之间的端点误差(EPE)。定量结果表明,所提出的对象流补全模块实现了显着较低的EPE错误比以前的流补全网络[4,2]。图-图7比较了流完成结果,其中我们提出的遮挡感知流完成模块在对象轮廓内产生具有平滑流场的尖锐运动边界,这示出了非模态对象形状引导和混合损失优化的有效性尽管FGVC[2]使用EdgeConnect [68]训练了单独的流边缘连接网络,但他们的模型仍然无法完成大的遮挡孔,而是生成模糊和不明确的流完成结果。表1.在Youtube-VOI基准测试中,使用最先进的方法对流动完成(EPE)和修复质量(PSNR,SSIM和LPIPS)进行定量比较。模型使用流量?EPE↓PSNR↑SSIM↑LPIPS↓DFVI [4]LGTSM [10]C4.79-44.9145.190.9520.9790.0990.024FGVC [2]STTN [3]C3.69-43.9045.970.9240.9860.0650.020我们C-46.330.9890.013我们3.1148.990.9940.008定量结果比较。表1还报告了Youtube-VOI测试集上复杂遮挡场景与现有型号相比,我们的VOIN大幅提高14474表2.对我们的物体形状完成模块进行消融研究。BS-n:具有η个Transformer层和BCE损耗的视频形状完成模块。D:使用骰子损失。S:添加语义指导。基于图像BS-4BS-8BS-8 + DBS-8 + D + SmIoU(%)74.8178.0280.2881.5386.68帧DFVI损坏FGVC我们的图7.与DFVI [4]和FGVC [2]的流量完井结果比较。与DFVI相比,我们的方法完成了具有更清晰的运动边界和更自然的分段平滑过渡的对象流,具有每像素和过像素的视频重构质量所有感知测量,其中我们的模型优于通过连续地结合非模态形状制导和混合损失约束,误差逐渐减小。此外,我们在图10中显示了流程完成比较,以可视化每个组件的有效性。非模态形状引导防止由于不相关的背景流而导致的损坏,并且图像梯度损失有效地保留了完成的对象内的自然平滑流过渡,尽管我们观察到使用梯度损失使流完成网络花费更长的时间来收敛。表3.对我们的物体流完成模块进行消融研究 BF:使用Unet结构直接回归流量的流量完井基线。A:非模态目标边缘制导。L:梯度损失,图像扭曲损失。[2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][Gin,特别是在PSNR和LPIPS方面我们改进的结果显示了我们提出的遮挡的有效性感知门控方案和STAM的多类同步算法另一方面,DFVI和FGVC产生的结果与我们的结果不一致,特别是对于修复具有大遮挡的前景对象,这是由于它们的不正确的流完成和缺乏用于生成视频内容的时间一致性(在使用基于单个图像的修复模型DeepFill [69]中受到限制)。定性结果比较。图8示出了用于修复被遮挡视频对象的示例视频完成结果,其中我们的遮挡感知VOIN比先前的方法[10,2,3]产生图11示出了其在视频场景去遮挡中的应用有关广泛的定性比较,请参阅补充视频结果。4.3. 消融研究视频对象形状完成。为了评估遮挡感知对象形状完成模 块 中 不 同 组 件 的 有 效 性 , 表 2 报 告 了 通 过 将Transformer层减少到4层并删除语义嵌入和骰子丢失的相应消融研究[63]。物体类别的空间形状先验可以大大提高mIoU约5%,并且骰子损失进一步促进了小遮挡区域的完成性能我们还将我们的视频形状完成模块与基于图像的UNet进行了比较,其中大的性能差距揭示了学习帧之间的对象形状关联的重要性。初始掩码分割的影响。 图9示出了在存在掩模误差的情况下初始分割质量对最终对象修复结果的影响。完整面罩降解实验结果和分析请参见补充文件的第4节。视频对象流完成。表3描述了所提出的对象流完成模块上的消融实验结果。我们发现端到端的点流呃-表4.不同VOIN组件的消融研究 BI:使用发生器网络的VOIN基 线 [10] 。 OG : 我 们 的 遮 挡 感 知 门 控 方 案 。 TP : T-PatchGAN鉴别器[1]。MD:多类混合器。STAM:我们的时空注意力模块。我们的对象流完成指导。B我44.750.9790.025BI+ OG45.250.9820.019BI+ OG + TP45.540.9840.017BI+ OG + TP + MD45.910.9860.014BI+ OG + TP + MD + STAM46.330.9890.013BI+ OG + STAMBI+ OG + TP + MD + STAMCC48.1648.990.9910.9940.0120.008个单位4.3.1VOIN模型为了研究VOIN中的每个组件如何有助于最终视频对象修复性能,特别是对于所提出的遮挡感知门控方案和具有时空注意力模块(STAM)的多类鉴别器,表4报告了消融研究结果,并且我们分析了我们的设计选择的有效性如下。遮挡感知门控的效果。表4示出了在输入特征体积上识别被遮挡/可见/背景区域的重要性(在图4中示出),其中我们的遮挡感知门控方案通过关注可见时空对象区域而不受背景不利影响来学习推断该策略将感知相似性度量LPIPS显著提高了24%,并将PSNR从44.75提高到45.25。MD与STAM的效果。多类鉴别器(MD)将语义纳入GAN训练,从而实现更细粒度的对象分类,从而产生更逼真的视频内容,将PSNR从45.54到45.91此外,STAM通过使多类鉴别器能够通过学习跨视频帧的时空注意力权重而聚焦于更具鉴别力的特征区域来增强整体性能。模型使用流程?PSNR ↑ SSIM ↑ LPIPS↓BFBF + ABF + A + L流动完井(EPE)4.893.953.1114475破坏后的输入LGTSMFGVCSTTN我们的图8.在Youtube-VOI上与最先进的视频修复方法LGTSM [10],FGVC [2],STTN [3]进行定性比较。特别地,FGVC也采用完整的流来指导视频修复过程,但是由于不正确的流估计,它们的结果遭受不自然的像素过渡放大以获得更好的视图。更多定性比较参见补充文件输入帧检测到被遮挡物的遮罩使用检测掩码14像素的扩张(偏差率25%)14像素放大后的结果(偏差率25%)输入帧检测到的被遮挡者使用检测到的蒙版通过添加显著错误攻击可见遮罩修复结果使用攻击面具图9.VOIN的示例视觉结果给出了不准确的掩模分割(膨胀和总分割错误),其显示了VOIN的鲁棒性完整结果可在补充文件中获得框架损坏,不带A + L不含Lw/A + L图11.视频场景去遮挡结果比较,使用我们的VOIN的形状完成预测。左栏为-图10.我们的物体流完成模块的消融结果A:预测的非模态目标形状制导。L:图像梯度和翘曲损失。不含A+L的损坏区域具有大部分的流误差,并且不含L的结果具有在完成的前景内展现出可见接缝的不自然的流这又提高了在图像处理期间的修补质量两人对抗过程[71]。流引导像素传播的效果。该算法对视频帧中的有效像素点进行扭曲处理,以填补视频帧中的缺失区域,从而大大减小了图像修复的面积,降低了修复难度。表4的最后两行反映了具有大性能增益的完成的对象流的准确性,其中在没有对抗训练的流引导下的VOIN的修复结果保持高质量。5. 结论本文提出了一种新的基于遮挡感知的视频对象修复算法保留可见蒙版(橙色框)和预测的完整蒙版(蓝色框)。VOIN检测和恢复闭塞区域的卡车与忠实的空间细节。被人的下半身遮挡的卡车的背景用于训练和评估的修复基准YouTube-VOI。VOIN是一个多任务框架,其在给定其可见掩模的情况下完成视频中被遮挡对象的形状和外观,其包含用于传播时间一致的对象纹理的新颖的遮挡感知形状和流完成模块,以及用于增强对象修复质量的具有STAM的时空多类鉴别器。我们将VOIN与YouTube-VOI基准上的强适应基线进行比较,并实现了具有竞争力的性能。我们提出的VOIN可以ben-efit许多视频应用,如视频场景去遮挡/操纵,并提高视频对象跟踪精度下严重的遮挡。原始视频输入STTNFGVCVOIN14476引用[1] 张亚良,刘哲宇,李冠英,徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在ICCV,2019年。一、二、四、五、六、七[2] Chen Gao,Ayush Saraf,Jia-Bin Huang,and JohannesKopf.流边缘引导视频完成。在ECCV,2020年。一二三四六七八[3] 曾艳红,傅建龙,和洪阳超。学习用于视频修补的联合时空变换。在ECCV,2020年。一二三五六七八[4] Rui Xu , Xiaoxiao Li , Bolei Zhou ,and Chen ChangeLoy.深度流引导视频修复。在CVPR,2019年。一二三四六七[5] 还有瑞阿吉亚尔和蕾恩巴亚。 幼儿对遮挡物体推理的发展认知心理学,2002年。1[6] 卡尼萨·加埃塔诺愿景中的组织:完形知觉论文集。Praeger出版社,1979年。1[7] Xiaohang Zhan , Xingang Pan , Bo Dai , Ziwei Liu ,Dahua Lin,and Chen Change Loy.自监督场景去遮挡。在CVPR,2020年。一、二、六、七[8] Kiana Ehsani、Roozbeh Mottaghi和Ali Farhadi。Segan:分割和生成不可见的东西。在CVPR,2018年。一、二[9] Xiaosheng Yan,Feigege Wang,Wenxi Liu,YuanlongYu,Shengfeng He,and Jia Pan.视觉化无形:包括车辆分割和恢复。在ICCV,2019年。一、二[10] 张亚良,刘哲宇,李冠英,徐文松。可学习的门控时间移位模块用于深度视频修复”。在BMVC,2019。二四六七八[11] Yan Zhu,Yuandong Tian,Dimitris Metaxas,and PiotrDoll a'r. 语义非模态切分。 在CVPR,2017年。一、二[12] Patri c kFollmann,RebeccaKo¨Nig,PhilippH a¨Rtinge r,MichaelKlostermann,andTobiasB o¨Ttge r.学习看不见的东西:端到端可训练的非模态实例分段。在WACV,2019年。1[13] 陆琦、李江、舒柳、沈小勇、贾雅佳。利用kins数据集进行非模态实例分割。在CVPR,2019年。一、二[14] Ning Xu,Linjie Yang,Yuchen Fan,Dingcheng Yue,Yuchen Liang , Jianchao Yang , and Thomas Huang.Youtube-vos:大规模视频对象分割基准测试。arXiv预印本arXiv:1809.03327,2018。1、6[15] Yonatan Wexler,Eli Shechtman和Michal Irani。视频的时空完成。TPAMI,29(3):463-476,2007. 2[16] Ala s dairN e wson,And re'sAlmansa,MatthieuFrad e t,YannGousseau,andPatrickPe'rez. 复杂场景的视频修复SiamJournal on Imaging Sciences , 7 ( 4 ) : 1993-2019 ,2014。2[17] Miguel Granados , James Tompkin , K Kim , OliverGrau,Jan Kautz,and Christian Theobalt.如何不被看到-从拥挤场景的视频对象删除。计算机图形学论坛,2012年。2[18] Jia-Bin Huang,Sing Bing Kang,Narendra Ahuja,andJo- hannes Kopf. 动 态 视 频 的 时 间 相 干 完 成 。 ACMTransactions on Graphics(TOG),35(6):1-11,2016。2[19] Yasuyuki Matsushita , Eyal Ofek , Weina Ge , XiaoouTang,and Heung-Yeung Shum.全帧视频稳定与运动修复。TPAMI,28(7):1150-1163,2006。2[20] Chuan Wang,Haibin Huang,Xiaoguang Han,and JueWang.联合学习时间结构和空间细节的视频修复。在AAAI,2019年。2[21] Haotian Zhang,Long Mai,Ning Xu,Zhaowen Wang,John Collomosse,and Hailin Jin.视频修复的内部学习方法。在ICCV,2019年。2[22] Dahun Kim,Sanghyun Woo,Joon-Young Lee,and InSo Kweon.深度视频修复。在CVPR,2019年。2[23] Sungho Lee,Seean-Wug Oh,DaeYeun Won,and SeonJoo Kim.用于深度视频修复的复制和粘贴网络在ICCV,2019年。2[24] 吴先生,李成浩,李俊英,金善珠。洋葱皮网络用于深度视频完成。在ICCV,2019年。2[25] Jiahui Yu,Zhe Lin,Jimei Ya
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功