没有合适的资源?快使用搜索试试~ 我知道了~
频率感知时空变换器:一种用于视频修补检测的新方法
8188用于视频修补检测的频率感知时空变换器俞炳耀1,3,李万华1,2,李秀1,3,卢继文1,2,*,周杰1,21清华大学自动化系2北京国家信息科学技术研究中心3中国清华大学深圳国际研究生院{yby18,li-wh17}@ mails.tsinghua.edu.cn; li. sz.tsinghua.edu.cn;{lujiwen,jzhou}@tsinghua.edu.cn摘要在 本 文 中 , 我 们 提 出 了 一 个 频 率 感 知 的 时 空Transformer(FAST)的视频修复检测,其目的是同时挖掘的痕迹,从空间,时间和频率域的视频修复。不同于现有的深度视频修复检测方法,通常依赖于手工设计的注意模块和记忆机制,我们提出的FAST具有先天的全局自注意机制,以捕获长距离关系。虽然现有的视频修复方法通常exploit的空间和时间连接的视频,我们的方法采用了时空Transformer框架输入帧VDINet我们地面实况时间以检测块之间的空间连接和帧之间的时间依赖性。由于修复的视频通常缺乏高频细节,我们提出的FAST同步利用频域信息与专门设计的解码器。大量的实验结果表明,我们的方法实现了非常有竞争力的性能和推广良好。1. 介绍视频修复在过去的几年中吸引了很多关注[18,17,35,23,6],这是一项修复视频序列中具有视觉上合理像素的丢失或损坏区域的任务。视频修复技术作为一种视频编辑技术在视频修补、虚拟现实等领域得到了广泛的应用。然而,视频修复技术的日益进步和快速发展,也导致恶意攻击者通过伪造视频序列发布一些假新闻,误导舆论导向。最近,由于深度学习的进步,各种研究[15,24]显示了视频修复的惊人进展,这使得可以编辑视频的特殊区域,例如。拿走了可能是关键证据的东西修复的视频有*通讯作者图1.与第一种视频修复检测方法VDINet [39]相比,我们可以观察到我们的FAST方法在保证时间一致性的同时可以保留预测掩码的更详细信息。随着视频修复方法的显著成功,变得越来越难以通过眼睛来区分此外,视频修复技术的滥用可能会造成潜在的因此,存在对有效的视频修复检测方法的合理需求,该方法试图检测所呈现的视频是原始的还是修复的。关于视频修补的研究有很多[2,15,23,17],主要分为两类:基于补丁的方法和基于学习的方法。然而,上述两种方法都存在一个重要的问题因此,这些方法不可避免地留下线索和伪影,例如区域像素之间的不一致性,区域边缘的急剧变化以及由于未能获得完整分布而导致的模糊区域。因此,已经开发了用于修复检测的更近期的方法,但是大多数现有的修复检测方法是基于单个输入图像的帧级。此外,[39]首先提出了LSTM-8189×的框架相结合的RGB图像和ELA信息提取的视频修复检测的空间和时间特征。总的来说,在实验性能方面仍然存在明显的差距。在 本 文 中 , 我 们 提 出 了 学 习 频 率 感 知 的 spa-tiotemporal变压器的视频修复检测。实际上,视频画中画检测中最重要的事情之一是发现补丁和帧之间的关联。现有的方法通常采用注意模型和记忆机制,这种直接的、硬的组合会导致预测结果不一致。基于此,我 们 构 建 了 包 括 编 码 器 和 解 码 器 的 空 间 时 间Transformer,使用多头自注意机制捕获空间和时间伪影。此外,我们将频率感知特征作为辅助监督信息纳入预测过程中,以便对预测掩码的上采样操作进行正则化,以提高泛化能力。然后,在混合损失函数的指导下,对FAST框架进行优化,减小了数据集中存在的类不平衡的影响。最后,我们评估了我们的框架在域内和跨域调查的性能和推广。总而言之,我们的论文有三方面的贡献:(i)我们首先介绍用于视频修复检测的基于变换器的框架,其可以探索修复视频内部的空间和时间信息。(ii)我们提出了频率感知的功能和增强提取的特征与频域信息,形 成 找 到 篡 改 文 物 和 操 纵 线 索 隐 藏 在 RGB 帧 。(iii)Davis视频修复数据集和自由形式视频修复数据集上的实验结果表明,即使面对看不见的方法,我们提出的框架也能达到非常有竞争力的性能。2. 相关工作视频修补检测:现有的视频修补方法可以主要分为两类:基于补丁的方法和基于学习的方法。基于块的方法旨在利用块和帧之间的连接和相似性。例如,Barneset al. [2]提出了在周围区域中循环搜索近似为了处理动态场景,黄 等人[15]采用了一种基于非参数优化的方法来匹配斑块,并联合利用光流和颜色作为正则化。对于第二类,基于学习的方法旨在利用深度网络来学习语义表示。最近,Kim等人[17]利用流动损失和翘曲损失作为补绘缺失区域的附加约束。去关注那些看不见的信息-来自参考图像的信息,Ohet al. [23]提出了一种非对称注意力块来计算非局部方式的相似性。Lee等[18]旨在复制和粘贴参考帧以完成缺失的细节。同时,已经开发了几种方法用于修复方法的取证。为了降低高的虚警率,Chang等人。[5]采用两阶段搜索方法搜索可疑区域及对应的多区域关系。此后,Zhu等人[40]采用CNN检测修补补丁在256256张图片。近日,李等al. [19]采用高通预滤波作为初始化。的CNN区分高频残留的真实图像从修补的。为了提高推广性和鲁棒性,Zhouet al.[39]将RGB图像和ELA [31]信息与卷积LSTM相结合,以保证时间一致的预测。然而,由于这些方法不能沿着空间和时间维度形成一致的注意结果,因此在实验性能上仍然存在明显的差距。变压器:Transformer已成功应用于自然语言处理和机器翻译[29,8,10,34,36]。由于变压器的核心自我注意近年来,Transformers在计算机视觉领域取得了一系列突破。DETR [4]利用Transformer编码器-解码器架构进行对象检测。在[11]中,变换器直接应用于嵌入图像块的序列以进行图像分类,与最先进的卷积网络相比,此外,SETR [37]从序列到序列的角度重新考虑了转换器的语义分割。此外,IPT [7]从低级计算机视觉任务中开发了一种新的预训练同时,变压器在视频处理中也引起了越来越多的VisTR [33]将视频实例分割任务视为直接的端到端序列解码问题,并使用变压器完成序列实例上述研究揭示了变压器在计算机视觉任务中的有效性。然而,据我们所知,到目前为止,还没有变压器到视频修复检测的先前应用。动机的事实,变压器既可以建模远程依赖学习时间信息跨多个帧,并利用自我注意机制,探索补丁之间的空间特征因此,我们提出了快速的视频修复检测方法。3. 该方法在本节中,我们将详细介绍用于视频修复检测的频率感知我们首先8190图层规范Transformer层8 xTransformer层MSA线性投影图层规范线性投影MLP我0∈∈∈22我S我S2{∈|}{∈|}下采样上采样频域运算上采样的特征级联(S,D0)(H/16,W/16,D0)(H/8,W/8,D1)(H/4,W/4,D2)(H/2,W/2,D3)(H,W,D4)图2. FAST框架的整体网络架构。对于一系列的视频帧,我们首先采用两个线性投影层的图像块映射到矢量嵌入沿空间和时间维度。然后,我们利用Transformer编码器,以获得隐藏的功能组成的空间和时间的信息。同时,我们将频率感知功能作为辅助信号,以协助编码器预测视频修复检测结果。示 出 了 如 何 构 造 包 括 编 码 器 和 解 码 器 的 时 空Transformer器。然后,我们提出了频率感知特征的运动,并提出了RGB帧和频谱信号的组合。最后,我们介绍了如何优化我们的FAST框架的指导下的混合损失函数。图2显示了我们提出的方法的整体3.1. 时空Transformer网络要序列的图像:遵循典型的Transformer编码器-解码器架构,我们首先将输入图像I分成N个补丁,其中N=H×W(即,输入在图块空间和时间信息中,我们采用可学习的位置嵌入,其被直接添加到上述图块嵌入以如下保留位置信息:z0=E(It)E0+Epos,(1)其中,ERR(S2·C)×D0表示空间块嵌入投影,ERR(N ·(T+1)N)表示时间块嵌入投影,EposRN×D表示位置嵌入。Transformer编码器:存在L层的多-头自注意(MSA)模块和多层Per序列长度)并且补丁大小是S。 另夕h贴片大小S通常被设置为16。然后,我们获得平坦化的2D面片的序列IiRS ·Ci=l,…N,其中C表示图像通道。视频修复检测任务时,我们通常将视频剪辑输入到网络,以便有几个输入图像。我们选择T+1帧,T帧在第(T+1)个输入图像的前面,其余的在后面。因此,我们可以如上所述对所有帧执行图像分割,并且第t个平坦化的2DTransformer编码器中的Ceptron(MLP)块。因此,第1层的输出可以用公式表示如下:zA=MSA(LN(zA−1))+zA−1,(2)zA=MLP(LN(λzA))+λzA,(3)其中,LN(·)是层归一化算子,zA是MSA模块的中间输出变量,zl−1和补丁是Rs2·Ci=1,...,N,t=1,…T+1。我们首先利用可训练的线性投影将矢量化的块It映射到沿着空间维度的潜在D0然后我们沿着时间维度重复类似的操作。以编码Z1表示用作输入和输出的编码图像表示。我们在图2中示出了Transformer层的结构解码器设计:遵循SETR [37],对于解码器部分,我们也采用简单的渐进式上采样++++8191ⓈHW{}T×∈TT--161616168844R2288HWHWHW×∈∈HWHW∈∈∈∈高通原始帧DCT中传球IDCT补漆框架低通地面实况图3.获得我们提出的频率感知特征的过程我们可以观察到,分解的频率感知图像揭示了具有与未触及区域不同的频率域分布的修复伪影(最好以数字方式、以颜色和以缩放来查看)。(PUP)方法。此外,我们首先将最终的编码器输出z1重新整形回到x0RH×W×D0,其表示具有HW大小和D0通道的2D特征图。因此,我们利用三个连续的标准上采样卷积层来提高特征图的分辨率,其中我们获得x1。R××D1,x2R××D2和x3××D3。这些不同尺度x0、x1和x2的特征图被重新整形为相同的大小,以用于与频率感知特征的后期组合。我们在图2中示出了解码器的结构。3.2. 频率感知特性近年来,视频图像修复方法通常是对特定区域进行补绘,使其具有真实感.因此,难以直接从经修复的RGB帧获取到对应的二进制地面实况掩模的映射。因此,各种研究倾向于学习多模态特征以用于一般视频修复检测。例如,[39]建议将RGB特征与错误水平分析(ELA)信息[31]相结合,该信息旨在揭示包含不一致压缩伪影的区域。此外,已经进行了使用频域线索的图像伪造检测的几次尝试[13]。为了减轻RGB帧的限制,我们用频域信息增强提取的特征。通常,研究人员会使用DFT或DCT将图像转换到频域,考虑到离散余弦变换(DCT)在计算机视觉任务中的广泛应用和频谱的规则分布,我们选择了DCT[1]。然后,对于输入图像I,我们可以得到频域图M:凹痕零件。随后,我们将fi设计为二进制映射,以便我们可以通过对fi和M进行点积来实现分解的频谱。实际上,手工变换DCT无法处理平移不变性和探索局部一致性,这在修复图像中非常重要最后,我们可以如下获得分解的频率感知图像:Ii=T−1(T(I)fi)(4)其中,i是第i个分解的频率感知图像,并且i=1,2,…n. −1表示逆离散余弦变换(IDCT),是元素乘积。我们选择将n设置为3,这有两个原因:一方面,我们稍后将沿着通道轴堆叠这些组件另一方面,我们可以将频域信息分解成在频谱中规则分布的常见高通、中通和低通信号与[26]类似,从低频到高频,我们遵循等能量原则将频谱分成3个频带 在我们将分解的频率分量逆变换到空间域之后,我们最终获得一系列分解的频率感知图像。然后,我们沿着通道轴堆叠这些组件,并将堆叠的特征图输入到CNN骨干中。特征图被逐步下采样到HW,并且我们利用CNN来探索丰富的辨别信息。我们从first(x1)取三个输出R2×2×C1),秒(x2R4×4×C2)和第三(x3R8×8×C3)块,以与Transformer解码器的输出匹配。3.3. 损失函数对于视频修复方法,用户倾向于重新移动一些对象或修复局部缺失区域。因此,修复区域通常比自然区域小得多。因此,当我们训练网络来预测掩码时,将存在标准CE损失无法处理的类不平衡。CE损失倾向于集中在大多数阴性样本上,并且导致错误分类修复区域的低真阳性率因此,我们采用[20]中提出的焦点损失来减轻类不平衡的影响。Focal损失是一种广义的CE损失,我们可以把CE损失看作Focal损失的一种特殊情况。Focal损失为原始交叉熵项分配了一个额外的因子,因此损失可以控制不同不平衡样本的梯度。我们使用Focal损失,其公式为:LFocal(y,y)=−Σα(1−y)γ∗ylog(y)M=(I),其中 表示DCT。为了获得更详细和细致的频域信息,我们-Σ(1−α)yγ*(1−y)log(1−y)(五)采用N个频率带通滤波器F1,F2,...,f n将频域映射分解为一系列独立的其中,y表示来自二进制真实掩模的像素,并且y表示对应的预测pi X el。α和γ8192××都是超参数。此外,我们采用平均交集的联盟(mIoU)作为我们的评价指标,视频修复检测。因此,为了促进预测掩码和二进制地面真值之间的更多交集,我们采用IoU得分[28]作为损失函数:Σy∗yˆFVI:我们对FVI数据集进行了额外的评估,以研究不同数据集上的泛化。FVI数据集[6]由100个测试视频组成,用于多实例对象移除,更接近真实场景。我们直接应用[6]中提出的方法来获取相应的100个修复视频。来呈现概括LIoU(y,y)=1−Σ(y+y−yy)+(六)在我们提出的方法中,我们利用了我接受了VI和OP修复DAVIS视频的培训,以其中我们设置一个超参数,它只是一个小数字,以避免零除法。最后,用于监督预测的混合损失函数定义如下:L(y,y)=λ1LFocal(y,y)+λ2LIoU(y,y)(七)有两个损失函数在优化中起着重要的作用此外,IoU损失直接测量评估度量并指导框架越来越准确地预测修复区域。4. 实验在本节中,我们评估了我们提出的方法与以前的图像/视频修复检测方法相比。然后,我们对各种广泛使用的方法的视频图像进行了实验。此外,我们还对该方法进行了鲁棒性分析和消融研究.最后,我们提出了定量和定性的结果。4.1. 数据集和指标我们评估了我们的框架在域内和跨域调查的性能和推广。出于这个原因,在[39]之后,我们选择Davis视频修复数据集(DVI)和自由形式视频修复数据集(FVI)进行各种实验,其中存在不同的方法来执行最先进的视频修复任务。在这里,我们提供了这两个数据集的简要描述:DVI:考虑到DAVIS 2016 [25]是最着名的视频修复基准之一,总共包含50个视频,我们在DVI数据集上评估了我们我们利用三种SOTA视频修复方法- VI [17],OP [23]和CP [18]获得了修复的视频,将地面真实掩模作为参考。我们从所有三种修复的DAVIS视频中选择了两种用于训练和测试。之后,我们使用左侧的视频进行了额外的跨域测试,以测试泛化。我们遵循原始的训练/测试集分割。直接在FVI数据集上测试。我们采用了F1得分和平均交集联盟(IoU)之间的预测掩模地面真理作为评估指标。此外,我们报告了受试者工作特征曲线下面积(AUC)作为额外的评价指标。4.2. 实现细节我们使用Py-Torch包实现了FAST框架。对于特定的基于变压器的编码器,我们直接采用ViT [11]网络。此外,所有Transformer骨干(即,ViT)在ImageNet [9]数据集上进行了预训练。除非另有说明,否则输入图像分辨率和补丁大小S被设置为224、224和16。因此,我们需要在PUP方法中级联四个连续的2个上采样块以恢复全分辨率。此外,由于GPU内存限制,我们在训练期间将视频剪辑的长度设置为3帧。我们使用SGD作为优化器,并将学习率,动量和权重衰减设置为0.01,0.9和1 e-4。Davis视频修复数据集和自由形式视频修复数据集的默认批大小均设置为16。4.3. Davis视频修复数据集我们首先在DVI数据集上评估了我们提出的方法,并将我们提出的框架与现有的视频修复检测方法VIDNet[39] , 视 频 分 割 方 法 COSNet [21] 以 及 由NOI[22],CFA[12],HPF[19]和GSR-Net[38]组成的操纵 检 测 至 于[39]中 的 各 种 网 络 架 构 , 我 们 采 用 了VIDNet-IN框架,该框架通常表现为了探索不同视频修补方法的效果,我们在一种视频修补方法上测试了所有模型,并在其他两种方法上进行了训练。表1示出了不同视频修补检测方法的结果,其中粗体数字表示最佳结果。首先,大多数现有的操纵检测方法被设计成获得图像中的篡改伪影。此外,视频分割方法COSNet倾向于获得连续帧之间的流量差异以预测对象的分割。因此,这些方法不能实现良好的性能。最近,第一个视频修补检测框架VIDNet可以学习帧之间的时间信息,并产生更好的性能。··8193表1.DVI数据集的比较结果 我们在分别通过VI和OP方法、OP和CP方法以及VI和CP方法(表示为'*')修复的DVI数据集上训练模型。VI*OP *CP VI OP*CP*VI*OP CP*方法mIoU/F1mIoU/F1mIoU/F1mIoU/F1mIoU/F1mIoU/F1mIoU/F1mIoU/F1mIoU/F1NOI [22]0.08/0.140.09/0.140.07/0.130.08/0.140.09/0.140.07/0.130.08/0.140.09/0.140.07/0.13CFA [12]0.10/0.140.08/0.140.08/0.120.10/0.140.08/0.140.08/0.120.10/0.140.08/0.140.08/0.12COSNet [21]0.40/0.480.31/0.380.36/0.450.28/0.370.27/0.350.38/0.460.46/0.550.14/0.260.44/0.53HPF [19]0.46/0.570.49/0.620.46/0.580.34/0.440.41/0.510.68/0.770.55/0.670.19/0.290.69/0.80GSR-Net [38]0.57/0.690.50/0.630.51/0.630.30/0.430.74/0.820.80/0.850.59/0.700.22/0.330.70/0.77VIDNet [39]0.59/0.700.59/0.710.57/0.690.39/0.490.74/0.820.81/0.870.59/0.710.25/0.340.76/0.85FAST(我们的)0.61/0.730.65/0.780.63/0.760.32/0.490.78/0.870.82/0.900.57/0.680.22/0.340.76/0.83表2.修复分类AUC比较的帧级结果。我们在VI和OP修复的DAVIS视频(表示为“*”)上训练模型,并在所有三种修复方法上测试模型。方法VI *OP*CP表3.在DVI数据集上评估我们提出的框架的不同组件。我们在VI和OP输入的DAVIS视频(表示为'*')上训练模型。VI*OP *CP方法mIoU/F1 mIoU/F1 mIoU/F1[39] 2019 - 01 - 29 00:00:00法士特(我们的)0.795 0.787 0.898对于所有三个实验设置,我们的FAST在所有未经训练的视频修复方法上都优于其他方法此外,我们的FAST实现了非常有竞争力的性能相比,其他方法的所有训练的视频修复方法,提出了我们的方法的优势,以获取分布在视频中的然而,我们的FAST仅实现了第二好的结果,这可能是由于VI修复视频和CP修复视频之间的显著差异在[16]和[39]之后,我们还尝试研究我们提出的方法区分原始视频帧和修复视频帧的能力。与上述相同,我们使用VI和OP修复方法训练的模型进行了实验。特别地,我们给在绘帧正面的标签和自然unin- painted帧添加到测试集作为负样本进行额外的评估。此外,我们通过对所有帧的预测结果进行最后,我们获得了所有模型的AUC分类性能。从表2中,我们可以观察到,与所有三种修复方法的其他模型相比,我们的模型实现了最佳性能。这表明我们的FAST框架成功地学习了如何获取修复视频和原始视频之间的区别信息。4.4. 消融研究我们在DVI数据集上进行了四项消融研究,以研究我们框架中不同单个组件的影响。此外,我们还对使用VI和OP修复方法训练的的我们的不含LIoU0.58/0.68 0.59/0.73 0.59/0.72我们的不含FAF 0.55/0.64 0.51/0.62 0.48/0.54 FAST(我们的)0.61/0.73 0.65/ 0.78 0.63/0.76消融研究由五个设置组成,分别采用不同的网络架构。首先,我们只输入一帧到我们的FAST框架进行实验。其次,我们在混合损失函数中删除了焦点损失L焦点。第三,我们在混合损失函数中丢弃了IoU损失LIoU。然后,我们放弃了频率感知特征(FAF),直接使用Transformer编码器的输出生成预测图。最后,最后一个模型就是我们提出的FAST方法。消融研究结果如表3所示。从表3中,我们可以观察到,我们提出的没有频率感知特征的FAST比其他模型表现更差类似地,我们用在VI和OP修复方法上训练的模型进行实验这可能是因为频率感知特征可以探索隐藏在RGB帧中的修复伪影,并且频域特征和空间域信息的组合提高了模型的区分能力。此外,我们还可以观察到,在没有损失函数的情况下,我们的模型的性能并不好,这表明这两个损失函数在优化FAST模型和提高评估性能方面都起着重要的作用此外,IoU损失LIoU占据了稍微重要的位置,因为它与评估指标直接相关。显然,一帧输入的FAST不能很好地执行。该模型只能描述图像块之间的空间注意力,忽略了视频帧之间重要的时间连接此外,我们相信,FAST的性能会越来越好,随着帧数增加在一定范围内。HPF [19]0.718 0.640 0.845我们的一帧0.57/0.680.53/0.600.51/0.61GSR-Net [38]0.762 0.758 0.834我们的,不含LFocal0.57/0.660.58/0.740.59/0.7081940.650.70.650.60.550.50.450.40.350.31009080700.60.50.40.30.20.11009080700.60.550.50.450.40.350.31009080 70JPEG压缩JPEG压缩JPEG压缩(a) JPEG扰动(VI*,OP*,CP)0.60.550.50.450.250.20.150.80.750.70.650.60.4原创30 20噪声SNR(dB)0.1原创30 20噪声SNR(dB)0.55原创30 20噪声SNR(dB)(b) 噪声扰动(VI*、OP*、CP)图4.不同扰动下的比较结果在JPEG压缩中,我们选择了90和70的质量因子进行扰动我们选择SNR 30dB和20dB用于噪声扰动从左列到右,结果分别是VI、OP和CP修复。我们采用4.5. 鲁棒性分析我们进行了各种扰动下的实验,研究我们的FAST方法JPEG和噪声扰动下的鲁棒性。首先,对于JPEG扰动,我们用70和90的JPEG质量因子压缩输入帧。此外,对于噪声扰动,我们将高斯噪声添加到信噪比(SNR)为20和30 dB的测试视频帧。鲁棒性分析结果表明,我们的FAST方法表现出良好的鲁棒性在不同的扰动。由于我们引入了许多高频噪声,因此与其他方法相比,扰动的HPF急剧下降。然而,VIDNet遭受更多的JPEG扰动比噪声扰动,因为VIDNet利用的ELA功能,这是非常敏感的JPEG压缩。最后,我们的FAST方法实现了最佳的鲁棒性,并且在不同的扰动下仅执行小的退化,因为我们引入了专注于具有不同分解频率分量的丰富信息的频率感知特征4.6. 自由格式视频修复数据集的结果为了进一步研究泛化问题,我们在FYI数据集上评估了我们提出的方法此外,我们研究了不同数据集之间的泛化,而不是各种视频修复方法。所有模型都是在VI和OP修复方法上训练的,泛化分析结果如表4所示所有提出的方法都遭受性能降级-表4.FVI数据集的比较结果我们在VI和OP方法修复的DVI数据集上训练模型,并直接在FVI数据集上测试。FVI方法mIoU/F1NOI [22] 0.062/0.107[12] 0.073/0.122HPF [19] 0.205/0.285GSR-Net [38] 0.195/0.288VIDNet [39] 0.257/0.367FAST(我们的)0.285/0.359在应用于交叉数据集测试时,这是不可能的,因为两个数据集和内部绘制方法之间存在显著差异。然而,我们的方法仍然实现了竞争力的推广相比,现有的方法,由于与频率感知功能和时间信息的利用相结合。4.7. 定性结果图5显示了我们提出的FAST与相同设置下的其他方法相比的可视化结果。我们可以观察到,我们的方法可以预测最接近地面实况的掩模,因为我们的频率感知特征提取了有区别的信息,并且时空Transformer制定了时间连接。具体地,HPF倾向于误分类的真实区域,由于单输入模态的限制此外,GSR-Net进行帧级修复检测,使得结果在时间上不一致。VIDNet利用时间信息来保持一致性,但预测结果丢失了一些细节。HPFGSR-NetVIDNetFAST(我们的)HPFGSR-NetVIDNetFAST(我们的)HPFGSR-NetVIDNetFAST(我们的)HPFGSR-NetVIDNetFAST(我们的)HPFGSR-NetVIDNetFAST(我们的)HPFGSR-NetVIDNetFAST(我们的)平均IoU平均IoU平均IoU平均IoU平均IoU平均IoU8195输入帧HPF枪击残留物净VDI-净我们地面真相输入帧HPF枪击残留物净VDI-净我们地面真相图5. DVI数据集的定性可视化结果。从第一行开始,我们呈现修复的视频帧。从第二行到第五行,这些图像显示了不同方法的最终预测结果,我们使用绿色蒙版来突出显示结果。第六行是地面实况(最好用数字、彩色和变焦观看)。5. 结论在本文中,我们提出了学习频率感知的时空变换器的视频修复检测,旨在同时挖掘空间,时间和频率感知的痕迹修复的视频。虽然现有的深度视频修复检测方法通常依赖于手工设计的注意模块和记忆机制,但我们提出的FAST具有固有的全局自注意机制来捕获长距离依赖性。此外,我们采用时空Transformer来检测图像块之间的空间连接和帧之间的时间依赖性。由于修复后的视频通常缺乏高频细节,我们采用了专门设计解码器以同步地利用频域信息。实验结果表明,我们的方法取得了非常有竞争力的性能。承认这项工作部分得到了中国国家重点研究发展计划2017YFA0700802的支持,部分得到了中国国家自然科学基金61822603、U1813218和U1713214的支持,部分得到了北京人工智能研究院(BAAI)的资助,部分得到了北京市人工智能研究所(INSTIT)的资助。清华大学郭强教授。8196引用[1] Nasir Ahmed,T Natarajan,and Kamisetty R Rao.离散余弦变换TC,100(1):90[2] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structural image editing.InToG,2009.[3] Irwan Bello ,Barret Zoph,Ashish Vaswani,JonathonShlens , and Quoc V Le. 注 意 力 增 强 卷 积 网 络 。 在ICCV,第3286-3295页[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV,第213-229页[5] 张义成,余云,张志全。基于多区域关系的样本修复图像伪造检测算法。IVC,31(1):57[6] 张亚良,刘哲宇,李冠英,徐文松。使用3d门控卷积和时间patchgan的自由形式视频修复。在ICCV,2019年。[7] Hanting Chen,Yunhe Wang,Tanyu Guo,Chang Xu,Yiping Deng,Zhenhua Liu,Siwei Ma,Chunjing Xu,Chao Xu , and Wen Gao. 预 训 练 的 图 像 处 理Transformer。arXiv预印本arXiv:2012.00364,2020。[8] Zihang Dai , Zhilin Yang , Yiming Yang , Jaime GCarbonell,Quoc Le,and Ruslan Salakhutdinov.变压器-xl:超越固定长度上下文的attentive语言模型。在ACL中,第2978-2988页[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,2009。[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在NAACL-HLT,2019年。[11] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。[12] Pasquale Ferrara,Tiziano Bianchi,Alessia De Rosa,and Alessandro Piva.基于cfa伪影细粒度分析的图像伪造定位在TIFS,2012年。[13] JoelFrank,ThorstenEisenhofer,LeaSch¨ nherr,AsjaFis-cher,Dorothea Kolossa,and Thorsten Holz.利用频率分析进行深度虚假图像识别。在ICML,第3247-3258页中。PMLR,2020年。[14] Han Hu,Zheng Zhang,Zhenda Xie,and Stephen Lin.用于图像识别的局部关系网络。在ICCV,第3464-3473页[15] Jia-Bin Huang,Sing Bing Kang,Narendra Ahuja,andJo- hannes Kopf.动态视频的时间相干完成。TOG,2016.[16] Minyoung Huh , Andrew Liu , Andrew Owens , andAlexei A Efros.打击假新闻:通过学习的自一致性进行图像拼接检测。在ECCV,2018。[17] Dahun Kim,Sanghyun Woo,Joon-Young Lee,and InSo Kweon.深度视频修复。在CVPR,2019年。8197[18] Sungho Lee,Seean-Wug Oh,DaeYeun Won,and Seon Joo Kim.用于深度视频修复的复制和粘贴网络在ICCV,2019年。[19] Haodong Li and Jiwu Huang.使用高通全卷积网络进行深度修补的定位。在ICCV,2019年。[20] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密 集 目 标 检 测 的 焦面损失。在ICCV,第2980-2988页[21] Xiankai Lu , Wenguan Wang , Chao Ma ,Jianbing Shen,Ling Shao,and Fatih Porikli.查看更多,了解更多:基于共同注意连体网络的无监督视频对象分割。在CVPR,2019年。[22] Babak Mahdian和Stanislav Saic。使用噪声不一致性进行盲图像取证。在IMAVIS,2009年。[23] 吴先生,李成浩,李俊英,金善珠。洋葱皮网络用于深度视频完成。在ICCV,2019年。[24] Deepak Pathak 、 Philipp Krahenbuhl 、 JeffDonahue、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像修复进行特征学习。在CVPR,2016年。[25] Federico Perazzi 、 Jordi Pont-Tuset 、 BrianMcWilliams、Luc Van Gool、Markus Gross和Alexander Sorkine-Hornung。视频对象分割的基准数据集和评估方法。在CVPR,2016年。[26] 渔阳谦、国君尹、卢生、子玄陈、景绍。思考频率:通过挖掘频率感知线索进行人脸伪造检测参见ECCV,第86-103页[27] Prajit Ramachandran , Niki Parmar , AshishVaswani,Irwan Bello,Anselm Levskaya,andJonathon Shlens.视觉模型中的独立自我注意力。NeurIPS,2019。[28] Mengye Ren和Richard S Zemel.端到端实例分段,具有重复关注。在CVPR,2017年。[29] AshishVaswani , NoamShazeer , NikiParmar,Jakob Uszko-reit,Llion Jones,AidanN Gomez,Lukasz Kaiser,and Illia Polosukhin.注意力是你所需要的。NeurIPS,2017。[30] Huiyu Wang , Yukun Zhu , Bradley Green ,Hartwig Adam,Alan Yuille,and Liang-ChiehChen.轴向深度:用于全景分割的独立轴向注意。在ECCV,第108-126页[31] 王伟,京东,谭铁牛。基于jpeg压缩噪声的数字彩色图像篡改区域定位在IWDW,2010年。[32] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在CVPR中,第7794- 7803页[33] Yuqing Wang,Zhaoliang Xu,Xinlong Wang,Chunhua Shen,Baoshan Cheng,Hao Shen,and Huaxia Xia. 使用Transformers进行端到端视 频 实 例 分 割 。 arXiv 预 印 本 arXiv :2011.14503,2020。[34] Felix Wu,Angela Fan,Alexei Baevski,YannDauphin,and Michael Auli.对轻量级和动态卷积的关注较少。在ICLR,2018年。[35] Rui Xu, Xiaoxiao Li , Bolei Zhou ,and Chen ChangeLoy.深度流引导视频修复。在CVPR,2019年。[36] Zhilin Yang , Zihang Dai , Yi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功