没有合适的资源?快使用搜索试试~ 我知道了~
1STRIVE:视频Vijay Kumar B G*1、Jeyasri Subramanian2、Varnith Chordia3、Eugene Bart2、ShaoboFang4、Kelly Guan5和Raja Bala31美国NEC实验室2帕洛阿尔托研究中心3亚马逊4在PARC5斯坦福大学摘要我们建议使用深度风格转移和学习的光度变换来替换视频中的场景文本。在静态图像文本替换方面的最新进展的基础上,我们提出了在保留原始视频的外观和运动特性的同时改变文本的扩展相比的问题,静止图像的文本替换,我们的方法解决了额外的挑战所引入的视频,即由不断变化的照明,运动模糊,不同的变化引起的相机对象的姿势随着时间的推移,和保存时间的一致性。我们把这个问题分成三个步骤。首先,使用时空变换器网络将所有帧中的文本归一化为正面姿势其次,使用最先进的静止图像文本替换方法在单个参考帧最后,使用新颖的学习图像变换网络将新文本从参考转移到剩余帧,该网络以时间一致的方式捕获照明和模糊效果。合成和具有挑战性的真实视频的结果显示现实的文本传输,竞争力的定量和定性性能,以及优越的推理速度相对于替代品。我们介绍了新的合成和现实世界的数据集与配对的文本对象。据我们所知,这是深度视频文本替换的首次尝试。1. 介绍我们解决的问题,现实地改变视频中的场景文本。我们的主要应用程序是为营销和促销目的创建个性化内容。一个例子是用个性化的名称或消息替换商店标志上的单词,如图1所示其他应用程序包括语言翻译、文本编辑*通讯作者:bg.vijay. k@gmail.com图 1 : 我 们 的 方 法 用 个 性 化 字 符 串 ( 底 行 中 的“ROBERT”)替换原始视频中的场景文本隐私和增强现实。出于研究目的,逼真地操纵场景文本的能力还使得能够增强用于训练文本检测、识别、跟踪、擦除和对抗性攻击检测的数据集。传统上,图像中的文本编辑是由图形艺术家手动执行的,这一过程通常需要漫长而艰苦的过程,以确保保留原始的几何形状、风格和外观。对于视频,这一工作将相当艰巨。最近,已经进行了几次尝试,以基于深度风格转移的原理自动化静态图像中的文本替换([22],[1],[31],[26],[29])。我们利用这一进展来解决视频中的文本替换问题除了在静止图像的情况下所面临的挑战,视频文本替换必须尊重时间的一致性和模型的影响,如照明变化,模糊引起的相机和对象运动。此外,在视频的过程中,相机相对于文本对象的姿态可以变化很大,因此文本替换必须能够处理不同的几何形状。解决这个问题的一个合乎逻辑的方法是训练一个基于图像的文本样式转换器。1454914550FER模块,同时在网络损耗中结合时间一致性约束这种方法的问题在于,执行文本样式传输(已经是不平凡的任务)的网络现在额外地负担着处理视频中遇到的几何和运动引起的效果。我们在实验中表明,当前的静止图像文本替换技术,如[26,13]不能鲁棒地处理这种效果。因此,我们采取了不同的做法。我们首先提取感兴趣的文本区域(ROI),并训练时空变换器网络(STTN)以时间一致的方式对ROI进行正面化。然后,我们扫描视频并选择具有高文本质量的参考帧,根据文本锐度,大小和几何形状进行测量。我们使用在视频帧上训练的最先进的方法SRNet [26]然后,我们将新的文本转移到其他帧上,并使用一种新颖的文本传播模块(TPM),该模块考虑到了相对于参考帧的照明和模糊效果TPM将来自原始视频的参考帧和当前帧作为输入,推断该对之间的图像变换,并将其应用于由SRNet生成的改变的参考帧。至关重要的是,TPM在学习成对图像变换时考虑了时间一致性我们的框架,被称为STRIVE(Scene Text ReplacementInV idEos),总结在图2中。据我们所知,这是第一次尝试在视频中替换我们做出以下贡献:1) 一个模块化的流水线,它将单个参考帧中的文本替换问题与场景中替换文本随时间的流动建模分开。将问题解析为更简单的子任务有助于简化训练并减少推理期间的计算2) 学习的参数差分图像变换,其捕获原始视频中的一对对齐的ROI之间的时间光度变化,并将其应用于文本改变的视频中的ROI。该变换由可学习的模糊/锐度算子组成,并且在合成数据上进行训练,并通过对真实世界图像的自我监督进行微调。3) 新的合成和真实世界数据集包括视频中的注释场景文本对象的多样性。视频的子集包括具有对齐的源文本、目标文本和纯背景的ROI的三元组。 数据集可在https://striveiccv2021上获得。github.io/STRIVE-ICCV2021/。2. 相关工作2.1. 风格迁移我们的方法源于深层神经风格转移[5],[12]。具体来说,pix2pix [13]形成了图像到图像传输任务的主干,并将在我们的实验中用作对视频已经由几个研究人员提出,其中将时间一致性约束添加到应用于各个帧的风格损失[11],[8]。我们从视频中遇到的几何和光度变化中解开风格转移,并对后者应用时间一致性约束。2.2. 场景文本检测、识别文本替换依赖于成功的文本检测和识别。正如预期的那样,深度学习方法定义了图像和视频输入的最新技 术 水 平 [36] , [24] , [3] 。 我 们 使 用AmazonReKognition工具箱中的视频文本检测模块为我们的为训练模型合成现实场景文本的相关努力包括[33],[16],[34]。2.3. 场景文本替换最近,已经提出了用于编辑静态图像中的场景文本的 深 度 神 经 技 术 它 们 分 为 两 类 :[22][23][24][25][26][27][28][29]虽然这些方法在可以建模的效应类型方面有所不同,但主要步骤是:i)修复以擦除现有文本[23]; ii)将输入文本样式转换为新字符或单词; iii)融合步骤,用于组合前地和背景区域以获得真实输出。由于在真实世界场景中难以获取成对的文本数据,因此现有方法在合成数据集上进行训练我们所知道的最接近的应用是谷歌翻译应用中的相机模式,它在相机预览模式下将语言由于主要目的是翻译,因此没有试图严格匹配原始文本的外观。2.4. 学习图像变换我们的文本传播模块(TPM)学习参考和非参考帧之间的光度变换。几个作品已经解决了类似的问题,在图像增强的上下文中。 Gharbi等人[6]通过从成对(增强前和增强后)训练数据训练深度双边变换网络来学习自动增强图像。相关作品[7],[2]学习从一对低分辨率图像预测参数化变换,并将其应用于高分辨率版本。变换模型复杂的照片增强运营商的“配方”的局部仿射变换。我们从这些技术中汲取灵感,以学习原始视频中的参考帧和非参考帧之间的参数变换,具有几个关键差异。首先,在先前的工作中,从图像I1学习到其增强版本I2的变换然后应用于I1的高分辨率版本。因此,每个变换都与特定的图像密切相关。在我们的例子中,转换学习了14551图2:STRIVE概述从每一帧中提取感兴趣的文本区域(ROI),并使用具有参数θ的时空变换网络(STTN)进行正面化。接下来,选择一个参考框架,并使用SRNet替换文本新的文本通过一个新的文本传播模块(TPM)传输到其他帧,并在通过STTN-1恢复到原始姿势后重新插入到帧中。从具有源场景文本的图像对,将文本应用于具有目标文本的不同图像,因此必须从原始图像内容中提取其结构其次,虽然以前的努力是为了学习图像增强操作,我们的目的是建模的变化,在照明和摄像机运动遇到的视频帧,其中-十包括失真,如图像模糊。最后,我们的变换必须表现出时间的一致性,这是不适用于静止图像变换。2.5. 图像模糊估计和校正已经提出了使用深度CNN从图像和视频中估计模糊内核的技术,其目标是盲图像去模糊[28],[27],[35]。我们在TPM中的模糊估计采用类似的方法,然而具有估计一对图像之间的差分模糊变换的不同目的,而不是从单个图像估计绝对意义上的模糊。3. 方法参照图2,我们首先提取紧密的ROI(即,边界框),用于使用Amazon Rekognition API从输入视频中获取源文本。接下来描述的所有操作都在ROI上执行。3.1. 参考帧选择我们选择单个参考框架进行文本替换。为了确保成功的文本风格转换,我们需要一个框架,其中源文本清晰易读,高对比度,最大正面的姿态。我们计算四个指标的文本ROI。1)仅考虑光学字符识别(OCR)置信度大于0.99(由ReKognition报告)的样本。这消除了过度模糊、扭曲或遮挡的文本对象。2)图像清晰度被测量为吕布图像的拉普拉斯算子的方差[21],并且具有最高拉普拉斯算子的前10个帧被测量为具有最高拉普拉斯算子的前10个帧。选择锐度分数。3)使用Otsu算法[18]对图像进行二值化4)计算紧密ROI边界框的面积与包含轴对准的矩形的面积的比率s2复合文本质量分数被计算为α1s1+α2s2,并且具有最高分数的帧被选择为参考帧。α1和α2都是基于随机视频上替换文本的视觉评估启发式选择的。3.2. 姿势归一化视频中的文本对象可能由于相对于相机的变化的对象姿态而经历各种几何为了最大限度地减少这种失真对文本样式转换的影响,我们在替换操作之前将所有ROI中的源文本规范化并对齐到规范的正面姿势。这使得能够在参考帧上进行鲁棒的文本样式传递,并且经由学习的图像变换将替换的文本传播到剩余帧上。我们做一个简化的假设,场景文本是在一个平面上。这涵盖了许多常见的情况,如街道和商店的标志,横幅等。在平面假设下,通过透视变换来完成姿态对准 。 我 们 采 用 并 扩 展 了 空 间 Transformer 网 络 [14](STN)作为一种学习方法来进行透视校正,该方法在运行时具有计算效率。STN经由局部化网络预测几何校正变换的参数θ,并且经由网格生成和重采样算子将变换应用于图像。原始STN作为监督分类任务的一部分进行训练。我们采用相同的网络架构,但显式地训练它以产生时间上一致的正面ROI。我们使用MaskR-CNN [9]获得文本ROI的二进制掩码。训练样本包括一堆失真的输入ROI掩模和合成文本服务的正面ROI掩模14552Σ|- - |作为目标标签。网络在以下损失上进行训练:LSTTN=Lθ+λ1Lpix+λ2Lt(1)其中前两项来自原始模型:Lθ是真实和预测的单应性参数向量θ之间的均方误差(MSE),并且按照Nguyen等人的做法,我们对上述损失使用L2范数。[17]和DeToneet al.[4];这种选择在我们的实验中产生了良好的结果 此外,我们引入时间一致性损失L t,定义为相邻视频帧的θ之间的MSE:其中索引i表示当前帧,并且求和是在多个相邻帧j,i上进行的。该项确保透视校正参数在相邻帧上 平 滑 地 变 化 。 图 图 2 示 出 了 时 空 变 换 网 络(STTN)如何被并入到整体框架中在文本替换之后,ROI被发送通过逆透视变换(STTN-1)以将其恢复到原始场景几何形状,并插入到原始帧中以产生输出视频。3.3. 参考框架我们选择SRNet [26]来替换参考框架中的文本。原则上,可以使用任何最先进的静止图像文本SRNet以掩码的形式获取输入ROI和目标文本,并执行用于背景生成的子网络,通过从源文本到目标文本的风格转移来创建前景,以及混合背景和前景以产生目标文本ROI。我们在数据集中的视频帧上训练SRNet。在训练过程中,我们引入了额外的增强透视失真,运动和失焦模糊遇到的视频。3.4. 文本传播我们工作的主要新颖元素是通过TPM从参考帧到视频的其余部分的文本我们的关键见解是避免在每一帧上重复执行文本替换,而是解决更简单的问题,即学习视频中文本外观的变化我们假设,在一个本地化的文本ROI内的两个视频帧之间的图像变换可以充分建模的照明和图像清晰度的简单的参数变化,由于相机/对象/照明条件随时间的变化。我们的方法的一个优点是,我们能够使用自我监督来学习模型的参数,而不依赖于大量的配对视频和标签。详细地,令IR和Ii分别是来自输入视频中包含源文本的参考帧和第i帧的ROI。 类似地,设IR′ 并且Ii’是输出视频中的目标xt的对应R0I。所有ROI图3:文本传播模块(TPM)导出原始视频(“球”)中的参考ROI与非参考ROI之间的局部图像变换该变换包括照明校正模块(LCM),其后跟随模糊预测网络(BPN)。STTN,并且在TPM处理之前被缩放到固定的规范图像在IR和Ii之间学习参数变换,并且然后将其应用于IR’。 来预测Ii′。该变换包括两个阶段,即照明校正模块(LCM)和差分模糊预测网络(BPN),如图1所示。3.第三章。LCM捕获由于照明变化(包括阴影和阴影)导致的参考和当前ROI之间的外观差异。由于对象的颜色是其反射率和照明的产物,因此我们推测,对于第一阶,从固定文本对象反射的光的变化可以通过以空间变化的方式对R、G和B通道进行独立的通道方式缩放来建模即,两个对准的R 0 I之间的照明的变化可以从它们的比率Ii/IR获得,然后将其乘以IR’以获得针对两个对准的R 0I的照明校正输出。Ii′. 在实践中,尽管IR和I1经由IR和I2对准,但是I2和I3是相同的。STTN,即使是对准中的微小缺陷也可能导致在比率图中的粗差中,特别是在文本边缘周围。当将比率校正应用于IR’中的新文本时,这样的误差变得更加明显。为了解决这个问题,我们假设场景文本通常被放置在平滑背景上,并且应用修复以获得普通背景的估计,表示为IRp和Iip。为此,我们使用SRNet中的深度修复模块。经修复的版本的比率定义对IR’的乘法校正。(见图)(3)第三章。在实践中,我们计算比率(I ip+ε)/(I Rp+ε),其中小ε避免接近零的奇点。比率模型的隐含假设是前景文本和背景的反射属性是相似的。此外,为了确保时间鲁棒性,我们在计算比率之前计算N个相邻帧上的修复的ROI的加权平均值。 后者乘以原始参考系和改变的参考系IR和IR’以产生14553∈ −-≈Σ|- - |照明校正的版本,然后被传递到模糊预测网络。BPN是一种新的基于CNN的方法,用于预测一对图像之间的变换,该变换可以由空间像差引起,包括运动模糊、失焦模糊和由于相机和文本对象之间的距离变化而引起的分辨率差异。我们使用以下变换对本地文本ROI内可能的帧到帧失真进行建模:Ii(x,y)=(1+w)IR(x,y)−wIR(x,y)*Gσ,ρ(x,y)(2)其中w[ 1,1]和Gσ,ρ是定向的2D高斯 滤波器旋转角度ρ:−(x′2+y′2)图4:BPN的训练。在阶段1中,将具有已知参数的模糊模型(1)应用于参考 IR。输入和输出被传递到BPN,BPN学习回归关于损耗Lψ、LR、LT的参数。在阶段2中,帧图-G( x,y)=Keσ2σ2(三)来自真实视频的ples被传递到BPN,BPN回归页面σ,ρxy通过LR上的自我监督的参数LT应用模糊其 中 K 是 归 一 化 常 数 , x′=xcosρ+ysinρ 且y ′=xsinρ+ycosρ。σ xσ y的情况产生对离焦模糊和分辨率差异进行建模的各向同性点扩散函数(PSF),而这两个参数之间的显著差异对在典型相机或对象运动中遇到的方向P上的各向异性模糊进行建模。当w从-1到0到1变化时,变换从图像锐化变化到恒等到图像模糊。(如果当前帧比参考帧更清晰,则偶尔需要使用w0进行BPN取一个参考帧IR和当前(第i个)时间实例周围的N个帧Ii的滑动窗口,并且预测将IR最佳地变换为N个输出帧(关于模型(2)。在该图示中N在第一阶段中,将具有已知参数Φ的等式(2)应用于来自合成视频的参考ROI IR以获得训练对(IR,Ii)。在该阶段中,等式(4)中的所有三个损耗项被最小化。 作为增强的一部分,输入Ii在X和y方向上以平移抖动扭曲,以使网络对在真实视频帧中遇到的Ii和Ir之间的微小未对准免疫。 在第二阶段中,BPN经由具有从现实世界视频提取的(IR,Ii)元组的自监督来微调。 这里只有L R和L T被最小化,因为真实的ψ是未知的。在推断期间,来自原始视频的ROI对(I R,I i)通过BPN,并且预测的参数用于将等式(2)应用于改变的ROI I’以产生ROI空间频率特性)的模糊模型等式(二)、因此,网络接收N+1个图像输入,并且IR′ 对于当前(iR-th)帧,如图所示。3.第三章。预测4N个参数。预测帧栈上的变换确保时间一致性。网络架构包括ResNet18骨干[10],平均池化层和两个完全连接的层,如图所示。3.训练损失定义为:LBPN=λψ Lψ+λR LR+λT LT⑷其中LΦ是真实参数向量Φ与预测参数向量Φ之间的平方误差损失;LR是预测ROIIi与真实ROIIi之间的均方图像重构误差;并且LT是阻止Φ随时间的大波动的时间一致性损失4. 实验结果据我们所知,没有现有的数据集或基准的视频文本替换的问题。因此,我们评估我们的技术对静止图像替换基线训练和应用于视频帧。请注意,静态图像替换的进步是STRIVE的推动者而不是竞争对手,因为我们依赖于参考帧的静态传输。4.1. 数据集和实验设置1. Synthtext:我们已经开发了一个数据集的120 syn-在N-1个相邻帧jI. 预测的I i是使用Unity模拟器的模拟视频室内和室外-通过将等式(2)和(3)中的模糊模型与参数Φ应用于IR而获得。请注意,模糊模型是可区分的w.r.t. 因此可以在训练循环内应用。BPN在两个阶段中训练,如图4所示门场景被建模为具有针对不同背景的不同文本样式一个给定的场景是用多个文本字符串生成的,为训练和测试我们的模型提供了许多源目标对不像14554图5:来自Synthtext(顶部2行)和Robotext(底部行)的示例视频帧。现有的合成数据集包括干净的正面ROI,我们的视频模拟产生具有逼真的几何和光度失真的ROI,包括运动模糊和阴影。图5示出了示例。2. Robotext:我们获得了安装在Create2机器人平台上的Google Pixel 2 XL智能手机拍摄的首个视频。该机器人被编程为在安装在大型室内大厅中的文字海报画廊周围以随机轨迹轨迹包括在不同行进速度下的线性和弯曲路径。海报被设计成使得相同风格和背景的不同单词彼此相邻,以训练文本替换模型,如图1B所示。5.该数据集包括大约5000个短视频剪辑。3. 真实世界:我们收集了室内和室外环境中具有挑战性的真实世界视频,包括与步行和驾驶相关的摄像头运动。我们有两个来源。第一个是来自ICDAR 2015Robust Reading Competition [15]的“Text in Videos”数据集,其中包括在野外捕获的25个场景文本视频。从这些视频中,我们策划了一个15个视频的子集,这些视频的质量足以满足我们的任务。此外,我们收集了我们自己的22个视频的数据集,这些视频具有与IC-DAR集相似的场景内容和多样性。所有数据集都使用AWSReKognition软件在每个帧中的文本对象周围使用边界框进行注释。Pix2pix和SRNet在来自Synthtext和Robotext的1000个视频剪辑的帧上进行训练,遵循原始实现的协议[13],[26],并对姿势变化进行额外的增强。STTN是训练帧从100个视频剪辑从Synthtext和Robotext与正面风格化的文字面具作为训练目标。对于参考帧选择,参数α1和α2(见第3.1节)根据0.7和0.3选择交叉验证实验BPN的第一阶段在来自Synthtext的100个视频上进行训练,其中10%的训练数据用于验证。第2阶段在Robotext的900个视频和Synthtext的25个视频的子集上进行训练。这两个阶段都用100个epochs训练。我们使用N=3个连续帧的邻域来施加时间一致性。ADAM优化器用于阶段1的学习率为0.0005,用于阶段2的学习率为0.0003。所有实现都在具有GPU加速的Pytorch框架[19]中,并且下面报告的所有测试都在独立数据集上执行。4.2. 评估指标1. 我们计算MSE,峰值信噪比(PSNR)和平均结构相似性(SSIM)得分[25],用于合成测试视频的帧的估计和真实ROI之间。2. 我们评估了ReKognition在真实场景中对视频文本的OCR准确性我们衡量的目标文本的字级错误的数量作为一个分数的帧中的源文本被正确识别的数量。3. 我们通过分析ReKog- nition从更改的视频返回的边界框坐标来评估目标文本的高频抖动。设盒顶点具有时变坐标[x(t),y(t)]。我们提取一个高通- 通过减去低通滤波的版本来生成信号[x~(t),y~(t)],以及计算x~2(t)+y~2(t)的均方根作为时间抖动的度量。4. 我们执行时序分析,模拟个性化营销场景,其中单个输入视频用于生成K个改变的输出副本,每个副本具有不同的目标文本字符串。我们在一台运行Ubuntu16.04的Linux机器上使用单个GeForce GTX GPU测量了20个随机选择的输入视频的平均帧速率4.3. 定量分析在表1的前3列中示出了对合成视频的重建性能。我们的第一个结果是对参考帧选择(通过始终选择第一帧作为参考而禁用)的影响的消融研究。我们看到,该步骤在重建精度方面具有明显的效果(表1中的“w/o参考帧”)。参见图9,SRNet努力正确替换小的或强烈扭曲的文本,我们的参考框架选择标准避免选择这样的框架进行文本替换。接下来,我们检查BPN的影 响 ( 通 过 在 等 式 ( 1 ) 中 设 置 w=0 来 禁 用 ) 。(二)、如表1所示,BPN也起着至关重要的作用(表1中的“w/o BPN”)。对于包含显著运动或焦点模糊的视频,可以看到最明显的益处,如图1B所示6,其中BPN准确地对聚焦模糊进行建模。接下来,我们将STRIVE与两个竞争的替代品进行比较。第一个是一个pix 2 pix基线[13]训练在-14555∈ − ∈∈x-y未对准Wσxσyρ00.141.181.1944.76+/-50.151.181.2145.3图 6 : BPN 消 融 : 输 入 ROI ( 左 ) 、 输 出 ROI ( 无BPN)(中)、输出BPN(右)。方法MSE↓PSNR↑SSIM↑OCR↑抖动↓[13]第十三话 0.059312.270.531--SRNet [26]0.022716.440.5980.7715.10无参考帧0.020316.930.596--不含BPN0.020316.930.594--努力0.018617.310.6040.9571.48表1:Synthtext(前3列)和Robotext和Realworld视频(后2列)的定量结果。对于MSE和抖动,越小越好;对于PSNR、SSIM、OCR越大越好。单独的视频帧。为了让pix2pix有公平的机会在视频上传输文本,在训练过程中,我们为网络提供了3个连续的帧,并加入了一个时间相干性约束,该约束惩罚了当前输出与其两个相邻帧之间的MSE损失第二个(和更强的)基线是SRNet训练的,并应用于各个视频帧。如表1所示,STRIVE在MSE、PSNR、SSIM方面优于两种方法。我们比较了STRIVE与帧式SRNet在真实和合成视频上的OCR准确性。从表1的第4列来看,STRIVE显著优于SRNet。这主要是由于SRNet在强烈的几何失真和光度模糊下无法替换文本。最后,我们比较表1的列5中的替换文本的时间平滑度在观看视频时,抖动是明显的(参见柔软部分)。在比较这三种方法时,pix2pix尝试整体转移,考虑文本风格、颜色、背景、几何和照明。SRNet将前置文本的传输与背景分离,这有助于性能。STRIVE受益于额外水平的分离,即随着时间的推移将单个图像转移与几何和外观变化的有趣的是,逐帧SRNet提供了一种消融形式,因为它本质上是STRIVE,而没有姿势归一化和文本传播步骤。我们对从给定输入视频创建的输出视频的不同输出游程长度(K=1,50,100)执行推理定时测试。平均SRNet推理速度对于所有K,STRIVE的速率为1.67帧每秒(fps),而对于K= 1、50、100,STRIVE的速率分别为2.11、7.83和8.01 fps。这是因为STRIVE仅在一个参考帧上执行昂贵的文本替换表2:不具有和具有对准误差的模糊参数预测中的平均绝对误差(ρ以度指定图7:BPN模拟结果。从上到下,所应用的变换是身份、锐化、运动模糊和两个不同级别的各向同性高斯模糊。左列、中间列和右列指示输入、模糊模型输出和BPN输出。此外,针对所有文本传播函数(式2中的STTN、照明、模糊模型)的参数针对每个输入视频被离线计算一次,并且在运行时被重新用于所有K个输出副本。相比之下,逐帧SRNet必须替换每个视频中的每个帧中的文本,并且因此对于所有运行长度遭受相同的低吞吐量。4.4. BPN模拟我们研究了BPN从图像对预测模糊模型(等式2)的参数的能力。使用来自995帧的文本ROI的独立测试集,所述995帧覆盖来自合成数据集和真实数据集两者的5个不同模型参数ψ在以下范围内随机选择:W(1,1),σ x,σ y(0,5),ρ(0,180),并且将模糊模型与这些参数一起应用于ROI以产生经变换的输出。原始图像和变换后的图像通过BPN发送,并将预测的参数与地面实况进行比较。回归性能如表2所示。从观察真实视频,我们注意到参考和非参考ROI之间的0-5像素的量级的平移对准误差。因此,我们报告BPN性能的理想对齐和随机模拟的x-y抖动之间的0-5个像素。我们注意到,网络预测对这种不对准是鲁棒的。ρ的高误差可能是由于模糊角估计对于近各向同性核变得病态的事实。定性结果见图。图7证实了BPN有效地对帧之间的各种差分模糊4.5. 定性评价图8展示了Robotext和Realworld视频上的TPM。随着机器人在场景中移动而变化的照明和文本清晰度的效果被有效地并入到改变的视频中。此外,我们估计模糊14556图8:Robotext(上半部分)和Realworld(下半部分)上的TPM结果。第一/第二行是原始/改变的视频。帧按时间顺序但不连续。参考框架标记为绿色。图9:Synthtext场景的原始视频帧(上),STRIVE(中)和SRNet输出(下)[26]的比较。放大的ROI插图位于右下角。使用拉普拉斯算子的方差的文本ROI [20]。原始图像与原始图像的模糊评分之间的Pearson相关系数。替换的ROI 为 0.9912, 指示 有 效的 模 糊 转移 。 图 9 比 较了Synthtext视频的STRIVE和SRNet输出。 如放大插图所示,SRNet无法处理强烈的透视(尽管用这样的例子进行训练),并且即使替换成功,几何形状也是不正确的。STRIVE通过单独解决每个任务来实现精确的文本替换和几何图形。图10示出了真实世界视频的结果。第一场景遇到失焦模糊。STRIVE能够模拟这种影响,并保持字符的完整性,而SRNet输出失真。接下来的两个场景来自ICDAR数据集,其中视频是用人类行走运动捕获的。第四个场景是在具有大气噪声的移动车辆中捕获的。在所有情况下,STRIVE在保留文本完整性以及原始场景的几何和光度补充部分包含具有挑战性的现实场景与移动阴影,焦点模糊,人类和车辆运动的视频。如视频中所示,SRNet表现出相当大的抖动,这是STRIVE所避免的,这要归功于时间平滑度约束。图10:真实视频的原始(上)、STRIVE(中)和SRNet(下)[26]帧所选场景的右下角显示了缩放的ROI插图。5. 结论我们提出了一种有效的和高效的方法来取代视频中的文本解耦静态图像的文本传输的几何形状和外观的时间变化。后者是通过一个新的学习转换,捕捉视频帧对之间的光度差异建模。这种类型的差分变换学习具有广泛的可应用性的图像和视频编辑。我们提供了新的数据集,以进一步推进与文本相关的视频任务。STRIVE的效率依赖于某些假设,包括平面几何形状和文本与背景之间的光谱相干性。我们认为,这些假设并不过分限制,因为这样的情况下,在现实世界的场景中经常未来的工作包括推广的方法来处理闭塞,非平面表面,自发光的文字,和非文字对象,如图形和3D形状。14557引用[1] Samaneh Azadi , Matthew Fisher , Vladimir Kim ,Zhaowen Wang,Eli Shechtman,and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE Conf. Comput.目视模式识别,2018年。[2] Jiawen Chen , Andrew Adams , Neal Wadhwa , andSamuel W.哈辛诺夫双侧引导采样。ACM事务处理图表,35(6),2016.[3] Zhanzhang Cheng,Jing Lu,Yi Nio,Shiliang Pu,FEiWu,and Shuigeng Zhou.你只能认出一次:快速视频文本识别。Arxiv 1903.03299,2019。[4] Daniel DeTone,Tomasz Malisiewicz,and Andrew Rabi-novich.深度图像单应性估计。CoRR,abs/1606.03798,2016。[5] 利昂·A Gatys,Alexander S. Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。 在IEEE Conf.Comput.目视模式识别,2016年。[6] 放大图片作者:Michael Gharbi,Jiawen Chen,JonathanT. 塞缪尔·巴伦哈辛诺夫和弗雷多·杜兰德。用于实时图像 增强 的深 度 双边 学 习。 ACM 事 务处 理图 表 ,36(4),2017.[7] Michael Gharbi , YiChang Shih , Gaurav Chaurasia ,Jonathan Ragan-Kelly,Sylvain Paris,and Fredo Durand.转换配方有效的云照片增强。ACM事务处理图表,34(6),2015.[8] 阿格里姆·古普塔,贾斯汀·约翰逊,亚历山大·阿拉希,李菲菲.表征和提高神经风格转移的稳定性。在国际会议计算中目视,2017年。[9] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克 。 面 具 R-CNN 。 在 IEEE 计 算 机 视 觉 国 际 会 议(ICCV)的会议记录中,2017年10月。[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 用 于 图 像 识 别 的 深 度 残 差 学 习 在 IEEE Conf.Comput.目视模式识别,2016年。[11] 黄浩志,王浩,罗文汉,马琳。为视频提供实时神经风格转换。在IEEE会议Comput.目视模式识别,2017年。[12] Xun Huang和Serge Belongie。 任意风格转换 以自适应实例规范化实时执行。在IEEE Conf. Comput.目视模式识别,2017年。[13] Phillip Isola,Jun-Yan Zhu和Alexei A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在IEEE Conf. Comput.目视模式识别,2017年。[14] Max Jaderberg,Karen Simonyan,Andrew Zisserman,Koray Kavukcuoglu.空间Transformer网络。在高级神经信息。过程系统,2015年。[15] Dimosthenis Karatzas等人Icdar 2015稳健阅读竞赛2015年,国际文件分析与识别会议(ICDAR)[16] 上邦龙和丛耀。Unrealtext:从虚幻世界合成真实场景文本图像。Arxiv 2003.10608v6,2020。[17] T. 阮 氏 W. Chen , S.S. 希 瓦 库 马 尔 角 J. Taylor 和 V.Kumar。无监督深度单应性:一种快速、鲁棒的单应性估计模型。IEEE机器人和自动化快报,第2346-2353页14558[18] 大津信之一种基于灰度直方图的阈值选取方法。IEEETrans. System,Man,Cybernetics,9(1):62[19] Adam Paszke等人Pytorch:一个命令式风格的高性能深度学习库。神经信息处理系统进展32,第80242019年。[20] J.L. Pech-Pacheco,G. Cristobal,J.查莫罗-马丁内斯和J. Fernandez-Valdivia明场显微镜中的硅藻自动聚焦:比较研究。第15届国际模式识别会议论文集。ICPR-2000,第3卷,第314-317页,第3卷,2000年。[21] Said Pertuz,Domenec Puig,and Miguel Angel Garcia.分 析 焦 点 形 状 的 焦 点 测 量 算 子 。 Pat-ternRecognition,46(5):1415[22] Prasun Roy、Saumik Bhattacharya、Subhankar Gosh和Umapada Pal。Stefann:使用字体自适应神经网络的场景文本编辑器。在IEEE Conf. Comput.目视模式识别,2020年。[23] Osman Tursun、Rui Zeng、Simon Denman、SabesanSiva- palan 、 Sridha Sridharan 和 Clinton Fookes 。Mtrnet:通用场景文本橡皮擦。在2019年的国际文件分析和识别会议(ICDAR)上[24] Wenhai Wang,Enze Xie,Xiang Li,Tong Lu,GangYu,and Shuai Shao.基于渐进尺度扩展网络的形状鲁棒文本检测。 在IEEE会议Comput. 目视模式识别,2019年。[25] 周旺,A.C. Bovik,H.R. Sheikh和E.P.西蒙切利图像质量评估:从错误可见性到结构相似性。 IEEE Trans.图像处理。,13(4):600[26] 吴亮,张成全,刘嘉明,韩俊宇,刘敬拓,丁二瑞,白翔.在野外编辑文本。ACM国际会议多媒体,2019年。[27] Qingbo Wu,Rui Ma,King Ngi Ngan,Hongliang Li,and Fanman Meng.通过深度辅助学习进行盲图像清晰度评估和增强。参加2019年国际多媒体会议和展览会[28] 颜若梅和凌少。通过深度学习进行图像模糊盲估计。IEEE Trans. 图像处理。,25(4):1910[29] 杨强鹏,黄军,林伟。Swaptext:场景中基于图像的文本传输。在IEEE Conf. Comput.目视模式识别,2020年。[30] Shuai Yang , Jiaying Liu , Zhouhui Lian , andZongming Guo.令人惊叹的排版:基于统计的文本效果传输。在IEEE Conf. Comput.目视模式识别,2017年。[31] 杨怀,刘佳英,王文静,郭宗明。Tet-gan:文本效果通过风格化和去风格化传递在AAAI,2019年。[32] Shuai Yang,Zhangyang Wang,Zhaowen Wang,NingXu,Jiaying Liu,and Zongming Guo.通过形状匹配gan的可控艺术文本风格转移。在国际会议计算中目视,2019年。[33] Fangneng Zhan,Hongyuan Zhu,and Shijian Lu.场景文 本 合 成 , 实 现 高 效 的 深 度 网 络 训 练 。 Arxiv1901.09193,2019。14559[34] Fangneng Zhan,Hongyuan Zhu,and Shijian Lu. 用于图像合成的空间融合gan。 在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。[35] 张友建Stephen J.Maybank和大成陶。用于动态模糊估计的自监督曝光轨迹恢复Arxiv 2010.02484,2020。[36] 周新余、丛瑶、何文、王玉芝
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功