没有合适的资源?快使用搜索试试~ 我知道了~
14700SwapText:基于图像的场景文本传输杨强鹏,黄军,林伟阿里巴巴集团yqp0424@gmail.com,huangjun. alibaba-inc.com,weilin. alibaba-inc.com图1.场景文本图像中的任意文本样式转换。(左)我们的模型学习在多语言之间执行不同的翻译。(右)风格引导转移摘要由于不同因素之间的复杂相互作用,在场景图像中交换文本同时保留原始字体、颜色、大小和背景纹理是一项具有在这项工作中,我们提出了SwapText,一个三阶段的框架,跨场景图像传输文本。首先,提出了一种新的文本交换网络,仅在前景图像中替换文本标签。其次,学习背景完成网络来重建背景图像。最后,将生成的前景图像和背景使用所提出的框架,我们可以操纵输入图像的文本,即使有严重的几何失真。定性和定量的结果给出了几个场景文本数据集,包括规则和不规则的文本数据集。我们进行了大量的实验,以证明我们的方法的有用性,如基于图像的文本翻译,文本图像合成等。1. 介绍想象一下,能够交换场景图像中的文本,同时保持原始字体,颜色,大小和背景纹理,几秒钟内就能完成,无需数小时的图像编辑。在这项工作中,我们的目标是实现这一目标的算法,自动替换场景图像中的文字。文本交换的核心挑战在于生成视觉上真实的文本并保持与原文的连贯风格。文本交换或文本替换在许多场景中是相关的,包括文本检测、文本识别、海报中的文本传输和其他创意应用。对于文本检测和识别任务,文本交换是一种非常有用的数据增强方法。深度神经网络(DNN)在各种计算机视觉任务中取得了巨大的成功,获得大量带注释的训练图像已成为训练DNN模型的瓶颈。最简单和最广泛使用的方法是通过平移、旋转和翻转等几何变换来增强训练图像。最近,已经提出了基于图像合成的方法[11,7,39]来训练文本检测和识别模型。这些方法通过结合不同的渲染技术对光和能量的物理行为进行建模来从无文本图像创建新图像。然而,合成图像与场景中的图像并不完全一致,这在将合成图像应用于训练DNN模型时至关重要。14701近年来,许多图像生成模型,如生成对抗网络(GAN)[6],可变自编码器(VAE)[17]和自回归模型[25],为逼真的图像生成任务提供了强大的工具。在[9,38,33]中,GAN用于图像完成,为缺失区域生成视觉上逼真和语义上合理的像素[21,8,28,22]已经利用这些网络来生成具有不同姿势或服装的新颖人物基 于 GAN , 我 们 提 出 了 一 个 统 一 的 框 架 Swap-Text,用于场景中的文本交换。在图1中可以看到一些示例。我们采用分而治之的策略,将问题分解为三个子网络,即文本交换网络、背景补全网络和融合网络。在文本交换网络中,内容图像和风格图像的特征被同时提取,然后通过自注意网络组合。为了更好地学习内容图像的表示,我们使用一个内容形状变换网络(CDN)来根据样式图像的几何属性对内容图像进行根据我们的实验,这种转换过程显着提高了图像生成,特别是对透视和弯曲的图像。然后,使用背景补全网络生成风格图像的背景图像。因为我们需要删除样式图像中的原始文本笔划像素,并根据内容图像填充适当的纹理。最后,将文本交换网络和背景补全网络的输出输入融合网络,以生成更真实、语义更连贯的图像。整个框架是端到端可训练的,在几个公共基准上的广泛实验表明了其在有效性和效率方面的优越性。我们的贡献总结如下:• 我们设计了一个端到端的框架Swap- Text,它包含三个子网络,文本交换-ping网络、后台补全网络和融合网络。• 我们提出了一种新颖的文本交换网络,替换场景文本图像中的文本,同时保持原始风格。• 我们证明了我们的方法的有效性,场景文本交换与高质量的视觉效果,也显示了其应用到文本图像合成,基于图像的文本翻译等。2. 相关工作文本图像合成图像合成在计算机图形学研究中得到了广泛的研究[4]。文本图像合成是一种数据增强方法用于训练准确和鲁棒的DNN模型。例如,Jaderbergetal. [11]使用文字产生器来产生合成文字图像以进行文字辨识工作。Gupta等人[7]开发一个强大的引擎来生成合成文本图像,用于文本检测和识别任务。文本图像合成的目标是在背景图像中的语义敏感区域插入文本。影响合成文本图像真实感的因素很多,如文本大小、文本透视、环境光照等。在[39]中,Zhanet al.通过结合语义连贯、视觉注意和自适应文本外观三种设计,实现逼真的文本图像虽然文本图像合成在视觉上是真实的,但合成图像与真实图像之间存在许多差异。例如,与真实图像相比,合成图像中的文本和背景图像的字体非常有限。最近,基于GAN的图像合成技术得到了进一步的探索。在[41]中,Zhanet al.提出了一种空间融合GAN,它结合了几何合成器和外观合成器,以实现几何和外观空间的合成真实感。Yang等[36]采用双向形状匹配框架,通过一个可调的参数来控制图像的关键风格度。GA-DAN [40]提出了一项有趣的工作,能够同时在几何空间和外观空间中对跨域移动进行建模。 在[2]中,MC-GAN被提出用于从A到Z的字母Wu等[34]提出了一个端到端的可训练风格保持网络来编辑自然图像中的文本。随着生成模型的巨大成功,如GAN [6],VAE [17]和自回归模型[25],逼真和清晰的图像生成最近越来越受到关注。传统的生成模型使用GAN [6]或VAE [17]将噪声z生成的分布映射到真实数据的分布。例如,GAN [6]用于生成真实的人脸[37,3,15]和鸟类[29]。为了控制生成的结果,Mirzaet al. [23]提出的条件GAN。它们生成以类标签为条件的MNIST数字在[12]中,karacanet al.基于语义布局和场景属性(例如白天-夜晚、晴天-有雾)生成真实的室外场景图像Lassner等人[19]基于细粒度的身体和衣服片段生成穿着衣服的人的全身图像完整模型可以根据姿势、形状或颜色进行调整。Ma等人[21,22]基于图像和姿势生成人物图像。在[18]中提出了快速面部交换,以将输入身份转换为目标身份,同时保留姿势,面部表情和照明。14702图2.我们提出的方法的框架。它包含三个子网:文本交换网络、背景完成和融合网络。最近,基于GAN的方法已经成为图像完成的一个有前途的范例。Iizuka等人[9]建议使用全局和局部判别器作为对抗性损失,其中全局和局部一致性都被强制执行。Yu等人[38]使用上下文关注层来明确关注在遥远空间位置处的相关特征Wang等人[33]采用多列网络并行生成不同的图像分量,并采用隐式多样化MRF正则化增强局部细节。3. 方法给定一个场景文本图像Is∈RH×W×3,我们的目标是在保持原始风格的情况下,基于内容图像Ic∈RH×W×3如图所示-在图2中,我们的框架由文本交换网络、背景补全网络和融合网络组成。文本交换网络首先从Is中提取风格特征,从Ic中提取内容特征,然后通过自注意网络将这两个特征结合起来。为了学习更好的内容表示,我们使用内容形状变换网络(CSTO)根据样式图像Is的几何属性来变换内容图像Ic。背景补全网络用于重建样式图像Is的原始背景图像Ib。最后,将文本交换网络和背景补全网络的输出通过融合网络进行融合,生成最终的文本图像。3.1. 文本交换网络真实场景中的文本实例具有不同的形状,例如呈水平、定向或弯曲形式。文本交换网络的主要目的是替换样式图像的内容,同时保持原始样式,尤其是文本形状。为了提高不规则文本图像生成 的 性 能 , 我 们 提 出 了 一 个 内 容 形 状 转 换 网 络(CXN),以映射到相同的几何形状的样式图像的内容图像。然后通过3个下采样卷积层和几个残差块对风格图像和变换后的内容图像进行编码为了将风格和内容特征充分结合起来,我们将它们输入一个自我注意力网络。对于解码,使用3个上采样去卷积层来生成前景图像If。3.1.1内容形状转换网络文本形状的定义是内容形状转换的关键。受文本检测[20]和文本识别[35]领域中文本形状定义的启发,文本的几何属性可以用2K个基准点P={p1,p2,..., p2 K},如图3所示。图3.文本形状定义的插图。一个文本实例可以看作是一个有序的字符序列T={C1,.,Ci,. C n},其中n是字符数。每个字符Ci都有一个边界框Bi,该边界框B i用自由形式的四边形进行注释。首先,我们构造两个中心点列表Ctop ={CT头,CT1,.,Ct n,Ct tail}和Cbottom ={Cb头,Cb1,.,C bn,C btail},其中包含顶部每个Bi的中心和底部中心。 然后我们平均在C顶部和C底部中间隔采样K个基准点。为14703不在C顶部或C底部的点,则值与两个最近的中心点线性内插。通过这种方式,文本实例的形状由基准点精确地描述在我们的实验中,K被设置为5。为了产生输入样式图像的文本形状,我们采用了一个轻量级的预测器,它与样式图像编码器共享下采样卷积层,如图所示。在图2中显示。该预测器的输出为P={p1,p2,. p<$2K},表示几何属性的输入图像。我们采用光滑L1损失作为该预测器的损失函数,(a) 自我关注网络。1LP=2K200万i=1smoothL1(pi−pi),(1)根据样式图像的几何属性,通过薄板样条(TPS)模块对内容图像进行变换。转换过程如图4所示图4.内容图像的形状变换过程。3.1.2自我注意网络在对内容和风格图像进行编码之后,我们将这两个特征映射馈送到自注意网络,该网络自动学习内容特征映射Fc和风格特征映射Fs之间的对应关系。输出的特征图是Fcs,自我注意力网络的架构如图5(a)内容特征Fc和风格特征Fs首先沿着它们的深度轴连接。然后,我们遵循[42]中类似的自注意机制来产生输出特征图Fcs。我们采用L1损失作为我们的文本交换网络损失函数,如下所示,(b)多层次风格化。图5.自我注意网络的结构。(a)自我关注网络。(b)多层次的自我关注。在最终图像生成中发挥重要作用。为了生成更逼真的文字图像,我们使用背景完成网络来重建背景图像,其架构如表1所示。大多数现有的图像完成方法通过从周围区域借用或复制纹理来该模型遵循编码器-解码器结构,在编码器后使用扩张卷积层计算输入面积较大的输出像素,通过在较低分辨率下使用扩张卷积,该模型可以有效地同时考虑L1损失和GAN损失,对背景完备网络进行了优化我们使用G b和D b来表示背景生成器和噪声,背景生成的总损失如下,¨ ¨ˆLswap=<$Gswap(Is,It)−Ist<$1,(2)LB=E[logDb(Ib,Is)+log(1−Db(Ib,Is))]+¨ˆ ¨(三)其中Gswap表示文本交换网络,并且Ist是文本交换网络的基础真值除了这种单级风格化之外,我们还开发了多级风格化流水线,如图5(b)所示。我们将自注意力网络依次应用于多个特征层,以生成更逼真的图像。3.2. 后台完成网络文本交换网络主要集中在前台图像的生成,而后台图像也λb<$Ib−Ib<$1,其中Ib和Ib是地面实况和预测的背景图像。λb是平衡因子,在我们的实验中设定为10。3.3. 融合网络在这一阶段,文本交换网络和背景完成网络的输出融合,以生成完整的文本图像。如图所示的管道14704.表1.后台补全网络的体系结构感知损失和风格损失,如下所述,Lvgg=λ1Lper+λ2LstyleΣ¨ˆ¨Lper=E[<$φi(It) −φi(It)<$1]我(五)¨φφ ˆ¨Lstyle=Ej[<$Gj(It) −Gj(It)<$1],其中φi是VGG-19模型的从relu1 1到relu5 1层的激活图。 G是Gram矩阵。 λ1和 λ2分别为平衡因子整个框架的损失函数为:L=LP+Lswap+LB+LF+Lvgg(6)4. 实验4.1. 实现细节我们遵循[34]中类似的想法来生成具有相同风格的成对合成图像。我们使用超过1500种字体和10000张背景图片来生成总共100万张训练图片和10000张测试图片。输入IM-2 2年龄大小调整为64×256,批量大小为32。所有权重从零均值正态分布初始化标准偏差为0。01亚当优化器[16],β1= 0。9和β2=0。999用于优化2 2整个框架。 学习率设置为00001训练阶段。我们在十条原则下实施我们的模式sorFlow框架[1]。我们方法的大部分模块是3×311×164GPU加速2 2输出3×311×1 3在图2中,融合网络遵循编码器-解码器体系结构。与[34]类似,我们将背景完成网络的解码特征图连接到融合解码器的上采样阶段中具有相同分辨率的相应特征图我们用Gfuse和Dfuse分别表示生成器和网络。融合网络的损失函数可以用公式表示如下,LF=E[logDfuse(It,Ic)+log(1−Dfuse(It,Ic))]+¨ˆ ¨基准数据集。IIIT 5 K-Words[24](IIIT 5 K)包含3000个用于测试的裁剪单词图像,而每个图像都被分配了一个50单词的词典和一个1 k单词的词典。所有图片均来自互联网。街景文本[32](SVT)是从谷歌街景收集的,在测试集中包含647张图像。许多图像被噪声和模糊严重破坏,或者分辨率很低。每个图像与50个单词的词典相关联。ICDAR2013[14] ( IC13 ) 来 自 RobustReadingChaallenges 2013。我们遵循[32]提出的协议,其中图像包含非字母数字字符或不包含少于三个字符的考虑在内。过滤样本后,数据集λfuse<$I t−It<$1,(四)包含857个图像,没有任何预定义的词典。ICDAR 2015[13](IC15)比IC13更具挑战性其中,I是生成器的输出,λfuse是平衡。在我们的实验中,我们将其设置为10为了使图像更真实,我们还遵循风格传递网络的类似思想将VGG损失引入融合模块[5,26]。有两个部分的VGG损失,类型内核扩张步幅渠道conv5 ×511 ×132conv3 ×312 ×264conv3 ×311 ×164conv3 ×311 ×164conv3 ×312 ×2128conv3 ×311 ×1128conv3 ×311 ×1128conv3 ×312 ×2256conv3 ×311 ×1256conv3 ×311 ×1256扩张卷积3 ×321 ×1256扩张卷积3 ×341 ×1256扩张卷积3 ×381 ×1256代诺夫3 ×311× 1256conv3 ×311 ×1256conv3 ×311 ×1256代诺夫3 ×311× 1128conv3 ×311 ×1128conv3 ×311 ×1128conv3 ×311 ×1644.2. 基准数据集conv3 ×311 ×164我们评估我们提出的方法在几个公共14705因为大多数文字图像都存在运动模糊和低分辨率的问题。此外,许多图像包含严重的几何失真,如任意方向,透视或弯曲的文本。我们在IC13中14706SVT-Perspective[27](SVTP)包含639个用于测试的裁剪图像,这些图像是从Google街景中的侧视角快照中收集的。SVT-透视法中的大多数图像由于透视畸变而严重变形。收集CUTE80[30]用于评估弯曲文本识别。它包含288个用于测试的裁剪图像,这些图像是从自然场景中拍摄的80个高分辨率图像4.3. 评估指标我们采用图像生成中常用的指标来评估我们的方法,其中包括以下内容:• MSE,也称为l2误差。• PSNR,计算峰值信号与噪声的比率。• SSIM,计算两幅图像• 文本识别精度,我们使用文本识别模型CRNN [31]来评估生成的图像。• 文本检测精度,我们使用文本检测模型EAST [43]来评估生成的图像。较低的l2误差或较高的SSIM和PSNR意味着结果与地面实况相似。4.4. 消融研究在本节中,我们实证研究了不同模型设置如何影响我们提出的框架的性能。我们的研究主要集中在这些方面:内容形状变换网络、自注意网络和背景完成网络中的扩张卷积。一些定性结果见图6图6.消融研究的一些结果。内容形状变换网络(Contentsheltransformationnetwork,简称CSTN)是根据风格图像的几何属性对内容图像进行变换的网络。这对于真实世界图像中的文本样式转换至关重要,因为-10的场景文本图像包含严重的几何失真,例如任意定向、透视或弯曲形式。通过Ctrans,可以实现内容图像和风格图像之间几何属性虽然整个模型很难在真实图像上训练,但Cynomial可以在真实数据集上进行如图6所示,生成的文本的位置更合理。CSNR的定量结果如表2所示,PSNR增加超过0的情况。35和SSIM增加了0. 平均017自注意网络自注意网络用于充分结合内容特征和风格特征。根据表2,使用单水平自我注意网络,平均l2误差减少约0。003,平均PSNR增加约0。3,平均SSIM增加约0. 012为了更好地利用风格和内容特征的全局统计信息,我们采用了一个多层次的自注意网络来融合全局和局部特征。采用多级自注意网络,改进了所有的评价指标。扩张卷积层可以扩大像素区域来重建背景图像,因此,更容易生成更高质量的图像。根据表2,具有扩张卷积层的背景补全网络在所有度量上具有更好的性能。表2.合成测试数据集的定量结果方法英语中国L2PSNRSSIML2PSNRSSIMpix2pix [10]SRNet [34]0.09530.047212.3214.910.5510.62130.115310.051210.0914.770.35230.5719不含咖啡因0.043615.220.63750.046314.980.5903不含SA0.042115.310.64010.045915.020.5987不带DilatedConv0.040215.230.64790.043215.150.6032SwapText(单个)0.039715.530.65230.042215.380.6112SwapText(多)0.038116.040.66210.042015.460.61894.5. 与之前工作的为了评估我们提出的方法,我们将其与两种类型的文本交换方法进行了比较:[10]中提出的pix2pix和Wu等人提出的SRNet。[34]。我们使用生成的数据集来训练和测试这两个模型。根据论文,这两种方法保持相同的配置。14707定量结果在表2中,我们给出了我们的方法和其他两种竞争方法的一些定量结果。显然,我们提出的方法对不同语言的所有指标都有显着的改进。平均l2误差降低了0. 009,平均峰值信噪比提高了0. 9,平均SSIM增加了0. 比第二好的方法好为了进一步评估生成图像的质量,我们建议在生成的图像上使用文本识别和检测精度。我们使用文本识别模型CRNN来评估我们在SVT-P,IC13和IC 15数据集上生成的图像。CRNN模型在这些数据集上的训练图像的混合上进行训练,并且识别准确度在表3中呈现在IC13上,识别准确率甚至高于真实测试集。我们使用EAST的改编版本[43]来检测图像中的文 本 。 由 于 原 始 EAST 的 实 现 不 可 用 , 我 们 使 用ResNet-50骨干的公共实现1。我们替换IC13和IC15测试集图像中的文本,然后使用在IC13和IC15训练数据集上训练的模型评估生成的数据集。根据表4所示的比较结果,生成的IC 13和IC 15测试集的F测量值为78。4%,80。2%,接近真实测试集上的度量。这表明我们的框架生成的图像非常逼真,甚至可以欺骗文本检测模型。表3.比较真实图像和生成图像的文本识别准确性日期集SVT-PIC13IC15房54.368.055.2pix2pix22.134.725.8SRNet48.766.850.2生成54.168.354.9表4. IC13和IC15数据集上真实数据和生成数据之间的文本检测准确性比较。测试集IC13IC15RPFRPF房74.584.079.077.384.680.8pix2pix66.480.772.871.879.375.3SRNet70.482.976.174.282.578.1SwapText73.983.578.476.884.180.24.6. 基于图像的文本翻译基于图像的翻译是任意文本风格转换的重要应用之一。本节我们1https://github.com/argman/EAST展示了一些基于图像的翻译示例,如图7所示。我们进行英汉互译。根据实验结果,我们可以发现,无论目标语言是中文还是英文,都能很好地保持颜色、几何变形和背景纹理,并且字符结构与输入文本一致。图7.基于图像的翻译示例。(左)输入图像。(右)翻译结果。图8.失败案例。(上)波浪形文字。(下)艺术字。在图9中,我们还展示了我们的模型在场景文本数据集上评估的一些示例结果。根据图9,我们的模型可以替换输入图像中的文本,同时保持原始字体、颜色、大小和背景纹理。4.7. 限制我们的方法有以下局限性。由于训练数据量有限,几何属性空间和字体空间没有得到充分利用。我们提出的方法失败时,风格图像中的文字是波浪形的,见图- ure 8(顶部)。图8(底部)显示了一个使用艺术字的样式图像失败的案例5. 结论在这项研究中,我们提出了一个强大的场景文本交换框架SwapText,以解决一个新的任务,14708(a) 在IC15数据集上生成图像。(b) 在IC17数据集上生成图像。图9.在场景文本数据集上生成图像左边的图像是原始图像,而右边的是生成的图像。场景文本图像中的文本通过预期文本。我们采用分而治之的策略,将问题分解为三个子网络,即文本交换网络、背景补全网络和融合网络。在文本交换网络中,内容图像和风格图像的特征被同时提取,然后通过自注意网络组合。为了更好地学习内容图像的表示方法,我们使用内容形状变换网络(Content ShapeTransformation Network,简称CX)根据样式图像的几何属性然后,使用背景补全网络生成风格图像的背景图像最后,将文本交换网络和背景补全网络的输出在多个公共场景文本数据集上的定性和定量结果表明了该方法的优越性.在以后的工作中,我们将探索如何根据字体和颜色生成更14709引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:A大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会({OSDI}16)中,第265-283页[2] Samaneh Azadi , Matthew Fisher , Vladimir G Kim ,ZhaowenWang,Eli Shechtman,and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE计算机视觉和模式识别会议集,第7564-7573页[3] David Berthelot Thomas Schumm 和 Luke Metz 。 Be-gan:边界平衡生成对抗网络。arXiv:Learning,2017.[4] 保罗·德贝维克将合成对象渲染到真实场景中:通过全局照明和高动态范围摄影将传统图形和基于图像的图形连 接 起 来 。 ACM SIGGRAPH 2008 课 程 , 第 32 页 。ACM,2008年。[5] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换第2414-2423页[6] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[7] Ankush Gupta,Andrea Vedaldi,Andrew Zisserman.用于自然图像中的文本定位的合成数据在IEEE计算机视觉和模式识别会议的Proceedings中,第2315-2324页[8] Xintong Han,Zuxuan Wu,Zhe Wu,Ruichi Yu,andLarry S Davis.Viton:一个基于图像的虚拟试穿网络。在IEEE计算机视觉和模式识别会议论文集,第7543-7552页[9] Satoshi Iizuka,Edgar Simo-Serra,and Hiroshi Ishikawa.全局和局部 一致的图像完成。ACM Transactions onGraphics(ToG),36(4):107,2017。[10] Phillip Isola,Junyan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv:计算机视觉和模式识别,2016。[11] 马克斯·贾德伯格,凯伦·西蒙尼安,安德里亚·维达尔迪,和安德鲁·齐瑟曼.自然景物文本识别的合成数据和人工神经网络。arXiv预印本arXiv:1406.2227,2014。[12] Levent Karacan ,Zeynep Akata , Aykut Erdem 和 ErkutErdem。学习从属性和语义布局生成户外场景的图像。arXiv:计算机视觉和模式识别,2016。[13] Dimosthenis Karatzas , Lluis Gomezbigorda , AnguelosNicolaou , Suman K Ghosh , Andrew D Bagdanov ,Masakazu Iwamura,Jiri Matas,Lukas Neumann,VijayRamaseshan Bagrasekhar,Shijian Lu,et al. Icdar 2015稳健阅读竞赛。第1156-1160页[14] Dimosthenis Karatzas,Faisal Shafait,Seiichi Uchida,Masakazu Iwamura , Lluis Gomez I Bigorda , SergiRoblesMestre , Joan Mas , David Fernandez Mota , JonAlmazan,and Lluis Pere De Las Heras.Icdar 2013稳健阅读竞赛。第1484-1493页[15] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。2018年学习代表国际会议[16] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[17] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[18] Iryna Korshunova , Wenzhe Shi , Joni Dambre , andLucas Theis.使用卷积神经网络的快速换脸。国际计算机视觉会议,第3697- 3705页[19] Christoph Lassner,Gerard Ponsmoll,and Peter V Gehler.穿着衣服的人的生成模型。计算机视觉国际会议,第853-862页[20] Shangbang Long , Jiqiang Ruan , Wenjie Zhang , XinHe,Wenhao Wu,and Cong Yao. Textsnake:一个灵活的表示,用于检测任意形状的文本第19[21] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统,第406[22] Liqian Ma,Qianru Sun,Stamatios Georgoulis,Luc VanGool,Bernt Schiele,and Mario Fritz.分解的人物形象生成。在IEEE计算机视觉和模式识别会议论文集,第99-108页[23] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv:Learning,2014.[24] Anand Mishra、Karteek Alahari和CV Jawahar。使用高阶 语 言 先 验 的 场 景 在 BMVC- 英 国 机 器 视 觉 会 议 。BMVA,2012年。[25] Aaron van den Oord 、 Nal Kalchbrenner 和 KorayKavukcuoglu。像素递归神经网络。arXiv预印本arXiv:1601.06759,2016。[26] Dae Young Park和Kwang Hee Lee使用风格注意网络的任意风格CoRR,cs.CV,2018年。[27] TrungQuyPhan , PalaiahnakoteShivakumara ,Shangxuan Tian,and Chew Lim Tan.在自然场景中识别具 有 透 视 失 真 的 文 本 在 Proceedings of the IEEEInternational Conference on Computer Vision,第569[28] Amit Raj , Patsorn Sangkloy , Huiwen Chang , JamesHays,Duygu Ceylan,and Jingwan Lu. Swapnet:基于图像的图像传输。欧洲计算机视觉会议,第679-695页Springer,2018.[29] Scott E Reed,Zeynep Akata,Xinchen Yan,LajanugenLo- geswaran,Bernt Schiele,and Honglak Lee.生成对抗性文本到图像合成。国际机器学习会议,第1060-1069页[30] Anhar Risnumawan 、Palaiahankote Shivakumara 、 CheeSeng Chan和Chew Lim Tan。一种鲁棒的任意文本检测方法14710用于 自然 场景 图像 的系 统。 专家 系统 与应 用,41(18):8027[31] 石宝光、向白、丛瑶。基于图像序列识别的端到端可训练神 经网 络及其 在场 景文本 识别 中的应 用。 IEEEtransactionsonpatternanalysisandmachineintelligence,39(11):2298[32] Kai Wang,Boris Babenko,and Serge Belongie.端到端场景文本识别。计算机视觉(ICCV),2011年IEEE国际会议,第1457IEEE,2011年。[33] Yi Wang,Xin Tao,Xiaojuan Qi,Xiaoyong Shen,andJiaya Jia.通过生成式多列卷积神经网络进行图像修复。神经信息处理系统的进展,第329-338页,2018年[34] 吴亮,张成全,刘嘉明,韩俊宇,刘敬拓,丁二瑞,白翔.在野外编辑文本arXiv.org,Aug. 2019年。[35] Mingkun Yang,Yushuo Guan,Minghui Liao,Xin He,Kaigui Bian,Song Bai,Cong Yao,and Xiang Bai.用于场景文本识别的对称约束校正网络CoRR,cs.CV,2019年。[36] Shuai Yang,Zhangyang Wang,Zhaowen Wang,NingXu,Jiaying Liu,and Zongming Guo.基于形状匹配GAN的可控艺术文本风格转换。arXiv.org,2019年5月。[37] Xiang Yu,Xiang Yu,Kihyuk Sohn,Xiaoming Liu,and Man-mohan Chandraker.向野外大摆脸的正面化。计算机视觉国际会议,第4010-4019页[38] Jiahui Yu,Zhe Lin,Jimei Yang,Xiaohui Shen,XinLu,and Thomas S Huang.具有上下文关注的生成式图像修复。在IEEE计算机视觉和模式识别会议论文集,第5505- 5514页[39] 方能展、卢世健、薛楚辉。Verisimilike图像合成,用于准确检测和识别场景中的文本。在欧洲计算机视觉会议(ECCV)的会议记录中,第249-266页[40] 方能展,薛楚辉,卢世建。Ga-dan:Geometry-awaredomain adaptation network for scene text detection andrecognition.在IEEE国际计算机视觉会议论文集,第9105[41] Fangneng Zhan,Hongyuan Zhu,and Shijian Lu.用于图像合成的空间融合gan。第3653-3662页[42] 张涵,伊恩·古德费洛,迪米特里斯·N·梅塔克萨斯,和奥古图斯·奥德纳.自我注意生成对抗网络。arXiv:机器学习,2018。[43] 周新余、丛瑶、何文、王玉芝、周舒昌、何蔚然、梁佳俊。East:一个高效准确的场景文本检测器。计算机视觉和模式识别,第2642-2651页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功