没有合适的资源?快使用搜索试试~ 我知道了~
13228STEFANN:使用字体自适应神经网络的场景文本编辑器Prasun Roy1岁,Saumik Bhattacharya2岁,Subhankar Ghosh1岁,Umapada1岁,印度统计研究所,印度2印度理工学院,印度Kharagpurhttps://prasunroy.github.io/stefann摘要场景中的文本信息在场景解释和决策中起着重要的作用。虽然存在可以成功地检测和解释场景中存在的复杂文本区域的方法,但据我们所知,还没有旨在修改图像中的文本信息的重要先前工作。直接在图像上编辑文本的能力有几个优点,包括纠错,文本恢复和图像可重用性。在本文中,我们提出了一种方法来修改文本在图像中的字符级。我们分两个阶段处理这个问题。首先,未观察到的字符(目标)是从被修改的观察到的字符(源)生成的。我们提出了两种不同的神经网络体系结构接下来,我们用生成的字符替换源字符,与相邻字符保持几何和视觉一致性。我们的方法可以作为一个统一的平台来修改图像中的文本。我们提出了我们的方法的有效性COCO-Text和ICDAR数据集定性和定量。1. 介绍文本广泛存在于各种设计和场景图像中。它为读者提供了重要的上下文信息。然而,如果需要对图像中存在的文本进行任何更改,则由于几个原因变得非常困难。例如,有限数量的观察字符使得难以生成具有足够视觉一致性的未观察此外,不同的自然条件,如亮度、对比度、阴影、透视失真、复杂背景等,使直接在图像中替换字符这项工作的主要动机是设计一种算法,用于编辑图像中存在的文本信息,其方式类似于[2]这些作者对这项工作的贡献是相等的(a)(b)第(1)款图1.使用STEFANN进行文本编辑的示例:(a)来自ICDAR数据集的原始图像;(b)编辑图像。可以观察到,STEFANN可以编辑文本区域中的单词(顶行)中的多个字符以及整个单词(底行)。传统的文本编辑器。早些时候,研究人员提出了基于字体不同几何特征的字体合成算法[6,24,27]。这些几何模型既不能概括各种各样的可用字体,也不能直接应用于图像进行字符合成。后来,研究人员已经解决了使用深度学习算法从一些定义的或随机的观察集生成特定字体的未观 察字 符 的 问题 [4 , 7 , 31] 。 随着 生 成 对抗 网 络(GAN)模型的出现,使用基于GAN的算法也解决了字符合成问题[2,19]。虽然基于GAN的字体合成可以用于估计目标字符,但一些挑战使得直接实现场景图像的字体合成变得困难。首先,大多数基于GAN的字体合成模型需要显式识别源字符。由于识别场景图像中的文本本身是一个具有挑战性的问题,因此优选的是,如果可以生成目标字符,而不需要13229识别步骤。否则,识别过程中的任何错误都会累积,并使整个文本编辑过程不稳定。其次,经常观察到,图像中的特定单词可以具有不同字体类型、大小、颜色等的混合。即使取决于相机和场景中的文本的相对位置,每个角色也可能经历不同量的透视失真。一些基于GAN的模型[2,19]需要对字体类型进行多次观察 , 以 忠 实 地 生 成 未 观 察 到 的 字 符 。 A multipleobservation-based gen- eration strategy requires a rigorousdistortionremovalstepbeforeapplyinggenerativealgorithms.因此,而不是一个字级的生成,我们遵循字符级的生成模型,以适应最大的灵活性。贡献:据我们所知,这是第一个试图修改场景图像中的文本的工作为此,我们设计了一个生成网络,该网络适应单个字符的字体特征,并生成其他字符。必要的特征。我们还提出了一个模型,将源字符的颜色转移到目标字符。整个过程在没有任何显式字符识别的情况下工作。为了限制我们的问题的复杂性,我们将我们的讨论限制在具有大写非重叠字符的场景文本。然而,我们在图中证明。5和13中,所提出的方法也可以应用于小写字符和数字。2. 相关作品由于其巨大的潜力,从几个例子的字符合成是一个众所周知的问题。在此之前,有几项工作试图使用字体的几何建模来解决这个问题[6,24,27]。不同的合成模型也提出了明确的研究人员中文字体生成[19,37]。与统计模型[24]和双线性因子分解[30]一起,机器学习算法用于转移字体特征。近年来,深度学习技术在字体合成问题上也开始流行.观察的监督[31]和确定样本[4]用于使用深度神经架构生成未知样本。近年来,生成式广告网络(GAN)模型被发现在不同的图像合成问题中是有效的。GAN可以用于图像风格转换[10],结构生成[13]或两者[2]。这些算法中的一些在生成字体结构方面取得了有希望的结果[7,19],而一些则显示出生成具有颜色的复杂字体的潜力[2]。据我们所知,这些生成式算法与使用设计软件产生的文本图像一起工作,并且它们对编辑真实场景图像的适用性是未知的。此外,大多数算法[2,4]需要显式识别源字符以生成不可见字符集。这可能会给我们的问题带来困难LEM作为场景图像中的文本识别本身是一个复杂的问题[3,11,21],并且识别步骤中的任何错误都从多个观察中生成字符对于场景图像也是具有挑战性的,因为观察到的字符可能具有明显不同的特征,如字体类型、大小、颜色、透视失真等。卷积神经网络(CNN)被证明在生成模型的风格转换中是有效的[10,17,18]。最近,CNN模型用于生成具有不同视觉特征的风格和结构[9]。我们提出了一个基于CNN的字符生成网络,该网络无需对源字符进行任何显式识别。对于外观自然的生成,将源角色的颜色和纹理转移到生成的角色也很重要。颜色传递是图像处理中广泛探索的主题[25,28,35]。虽然这些传统的方法可以很好地传递图像中的全局颜色,但它们中的大多数都不适合传递更局部化的字符区域的颜色最近,GAN也被用于颜色传递问题[2,16]。在这项工作中,我们引入了一个基于CNN的颜色传输模型,采取的颜色信息,形成目前在源字符,并将其转移到生成的目标字符。提出的颜色传递模型不仅可以将源字符的纯色传递到目标字符,还可以传递渐变颜色,保持细微的视觉一致性。3. 方法所提出的方法由以下步骤组成:(1)选择要替换的源字符,(2)二进制目标字符的生成,(3)颜色转移和(4)字符放置。在第一步中,我们手动选择需要修改的文本区域。然后,该算法在选定的文本区域中检测每个字符的边界框。接下来,我们手动选择要修改的字符周围的边界框,并指定目标字符。基于这些用户输入,目标字符被生成、着色并放置在源字符的修补区域中。3.1. 源字符让我们假设I是一个有多个文本区域的图像,而R2是需要修改的文本区域的域。可以使用任何文本检测算法[5,20,36]来选择区域标签或者,用户可以选择一个多边形的角点,界定一个词,以界定字母。在这项工作中,我们使用EAST [38]来尝试标记文本区域,然后手动选择四边形角来定义文本区域。选择文本区域后,我们应用MSER算法[8]来检测区域中存在的单个字符的二进制掩码。然而,单独的MSER不能为大多数人产生清晰的掩模。13230图2.FANnet和Colornet的架构首先,通过保持结构一致性的FANnet从源字符(“H”)生成目标字符然后,通过Colornet将源颜色传递到目标,保持视觉一致性。图中的层名称为:conv = 2D卷积,FC =全连接,up-conv =上采样+卷积。(一)(b)第(1)款(c)第(1)款(d)其他事项图4. Color transfer using Colornet: (a) Binary target charac- ter;(b) Color source character; (c) Ground truth; (d) Color trans-ferred image.可以观察到,Colornet可以成功地传输纯色以及渐变色。图3.使用FANnet生成目标字符。在每个图像块中,上一行显示了地面实况,下一行显示了当网络在每种情况下观察到一个特定源字符(“A”)时生成的字符字符. 因此,我们计算最终的二值化图像Ic定义为它们所连接的区域。用户指定他们希望编辑的索引。我们将Θ定义为需要修改的索引的集合,使得|Θ|≤N,其中|. | denotes the cardinality of a set. 二值化图像ICθ与分量Cθ,θ∈Θ相关的是源字符,并且在适当的填充之后进行缩放(dis-padding),在SEC中被诅咒3.2),它们单独地充当字体生成网络的输入。每个ICθ与边界框Bθ具有相同的维度。3.2. 二进制目标字符.传统上,大多数神经网络采用平方I(p)=IM(p)I B(p)如果p∈图像作为输入。但正如我可能有不同的方面C0否则其中,IM是MSER算法[J8]在应用于I时的二值化输出表示矩阵的元素乘积 图像Ic包含所选区域中的二值化字符。如果源字符的颜色比它的背景暗,我们对I应用逆二值化以得到I B。假设字符不重叠,我们应用连通分量分析并计算最小值Cθ比例取决于源字符、字体类型、字体大小等,ICθ的直接偏移将扭曲字符的实际字体特征。相反,我们填充ICθ,保持其纵横比,以生成大小为m θ × m θ的正方形二值图像I θ,使得m θ= max(h θ,w θ),其中h θ和w θ分别是边界框B θ的高度和宽度,并且max(. )是一个数学运算,它找到最大值。我们分别用px和py填充ICθ沿x和y轴的两侧,以生成Iθ,使得每个连接组件的边界矩形。如果场景中存在N个连通分量,则Cn表示第n个连通区域,其中0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功