没有合适的资源?快使用搜索试试~ 我知道了~
19152BTS:一个用于文本分割的双语基准徐西西1,齐仲刚1*,马建奇4,张宏伦1,沈颖1,齐小虎2,31ARC Lab,2腾讯盈科;3清华大学;4香港理工大学{阿西西旭,中昂奇,洪兰章,英山,老虎切}@ tencent.com;jianqi.ma邮件connect.polyu.hk摘要文本分割作为文本擦除、文本风格转换等文本相关任务的先决条件,近年来受到越来越多的关注。目前的研究主要集中在英文字符和数字上,由于缺乏公开的大规模、高质量的中文数据集,对中文字符的研究与英语字母表有限不同,汉语的基本字多,结构复杂,这就增加了处理的难度。为了更好地分析这个问题,我们提出了双语文本分割(BTS)数据集,一个基准,涵盖了各种常见的中文场景,包括14,250个不同的和精细注释的文本图像。BTS以中文字符为主,同时也包含英文单词和数字。我们还介绍了优先引导文本分割网络(PGTSNet),第一个基线处理双语和复杂结构的文本分割。在PGTSNet中引入了文本区域高亮模块和文本感知判别器,以文本先验知识对模型进行监督,指导更稳定、更精细的文本分割。对于复杂场景下的背景噪声,还采用了变分损失法.大量的实验不仅证明了所提出的数据集BTS的必要性和优越性,而且还显示了所提出的PGTSNet与各种最先进的文本分割方法相比的有效性。1. 介绍文本分割是计算机视觉中的一个基本而重要的任务。与语义分割、实例分割等其他分割任务不同有了文本掩码,它可以应用于各种下游任务,包括用于封面生成和材质重建的场景文本移除,*通讯作者。图1. 顶部:来自建议BTS数据集的示例图像和注释。从左到右是图像、字符级边界框、单词级边界框和像素级分割掩码。左下框:定性结果。从上到下是原始图像,使用仅在英语数据集(TextSeg [66])上训练的SOTA方法(TexRNet[66])的结果,使用在TextSeg和我们的双语数据集BTS上训练的TexRNet的结果,以及使用我们提出的在TextSeg和BTS上训练的方法PGTSNet的结果。右下框:双语数据集测试集的定量结果。圆圈表示SOTA方法TextRNet;正方形表示我们提出的PGTSNet的不同变体。虚线下方的点分别是仅使用英语数据集TextSeg和使用TextSeg与合成双语数据集的结果;虚线上方的实验结果表明,对双语文本进行精细标注是必要的,这大大提高了现有SOTA方法的性能,将双语文本分割领域的整体性能提升到一个新的水平。AI设计、交互式文本图像编辑等文本分割呈现两个不同的特征。首先,由于文本的笔画和结构较松散且不一致(与对象分割不同),因此捕获单词中每个笔画的细粒度特征更具挑战性。例如,一些笔画,如字母L或上的点,19153图2.从BTS数据集中提取了几个主流场景的样本及其分割注释,包括路牌、横幅、对联、书籍封面、牌匾、商店招牌和景点。在像素级分割中,字符的顶部或字符与普通背景具有相似的特征(如方格地板或黑点)时这种情况可能会进一步恶化与中国字符。与英语单词的顺序排列不同,汉字在空间上是由笔画组合而成的,因此在汉字内部留下了不连续的切分空间其次,与通常包含多个类别的语义和实例分割不同,文本分割通常被视为二元分类问题。它将所有不同的字符都视为同一前景类别,而忽略了字符中包含的语义差异。Xu等[66]证明了利用字符先验对增强英文文本分割的重要性。然而,英语的字母表很小,而汉语的字符要基本得多(例如,3000多个),结构形式复杂如何利用文本的先验知识进行更好的切分是一个值得探讨的问题。为了获得下游任务的高质量分割,需要足够的注释良好的训练数据。然而,现代文本分割数据集和方法仍然落后。首先作为一个公共挑战引入[27],文本分割在过去几年中发展缓慢,很少有研究工作和数据集提出[6,7,13]。其中,大规模数据集是不满意的标签质量[6,7]。在更小的范围内,TextSeg[66]被提出来填补艺术设计和文本效果领域的分割空白。然而,这些数据集都只包含常见的英文字符和数字,对中文字符的研究较少,没有大规模、高质量的中文数据集,限制了文本分割的实际应用场景。为了填补上述有限字符类型的研究空白,并将文本分割扩展到支持更多场景和语言,我们提出了双语文本分割(BTS),一个新的文本分割数据集。BTS的多样性可以在三个层次上描述:(1)场景级多样性:它涵盖了常见的生活场景,包括街道标志,商店标志,牌匾,景点,书籍封面,横幅和对联;(2)图像层次的多样性:由相机捕获的设置和背景干扰(如透视,照明,分辨率,部分遮挡,模糊等)引起的外观和几何变化,总共包括14,250个精细注释的文本图像;(3)字符级多样性:字符类别的方差,多达3,985个类别,包括中文字符、英文字母、数字、常用标点符号,字体和大小各异。BTS数据集中的图像示例及其分割注释见图1和图2。从图1中可以看出,精细注释的双语数据集可以击败合成的双语数据集,大幅度提高现有SOTA方法的性能,并将双语文本分割领域的整体性能提升到一个新的水平。大多数文本分割方法继承了语义或实例分割,并执行掩码级监督,而不知道字符的全局结构信息。因此,我们转向识别模型的先验指导,以帮助模型恢复的整体结构的字符。我们提出了一种新的方法,命名为事先指导的文本分割网络(PGTSNet),以更好地处理双语文本分割与文本事先指导。在本研究中,主要贡献可归纳为四个方面:• 我们提出了BTS,这是第一个大规模的双语文本分割数据集,它超越了英语单词和数字,也包括中文字符。BTS提供了文本区域的注释、抄本和文本掩码,因此不仅可用于文本分割,而且可用于文本检测、识别和端到端文本定位。我们通过比较和分析BTS和合成数据集上训练的方法,证明了所提出的数据集BTS• 为了更好地处理不同场景中的文本分布,我们提出了一个简单而有效的模块来突出文本区域,并作为先验知识来提高文本分割性能。19154• 在文本分割中引入了一个插件式的文本识别模块作为前置监督,使得文本分割更加稳定,效果更好,特别是在大尺寸文本的分割中,其优势得到了验证。• 在文本分割任务中,我们采用了总变差损失,它在抑制环境噪声方面具有优势,并且能够监督PGT- SNet产生更平滑的掩模。2. 相关工作2.1. 语义和实例分割语义分割的目的是在图像中分配像素级标签。传统的算法利用手工制作的功能。随着卷积神经网络的发展,全卷积网络(FCN)[42]和基于它的方法[2,10,24,71]取得了令人印象深刻的性能。由于FCN的预测相对粗糙,因此设计了编码器-解码器结构[2,11,36,48,52,71]的几种变体,以通过融合多级特征来改进它。此外,引入扩张卷积来扩大感受野,以更好地捕获上下文[8为了捕获远程上下文信息,基于注意力的模型[58,62]开始流行,例如PSANet [72],DANet [18],CCNet [26]等。实例分割进一步预测每个对象实例的不同像素标签。该文献中的主要里程碑是Mask R-CNN [22],随后有许多基于它的研究[38,51]。其他主流自上而下的方法也被提出,包括[21,29,33,64]。除了这些自上而下的方法,首先定位对象边界框,然后分割其掩模,自下而上的方法[5,19,41,47,65,68]是该领域的另一个分支,其中他们首先定位关键点,然后找到边缘以及亲和力来完成分割。2.2. 文本分割数据集在大多数计算机视觉研究的发展中起着至关重要的作用,特别是在深度学习中。在早期阶段,当只有一些小的数据集可用于文本分割时,方法通常利用手工制作的[1,49]或低级特征[4,14,40],而基于马尔可夫随机场(MRF)的方法(例如,[45])被视为另一种时尚。由于缺乏足够的真实数据,提出了弱监督方法[7,46,59],试图减少合成数据和真实数据之间的域偏移,并使用合成数据增强真实世界中的模型性能近年来,利用深度学习技术开发的模型不断提升文本分割的最新技术水平。引入了基于CNN的三阶段模型[57]来检测、细化和过滤候选文本区域。SMANet采用PSPNet的编解码器结构[71]并利用多尺度注意力模块来辅助分割。TexRNet[66]结合了关键特征池和基于注意力的相似性检查,以提高分割性能。还引入了自定义的三图损失和三图判别器来辅助该任务。相互引导的网络[60]被设计为在一个分支中产生一个像素级掩码,在另一个分支中产生一个像素级文本掩码然而,大多数方法仅针对基于拉丁语的基准进行研究,而忽略了其他广泛使用的语言中的分割中国象形文字。因此,有必要为英语和汉语的分割建立一个基准和基线。2.3. 文本检测与文本识别文本检测的目的是通过多边形或矩形框定位文本区域主流方法可以分为基于分割的方法和基于回归的方法。前者[16,32,50,67]直接分割文本区域,然后从这些区域生成边界框。PixelLink [16],SSTD [50],PSENet [32],TextField [67]和DBNet [35]是该分支中的几种流行方法。后者[34,44,73]将场景文本作为一般对象,并预测锚点或像素的偏移。 TextBoxes [34]扩展了SSD [39],通过设计卷积核和锚框来捕获各种文本形状。RRPN [44]通过向锚点引入旋转以及FasterR-CNN中的RoI-Pooling来检测任意方向的场景文本。此外,几种方法[3,15,43,53,63,70]进一步预测字符级框。给定一个包含文本行的图像块,文本识别的目的是从中提取文本。一般来说,它可以大致分为基于CTC的方法[23,25,54,56]和基于注意力的方法[12,30,31,37,55]。前者采用CNN提取视觉特征,RNN捕获特征序列,使用CTC损失进行端到端训练[20]。后者用注意力解码机制取代了CTC。此外,提出了更明确的语言建模方法[17,69]来探索视觉和语言之间的内部相互作用。3. BTS数据集与语义分割和实例分割相比,文本分割相对滞后,其原因之一是缺乏大规模、高质量的文本数据集。合成的标记数据可以辅助模型的训练。然而,真实标记数据的分布与合成标记数据的分布之间存在着不可忽视的差距。虽然存在一些弱监督方法[7,46,59]试图减少分布偏移,但其标记质量仍需要进一步改进以满足训练鲁棒性和高精度的要求19155- -表1.各种代表性数据集之间的比较数据集文本类型图像话Chars口罩字符类语言ICDAR 13FST场景46219446620说吧,夏尔36英语COCO TS场景14690139034-词36英语MLT S场景689630691-词36英语全文场景15559330-词36英语TextSeg场景+设计40241569173790字、字效、字符36英语BTS(我们的)场景1425044280209090说吧,夏尔3985双语图3. (a)BTS中最常用的30个中文字符概览;(b)BTS中最常用的30个英文字符及数字概览。BTS中共有209,090个汉字和标点符号的比例为66。4%;英文字符和数字的百分比为33。百分之六。(c)BTS的文本级和字符级对象数量的概述。x轴表示每个图像的文本行数和字符数。大多数图像包含18个文本行和320个字符;(d)图像的文本覆盖率概览。X轴表示文本覆盖率相对于图像的比率。曲线将被平滑。文本分割模型因此,最近的工作引入了一些高质量的注释数据集,基于这些数据集提出了一些新的模型[66]。然而,现有的数据集和模型大多只针对英文和数字文本,对中文文本分割的研究很少。中文有一个更大规模的字母表的基本字符与复杂的结构和各种字体。因此,大量高质量的标注实例是中文文本视觉研究的当务之急,这将拓展中文文本视觉的实际应用。在这种情况下,我们介绍了大规模的双语文本分割数据集BTS,它主要集中在中文字符,也包含英语和数字。BTS可用于文本检测、文本识别、文本分割和字符级检测。在本文中,我们专注于它的应用,文本分割。3.1. 数据收集和注释为了保证数据集的代表性和通用性,我们收集了7个不同场景的图像,包括街道标志,商店标志,牌匾,景点,书籍封面,横幅和对联。首先,这些场景涵盖了文本在日常生活中从室内出现的几个主要场景第二,这些场景涵盖了具有不同特征的文本,例如,书籍的封面包含印刷字体和艺术字体;对联包含简体和繁体汉字,其中大多数第三,这些场景涵盖不同的难度水平,例如,这是更容易做文本seg-而不是在横幅和对联上。图像数量:街道标志-3761;商店标志-4145;牌匾-2158;景点-1024;书籍封面-2070;横幅-601;对联-491。我们认为这三个方面的多样性可以保证分割模型训练良好,具有更好的泛化能力。BTS中的所有图像都提供三级注释,包括像素级掩码、字符级四边形和文本行级四边形以及转录。据我们所知,这是第一个数据集与文本分割,其中包含中文字符的综合注释。像素级蒙版注释是与原始图像共享相同大小的贴图,其中文本区域的像素被视为前景并标记为1;其他像素被视为背景并标记为0。字符级和文本行级四边形标注分别是字符和文本行的边界框,记录四边形四个顶点的坐标。转录注释记录每个字符和每个文本行的识别基础事实。有了这些全面的注释,数据集可以应用于文本的语义分割,字符的实例分割,文本检测和文本识别。详细情况见图。1.一、我们消除了标记过程中的算法或开箱即用的模型,以防止一些错误的标记情况。注释工作流如下所示。1)图像清洗。不合格的例子,如模糊的图像与无法识别的字符和笔画将被过滤掉. 2)手工注释。BTS中的所有图像都是由人类在三个级别上手动注释的,包括像素级,19156DCNN1×1转换3×3Conv3×3Conv3×3 Conv合并编码器1×1转换Lsem解码器上采样解码器1×1ConvConcat3×3 Conv上采样编码器SoftMaxConcat文本感知差异基础特征1×1转换Lrfn,Ltri,LtvDet查询关键“…- -5×5Conv5×5Conv原始输入地面实况掩码图4.概述拟议的PGTSNet。该流水线由一个检测模块,一个特征提取骨干与细化模块,和一个文本的感知。字符级和行级注释。(3)两轮质量检查。在标注过程中,标注人员将相互交叉检查注释;在标注过程之后,几个专业研究人员将仔细检查注释。所设计的工作流程保证了所有标注的质量和基准的可靠性。3.2. 数据集统计数据选项卡. 1说明了BTS与其他五个代表性文本分割数据集之间进行的统计比较,包括ICDAR 13 FST [27],MLT S [7],COCO TS [6],Total-Text [13]和TextSeg[66]。 结果表明,BTS包含了汉字类,因此类的数量最多,为3985个。BTS提供比ICDAR 13 FST、MLTS、COCO TS和Total-Text更全面的注释。与TextSeg相比,BTS仅缺少用于文字效果的注释,而BTS的大小远大于TextSeg。COCO TS的大小是最大的,但是COCO TS的注释是机器生成的而不是人工标注的。因此,BTS是Tab中人类标记图像的最大文本分割1.一、图3(a)(b)分别示出了BTS中的前30个中文字符和前30个英文字符和数字汉字和标点符号的比例为66.4%,英文字符和数字的百分比为33。6%在BTS。图3(c)示出了BTS中的文本级和字符级中的对象的数量的概览。大多数图像包含18个文本行和320个字符。图3(d)显示了文本覆盖率的分布。BTS中的14,250幅图像被分别分成10,188,2,696和1,366幅图像的训练集、验证集和测试集,比例为7:2:1。4. 先验引导文本分割网络我们还提出了事先引导文本分割网络(PGTSNet)作为一种新的双语文本分割的基线。图4示出了PGT-SNet的概述流水线,其由三个组件组成:1)检测模块,例如,DBNet,用于突出显示可能包含文本的区域; 2)基础文本分割模块,用于从输入图像及其突出显示的区域中提取特征;3)具有多个损失函数的分割头,包括字符区分损失,TV损失和文本及其边界上的三项像素级分割损失,以指导整个网络的学习。4.1. 设计动机PGTSNet受TexRNet的设计原则启发,解决了区分文本切分和语义切分的独特挑战,旨在找出中文切分和英文切分的不同特点,汉字象形文字区别于拉丁英语的最大挑战是复杂的笔画。特别是对于大背景中的小文本,象形文字的特征很容易与背景混淆。在这种情况下,文本检测模块充当望远镜来突出感兴趣的文本区域,可以避免对不相关内容的冗余放大,从而导致更好的分割结果。然而,TexRNet的算法在处理分割问题时有一首先,它是一个字符级的注释,需要大量的细粒度注释。作为Tab。1表明,即使是英语,大多数现有的代表性数据集不能满足这样的字符级注释,更不用说更复杂的双语情况。第二,在双语和进一步的多语言场景中,字符的数量要大得多,使得分类任务对于分类模型(作为一个分类器)来说要困难得多此外,TexRNet缺乏对复杂seg的更细粒度的监督Conv偏置SoftMax新偏差SoftMax池化19157ΣLLΣLLj=1i=1象形文字的心理学考虑到可能的笔画和背景噪声之间的混淆在双语场景中更为普遍,我们进一步采用总变异损失来获得更平滑的预测。Ltri= WCE(xrfn,xgt,wtri)(3)4.2. 网络结构nwjnxi,jlog(yi,j)给定输入图像x∈RH×W ×3,其中H和WWCE(x,y,w)=−j=1wj分别表示图像的高度和宽度,首先利用插件检测模块D生成n个候选boxesb1,b2,. -是的-是的 ,bn. 根据框从原始图像中裁剪图像块,并将其组合成批次C1,C2,. - 是的- 是的 ,Cn,x.对于每个C i,Ci=C(bi),其中C是裁剪操作。在被馈送到基础分割模块S之后,输出预测其中,WCE(x,y,w)是x和y之间的交叉熵损失y,并且仅针对文本边界处的像素计算此外,对于案文,我们采用再认任务中常用的联结主义时间分类(CTC)损失我们简要解释了它的有效性以及它如何在分割网络上工作映射S(C1),S(C2),. . .,S(Cn),S x将被重新排列为一个与输入x共享相同形状的映射x输出。根据每个候选块的位置进行重排。我们在这里使用DBNet作为检测模块,并使用dif.O(i,t,t,t,t)= ctc(O(S(xi)),tgt)Lctc=w(五)(六)将在补充材料中分析不同的检测器。另一个文本先验是文本中包含的语义信息,这是大多数先前的方法所忽略的文本行的分段应该是感知可识别的,并且进一步恢复文本的语义。更具体地,在训练期间,将文本行的地面实况边界框作为输入添加到裁剪补丁p1、p2、. -是的-是的,pk从输出要素图,假设中有k个文本行X. 本文采用了一个冻结识别器作为文本识别器。对于每个块pi,将其馈送到判别器中以获得指示这些块是可识别的置信度的丢失ctc。在这里,我们采用ABINet[17]作为节点。4.3. 定制损失这里,O和S分别表示识别和分割利用链式法则,可以扩展这种损失对网络参数的梯度。尽管识别网络的参数没有更新,但它仍然是一个辅助工具,可以从分割网络的输出中计算出文本的感知值。在这种情况下,分割和识别网络可以相互协作。如果一个补丁的文本感知是低的,这意味着分割输出的质量和可读性是差的,损失将变得更大,并给予更多的惩罚分割网络。此外,对于文本分割,它是直观的,应该是相对连贯和光滑的笔画,所以总的变化损失,以进一步抑制分割噪声。在PGTSNet中使用了五个损失项三其中,即Lsem、Lrfn和Ltri遗传自Ltv(x)=Σ。(xi,j+1−xij)2β2+(xi+1,j−xij)(七)基础分割网络[66]。除此之外,LCTC使用i、j用于评估文本语义,并且TV负责更平滑的预测。类似于大多数现有的文本分割模型,来自初始预测x输出的输出图可以通过交叉熵损失由地面实况标签xgtLsem=−xgtilog(xoutputi),(1)我PGTSNet还采用了来自基本分段任务的其他两个损失项,即rfn和tri。在基础分割中的细化之后,最终输出xrfn由具有交叉熵损失和三重图损失的地面实况xgt监督,如下所示。最终亏损为上述各项的加权组合如下。Lfinal=αLsem+βLrfn+γLti+kLctc+1Ltv(8)其中默认权重为α=1。0,β=0。5,γ=0。5,k=0。01,l=1。0的情况。在不同的实验中,它们可以根据训练模型进行调整以获得更好的性能,其原则是将不同的项平衡到相对接近的幅度。5. 实验Σ(四)219158Σ我们从两个方面进行实验:一是Lrfn=−xgti我log(xrfni),(2)分析双语文本分割在建议的数据集BTS和其他数据集上的性能,包括19159图5.合成数据集的例子。为了更好地显示文本,一些例子被裁剪。TextSeg和一个合成数据集,其结果表明,一个高质量和精细注释的数据集是必要的和有价值的,以帮助提高模型的性能和扩展的应用场景;另一个是评估所提出的方法PGTSNet的性能,其结果表明,通过引入文本先验,PGTSNet击败其他国家的最先进的方法在双语文本分割任务上至少2. 在fgIoU和1. F分数提升74%5.1. 数据集在实验中使用三个数据集,包括具有如表1中所示的最全面的英语注释的TextSeg。1,一个合成的双语数据集,和BTS。BTS的细节在第二节中描述。3 .第三章。对于合成的双语数据集,它主要是为了验证人类标记数据的必要性而构建的。我们通过考虑尽可能多的因素,尽可能地模拟真实场景中的数据分布。合成文本分割图像的主要成分包括背景、文本数量、文本位置、文本大小、字体、语料库、颜色和噪声。我们从各种视频帧中收集了10000为了与BTS对齐,通过从BTS的文本行注释中随机采样来形成合成数据集的文本语料库。双语字符采用11种常用字体,字体大小从35到60不等文本的颜色是从RGB颜色空间中随机采样的。每个背景图像粘贴三个文本行,其位置是随机生成的。我们还对合成图像进行了各种降质处理,包括高斯噪声、椒盐噪声、泊松噪声、透视变换、颜色反转、模糊等。合成数据集的几个示例如图5所示。我们可以看到,1)虽然我们可以生成具有复杂背景的合成示例,但文本可能与背景无关。合成图像的特征类似于具有字幕或现场评论的电影帧的特征。2)文本的边界与背景没有相互作用,很容易区分。3)无遮挡或照明-图6. PGTSNet和TexR-Net的定性比较。从上到下,行分别示出 了 输 入 图 像 、 PGTSNet 的 预 测 掩 码 、 PGTSNet 使 用DeepfillV2的修复结果、TexRNet的预测掩码以及TexRNet使用DeepfillV2的相同设置的修复结果。表2.用不同数据集训练同一模型的比较实验使用的数据fgIoUF-score仅合成34.5221.93仅TextSeg64.1372.53TextSeg合成74.5981.40TextSeg BTS83.6888.36由背景环境引起的文字变化。因此,合成图像比场景图像容易得多,并且只能处理有限场景的分割任务。5.2. 实现细节在训练期间没有检测模块,以加快训练过程。相反,从图像中随机裁剪的局部补丁(可以随机缩放)被馈送到网络中。边界框注释和分割地面实况也需要相应地修改基本模块由ImageNet预训练模型初始化。采用SGD Optimizer,权重衰减为5e−4。所有的方法都要经过大约22000次迭代的训练,直到损失收敛。对于评估,如[14,28]中所述,利用前景像素上的前景交集(fgIoU)和F分数测量。5.3. 合成数据与真实数据的比较本节分别比较了在合成数据、TextSeg和BTS上训练BTS测试集的结果见表10。二、我们比较了不同数据集对基本模型PGTSNet(base)的影响。除了数据集之外,所有实验设置在训练期间保持不变结果表明,合成数据带来的改善是有限的,远远达不到要求。19160L表3. PGTSNet在BTS上的消融研究。这些方法的所有训练设置,包括训练数据和主干都是相同的。列“Dis”表示是否包括文本感知错误。tv和“DET”分别表示总变化损失和检测模块是否被激活。方法DisLtvDET fgIoU F评分PGTSNet(基线)83.68 88.36PGTSNet 84.78 89.55PGTSNet中国84.93 90.02PGTSNet(决赛)总决赛 86.48 90.98表4. PGTSNet与现有技术方法的对比实验。方法fgIoU F评分DeeplabV3+ 71.15 79.60HRNetV2-W48 81.84 86.17HRNetV2-W48+OCR 82.76 86.67TexRNet(DeeplabV3+,无分类器)83.68 88.36TexRNet(DeeplabV3+,带分类器)83.81 89.24PGTSNet(决赛)86.48 90.985.4. 消融研究我们对所提出的PGTSNet的三个关键组成部分进行了消融研究:检测模块,文本感知损失和总变化损失,其结果见表1。3 .第三章。所有方法都是在BTS训练集结合TextSeg训练集和验证集上训练的。BTS的验证集用于评估。所有这些方法的基础都是DeeplabV3+。PGTSNet(base)的基础版本是TexR-Net。在关键组件的帮助下,fgIoU和F分数持续增加。PGTSNet的完整版本(最终版)实现了最佳性能,约为2。8%和2。与PGTSNet的基础版本(base)相比,fgIoU和F分数分别增加了62%5.5. 与最先进方法的在本节中,将PGTSNet与四种代表性的最先进的文本和语义分割方法进行比较,包括Deeplab V3+、HRNetV 2-W 48、HRNetV 2-W 48+对象上下文表示(OCR)和TexRNet。所有这些方法都在TextSeg的训练集以及BTS上重新训练,并在BTS的测试集上进行评估作为Tab。4显示,所提出的PGTSNet显著优于其他方法。5.6. 应用和讨论有了高质量的文本分割模板,文本去除和文本风格转换等下游任务可以获得更多有益的信息,并取得更好的效果。例如,在文本移除任务中,我们将分割掩码与原始图像一起馈送到图7.文本切分在表情再造中的应用实例。在绘画网络幻觉一个无文本的图像。当图像修复网络学习恢复分割掩模中被分类为前景的像素时,错误地分类为背景的笔划的任何部分都可能被忽略并产生伪影。图6显示了PGTSNet和TexRNet之间的定性比较。我们在这里采用的修复方法是DeepfillV2,最先进的方法之一结果表明,PGTSNet的掩模包含更少的背景噪声,更好地捕捉字符的完整笔画,并且修复后的图像具有更少的光晕。更多的案例可以在柔软的材料中查看。另一个应用是如图7所示的表达式重建。动态表情GIF广泛应用于日常聊天场景中,并且有丰富的可用材料可以重新创建以传达新的语义。PGTSNet可以对这些GIF中的各种甚至微小的字符提取精确的分割掩码,这对后续的重建过程非常有利。6. 结论本文构建了一个大规模的双语文本分割数据集BTS,该数据集包含14250幅图像,44280行文本,209090个字符。它具有全面的标注,可用于文本级和字符级的检测、识别和分割的训练和评价。据我们所知,它是第一个用于文本分割的双语数据集。所有数据将按照预定的方案发布,用于进一步的学术研究此外,我们提出了一个先验引导的文本分割网络,它具有检测模块、文本感知器和平滑损失,以揭示区分双语分割和通用文本分割的独特挑战。实验结果表明,该方法的有效性与国家的最先进的方法相比。19161引用[1] 利用局部最大值和最小值对历史文档图像进行二值化。在IAPR关于文件分析系统的研讨会上;DAS 2010,2011。3[2] V.巴德里纳拉亚南,A. Kendall和R.西波拉Segnet:用于图 像 分 割 的 深 度 卷 积 编 码 器 - 解 码 器 架 构 。 IEEETransactions on Pattern Analysis Machine Intelligence ,第1-1页,2017年。3[3] Y. 拜克湾Lee,D.汉,S.Yun和H Lee。用于文本检测的字符在IEEE,2019。3[4] B. Bai,F. Yin和C. L.刘某[ieee 2014年第11届IAPR文件分析系统国际研讨会- 法国图尔斯(2014.4.7-2014.4.10)] 2014年第11届IAPR文档分析系统国际研讨会-基于种子的场景文本提取分割方法。第262-266页,2014年。3[5] M. Bai 和 R.乌 塔松 深 度分 水 岭变 换 用于 实 例分 割 .arXiv,2016. 3[6] S. Bonechi,P. Andreini,M. Bianchini和F.斯卡 塞利COCO-TS数据集:人工神经网络和机器学习- ICANN2019:图像处理,2019。二、五[7] S. Bonechi,M.比安奇尼F.Scarselli和P.安德列尼在场景文本分割中生成像素级注释的监督较弱。模式识别信件,138,2020。二三五[8] L. C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。计算机科学,(4):357-361,2014年。3[9] L. C. Chen,G Papandreou,I Kokkinos,K Murphy,and A.L.尤尔。Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions onPattern Analysis and Machine Intelligence,40(4 ):834-848,2018。3[10] L. C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。2017. 3[11] L. C. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。Springer,Cham,2018. 3[12] Z.程湾,澳-地范,Y。Xu,Z. Gang和S.舟聚焦注意力 : 在 自 然 图 像 中 实 现 准 确 的 文 本 识 别 。IEEEInternational Conference on Computer Vision ,2017。3[13] C. K. Ch'Ng和C. S.陈Total-text:用于场景文本检测和识别的综合数据集。IEEE,2018年。二、五[14] A. Clavelli,D. Karatzas和J. Llados。复杂彩色图像文本提取算法的评估框架。在IAPR关于文件分析系统的研讨会上,2011。三、七[15] Y.孔湾Xiang,S. Nong,X. Zhou和Z.曹通过整体、多通道预测进行场景文本检测。2016. 3[16] D. Dan,H. Liu,X. Li和C.邓小平更Pixellink:通过实例分割检测场景文本。2018. 3[17] S. Fang,H. Xie,Y. Wang, Z. Mao和Y.张某像人类一样阅读2021. 三、六[18] J. Fu,J. Liu,H.田氏Y. Li,Y.鲍Z. Fang和H. 陆用于场景分割的双注意网络。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年。3[19] N. Gao,Y.山,Y.Wang,X.Zhao,Y.Yu,M.Yang和K.煌SSAP:使用仿射金字塔的单次实例分割。2019. 3[20] 艾尔·X·格雷·阿维斯,圣地亚哥·弗恩·阿南德斯,福斯蒂诺·戈麦斯。连接主义时间分类:用递归神经网络标记未分割序列数据。在2006年的国际机器学习会议上。3[21] B. 哈里哈兰河Girshick和J. 马利克同时检测和分割。欧洲计算机视觉会议,2014年。3[22] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN,2018年。3[23] 潘和,黄伟林,乔玉,陈昌来,唐晓鸥.读取深度卷积序列中的场景文本。AAAI Press,2015. 3[24] P. Hu,F.C. 海尔布隆岛Wang,Z.Lin和F.佩拉齐用于快速视频语义分割的时间分布式网络2020. 3[25] W. Hu,X. Cai,J. Hou,S. Yi和Z.是林书Gtc:引导ctc实现高效准确的场景文本识别。AAAI人工智能会议论文集,34(7):11005-11012,2020。3[26] Z. Huang,X.王湖,加-地黄角Huang,Y.黄氏Y. Wei和W. 刘 某 Ccnet : Criss-cross attention for semanticsegmentation.国际计算机视觉会议。3[27] D. Karatzas,P.P.Roy和L.D. Icdar 2011稳健阅读比赛。2011年。二、五[28] Dimosthenis Karatzas,Faisal Shafait,Seiichi Uchida,Masakazu Iwamura,and Lluis Pere De Las Heras. Icdar2013稳健阅读比赛。在文档分析和识别(ICDAR),2013年第12届国际会议上,2013年。7[29] A. 基里尔河格希克角 他和PDoll a'r。全光特征金字塔网络。2019. 3[30] C. Y. Lee和S.奥辛德罗递归递归网络与注意力建模在视觉识别中的应用。IEEE计算机视觉模式识别会议,2016年。3[31] Hui Li , Peng Wang , Chunhua Shen , and GuyuZhang.Show,attend and read:一个简单而强大的不规则文本识别基线。AAAI人工智能会议论文集,33:8610-8617,2019。3[32] X. Li,W. Wang,W.侯河,巴西-地Z. Liu,T. Lu和J.Yang。基于渐进尺度扩展网络的形状鲁棒文本检测2018. 3[33] Y. Li,H. Qi,J. Dai,X. Ji和Y.伟.完全卷积的实例感知语义分割。在计算机视觉模式识别,2017年。3[34] Minghui Liao , Baogang Shi , Xiang Bai , XinggangWang,and Wenyu Liu.Textboxes:一个具有单个深度神经 网 络 的 快 速 文 本 检 测 器CoRR , abs/1611.06779 ,2016。319162[35] M.廖,Z.万角,澳-地Yao,K.陈,和X白。可微分二值化的实时场景文本检测。2019. 3[36] T. Y. Lin,P.杜拉尔河格希克角他,B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。2017年3[37] R Litman,O.Anschel,S.Tsiper,R Litman,S.Mazor,and R Manmatha.Scatter:选择性上下文注意场景文本识别器。2020. 3[38] S. 柳湖,加-地Qi,H.Qin,J.Shi和J.贾实例分割的路径聚 合 2018 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2018年。3[39] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角Y. Fu和A. C.伯格。Ssd:单发多盒探测器。2016年欧洲计算机视觉会议。3[40] X. Liu和J. Samarabandu.复杂图像中基于边缘的多尺度文 本 提 取 。 2006 年 IEEE International Conference onMultimedia and Expo,2013年。3[41] Y. Liu,S.扬湾,澳-地Li,W. Zhou,J. Xu,H. Li和Y.陆实例分割中的仿射推导和图合并。Springer,Cham,2018. 3[42] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。IEEE模式分析与机器智能学报,39(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功