文本笔画掩码：端到端文本擦除的有效方法

197 浏览量更新于2023-10-16 收藏 2.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6151用于端到端文本擦除的笔划掩码XiangchengDu1，Zhao Zhou1，2*，Yingbin Zhengg2，Tianlong Ma1，Xingjiao Wu1，Cheng Jin1，3†1复旦大学计算机科学学院，上海，中国2唯迪科技，上海，中国3文化旅游部文化旅游智能计算重点实验室上海摘要场景文字擦除的目的是擦除具有合理背景的场景图像中的文字区域。大多数以前的方法采用场景文本检测器，以协助本地化的文本区域。然而，检测到的文本框包含文本笔划和背景杂波，并且直接在整个框上进行内绘制可能会保留文本伪影并使区域不自然。在本文中，我们提出了一个端到端的网络，重点是建模的文本笔画掩码，提供更准确的位置来计算删除的图像。该网络由两个阶段组成，即，具有笔画生成的基本网络和具有笔画感知的细化网络。基本网络同时预测文本细化网络接收掩码作为监督以生成自然擦除结果。合成和现实世界的场景图像上的实验证明了我们的框架在产生高质量的擦除结果的有效性。1. 介绍场景文本包含大量隐私信息，暴露的信息很容易被用于非法目的。最近，场景文本擦除技术得到了广泛的关注，并广泛用于保护敏感的私人信息[13，20]。文本擦除任务旨在擦除文本并尽可能保持原始背景内容，这是极具挑战性的。一种流行的做法是将文本擦除分解为两个子任务，即，文本检测和图像修复。这些子任务的网络可以单独训练，文本内容在文本边界框内被擦除。随着近年来文本检测器和图像修复技术的发展，该流水线下的方法在场景文本擦除基准测试中取得了然而，由于文本检测器中的文本框同时包含文本笔划和背景内容，*这些作者对工作的贡献是平等的。†通讯作者。电子邮件地址：jc@fudan.edu.cn图1.从左至右：原始场景图像、通过文本框感知方法的文本擦除图像以及通过所提出的方法的文本擦除图像。文本框感知的结果是不自然的，由于冗余的背景内容，我们的方法利用文本笔划掩码来生成更自然的结果。修补整个框也将替换背景内容，这可能使区域不自然。一些时代的例子如图1所示。我们相信，真实文本段的准确建模将改善擦除的视觉效果并减少伪影。在本文中，我们提出了一种新的擦除方法称为笔画感知擦除网络（SAEN），这是建立在建模的文本笔画掩码计算被擦除的图像。从基本的编码器-解码器网络开始以生成初始擦除图像，在基本编码器之后连接附加解码器，并且附加解码器被设计为预测提供文本位置信息的文本笔划掩码。由于擦除区域通常包含文本的残余，我们进一步引入另一种编码器-解码器结构，该结构将预测笔划和不精确的初始擦除图像的级联作为输入，从而导致笔划感知模块生成更真实和自然的擦除图像。6152我们的贡献总结如下：• 我们提出了一个端到端的笔画感知擦除网络，它可以自然而有效地擦除场景文本。它可以区分文字笔画和非文字区域，为文字擦除提供重要的位置信息.• 我们设计了一个笔画感知的擦除模块，可以提高擦除性能。该模块旨在通过结合初始擦除结果和笔划掩码来擦除残留文本。同时，采用对抗技术生成自然图像.• 广泛的评价表明，所提出的方法的优越性能。值得注意的是，与现有方法相比，我们在SCUT-Syn和SCUT-EnsText数据集上获得了最先进的结果。我们的论文的其余部分组织如下。第2节简要回顾了场景文本擦除方法。在第3节中，我们给出了所提出的笔画感知擦除网络的细节。我们在第4节中展示了在数据集上进行的实验结果，以证明其有效性。第五节是论文的总结。2. 相关工作早期的文本擦除方法主要集中在文本属性，如颜色，字体和布局。首先使用颜色直方图或基于阈值的方法[7，4]提取文本区域，然后计算像素相似性以用背景替换文本区域这些方法仅限于复杂的场景。随着深度学习技术的发展，基于深度修复和文本检测的方法被设计用于处理场景文本图像。场景文本擦除器[13]是第一种使用CNN解决场景文本擦除的方法。该方法将图像分割成小块，并使用U形神经网络来删除文本。这种基于块的处理无法定位具有复杂形状的文本，并且不可避免地破坏了擦除结果的一致性。[19]采用单独训练的场景文本检测器和修复网络。文本检测器预测输入修复网络的文本实例的分割图。绘画网络填充文本区域并生成最终图像。在推理时，两个模块连接成一个模型，用于场景文本擦除。[3]同样采用两阶段的方法，分别对蒙版生成器和修复模型进行优化。[17]引入MTRNet，将文本区域掩码视为网络的额外输入。然而，这种方法的缺点是，它需要文本区域掩码作为辅助信息，这意味着如果没有附加信息，则不能保证文本去除也有一个阶段的方法，将这两个子任务合并到一个统一的网络中。[20]设计了一种端到端的架构，该架构采用了具有UNet形状的编码器-解码器生成器的GAN，并使用若干损失对其进行训练[10]提出了一种端到端网络，该网络由生成器以及与文本区域相关联的条件生成器组成。[18]介绍了PERT，它用渐进的策略来精确地删除文本。[16]扩展了MTRNet，它没有文本定位方法。[11]介绍了基于GAN的EraseNet，它采用了一种由粗到细的擦除架构，并带有一个额外的分割头，用于学习文本掩码，以帮助文本区域定位。[2]提出了一个端到端的框架，包括一个文本笔画检测网络和一个文本删除生成网络。[9]使用文本合成模块进行文本擦除任务。合成模块的目的是生成训练样本，并通过选择更真实的训练数据来学习策略网络。在本文中，我们还采用了一步策略，以避免单独的文本检测和修复网络的复杂训练过程。与以往的一步式方法不同，本文着重于对文本笔划模板进行建模最近，[15]还利用文本笔划进行擦除，其中文本区域首先由现成的文本检测器[1]提取。[15]将文本擦除集中在裁剪的文本区域。文本检测器和文本擦除器是单独训练的，文本擦除取决于从额外数据集学习的文本检测器的结果。相比之下，我们的方法采用了端到端的框架，这降低了文本擦除算法的复杂度。而不需要辅助图像和注释来训练文本检测器。此外，[15]需要擦除方案中的文本笔划的基础事实，这对现实世界的数据集来说是一个巨大的挑战。在我们的框架中，文本笔划是从原始图像和地面实况计算的，而无需人工注释。此外，如实验所示，我们的方法优于这些最先进的方法。3. 方法在本节中，我们将详细介绍拟议的SAEN。如图2所示，笔画感知擦除网络由基本网络、文本笔画生成解码器和笔画感知模块组成。在这里，我们专注于像素级的文本擦除，并引入准确的文本笔画掩码来帮助提高该过程的性能。基本网络设计用于生成初始擦除图像。预测的文本笔划可以充分利用合并，与初始擦除结果。笔画感知模块的目标是擦除残留的文本和屏蔽文本区域更自然。我们首先介绍了基本的网络中风和初始擦除图像生成。6153(a)基础网络笔画解码器BasicNet编码器BasicNet解码器(b)笔画感知编码器/解码器笔画感知编码器笔画感知解码器2 4 816conv.层残余块解卷积层n 膨胀=nconv. 层×笔画解码器冲程损失-重构损失对抗性损失BasicNet编码器预测卒中风险Groundtruth Stroke gtGroundtruth图像编辑器输入图像IBasicNet解码器康卡特笔画感知编码器笔画感知解码器初始结果 101第一阶段：具有中风预测的基本网络输出图像2第二阶段：细化网络与中风意识图2.提议的笔划感知擦除网络的流水线3.1. 基本编码器-解码器结构基本网络（BasicNet）采用由编码器和解码器组成的类似U-Net的架构。编码器遵循卷积网络的典型结构，由重复的卷积层和剩余的基本块组成我们控制步幅参数以降低特征图的分辨率。在每个下采样步骤中，我们将特征通道的数量加倍，并将特征图的大小减半。剩余基本块遵循ResNet [6]以保留更多的浅层信息。解码器由五个上采样转置卷积层组成，其内核大小、步幅步长和填充大小分别设置为3、2、1。同时，将浅层特征与高层特征相结合，以恢复图像的结构和纹理细节。BasicNet的体系结构给定原始图像I，通过经过基本网络Θbn获得初始擦除图像I1，即，I1=Θbn（I）（1）图3.编码器和解码器的网络结构。在笔划解码器中引入了一个新的特征层，降低了特征维数，提高了特征的表示能力。上采样的特征图与来自下采样步骤的对应特征图相关联通过BasicNet编码器和笔划解码器（Θsd）的组合，可以预测文本笔划Sp3.2. 笔画解码器在基本编码器之后连接第二个笔划编码器，并采用与BasicNet解码器类似的结构，生成文本笔划掩码。本模块的学习目标，即，通过从地面实况图像Igt中减去原始图像I，然后进行阈值处理，来计算地面实况文本笔划掩码Sgt具体来说，当差值的绝对值小于设定的阈值时，我们将相应位置的Sgt的值设置为1;否则，该值为0。不同的阈值会导致生成不同的笔画（见图4），这将进一步直接影响擦除结果;我们将在评估中讨论此参数的选择笔划解码器的输入是来自第6个残差块的输出特征图。我们在每个转置卷积之间引入3 - 3Sp=Θsd（I）（2）3.3. 建模笔划蒙版初始擦除图像I1具有近似的结果，但有时保留轻微的文本残留，并且整个图像直观上不自然。造成这种情况的因素，可归咎于缺乏足够的监督。为了解决这个问题并提高擦除性能，我们联合建模笔划掩码Sp和初始输出I1。如图2所示，我们设计了一个笔画感知的编码器-解码器模块作为第二阶段。从笔划解码器获得的笔划有助于文本本地化以获得高质量的擦除结果。编码器接收与文本笔划Sp相连的初始擦除结果I1作为输入。编码器获得更精确的文本笔画分布6154Σ2一∗N2NKGT2Lr=N{ （Igt−I2）（1−Sgt）（Igt−I2）Sgti，j pgtΣ{ReLU（1−D（I））+ ReLU（1+D（I））}。KKΣI2=Θsam（I1，Sp）（3）λrGT原始图像阈值=20阈值=25阈值=30阈值=35阈值=40阈值=45图4.通过不同阈值得到的文本笔画通过组合预测的笔划掩码以递增的方式来消除残余文本，从而可以有效地消除残余文本。笔画感知模块Θsam返回最终擦除图像I2，其具有与I1相同的分辨率，即，3.4. 模型训练采用多个损失项来训练鲁棒的老化模型。我们采用重建损失来衡量地面实况和预测擦除图像之间的像素级相似性。由于任务集中在文本区域，因此我们为文本笔划像素和背景像素设置不同的权重，并将重建损失公式化为此外，我们利用对抗性损失La来生成逼真和自然的擦除图像，其公式为1NL=−D（I）（7）k=1其中D（I）是鉴别器D的一维输出，其表示擦除图像I作为伪生成图像的概率。在这里，我们遵循[11]中的设计，D是具有VGG结构的额外分类网络。我们迭代地训练了具有损失函数LD=1k k最后，总损失函数L被表示为这些损失的组合，即，1 ΣNkkk=1GTGTkkrs s a a其中Ik和Sk是第k个地面实况擦除图像实施详情。我们的文本删除模型很简单-使用PyTorch [14]。我们将图像大小调整为512×512和笔划掩码，Ik是第k个预测擦除图像，N是图像编号，表示逐元素乘法，λr是非笔划像素的权重。然后设计笔划损失用于笔划遮罩的预测文字笔画在整个场景图像中所占的比例通常很小。因此，为了减少不平衡问题，计算地面实况笔划Sgt和预测笔划Sp之间的骰子[12]。冲程损失计算为1NL={1−Dice（S，S）}（5）并将像素值归一化到（0，1）的范围，随机水平翻转和旋转。地面实况笔划生成的默认阈值为35 对于损失函数，我们设置λ r=0。2，λ s=0。2，且λ a=0。01. 使用高斯分布初始化网络，并使用Adam优化器，其中β=（0. 5，0。第9段）。初始学习率设置为10−4。我们将β值设置为判别式的natorD to（0.0，0.9），学习率为10−5。对于D的其他设置，我们遵循[11]。的训练过程所提出的笔画感知网络在300个时期之后达到收敛。SNk=1p gt4. 实验2·Σp（Sk[i，j]·Sk[i，j]）Dice（Sp，Sgt）=1i、j （Sk[i，j]）2+ni、j （Sk[i，j]）2数据集我们评估提出的中风感知网络在合成和真实世界场景图像数据集上。其中Sk[i，j]表示在合成数据处的笔划掩码Sk的值，我们使用SCUT-Syn数据集[11]，coordin aplanete（i，j）.它是由XT合成技术[5]生成的。的1个（四）L=L+ λL+ λL（八）一个KK（六）6155×表1.在SCUT-Syn和SCUT-EnsText数据集上与以前的方法进行比较粗体和下划线结果分别表示每个指标中的最佳执行者和亚军SCUT-EnsTextPSNR↑SSIM↑MSE↓年龄↓pEPS↓pCEPS↓[13]第十三话25.4790.140.00476.010.05330.0296Pix2Pix [8]26.7088.560.00376.090.04800.0270EnsNet [20]29.5492.470.00244.160.03070.0136[第11话]32.3095.420.00153.020.01600.0090[15]第十五话35.3496.240.0009---PERT [18]33.2596.950.00142.180.01360.0088SAEN [本文]34.7596.530.00071.980.01250.0073SCUT-SynPSNR↑SSIM↑MSE↓年龄↓pEPS↓pCEPS↓[13]第十三话14.6846.130.714813.290.18590.0936Pix2Pix [8]25.6089.860.24655.600.05710.0423EnsNet [20]37.3696.440.00211.730.00690.0020MTRNet [17]29.7194.430.0004---MTRNet++[16]34.5598.450.0004---[第11话]38.3297.670.00021.600.00480.0004监管不力[19]37.4693.64----PERT [18]39.4097.870.00021.410.00450.0006SAEN [本文]38.6398.270.00031.390.00430.0004表2. SCUT-EnsText上不同网络设置之间的比较(a)不同阶段的效果。(b)笔划掩码建模的效果，其中Box-aware表示网络将笔划单元替换为文本框掩码。(c)损失函数中的不同项。(d)使用不同阈值训练的模型的结果用于笔划生成。(a) SCUT-Syn（b）SCUT-EnsText图5.样本图像和地面实况删除图像。从ICDAR 2013和ICDAR MLT-2017收集背景图像，并手动删除文本。该数据集包含8，000张训练图像和800张测试图像，所有训练图像和测试图像的大小都调整为512 512. SCUT-Syn数据集的一些示例如图5（a）所示。对于真实世界的场景图像，我们评估了SCUT-EnsText数据集[11]上的per-center。该数据集包含2，749张训练图像和813张测试图像，这些图像选自公共场景文本检测基准。该数据集考虑了文本类型的多样性，包括文本字体、文本方向、文本形状和场景多样性。擦除的地面实况是通过使用Adobe Photoshop手动对所有文本实例进行时代化来计算的图5（b）显示了数据集的一些示例。评价指标我们采用图像修复指标来评价我们的方法。第一组指标是指-确定地面实况和预测图像之间的统计数据，并广泛用于图像处理任务，包括PSNR（峰值信噪比），MSE（均方误差）和SSIM（结构相似性）。我们还采用了三个专注于像素级信息的指标：AGE用于计算灰度绝对差的平均值，pEPS用于计算错误像素的百分比，pCEPS用于计算四个连接的邻居错误的百分比设置PSNR↑SSIM↑MSE↓仅BasicNet29.1894.540.0026（一）仅I期32.2795.070.0017I期+II期34.7596.530.0007SAEN+34.9196.640.0006（b）第（1）款盒子感知33.2695.810.0008笔画感知34.7596.530.0007Lr30.7494.850.0019（c）第（1）款Lr，Ls33.9495.760.00096156(a) 原始图像(b) 地面实况删除图像(c) 图像来源(d) 图片来源(e) 通过CRAFT+SBSTE删除(f) 所提出的方法擦除图6.在真实场景图像上，将所提出的方法与以前的一些方法的擦除结果进行了比较像素较高的PSNR和SSIM值或较低的MSE、AGE、pEP和pCEPS值表示较好的结果。4.1. 与现有技术的表1总结了两个数据集的所有指标。我们将SAEN与几种基线和最先进的方法进行比较。其中，第一组包含众所周知的通用图像修复方法（Pix2Pix）。我们还比较了我们的两阶段方法（ SceneTex-tEraser ，CRAFT+SBSTE），一阶段方法（EnsNet，MTRNet，MTRNet++ ， EraseNet ），以及最近的渐进网络（PERT）。对于合成数据和真实世界的图像，SAEN可以在不同的尺度下达到可比的结果。与其他一级擦除方法相比，SAEN具有非常有竞争力的性能，PSNR为34.75（SCUT-EnsText）和38.63（SCUT-Syn），其性能优于其他一级擦除方法，并且对于真实世界的图像明显更好。与同样采用笔划信息的两阶段方法[15]相比，我们的方法执行了更好的五个度量，并实现了在PSNR上的结果相当，而我们的不依赖于从辅助数据训练的文本检测器。我们还比较了SAEN与最近的渐进方法[18]。我们的网络更加紧凑，我们可以实现可比的性能。实验结果证实了本文提出的文本笔画建模方法在场景图像文本擦除中的有效性。图6显示了来自SCUT-EnsText数据集的不同方法的一些文本擦除图像4.2. 消融研究在本小节中，我们评估了用于构建笔画感知擦除网络的替代实现和参数我们报告SCUT-EnsText数据集的结果，因为它比其他数据集更具挑战性。网络组件。在表2（a）中，我们首先评估不同网络组件的影响。使用没有笔画模块的基线编码器-解码器结构，擦除器达到29.18的PSNR和94.93的SSIM。笔划解码器的实现使PSNR提高了3.09，表明笔划解码器的引入提高了Basic-Net编码器6157(a) 输入图像（b）仅通过阶段I擦除的图像（c）使用盒感知模型擦除的图像（d）使用完整模型图7.不同网络设置的定性比较第一阶段后删除的擦除图像第二阶段后地面实况擦除图像预测的文本中风地面实况正文笔划图8.拟议网络不同阶段的产出。当我们在阶段II中利用笔划感知编码器和解码器为了理解阶段II的效果，我们对图7进行定性比较，并观察到通过完整模型擦除的图像比仅具有阶段I的模型的结果更干净和自然。此外，我们还添加了另一个细化网络（具有与第二阶段相同的结构），并将其标记为SAEN+。从SAEN+的图像达到略好擦除效果比那些从第二阶段，而整体性能趋于饱和。为了在性能和模型效率之间做出很好的权衡，我们在这项工作中采用了两阶段模型。面具面具的重要性SAEN中不同阶段的输出在图8中进一步可视化。我们可以看到，由于笔划信息是直接嵌入的，因此单个网络很难完全删除文本。笔划解码器可以生成由大多数真实文本笔划以及一些类似文本的边缘组成的掩码，符号.使用笔画感知模块，然后删除残留的文本，并可以获得细化的结果。回想一下以前的方法[19，15]利用文本框掩码来定位文本，然后提高性能。我们相信笔画生成器有助于提供被擦除文本的线索。因此，我们定量地比较了文本框掩码感知和文本笔划感知对文本时代的影响。表2（b）示出了笔画感知擦除模型具有比框掩码感知方法更好的性能。与盒子感知网络相比，PSNR和SSIM分别提高了1.49和0.72一些定性擦除结果如图7（c，d）所示。损失函数完整模型的权值通过三项来学习，即，重建损失、中风损失和对抗性损失，如3.4节所述将对抗性损失添加到损失函数导致度量的轻微改进（例如，0.81对于PSNR为0.77，对于SSIM为0.77，参见表2（c））。更重要的是，质量-6158擦除图像阈值=20擦除图像阈值=25擦除图像阈值=30擦除图像阈值=35擦除图像阈值=40擦除图像阈值=45图9.与使用不同阈值训练的模型进行定性比较，以生成中风输入图像Lr仅Lr+LsLr+Ls+La输入图像预测笔划擦除结果地面实况图10.用不同的损失函数擦除图像。通过对比我们可以看出，擦除后的图像更加真实，生成的区域更加平滑。当仅考虑重构损失时，网络退化为两个编码器-解码器模块的堆栈。实验结果（PSNR30.74 ， SSIM 94.85 ）远低于完整模型，但接近BasicNet的结果，这也验证了笔画在我们框架中的重要性。用于生成笔划遮罩的阈值。我们比较了我们的框架与不同设置的阈值生成中风面具的性能。如图4所示，低阈值通常包含冗余背景，而高阈值则会过滤掉一些文本笔划。根据表2（d）中所示的结果，在相同的实验设置下，阈值=35对于擦除是合适的图9显示了SAEN在不同阈值下的输出。通过适当的阈值，SAEN可以恢复自然背景。失效案例分析。通常有两种常见的失败文本擦除类型。第一个是被误擦除的类似文本的符号，如图11的顶行所示我们还观察到，由于笔划预测的失败，一些小的曲线文本区域被忽略。图11.我们的方法的失败案例样本。故障用红色边界框突出显示。5. 结论我们介绍了SAEN，一个简单而有效的场景文本擦除框架。SAEN是一个端到端的框架，包括一个基本的擦除网络和文本笔画解码器，以及笔画感知模块。特别地，基本网络首先使用共享编码器来学习表示并馈送到分别生成预测笔划和初始擦除图像的两个解码器。笔画感知模块的目标是用更具鉴别力的特征来修复不精确的初始擦除图像。这是通过连接初始擦除图像和预测笔划然后将它们发送到模块来实现的。我们对SCUT-Syn和SCUT-EnsText进行了广泛的实验，用于合成和真实世界场景文本的时代。结果表明了该方法的有效性.谢谢。本研究得到国家档案局档案研究计划（2021-X-25）、文化和旅游部档案研究计划（CXGCXM 2021 -039）、上海市档案研究计划（2108）的资助。输入图像6159引用[1] Youngmin Baek、Bado Lee、Dongyoon Han、SangdooYun和Hwalsuk Lee。用于文本检测的字符区域感知在IEEE计算机视觉和模式识别会议上，第9365-9374页[2] Xuwei Bian，Chaoqun Wang，Weize Quan，Juntao Ye，Xi-aopeng Zhang，and Dong-Ming Yan.通过级联的文本笔划检测和擦除去除场景文本计算视觉媒体，8（2）：273[3] 本杰明·康拉德和陈佩怡。两阶段无缝文本擦除现实世界的场景图像。在IEEE图像处理国际会议上，第1309-1313页[4] Boris Epshtein Eyal Ofek和Yonatan Wexler。基于笔画宽度变换的自然场景中文字检测。在IEEE计算机视觉和图案识别会议，第2963-2970页[5] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据。在IEEE计算机视觉和模式识别会议上，第2315-2324页[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页[7] 黄伟林，乔玉，唐晓鸥。基于卷积神经网络诱导mser树的鲁棒场景文本检测欧洲计算机视觉会议，第497-511页[8] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议上，第1125-1134页[9] Gangwei Jiang，Shiyao Wang，Tiezheng Ge，YunningJiang，Ying Wei，and Defu Lian. 自我监督文本时代与可控图像合成。 arXiv 预印本 arXiv ： 2204.12743 ，2022。[10] Prateek Keserwani和Partha Pratim Roy。用于野外文本隐藏的文本区域生成对抗网络。IEEE Transactions onCircuits and Systems for Video Technology，2021。[11] Chongyu Liu ， Yuliang Liu ， Lianwen Jin ， ShuaitaoZhang，Canjie Luo，and Yongpan Wang. Erasenet：端到端的文本删除。IEEE Transaction on Image Processing，29：8760[12] Fausto Milletari Nassir Navab和Seyed-Ahmad Ahmadi。V-net：用于体积医学图像分割的全卷积神经网络。在3D视觉国际会议上，第565-571页[13] Toshiki Nakamura，Anna Zhu，Keiji Yanai，and SeiichiUchida. 场景文本橡皮擦。在 IAPR InternationalConference on Document Analysis and Recognition ，第832- 837页[14] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga ， et al. Pytorch ： An imperative style ， high-performance deep learning library.Advances in NeuralInformation Processing Systems，32，2019。[15] Zhengmi Tang，Tomo Miyazaki，Yoshihiro Sugaya，andShinichiro Omachi.使用合成数据进行训练的基于笔划的场景文本擦除。IEEE图像处理，30：9306[16] Osman Tursun 、 Simon Denman 、 Rui Zeng 、 SabesanSiva- palan 、 Sridha Sridharan 和 Clinton Fookes 。Mtrnet++：一阶段基于遮罩的场景文本擦除器。计算机视觉与图像理解，201：103066，2020。[17] Osman Tursun 、 Rui Zeng 、 Simon Denman 、 SabesanSiva- palan 、 Sridha Sridharan 和 Clinton Fookes 。Mtrnet：通用场景文本橡皮擦。在IAPR文件分析和识别国际会议上，第39-44页[18] Yuxin Wang，Hongtao Xie，Shancheng Fang，YadongQu，Yongdong Zhang. Pert：一个渐进的基于区域的网络，用于场景文本删除 . arXiv 预印本 arXiv ：2106.13029，2021。[19] Jan Zdenek和Hideki Nakayama。删除监控较弱的场景文本。在IEEE计算机视觉应用冬季会议上，第2238-2246页[20] Shuaitao Zhang，Yuliang Liu，Lianwen Jin，YaoxiongHuang，and Songxuan Lai.Ensnet：在野外的Ensconce文本。在AAAI人工智能会议上，第801-808页，2019年。

下载后可阅读完整内容，剩余1页未读，立即下载