双语文本分割研究：BTS数据集与PGTSNet模型

PDF格式 | 1.87MB | 更新于2025-01-16 | 128 浏览量 | 举报

"中英文文本分割基准数据集和网络模型的研究" 本文主要探讨的是文本分割领域的一个重要课题，特别是在处理中英文混合的复杂文本结构时所面临的挑战。文本分割是计算机视觉领域的一个基础任务，它不同于语义分割或实例分割，其目标是精确地识别和定位文本，为后续的文本处理任务如文本擦除、风格转换等提供基础。当前的研究工作大多集中于英文字符和数字的分割，而对于中文字符的研究相对较少。这是因为中文字符具有丰富的结构和多样性，这给处理带来了更大的困难。为了解决这个问题，研究者们创建了一个名为BTS（Bi-Lingual Text Segmentation）的双语文本分割数据集，包含14,250个精细注释的文本图像，覆盖了各种常见的中文场景，并且同时包含英文单词和数字。这一数据集的发布旨在促进中文文本分割的研究，弥补现有数据集的不足。此外，文章还提出了一个名为PGTSNet（Priority Guided Text Segmentation Network）的网络模型，这是首个针对双语和复杂结构文本分割的基线方法。PGTSNet引入了文本区域高亮模块和文本感知判别器，利用文本先验知识来指导模型学习，从而实现更稳定、更精细的文本分割。面对复杂场景中的背景噪声，PGTSNet采用了变分损失法，以提高分割的准确性。实验结果显示，BTS数据集对于推动中文文本分割研究的重要性得到了验证，而PGTSNet与当前最先进的文本分割方法相比，无论是在处理英文还是中文文本时，都表现出了更高的有效性。通过对比仅在英文数据集上训练的模型（如TexRNet）和在BTS数据集上训练的模型，PGTSNet在处理双语文本时的性能提升尤为显著。这篇研究工作不仅提供了中英文混合的文本分割新数据集，还贡献了一个强大的网络模型，对于推动计算机视觉领域中文文本处理技术的发展具有重要意义。通过这样的基准数据集和网络模型，研究人员可以更有效地评估和改进文本分割算法，尤其是在处理中文字符的复杂性和多样性方面。

19154

•

在文本分割中引入了一个插件式的文本识别模块

作为前置监督，使得文本分割更加稳定，效果更

好，特别是在大尺寸文本的分割中，其优势得到

了验证。

•

在文本分割任务中，我们采用了总变差损失，它

在抑制环境噪声方面具有优势，并且能够监督

PGT- SNet产生更平滑的掩模。

相关工作

2.1.

语义和实例分割

语义分割的目的是在图像中分配像素级标签。传统

的算法利用手工制作的功能。随着卷积神经网络的

发展，全卷积网络（FCN）[42]和基于它的方法[2，

10，24，71]取得了令人印象深刻的性能。由于FCN的

预测相对粗糙，因此设计了编码器-解码器结构[2，

11，36，48，52，71]的几种变体，以通过融合多级特

征来改进它。此外，引入扩张卷积来扩大感受野，以

更好地捕获上下文[8为了捕获远程上下文信息，基于

注意力的模型[58，62]开始流行，例如PSANet [72]，

DANet [18]，CCNet [26]等。实例分割进一步预测每个

对象实例的不同像素标签。该文献中的主要里程碑是

Mask R-CNN [22]，随后有许多基于它的研究[38，

51]。其他主流自上而下的方法也被提出，包括[21，

29，33，64]。除了这些自上而下的方法，首先定位对

象边界框，然后分割其掩模，自下而上的方法[5，

19，41，47，65，68]是该领域的另一个分支，其中他

们首先定位关键点，然后找到边缘以及

亲和力来完成分割。

2.2.

文本分割

数据集在大多数计算机视觉研究的发展中起着至关

重要的作用，特别是在深度学习中。在早期阶段，当

只有一些小的数据集可用于文本分割时，方法通常利

用手工制作的[1，49]或低级特征[4，14，40]，而基于

马尔可夫随机场（MRF）的方法（例如，[45]）被视

为另一种时尚。由于缺乏足够的真实数据，提出了弱

监督方法[7，46，59]，试图减少合成数据和真实数据

之间的域偏移，并使用合成数据增强真实世界中的模

型性能

近年来，利用深度学习技术开发的模型不断提升文

本分割的最新技术水平。引入了基于CNN的三阶段模

型[57]来检测、细化和过滤候选文本区域。SMANet采

用PSPNet的编解码器结构

[71]并利用多尺度注意力模块来辅助分割。TexRNet

[66]结合了关键特征池和基于注意力的相似性检查，

以提高分割性能。还引入了自定义的三图损失和三图

判别器来辅助该任务。相互引导的网络[60]被设计为

在一个分支中产生一个像素级掩码，在另一个分支中

产生一个像素级文本掩码然而，大多数方法仅针对基

于拉丁语的基准进行研究，而忽略了其他广泛使用的

语言中的分割中国象形文字。因此，有必要为英语和

汉语的分割建立一个基准和基线。

2.3.

文本检测与文本识别

文本检测的目的是通过多边形或矩形框定位文本区

域主流方法可以分为基于分割的方法和基于回归的方

法。前者[16，32，50，67]直接分割文本区域，然后

从这些区域生成边界框。PixelLink [16]，SSTD [50]，

PSENet [32]，TextField [67]和DBNet [35]是该分支中的

几种流行方法。后者[34，44，73]将场景文本作为一

般对象，并预测锚点或像素的偏移。 TextBoxes [34]

扩展了SSD [39]，通过设计卷积核和锚框来捕获各种

文本形状。RRPN [44]通过向锚点引入旋转以及Faster

R-CNN中的RoI-Pooling来检测任意方向的场景文本。

此外，几种方法[3，15，43，53，63，70]进一步预测

字符级框。

给定一个包含文本行的图像块，文本识别的目的是

从中提取文本。一般来说，它可以大致分为基于CTC

的方法[23，25，54，56]

和基于注意力的方法[12，30，31，37，55]。前者采

用CNN提取视觉特征，RNN捕获特征序列，使用CTC

损失进行端到端训练[20]。后者用注意力解码机制取

代了CTC。此外，提出了更明确的语言建模方法[17，

69]来探索视觉和语言之间的内部相互作用。

BTS

数据集

与语义分割和实例分割相比，文本分割相对滞后，

其原因之一是缺乏大规模、高质量的文本数据集。合

成的标记数据可以辅助模型的训练。然而，真实标记

数据的分布与合成标记数据的分布之间存在着不可忽

视的差距。虽然存在一些弱监督方法[7，46，59]试图

减少分布偏移，但其标记质量仍需要进一步改进以满

足训练鲁棒性和高精度的要求

剩余12页未读，继续阅读

cpongm

粉丝: 6

双语文本分割研究：BTS数据集与PGTSNet模型

语义分割camvid数据集下载

用于水下语义分割的大规模数据集

PTB文本数据集

基于TensorFlow实现RNN-LSTM PTB文本数据集预测处理.zip

开放中文分词引擎测试：基准数据集汇总

大图像数据集，26个英文字母的图像文件

CoNaLa基准：从英文到Python代码的转换工具

VOC2007单类别沙发检测数据集发布

ICDAR2013场景文字识别单字符数据集

BERT演示：GLUE MRPC数据集解析与下载

最新资源