MaskTextSpotter：端到端场景文本识别神经网络

63 浏览量更新于2024-06-20 收藏 1.55MB PDF 举报

“掩码TextSpotter：端到端可训练的场景文本识别神经网络模型” 掩码TextSpotter是一种创新的神经网络模型，专为识别自然图像中的任意形状文本而设计。该模型由吕鹏远、廖明辉、丛瑶、吴文浩和向白等人提出，分别来自华中科技大学和旷视（Face++）科技股份有限公司。他们受Mask R-CNN的启发，创建了一个端到端的学习框架，旨在同时解决文本检测和识别的问题。传统的文本检测和识别方法通常将这两个任务分开处理，先用检测器找出文本区域，然后进行识别。然而，这种方法可能会导致性能的下降，因为检测和识别之间存在着密切的关联。掩码TextSpotter通过引入语义分割技术，克服了这一限制，能够在单个模型中实现对不规则形状文本的精确检测和识别，特别适合处理弯曲或其他复杂形状的文本实例。该模型的核心在于其端到端的训练机制。它允许模型直接从原始图像中学习，无需预先提取的文本框，从而简化了学习过程并提高了整体性能。通过结合语义分割和识别，掩码TextSpotter能够生成平滑的文本掩码，进一步提升对复杂文本实例的识别准确率。实验结果显示，掩码TextSpotter在ICDAR 2013、ICDAR 2015和Total-Text等多个数据集上表现出色，证明了其在场景文本检测和端到端文本识别任务中的高效性和准确性。这一成果对于推动计算机视觉领域的进步，尤其是场景文本理解，具有重要意义。它不仅有助于提高自动化系统的文本处理能力，还为地理定位、即时翻译、盲人辅助等实际应用提供了技术支持。关键词涵盖场景文本识别、神经网络以及任意形状文本处理，反映了该模型的主要研究方向和技术焦点。掩码TextSpotter是深度学习在场景文本识别领域的一个重要突破，为未来的研究提供了新的思路和方法。

Pengyuan Lyu，Minghui Liao，Cong Yao，Wenhao Wu，Xiang

Bai

2.2

场景文本识别

场景文本识别[53，46]旨在将检测到的或剪切的图像区域解码为字符

序列。先前的场景文本识别方法可以大致分为三个分支：基于字符的

方法、基于单词的方法和基于序列的方法。基于字符的识别方法[2，

22]大多首先定位单个字符，然后识别并将其分组为单词。在[20]中，

Jaderberg

等人

提出了一种基于单词的方法，该方法将文本识别视为常

见的英语单词（90k）分类问题。基于序列的方法将文本识别作为序

列标记问题来解决。在[44]中，Shi

等人

使用CNN和RNN对图像特征进

行建模，并使用CTC输出识别的序列[11]。在[26，45]中，Lee

等人

和

Shi

等人

通过基于注意力的序列到序列模型识别场景文本。

在我们的框架中，所提出的文本识别组件可以被归类为基于字符

的方法。然而，与以前的基于字符的方法相反，我们使用FCN [42]来

同时定位和分类字符此外，与基于序列的方法相比，该方法更适合于

处理不规则文本（多方向文本、弯曲文本

等）。

）.

2.3

场景文本定位

大多数以前的文本定位方法[21，30，12，29]将定位过程分为两个阶

段。他们首先使用场景文本检测器[21，30，29]来本地化文本实例，

然后使用文本识别器[20，44]来获得识别的文本。在[27，3]中，Li

al.

和Busta

等人

提出端到端的方法来定位和识别统一网络中的文本，

但需要相对复杂的训练过程。与这些方法相比，我们提出的文本

spotter不仅可以训练端到端完全，而且还具有检测和识别任意形状

（水平，定向和弯曲）的场景文本的能力。

2.4

通用目标检测与语义分割

随着深度学习的兴起，通用对象检测和语义分割都取得了很大的发

展。已经提出了大量的对象检测和分割方法[9，8，40，6，32，33，

39，42，5，28，13]得益于这些方法，场景文本的检测与识别在过去

的几年中取得了明显的进展。我们的方法也受到这些方法的启发。具

体地，我们的方法是从一般对象实例分割模型Mask R-CNN [13]改编

的。然而，我们方法的掩码分支与Mask R-CNN中的掩码分支之间存

在关键我们的掩码分支不仅可以分割文本区域，而且还可以预测字符

概率图，这意味着我们的方法可以用于识别字符图中的实例序列，而

不仅仅是预测对象掩码。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MaskTextSpotter：端到端场景文本识别神经网络

人工智能大作业：关于计算文本相似度的深度神经网络模型与算法研究分析(BERT、SentenceBERT、SimCSE).zip

基于ELECTRA-CRF的电信网络诈骗案件文本命名实体识别模型.docx

自然语言处理-基于预训练模型的方法-笔记

掩码是如何参与神经网络训练的？

mask textspotter v3

如何利用Chinese-BERT-wwm模型进行中文文本分类任务的优化？请结合模型的全词掩码预训练技术进行解释。

大模型的预训练和微调

在设计一个多任务预训练的端到端任务导向对话系统时，如何有效利用预训练模型提升在低资源场景下的性能表现？

ChitGPT和chargpt一样吗

预训练语言模型关键技术

最新资源