MaskTextSpotter:端到端场景文本识别神经网络

0 下载量 163 浏览量 更新于2024-06-20 收藏 1.55MB PDF 举报
“掩码TextSpotter:端到端可训练的场景文本识别神经网络模型” 掩码TextSpotter是一种创新的神经网络模型,专为识别自然图像中的任意形状文本而设计。该模型由吕鹏远、廖明辉、丛瑶、吴文浩和向白等人提出,分别来自华中科技大学和旷视(Face++)科技股份有限公司。他们受Mask R-CNN的启发,创建了一个端到端的学习框架,旨在同时解决文本检测和识别的问题。 传统的文本检测和识别方法通常将这两个任务分开处理,先用检测器找出文本区域,然后进行识别。然而,这种方法可能会导致性能的下降,因为检测和识别之间存在着密切的关联。掩码TextSpotter通过引入语义分割技术,克服了这一限制,能够在单个模型中实现对不规则形状文本的精确检测和识别,特别适合处理弯曲或其他复杂形状的文本实例。 该模型的核心在于其端到端的训练机制。它允许模型直接从原始图像中学习,无需预先提取的文本框,从而简化了学习过程并提高了整体性能。通过结合语义分割和识别,掩码TextSpotter能够生成平滑的文本掩码,进一步提升对复杂文本实例的识别准确率。 实验结果显示,掩码TextSpotter在ICDAR 2013、ICDAR 2015和Total-Text等多个数据集上表现出色,证明了其在场景文本检测和端到端文本识别任务中的高效性和准确性。这一成果对于推动计算机视觉领域的进步,尤其是场景文本理解,具有重要意义。它不仅有助于提高自动化系统的文本处理能力,还为地理定位、即时翻译、盲人辅助等实际应用提供了技术支持。 关键词涵盖场景文本识别、神经网络以及任意形状文本处理,反映了该模型的主要研究方向和技术焦点。掩码TextSpotter是深度学习在场景文本识别领域的一个重要突破,为未来的研究提供了新的思路和方法。