PARSeq:革新场景文本识别的置换自回归模型

0 下载量 130 浏览量 更新于2024-06-19 收藏 1.77MB PDF 举报
本文主要探讨的是"基于PARSeq的场景文本识别"这一主题,由Darwin Bautista和Rowel Atienza两位作者,来自菲律宾大学电气和电子工程学院。PARSeq是一种创新的场景文本识别方法,针对传统上下文感知的自回归语言模型(ARLM)在处理图像条件依赖性问题上的局限性进行改进。ARLM通常依赖于内部模型,这可能导致错误地纠正预测,从而降低识别效率。 PARSeq的核心在于它利用置换语言建模(RLM)的概念,学习一组共享权重的内部ARLM,这种设计将上下文无关的非自回归模型和上下文感知的自回归推理结合起来。此外,该方法引入了双向上下文的迭代细化,进一步提高了识别精度。这种方法的优势在于其能够利用合成训练数据,在STR基准上达到了先进的性能,如达到91.9%的准确性,并在更具挑战性的数据集上也表现出色。 值得注意的是,当PARSeq在真实数据上进行训练时,它实现了新的SOTA结果,达到了96.0%的准确性。同时,它的设计使得在参数计数、计算复杂度(FLOPS)和延迟方面表现最优,因为其结构简洁,处理方式并行,对令牌进行高效处理。PARSeq的鲁棒性得益于广泛的跨模态注意力机制,使其能适应各种方向的文本,这在实际的图像场景中尤为关键。 与传统的光学字符识别(OCR)相比,STR在处理场景文本的多样性上有更高的要求,包括字体、方向、形状、照明、遮挡和传感器条件的不一致性。因此,PARSeq的提出对于提升STR在自动驾驶、增强现实等领域的实用性具有重要意义。 本文的创新之处在于它将自回归建模与置换语言模型相结合,以及引入双向上下文的优化策略,使得场景文本识别在处理复杂环境中的文本识别任务时表现出色。感兴趣的读者可以通过提供的GitHub链接获取代码、预训练权重和相关数据,以便进一步研究和应用。关键词包括场景文本识别、置换语言建模、自回归建模以及跨模态注意力。