实例转换网络驱动的场景文本检测:面向复杂几何布局的鲁棒识别

0 下载量 161 浏览量 更新于2024-08-26 收藏 2.5MB PDF 举报
本文探讨了在复杂几何布局情况下,如随机方向和大纵横比的场景文本检测中的挑战,并提出了一个创新的解决方案——几何感知场景文本检测(Geometry-AwareSceneTextDetection)模型,该模型结合了实例转换网络(Instance Transformation Network, ITN)。ITN的核心是其独特的架构,它通过端到端的学习方式,设计了一个能够编码场景文本实例独特几何配置的网络变换嵌入,从而实现对文本行或单词的鲁棒且优雅的一次性检测。 ITN的关键组件包括三个主要任务:1)实例变换回归:该任务训练网络学习如何根据输入的图像特征预测文本实例的几何变换参数,以便将其调整到标准的、易于处理的布局中。这有助于消除由目标对象的随机旋转和大小变化带来的识别难题。 2)文本/非文本分类:该模块负责区分图像中的文本区域和其他非文本区域,通过区分二元类别来增强模型的定位精度。 3)坐标回归:在ITN中,坐标回归任务用于精确地确定文本框的位置,确保检测结果的准确性。 在实验部分,作者在多个基准数据集上进行了详尽的评估,包括IIT-5K、COCO-Text、CTW1500等,这些数据集涵盖了各种复杂的场景和文本形态。结果显示,与传统的基于深度学习的方法相比,具有实例转换网络的几何感知模型在准确性和鲁棒性上都有显著提升,尤其是在处理倾斜和长条形文本时表现出色。 此外,本文的贡献还包括了一种多任务学习策略,这种策略能够有效地整合上述任务,提高了整体模型的性能和效率。这篇研究论文提供了一个新颖的视角,即通过考虑几何信息和实例变换来改进场景文本检测的性能,这对于实际应用中的文本检测系统,如自动驾驶、图像搜索和文档分析等领域具有重要的意义。