实例转换网络驱动的场景文本检测：面向复杂几何布局的鲁棒识别

161 浏览量更新于2024-08-26 收藏 2.5MB PDF 举报

本文探讨了在复杂几何布局情况下，如随机方向和大纵横比的场景文本检测中的挑战，并提出了一个创新的解决方案——几何感知场景文本检测（Geometry-AwareSceneTextDetection）模型，该模型结合了实例转换网络（Instance Transformation Network, ITN）。ITN的核心是其独特的架构，它通过端到端的学习方式，设计了一个能够编码场景文本实例独特几何配置的网络变换嵌入，从而实现对文本行或单词的鲁棒且优雅的一次性检测。 ITN的关键组件包括三个主要任务：1）实例变换回归：该任务训练网络学习如何根据输入的图像特征预测文本实例的几何变换参数，以便将其调整到标准的、易于处理的布局中。这有助于消除由目标对象的随机旋转和大小变化带来的识别难题。 2）文本/非文本分类：该模块负责区分图像中的文本区域和其他非文本区域，通过区分二元类别来增强模型的定位精度。 3）坐标回归：在ITN中，坐标回归任务用于精确地确定文本框的位置，确保检测结果的准确性。在实验部分，作者在多个基准数据集上进行了详尽的评估，包括IIT-5K、COCO-Text、CTW1500等，这些数据集涵盖了各种复杂的场景和文本形态。结果显示，与传统的基于深度学习的方法相比，具有实例转换网络的几何感知模型在准确性和鲁棒性上都有显著提升，尤其是在处理倾斜和长条形文本时表现出色。此外，本文的贡献还包括了一种多任务学习策略，这种策略能够有效地整合上述任务，提高了整体模型的性能和效率。这篇研究论文提供了一个新颖的视角，即通过考虑几何信息和实例变换来改进场景文本检测的性能，这对于实际应用中的文本检测系统，如自动驾驶、图像搜索和文档分析等领域具有重要的意义。

weixin_38737521

粉丝: 5
资源: 909

实例转换网络驱动的场景文本检测：面向复杂几何布局的鲁棒识别

基于特征金字塔的场景文本检测

Vue+Echarts监控大屏实例十一：网络态势感知监控模板实例

基于X3D的虚拟场景建模方法* (2009年)

计算几何中的计算机视觉应用：从图像处理到物体识别（赋能人工智能）

YOLO算法的最新进展：算法创新与应用拓展，引领目标检测新时代

【colorsys与机器学习】：将颜色转换用于图像识别，颜色转换在图像处理中的机器学习应用

深入Pillow库：图像转换和调整技巧详解

【数据增强高级技巧】：Python中提升神经网络性能的策略

(源码)基于Spring Boot和JWT的饮品管理系统.zip

阿里巴巴发布的XQUIC库是QUIC和HTTP3协议的跨平台实现.zip

最新资源