流形正则化T-SVM提升场景文本识别性能:84.91% ICDAR2015准确率

0 下载量 94 浏览量 更新于2024-06-17 收藏 2.15MB PDF 举报
本文探讨了"流形正则化双支持向量机在场景文本识别中的应用"这一主题,由Leena Mary Francis和N.斯雷纳特两位学者在沙特国王大学计算机科学与工程系进行的研究。自然场景中的文本识别一直以来都是一个极具挑战性的任务,由于文本在不同环境下呈现的高度多样性,对算法的鲁棒性和准确性提出了高要求。 研究人员提出的创新工作主要集中在改进Twin Support Vector Machine (T-SVM) 的泛化性能上,通过引入流形正则化技术。这种正则化策略同时考虑了环境正则项和内在正则项,旨在构建平滑的模型,减少过拟合,提高在复杂场景中的识别能力。在处理自然场景文本时,该模型不仅关注文本定位,还包含一个重新验证模块,以消除定位阶段可能产生的误报。 在识别阶段,模型逐个识别文本对象中的每个字符,并将其作为输入传递给文本构建阶段,利用与对象关联的坐标信息构建最终的文本。这种方法将模型与传统的支持向量机(SVM)、T-SVM以及LST-SVM(最小二乘双支持向量机)等进行了比较,结果显示在ICDAR2015数据集上的准确率达到84.91%,在MSRA500数据集上为84.21%,而在SVT数据集上的表现更佳,达到86.21%。这些实验结果表明,流形正则化双支持向量机在场景文本识别任务中表现出良好的识别精度和性能,能有效地处理文本对象的多样性和复杂性。 该研究发表在《沙特国王大学学报》上,以开放获取的形式发布,遵循CCBY-NC-ND许可证,允许在非商业且不改变作品原貌的前提下进行分享。随着信息技术的发展,计算机视觉特别是文本识别的重要性日益凸显,本文的工作为这一领域的进展提供了新的思路和技术支撑。