基于CNN与MSER的蒙古文自然场景文本检测提升策略

0 下载量 78 浏览量 更新于2024-08-28 收藏 1.09MB PDF 举报
本篇研究论文探讨了在自然场景图像中的蒙古文文本检测方法,特别关注于结合卷积神经网络(CNN)与最大稳定极值区域(MSER)算法。MSER是一种广泛应用于文本检测的经典算法,因其稳定性而受到重视。然而,蒙古文文本在自然场景中的复杂背景,如存在大量噪声、形状各异的文字和多变的环境条件,使得区分文本和非文本连接区域变得困难,从而降低了MSER算法的鲁棒性。 作者 Yunxue Shao 和 Hongyu Suo 提出了一种创新的解决方案。首先,他们利用MSER算法来识别自然场景图片中的连通区域,这种方法能有效处理复杂的背景并提高文本区域的定位精度。接着,他们引入了卷积神经网络,作为一种深度学习模型,用于训练一个高性能的文本分类器。CNN的深层次特征提取能力有助于更好地理解图像中的模式,从而提高对提取出的连通区域进行文本识别的准确性。 实验部分,该方法是在内蒙古大学计算机科学学院建立的CSIMU-MTR数据集上进行评估的。结果显示,新提出的蒙古文文本检测方法表现出色,召回率达到了0.75,准确率达到了0.83,F-score为0.79,相较于先前的方法有了显著提升。这些结果证明了该方法对于自然场景中蒙古文文本检测的高效性和有效性。 通过这篇论文,研究人员不仅改进了传统MSER算法在复杂背景下的性能,还展示了深度学习技术在文本检测领域的潜力。这对于实际应用,如文档分析、图像搜索和自动化文档处理等领域具有重要意义,因为准确的蒙古文文本检测可以促进跨语言信息的检索和理解。这项工作为进一步提升自然场景文本检测的准确性和鲁棒性提供了新的研究方向和技术支持。