FCN驱动的图像中文字符语义分割算法:精度85.7%与高效实时处理

需积分: 20 2 下载量 132 浏览量 更新于2024-08-13 收藏 1.35MB PDF 举报
本文主要探讨了基于全卷积神经网络(Fully Convolutional Network, FCN)的图像中文字目标语义分割技术。作者刘信良和王静秋,来自南京航空航天大学机电学院,提出了一个创新的方法来解决图像中文字目标的精确识别和区域划分问题。他们的工作重点在于提升语义分割的准确性,特别是在复杂图像背景下的文字定位。 首先,他们改进了全卷积神经网络架构,用于对输入图像中的文字目标进行初步分割。这种网络结构能够有效地捕获局部和全局特征,有助于区分文字与背景。通过这种方式,算法能够在不依赖于像素级标注的情况下,学习并预测每个像素属于文字还是非文字区域。 接着,他们采用了大津法(Otsu's Method),一种经典的二值化算法,对初步分割的结果进行细化,将图像区域划分为目标文字区域和背景。大津法的优点是能自动选择最佳阈值,实现高精度的边缘检测,帮助确定文字目标的边界。 在得到初步二值化结果后,算法进一步利用全连接条件随机场(Fully Connected Conditional Random Field, CRF)进行后处理。CRF是一种统计模型,它考虑了像素之间的局部上下文信息,能够更好地融合分割结果,提高整体的精度和一致性。 经过这一系列步骤,算法在测试集上的表现相当出色,达到了85.7%的准确率,这表明其在实际应用中具有很高的性能。同时,速度也相对较快,每幅图像的处理时间为0.181秒,这对于实时或高效的图像处理任务来说是非常关键的。 这项研究的意义在于提供了一种高效且精确的图像中文字目标语义分割解决方案,为后续的文字识别、OCR(Optical Character Recognition)系统以及图像内容理解等领域奠定了坚实基础。此外,他们还分享了新的数据集制作与增广方法,这有助于推动该领域其他研究者进一步优化模型和提高性能。 参考文献: 刘信良, 王静秋. 基于FCN的图像中文字目标语义分割. 计算机系统应用, 2020, 29(6): 175-180. <http://www.c-s-a.org.cn/1003-3254/7426.html>