空间变换+密集卷积:提升复杂场景下敏感文字识别效率

需积分: 19 2 下载量 55 浏览量 更新于2024-08-13 收藏 1.18MB PDF 举报
在当前互联网环境中,图片敏感文字识别面临诸多挑战,尤其是在多字体混合、形变、拉伸、左右结构字形和倾斜畸变等复杂场景下,传统的图像处理方法往往难以有效提取特征并实现高识别率。针对这一问题,本文提出了一种基于空间变换网络(Spatial Transformation Network, STN)和密集卷积神经网络(Dense Convolutional Neural Network, DCNN)的图片敏感文字识别方法。 空间变换网络被用来矫正图片中的文字变形和不规则排列,通过学习局部区域的映射关系,将原始图像转换为更易于处理的形式,有助于提高特征提取的精度。密集卷积神经网络则利用其丰富的层次结构,对图像进行深度学习,捕捉多尺度和多级别的特征,这对于处理复杂的文字形态至关重要。 作者采用了深度双向门控循环单元(Deep Bidirectional Gated Recurrent Unit, Bi-GRU)来处理序列特征信息。这种网络结构能够同时考虑过去和未来的信息,从而更好地理解和预测文字的上下文,对于处理距离较宽或模糊的文字具有显著优势。此外,文中还采用了连接时域的CTC(Connectionist Temporal Classification)算法,这是一种无监督的序列标注技术,能够直接从序列数据中学习到最优的标注路径,进一步提高了识别准确率。 实验结果显示,该模型在Caffe-OCR中文合成数据集上达到了87.0%的识别准确率,而在CTW数据集上的表现更为出色,达到了90.3%。值得注意的是,整个模型的平均识别时间保持在每张图片26.3毫秒,显示了良好的实时性能。 总结来说,本文的研究创新性地结合了空间变换网络和密集卷积神经网络,以及深度双向GRU和CTC算法,成功地提升了敏感文字图片的识别效率和准确性,为实际应用提供了有效的解决方案。对于互联网内容监控、文档自动化处理等领域具有重要的实际价值。