阿拉伯文本OCR技术:字符切分与草书识别新突破

0 下载量 39 浏览量 更新于2024-06-17 收藏 1.83MB PDF 举报
"这篇学术论文发表在沙特国王大学学报上,主要探讨了阿拉伯文本字符切分技术在阿拉伯语OCR(光学字符识别)系统中的应用。研究者们提出了一种新的、字体无关的阿拉伯文本分词算法,旨在提高OCR系统的可靠性和效率。他们特别关注了阿拉伯草书的字符切分问题,因为草书的特性增加了识别的难度。" 文章中,字符切分被定义为阿拉伯文OCR系统的关键步骤,研究人员对其进行了深入研究。他们的算法基于二值线图像处理,通过垂直投影和四分位距(IQR)方法在第一级进行分词,区分词与词之间的间隙。在第二级,利用投影轮廓和一组独立于字体的统计及拓扑特征来确定正确的字符切分点,以提高准确性。 实验部分,该算法在APTI数据集上进行了测试,涵盖了多种字体、大小和风格的文本,共计1800行约24,816个单词。结果显示,平均分词准确率达到了97.7%,字符切分准确率为97.51%,这表明该算法在处理阿拉伯文本时表现出了较高的效率和可靠性。 文章的背景指出,尽管数字化信息的使用越来越普遍,但大量的阿拉伯文献尚未转化为数字形式,光学扫描只是第一步,必须通过OCR技术将图像转化为可搜索和编辑的文本。这一需求促进了对高效OCR系统的研究,尤其是在处理复杂如草书的阿拉伯文字时。 总结来说,这篇论文为阿拉伯文OCR技术的发展提供了重要的贡献,特别是其提出的字符切分算法,不仅提高了识别的准确率,而且具有字体无关性,对于处理多样化的阿拉伯文本具有广泛的适用性。这项工作对于数字图书馆、信息检索、搜索引擎优化以及其他依赖于文本分析的应用都具有深远的意义。