基于图元识别的高效OCR倾斜矫正快速算法：高精度与实时性

需积分: 37 7 浏览量更新于2024-08-11 收藏 682KB PDF 举报

本文档标题"基于图元识别的 OCR 文本图像倾斜矫正快速算法 (2004年)"聚焦于解决光学字符识别（Optical Character Recognition, OCR）中的一个重要问题，即如何提高图像倾斜校正的效率和精度。作者张秀山和吴产乐提出了一个创新的算法，该算法主要依靠文本图元识别技术来追踪字符中心线，从而实现对倾斜图像的精准矫正。算法的核心思想是利用图形基本元素识别（Graphic Primitive Recognition），这是一种基于字符或文字结构的特征识别方法。通过检测和识别图像中的文本图元，如字母、数字或特殊符号，系统可以确定每个字符的准确位置，进而计算出整个图像的倾斜角度。这种方法的优点在于其简单易行，同时由于对字符中心线的精确跟踪，确保了矫正后的结果具有很高的精度。值得注意的是，这种算法不仅注重速度，能够满足实时应用的需求，还表现出良好的抗噪性能，即使在图像存在一定程度噪声的情况下，也能有效地进行倾斜矫正，这对实际场景中的OCR应用非常重要，特别是在文档扫描或自动文档处理领域。作者们对比了他们的方法与瞿洋等人之前使用Hough变换进行图像倾斜矫正的方法，指出Hough变换虽然也是一种常见的图像处理技术，但可能在处理速度和精度上可能不如基于图元识别的算法。Hough变换依赖于寻找图像中的直线模式，而图元识别则更深入地利用了文本的结构信息，因此在特定情况下可能会提供更好的效果。总结来说，这篇论文提供了一个高效、精确且可靠的OCR图像倾斜矫正方案，特别适合需要实时处理大量倾斜文本数据的应用环境。通过图元识别技术，该算法能够在保持较低计算复杂度的同时，确保高质量的字符识别率，这对于提高整个OCR系统的整体性能具有重要意义。

文章编号：１００９－３４８６（２００４）０４－００４８－０５

基于图元识别的ＯＣＲ文本图像倾斜矫正快速算法

倡栘

张秀山

１

，吴产乐

２

（１．海军工程大学电子工程学院，湖北武汉４３００３３；２．武汉大学计算机学院，湖北武汉４３００７２）

摘　要：提出了一种基于文本图元识别以跟踪字符中心线的高精度矫正ＯＣＲ图像倾斜的快速算法，该算法

思想虽然简单，却具有高效和高精度的特点，同时还具有高可靠性和良好的抗噪特征．实验表明，该方法完全

满足实时应用的需要．

关键词：光学字符识别；倾斜矫正；图元识别；图元标准包围盒

中图分类号：ＴＰ３９１．４　　　　文献标识码：Ａ

ＡｒａｐｉｄａｌｇｏｒｉｔｈｍｔｏＯＣＲｉｍａｇｅｓｌａｎｔｃｏｒｒｅｃｔｉｏｎｂａｓｅｄｏｎｐｒｉｍｉｔｉｖｅｒｅｃｏｇｎｉｔｉｏｎ

ＺＨＡＮＧＸｉｕ‐ｓｈａｎ

１

，ＷＵＣｈａｎ‐ｌｅ

２

（１．ＥｌｅｃｔｒｏｎｉｃＥｎｇ．Ｃｏｌｌｅｇｅ，ＮａｖａｌＵｎｉｖ．ｏｆＥｎｇｉｎｅｅｒｉｎｇ，Ｗｕｈａｎ４３００３３，Ｃｈｉｎａ；

２．ＣｏｍｐｕｔｅｒＳｃｈｏｏｌ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｒａｐｉｄａｌｇｏｒｉｔｈｍｔｏＯＣＲｉｍａｇｅｓｌａｎｔｃｏｒｒｅｃｔｉｏｎ，ｗｈｉｃｈａｐｐｌｉｅｓｔｈｅ

ｇ

ｒａｐｈｉｃｐｒｉｍｉｔｉｖｅｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｉｑｕｅａｎｄｔｈｅｎｋｅｅｐｓｔｒａｃｋｏｆｔｈｅｃｈａｒａｃｔｅｒｃｅｎｔｅｒ‐ｌｉｎｅ．Ｔｈｏｕｇｈ

ｂｅｉｎｇｓｉｍｐｌｅ，ｔｈｅａｌｇｏｒｉｔｈｍｉｓｓｏｅｆｆｉｃｉｅｎｔ，ａｃｃｕｒａｔｅ，ａｎｄｒｅｌｉａｂｌｅｔｈａｔｉｔｃａｎｂｅｕｓｅｄｉｎｒｅａｌ‐ｉｍｅａｐｐｌｉ‐

ｃａｔｉｏｎｓ．

Ｋｅｙｗｏｒｄｓ：ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ；ｓｌａｎｔｃｏｒｒｅｃｔｉｏｎ；

ｇ

ｒａｐｈｉｃｐｒｉｍｉｔｉｖｅｒｅｃｏｇｎｉｔｉｏｎ；ｓｔａｎｄａｒｄ

ｂｏｕｎｄｉｎｇｂｏｘｆｏｒａｇｒａｐｈｉｃｐｒｉｍｉｔｉｖｅ

扫描的文本图像的倾斜度往往会影响字符的识别率，因此需要使用某种软件方法对图像进行矫正．

瞿洋等为此提出一种应用Ｈｏｕｇｈ变换

［１，２］

进行图像倾斜矫正的方法．利用Ｈｏｕｇｈ变换发现图像中的直

线模式的方法的突出缺点是计算量很大，尽管文献［１］采用分辨率层次模型以降低计算量，但算法与不

采用分层模型的时间复杂度是等量级的，它只是在常数意义上较优．假设Ｈｏｕｇｈ变换使用的累积矩阵

Ａ（

，

）的大小为ｍ × ｎ，则显然算法总的时间复杂度为

（ｍｎＳ），这里Ｓ是整幅图像的以像素为单位的

像素面积．另外，Ｈｏｕｇｈ变换应用在像文字等这种“粗直线”图像模式识别，若不考虑水平边缘提取时，

图像倾斜角度的精度取决于门限

的选取，而门限

的选取应依据字体大小以及字间距和行间距等排

版参数．事实上，文献［１］给出的门限

的动态范围很大，一般需要人工干预．

１　算法思想

一种简单的避免大量统计运算的跟踪直线的方法是跟踪同行同字号字符体的中心线，一旦确定了

中心线就可通过简单的几何运算来确定光学字符识别（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）图像的倾

　第１６卷　第４期

　２００４年８月

海军工程大学学报

ＪＯＵＲＮＡＬＯＦＮＡＶＡＬＵＮＩＶＥＲＳＩＴＹＯＦＥＮＧＩＮＥＥＲＩＮＧ　

Ｖｏｌ．１６　Ｎｏ．４

　Ａｕｇ．２００４　

倡

收稿日期：２００４‐０２‐０２；修订日期：２００４‐０４‐０２

基金项目：海军工程大学科学研究基金资助项目（ＨＧＤＪＪ０４０３４）

作者简介：张秀山（１９６８‐），男，讲师，博士生．

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38602098

粉丝: 3
资源: 963

基于图元识别的高效OCR倾斜矫正快速算法：高精度与实时性

旋转文本矫正（旋转文本以实现后续处理）

基于图像识别的CAD前处理技术研究.pdf

基于splat图元的弹塑性物体变形仿真新算法

二维填充图元的生成---图像填充算法

基于光栅显示器的反走样图元生成算法研究 (2010年)

图元：使用几何图元重现图像

一种基于GPU的图元网状结构DRR并行加速算法.pdf

基于图元的总图信息管理系统 (2003年)

基于图元向量的差异共表达分析研究

二维基本图元的生成 DDA算法 中点算法

最新资源

二维基本图元的生成 DDA算法中点算法