随机Hough变换驱动的阿拉伯文行倾斜校正与基线检测算法

111 浏览量更新于2024-06-17 收藏 1.92MB PDF 举报

本文主要探讨的是"基于随机Hough变换的阿拉伯文文档行倾斜校正算法"，发表在沙特国王大学的学术期刊上，由Abdelhak Boukharouba*等人提出。该研究针对阿拉伯文文档的特殊性，因为在阿拉伯语手稿中，字符通常在较低的基线上连接，因此，论文的核心技术着重于检测文本行的倾斜角度以及提取这些行的基线。在当前的文档处理领域，将纸质文件数字化并转换为电子形式是一项关键任务，它涵盖了文档分析和理解两个主要步骤（Tang等人，1996年）。文档分析包括结构布局分析和信息类型分析，而理解则涉及到识别文本内容和构建检索索引。在这个过程中，预处理阶段是关键，其中包括数字化、噪声去除和文档的校正，比如消除图像的偏斜。文章提出的算法利用随机Hough变换来确定文档行的倾斜角度，因为较低的基线像素位于单词图像的下边缘。通过这种方法，作者能够准确地找到文本行相对于水平方向的倾斜度。然后，他们采用y截距直方图来提取基线，这有助于定位文本行的主要方向，这对于后续的文字识别和排版至关重要。值得注意的是，该算法不仅适用于阿拉伯文文档，还具有普遍性，可以扩展到处理多种语言的倾斜文档图像。论文的作者强调了他们的方法对于阿拉伯文文档处理的重要性，并指出它能够在文档分析的多个阶段中发挥作用，尤其是在文档的倾斜校正这一关键环节。总结来说，这篇文章贡献了一个创新的文档处理技术，解决了阿拉伯文文档行的倾斜校正问题，并展示了如何有效地检测和利用基线信息。这项工作对于提高阿拉伯文电子文档的可读性和自动化处理能力具有重要意义，同时也为跨语言文档处理领域的研究者提供了新的思路和方法。

倾斜校正和基线检测算法

下

基线

图1阿拉伯文字的主要特征

（

一

）

（

）

第

（

）

款

（

）

第

（

）

款

（

）

其

他

事

项

（

五

）

图2举例说明了倾斜校正和基线检测算法：（a）倾斜的文本图像;（b）

连接在一起。然后利用该算法提取边缘图像，并将其

分割成若干条曲线。

在边缘分割步骤之后，去除孤立像素，并且还计

算所得曲线的平均长度

接下来，保留长度大于或等

于

的曲线通过在

处进行阈值化，诸如点、标点符号

和没有较低基线的字符的分量的小边缘大多被过滤

掉。以这种方式，在偏斜估计步骤之前过滤掉小的分

段，参见图。 2杯因此，我们大大减少了将用于偏斜

和基线检测的数据量。接下来，将随机化霍夫变换应

用于所得曲线的像素以检测直边缘。

传统的Hough变换是一个投票过程，需要对图像中

所有通过给定黑色像素的直线的集合累积不同参数的计

数。这种变换需要大量的存储需求和昂贵的计算成本，

这取决于黑色像素的数量和要被转换的参数的数量

点

子词

孤立字符

剩余14页未读，继续阅读

cpongm

粉丝: 6

随机Hough变换驱动的阿拉伯文行倾斜校正与基线检测算法

基于Hough变换的手写体维文字符倾斜校正算法

一种新的基于随机hough变换的椭圆检测算法

Houghbianhuan.rar_C#倾斜校正_deskew_hough变换校正_倾斜校正_校正

基于随机Hough变换的三维集中式航迹起始算法

基于Hough变换的票据图像倾斜校正 (2012年)

基于随机hough变换的圆检测

基于改进随机Hough变换的直线检测算法

一种新的基于随机Hough变换的椭圆检测方法

基于标准 Hough 变换、修正 Hough 变换和序列 Hough 变换实现航迹起始算法研究Matlab代码.rar

基于随机Hough变换的高效椭圆检测新法

最新资源