印刷阿拉伯文本行提取算法研究：无需学习，快速高效

114 浏览量更新于2024-01-17 收藏 3.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种免学习的区分符号Aziz QaroushZhao，Abdalkarim Awad，Abualsoud Hanani，Khader Mohammad，Basam Jaber，AlaHasheesh巴勒斯坦比尔宰特大学电子和计算机工程系阿提奇莱因福奥文章历史记录：2021年9月30日收到2022年3月27日修订2022年4月30日接受2022年5月11日网上发售保留字：阿拉伯语OCR草书字母变音符号文本行分割投影轮廓A B S T R A C T从文档图像中提取文本行是光学字符识别的关键步骤。它仍然被认为是一个开放的文档分析问题。大量的字体变化、变音符号、重叠和接触文本行的存在在本文中，我们提出了一个简单而强大的文本行提取算法的印刷阿拉伯文。该方法分为两个阶段：预处理和文本行提取。它通过利用基线、投影轮廓和自上而下的分而治之技术，有效地提取文本行，即使是小字体。该方法在处理非均匀行距和文本行重叠问题时是快速有效的。在收集的数据集上进行了一组实验。实验表明，该方法优于两种基线方法，在没有变音符号的阿拉伯语文本上的平均错误率为3%，在有变音符号的阿拉伯语文本上的平均错误率为11%此外，实验表明，该算法具有简单的计算运行时间，平均运行时间为每个文档图像0.087 s。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍图像中存在文本，例如扫描文档（例如，教科书、杂志、报纸、历史文档等）和照片，增加了对自动处理的需要，即所谓的光学字符识别（OCR），以识别文本图像，使得它们可以是电子可编辑的（Zoizou等人，2020年）。这样的转换使得不可变的文件可搜索，使得文本编辑容易，防止人为错误，节省时间和金钱，并且节省空间（Qaroush等人， 2022年）。此外，由于存在许多数据输入应用程序（例如，护照文件、银行账单、名片、牌照识别系统或任何形式的打印记录）、基于内容的图像理解系统*通讯作者。电子邮件地址：aqaroush@birzeit.edu（A.Qaroush），akarim@birzeit.edu（ A.Awad ），ahanani@birzeit.edu（ A.Hanani ），khamadawwad@birzeit.edu（K.Mohammad）。沙特国王大学负责同行审查制作和主办：ElsevierTEM和信息检索系统（例如，搜索引擎）（Perwej等人， 2014年）。光学字符识别是一种专门设计的系统，用于将文本图像转换为可编辑的形式。这种转换经历了六个主要的顺序阶段：图像采集，预处理，图像分割，特征提取，对象识别和后处理（Alghamdi和Teahan，2018）。一些OCR系统依赖于分割，而另一些则不依赖于分割（无分割）（Alginahi，2013; Mohammad等人，2019年）。然而，这两种方法都需要在文本行级别的分割阶段，这被认为是重要的提取文本行正确。文本行提取是OCR系统开发的基础和关键阶段。文本行分割的主要目标是识别属于文本行的所有像素虽然机器打印文本的文本行分割通常被视为已解决的问题，但打印阿拉伯文本的文本行分割仍然是一个重大挑战。此外，对于一般（与语言无关）文本行分割挑战，例如输入图像的质量（例如存在噪声，模糊，偏斜，倾斜和图像退化）和扫描图像的布局复杂性（Hamad和Kaya，2016; Kumar等人，2010年），阿拉伯文本具有一组独特的特征，使得文本行分割具有挑战性，包括（Ahmed和Al-Ohali，2000年; Zeki和Zakaria，2004年; Mahmood，2013年）：（i）阿拉伯文本是从右到左书写的;（ii）阿拉伯文本有各种字体类型，https://doi.org/10.1016/j.jksuci.2022.04.0211319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7700导致不规则和多样的字符形状（高度和宽度）和轮廓。(iii)单词通常分为子单词和字母，这使得它们之间的空间可变。(iv)相邻文本行中的字符可以被触摸或重叠，这被视为文本行提取中的主要挑战，以及（v）称为“Harakat”的变音成分的存在事实上，变音符号在单词的意义中起着重要的作用，其中一个单词具有不同的变音符号会导致不同的含义。它们广泛用于宗教相关的文档（例如，古兰经），文学文本和历史文献。阿拉伯书法规范有助于减少每两个连续行之间的空白。这使得正确的分割点确定复杂化。图1示出了字体类型、样式、大小以及在两个连续文本行之间的间隙上的变音符号的存在的影响的示例。水平投影显示，当使用小字体和粗体时，缝隙变窄，分离变得不清楚，难以定位，如图1.d所示。此外，当存在批评者时，情况会恶化，如图所示。 1. e.已经开发了许多方法来分割打印的阿拉伯语文本行。然而，所描述的方法有几个缺陷，可以总结如下：变音符号在阿拉伯语单词的解释中起着重要的作用然而，据我们所知，没有一个建议的文本行分割方法已被评估印刷阿拉伯语文本与变音符号。一些建议的文本行分割方法被设计为依赖于字体类型、大小和样式。此外，其中一些是利用通常需要重新估计的预定义参数和阈值开发的大多数提供的算法的前提是，有一个连续的文本行，这有利于文本行提取之间的大量空白。这并不总是有效的阿拉伯语脚本，特别是当它涉及到大胆的风格，小字体大小，和变音符号的存在大多数建议的文本行分割方法打印阿拉伯文本是耗时的。本文提出了一种简单有效的印刷体阿拉伯文文本行提取算法。提出的方法可以被分类为自上而下、投影轮廓或分而治之。它是一种依赖于基线的方法，分为两个主要阶段：预处理和文本行提取。该方法的主要优点是能够提取由某些字体类型、微小字体大小、粗体风格和变音符号引起的行间重叠和接触字母的文本行实验结果表明，该策略是更有效的，优于其他策略被用作基线。因此，本文的主要贡献可以总结如下：提出一个简单的无参数（即，不需要训练步骤来优化参数值）的方法来解决行间重叠问题，行间重叠问题被认为是文本行分割中最棘手的问题，尤其是当存在附加符号时。提出了一个文本行提取算法的打印阿拉伯语文本，没有变音符号，是模块化和计算效率。具有广泛的字体变体（例如，类型、大小和样式），所提出的文本行提取算法提供了高效且稳定的性能。此外，评估阶段的结果表明，建议的方法优于国家的最先进的方法。本文的其余部分组织如下。在第二节中，我们简要回顾和讨论相关的工作。我们在第3节中详细介绍了我们的方法。数据集，方法和我们的实验结果在第4节，最后，我们总结我们的工作在第5节。2. 相关工作大量的文献研究解决了文本行提取的问题。回顾的研究可以分为基于经典的和基于学习的（Kundu等人，2020;Belabiod和Belaïd，2018），如图2所示。基于经典（传统）的文本行提取方法可以分为三个主要类别：自底向上，自顶向下和混合（ Shafait 和 Breuel ，2008）。在自上而下的方法中，整个图像被递归地分割成较小的隔离区域（即，段）图1.一、字体类型、样式、大小和附加符号的存在对相邻文本行之间的间隙和重叠的影响（a）Times new roman，Regular，12pt，单行间距。（b）标准，规则，12磅，单行间距。（c）粗体字，12磅，单行间距。（d）粗体字，10磅。（e）粗体，10磅，变音符号，单行间距。●●●●●●●●A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7701图二. 文本行提取方法。输入文档图像的各种全局方面，然后这些区域进一步划分为行、词和字符（Pavlidis和Zhou，1991）。自上而下适用于简单的曼哈顿布局，并且在更高级别的分割（例如，列或段落级别分割）中具有良好的准确性。然而，自上而下的方法假设在连续文本行之间存在显著的空间，并且行是合理的直的（Shafait和Breuel，2008）。因此，它们不能直接应用于阿拉伯文字，特别是考虑到变音符号的存在。自上而下的方法求助于投影轮廓、霍夫变换、涂抹和接缝弯曲（Ptak等人，2017; Neche等人， 2019年）。投影轮廓被认为是机印文档最简单、最有效的自顶向下方法。它们基于将文档像素投影到图像的Y轴中，然后分割点的位置对应于投影轮廓的局部最小值（或零）（Pavlidis和Zhou，1991; Ptak等人，2017; Arivazhagan等人，2007年;他和唐顿，2003年;他和达塔，2003年;苏莱曼例如，2019年）。投影轮廓方法提供了一种非常快速的方法来创建图像中空对象和相关对象之间的清晰分离。然而，它们不能实现多偏斜和重叠的文本行的足够结果，因为它们假设文本行是平行的，并且它们之间具有足够的间隙。基于Hough的方法基于使用Hough变换来寻找直线中的结构，诸如文本行（Pu和Shi ， 1998; Louloudis 等人， 2006;Likforman-Sulem 等人，1995;Saha等人，2010年）。它们可以处理具有经典曼哈顿结构的文档，具有不同的方向。但是，当基线不直，文本分布在不同的列中或包含表格结构时，它们的性能会迅速下降。在基于涂片的方法中（Shi和Govindaraju，2004; Malakar等人，2012; Li等人，2008年; Wong等人，1982; Barakat等人， 2019），水平方向上的连续空白空间基于某个阈值用黑色像素填充。基于涂抹的方法旨在增强文本行结构，并在大多数情况下提供良好的结果然而，它在重叠和倾斜的文本行的情况下失败。独立于语言的接缝雕刻方法通过构建能量图来创建笔划以分离文本行，然后计算由文本行之间的空间引起的最小能量接缝（ Saabni 和 El-Sana ， 2011; Arvanitopoulos 和Süsstrunk，2014;Zhang和Tan，2014; Saabni，2018; Seuret等人， 2017年）。由于它们使用距离变换来构建能量图，并且在约束不足的情况下，计算出的接缝可能会穿过多个相邻文本行之间的间隙因此，这些方法不能直接使用，除非两个后续文本行之间的间隙很大或文本行是直的。在自下而上的方法中，首先使用基于连接组件的方法将文档图像分割成较小的部分。然后，这些部分然后基于相邻片段之间的不同几何关系（诸如距离、大小、重叠、黑色像素的分布、直方图和热图）被合并或聚类（Shafait和Breuel，2008; Kise等人，1998年6月;Louloudis等人， 2006; Likforman-Sulem 和 Faure ， 1994; Pu 和 Shi ， 1999;Gorman，1993; Nicolas等人， 2004; Koo和Cho，2012; Ryu等人，2014; Rabaev等人，2013; Gruuuening等人，2017; Barakat等人，2020年a）。自底向上方法使用各种合并技术来识别文档图像中的文本行，诸如启发式规则（Likforman-Sulem和Faure，1994）、学习算法（Pu和Shi，1999）、最近邻（Gorman，1993）和搜索树（Nicolas等人，2004年）。它们具有处理噪声问题和书写变化的优点。此外，仅基于连接组件的自底向上方法速度快，可以处理复杂的布局。然而，这些方法对组件的拓扑变化敏感，并且通常难以分离接触的文本行。此外，它们可能依赖于脚本。混合方法基于使用自上而下和自下而上方法的组合来克服两种经典方法的弱点（Shafait和Breuel，2008;这些方法主要集中在分析连通分量和它们之间的空白混合方法可以处理自底向上方法引起的过分割问题，并且在处理非矩形文本区域时表现得比自顶向下方法更好。然而，确定组件分隔符并不是一件容易的事情，Dai-Ton等人。（2016年）。此外，它们是计算上昂贵的方法。大多数经典技术都是基于规则的方法。不同的图像预处理技术，例如二值化、细化、倾斜校正等，以考虑图像文档结构的此外，一些经典的技术需要关于文档图像的先验信息，诸如行间间距、字间隙等。为了控制分割方法（Kundu等人，2020年）。另一方面，机器学习方法（Kundu等人，2020; Kundu等人，2020; Renton等人，2018; Oliveira等人，2018; Neche等人，2019; Barakat等人，2020 b; Patkar，2019;Jiang等人，2021; Huang等人，2020;Huang等人， 2021）处理图像作为一个整体，没有任何关于文档结构的先验信息（Belabiod和Belaïd，2018）。它们可以被归类为一种分组方法，并将文本行分割视为像素分类问题（Barakat等人，2018年）。学习方法可以固有地分割具有复杂布局的文档（Kundu等人， 2020年）。此外，它们对图像变换和噪声的鲁棒性比经典方法更强（Aldavert和Rusiñol，2018）。然而，诸如卷积神经网络（CNN）（OliveiraA. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7702--ðÞð Þw0 1ð Þ ðÞ例如，2018; Barakat等人，2020 b）、全卷积网络（FCN）（Renton等人，2018; Barakat等人，2021 a; Mechi等人， 2019），生成对抗网络（GANs）（Kundu等人，2020年），需要大量的注释数据集来训练分类器，这需要大量的标记工作。此外，使用这些方法来提取斑块级的特征在计算上是昂贵的（Barakat等人，2 0 2 1 b）。3. 免学习、分而治之的文本行提取阿拉伯文印刷文档图像的文本行提取的建议方法处理以下挑战：（i）字体变化（例如，字体类型，大小和样式），（ii）倾斜的文本行，（iii）行间重叠或接触，以及（iv）存在的变音符号。我们的文本行分割方法包括两个主要阶段：预处理和文本行提取。在下面的两节中，我们将详细描述这些阶段。值得一提的是，所提出的方法是基于一系列的图像处理方法。因此，我们使用伪码算法描述所提出的方法。3.1. 图像预处理预处理是提高文本行分割算法精度的必要步骤它的目标是通过删除有害或无关紧要的内容并改进文档图像中的有用结构来准备输入文档图像的某些预处理技术独立于字体变化，在某些情况下，独立于文档结构。预处理阶段分为三个部分：图像二值化、倾斜检测与校正、文本段边界裁剪。图像二值化是将灰度图像文档转换为仅由黑色和白色像素组成的二值图像的过程。二值化的主要目标是清理图像并降低其维数。这加速了图像处理，同时也提高了文本行结构的通用性（Suleyman等人，2019年）。要将图像转换为二进制形式，必须选择阈值。文献Chaki等人（2014）中介绍了几种用于文档二进制化的方法。我们使用Otsu此外，它还具有计算简单的优点。它的工作原理是穷举搜索减少类内变化的全局阈值，其形式上定义为两个类的方差的加权和：r2tx0tr2tx1tr2t1其中x0和x1权重是两个类的概率由阈值t分开，并且r2和r2是伊兹密尔）。即使有少量的倾斜，文本行分割的准确性也会降低。作为直接结果，检测和校正偏斜是重要的预处理步骤。在文献中已经提出了几种用于检测和校正偏斜的方法最流行的方法是投影轮廓、霍夫变换和最近邻方法（Al-Khatatneh等人，2015; Huang等人，2019年）。在这种情况下，我们使用Hough变换方法。虽然Hough变换通常需要大量的计算，但它具有很高的准确性，并且适用于小的和大的倾斜角。此外，由于霍夫变换具有Onh的复杂度，其中n是坐标（前景像素）的数量，霍夫变换的计算时间可以大大缩短随着前景像素N（例如，文本行像素）减小到更大程度而减小。因此，在应用形态学闭合方法之后，我们对二进制图像应用Hough变换，然后进行细化形态学操作。霍夫变换是用于检测数字图像中的结构（诸如文本行）的公知技术。它是一种线到点变换，其中文档图像的每个线点（例如，黑色像素）从笛卡尔空间转换到q正弦曲线h-Hough空间使用的变换作用：q1-xcosh-溶血素h-2-笛卡尔空间中的每一个直线点都可以很容易地变换成所有可能通过霍夫空间中该点的直线，其坐标为q和h。沿q和h方向的分辨率基于Louloudis等人（2009）设置，以将qh参数空间细分为所谓的累加器单元以构建Hough域。计算了文件的倾斜角度，在计算累加器单元之后，通过对对应于文本图像中最强文本行的最高累加器峰值的H值求平均来计算。因此，如果文本方向的斜率为正，则文本文档顺时针去偏斜;否则，文本文档逆时针去偏斜。睿的最后，使用等式中定义的变换函数。3、每个像素的新坐标X;Yx;y计算了图 3.d示出了图3的校正的文本图像。 3.c.X1/4 xcosh-溶血素h;Y1/4xcosh-溶血素h删除文本段周围的空白。这一步需要删除文本段周围的空白，每边只留下1个像素的空白此外，它需要去除扫描线，扫描线是由于折叠页面而导致的页面侧面上的垂直线空间和扫描线的存在影响计算投影轮廓，这又影响计算初始分割点。在这种情况下，我们使用沿X和Y轴的投影轮廓。那么在文本段中，我们寻找最长的连续行0 1两个班级。图3.b示出了应用于图3的输入文本图像的Otsu方法的输出。3. a.倾斜检测和校正。扫描文档时，图像可能会略微倾斜（与水平线成一定角度（垂直和水平），没有零投影值。最后，基于最长连续行的开始和结束切割文本段。为了避免离群值（在文本段内投影等于零），图三. 预处理步骤的输出。(a)输入文本图像。(b)图像二值化输出。(c)纠正图像。(d)修剪图像。A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7703-←←þ←← ðÞðÞ←-←X应用投影轮廓。图3.d示出了在修剪间隔和去除扫描线之后的二值化文本线图像。算法1总结了我们的文本行预处理过程。这源于我们处理这些问题的直接方法，其中包括搜索最佳切割路径，该路径不会从生产线上删除任何零件或添加任何其他零件。从下面或上面的线部分。建议的文本行外接-算法1预处理算法1：输入：扫描文档或文本segment//图像二值化2：threshold←Otsu0s扫描的文档或文本-segment3：二值图像图像二值化阈值// Skew detection and coorection4：closedImage←morphologicalClosing关闭二进制图像5：thinned Image←morphological Thinning关闭Image6：对于thinned Imagetx;y中的每一个坐标xx;yy，thinning做7：qxcoshysinh8：结束9：设m←重复次数<$q;h<$10：对于每个 q;h do11：计算m12：结束13：skewh←averagehmax peaks ofm14：如果slop为正，则15：逆时针旋转16：其他17：顺时针旋转18：如果结束19：对于tx;ydo中的每个像素20：X xcoshysinh;Y xcoshysinh21：结束//删除空格22：filledImage←morphologicalDilation二进制图像23：vp←vverticalProjection填充图像24：whilepuzzilengthpuzzv puzzo<25： if[i]！那么，26：length←length=127：flag←028：否则，如果pvp/i]0和flag0，29：list：add长度;i-长度;i长度30：标记131：如果结束第32章：结束33：width←最大值列表34：hp←投影填充图像填充35：while [i<] length [i]hp[i] do [36：if[i] hp[i]！1/40然后37：长度←长度1/3 38：标志←039：否则，如果hhp = 1/2/1/20并且flag= 1/2/2/0，则40：list：add长度;i-长度;i长度41：标记142：如果结束第43章：结束44：height←最大值45：cleanedImage←imageCrop宽度;高度46：输出：CleanedImage3.2. 文本行提取从打印文本中提取文本行的常用方法是剪切HP等于零（或有时HP最小）的页面或文本段。然而，由于存在重叠和接触的字符，这种直接的方法导致欠分割（当没有HP等于零的索引时）或过分割问题（当使用最小HP值切割我们的主要贡献-该方法主要是采用递归分而治之策略的投影轮廓方法。它分为两个步骤：基线检测和递归文本行提取。阿拉伯文字是从右向左书写的，字符通过一条虚拟线（称为基线）相互连接或连接，这被认为是任何草书最重要的特征之一。基线的检测是草书文本识别中的一个重要步骤。除了行分割之外，它还用于阿拉伯字符分割，并为特征提取准备文本。在文献中已经提出了几种方法用于基线检测。最流行的方法是水平投影、霍夫变换、Voronoi图、单词骨架和熵方法（Naz等人，2014年）。这里我们使用水平投影法。水平投影法是一种著名的基线检测方法。它易于实现并且鲁棒，特别是对于直线打印文本（Naz等人，2014年）。水平投影、平滑和峰值检测是所提出的基线检测阶段中的三个步骤。水平投影是跨每列中的所有行的输入二进制图像中的所有黑色（即，ON）像素的总和。方程式Eq. 4提供了该定义的数学表示，其中ri是第i行，C是列数，cj是第j列：Cr i¼2014年12月24日第1页投影轮廓中的峰值可成功用于检测基线。然而，有一些失真和局部最大值，可以干扰检测。因此，我们使用了具有5个阶段和增量窗口大小为3、5、7、11和13的平滑滤波器。实验结果表明，这些值确保了对噪声和水平投影内的局部峰值的高消除应用平滑滤波器后的结果如图4所示。最后，将这些顺序操作后得到的最大峰值作为第二步，文本行提取通过裁剪位于两个连续的水平峰值之间的文本线段开始，如图5所示。如图所示，裁剪的片段。 5、包含整行内容以及上下文本行的其他部分。为了移除这些部分，我们首先在文本行线段的基线索引的上方和下方寻找等于零的HP。如果有，我们移除在基线索引之上的HP等于零的索引之上的黑色像素，以及在基线索引之下的HP等于零的索引之下的黑色像素。如果有两个或两个以上的HP等于零的区域，我们选择连续零的较宽区域，因为点比变音符号更接近，我们更强调将点保持在行中而不是变音符号。如果没有HP等于零，则该方法使用递归分治法来寻找最优剪切路径，从而将文本线段分为左右两部分，并检查每一段的基线索引上下HP是否等于零。如果该条件如果满足，则切割该段并完成提取。否则，再次划分片段（左和/或右），并且重复该过程。图5.c中示出了图5.b的线段的生成的线段。最后，将分而治之步骤得到的段归一化为原始段的高度，然后合并;此外，A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7704← ðÞ¼← ðÞ行下方的行被修剪以减少行空间。参考5.d查看合并子段后提取的文本行。如果不满足该条件，则算法递归地分割段，直到段宽度等于特定阈值，该阈值在实验中被设置为10 pt。在这种情况下，我们删除黑色像素以上的指数，其中惠普以上的基线指数等于最小值，并且我们还移除低于基线索引的HP等于最小值的索引下方的黑色像素。图五. e显示了这种情况的一个例子。最优路径可以使用递归分治方法在段中上下移动，以在不丢失线内容的情况下尽可能多地产生最佳水平切割。我们对二值文本图像使用形态学开运算以减少递归调用的次数，从而加快处理速度。开口将有助于打破狭窄的地峡，以及消除小噪音段。这增加了在连续文本行之间接收HP等于零的可能性。图5.f示出了图3.d的提取的文本行。算法2和算法3总结了文本行提取阶段。算法2直线检测和提取算法4. 实验和结果本节详细介绍了所用的数据集、进行的实验和获得的结果，以及与基线方法的比较。数据集。现有的数据集（如阿拉伯语/乌尔都语Bukhari等，2013，Al-Majid，and Wadod Arvanitopoulos andSüsstrunk，2014）不适合我们的目标实验，因为它们都不包含带有变音符号的阿拉伯语文本，这被认为是本文中解决的文本行重叠问题的主要原因。因此，我们将我们的算法应用于Mohammad et al.（2020）数据集。该数据集由大约20，000个文本行的扫描页面组成，分为两组。第一组包括没有附加符号的文本，而第二组包括带有附加符号的文本。数据集中有12种不同的字体类型，9种大小和3种样式。该数据集还包括具有各种字体类型、大小和样式的扫描页面。为了执行我们的实验，我们使用了数据集的一个子集，其中包括大约1970个没有变音符号的文本行和大约6223个有变音符号的文本行。十种常见的字体类型（阿拉伯语透明，DecotypeNaskh，AF-Diwani，简化阿拉伯语，Taxi，Andalus，DecoTypeThuluth，Koufi，M-Unicode Sara和传统阿拉伯语），七种字体大小（8，9，12，14，16，18和24）和三种样式（常规，ita-Lic和粗体）。此外，我们测试了具有1：输入：增强二进制图像（EBI）2：openedImage←morphologicalOpeningEBI3：hp←horizontal投影打开图像打开4：smoothedHP←smoothFiltersmoothHP5：峰值←峰值平滑HP平滑6：whileilength= 0peaks= 0<7 ： lineSegment←crop[ 编辑 ]textLineextractLine lineSegment;hp;i 9：end while10：输出：文本行字体大小的混合（9 + 12 + 18和10 + 12 + 14）。值得注意的是业绩计量。错误率（q）被用作用于评估绩效的客观标准措施的线分割方法（Shafait和Breuel，2008年），以测试所提出的线提取算法的有效性。该度量确定基于给定文档图像的地面实况文本行检测文本行的误差。因此，总错误率被计算为被错误识别的地面实况文本行的百分比，其在数学上被定义为：算法3直线提取算法qjC[S[M] jjGjð5Þ1：INPUT：Segment，hp，BaselineIndex as BLI2：如果在BLI上和下有等于零的hp，则3：将黑色像素移动到索引上方，其中hp aboveBLI等于零4：删除索引下方的黑色像素，其中马力低于BLI等于零5：其他6：如果分段宽度>th，则7：cutPoint←sigmentWidth=28：leftSegment←segment[1/2start：cutPoint] 10：leftSegment←extractLine [1/2 leftSegment;BLI[2/3rightSegment ← segment [1/2 cutPoint：end]10：rightSegment← segment[1/2 cutPoint：end11：rightSegment←extractLine合并rightSegment;BLI12：textLine合并leftSegment;rightSegment13：else14：将黑色像素移到索引上方，其中，BLI上方的hp最小15：remove黑色像素下面的索引，其中惠普低于BLI是最低限度16：如果结束17：如果18：输出：文本行其中，C是算法未分割的文本行（遗漏的）的数量，S是算法部分分割的文本行（行分割的一部分）的集合，称为欠分割，M是与其他行合并的行的集合，称为过分割，G是对应于给定文档图像的文本行的集合。基线方法。我们将我们的结果与两种广泛使用的经典语言无关文本行提取方法进行了比较（Shafait和Breuel，2008; Bukhari等人， 2013 ）： Docstrum （ O'Gorman ， 1993 ）和接缝弯曲（Arvanitopoulos和Süsstrunk，2014）。要比较，自上而下（例如，接缝弯曲）和混合（例如，Docstrum）方法。此外，选择是基于其实现代码的流行性和可用性。所选择的基线方法（Docstrum）由一组参数控制（例如，阈值）汇总在表1中。为了定制这些参数，对大量参数组合进行了采样，并使用了产生最佳结果的值得注意的是，我们不能与最近的学习方法进行比较，因为它们需要标记的数据集。结果当评估我们提出的方法和选择的基线方法（例如，类型、尺寸和样式）。我们的方法的结果，以及应用于两个选定子集的基线方法的结果，是A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7705见图4。平滑水平投影和检测到的峰值（基线）。图五.文本行提取步骤的示例。(a)图3.d的第四文本行的文本线段。(b)左段的子段。(c)右段的子段。（d）提取的文本行。（e）以最小HP切割（f）图1的提取的文本行。 3.d.表1Docstrum参数及其描述和最佳值。方法参数描述最优值多克斯特姆K最近邻域连接的组件聚类数5ttc传递闭包最近邻对的阈值2.1fd字符大小比例因子。8特佩周边距离阈值。1.5tpa平行距离阈值。1.3表2基线方法和我们的方法的错误率和计算时间误差方法分割方法无附加符号带变音符号时间多克斯特姆混合百分之二十五百分之八十七6.877焊缝弯曲自上而下，能量最小化占7%百分之六十1.176我们的方法自上而下，递归分治百分之三百分之十一0.087在表2中显示了平均错误率和计算时间。结果表明，所有的算法表现更好的第一集（文本没有变音符号），我们的算法表现更好的检测和提取文本行的两个集，与平均错误率为3%的第一集和11%的第二。应该注意的是，结果（平均错误率）是基于完美的文本行提取（不丢失任何文本成分或不合并相邻文本行的任何文本成分的文本行）。与Docstrum相比，接缝雕刻在基线方法中取得了更好的结果，第一组的平均错误率为7%，第二组为60%。然而，它们的结果不足以用于阿拉伯文文档的文本行提取，A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7706特别是考虑到变音符号和小字体的存在。表2表明，我们的算法具有最短的运行时间，每个文档图像的平均运行时间为0.087秒值得注意的是Mat-lab用于实现所提出的文本行提取算法，并使用Matlab进行了所有的Matlab是实现高级数学和数值算法的理想环境。Matlab还包括一个强大的计算机视觉和图像处理工具箱。图6显示了我们的方法的输出以及应用于样本输入文本段的所选基线方法，以获得更好的解释。如示例所示，所有算法在没有附加符号的文本段（第一个文本段）上都表现得令人钦佩。但是，当出现附加符号时，基线方法的性能此外，当使用更小的字体大小和Taxi字体类型时，它们的性能明显受损。另一方面，我们的算法执行几乎一致的检测和提取文本行在所有的文本段。过度分割、欠分割、丢失任何字符或文本组件（例如，点和附加符号）或合并来自相邻文本行的任何文本成分都是提取错误的例子即使在小字体大小，我们的算法检测文本行非常好。然而，如图6.d第四部分所示，大多数错误是由小字体大小（8pt）引起的，因此所提取的文本行可能丢失一些文本分量（例如，点或变音符号）或合并来自相邻文本行的文本分量。事实上，这种类型的错误可以在识别阶段的后处理步骤中处理。图6.d描绘了当文本行非常小（例如，第三提取文本行）。Docstrum算法从文本段或文档图像中估计字符间和行间距。因此，由变音符号、粗体样式和小字体大小引起的间距变化是最小的，从而导致欠分段错误。此外，Docstrum由一组参数控制，由于存在变音符号和各种字体变化，这些参数无法优化。因为它使用距离变换来构建能量图以及一组用于接缝弯曲的约束，所以计算出的接缝可能会切断字母组件或将标点符号分配给不正确的文本行。此外，接缝可能会切断文本行，并将单词或单词部分分配给不正确的文本行，从而导致图六、基线方法的输出以及我们算法的输出（a）样本输入文本段。第一段：简化阿拉伯语，12磅，单行距。第二段：与第一段相同，但存在变音符号。第三节：与第二节相同，8分。第四段：与第三段相同，字体为Taxi字体。（b）Docstrum算法的输出（c）接缝弯曲算法的输出，其中之字形线表示接缝，实线表示提取的文本行。(d)我们算法的输出。A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7707图7.第一次会议。基线方法的输出以及我们的算法在具有粗体风格的字体类型和大小混合的文档图像上的输出（a）输入文档图像（混合字体类型和大小，带有粗体、变音符号和单行间距）。（b）Docstrum的输出，时间= 9.117秒。（c）焊缝弯曲输出，时间= 2.520 s。（d）我们算法的输出，时间= 0.113 s。过度分割和分割不足的错误。因为它们包含关于提取的文本行的错误信息，所以这些接缝是高度不准确的。随着字体类型、样式和大小的变化，以及变音符号的出现，情况变得更糟，这使得设计足够的约束变得非常困难。基线方法的输出如图7所示，我们的算法适用于文档图像，它具有混合字体的类型和大小在一个大胆的风格。此外，图7示出了每个算法的运行时间（以秒为单位）讨论和今后的工作。根据实验结果可以得出几个结论A. Qaroush，A.Awad，A.Hanani等人沙特国王大学学报7708不可避免，使得独立于语言的解决方案有时不适合阿拉伯语脚本，（ii）优化算法参数或具有足够的约束是非常困难或不可能的，因为存在字体变化（类型，样式和大小），以及(iii)小字体大小、粗体样式和附加符号的存在增加了行间重叠的问题，大多数当前解决方案不能成功地处理该问题。另一方面，所提出的方法具有以下优点：（i）它是简单的并且计算高效的，（ii）它在宽范围的字体变化中鲁棒地提取文本行，（iii）它有效地解决了重叠问题，其中大多数当前解决方案失败，（iv）它是无参数的，以及（v）它可以应用于任何基线脚本语言而几乎没有修改。尽管有很好的结果，所提出的算法有两个缺陷：（i）提取阶段因此，检测基线时的任何错误都将导致分割不足或过度分割错误。此外，它是难以创建一个基线依赖的方法作为一个独立的语言分割方法的语言没有基线，和（ii）所提出的方法，像其他经典的解决方案，简单的曼哈顿布局工程。作为未来的工作，可以进行若干改进或扩展，其被概括为（i）将偏斜校正步骤与基线检测步骤合并以减少计算时间，（ii）添加规则以避免丢失字符或文本分量（例如，点和变音符号）或合并来自相邻文本行的任何文本分量，（iii）在其他数据集和其他阿拉伯脚本语言（诸如波斯语、库尔德语、信德语、乌尔都语等）上进行测试，以及（iv）通过添加用于页面分割的预处理阶段来扩展该方法以处理非曼哈顿布局5. 结论提出了一种基于自顶向下分割方法的阿拉伯文本文本分割为了有效地处理文本行重叠的问题，该方法采用检测基线和分而治之的方法。该方法在提取具有广泛字体变化的文本行时是非常稳定的。所提出的方法进行了测试，使用手动收集的数据集的打印阿拉伯语扫描文件在各种字体的变化，有和没有变音符号。与一些基线方法相比，所获得的结果在平均错误率和计算时间方面明显更好。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Ahmed，P.，Al-Ohali，Y.，两千阿拉伯字符识别：进展与挑战。J. 沙特国王大学Comput. INF. Sci. 1 2 ，85-116.Aldavert，D.，Rusiñol，M.，2018.使用二阶导数进行文本行检测和分割，在：2018

下载后可阅读完整内容，剩余1页未读，立即下载