阿拉伯语混合式多字体文本切分方法及语料库构建

128 浏览量更新于2024-01-14 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种新的混合式阿拉伯文多字体文本切分方法及参考语料库构建Abdelhay ZoizouAbdullah，Arsalane Zarghili，Ilham Chaker科学与技术学院，B.P.2202，Imouzzer Road非斯，摩洛哥阿提奇莱因福奥文章历史记录：接收日期：2018年2018年6月28日修订2018年7月10日接受2018年7月11日在线提供保留字：阿拉伯语文本分割分词模板匹配Contour参考语料库A B S T R A C T在阿拉伯语文本识别的分析系统中，切分是一个关键的、决定性的阶段。在这个阶段中，从文本文档中提取的单词被分割成单个字符，以允许特征提取和分类。由于缺乏阿拉伯语印刷文本的标准语料库，无法对不同的分词系统进行良好和客观的比较。在本文中，我们提出了两个贡献。第一个是印刷阿拉伯文本的多字体参考语料库，其中我们对所有分割问题进行了分组，可以作为比较不同分割系统的参考。第二个是一个混合的方法分割印刷多字体阿拉伯文文本。所提出的方法是基于两个最知名的技术在该领域：轮廓为基础的模板匹配技术。该方法对字体变化和字符重叠不敏感为了评估这种方法的结果，我们已经研究，实施和测试其他方法在文献中使用建议的语料库。实验结果表明，我们的方法给出了更好的分割率。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍光学字符识别（OCR）是人工智能、模式识别和计算机视觉的一个研究领域自数字计算机发展以来，它一直是深入研究的主题。光学字符识别可用于多个领域，其中文本是工作的基础，例如文档处理，银行验证处理，邮件分拣和路由，索引和文档自动存档。OCR包括被设计成将包含文本的图像翻译成可以由文本处理程序识别和操纵的形式的计算机系统。这种翻译的目的是计算机将能够自动阅读和处理文本，这将提高人类的生产力。在过去的几十年里，OCR系统得到了广泛的发展，特别是拉丁语。非拉丁语言（例如：*通讯作者：智能系统和应用实验室，科学和技术学院，B.P. 2202，Imouzzer路非斯，摩洛哥。电子邮件地址：zoizou. gmail.com（A. Zoizou）。沙特国王大学负责同行审查。阿拉伯语）由于语言书写的草书性质，对OCR提出了特殊的挑战许多语言，如波斯语，信德语和维吾尔语使用阿拉伯字母，这与拉丁语写作有一些重大差异。在印刷和手写体中，阿拉伯语是从右向左书写的，通过连接字母来产生单词或子单词。阿拉伯字母表包含28个基本字母，这些字母可以根据单词中的位置（开始，中间，结束，孤立）改变形状。为了处理这些特征，阿拉伯文本的识别必须包括一个分割任务，以将字符彼此分开。直到最近二十年，对阿拉伯语OCR的研究才引起人们的兴趣。一些阿拉伯语OCR系统可用于商业用途（例如：Iris的READIRIS PRO，Abbyy的ABBYY FineReader，LEADTOOLS Professional。. ）. 其他的是开源的（例如：TESSER- ACT最初由惠普公司生产，KRAKEN由本杰明 · 基斯林生产。 . ） . 也有一些免费的在线 OCR ，如GoogleReader，Sciweavers的i2OCR。这些OCR系统的主要缺点是这与对少数字体的限制有关在一般的OCR系统中，识别过程经历五个步骤：预处理（准备数据）、分段（根据使用的方法将文本分段为单词或字符）、特征提取、分类和后处理。在本文中，我们只专注于分割阶段，假设数据是经过良好的预处理的（二进制图像，噪声降低和倾斜校正，文本与非文本分离）。https://doi.org/10.1016/j.jksuci.2018.07.0031319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Zoizou等人/沙特国王大学学报577-分段是将待传输的单个字符隔离以供识别系统使用的操作。这是阿拉伯语OCR系统中最关键和决定性的一步，事实上，弱分割方法的识别率很低。有许多方法可以从文本文档中提取单词。最简单和最简单的过程分为三个层次：行分割，词分割和字符分割（图。①的人。在文献中，我们发现了几种将印刷阿拉伯语文本分割成单个字符的方法，主要是基于投影、模板匹配、轮廓化和轮廓分析的方法：投影：许多方法都是基于分析垂直投影轮廓来定位分割点。该技术应用起来快速且简单，但是在草书文本、重叠字符、连字和字符之间的压缩间距的情况下是低效的（Ghaleb等人，2017; Lorigo和Govindaraju，2005; Mousa等人，2013年; Shaanxi等人，2008;Zheng等人，二 ○ ○四年;Zidouri等人，2005; Zidouri，2010）。模板匹配：使用0和1的模板，扫描单词的基线，并且以像素分布与模板完全匹配的角度搜索分割点（ Bushofa 和 Spann ， 1995;Perveen等人，2013;Swaroop和Sharma，2016; Tay等人， 2003年）。该方法高度依赖于预处理的质量，特别是二值化操作。轮廓化：在骨架的某些部分中寻找分割点，这些模式的检测引入曲率和角度的计算，将这些计算与调整的阈值进行比较，以获得期望的结果。使用去质子化的主要缺点是，由于去质子化后的信息丢失，成功率限制在90%（Cowell和Hussain，2001; Dupré，2004;El-Khaly和Sid-Ahmed，1990）。轮廓：这种方法包括提取单词的轮廓这种方法对字体变化和字符重叠不敏感（Omidyeganeh等人，2005年; Meidong等人，2005;Peng等人，2006; Sari等人， 2002年）。此外，阿拉伯字符切分系统面临的最大问题之一是缺乏统一的参考语料库;事实上，比较不同的切分系统需要使用统一的语料库。为了解决这个问题，我们已经建立了第2节中描述的语料库，其中对多字体阿拉伯语文本的所有分割问题进行了分组。本文的其余部分组织如下：第2节介绍了一项研究和文献中使用的四种分割方法的实现第3节描述了我们提出的语料库。第四节描述了我们提出的多字体阿拉伯文本分割方法.第5节讨论了这项工作的结果。第6节结束了这项工作。2. 常用分割方法为了比较不同的分割系统，我们已经检查了三种方法中的四种方法，即轮廓分析（Olivier等人，1996; Omidyeganeh等人， 2005）、Projection（Ghaleb等人，2017; Mousa等人，2013）和模板匹配（Bushofa和Spann，1995）方法。通过使用前一节中描述的建议语料库2.1. 等高线法轮廓跟踪是在数字图像上执行的许多预处理技术之一，以便提取关于一般形状的优化在不同的OCR技术中，轮廓线被广泛用于表示文字的形状和帮助检测分割点。轮廓标记方法：在该方法中，分割过程基于三个步骤（Omidyeganeh等人， 2005年）。1- 在预处理步骤中，通过在水平和垂直投影轮廓中找到由最小值表示的空白空间来分割文本行及其单词/子单词（Altuwaijri和Bayoumi，1994）。2- 每个子词的轮廓是通过使用一个卷积核与拉普拉斯边缘检测方法提取通过从右上黑色像素移动到左下黑色像素来提取上轮廓，并且通过轮廓从左下黑色像素到右上一个时钟方向提取下轮廓，3- 分割步骤是基于每个子词的上轮廓和下轮廓的条件标记，每个点被标记为1，0和1，分别代表上，中和下。切割点是从标签0到1或到-1的交叉点。局部最小值方法：为了将子词分割成单个字符， Olivier 在（ Olivier et al. ， 1996 ）提出先提取子词的轮廓，然后利用Freeman链码（Freeman，1960）提取上轮廓，并浏览它以定位其局部最小值处的分割点（图10）。 2）的情况。这两种方法的主要缺点是轮廓提取强烈依赖于图像质量和噪声密度。此外，错误的预处理对分割有直接影响。Fig. 1. 阿拉伯语文本的分割过程图二. 基于上轮廓局部最小值的图像分割。578A. Zoizou等人/沙特国王大学学报2.2. 投影法投影轮廓是一种直方图，用于存储当图像投影在正常X-Y轴上时沿平行线累积的非背景像素值的数量行分割采用Y轴上的水平投影，字符分割则更多地采用X轴上的垂直投影。方法1：在该方法中（Ghaleb等人，2017），为了检测连接字符之间的分割点（SP），作者提出了两种算法。在去除卫星成分作为点和变音符号（图3 b）后，计算垂直投影（图3 b）。 3 e）。第一种算法是基于平均笔划粗细来寻找候选切割计算平均笔划粗细并将其用作阈值。如果特定列中的轮廓小于或等于阈值，则找到切割点第二种算法是基于笔划粗细统计模型的垂直剖面的统计模式（最常见的值）所提出的算法的结果被合并（图1）。 3 c），然后使用以下四个规则来最小化两种算法的过分割效果（图3 c）。 3 d）：规则1：如果SP打开了一个闭合的循环，它将被删除（循环是单个字符的一部分）。规则2：如果SP切割分支点，则应将其移除（如果出现中断中断）。规则3：如果两个连续SP之间的距离小于阈值，则应删除右侧的SP阈值被简单地认为是大于或等于笔划宽度的两倍规则4：否则保留分割点方法2：在（Mousa等人， 2013），分割主要基于垂直投影。首先对去除了点的子字计算垂直投影轮廓，并将两个字符之间的分割点考虑在轮廓中的恒定幅度的中间（图13）。 4）.这些方法对重叠字符、倾斜文本敏感，对同一单词字符之间的压缩间距更敏感2.3. 模板匹配法扫描基线的第一行，对于每个点，使用图5中的模板测试邻域，其中P表示当前点，0表示白点，1表示黑点见图4。使用垂直投影进行分词。图五.用于分割字符的模板。点，X可以是0或1，而Y用于检查是否有字符（字符）。如果P的邻域满足这个条件，则P是分割点（Bushofa和Spann，1995）。字符可以在基线高度上的该点垂直分割这种方法的主要缺点是基线下的下行字符不能被分割（图6a和图3.第三章。a）未分割的单词; b）去除附加符号;c）合并结果; d）最终分割点; e）垂直投影轮廓。A. Zoizou等人/沙特国王大学学报579见图6。分割失败。b)此外，当使用质量差的图像时，它会过度分割一些字符（图6c和d）。3. 语料库建设3.1. 阿拉伯语OCR参考语料库问题在印刷阿拉伯语文本分割的文献中，我们注意到作者通过扫描文档（书籍、杂志、报纸和其他文档）来创建他们自己的测试语料库，或者他们使用其他非标准语料库：（Meidel et al.，2005年）使用了40页的日报写的20扩展的纳斯赫字体。（Peng等人，2006）使用未知的维吾尔语（阿拉伯字母）、汉语和英语数据集。（Sarfraz等人，2003年）使用随机选择的一种字体（Naskh字体）书写的文本测试了他们的系统。（Bushofa和Spann，1997）使用了一个未知的数据集，使用了一种字体。（Elgammal和Ismail，2001年）使用了15页的数据集;从杂志中选择，用Naskh字体书写。（Altuwaijri和Bayoumi，1994; Mousa等人，2013年）使用了264页的大型数据集，没有提到使用的字体。（Omidyeganeh等人，2005年）使用了一个非标准的数据集，它包含了40，000个用20种字体书写的子单词。（Gouda和Rashwan，2004年）使用了25页的数据集，其中包含2种字体：简化和传统阿拉伯字体。（Zheng等人，2004年）使用了500个阿拉伯语文本样本，使用了两种字体：“简化阿拉伯语”和“阿拉伯语简化”。（Shaanxi等人，2008）没有提到他们工作中使用的数据集。总之，这些语料库是用很少的字体写的，这并没有给太多的可变性。缺乏统一的阿拉伯文参考语料库，字体和大小不允许比较不同分割方法的结果，因为它们中的每一个都是在不同的语料库上测试的。为了解决这一问题，建立一个标准的、统一的语料库，用于测试多字体阿拉伯文本的切分是非常重要的。语料库应该考虑到多种重要的字体变异，即：重叠字符（图7a）。错误的预处理（提取闭合轮廓或骨架，（图7b），确定笔的大小，（图7c）和基线，上，下线，（图7d）。倾斜文本（图7 f））和同一个词的字符之间的压缩间距，（图7 f）。 7 g）。3.2. 语料库为了保证所构建的语料库可以用作所有分词系统的参考，语料库段落是从不同的杂志和书籍中随机选择的，并且以具有以下约束的方式以34种不同的字体书写：1）阿拉伯字母表的所有2）具有多个峰值的字符（，见图7。打印阿拉伯语文本的分割困难。（图7e）。3)四个位置的字母：开始，结束，中间和孤立。4)重叠的字符。5)垂直连字的字符。6)各种常见的字体。7)不同的字体大小。8)平均图像质量（平均图像大小，噪音），以及前一段中提到的所有其他问题：重叠字符，不同的钢笔大小，倾斜文本，同一个单词字符之间的压缩间距。在本研究的语料库中，使用了34种不同的字体来书写83行文本，包含984个单词和4519个字符。拟议的语料库可用于非商业用途：www.fstf.fst-usmba.ac.ma/laboratoires/lsia/RCATSS的网站。4. 贡献：阿拉伯文多字体分割在本节中，提出了一种用于印刷阿拉伯文本分割的混合方法。它基于两种最知名的方法：轮廓分析和模板匹配。在分词过程中，将两种不同的拓扑方法有机地结合在一起，形成互补。第一种方法是基于局部最小的轮廓。第二种方法是基于黑色像素位置的扫描。首先，通过分别使用水平和垂直投影将文本分割成行和子词（图10）。 8）。然后将子词分割成单个字符。由于下行字符总是在单词的末尾，在分割过程中，如果有下行字符，则首先进行模板匹配以分割下行字符。轮廓方法处理其余的子词;使用Canny边缘检测器提取子词的轮廓（ Ding 和 Goshtasby ， 2001 ）。 Freeman 链码（ Freeman ，1960）用于提取上轮廓。潜在的分割点位于上轮廓的局部最小值处。字符分割过程描述如下：第一步：将子词垂直分为三个区域，即上区、中区、下区。中位数区域包含基线，顶部为基线高度的1/3，底部为基线高度的1/3。基线是贯穿连接字符的水平线。它可以通过使用水平投影仪来检测580A. Zoizou等人/沙特国王大学学报见图8。提出了分割方法的主要阶段。它由图像中具有最高黑像素密度的区域表示。子字图像的其余部分被选择为上部和下部区域（图1）。 9）。第二步：由于基于轮廓的方法无法分割下行字符-因为下行字符和前一个字符之间没有轮廓的局部最小图像-所以应用模板匹配方法。扫描基线的第一范围以定位分割点，其中邻域与模板完全匹配（图10a）。这种操作的一个例子如图所示。 10 b. 如果检测到的匹配点在字符上方即不可能被认为是一个切割点，这一点被移动到右边，直到没有字符的一部分下来，例子（图10 c）和（图10 c）。 10 d）。步骤3：使用Canny边缘检测器（Ding和Goshtasby，2001）找到子词的轮廓。我们选择使用Canny边缘检测器，因为它在许多研究中证明了它的高性能。此外，许多比较工作如（Acharjya等人，2012; Katiyar和Arun（2014）;Othman等人，2009）表明Canny优于所有其他轮廓提取技术。在某些情况下，噪声或图像质量差可能会导致轮廓不连续（图11）。为了最大限度地减少这种影响，我们建议在应用Canny边缘检测器之前对单词使用形态学闭合。第4步：使用Freeman码（Freeman，1960）提取上轮廓（图12）。这是通过找到连接最右边（A）和最左边（B）见图11。在轮廓上开口。见图9。将子词划分为三个区域。见图10。 a）用于分割下行字符的模板。（b，c，d）：不同字体的分割结果。A. Zoizou等人/沙特国王大学学报581见图12。上轮廓提取。轮廓的点这些点是在从右上和左上扫描子字图像时遇到的第一个点从具有位置[i，j]的一个点（例如B）开始，找到下一个黑色像素，并保存其与（B）的相对位置[i ± 1，j ± 1]。这最后一个点被认为是找到后续黑点的起点。重复这个过程，直到到达最正确的点（A）。为了避免提取较低的轮廓，我们提到，如果起点是最左边的点（B），则第一次移动必须是右上方，如果起点是最右边的点（A），则第一次移动必须是左上方这两个点可能是变音符号或点的一部分。为了避免这种情况，必须在提取上轮廓之前消除点和变音符号，这是通过消除任何不与中间区相交的闭合轮廓来完成的步骤5：一旦提取了上轮廓，就扫描它以定位属于中间区的局部最小值。这些局部最小值被认为是潜在的分割点（图1）。13）。步骤6：由于错误的预处理，多个局部最小值可以在两个连续字符之间找到。这些点的切割过程提供了过度分割，（图1）。 14 a）。为了最小化这种过分割效应，换句话说，为了保证只有一个分割点在两个连续字符之间，检测属于上部区域（在步骤1中定义）的上部轮廓的所有峰值，如（图14a）所示。在两个连续的分割点之间，峰值是属于上部区域的最高黑点。在每两个连续的峰值之间，我们只保留最后一个分割点，而忽略其他点（图10）。 14 b）。图十三. 轮廓局部最小值处的分割点5. 实验结果第3节中研究的方法和第4节中描述的我们提出的方法在第2节中描述的语料库上实现和测试，结果总结在表1中。我们提到，这项工作中的所有方法都是使用Python-OpenCV环境（Python 2.7和OpenCv 3.0库）实现的。系统以多行文本图像作为输入，并将分割后的字符作为输出。我们假设，在这项工作中的研究方法，包括我们提出的方法，输入图像只包含文本，他们是很好的预处理：二进制图像具有良好的分辨率，噪声降低和倾斜校正。表1不同方法的分割结果。方法字符正确分段字符正确率分段03 The Dog ofthe Woman（1995）360879.84%投影方法1 Ghaleb et al. （ 2017年）376683.33%Mousa et al.（2013）392486.83%Omidyeganeh等. （2005年）404289.44%轮廓的局部最小值Olivier等。（一九九六年）389486.16%该方法4281百分之九十四点七四图15. 分割结果采用：a）投影法1; b）投影法2;c) 模板匹配; d）轮廓标记; e）轮廓局部极小; f）我们提出的方法。图十四岁a）由于错误的预处理而导致的过分割效应b）最小化过分割效应。582A. Zoizou等人/沙特国王大学学报我们提到，字符正确分割的比率是手动测量的，它等于R¼ CC= TC：其中R是正确分割的字符的比率，CC是正确分割的字符的数量，TC是语料库的字符总数，其为4519个字符。图15呈现了通过使用六种实现的方法对词（词）进行分割的结果。由于该算法结合了基于轮廓和模板匹配方法的优点，字符正确分割率提高到94.74%与其他研究方法相比，我们在前一节中描述的方法显示出最好的能力分割成单个字符的多字体和多大小的阿拉伯语文本此外，这种比较证明，使用统一的参考语料库给出了不同分割系统的鲁棒性的清晰视图6. 结论和展望本文提出了一个统一的标准语料库来比较阿拉伯语多字体文本的不同分割系统;该语料库包含了常见阿拉伯语字体的最大变化，这可能会给分割系统带来困难此外，本文还提出了一种新的基于轮廓和模板匹配的混合分割方法为了评估我们的方法，我们已经研究和实现了五个已知的分割方法实验结果表明，该方法的分割效率与其他方法相当，字符正确分割率达到94.74%。作为这项工作的前景，我们的目标是通过使用其他鲁棒算法来改进预处理，主要是轮廓提取，并调整我们的分割方法用于手写阿拉伯文本。引用Acharjya，P.P.，达斯河Ghoshal，D.，2012.图像分割中不同边缘检测器的研究与比较。Global J. Comput. Sci.技术图表。Vision12（13），29-32.Altuwaijri，M. M.，巴尤米湾A.（1994年）。使用神经网络的阿拉伯文文本识别。IEEE International Symposium on Circuits and Systems - ISCAS '94，6，pp.415-418. https://doi.org/10.1109/ISCAS.1994.409614。布绍法湾M. F.、Spann，M.（1995年）。印刷体阿拉伯字符的分割与识别第六届英国机器视觉会议论文集，2页。543-552. https://doi.org/10.5244/C.9.54的网站。Bushofa，B.M.F.，Spann，M.，一九九七年。用结构分类法进行阿拉伯字符的分割和识别图像可见Comput. 15（3），167https://doi.org/10.1016/S0262-8856（96）01119-5.Cowell ， J. ，侯赛因， F 。（ 2001 年）的第 10 页。 Thinning Arabic Characters forFeature Extraction，pp.181-185.丁湖，加-地Goshtasby，A.，2001年在精明的边缘探测器上。帕特你好34（3），721https：//doi.org/10.1016/S0031-3203（00）00023-6.Dupré，X.（2004年）。对马尔科夫缓存模式辅助草书的侦察贡献巴黎第五大学El-Khaly，F.，Sid-Ahmed，文学硕士，1990.光学捕获机印阿拉伯文本的机器识别。帕特你好 23 （ 11 ）， 1207-1214 。 https://doi.org/10.1016/0031-3203 （ 90 ）90116-3.Elgammal ， A. M. ，伊斯梅尔， M 。 A. （ 2001 年）的第 10 页。 A graph-basedsegmentation and feature extraction framework for Arabic text recognitionin ： Proceedings of the International Conference on Document Analysis andRecognition，ICDAR，2001-Janua，pp.622-626.https://doi.org/10.1109/ICDAR.2001.953864的网站。弗里曼，H.，1960.关于任意几何构形的编码。IRE跨电子计算EC-10（2），260-268.https://doi.org/10.1109/www.example.comGhaleb，H.，Nagabhushan，P.，美国加州大学（2017年）。离线手写阿拉伯语文本的分割2017年，IEEE 阿拉伯文字分析和识别（ASAR）分割国际研讨会（第201741-45）。https://doi.org/10.1109/ASAR的网站。2017.8067757。豪达，上午，Rashwan，文学硕士，2004.使用隐马尔可夫模型分割连接的阿拉伯字符1. Comput.工程师：14-16Katiyar，S.，Arun，P.，2014.目标提取中常用边缘检测技术的比较分析。ArXiv预印本ArXiv：1405.6132 50（11），68-78。检索自。洛里戈湖Govindaraju，V.（2005年）。阿拉伯文手写体的分割与预识别。文件分析和识别国际会议论文集， ICDAR ， 2005 ， 605-609 。 https://doi.org/10.1109/ICDAR.2005.207。梅塞河，Pirsiavash，H.，Razzazi，F.（2005年）。用于全字体波斯文/阿拉伯文草书打印文档的前端 OCR 。在： Proceedings of the Digital Imaging Computing ：Techniques and Applications ， DICTA 2005 ， 2005 （ Dicta ）， 385-392 中。https://doi.org/10.1109/DICTA.2005.1578154Mousa，M.A. 一、赛义德，M。美国，阿卜杜拉，M.I. （2013年）。使用基于投影的方法和剖面振幅滤波器的阿拉伯字符122-126.奥利维耶角，Miled，H.，罗密欧，K.，Lecourtier，Y.（1996年）。分割和编码，pp。264-268.Omidyeganeh，M.，Nayeb，K.，阿兹米河，Javadtalab，A.（2005年）。一种新的多字体波斯语/阿拉伯语文本分割技术。ICASSP，IEEE International Conference onAcoustics ， Speech and Signal Processing - Proceedings ， II ， pp. 757-760.https://doi.org/10.1109/ICASSP.2005.1415515的网站。奥斯曼，Z.，Rafiq，M.，Kadir，A.（2009年）。MRI图像中Canny和Sobel边缘检测的比较。计算机科学，生物力学[sps反斜杠]组织工程组，和信息系统，页。133-136.网址：//doi. org/10.1016/j.protcy.2015.10.031。彭湖，刘，C.，丁某，Wang，H.（2006年）。多语种文档识别研究及其在我国的应用。在：Proceedings - Second International Conference on Document Image AnalysisforLibraries，DIAL2006，2006，126-132。https://doi.org/10.1109/DIAL.2006.27的网站。Perveen，N.，库马尔，D.，Bhardwaj岛，2013.模板匹配方法及其应用综述。Int. J.Res.Comput.Commun.2（10），988-995中所述。https://doi.org/10.3929/ethz-a-010208451网站。Sarfraz，M.，Nawaz，S. N.，Al-Khuraidly，A.（2003年）的报告。离线阿拉伯文文本识别系统。第七届信号处理及其应用国际研讨会， 2003 年。会议记录，二、https://doi.org/10.1109/ ISSPA.2003.1224906。Sari，T.，苏伊奇湖Sellami，M.（2002年）的报告。脱机手写体阿拉伯字符分割算法：ACSA。见：Proceedings - International Workshop on Frontiers in HandwritingRecognition，IWFHR，452-457。https://doi.org//IWFHR.2002.1030952.Shawn，N.，ahmed，Shaanxi，Z.A.，阿里，G.，2008.将阿拉伯文文本分割成字符以便识别。沟通。 Comput. 通知。 Sci.20 （ CCIS ）， 11 - 18.https://doi.org/10.1007/978-3-540-89853-5-4。Swaroop ， P. ，夏尔马， N. ， 2016. 图像处理中各种模板匹配方法的概述。 Int.J.C o m p u t . Appl. 153（10），975-8887。泰，Y.H.，Khalid，M.，尤索夫河，Semarak，J.，候选人S 2003.基于混合马尔可夫模型和神经网络的脱机手写体识别系统。神经网络，1190-1195。郑湖，哈辛，A.H.，唐，X.，2004年一种新的机印阿拉伯字符切分算法帕特你好Lett.25（15），1723https://doi.org/10.1016/j.patrec.2004.06.015。Zidouri，A.，2010. 多字体阿拉伯文字识别。Res. J. Appl. Sci.Eng. Technol.2（5），428Zidouri，A.，Sarfraz，M.，Shahab，A.美国，Jafr，S.（2005年）。基于自适应剖分的阿拉伯语印刷文本子词切分。信息可视化国际会议论文集，2005年，pp。239-243. https://doi.org/10.1109/IV.2005.17.

下载后可阅读完整内容，剩余1页未读，立即下载