没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种高效的、与字体无关的阿拉伯文本Aziz Qarousha,Bassam Jabera,Khader Mohammada,Mahdi Washahaa,Eman Maalia,Nibal Nayefba巴勒斯坦比尔宰特大学电子和计算机工程系b法国拉罗谢尔大学L3i阿提奇莱因福奥文章历史记录:收到2019年2019年8月27日修订2019年8月27日接受在线预订2019年8月31日保留字:阿拉伯文OCR分词字符切分草书切分技术基线投影轮廓A B S T R A C T字符切分是阿拉伯文OCR系统中必不可少的一个环节,也是最关键的一个它吸引了广泛的研究人员的兴趣。然而,阿拉伯草书的性质带来了额外的挑战,需要进一步调查。因此,非常需要具有独立于字体变化的可靠且高效的阿拉伯语OCR系统。本文研究了一种间接的、依赖于字体输入的阿拉伯文本分词算法。该算法以二值线图像作为输入,产生一组由一个字符或连字组成的二值图像作为输出。在两个级别上执行分割:在第一级中执行的分词,通过在输入线图像处采用垂直投影以及使用四分位距(IQR)方法来区分词间隙和词间隙内。一种投影轮廓方法,用作第二级分割以及一组独立于字体的统计和拓扑特征,以从所有潜在点中识别正确的分割点APTI数据集用于使用各种字体类型、大小和样式测试所提出的算法。该算法在1800行(约24,816个单词)上进行了实验,平均分词准确率为97.7%,字符切分准确率为97.51%。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍虽然以数字形式保存和使用的信息量逐渐增加,但阿拉伯书籍的数量以及没有数字冗余的历史文献数量巨大。无论如何,光学扫描将这种文档的数字副本保存为数字图像形式,除非随后完成转换为数字文本形式的过程,否则将图像的内容挖掘为信息是不可能的。此外,由于存在基于信息的应用,例如信息检索系统、搜索引擎、编辑旧文档系统、考试校正系统和安全识别(即,牌照识别系统)。*通讯作者。电子邮件地址:aqaroush@birzeit.edu(A.Qaroush),khamadawwad@birzeit.edu(K.穆罕默德),emaali@birzeit.edu(E. Maali)。沙特国王大学负责同行审查光学字符识别(OCR)是将由相机或扫描仪捕获的打印或手写文本图像转换为可编辑表单的过程因此,数据使用量的增加节省了个人和企业的时间和金钱(Lawrence,2015)。一般来说,OCR系统包括六个主要阶段(Lawrence,2015):图像采集,预处理,分割,特征提取,识别和后处理。基于采集图像的OCR在在线OCR系统中,从平板电脑或智能手机上的笔中提取的字符和单词一旦写入就立即被识别。另一方面,离线OCR系统的输入通常是由相机或扫描仪或任何电子设备拍摄的存储图像 离线OCR进一步分为手写和打印文本两个亚类(Islam等人,2017年)。OCR系统中的预处理步骤是一个至关重要的阶段,因为接下来的阶段将更有效地使用图像此步骤旨在从原始输入图像生成清理版本。预处理步骤包括几种方法;这些方法通常独立于字体变化,例如对比度增强、噪声去除、二值化、倾斜校正、倾斜校正和细化等形态学操作。分段阶段包括分析和划分输入https://doi.org/10.1016/j.jksuci.2019.08.0131319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Qaroush等人/沙特国王大学学报1331●●●●●●●●将图像分割成基本单位,这取决于所研究的脚本和所使用的分割方法。这些单元可以是感兴趣的区域、行、词、子词、连字、字符和笔画。在特征提取步骤中处理从划分阶段得到的片段(诸如单词和字符)以提取一组统计、结构和拓扑或全局变换特征。然后将此信息传递给分类器,分类器代表识别段的识别阶段。最后,结合词典、语言模型和拼写检查等方法,提出了一系列的后处理方法,以提高识别的准确率。OCR系统的开发周期中最关键的阶段是分割,因为该阶段的输出直接馈送到识别引擎(Islam等人, 2017年; Lorigo和Govindaraju,2006年)。分词包括四个排序步骤:页面布局分析、行切分、词切分和字符切分。在输入图像的页面布局分析阶段识别并分类感兴趣区域,然后标记文本区域,然后将其馈送到行分割阶段以使用水平投影等方法提取文本行。最后,将提取的行分割成字或子字,以供直接识别或进一步分割成字符或连字作为最后一步。根据字符分割方法,OCR系统分为两种不同的方法:无分割方法( 整 体 方 法 ) 和 基 于 分 割 的 方 法 ( 分 析 方 法 ) , 如 图 1 所 示(Alginahi,2013; Naz例如,2016 a; Zeki等人,2011年)。在无分割方法中(Sabanjin和Shafait,2013),由于阿拉伯字符可以重叠,倾斜并且具有不同的风格和字体,因此识别执行时无需将单词分割成低级别段,如连字,字符,笔画和变音符号。但是,它使用一些特征、模式和查找字典来处理一定数量的单词。这种方法通常用于识别特定的单词,如数字和城市名称。这种方法的明显问题是识别阶段中存在的类的数量,这会导致性能随着词汇量的增加而下降相比之下,分析方法将每个单词分割成低级别的片段,如字符(Naz等人,2014年)。然而,这种方法需要更多的处理,用于识别阶段的类更少,这使得这种方法比现实世界的问题的整体方法更通用和实用基于分割的方法分为隐式分割和显式分割(Rehman等人,2009年)。在隐式分割或基于分割的分割中,单词图像不被划分为小单元(例如,字符),而字符在识别期间被识别这些方法分为两个亚类。窗口方法,它基于使用一个滑动的移动窗口,Fig. 1. 字符识别方法的分类。可变宽度以提供时间分割而不考虑图像特征,以及基于特征的方法,其基于检测图像特征的物理位置,然后寻求将该表示分割成良好分类的子集。因此,前者采用识别来搜索与此相反,在显式分段中,单词被分割成独立的单位,如连字、字母或笔画。 这些方法分为直接分割和间接分割(Naz等人,2016 a; Zeki等人, 2011年)。在直接分词中,通过使用一些规则和算法将词图像直接分割成字母。相反,一个词的间接分段被分成可能是字符或字符的一部分的单元,称为笔画(即点,变音符号)(Elnagar和Harous,2003)。然后,通过搜索某些特征,如起点、终点、轮廓突变点、尖点、开放曲线、闭合曲线等,将这些笔划合并这种方法的优点是最大限度地减少了欠分割问题,但从合并小单元中找到最佳单词的成本是昂贵的。基于显式的分割方法在计算上是复杂的,但产生比不太复杂的基于隐式的分割方法稍好的结果(Republeman等人, 2009年)。字符分割性能高度依赖于关于语言的本质在阿拉伯语中,识别和找到正确的分割点的复杂性由于脚本的草书性质而增加。事实上,任何OCR系统中最困难、最关键和最耗时的步骤就是字符分割。此外,阿拉伯语具有一系列独特的特征,这使得字符分割任务更具挑战性,因此阿拉伯语OCR领域的研究进展缓慢。阿拉伯文字的特征包括以下特征和独特性,如图2所示(Ahmed和Al-Ohali,2000; Zeki和Zakaria,2004;Mahmood,2013):()不同字体类型的可用性使字符的形状和轮廓不规则和多样化(图2a);()称为“Harakat”的变音符号的存在()几个阿拉伯字符可以与同一个或相邻单词中的下一个字符重叠,(图2 g)和()在某些字体或书写风格中,某些字符的笔画(如-SEEN字符)被省略,以使它们具有非标准形状(图2 g)。2 h)。在文献中提出了几种方法来解决分割阿拉伯字符的问题,然而,这些方法中的一些是字体(类型、大小和样式)相关的,并且不能处理具有重叠字符或连字的不同字体,例如此外,这些方法中的一些依赖于预定义的参数(即阈值),例如投影值来找到分割点(Zheng等人,2004年;Shaanxi等人,2009; Marwa Amara和Zidi,2016; Anwar和Adiwijaya,2015; Mousa等人, 2017年)。此外,这些方法的基本目标是找到正确的分割点,而不优化提取的字符的形状,这导致丢失一些重要的形状信息,特别是当字符重叠。本文提出了一种基于间接分割的印刷体阿拉伯语文本分割算法。该算法采用文本行1332A. Qaroush等人/沙特国王大学学报图二.阿拉伯语文本属性。它包括两个主要阶段:词分割和字符分割。对于分词,所提出的算法采用投影轮廓方法以及使用四分位数范围(IQR)统计方法来区分词空间和子词空间(Han等人,2012年)。同时,本文提出的字符分割算法采用投影轮廓法,利用一组对字体变化具有不变性的统计和拓扑特征,从所有可能的分割点中识别正确的分割点因此,本文的主要贡献如下:首先,我们提出了一种简单、高效、与字体无关的分词方法。其次,我们提出了一种间接的字符分割方法,具有以下特点:(i)所提出的方法是字体无关的,可以处理简单和复杂的字体类型,(ii)解决了相邻字符之间的重叠和子词之间的问题,(iii)优化分割点的位置,以保持字符的形状,(iv)尽可能减少连字的数量第三,在评估阶段,在APTI数据集上的实验结果证明,我们的方法取得了更好的性能比国家的最先进的方法。本文的组织如下:第2部分介绍了艺术相关的工作。第3节介绍了所提出的方法。第4节描述了实验中使用的数据集,然后介绍了结果,并与其他相关方法进行了全面比较。最后,第五部分给出了我们的结论和未来的工作。2. 相关工作2.1. 显式分割提出了许多用于阿拉伯OCR字符的显式分割的方法(Lawrence,2015; Alginahi,2013; Naz等人,2016 a;Zeki等人,2011; Casey和Lecolinet,1996)。这些方法分为:(i)投影轮廓;(ii)轮廓跟踪;(iii)形态学操作;和(iv)模板匹配方法。2.1.1. 投影轮廓法投影轮廓方法(Zheng等人,2004年; Shaanxi等人,2009;MarwaAmara和Zidi ,2016; Anwar和Adiwijaya,2015; Mousa等人,2017)是行、词和字符分割的常用方法。实际上,水平投影轮廓用于行分割,而垂直投影轮廓通常用于单词和字符分割。投影轮廓方法计算简单,并且对于简单字体类型实现良好的结果然而,对于草书文本,单独使用垂直投影法,当存在由多个部分组成的字符时,直接容易出现过分割,当相邻字符之间存在重叠时,直接容易出现欠分割。Zheng等人(2004)提出了一种机器印刷体阿拉伯字符的分割算法,该算法采用了具有一定规则的垂直投影方法这些规则基于四种特征,与文本大小无关,易于计算。Shaanxi等人(2009)提出了一种用于信德语文本分割的算法,信德语文本分割是一种阿拉伯风格的脚本语言,使用高度轮廓矢量(HPV)。该算法首先找到子词的主笔画的HPV,然后分析HPV以确定可能的分割点(PSP)的位置。MarwaAmara和Zidi(2016)开发了一种分割方法,该方法基于直方图投影以及阿拉伯语书写的一些上下文找到的潜在分割点使用垂直投影。然后根据阿拉伯语的一些结构特性及其相对于基线的位置对这些点进行Anwar和Adiwijaya(2015)提出了一种带有“Harakat”的阿拉伯字符首先将图像转换为变形形式,然后确定投影轮廓值正好等于两个像素的位置因此,图像在中间分裂的这种位置的出现超过三个连续的行。重复该过程,直到整个子字/ 字分段。 Mousa 等人(2017)采用轮廓的幅度滤波器来找到两个连接的字符之间的间隔,这两个字符被认为是轮廓中的恒定幅度。除此之外,他还使用了一种简单的边缘方法来判断是否是正确的字符A. Qaroush等人/沙特国王大学学报1333ω2.1.2. 轮廓跟踪方法在 轮 廓 跟 踪 方 法 ( Omidyeganeh 等 人 , 2005年 ; Bushofa 和Spann,1997年a; Meiden等人,2005),跟踪并随后提取形成单词、子单词或字符的外部形状的像素。基于轮廓的方法提供了字符形 状 的 清 晰 描 述 , 可 以 解 决 字 符 重 叠 导 致 的 欠 分 割 问 题(Alginahi,2013)。此外,它减少了提取基线时产生的误差但是,这种分割方法存在过分割问题,对噪声和字符刹车的存在比较敏感,需要进行图像增强。Bushofa和Spann(1997 a)提出了一种基于词主体轮廓的分词算法该算法通过找到单词/子单词的上轮廓的开始和结束点来然后,上轮廓线分割成部分,通过曲率相同的符号。为了消除噪声敏感性,Bushofa在轮廓点上应用低通滤波器。Meidel等人(2005)研究波斯语/阿拉伯语脚本的分割和识别。他们采用了三个基本特征,包括线图像的垂直投影,上轮廓的一阶Omidyeganeh等人(2005)提出了一种新的多字体波斯语/阿拉伯语文本分割算法。该算法基于条件标记的上下轮廓和子字的轮廓测量使用卷积核与拉普拉斯边缘检测方法。该算法经过对每个子词进行轮廓标注、对轮廓曲率进行分组以改善切分效果、字符切分、自适应局部基线检测和后处理等步骤。MazenBahashwan和Sheikh(2017)采用基于轮廓的检测器方法来检测角点作为候选分割点(例如分支点,罗斯点和角点)。然后,他们通过使用一组启发式规则来删除不正确的分割点Sari和Sellami(2005)开发了一种分割方法,该方法基于在特征提取阶段构建的拓扑规则将孤立的手写单词分割成完全分离的2.1.3. 形态学和细化方法形态学操作包括一组提取图像成分的方法,用于表示和描述区域形状,如边界和骨架。大多数阿拉伯字符连接到基线,因此,形态分割允许我们通过应用形态操作(如闭合和打开)将单词分解为更小的单元(Alfonseet al.,2010年)。此外,形态细化方法生成的字骨架提供了有关字符形状的基本信息,简化了文本形状,减少了数据量。然而,在许多情况下,应用细化操作后的字符形状与原始字符形状不同,使得分割过程更加困难。此外,如果不支持或不与其他技术结合,它将无法获得足够的结果。Timsari(1996)采用了一种击中或错过的形态学方法将单词分割成其字符,其中单词根据预定义的模式进行描述该方法使用命中或未命中方法搜索保存所有字符描述的Cowell(2001)使用基于迭代的细化方法来生成孤立阿拉伯字符的骨架。此外,作者还讨论了低质量图像的细化阿拉伯字符的问题此外,他还使用了一种后处理方 法 来 增 强 生 成 的 骨 骼 。 Fitriyatul Qomariyah 和 Mahmudy(2017年)提出一种基于规则集的兴趣点分割方法,以兴趣点为坐标系,对每个字符进行分割。2.1.4. 模板匹配方法模板匹配(ElnagarandAl-Kharousi,1997; Margner,1992;Saabni,2014)通常用于找到与预定义模板图像匹配的图像的一小部分在字符分割中,它通常在基线上应用一个滑动窗口,并搜索与手动选择并存储用于比较的字符或片段的匹配因此,当注意到匹配时,则将滑动窗口中的中心像素视为切割点。此方法的一个主要限制是,当使用更多字体类型和样式时,性能会随着预定义分段数量的增加而降低此外,这种方法需要花费更多的时间来检查预定义段的所有模板,特别是对于许多字体样式和大小。此外,输入图像中噪声的存在充分降低了性能。Margner(1992)提出了一种分割方法,该方法搜索由两个字符在基线处连接形成的角度的出现。该方法首先找到基线的位置,然后使用7 × 7窗口从右到左扫描基线,以找到候选分割点。因此,如果当前窗口与图案匹配,则选择窗口的中心像素作为候选点此外,作者采用了一些规则,以避免错误的分割点,如避免分割内孔。Saabni(2014)提出了使用部分分割方法和Hausdorff距离的字符分割方法该算法以单词/子单词作为输入,并开始使用笔划宽度变换(SWT)方法来计算大小和字体类型,以定义一组多大小滑动窗口来搜索和识别单词/子单词的给定形状内的字符。考虑到滑动窗口的大小和位置不同,提出了一种利用Hausdorff距离度量字符与滑动窗口图像相似性的新方法2.2. 隐式分段在隐式分割中,不需要精确的字符分割点。它基于在图像中搜索与其字母表中的类相匹配的组件。 Radwan和Khalil(2016)提出了一种基于多通道神经网络的字符分割方法。该系统通过识别分割窗口的特征来预测当前窗口到分割区域的可能性。为了增加网络输入上下文,作者采用另外两个窗口作为多通道神经网络的输入,一个作为当前窗口的前一个窗口,另一个作为下一个窗口。在Rosenberg(2012)中,作者采用SIFT算法提取的局部特征进行字符分类。每个单词都随着窗口大小的增加而扫描;因此,分割点设置在分类器达到最大置信度的地方。Bushofa和Spann(1997年b)使用了启发式算法的组合,以及通过采用一组结构特征来识别不正确分割点的基于神经网络的技术。 Naz等人(2016 b)提出使用多维长短期记忆(MDLSTM)递归神经网络对以Nasta'liq书写风格书写的印刷乌尔都语文本行进行隐式分割Gouda和Rashwan(2004)提出了一种基于隐马尔可夫模型的印刷体阿拉伯字符分割方法。在该方法中,在从单词中去除第二笔划之后,使用滑动窗口从右向左扫描每行然后1334A. Qaroush等人/沙特国王大学学报X½ ]½ ]的一种ð ðÞÞ从窗口中提取的一组特征,然后送入HMM模型,以预测当前窗口中的字符,其中为每个字符或连音构建M个不同数量的HMM Al-Muhtaseb等人(2008)提出了一种使用HALTH自动识别离线打印阿拉伯文本的技术。作者采用可变大小的重叠和非重叠分层窗口从每个垂直滑动条中提取一组简单有效的特征。Radwan和Khalil(2016)提出了一种基于多通道神经网络的字符分割方法。系统识别分割窗口的特征以预测当前窗口到分割区域的可能性。为了增加网络输入上下文,作者采用另外两个窗口作为多通道神经网络的输入,一个作为关于当前窗口的前一个窗口,另一个作为下一个窗口。在Rosenberg(2012)中,作者采用了由SIFT算法提取的局部特征进行字符分类。每个单词都随着窗口大小的增加而扫描;因此,分割点设置在分类器达到最大置信度的地方。Bushofa和Spann(1997 b)使用启发式算法和基于神经网络的技术相结合,通过采用一组结构特征来识别Naz等人(2016 b)提出了使用多维长短期记忆(MDLSTM)递归神经网络对以Nasta'liq书写风格书写的印刷乌尔都语文本行进行隐式分割,输出层设计用于序列标记以进行识别。Gouda和Rashwan(2004)提出了一种使用HHALSTON对印刷体阿拉伯字符进行分割的在这种方法中,在从单词中删除第二笔之后,使用滑动窗口从右向左扫描每行。然后,将从窗口中提取的一组特征输入HMM模型,以预测当前窗口中的字符,其中为每个字符或连字构造M个不同的HHMM。Al-Muhtaseb等人(2008年)提出了一种使用HALSTOM自动识别离线打印阿拉伯语文本的技术。作者采用可变大小的重叠和非重叠的几何窗口从每个垂直滑动条中提取一组简单有效的特征。3. 拟议工作在这一节中,一个间接的,字符分割为基础的方法打印阿拉伯语文本。所提出的方法以二值线图像作为输入,并产生由输入线图像的一个字符或liga- ture组成的一组二值图像在我们的算法中,分词分为两个层次:分词和字符法文献综述中的分词主要基于相邻字符的几何关系的分析,并且解决两个主要方面,包括(i)相邻字符的距离计算的方式,以及(ii)将先前计算的距离分类为字间隙之间或字间隙内(Louloudis等人,2009年)。阿拉伯语中的分词主要取决于单词和子单词之间的然而,由此产生的差距可能是字的差距或字的差距内。因此,为了独立于字体类型、大小和样式对这些间隙进行分类,必须考虑关于阿拉伯文字的三个假设:(i)对于单个文本行,字间隙的长度是固定的,并且取决于字体类型和文本对齐方式,(ii)对于一种字体类型和不同字体类型,字间隙内的长度是可变的,这取决于空格和周围字母的位置,以及(iii)字间隙的长度大于字间隙内的长度。根据这些假设,大多数阿拉伯语分词方法是基于一个预先定义的阈值,这取决于字体的变化。图3示出了以三种不同字体书写的阿拉伯语文本行的垂直投影:分别为Naskh、传统阿拉伯语和Andalus,其中垂直投影零值表示单词分离的潜在候选。它观察到,不考虑字体类型,单词之间的间隙非常明显,固定在同一行中,并且大于子单词之间的空间。建议的分词方法是字体不变的,计算简单。该方法由算法1中所示的三个步骤组成:(i)识别所有间隙并计算它们的长度,(ii)将每个间隙分类为词间隙或词间隙内,以及(iii)从字符分割和识别阶段所使用的行输入图像中提取词图像。在第一步中,通过计算输入线图像的垂直投影来找到线内部的所有间隙空间垂直投影可以通过在垂直方向上找到对于每个仓具有二进制值1的像素的数量来容易地计算,公式为:n-1V½j]¼二进制图像e½i;j]11/4其中Vi是列j的图像的水平投影,BinaryImage i;j是i;j处的像素值。垂直投影内的零值表示可能是单词分隔的所有空格的位置。如算法2所示测量的所有空间的长度,其中具有零投影值的连续像素被认为是一个间隙。细分通过采用垂直字图像的投影连同使用四分位距(IQR),而字符分割是基线依赖的方法,并且通过使用投影轮廓方法连同一组统计和拓扑特征来执行,以从所有潜在分割点的集合中识别正确的分割点3.1. 分词分词是将文本行转换为独立单词的过程。然后,每个字直接识别的分割自由的方法或进一步分割成字符的分割为基础的分词通常作为字符切分的前一步,也可以作为后处理的一种方法来提高识别率算法1分词1:INPUT:L作为二进制线图像2:SET G作为间隙3:将L设置为间隙长度4:SET Words作为分段单词的列表5:½G;L]←间隙位置和他们的长度6:½G;L]←间隙过滤7:SETi← 18:whileilength<9: wordStartIndex←G½i]10: wordEndIndex←G½i1]11:Words:add L:extract wordStartIndex;wordEndIndex12:结束时第13章:一个人通过结合语言词典和拼写检查来提高A. Qaroush等人/沙特国王大学学报1335←ð Þð Þ图3.第三章。文本行以三种字体书写,并带有垂直投影,(a)Naskh,(b)传统阿拉伯语和(c)Andalus。算法2寻找间隙空间位置因为单词之间的空格是相同的在1px的差异和单词内部的空格1:INPUT:Line2:集合G作为差距3:将L设置为间隙长度的列表4:VP← verticalProjection(Line)5:设置标志←06:SETi← 17:whileilength<8: 如果VVP/1/2/1/2/0标志/1/2/0,则9:G:addi10:L:addG½i]-G½i-1]11:flag←112: elseif[i]!1则13:标记014:如果结束15:结束时16:输出{G,L}为了区分单词间隙空间和子单词间隙空间,考虑到前面提到的与字体无关的假设,需要进行一些进一步的过滤。如算法3所示,在两个水平上执行所提出的过滤方法。在第一级中,长度小于间隙空间值的列表的四分之一间距(IQR)值的所有间隙四分位距(IQR)是一种统计检验方法,用于识别和惩罚离群值。IQR更适合于根据周围字母的不同而不同。这一步有助于消除非常小的间隙,但不能完全区分单词间隙和子单词间隙。在第二级中,由于所有小间隙被移除并且词空间大于子词空间,所以间隙的过滤列表的平均值将大于子词间隙。因此,长度小于间隙的过滤列表的平均值的所有间隙被移除。最后,使用单词间隙从输入行图像中提取每个单词图像。算法3间隙长度过滤1:输入:{G,L}2:设置iqrValue←IQR值3:SETi← 14:whileilength<5: if[i]!1/40&&L 1/2i] qr值),则6:G:removejujiang7:L:remove i8:如果结束9:结束时10:SETmeanValue←meanvalues;11:SETi← 112:whileilength<=L/i]meanValue14:G:remove i15:如果结束16:结束时17:输出{G,L}1336A. Qaroush等人/沙特国王大学学报表1显示了图1所示的图像文本行的间隙长度值及其IQR值。3.第三章。应用一级过滤后,长度小于IQR值的所有间隙(即如表1所示,在纳斯卡小于5)。下一步是找到剩余间隙长度的平均值,然后删除小于平均值的间隙长度(如表1所示,Naskh中小于5,Traditional中小于5,Andalus中小于8)。因此,大于平均值的值被认为图4示出了在图1的文本行图像上应用词分割算法之后的输出。3.第三章。3.2. 字符分割该算法提供了一种基于间接分割的方法来处理阿拉伯文字的曲线性质所带来的大多数挑战,包括除了字符重叠问题之外,同一字符的该算法是一种基线相关的方法,采用投影轮廓法来寻找所有潜在的分割点。此外,它还使用一组规则来找到正确的分割点,并使相邻字符的最佳分离。该算法的推广,以确保工作的几个字体的变化。所提出的字符分割算法包括四个排序阶段,如图5所示。该算法以一个二进制字图像及其二进制行图像的输入,并产生一组二进制图像的一个字符或连字。字符分割算法从词级执行,并使用行级,因为该算法计算了几个措施,以改善分割结果,如基线指数,从行级计算更准确。3.2.1. 基线检测基线被认为是阿拉伯文字的显著特征之一。它定义为像素密度最大的线图五. 字符分割的主要阶段。以及其中大多数字母在具有恒定宽度的水平段上的整行。通常,阿拉伯字符通过基线连接。因此,确定基线的位置对于确定潜在的分割点、偏斜归一化和特征提取非常重要(AL-Shatnawi和Omar,2008)。所建议的基线检测方法开始应用形态学细化操作上的输入线图像的基础上提出的方法在邓等人。(2000年),以更准确地确定基线,并为表1图1的图像文本行的间隙长度值。3.第三章。字体类型间距长度IQR值纳斯赫7 6 6 1 6 1 6 1 5 1 5 6 2 1 6 1 5 4 ● ● 5传统阿拉伯语3 6 5 5 1 5 1 1 5 1 6 1 5 1 6 1 1 6 410、安道尔5 13 9 9 9 9 9 9 9 9 9 2 ● 0使用IQR平均值进行一级过滤后的剩余间隙纳斯赫766665556654 ● ● 5传统阿拉伯65555565566 5Andalus5139999999992●●● ●● ●● ● ● 8二级过滤后的剩余间隙(字间隙长度)纳斯赫76666555665● ● ●传统阿拉伯65555565566 ●安达卢斯13999999999●●● ●● ●● ● ● ●见图4。 图的分词后输出。3.第三章。A. Qaroush等人/沙特国王大学学报1337X←ð Þ½ ]½ ]的一种←ððÞ ¼¼¼ Þ←线本身内部的水平投影然后,水平投影(HP)方法应用于细化线图像,然后进行平滑操作,以减少峰值的数量水平投影方法基于文本图像的像素将数据的2D减少到1D。水平投影轮廓定义为:n-1H½i]¼二进制图像e½i;j]21/4其中Hi是行i的图像的水平投影,并且BinaryImage i;j是i;j处的像素值。最后,应用这些顺序操作后的最大峰值被发现,其表示基线的指数算法4给出了阿拉伯文本行的基线检测过程,该算法以二值行图像作为输入,并返回基线的索引作为输出。 图图6示出了图1中的文本行图像的检测到的基线(红线)的位置。3.第三章。算法4基线检测1:输入:线2:将HP设置为空列表3:将PV设置为空列表4:thinedLine←imageThinningLine←;5:HP←水平投影细化线; 6:HP←平滑线HP细化线;7:PV←findPeakValues返回HP;8:SETBaseLineIndex← 09:SETMAX← 010:SETi← 112:<如果PV12i]>MAX,则13:MAX←PV12i]14:BaseLineIndex索引i15:如果结束16:结束时17:输出:基线索引3.2.2. 潜在分割点识别在阿拉伯文字等草书文字的切分中,最具挑战性的任务是找到并识别正确的切分点。这些点将用于确定分离的位置或连续连接字符之间的边界线。所提出的识别这些点的方法是由两个主要步骤组成的间接分割方法,其中第一步的任务是找到所有潜在的分割点,而第二步的目的是减少过度分割问题。阿拉伯字符的形状各不相同,取决于字符的位置和字体类型。然而,在阿拉伯文字中,大多数阿拉伯字符通过基线连接,其中基线上方的垂直过渡通常表示新字符。这个假设是独立于字体的。因此,我们将两个连续连接字符之间的分隔区域定义为两个连续连接字符之间的基线区域。垂直过渡和分割点通常位于该区域的中间附近。为了找到所有潜在的分离区域,首先,我们需要定位基线上方的最大数量的垂直过渡。这是通过搜索具有最大像素值变化数(从1到0或从0到1的转变)的水平线来搜索从基线索引开始到二进制线图像的高度,并且对于每个水平线从右到左。因此,对于每一条水平线,我们计算转换的数量,转换定义为将像素值从黑色变为白色或反之亦然。除了尽可能减少连字的数量之外,识别基线以上的最大数量的转换可以确保发现所有潜在的分离区域。然而,可能会发生过度分割,因为像“SEEN SHEEN SAD DAD”这样的一些字符 图 6绿线表示最大转换线的指数,而红线表示基线指数。算法5总结了检测具有最大转变数的水平线索引的过程。该算法以二值线图像和基线索引作为输入,并返回具有最大过渡次数的线的索引。算 法 5 查 找 最 大 转 换 1 : INPUT : Line ,BaselineIndex2:SETMaxTransitions← 03:SETMaxTransitionsIndex←BaselineIndex4:SETi←BaselineIndex5:whileiheightlinedo<6:设置电流转换←07:设置标志←08:集合j←19:当j/4宽度线不连续时,10:如果线路为i;j标志1标志1标志 0,则第11章:你是谁第12章:一个人13:如果行i; j!1&&FLAG1然后第14章:旗015:如果结束16:结束时17:如果CurrentTransitions> 1/4MaxTransitions,则第18章:最大化19:MaxTransitionsIndex i20:如果结束第21章:结束第22章:输出最大转换指数在找到最大过渡索引之后,我们需要用三个索引来识别每个分离区域:表示分离区域开始的开始索引,表示分离区域结束的结束索引,以及表示连续字符之间的边界线的切割索引,使得可以由两个连续切割索引之间的面积定义的字符段如图所示。 7 c. 因此,通过最大过渡水平线索引跟踪并检测-图六、 基线指数为红色,最大过渡指数为绿色。3.第三章。1338A. Qaroush等人/沙特国王大学学报←←ðÞ←见图7。 分离区指数的一些例子。改变提供每个分离区域的开始和结束索引。实际上,将像素值从白色改变为黑色表示分离区域的开始索引,而将像素值从黑色改变为白色表示分离区域的结束在输入行中该算法将二进制行图像、单词图像和最大转换索引作为输入,并返回所有已识别分离区域的列表。图7I示出了所识别的分离区域的索引的位置。如图所示的定量区域。早上7根据阿拉伯人的形状字符,切割索引在分离区域的开始和结束之间的区域中切割指数需要被优化以保持字符的形状,特别是当存在重叠时,并且当旨在减少识别区域的假阳性时实际上,对于既不相连也不重叠的字符,最佳分离位置应该是垂直投影等于零的点,并选择在分离区域的中间附近,如图2所示。 7 d.对于连接的字符,最佳分离位置应该是与字符本身或下一个字符的结构没有垂直相交的点,但只有基线。因此,如果在中间的垂直投影等于基线厚度,则切割指数在分离区域的中间,所述基线厚度被 计 算 为 输 入 二 进 制线 图 像 的 垂 直 投 影 的 模 式 值 ( 最 频 繁 值MFV),如图2所示。 7 b. 如果中间的垂直投影大于MFV值,则会发现与前一个字符或下一个字符或与点重叠 在这种情况下,我们搜索从分离区域的中间朝向分离区域的末端的点,并且切割索引将是具有垂直投影等于MFV值的第一个点,如图1所示。 7 e. 对于某些情况,特别是在小字体尺寸中,在分离区域的中间和末端索引之间没有点具有等于MFV值的为了克服这个问题,我们在计算垂直投影之前对行图像应用具有(2*2)结构元素的形态学开运算,以去除点与下一个字符之间的重叠,如图所示。 7 e. 如果在中间索引和开始索引之间不存在具有等于MFV的垂直投影的点,则我们从分离区域的中间朝向分离区域的开始搜索点,并且切割索引将是具有等于MFV值的垂直投影的第一点,如图1所示。 7楼最后,如果没有垂直投影等于MFV值的点,则切割指数将位于分离区域的中间,该分离区域可以被视为像图1中所示的内部点那样的内分离区域。 7楼算法6总结了识别所有分离区域的过程算法6切割点识别1:INPUT:Line,Word,MTI2:SETi← 13:设置标志←04:LineImage←打开LineImage5:VP←垂直投影线6:设置MFV←模式VP7:whilei¼ Width8:如果“字”为“MTI;i”,则9:SETSR←newSeparationRegions10:SR:EndIndex←i11:Flag←112: else ifWordMTI; i!1FLAG then13:SR:StartIndex←i14:MidIndex←EndIndexStartIndex=215:如果在开始和结束存在VP½k]0,16:结束索引,然后17:SR:CutIndex←最接近k到mid的索引18:如果VP½MidIndex]MFV结束,则19:SR:CutIndex←mid index20:如果存在VP½k]MFV,则结束21:然后结束索引22:SR:CutIndex←最接近k到mid的索引23:如果存在VP½k]MFV,则结束24:在开始和中间索引之间,然后25:SR:CutIndex最接近k到mid索引26:其他27:SR:CutIndex MidIndex28:如果结束第29章:你是我的女人30:标记031:如果结束第32章:你33:输出:分离区域A. Qaroush等人/沙特国王大学学报13393.2.3. 分离区过滤采用最大数量的过渡以上的基线,以确定连续字符之间的边界,可以确保所有潜在的分割点的发现。然而,由于某些字符在基线上有两个或三个过渡,这可能会导致某些字符的过分割,需要进一步处理以确定该区域是否是有效的分割区域。所提出的处理假阳性的方法所提出的算法从检查分离区域的切割索引处的垂直投影开始。因此,如果它等于零,那么分离区域是有效的,如图8a所示。此外,如果在当前区域的开始索引和结束索引之间不存在连接路径,则分离区域是有效的,如图8b所示。通常,阿拉伯文字中连接字符之间的分隔在大多数情况下发生在基线中。然而,由于某些过渡是由同一字符的变化引起的,所以分离区域在以下特殊情况下是无效的:(i)如果如图8c所示的在前一区域的剪切索引和下一区域的剪切索引之间定义的段/字符具有孔状()字符。 在这情况下,切割索引位于字符内部,(ii)如
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功