没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于分割的无字体识别Aziz QaroushZiq,Abdalkarim Awad,Mohammad Modallal,Malik Ziq巴勒斯坦比尔宰特大学电子和计算机工程系阿提奇莱因福奥文章历史记录:收到2020年2020年9月26日修订2020年10月3日接受在线预订2020年保留字:光学字符识别单色字体混合字体字符分割特征提取卷积神经网络A B S T R A C T光学字符识别OCR是许多实际应用的重要组成部分,如数字存档,自动车牌识别,处理支票等,然而,由于阿拉伯草书的特殊性,开发一个印刷阿拉伯文本的OCR仍然是一个具有挑战性和开放性的研究领域。在本文中,我们提出了一个基于分割,全字体,开放词汇的印刷阿拉伯语文本的OCR。所提出的方法不需要一个显式的字体类型识别阶段。它使用一种显式、间接的字符分割方法。本文提出的分割方法是基于基线的,并采用一种混合的三步字符分割算法来处理字符重叠的问题。此外,它使用了一组拓扑特征,设计和推广,使分割方法的字体无关。分割后的字符作为卷积神经网络的输入进行特征提取和识别。APTID-MF数据集已用于测试和评价。分割阶段的平均准确率为95%,而识别阶段的平均准确率为99.97%。整个方法在不使用字体类型识别或任何后处理技术的情况下,平均准确率达到95%©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍以书籍、历史文档、杂志、报纸和笔记形式存在的大量纸质文档增加了对有效的光学字符识别系统(OCR)的需求,以将文本图像转换为可编辑形式或数字档案(Zoizou等人,2018年)。这种转换允许自动处理,搜索,挖掘,易于备份设施,并消除了对打印文档的物理存储的需要此外,由于存在许多数据输入应用程序和信息检索系统(例如搜索引擎),因此对可靠的OCR系统的需求有所增加此外,OCR系统可以改善和自动化许多*通讯作者。电子邮件地址:aqaroush@birzeit.edu(A.Qaroush),akarim@birzeit.edu(A.Awad)。沙特国王大学负责同行审查处理、银行验证处理、安全识别(即牌照识别系统)以及许多其它应用(Perwej等人,2014年; Lawrence,2015年;印刷阿拉伯字母识别,xxxx; Islam等人,2017年)。这使得OCR成为研究最多的模式识别问题之一。OCR系统的发展始于1970年,当时视网膜扫描仪的发明刚刚开始它是将由相机或扫描仪捕获的类型或手写文本图像自动转换为计算机可编辑文本以避免重新输入的过程,这导致增加数据使用并节省个人和企业的时间和金钱(Qaroush等人, 2019年)。通常,开发OCR系统包括六个测序主要阶段,如图1所示(Lawrence,2015; Printedarabic script recognition,xxxx;Islam et al.,2017年; Lorigo和Govindaraju,2006年):图像采集,预处理,布局分析和分割,特征提取,识别和后处理。根据文本图像的获取方式,OCR系统分为在线和离线系统。在在线系统中,输入的文本图像(例如,单词或字符)在用户正在书写时立即从基于笔的设备(诸如,签名板或蜂窝电话)获取。另一方面,在离线系统中,输入通常是存储的文本-由相机、扫描仪或其他光学设备拍摄的在线系统中的识别是实时执行的,并且不太复杂,因为不需要一些预处理https://doi.org/10.1016/j.jksuci.2020.10.0011319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3026Fig. 1.一个典型的OCR系统主要阶段的框图。该图显示了OCR主要阶段的中间步骤。技术,如噪声消除和细化。另外。 它可以捕获更多的时间或基于时间的信息,例如速度、所做的笔画数和笔画书写的方向(Islam等人,2017年)。在预处理阶段,采用了一组通常与字体无关的方法,如对比度增强、噪声去除、二值化、倾斜校正、倾斜校正和细化,以产生一个干净和统一的输入图像版本。版面分析的目的是将文本图像分割成区域,然后将这些区域分为文本区域和非文本区域(例如,文本区域)。图像)。之后,根据所研究的脚本和所使用的分割方法,将文本区域进一步分割为行、词、字符和笔画在特征提取阶段中处理和分析从布局分析阶段得到的片段(诸如单词和字符),以提取一组统计、结构或全局变换特征。然后,将该信息传递给代表识别阶段的分类器,以识别这些片段。最后,结合语言词典、语言模型和拼写检查方法,采用一系列后处理方法构建OCR系统面临几个一般性(与语言无关)挑战,例如输入图像的质量(例如存在噪声,模糊,偏斜,倾斜和退化),字体变化(例如类型,大小和样式),非字符对象的存在和扫描图像的布局复杂性(Hamad和Kaya,2016)。此外,阿拉伯语具有一系列独特的特征,这使得字符分割和识别任务更具挑战性。阿拉伯文字的特点包括以下特点和独特性(Ahmed和Al-Ohali,2000年; Zeki和Zakaria,2004年;Mahmood,2013年):(i)阿拉伯文本是从右向左书写的,这使得字符分割过程复杂化,而字符分割被视为任何手写OCR系统的最关键步骤,(ii)com-复杂字体类型(例如Thuluth、Diwani、Andalusi和Naskh)使得字符的形状和轮廓不规则且多样,(iii)称为“Harakat”的变音符号的存在增加了相邻字符之间的重叠,从而增加了分割问题,(iv)阿拉伯语中的大多数字符根据它们在单词中的位置(在开始、中间、结束或分隔)具有四种形式,这增加了在识别阶段中使用的类的数量,(v)阿拉伯语字符在高度和宽度方面没有固定的大小,(vi)在一些字体类型中,例如“Thuluth”和“Naskh”,一些连续连接的字符不能被分割,从而组合为称为连字的新形状,其与水平连接两个基本形状的结果不相似,(vii)连接笔划的长度在不同字体中变化,(viii)几个阿拉伯语字符可以与下一个字符重叠(ix)在某些字体或书写风格中,某些字符如“SEEN字符”的笔画被省略,使其具有非标准形状。这些独特的特征使得阿拉伯语OCR更具挑战性,因此阿拉伯语OCR领域的研究进展缓慢。在文献中已经提出了几种研究方法此外,一些阿拉伯语OCR系统是 商 业 上 可 获 得 的( 例 如 , Sakhr、 READIRIS PRO 、 ABBYYFineReader 等 . ) 或 作 为 开 放 源 代 码 ( 例 如 , TESSERACT 、KRAKEN等)。. )或免费在线OCR(例如GoogleReader、i2OCR等)。. )(Zoizou等人,2018年)。然而,现有的方法和系统具有许多弱点,总结在(i)与其他语言相比,它们低于专门用于全字体方法的期望性能水平,(ii)它们中的一些是字体(类型、大小和样式 ) 依 赖 的 或 单 字 体 , 并 且 不 能 处 理 复 杂 的 字 体 类 型 , 例 如Thuluth、Diwani、Andalusi和Naskh,这些字体类型在旧书中广泛使用,(iii)一些研究方法在简单和小的未公开的数据集上进行测试,以及(v)它们中的大多数是基于在特征提取和识别阶段使用经典方法在本文中,我们提出了一个基于分割,全字体,开放词汇的印刷阿拉伯语文本的OCR所提出的方法使用了一种显式的、基于混合字符分割的方法,并在特征提取和识别阶段使用了深度学习我们的字符分割和文本识别方法是字体独立的,而不需要字体识别阶段。此外,所提出的方法执行的连续文本行图像和识别模型是一个开放的词汇 文 本 识 别 方 法 。 我 们 还 使 用 APTID-MF 评 估 了 我 们 的 方 法(Jaiem等人, 2013)数据集,以证明所提出的方法的鲁棒性。所提出的方法进行了实验50个文本块足够的字体变化。所提出的分割方法达到了95%的平均准确率,而实现的平均准确率的识别阶段是99.97%。整个方法在不使用字体类型识别或任何后处理技术的情况下,平均准确率达到95%。因此,本文的主要贡献可以概括如下:第一,提供了一个最新的调查和分析,印刷体阿拉伯字符分割,特征提取和识别。其次,我们提出了一种有效的基于显式的字符分割方法,该方法具有以下特点:(i)分割方法是基线依赖的,并使用投影轮廓和连接组件方法的混合分割方法来处理相邻字符之间的重叠问题,以尽可能减少连字的数量,(ii)分割方法使用一组拓扑规则,使其字体类型,大小和风格无关,(iii)优化分割点的位置,以保持字符的形状。第三,我们已经收集并标记了一个用于实验评估的分割阿拉伯字符数据集,我们还将使该数据集A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3027供其他研究人员使用。第四,使用深度学习方法进行特征提取和识别阶段。第五,在评估阶段,在APTID-MF数据集上的实验结果证明,我们的方法取得了更好的性能比国家的最先进的方法,工作在完整的文本行和提出的混合字体类型没有字体类型识别。第二部分介绍了印刷体阿拉伯字符分割、特征提取和文本识别的相关工作。在第3节中,我们提出了我们的方法和技术,印刷阿拉伯字符分割,特征提取和字符识别。第四部分介绍了实验中使用的数据集,并对实验结果进行了介绍和讨论,同时与印刷体阿拉伯字符分割和字符识别的相关工作进行了全面的比较。最后,第五部分给出了我们的结论和未来的工作。2. 相关作品2.1. 字符分割字符分割是一种试图将输入单词/子单词图像分割成各个片段的子图像 的 操 作 , 例 如 连 字 、 字 符 或 笔 画 ( Casey 和 Lecolinet , 1996;Alginahi,2013)。字符分割是OCR系统开发中的一个重要阶段,它直接影响到特征提取和识别阶段的成功。分割算法的性能高度依赖于语言的性质。事实上,字符分割是任何OCR系统中最关键、最困难和最耗时的阶段,尤其是对于草书,因为存在接触和重叠字符。字符分割可以用两种方法完成,即显式分割和隐式分割,如图2所示(Casey和Lecolinet,1996;Alginahi,2013;Printedarabicscriptrecognition,xxxx; Naz等人,2016 b; Zeki等人,2011年)。显式分割方法将文字图像分割成一组小的部件,而隐式分割方法将分割阶段和识别阶段结合起来,将文字分割成字符并同时进行识别。2.1.1. 显式分割在基于显式或解剖策略的分割中,单词被分割成更小的独立单元,例如连字,字符或笔画(字符的一部分),基于一组预定义的假设,特征或规则,用于确定分割点的有效性(Lawrence,2015; Alginahi,2013; Choudhary,2014)。它又分为直接分割和间接分割两个子方法。图二.阿拉伯字符分割方法。第10节在前者中,单词被直接分割成连字和字符,而在后者中,单词被分割成更小的片段,这些片段可以是字符或字符的一部分,如笔画(即点,变音符号)。然后,通过利用诸如起点、终点、轮廓中的突变点、尖点、开放曲线、闭合曲线等的一组特征来合并所生成的笔划基于显式的方法具有最小化欠分割问题(例如减少训练类的数量)的优点此外,它产生的结果比不太复杂的基于隐式的分割方法稍好,并且也更适合混合字体识别系统(Lawrence,2015; Alginahi,2013; Naz等人,2016 b; Rehman等人,2009年)。然而,基于显式的分割方法在计算上是复杂的并且依赖于语言,因为不同的字母表具有不同的特征(Inkeaw等人, 2018年)。基于显式的分割方法可以分为投影轮廓法、基于轮廓法、基于归一化法和模板匹配法。投影轮廓方法(Nawaz等人,2003; Zheng等人,2004; Zidouri等人,2005年; Shaanxi等人,2009;Anwar等人,2015; Mahmoud等人,2017年; Marwa Amara和Zidi,2016年)基于在单词片段上应用垂直投影轮廓来搜索潜在分割点的位置,这是基于相邻字符之间的连接笔划具有比字符本身更小的厚度的事实(Lawyant,2015年; Alginahi,2013年; Naz等人,2016年b)。投影轮廓法计算简单,能将二维字符但是,对于具有重叠字符和字符之间的压缩间距的草书文本(例如“Thulth”阿拉伯字体类型),它会产生更多连字此外,当字符由多个部分组成时,单独使用垂直投影直接容易产生过分割。基 于 轮 廓 的 方 法 ( Omidyeganeh 等 人 , 2005 年 ; Bushofa 和Spann , 1997 年 ; Meiden 等人, 2005; Sari 等人, 2002;Romeo-Pakker等人,1995)通过找到表示形成单词外部形状的像素的单词轮 廓 来 提 取 关 于 单 词 的 一 般 形 状 的 信 息 ( Lawyson , 2015;Alginahi,2013; Naz等人,2016年b)。它利用单词形状(轮廓)的表示来定位潜在的分割点,基于这样的事实,即每个字符由一个高轮廓后面跟着一个平坦或低轮廓组成此方法适用于具有连字和重叠字符的字体。然而,轮廓跟踪是敏感的噪声和字符刹车。此外,它还存在过分割问题,尤其是当字符由多个部分组成时。基于去离子化的方法(Altuwaijri和Bayoumi,1998;Moglobal等人 , 1997 年 ; Timsari , 1996 年 ; Cowell , 2001 年 ; Qomariyah 和Mahmudy,2017年; Ahmad,2007年; Mostafa,2004年)采用一组形态操作,如打开,关闭和细化提取用于表示和描述区域形状信息的单词/字符成分或特征,例如边界、曲率、角度和骨架(Lawyers,2015; Alginahi,2013; Naz等人,2016年b)。形态分割允许将草书文本段分解为更小的单元。此外,使用细化操作来生成单词的骨架,减少了要处理的数据量。 然而,由于在应用细化操作之后存在信息损失,因此字符的骨架可能不同于原始形状,使得分割过程更加困难。模板匹配方法(Saabni,2014; Zhang等人,2013)基于滑动窗口和预定义的角色模板找到角色的潜在切割点。它从找到基线开始。然后,它通过在文本上滑动模板来搜索模板和文本图像之间的匹配(Lawrence,2015; Alginahi,2013; Naz等人,2016年b)。模板匹配A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3028方法对于具有简单字体的打印文本工作良好然而,它对字符的大小和位置的不同很敏感,因此当使用更多的字体类型和样式时,性能会随着预定义段的数量增加而此外,它们的结果高度依赖于预处理方法的性能,此外,检查所有预定义的模板在计算上是昂贵的。2.1.2. 隐式分段在 隐 式 或 基 于 隐 式 的 分 割 方 法 ( Radwan 等 人 , 2016;Rosenberg , 2012; Bushofa 和 Spann , 1997;Naz 等 人 , 2016 a;Gouda和Rashwan,2004; Al-Muhtaseb等人, 2008)搜索单词段,以查找与其字母表中的预定义类匹配的组件(印刷阿拉伯语脚本识别,xxxx)。因此,分割阶段和识别阶段同时执行换句话说,在识别时将词段分割成它们的字符,而不将其划分成更小的单元(例如字符)(Inkeaw等人, 2018年)。它利用来自字符分类器模型的反馈来检测分割点。这些方法分为基于窗口和基于特征的两个子方法。加窗方法是在不考虑图像特征的情况下,利用可变宽度的滑动窗口对文字图像进行时间分割,从而实现文字图像的盲分割因此,它试图通过评估所生成的子图像的分类来另一方面,基于特征的方法是基于检测图像特征的物理位置,然后试图将该表示分割成分类良好的子集。因此,窗口方法采用识别来搜索隐式分割方法是一个简单的过程,通常语言独立。它们的准确性与分类性能有关或取决于分类性能。它们被用于克服草书分割的复杂性和问题(Inkeaw等人,2018年; Rehman等人,2009年)。此外,它们提供了所有的临时段,并让识别器/分类器选择最佳分割。因此,基于隐式分割的识别技术需要大量的训练数据.然而,在为单词段选择段的总数时存在权衡。事实上,使用较少数量的分段减少了计算时间,但增加了欠分段的问题。此外,当相邻字符之间存在重叠时,情况会变得更糟,因为我们需要识别有效字符的所有可能组合,而不仅仅是识别有效字符。另一方面,使用大量的段减少了欠分割问题,从而减少了连接的数量然而,它产生更多的切片,这增加了计算时间和过分割问题。此外,部分字符被识别为有效字符,这通常被几乎所有基于隐式的分割方法都采用第二种方法,因为合并小段以形成有效字符更容易(Inkeaw等人, 2018年)。2.2. 特征提取特征捕获并表示从单词或字符提取的信息,诸如像素、形状信息或统计特性(Lorigo和Govindaraju,2006; Kesiman等人,2016;Soora和Deshpande,2018; Trier等人,1996年)。要素提取将输入的原始数据转换为精简的制图表达集称为特征向量。因此,特征提取的主要目标是从原始原始数据,并通过忽略冗余和不相关的信息在较低维度空间中表示该信息,从而使模式(例如字符)分类的任务变得容易并以正式的方式进行(Kumar和Bhatia,2014)。字符识别的特征提取方法可以分为两种方法,传统或经典和深度学习。传统的方法主要是基于手工制作的功能。手工制作的功能有时很简单,不那么模糊。此外,他们不需要一个大的训练集。然而,手工制作的功能需要关于应用程序的知识,因此不能容易地转移到其他应用程序。一般来说,传统特征可以分为局部或全局(Gonzalez和Woods,2017)。对于字符识别,它可以分为基于形状的(例如几何,矩,局部和 空 间 ) 和 非 基 于 形 状 的 ( 例 如 统 计 ) ( Soora 和 Deshpande ,2018)。字符识别中特征提取的另一个主要分类分为四个子类:结构特征(例如宽度、高度、孔等),统计特征(例如平均值、标准偏差、概率分布、投影、分区等),局部特征(如SIFT、SURF等)和全局变换特征(例如,傅立叶变换、矩等)。(Lawrence,2015年;印刷阿拉伯文字识别,xxxx;Noushin Najafiragheb和Harifi,2016年)。另一方面,机器学习,特别是深度学习方法,直接从输入像素中学习特征提取器。因此,通过在数据集上训练特征提取器模型,经训练的模型可以容易地适应许多输入类型和变化。此外,深度学习(例如卷积神经网络(CNN)和长短期记忆(LSTM))为检测和表示特征提供了非常灵活和通用的可学习框架。此外,该方法与问题无关,不需要分析数据的专家知识。然而,使用深度学习需要大量的数据集来训练提取器模型。人们普遍认为,影响分类器性能的主要因素之一是选择一组合适的特征来表示输入图像。此外,字体变化的大可变性使得适当特征集的选择甚至更加复杂。因此,一些研究使用特征选择方法来选择实现最大准确度的最佳特征子集(Cilia等人,2019年)。事实上,特征选择有助于减少信息冗余,减少维数灾难的影响,并可能提高分类器性能。此外 , 特 征 选 择 降 低 了 计 算 复 杂 性 , 并 产 生 了 简 单 的 分 类 模 型(Abualigah,2018; Abualigah等人,2018年、2017年)。2.3. 字符识别根据所使用的字符分割方法,用于诸如阿拉伯文本的草书的字符识 别 技 术 可 以 分 为 整 体 ( 无 分 割 ) 和 分 析 ( 基 于 分 割 ) 方 法( Alginahi , 2013; Naz 等 人 , 2016 b; Zeki 等 人 , 2011;Mohammad等人,2019; Qaroush等人, 2019年)。在整体方法中,由于草书中的字符可以重叠、倾斜并且可以具有不同的形状,因此整个单词被处理为统一的单元,而不进一步将单词分割成其低级单元,例如连字、字符、笔画、点和变音符号。整体方法处理单词而不是字符,并且需要计算输入单词的全局特征向量,然后利用该全局特征向量来针对所存储的单词词典对单词进行分类(Nashwan等人,2017年)。然而,在这种方法中的主要挑战是大量的类存在于识别阶段时,处理大词典大小的单词,这导致性能下降的单词数量的增加。因此本A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3029¼←←ð¼×Þ← ðÞð¼×Þ←← ðÞ这种方法对于一般的文本识别没有用,通常用于识别特定的单词或静态定义的词汇,如数字、城市名称和银行支票识别(打印阿拉伯字母识别,xxxx)。另一方面,分析(基于分割)方法依赖于显式或隐式地将单词单元分割成一系列较小的单元(通常是字符)(Din例如,2017年)。基于分割的方法具有减少训练类的数量的优点,使得这种方法比用于现实世界问题的整体方法更通用和实用。然而,将草书分割成字符,特别是当字符之间存在重叠时,是一项具有挑战性的任务,需要更多的处理。3. 印刷体字符分割与识别所提出的方法是一个分析(基于显式分割),开放的词汇识别模型。该算法处理连续文本行图像,包括字符分割、特征提取和字符识别三个阶段。在本节中,我们提出了我们的方法,印刷阿拉伯字符分割和识别。第3.1节描述了我们的分割方法,第3.1.1节描述了所提出的特征提取和识别方法。3.1. 字符分割所提出的分割方法是一种基于显式间接分割的方法。所提出的方法以打印文本行图像作为输入,并返回其字符或连字的列表作为输出。它由三个排序阶段组成,这些阶段被仔细设计以实现以下目标:(i)简单性,(ii)一般化为独立于字体类型、大小和样式(iii)处理字符之间的重叠,以及(iv)对过分割和欠分割问题表现得相当好。它从预处理阶段开始,目的是预处理分割阶段的输入,包括图像二值化,行空间修剪和行分区。第二阶段是基线检测和定位,其中确定基线宽度。最后,在第三阶段,三个分割方法被用来分割线成字符和连字。3.1.1. 文本行图像预处理图三. 文本行图像预处理步骤.外部白色像素边界通过首先在二值化文本行输入图像上应用水平和垂直投影,然后找到仅包含白色像素的第一列、最后一列、第一行和最后一行来确定图3c示出了检测到的边界,并且图3d示出了在修剪空间之后的二值化文本行图像。最后,文本行图像基于行宽度被划分为N个段,如图3e所示。因此,文本行图像可以被分割成一个片段(当行宽度小于或等于页面宽度的三分之一时)、或两个片段(当行宽度在页面宽度的三分之一时和页面宽度的三分之二之间时)、或三个片段(当行宽度大于或等于页面宽度的三分之二时产生的片段可能不相等的宽度和切割点确定使用垂直投影(VP),特别是当VP0。实际上,长线图像中的文本可能具有不同的偏斜,这导致基线宽度检测过程中的误差,如图3f所示。因此,为了解决这个问题,基于行图像宽度将文本行图像分割成N个段,然后将基线宽度检测阶段分别应用于每个段 图 3 g显示代表基线的红线覆盖了每个段的精确基线宽度。算法1总结了文本行预处理阶段。行预处理阶段旨在准备清理版本并基于行长度将文本行输入图像分割成N个段。它包括几种独立于字体类型和大小的技术。它接受打印的阿拉伯文本行图像作为输入,并返回清理的二进制文本图像线段。预处理的第一步是图像二值化。图像二值化是将灰度图像转换为二值形式,目的是净化图像,降低图像维数。文献中介绍了几种文档二值化方法(Lokhande和Dawande,2015)。在我们的算法中,大津算法被用来确定阈值。Otsu它的工作原理是找到全局阈值,使所得黑白像素的类内方差最小化。图3b示出了图3a的输入图像的二值化形式。 3 a.在第二步中,修剪文本行图像周围的空格。这一步的目的是找到准确的文本行图像的高度和宽度,以找到统计属性,如字符宽度和高度,将在下一阶段使用空间修剪算法1文本行图像预处理1:输入GLI:作为文本行灰度图像2:设置:BLI作为文本行二值图像3:SET:PW as pagewidth4:BLI←Otsu0sGLI;5:HP←horizontalProjectionBLI;6:VP←verticalProjectionBLI; 7:Borders←findBordersHP;VP;8:BLI←空间修剪边界线;9:LWgetLineWidth BLI;10:如果LW<0时 33分PW然后第11章:第一段12:否则,如果LW<0点 66分PW然后第13章:第二段14:其他第15章:第三段16:如果17:线段;VP; 18:输出线段通过移除外部白色像素边界周围的空格来工作。A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3030← ðÞ¼3.1.2. 基线检测和定位基线被认为是任何草书的显著特征之一,如阿拉伯文字。它是一条虚拟的线,字符在上面相互连接/连接基线检测是草书文本识别中的一个重要步骤它可以用于寻找潜在的分割点,倾斜校正和特征提取。所提出的基线检测阶段以二进制文本线段图像作为输入,并返回基线宽度作为输出。它包括两个主要步骤:初始基线的定位和基线宽度的确定在第一步中,定位初始基线首先在输入文本线段上应用水平投影,然后进行平滑操作以减少峰值的数量最后,应用这些顺序操作后的最大峰值被找到,其表示基线的索引 图图4 b示出了水平投影,其中没有- out并且随着峰值平滑,并且图4 c示出了基线的索引。在第二步中,通过查找基线上索引和基线下索引(行索引)来确定基线宽度,其中上索引位于基线之上,下索引位于基线索引之下,如图所示。 4杯为了找到这些索引,我们在计算基线索引以上的图像和基线索引以下的图像中的垂直投影之后应用返回模式值表示基线索引与基线的上端和下端之间的距离算法2示出了检测和定位阿拉伯文本线段的基线的过程,其中该算法将二进制文本行图像作为输入,并返回基线的上索引和下索引作为输出。算法2基线检测和定位1:输入:TLIS作为文本行图像片段2:HP←水平投影仪TLIS显示; 3:HP←平滑投影仪HP显示;4:BaselineIndex←getMaximumPeakValue(最大峰值);5:VPU←verticalProjectionLTSI½:BaselineIndex];6:VPL←verticalProjectionLTSI½BaselineIndex:]; 7:UperIndex←modeVPU;8:LowerIndex模式VPL;9:输出:UperIndex,LowerIndex3.1.3. 字符和连字分割在这个阶段中,每个文本线段图像被分割成字符或连字。为了处理字符之间的重叠并减少连字的数量,从而减少类的数量,使用三种分割方法,即通过垂直投影分割、通过连接分量分割和通过基线去除分割,在三个步骤中完成分割。在开始分割之前,我们通过应用连通分量算法去除了点和变音符号,然后删除了与基线索引不相交的所有分量。点和变音符的存在隐藏了一些分割点,也增加了连接组件的数量。图5 b显示了从图5中去除圆点和变音符号后的输出。 5点在第一种分割方法中,使用垂直投影对文本线段图像进行分割,其中当VP为0时识别切割这个步骤的输出可以是单词、子单词、字符或连字,如图5c所示,其中红线表示分割点。该阶段的输出单词/子单词可以像子单词中那样具有重叠的且不连接的字符。为了分割这些情况下,我们应用分割连接组件作为第二分割方法。连通域分割算法从输入图像中提取不连通的部分(例如子词或字符),其目的是分割不连通且垂直重叠的字符此步骤的输出可以是字符、连字或包含通过基线连接的字符的单词/子单词 图 5d显示了将连接组件应用于子字。最后,通过首先去除基线来分割词/子词,然后使用垂直投影来识别分割点。分割点的位置应该是见图4。 基线检测和定位。图五. 分割阶段的输出。A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3031←¼¼ð← þðÞ← þ← þ仔细地决定保存字符的形状。图5e和f示出了使用基线去除的分割点的位置如果没有重叠,分割点位于分离区域的中间(连续零投影值的区域),如图所示。 5 e,或围绕分离区域的中间(其中VP等于零或等于最小投影值),如果两个连续连接字符之间存在重叠,如图所示。5楼。图图5G示出了基于从三个分割步骤识别的分割点的分割字符作为分割阶段的输出。算法3总结了字符和连字分割阶段。特别是小字体大小,如图所示。 6 b,我们在图像中应用垂直投影,没有点和附加符号。此外,垂直投影是在输入单词/子单词的60%高度上计算的(忽略输入单词/子单词的前20%和后20%图6a和b示出了在处理这些欠分割问题之前的分割输出的示例。 图图6C示出了处理这些欠分割问题之后的相同示例。由于一些阿拉伯字体如“Thulth”的书写方式使某些字符垂直重叠而无法分割,因此欠分割问题因此,其他分割不足病例被视为结扎。 图 6 d显示了一些著名的连字算法3字符和连字分割1:输入:TLIS作为文本行图像片段2:输入:BUI作为基线上限索引3:Input:BLI as baseline lowerindex 4:TLIS←removeDotsAndDiacritics5:VP←垂直投影TLIS图;6:listOfSegments1←切割TLIS,其中VP1/4/4 0 7:当listOfSegments1中的每个片段8:listOfSegments2←CC分段列表;9:当listOfSegments2中的每个片段10:segment←removeBaselinesegment;BUI;BLI11:VP←垂直投影段VP;12:segmentationPoints索引,其中VP013:结束时14:结束时15:输出:分割点但是,第三个分割步骤的输出可能会导致某些字符的分割不足或过度问题因此,为了减少由于字符之间或字符与点/变音符号之间的垂直重叠而引起的分段不足问题,如图1B所示。 6a,除了扫描和二值化造成的字符之间的假接触外见图6。 细分不足问题的示例。另一方面,分割过程可能会将某些字符分割成多个子字符,这就是过分割问题。在所提出的方法中,过分割问题主要发生在以下三种情况下:(i)位于单词末尾的字符,、(ii)性格方面,及(iii)光泽的性格。图7a示出了这些情况下的过分割的示例。为了处理这些情况,我们首先检查当前段是否是中风实际上,如果该线段满足以下特征,则该线段是笔划:(i)它是单个连通分量,(ii)基线以上的水平投影之和大于基线以下的水平投影之和,(iii)段的高度(段的末端)小于水平投影的第二峰值的两倍,以及(v)段没有孔。图7b示出了笔划形状的示例。对于第一种情况,如果段是笔画形状并且它是最后一个段,则我们忽略分割点,如图7c所示。对于第二种情况,如果当前、下一个和/或下一个之后的段是笔划,则合并表示SEEN字符的这些段,如图7d所示。最后,如果当前段和/或下一个段是没有点的笔画,而第二段是有点的笔画,则合并这些表示SHEEN字符的段,如图7e所示。算法4总结了过分割规则.算法4处理过分割1:输入:分段2:输入:分割点列表LSP3:SETi← 04:当i小于LSP的长度时,5:如果最后一个线段是笔划,则&&6:移除分割点7:ii18:如果当前;下一个和=或下一个段之后是笔划然后9:合并这些段10:i←i311:否则,如果当前和=或下一段之后是笔划十二:而第二段是带点的笔画然后13:合并这些段14:ii315:其他16:ii117:如果结束第18章:结束19:输出:分割点ÞA. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3032见图7。 过度分割问题的示例。3.2. 特征提取与字符识别一旦文本图像(例如单词/子单词)被分割成孤立的片段(例如连字,字符和笔画),下一阶段是特征提取。对于OCR系统,特征提取阶段与其他OCR阶段相关,例如预处理和识别阶段,并且被视为影响OCR(印刷阿拉伯文字识别,xxxx)的整体性能的最重要阶段之一。OCR中特征提取方法的选择仍然是获得高识别精度的最重要的关键因素。因此,对于Hossain等人(2012)中总结的更高识别率,应该考虑特征提取方法的几个重要方面:(i)特征需要相对于由字体类型、样式和大小的可变性引起的(ii)通过最相关的信息/特征的缩减集合来表示输入字符的原始图像数据,(iii)简单且轻量,(iv)需要对于一定程度的平移、旋转和形状失真是不变的,(v)应该关于OCR预处理步骤(例如去噪、二值化和细化)仔细设计,以及(iv)在某些情况下,所选特征集必须与所选分类器的规范相匹配。由于阿拉伯文本的性质(例如,存在复杂的字体类型、同一字符的不同形式、相邻字符之间的重叠、存在连字等),. ),设计混合字 体 识 别 方 法 的 手 工 制 作 功能 , 需 要 很长 时 间 来 设 计 和 验 证(Kumar和Bhatia,2014)。此外,手工制作的功能需要仔细使用的预处理方法的处理。最近关于深度学习的研究(例如CNN和LSTM)已经证明了它们在自动特征提取和识别任务中的成功。它们为检测和表示特征提供了一个非常灵活和通用的可学习框架。此外,基于深度学习识别的架构(例如CNN)具有不需要设计手工制作的特征向量的有效优势。它们能够直接从训练数据(字符图像样本)自动学习显著特征,这些特征具有抗噪声性,并且对输入字符的一定程度的移位、平移和形状失真具有不变性。所提出的特征提取和字符识别方法基于使用基于深度学习的架构,特别是使用CNN架构。CNN是一类特殊的多层前馈神经网络,在数字和字符识别(打字和手写)方面表现出出色的识别率。它主要集中在实例学习上,因此可以更好地用于孤立字符识别。CNN能够从大量的输入图像中学习可变的、复杂的、非线性映射。它由特征提取层的两个基本部分组成,特征提取层由几个卷积层以及池化(例如最大轮询)和激活函数组成,分类层通常由全连接层组成。在我们的工作中,我们使用了LeNet-5 CNN架构,这是一种众所周知的CNN架构,专为手写和打字字符识别而设计。Lecun等人(1998)表明,LeNet-5提供了比其他技术更好的字符识别准确性,并且速度也很高A. Qaroush,A. Awad,M. Modallal等人沙特国王大学学报3033LeNet-5 CNN架构由8层组成,包括一个输入层,一个输出层,两个卷积层和两个用于自动特征提取的子采样层,两个全连接层作为多层感知器隐藏层用于非线性分类。表1总结了LeNet-5的架构,包括层类型、特征映射、大小、内核大小、步幅和激活函数。4. 实验设置和结果在本节中,使用在APTID-MF数据集下进行的一组实验来我们描述了我们所做的实验,并讨论了结果,并将它们与其他相关工作的结果进行了APTID-MF的简要描述见第4.1节。第4.2.1节和第4.2.2节分别报告了字符分割阶段和字符识别的结果最后,第4.2.3节将我们的结果与最先进的相关方法进行了比较。4.1. 数据集为印刷阿拉伯字符识别开发了几个数据集,包括APTI(Slimane等 人 , 2009 ) 、 APTID-MF ( Jaiem 等 人 , 2013 ) 、 KAFD(Luqman等人,2014)、DARPA(Davidson,1997)、Alph( Moussa 等人, 2010 )和 PATDB
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功