没有合适的资源?快使用搜索试试~ 我知道了~
离线阿拉伯手写文本识别基于局部密度、统计和HMM工具包 (HTK) 特征分析方法
可在www.sciencedirect.com上在线ScienceDirect电气系统与信息技术学报4(2017)387使用局部密度、统计和HMM工具包(HTK)的特征进行离线阿拉伯手写文本识别El Mtahij Hichama,Sunday, Halli Akramb, Satori Khalidaa摩洛哥非斯Dhar EL Mahraz科学学院Liian实验室bOmega-Leres Fsjes Umi,梅克内斯,摩洛哥接收日期:2016年3月22日;接受日期:2016年2016年9月16日在线发布摘要本文提出了一种离线手写阿拉伯文本识别系统的分析方法。它基于隐马尔可夫模型(HMM)工具包(HTK),没有显式分割。第一阶段是预处理,在质量增强后将数据引入系统然后,一组特征(特征的局部密度和特征统计)提取通过使用滑动窗口技术。随后,将得到的特征向量注入到隐马尔可夫模型工具包(HTK)中。使用简单的数据库© 2016 电 子 研 究 所 ( ERI ) 。 Elsevier B. V. 制 作 和 托 管 这 是 CC BY-NC-ND 许 可 证 下 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:隐马尔可夫模型(HMM)工具包(HTK);滑动窗口1. 介绍写作在我们的日常生活中扮演着重要的角色;它是人类之间交流的口头方式不可或缺的补充。通过扫描手写模式提供了存储、传播和支持的可能性,确保信息处理的性能远远高于传统的纸张支持,由于文化、实际和经济原因,纸张支持仍然经常使用。近年来,已经对离线阿拉伯手写识别的问题进行了一些研究工作(Jayech等人,2015; Al-Hajj等人,2007;Benouareth等人, 2006年)。 尽管如此,它仍然是非常具有挑战性的,因为不同的写作风格从一个人到另一个人和分割的困难,因为草书的阿拉伯语写作的性质。*通讯作者。电子邮件地址:hicham. usmba.ac.ma(E.M. Hicham),akram halli@yahoo.fr(H. Akram),khalidsatori@gmail.com(S. Khalid)。电子研究所(ERI)负责同行评审。http://dx.doi.org/10.1016/j.jesit.2016.07.0052314-7172/© 2016电子研究所(ERI)。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。388E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387Fig. 1.手写阿拉伯文文本的示例。由于某些字符的相似外观,阿拉伯手写体的识别是一项更困难的任务。特征提取的类型和方法的选择仍然是实现高识别精度的重要步骤特征类型可分为三大类:结构特征、统计特征和全局变换(Khodadadzadeh,2010)。在本文中,我们使用了一种统计方法,其主要目标是使用HTK工具包(Young等人, 2001年)。 这些提取的特征由局部密度特征和统计基元特征组成。我们的方法考虑到阿拉伯文字的特点本文的组织如下:第2节给出了一个简短的描述阿拉伯文字的特点,然后在第3节和第4节介绍了所提出的系统的细节描述的预处理阶段,在第5节中,我们解释了用于找到特征提取的技术,第6节提出了识别阶段,第7节讨论的结果。2. 阿拉伯文字特点阿拉伯语手写或打印文档识别仍处于研究和实验阶段(Lorigo和Govindaraju,2006年);有几个原因使阿拉伯语在形状和书写风格方面与其他语言不同(Akaraida和Zeki,2011年)。以下是其中的一些差异:在一个草书的方式,阿拉伯文字是从右到左写(图。①的人。阿拉伯语的28个字符。阿拉伯文字本身就是草书。阿拉伯字符的位置或/和点的数量不同(图。2)的情况。这些单词可以使用不同的书写风格来书写,这使得字母和单词具有不同的形状,这在许多识别系统中会导致歧义(图1)。 3)。有些字只能通过字素来区分。例如,Taa(-)和Thaa(u)的区别仅在于字符上方的点的数量,而Jeem(/)和Khaa(1)的区别仅在于点的位置阿拉伯语写作可以分为三种不同的风格(Al-Badr和Mahmoud,1995年;Khorsheed,2002年):打字的、打字的和手写的。每个字符可以有1 -4种不同的形式:孤立,从左连接,从右连接和从右和左连接(图。 4):图二.阿拉伯字符的位置和/或点数不同。········E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387389图三. Gulf(海湾)一词的不同写作风格。见图4。 阿拉伯字母表。390E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387×图五.识别系统概述。3. 识别系统图 5示出了所提出的识别系统,它被分为三个主要块:在第一步中,我们应用了一系列的预处理操作来增强文本图像;这些操作包括降噪,倾斜检测,线条提取和归一化。然后,最重要的步骤是特征提取,每一个线图像被转换成一个序列的特征,使用垂直滑动窗口沿线图像。在HTK中,训练过程从手写体文本的特征向量序列和相应的transmittance开始,在识别过程中,Viterbi算法用于输出识别的文本行。我们将在下面的部分中更详细地了解这些步骤4. 预处理首先,我们扫描并将文档存储为二进制图像。在此之后,必须执行必要的基本预处理任务,如降噪,倾斜校正,线提取和尺寸归一化。在我们的系统中,我们应用了中值滤波器来降低图像噪声。因此,中值滤波器计算n n个窗口中所有像素的中值,并将窗口中心像素替换为中值。然后,通过使用Hough变换(Parker,1997)来估计倾斜角,Hough变换是检测二值图像中的碎片线的有效方法。一旦计算出倾斜角,文本图像就会以相反的方向旋转倾斜角(见图2)。 6)。下一步包括将页面图像划分为单独的行图像,为此,我们使用输入图像的水平投影。该投影中的局部最小值被认为是位于连续文本行之间的潜在切割点。当最小值大于零时,不可能有明显的分离。这个问题已经使用基于连通分量的方法解决了(Marti和Bunke,2001)。下一步是通过在相反方向上应用旋转操作来检测和校正倾斜角(见图10)。 7)。···E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387391−见图6。倾斜检测和校正。见图7。 校正前后的线图像最后,算法“游程平滑算法”(RLSA)(Casey等人,1982),并且检测每个段的上轮廓和下轮廓,然后,将特征向量线拟合算法(Duda和Hart,1973)应用于轮廓点以计算上基线和下基线。为了获得统一的文本行,有必要为所有主体段设置相同的归一化高度。5. 特征提取该方法利用滑动窗口技术,将行式文本图像从右到左依次变换为一系列特征向量,滑动窗口大小为M像素,像素个数为ρ(ρ参数取值范围为1 ~M1)。每个窗口必须垂直划分成若干固定的单元格,水平滑动窗口具有与线图像h相同的高度(图1)。 8)。本系统中使用的特征提取可以分为两组:第一个是局部密度(f1和f2)的特征,使用这种类型的优点与所使用的语言无关,也可以用于任何类型的草书。第二组特征是统计特征(f3,f4和f5),与结构特征相比,这些类型的特征需要较短的处理时间(Khorsheed,2002),并且非常容易计算。比如说:392E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387ΣΣΣ=·−2Jj=1Jj=1J=i=1j= 1i= 1i= 1我i=1我M见图8。将行文本划分为窗口和单元格。• f1:表示窗口中黑色像素的密度。NCf1=nt(i)(1)i=1nt(i):窗口t中单元格i中的黑色像素数。• nc:是细胞的数量。• 计算窗口中白色像素的密度.•f3:平均灰度表示高斯滤波器Gi和GjnMf31I(i,j)G nmi=1j= 1·Gj(二)等.1(i − n/2)2次方(n/4.1(j−m/2)2μ m和Gj=exp−2(m/4)2(四)nm:分析窗口n:是行数m:列f4:水平灰度导数被计算为在y方向上每个滑动窗口的线的斜率。拟合准则为高斯滤波加权的误差平方和。.卢恩Gjwj。卢恩Gjj−。卢恩GJ.卢恩Gj wjjf4=dh=j=1 .卢恩j=1Gj2−。卢恩j=1G.卢恩j=1GJ2(五)其中,wj,每列的平均像素数布勒姆 I(i,j)wj=j=1• f5:垂直灰度导数在x方向上以类似的方式计算(六). 布勒姆F =d好极了。布勒姆你好。布勒姆好的。布勒姆我爱你(七)5伏。布勒姆Gi2 −。布勒姆Gi=exp·(三)j=1i=1我i=1我E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387393G. 布勒姆G i2394E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387n见图9。单词(hundred)的HMM模型其中,wi,每列卢恩I(i,j)wi=i=1最后,构造一个100维特征向量序列(每个f为20×5)6. 识别阶段(八)有许多类型的分类器,如人工神经网络,贝叶斯网络模型等。在这种方法中,我们使用了隐马尔可夫模型工具包HTK。图中给出了单词的HMM模型的一个例子。9.第九条。HTK是一组C库模块和工具,最初用于语音识别研究,由Steve Young于1989年在剑桥大学工程系的语音视觉和机器人小组在训练阶段,HTK允许使用简单的文本文件构建具有任何所需拓扑的Hondership。训练工具将使用与数据转录平行的训练文本图像行来调整HMM参数。Baum-Welch重新估计过程用于获得HMM的最大概率估计(Rabiner和Juang,1993)。然后,在识别阶段采用维特比算法,将提取的特征向量序列传递到一个字符模型词典网络中,以描述字符模型的转移概率,字符序列提供最大概率,从而给出正确的识别词。最后,将单词连接成句子或文本行由n-gram语言模型建模,使用Kneser-Ney后退平滑(Katz,1987;Kneser and Ney,1995)。7. 实验和结果为了评估我们的识别系统的性能,我们在两个数据库上进行了实验,阿拉伯数字和IFN/ENIT。7.1. 阿拉伯数字“阿拉伯数字”数据库由1905个阿拉伯语句子和47个单词的图像组成,由5个不同的人手写(见图1)。10)。评估实验是从用于训练的一组1818个图像行和用于测试的一组87个图像导出的E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)387395见图10。文本行的例子从表1IFN/ENIT数据库。设置字数一6537B6710C6477D6735E6033总和32,492表2通过不同的经验获得的结果。每个HMM识别率句话词4058.5856.963.75620.6974.43717.2469.26822.9969.58918.3968.281020.6970.551122.9972.821221.8470.231319.5469.91420.6971.521524.1473.791626.4472.491726.4473.461831.0377.021934.4878.322032.1876.72137岁93八十。262233.3376.052329.8975.42429.8975.42529.8972.822620.6969.262717.2467.642818.3963.432916.0956.313018.3956.963119.5451.783216.0945.313313.7944.66粗体值表示最佳费率。396E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)3877.2. IFN/ENIT数据库IFN/ENIT版本v2.0ple(Pechwitz等人,2002年)由32,492个突尼斯城市和村庄名称的图像组成,由1000个不同的人撰写(见表1)。该数据库分为4组(a,b,c,d)用于训练,一组(e)用于测试。7.3. 结果为了获得最准确的结果,我们改变了阿拉伯数字数据库中每个实验的每个HMM的状态数,并在表2中记录了识别率的变化。如这些结果所示,每个HMM具有21个状态时获得了最高的识别率,我们获得了80.26%为词,37.93%为句。当我们改变IFN/ENIT数据库中每个HMM的状态数时,我们在每个HMM 6个状态下实现了78.95%的单词率(表3)。在表4中,我们将所提出的系统的性能与其他单词识别系统进行了比较;所提出的系统的性能非常有竞争力。显然,阿拉伯数字数据库获得的结果优于IFN/ENIT数据库中发现的结果,后者有很多重叠和连字。而写作质量的高低也是造成二者成绩差异的重要原因另一方面,所提出的系统的主要优点之一是识别的文本行与Kneser-Ney回退平滑(Katz,1987年; Kneser和Ney,1995年)。表3IFN/ENIT数据库中不同经验获得的结果每个HMM识别率447.37573.68678岁95757.89863.16952.63粗体值表示最佳费率。表4与其他文字识别系统的比较。系统训练集测试集准确度%Elbaati等人(二零零九年)a,b,c,de54.13Hamdani等人(二零零九年)a,b,c,de81.93Kessentini等人(二零一零年)a,b,c,de79.6AlKhateeb等人(2011年)a,b,c,de83.55ICRA(Märgner等人,(2005年)a,b,c,de65.74大华银行(Märgner等人,(2005年)a,b,c,de75.93SHOCRAN(Märgner等人,(2005年)a,b,c,de35.70REAM(Märgner等人,(2005年)a,b,c,de15.36TH-OCR(Märgner等人,(2005年)a,b,c,de29.62ARAB-IFN(Märgner等人,(2005年)a,b,c,de74.69拟议制度a、b、c、d e阿拉伯数字80.26粗体值表示最佳费率。E.M. Hicham等人/Journal of Electrical Systems and Information Technology 4(2017)3873978. 结论提出了一种基于隐马尔可夫模型工具包(HTK)的脱机手写体阿拉伯文字识别系统。特征提取采用滑动窗口的行文本图像和处理的两组这些特征(局部密度的特征和统计特征)。这种方法的主要优点是不需要先验分割该系统已在两个不同的数据库进行了实验:在未来,我们希望通过改变预处理步骤或通过向特征提取添加其他参数来改进该系统引用Aamaraida,文学硕士,泽基上午,2011年。阿拉伯文识别的困难与挑战。在:计算机应用:理论和应用,在吉隆坡,IIUM出版社马来西亚。Al-Badr,B.,Mahmoud,S.A.,一九九五年阿拉伯文光学文本识别研究概况与文献目录。 信号处理。 41(1),49-77。Al-Hajj河,Likforman-Sulem,L.,Mokbel,C.,2007年基于HMM的分类器组合识别阿拉伯手写体单词。在:第九届国际会议文件分析和识别(ICDAR'07),pp。959-963.AlKhateeb,J.H.,Ren,J.,姜杰,Al-Muhtaseb,H.,2011. 使用HiddenMarkov模型和重新排序对手写体阿拉伯文文本进行了识别。P模式识别Lett. 三十二,八。Benouareth,A.,Ennaji,A.,Sellami,M.,2006年。 具有显式状态持续时间的障碍用于手写体阿拉伯文识别。在:第18届国际会议P模式识别(ICPR)的程序,pp。897-900凯西,RG,黄启耀,Wahl,F.M.,一九八二年 文件分析系统。 IBM J. Res. 德v. 26(6),647-656。Duda,R.O.,哈特体育一九七三年 模式分类与场景分析。 J. 威尔和儿子们。Elbaati,A.,Boubaker,H.,Kherallah,M.,Alimi,上午,Ennaji,A.,El Abed,H.,2009. 使用恢复笔划时序的阿拉伯手写体识别。在:第10届国际会议文件分析和识别(ICDAR),7月,pp。411-415Hamdani,M.,El Abed,H.,Kherallah,M.,Alimi Adel,M.,2009. 结合多个障碍使用在线和fline功能的fline阿拉伯手写识别。第10届国际文件分析与识别会议(ICDAR)Jayech,K.,Mahjoub,M.A.,Amara,N.E.B.,2015. 基于同步多流隐马尔可夫模型的无显式分割阿拉伯笔迹识别。在:混合人工智能系统. SpringerInternationalPublishing,pp. 136-145Katz,S.M.,一九八七年 从语音识别器的语言模型组件的稀疏数据中估计概率。在:IEEE声学语音和信号处理的T transactions,ASSP-35,pp。400-401Kessentini,Y.,Paquet,T.,本·哈马多上午2010年。本文研究了多流隐标记模型在多行手写体识别中的应用。 J. P模式识别Lett. 1(1)。霍达达扎德岛2010年硕士 手写阿拉伯字符的识别。加拿大安大略省温德索尔大学电子与计算机工程系,温德索尔,研究生院。Khorsheed,M.S.,2002年。 F行阿拉伯字符识别的研究。 P样式肛门。 Appl. 5,31-45。Kneser河,Ney,H.,1995. 改进的m-Gram语言建模的f的支持。1. IEEE计算机学会,LosAlamitos,CA,USA,pp.181-184.Lorigo,L.M.,Govindaraju,V.,2006. 阿拉伯手写体识别的研究概况。IEEETrans. P样式肛门。马赫内特尔28(5),712-724。Märgner,V.,Pechwitz,M.,El Abed,H.,2005年 ICDAR 2005阿拉伯语手写识别竞赛。输入:程序第八届国际 Conf. Doc. Anal.认出来了。第1页。70比74玛蒂紫外线邦克,H.,2001. 利用统计语言模型来提高基于HMM的手写体识别系统的性能。国际J.P模式识别。第内特尔15(1),65-90。帕克,J.R.,一九九七年。 图像处理与计算机视觉算法。 约翰·威尔父子公司Pechwitz,M.,Maddouri,S.S.,Maergner,V.,Ellouze,N.,Amiri,H.,2002年。IFN/ENIT-阿拉伯语手写单词数据库。In:CIFED2002,Hammamet,Tunisia,pp. 129比136拉比纳湖,Juang,B.,一九九三年 语音识别基础。普伦蒂斯·霍尔杨,S.,Evermann,G.,Kershaw,D.,Moore,D.,Odell,J.,Ollason,D.,Valtchev,V.,Woodland,P.,2001年 HTK的书 剑桥大学工程系。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功