没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志(2016)17,189开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com降质历史文档图像A.S. Kavithaa, P. Shivakumarab,*, G.H. 库马尔a,佟璐ca印度卡纳塔克邦迈索尔大学计算机科学系b马来亚大学计算机科学与信息技术学院,B-2-18,马来西亚c南京大学软件新技术国家重点实验室接收日期2015年3月2日;修订日期2015年10月1日;接受日期2015年11月6日2016年1月2日在线发布摘要从退化的历史印度河文字图像中进行文本分割有助于光学字符识别器(OCR)对印度河文字实现良好的识别率;然而,由于这些图像中的复杂背景,它具有本文基于文本成分与非文本成分的草书相似性较低这一事实,提出了一种新的分割Indus文档中文本和非文本的方法为了实现这一点,我们提出了一个新的组合的Sobel和Laplacian增强退化的低对比度像素。然后,所提出的方法生成增强图像中的文本组件的骨架,以减少计算负担,这反过来又有助于有效地我们建议研究基于分支信息的组件的草写性,以去除虚假的文本组件。所提出的方法引入了最近邻准则,用于对同一行中的组件进行分组,从而产生聚类。此外,该方法将这些集群分为文本和非文本集群的基础上的文本组件的特性。我们评估所提出的方法在一个大型数据集包含各种图像。实验结果表明,该方法在查全率和查准率方面都是有效的。©2015制作和主办由Elsevier B.V.代表计算机与信息学院开罗大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。*通讯作者。电子邮件地址:kavitha_sanjay_as@yahoo.co.in(A.S.Kavitha)、hudempsk@yahoo.com(P. Shivakumara)、yahoo.com(G.H.Kumar),lutong@nju.edu.cn(T. Lu)。开罗大学计算机和信息系负责同行审查。1. 介绍印度是一个多语言国家,所有邦都规定了自己的官方语言,这导致了许多官方语言和不同语言的各种文件。虽然文本分割的工作有了很大的改进,但由于其复杂性,像印度河这样的古老文字的识别仍然很印度河文献中的符号看起来像是图像中的装饰[1]。一般来说,这些符号是手工雕刻在不规则的表面上,http://dx.doi.org/10.1016/j.eij.2015.11.0031110-8665© 2015制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier关键词文本增强; Sobel和Laplacian运算;印度河文献;聚类;文本行分割190A.S. Kavitha等人图1 Indus文档图像示例。文本非文本图2说明Indus文档中的文本和非文本组件。在公元前3000年到公元前1500年的时期,因此,印度河文字是以印章的形式被发现的,过去人们使用它来进行交流。图1显示了这些文件的几个图像,其中的文本与各种形式的动物图片(如独角)相关联两个角。这种复杂性使得分割问题更具挑战性和趣味性。由于这些文献数量庞大,金石学研究者又不多,人工解读这些文字很难,因为这需要耗费大量的时间。为减少人手工作,有需要将手稿数码化,以保存重要资料,供日后研究之用。开发一种将原始文字数据转换为数字数据的自动算法包括四个步骤,即文本行分割、词分割、字符分割和字符识别。文本行分割是一个重要的步骤,因为它有助于其他步骤,以实现良好的识别率。此外,由于文本组件的不规则结构和不可预测的背景变化,文本行分割对于像Indus这样的文档是困难的[2,3]。因此,在这项工作中,我们专注于从印度河脚本文本行分割。我们可以看到一些对文本行分割的努力[18-大多数文本行分割方法都是基于纵横比和大小等几何特征进行的。因此,这些方法可能并不适合对于Indus文档图像的文本行分割,由于复杂的背景,人们不能期望均匀的大小和结构。因此,我们可以得出结论,有一个巨大的范围,开发一种新的方法分割文本行从印度河的文件图像。本文的结构如下。在第二节中,我们简要介绍了相关的工作。第3节详细讨论了拟议的工作。最后,第4节讨论了所提出的方法的实验结果,并与现有的方法进行了比较。2. 以前的工作在文献[4大多数方法要求背景平坦、均匀、对比度高的图像才能达到较好的分割效果。然而,当我们查看如图1所示的Indus文档时,我们不能假设这样的文档具有简单的背景和结构化的文本行,因为这些文档是在不同的表面上用不同的工具手写的。我们认为Indus文件作为一种退化的历史文档图像,从这些文件的文本行分割仍然是一个未解决的问题。在本节中,我们将回顾文本分割191没BC1 BC2非文本是文第2第1构成部分2. . .最近邻检查合并组成部分(C)C > 2是的没分量n构成部分1骨架提取印度河文献增强图3提出的文本行分割的流程图:BC1和BC2分别表示簇1和簇2中的分支数。关于从历史手写退化文档进行文本行分割的文献(即,Indus文件)。对铭文贡献的调查可以在Soumya和Kumar[11]中找到。提出了基于连通域分析的卡纳达文手写体文本预处理技术和切分方法然而,没有一种方法在非结构化布局文档上进行测试。Omar和Lu[4]提出了一种使用可转向方向过滤器从历史文档图像中提取文本行的算法。基于段落图生成自适应局部连通图,提取段落.本文的目的是为每一段找到方向。使用投影轮廓验证模式。每个段落中的文本行通过查找每个连通分量的中心点然而,该方法可以处理仅包含文本行的文档最近,Gatos等人[5]提出了一项将历史手写文档图像分割成文本行和文本区域的工作。通过按规则查找垂直线来提取文本区域白色游程像素用于分割。每个连接组件的边界框坐标用于计算字符的高度然而,该方法需要具有清晰背景的统一高度的字符。Kleber等人[6]提出了一种检测扫描文档偏斜度的方法,这是图像分析所需要的。该方法通过最近邻聚类来确定文档页面的倾斜度使用DOG来评估偏度,找到感兴趣的点。然而,该方法只能192A.S. Kavitha等人(a)Sobel梯度图像(b)Laplacian梯度图像(c)两个梯度图像的相交(d)骨架图4文本增强方法的中间结果。图5修剪组件的示例。对平面上的字符有效,但对不规则表面上的字符无效。Garz等人。[7]提出了无二值化聚类来分割历史文档中的弯曲文本行文本行通过使用图表示单词段来检测,其中边缘是两个段之间的链接该方法适用于用墨水书写的文本Rabaev等人。[8]检测损坏文档中的字符,然后通过分析连接组件的演化图将其分组为文本行从左侧移动的扫描线to right进一步用于检查元素是否位于同一行中。然而,该方法只能检测在其数据集中选择的相等大小的文本在Garzet等人的研究中,的方法[9],提取部分字符被认为是兴趣点。词在高密度区域被识别然而,该方法集中于中值词,而不是包含可变高度的手稿。该方法对污点等背景噪声具有较好的鲁棒性,但对突变背景的鲁棒性较差。Messaoud等人[10]介绍了三个文本分割193(a)重叠边界框(b)假分割图6去除假组件使用符号序列的概率和由分析的序列或符号之间的相关性Rajesh等人[16]提出了一种概率方法来分析印度河文字的序列并预测丢失的字母。基于上述讨论,我们可以得出结论,现有的方法都不能在像Indus这样的文档上进行文本行分割的测试。因此,文本检测非结构化的布局文件与低对比度和不同的字体大小不规则的表面上仍然被认为是一个开放的挑战,在文档分析社区。图7文本和非文本聚类的最近邻准则。提出了一种基于直方图的多级文本行分割方法,对连通域进行然而,该方法容易受到来自非结构化背景的错误的影响。[12]中的方法基于图像中组件的边界框之间的距离来分割文本行,而[13]中的方法通过在脊(每条线的中心点)上绘制蛇(曲线)来分割具有文本行的文档后者假定文本行的高度一致然而,这不是真的印度河的文件。这两种方法的优点是,它们分割文本行,而不考虑脚本,并且据说对Indus文档中的非结构化布局具有鲁棒性。由于这两种现有的方法是开发的分割文本行从平原背景图像,他们可能会给较低的精度为印度河的文件。总之,从以上关于从历史文档图像(诸如手写和扫描文档图像)中分割文本行的讨论中注意到,现有方法中没有一种针对非结构化文档和包含不规则字符结构的文档给出满意的解决方案。此外,现有的方法需要高分辨率和平坦的背景才能获得良好的效果。我们几乎找不到像印度河文献这样的金石文献Murthy等人[14]提出了一种金石文献中接触线和文字的分割方法文[15]中讨论的方法3. 该方法从上面的讨论和图中可以看出。 1,图像可以具有任何对比度,文本可以具有任何字符形状。为了增强低对比度文本,我们建议探索Laplacian和Sobel边缘图像的组合,因为我们受到[17]中提出的视频文本检测工作的启发,其中Laplacian和Sobel组合已用于增加视频中的低对比度文本在这项工作中,我们执行输入图像的拉普拉斯和Sobel图像的交集运算,以获得增强图像。拉普拉斯算子在增强边缘附近的低对比度和高对比度像素的同时,由于背景变化而产生噪声像素。Sobel操作仅增强高对比度像素而不产生噪声像素。因此,我们执行交叉操作,只选择对文本行分割有意义的像素。对于增强后的图像,我们进一步应用骨架来减少边缘分量的像素宽度。该方法既保留了增强图像中边缘分量的结构,又节省了计算量。我们观察到,一般来说,大多数印度河流域的文件都包含文字和动物图片。由于一幅图片看起来像不同形状的动物,当图片的分支看起来更草书,图片包含更多的分支。基于这个概念,我们提出了一种方法来消除骨架图像中具有更多草书分支的组件这将导致修剪文本图像组件。上述步骤有助于在空间上增加文本和非文本组件之间的间隙为了分割文本行,我们C1C2194A.S. Kavitha等人4 54((((d)(五)图8说明分组过程。提出了基于最近邻准则的聚类,以将具有紧密接近度的组件聚类过程继续进行,直到该方法得到整个修剪图像的两个聚类这是因为预期文本成分形成一个簇,而非文本成分形成另一个簇。这是有效的,因为文本和非文本组件之间的空间大于相应文本和非文本组件之间的空间该方法通过研究每个聚类中分支的个数来区分文本和非文本聚类。包含较少数量的分支的聚类被认为是文本聚类,因为该聚类中的文本分量不像包含动物样图片的另一个聚类那样是草书的这将导致文本行分段。 一个示例如图所示。 2,其中我们可以看到,文本行和非文本行被分割的建议的方法。所提出的方法的框图如图所示。3.第三章。3.1. 文本增强正如上面讨论的那样,我们需要增强低对比度的文本组件。为此,我们考虑对输入图像进行拉普拉斯算子和索贝尔算子,因为这些是众所周知的梯度运算,可以增强图像中的的确,由于索贝尔手术是第一次文档图像。为了克服这个问题,我们建议使用拉普拉斯运算,这增强了低对比度和高对比度像素,因为这个操作涉及到二阶导数。此外,拉普拉斯运算对于复杂的背景信息引入了噪声。为了保留增强的边缘和抑制背景噪声,我们建议执行索贝尔和拉普拉斯运算输出的交集运算。例如,对输入图像的Sobel和Laplacian运算的结果分别示于图4(a)和(b)中,其中可以注意到Sobel增强高对比度信息,而Laplacian增强低和高对比度信息以及噪声。为了利用Sobel和Laplacian的优点,我们执行如图4(c)所示的交集运算,其中注意到仅突出显示重要信息。所提出的方法应用骨架将像素宽度减小到单个像素以节省计算量,如图4(d)所示。设P1(i,j)和P2(i,j)分别为A和B中位置(i,j)处的像素值。如果P1(i,j)和P2(i,j)都具有正梯度,则这些梯度图像的交集被计算为真增强的算法步骤表示如下。计算Sobel梯度图像的掩码由下式给出,26-1 0 中国队13726-1-两个-137阶导数,它给出了高对比度像素的精细细节。因此,它仅增强文本分量的高对比度边缘,而不是像Indus中那样增强低对比度分量的边缘Gx¼-2 0 02和戈瑞-10 þ10 0 0þ1þ2 þ15文本分割195G½i; j]¼.Gx2Gy2.ð3Þ(a)(b)非文本类组图9文本和非文本聚类分离。通过,得到了数组G[i,j]K½I;J]¼KxKy6梯度图像的交集通过以下方式获得:Gx<$2ωCi<$2;j<$1Ci<$2;j<$ Ci <$2;j<$2— 2ωCGy¼2ωCi 1;j2 ωCi;j2 ωCi 2;j2ωC— 2ωC像素梯度的大小由下式给出:. q。G1/2I;J] \K1/2I;J]\K2/7I3.2. 修剪文本组件由于复杂的文档图像,上述增强步骤可以增强非文本分量,如图4(d)所示。骨架算法有时会创建组件之间的断开为了避免中断-的情况下,我们使用形态学操作进行平滑。数组C[i,j]的拉普拉斯梯度计算为:Kx<$Ci<$2;j<$1Ci;j<$1 -2ωCi;j<$1-4 ωC iKy<$Ci1;j2Ci 1;j- 2ωCi;j5这会产生一个平滑的图像,在那里我们可以看到连接的组件没有断开。然后,所提出的方法固定的边界框中的每个组件的平滑图像。如果组件的边界框与其他组件的边界框重叠,(a) 投入(b)布哈里等人[13](c)Diemet等人[12](d)拟议方法图10现有方法和建议方法的文本行分割。196A.S. Kavitha等人.Σ考虑用于合并的候选组件。通过寻找候选分量的边界值来计算候选分量与另一个分量之间的距离Cj是除Ci之外的所有其他分量的集合。合并时考虑两个分量之间的距离设(X1,Y1)和(X2,Y2)为两个相互面对的分量的极端坐标,两个分量之间的距离通过下式获得:EucliddistX1;X2¼qX2-X12Y2-Y12ð8Þ合并成一个组件。这将连接具有两个以上像素间隙的当我们从Indus文档图像的骨架观察时,我们注意到,与所讨论的表示文本的组件相比,表示类似动物的图片的组件具有更多的草书分支。然后,该方法计算通过重叠边界框获得的结果的分支数。如果一个分支的数目大于某个阈值,我们将其作为非文本组件丢弃,如图所示。 5,其中标记的组件将从图像中移除。图6(a)示出了在使用重叠边界框将最近的子分量合并成图6(b)示出了丢弃具有大量分支的分量之后的结果。3.3. 文本行分割从图中可以看出。 6(b)由于消除了不需要的组件,我们仍然可以看到文本和非文本区域之间的空间。接下来,我们需要分别对文本和非文本组件进行分组,以从图像中提取文本行由于两个区域之间的空间通常看起来大于两个组件之间的空间,我们提出了最近邻聚类方法分组最近的组件。对于图像中的每个分量,该方法使用Eql.(八)、给出最小距离的组件被考虑用于分组。该过程继续,直到该方法得到整个图像的两个聚类。由于这是一个两类问题(文本和非文本),并且已知两个区域之间的平均空间大于两个组件之间的平均空间,因此分组过程继续,直到得到如图7所示的两个聚类,其中我们可以找到两个区域中的分组结果。如果两个区域之间的距离不满足某个阈值,则有可能得到两个以上的聚类。这是一个罕见的情况下,印度河文字,因为根据观察,一般每个图像只包含一个文字行与动物图片的背景。它可以用数学方法说明如下。令C={C1,C2,C3,Cn}是有限分量集. 设Ci为由最小距离标准定义的接近度计算如下:Cn<$D最小值a;b=asCi;bsCj<$1;n-Ci我们合并两个最近的组件,Cnew¼Rci[Rcj[Cn] 10分组的过程如图所示。 8,凡(a)─(e) 通过合并最近邻组件和最终结果来显示步骤由于分组过程涉及到未监督的最近邻聚类准则,因此它导致聚类而不识别它们。因此,我们建议提取代表文本组件的特征,即在聚类中的文本组件的分支数,用于将聚类分类为文本。给出较少分支数量的聚类被认为是文本聚类,因为文本成分与非文本(如动物图片)相比通常具有较少分支令NBc1和NBc2分别是cluster1和cluster2中分支的数目如果NBc1 NBc2,则聚类c1和c2的轮廓分别被定位为文本和非文本。<如果NBc2 NBc1,则聚类c2和c1的轮廓分别被定位为文本和非文本。<结果可以在图9中看到,其中我们可以分别看到文本和非文本区域。4. 实验结果由于从印度河文件的文本行分割是一个新的问题,我们创建了自己的数据集,包括500个图像从印度,迈索尔和杂志的考古调查。该数据集包括在不同表面上使用不同工具的不同笔迹的各种文本行因此,与扫描的文档图像相比,该数据集被认为是复杂为了衡量所提出的方法的性能,我们使用分类率与混淆矩阵。为了生成混淆矩阵,我们对代表文本的聚类和代表非文本的聚类进行计数,以计算分类率。在表1中报告了所提出的方法的匹配矩阵,其中注意到所提出的方法对于文本和非文本分类给出了良好的分类率。为了评估文本行分割,我们使用众所周知的措施,如召回率和精确度,如方程式。(11)和(12)。查全率和查准率的定义如下。设Gt是在500幅图像中计数的文本行的总数,Tp是从所提出的方法分割的文本行的数目,Fn是从所提出的方法分割的文本行的数目。表1所提出的文本行分类方法的匹配矩阵。案文(%)非案文(%)案文91 9非文本. 13 87这两个值是文本(91%)和非文本(87%)的分类率。表2提出的和现有的文本行分割方法的性能。方法GtTpFnFp召回精度Diem等人[12个]515204955000.0380.03布哈里等人[13个国家]515654505000.1260.11提出51546154130.890.97文本分割197Fp是被分类为文本的非文本的数量。TP召回1/4Tp/Fn111和引用[1] 摩诃德万·阿毗沙门。印度河文字通过钻机吠陀的达罗毗荼证明:案例研究。Bull IRC2014;4(1).[2] Kavitha AS,Shiva Kavitha P,Kumar GH.基于偏度和最近邻的历史文献分类方法。Proc CSNT 2013:602-6.[3] KavithaAS,Shiva Kumara P,Kumar GH.一体化方法TP精密度:1/2Tp/2Fp/3ð12Þ用于印度文和英文文档图像的分类。ProcICERECT 2012:343-55.为了证明所提出的方法的有效性,我们实现了两个最近的文本行分割的方法进行比较研究。[12]中的方法基于图像中组件的边界框之间的距离来分割文本行[13]中的方法通过在脊(每行的中心点)上绘制蛇(曲线)来分割后一种方法假定所有文本行的高度一致然而,这对Indus文件来说并不正确选择这两种方法的原因是它们分割文本行而不考虑脚本和数据集,并且据说对于Indus文档中的非结构布局是鲁棒的。由于这两种现有的方法是开发用于分割文本行从平原背景图像,现有的方法报告我们的印度河文件的准确性差。所提出的方法和现有方法的定性结果在图10中示出,其中可以注意到,所提出的方法能够对两个图像正确地分割文本行,而两个现有方法由于现有方法的固有限制(诸如高分辨率和平坦背景两者的要求)而未能分割图10对于图中所示的第二个图像。 10、现有方法正确地分割文本和非文本行,因为图像在文本和非文本行之间包含足够的空间。由于现有的方法旨在分割文本行,因此它们集中于文本和非文本行的分割,而不分离文本和非文本行,如图10所示,在第二图像上。表2中报告了所提出的方法和现有方法的定量结果,其中我们可以看到,与现有方法相比,所提出的方法在召回率和精确度方面是最好的5. 结论和今后的工作我们提出了一种新的方法,用于从退化的历史文档图像(如Indus)中分割文本行。该方法引入了一种新的拉普拉斯算子和Sobel算子的组合,用于增强图像中的低对比度像素。通过研究图像中各成分的特征来去除不需要的成分,从而实现文本成分的剪枝。我们提出了一个分组过程,它涉及到最近邻合并文本组件的标准。迭代聚类过程,然后提出了分离的文本和非文本区域。 我们未来的计划是将相同的方法扩展到其他印度脚本,以显示其能力和通用属性。我们还专注于字符分割从分割的文本行和字符识别。[4] Omar A,Lu CC. 使用方向可调滤波器的历史文档图像文本行提取。 ProcICALIP 2014:312-7.[5] Gatos B,Louloudis G,Stamatopoulos N.将历史手写文档分割为文本区域和文本行。Proc ICFHR 2014:464-9.[6] [1] Kleber F,Diem M,Sablatnig R.基于灰度值图像的手写和印刷文档的抗差倾斜估计。Proc ICPR 2014:3020-5.[7] Garz A,Fischer A,Bunke H,Ingold R.一种无二值化的聚 类 方 法 分 割 历 史 手 稿 中 的 弯 曲 文 本 行 。 ProcICDAR2013:1290-4.[8] Rabaev I,Biller O,El-Sana J,Kedem K,Dinstein I.在损坏和损坏的历史手稿文本行检测。 ProcICDAR 2013:812-6。[9] Garz A,Fischer A,Sablatnig R,Bunke H.基于兴趣点聚类的历史文档无二值化文本行分割。Proc DAS2012:95-9.[10] Messaoud IB,Amiri H,Abed HE,Margner V. A multileveltextline segmentation framework for historicaldocuments. ProcICFHR2012:515-20.[11] Soumya A,Kumar GH.相机捕获的铭文的预处理和手写卡纳达语文本的分割。 IARCCE 2014;3(5):6794-803。[12] 吴 文 辉 , 李 文 辉 . 异 构 文 档 的 文 本 行 检 测 。 ProcICDAR2013:743-7。[13] BukhariSS,Shafait F,Breuel TM. 脚本独立手写-十文本行分割使用活动轮廓。Proc ICDAR2009:446-50。[14] MurthyKS,Kumar GH,Shivakumara P,Ranganath PR. 最近邻聚类法在金石文字行字分割中的应用。2004年犯罪分类程序。[15] [10] Rajesh P,Rao PN,Yadav N,Vahia MN,HrishikeshJoglekar,Adhikari R,Mahadevan I.熵,印度河文字,和语言。2010年:795-805。[16] 作者:Rajesh P,Rao PN.一种古文字的概率分析。ProcComput Soc2010:76-80.[17] Shivakumara P,Sreedhar RP,Phan TQ,Shijian L,Tan CL.基于贝叶斯分类和边界生长的多方向视频场景文本检测。IEEE Trans CSVT2012:1227-35.[18] 朱阿,王刚,董英.通过自适应笔画宽度估计和基于笔画的超像素分组在低质量图像中进行鲁棒文本分割。讲课注释计算Sci. 2015年:119-33页。[19] 杨勇,杨勇,杨勇. 自动文本高度提取,用于分析旧手写手稿中的文本行。 ACMJ COMPUT CULT Herit 2013:25.[20] Gaurav SM,Nandish C.对OCR系统中的切分、特征提取和分类技术进行了综述和分析。IJAR2015;5(1):24-6.[21] Thakur P,Azam A.结合形态学梯度和模糊逻辑的边缘检测方法。IJSETR2015;4(5):1613-6。
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功