沙特国王大学学报：孟加拉语文本提取和识别的有效ROI检测算法

15 浏览量更新于2024-01-27 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种用于自然场景孟加拉语文本提取和识别的有效ROI检测算法Rashedul Islam，Md.Rafiqul Islam，Kamrul Hasan TalukderKhulna University，Khulna 9208，Bangladesh阿提奇莱因福奥文章历史记录：收到2021年2022年1月25日修订2022年2月3日接受2022年3月2日在线发布保留字：HOGSVM连通分量垂直投影滤波字符识别A B S T R A C T本文的研究工作对于从场景图像中提取信息，满足车牌识别、机器人导航、视障者救助等实际应用的需求具有重要意义。本文提出了一种新的感兴趣区域（ROI）提取算法，并将其应用于场景图像。所有的孟加拉语单词，然后从一个句子中分离出来，通过分析和应用连接组件（CC）的方法以及边界框技术。提出了一种新的算法，并将其应用于从孟加拉语单词中分离和提取孟加拉语字符。该算法采用垂直扫描孟加拉语文字图像的方法。最后，使用支持向量机（SVM）作为一个分类器，它与方向梯度直方图（HOG）的功能，识别提取的字符在我们设计的数据库中有500个场景图像，这些图像具有该算法在ROI和字符提取上的准确率分别为92.70%和93.23%。在孟加拉文字符（数字，基本字符和连接字符）的识别中，平均准确率为99.16%。用卷积神经网络（CNN）对孟加拉文进行了识别，识别率为83.52%。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍海报、横幅、路标、广告牌、车牌等图像被认为是自然场景图像。这些图像包含许多有用的文本信息，这些类型的信息在当今的知识经济中发挥着重要作用从场景图像检索的信息还可以在基于文本的图像索引、文本到语音的转换、文本挖掘（ Bouakkaz 等人，2018），机器人，车牌识别（Zhu等人，2016; Zhang和Zhao，2013）等。研究人员已经提出了许多方法来识别和定位场景图像中的文本，用于特定应用，包括页面分割（Jain和Zhong，1996;Tang等人， 1996）、地址块位置（Yu等人， 1997年），牌照电子邮件地址：rashedcse98@ku.ac.bd（R.伊斯兰教），dmri1978@ku.ac.bd（M.R. Islam），khtalukder@ku.ac.bd（K.H. Talukder）沙特国王大学负责同行审查位置（Cui和Huang，1997）和基于内容的图像/视频索引（Zhang等人，1994; Shim等人， 1998年）。由于孟加拉语文本的书写风格、大小、颜色、字体对齐、光照强度、图像模糊、噪声等参数存在差异，设计一种标准的文本信息提取方法仍然是一个难题场景图像中存在的一些对象，如门、边界、窗户、树叶等，造成假阳性。从自然场景图像中理解文本包括两个主要任务，即文本检测和文本识别（Francis和Sreenath，2019）。根据Sun等人的研究，2015年，现有文本检测方法的主要群组是：基于滑动窗口的方法（Chen和Yuille，2004; Wang等人，2011）、基于CC的方法（Neumann和Matas，2013）和混合方法（Pan等人，2011;Neumann and Matas，2013）.基于最大稳定极值区域（MSER）的过程在2011年国际文件分析和识别会议（ICDAR ）和2013 年 ICDAR 竞赛中均获得第一名（Shahab等人，2011; Karatza等人，2013年）。该方法是基于CC的方法。MSER方法虽然成功地完成了场景文本的检测任务，但它产生了大量的误报，并可能导致精度和f-measure的下降。所提出的算法的弱点（Bhattacharya等人，（ 2009年）是，该算法未能检测到https://doi.org/10.1016/j.jksuci.2022.02.0011319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comR. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6151如果文本的大小不够大，则使用弯曲文本。这项工作的局限性（Ghoshal等人，2011年）是，它只能与突出显示的文本。最近的工作Moyeen等人的弱点。（2013）是，它不能正确识别组合字符。Islamet al.（2016）提出的文本检测方法的缺点是该方法仅限于检测文本区域。没有迹象表明要从这些单词中提取字符。另一个缺点是使用较少数量的输入图像。另一项关于从场景图像中检测孟加拉语文本的最新工作是由Islam et al.（2017）完成的。所提出的方法产生了更多的假阳性，这影响了所提出的方法的性能。Dey等人（2017）提出的算法的弱点是算法的精度为52%，并且该方法没有提出任何消除误报的特定特征。Sen等人（2022）描述了端到端场景文本识别系统。他们使用了matra去除技术，将字符从单词中分离出来。但去除matra技术的主要缺点是，如果去除matra，某些字符可能会改变为另一个字符，特别是在孟加拉语中。我们在第4节4.1.5小节这就是这种方法的弱点针对上述文本检测和定位的复杂性，提出了一种新的文本检测算法，并将其应用于场景图像中感兴趣区域的检测。该算法首先根据自适应阈值Th和Tv滤除不含文字的区域。分别计算了水平投影剖面（HPP）和垂直投影剖面（VPP）的Th和Tv使用文本区域的一些可区分的特征（面积、纵横比、坚固性等）从场景图像中去除另外的非文本区域。这些是文本区域的形态特征，其范围基于启发式规则（Epshtein等人，2010; Ghanei和Faez，2017; Tian等人，2017年; Yao等人，2012年）。然后利用包围盒技术对词进行定位，并通过CC分析进行词的从汉字开始-孟加拉语文本中的字符由一个叫做“matra”的上线连接起来，因此提出了一个新的算法（算法2），并应用于从单词中分离出它们（字符）。提取的字符的宽度和高度设置为32像素，并将其存储在一个数据库中，其中包含孟加拉数字，字符和连接的字母。从该数据库中准备训练和测试数据集。使用HOG方法从训练集和测试集中提取特征。从训练集中提取的特征用于训练SVM分类器。最后，通过生成混淆矩阵来显示识别的准确性。CNN已被用于识别孟加拉字符和所提出的方法和CNN的方法之间的比较。本文的原创性和贡献如下。1. 介绍了一种新的预处理技术，用于从场景图像中滤除不需要的区域。2. 设计了一种新的系统结构来完成研究工作。实验结果与现有方法相比，有较好3. 为了从场景图像中提取感兴趣区域，提出了一种新的算法。4. 另一种算法已被提出来提取孟加拉字符从感兴趣区域。5. 已经创建了一个包含孟加拉语文本的不同类别场景图像的数据库，并使用所提出的架构和算法进行6. 创建了一个孟加拉字符数据库，其中每个孟加拉数字，基本字符和一些连接字符都有500个图像。在数据库中，共有31000个孟加拉字符的图像。7. 使用CNN进行了实验，证明了所提出的方法是一种更好的方法。其余部分按以下方式排列。在第2节中描述了自然场景图像的一些类似研究。第三部分是孟加拉语文本的显著特点。在第4节中，讨论了所提出的方法。实验结果集中在第5节。第六部分是本文的结论2. 相关作品从场景图像中检测文本是研究人员面临的巨大挑战，为此，各种方法被引入。在（Unar等人，2018），已经讨论了CC、纹理、笔划和基于边缘的方法的不同组合，以从场景图像中识别和定位文本区域。于（Yu例如，2016; Silva和Ciarelli，2016; Lee和Cho，2010），通过边缘检测方法检测文本字符的边缘。基于纹理的方法结合了方向梯度直方图（HOG）和局部二进制模式（LBP）（Soni等人，2019; Bai等人，2013年）。离散余弦变换（DCT）和小波变换也属于基于纹理的方法. 这些方法对于检测密集字符起着至关重要的作用。但是当同一幅图像中的文本对齐方式不同时，它们的性能并不好。文本组件的笔画宽度对于将非文本组件与文本分开起着重要作用。基于笔划宽度的方法用于分割文本组件（Yi和Tian，2011;Zhang等人，2017; Fabrizio和Seidowsky，2016）。在该方法中，对于图像的背景复杂的情况，所获得的结果变差。基于CC的方法（Bai等人，2013; Epshtein等人，2010; Fabrizio和Seidowsky，2016）是使用自底向上方法将小CC分组为大CC的重要方法之一。该方法利用边缘检测和颜色聚类的方法提取CC。为了得到一个好的结果，一些启发式规则，如面积，长宽比等是必要的。最近发明的文本检测方法如MSER（Matas和Chum，2004）是基于基于CC的方法。MSER方法对模糊呈现敏感（Li and Lu，2012; Matas andChum，2004）。研究正在从场景图像中提取孟加拉语文本的领域中进行（Moyeen等人， 2013年）。CC的两个参数（高度和标准偏差）可以从场景图像中分离CC（Bhattacharya等人，2009年）。该方法可以从场景图像中识别出孟加拉文。该方法应用于100个图像。该方法的准确率和召回率分别为68.8%和71.2%。为了从场景图像中提取孟加拉语文本，使用形态学操作进行研究（Ghoshal等人，2011年）。该方法的局限性在于，它只能对突出显示的文本起作用。该算法实现了CC的分割和文本区域的检测另一种方法（Moyeen等人，2013）被提出用于针对移动应用从自然场景图像中检测和识别孟加拉语文本。作者使用了几种技术，如有效的二值化，适当的过滤，'矩阵'检测和修改的CC分析。为了识别的目的，他们使用了谷歌的OCR引擎'tesseract'。他们在图像只包含文本的情况下实现了90%的识别率。所提出的方法是有限的仅显示突出显示的文本的图像。最近没有使用与我们的方法相关的深度学习的研究工作有一些最近的作品只使用深度学习方法从场景图像中检测英语文本下文讨论了其中一些类型的近期作品。目前，大部分关于场景文本检测和局部化的研究工作都是通过深度网络模型进行最重要的是，深度学习方法不需要设计和测试低级手工制作的功能，这可以加速工作。文本检测的整个过程正在简化R. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6152通过深度学习，减少费力的步骤和时间复杂度。此外，基于深度学习的方法在公共数据集上产生了比传统方法显著的改进（Khan等人，2021年）。最近开发的基于深度学习的场景图像文本检测方法证明了其在复杂环境中的高性能，从而使问题变得有效和鲁棒。到目前为止，已经报道了几种基于深度学习的方法来处理极其多样化的场景文本（ Wang 等人， 2019 年 ; Zhang 等人， 2019; Xue 等人， 2019;Kobchaisawat等人，2020年; He等人，2020和Ma等人， 2020年）。根据我们的分析，最先进的深度学习方法大致分为四组：（1）基于回归的方法，（2）基于分割的方法，（3）混合方法，以及（4）端到端文本识别。基于回归的方法可以通过在整个图像上沿多个方向卷积矩形或四边形文本框来检测文本区域（Gao等人，2019年; Liao等人，2018年）。在基于分割的方法中，基于从场景图像获得的文本固有信息来分割文本区域（Yang等人，2018; Tang和Wu，2017; Qin等人， 2019年）的报告。在这种方法中，计算昂贵的后处理技术需要有效的文本成分提取分割区域。基本上是基于回归和基于分割的方法的组合的混合方法能够更准确地检测文本（He等人，2017; Zhong等人，2019年; Lin等人， 2017年）。端到端文本定位方法将文本检测和识别结合起来，用于场景图像中的准确文本定位（Busta等人，2017年; Li等人， 2017年; Sun等人，2018;Liao等人，2019; Qiao等人， 2020年）。3. 孟加拉语文本孟加拉语文本与英语文本相比有一些明显的特点。在孟加拉语中，文本使用不同类型的修饰语，如元音和辅音修饰语。这些修饰语可以用在孟加拉语字母的任何一面。使用以上曲线字符是孟加拉语的另一个特点。2很少有孟加拉字母上面有曲线。孟加拉语文本唯一的一个独特属性是使用标题或“matra”。它位于字符的顶部位置。32个孟加拉语字符有完整的'matra'，8个字符有半个'matra'，10个字符没有任何'matra'。一个孟加拉语文本可以分为三个区域或区，如上部，中部和下部区域。基线是将下部区域与中部区域分开的假想线。孟加拉语文本的所有区域如图所示。1.一、和英语一样，孟加拉语中也没有大写字母和小写字母。由于孟加拉语文本具有上述特征，因此正确地检测和识别它们成为一项具有挑战性的任务。图2显示了所有的孟加拉数字，基本字符和一些复合字符。4. 该方法字符提取和识别是该方法的两个主要图3示出了所提出的方法的各个阶段，其给出了关于该方法的清晰概念。下面陈述图3的简要描述图1.一、孟加拉语文本的所有区域图二.孟加拉语字符集（a）数字（b）元音和辅音（c）复合字符。首先用数码相机采集场景图像，然后进行灰度化、对比度增强、二值化等预处理。然后是王从二进制图像中自动提取。为了提取ROI，我们实现了一种新的算法（算法-1）。通过分析感兴趣区域的CC，从感兴趣区域中在这里，每个孟加拉语单词都被视为CC，因为这些单词是由“matra”或标题连接的另一种算法（算法-2）已被用来从每个孟加拉语单词中提取独立在这一阶段，CC分析技术被用来定位和分离孟加拉字符。为了得到真实的孟加拉语字符，我们采用了过滤技术来消除误报。最后将孟加拉语字符存储为字符数据集。所获得的字符数据集被分成两个集合（训练集和测试集）。对于字符识别，HOG特征从训练集和测试集中提取。多类支持向量机用于训练分类器与获得的功能。然后将训练集和测试集的特征混淆矩阵有助于计算识别的准确性。图3的各个阶段的图示在接下来的部分中给出。4.1. 字符提取字符提取由以下步骤组成4.1.1. 场景图像数据库的准备这里可以说，第一图像数据集由所提出的方法提供。图像的主要来源是含有孟加拉语文本的海报、横幅、广告牌、招牌等。由于这些图像是从孟加拉国的不同地点拍摄的，因此该数据集被认为是独特的。由于图像是在具有光照条件变化的一天的不同时间捕获的，因此图像的强度存在变化。其次，数据库对于评估现有方法的性能至关重要。并对它们的性能进行了具体的评价，以设计实际系统.这些结果对于评估孟加拉语文本的提取和识别过程的效率起到了至关重要的作用，提供基准数据集。在场景图像的研究工作中，噪声、光照不均匀、背景复杂、存在多语种文本等问题是非常普遍的，这些都是开发一种综合的场景文本检测和定位方法的主要难点。在文本检测过程中，我们面临的大多数挑战将在下面讨论。R. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6153图三. 所提出的方法具有不同的阶段。场景图像中文字的多样性：场景图像中的文字在风格、朝向、布局等方面表现出更多的多样性和不一致性此外，自然场景图像中的不规则模式给文本检测带来了更大的复杂性复杂背景：场景图像的背景通常非常复杂，同时无法预测图像中的文本。错误检测：在场景图像中，有时物体看起来像文本，由于噪声和不均匀的光照效果，遮挡可能导致混淆和图像采集中的问题：由于拍摄不当、镜头与目标的距离、拍摄角度等原因，拍摄图像的分辨率图像的收集方式：为了收集图像，主要是我们使用了Android手机的摄像头。一些图片是从互联网上收集的。在使用手机摄像头拍摄图像时，我们与对象保持约1-2米的距离。捕获角在0 ~ 30 °之间。这些图像是在一天的不同时间拍摄的，比如早上、中午、晚上和晚上。我们的数据库的一些图像如图所示。四、4.1.2. 预处理预处理部分分为以下两个子部分。转换为灰度图像由于源图像是彩色图像，所以必须要将它们转换为灰度图像才行见图4。我们数据库中的一些捕获图像。它们作为所提出的方法的后续阶段的可用图像。将彩色或RGB图像变换成灰度图像的过程由等式（1）表示：1.一、Gr I¼0： 2999ωr 0： 587ωg 0： 114ωb 1其中r、g和b分别代表红色、绿色和蓝色调整对比度可能无法从低对比度图像中提取文本因此，为了克服这个问题，已经采取了特殊的措施，应用对比度限制自适应直方图均衡化（CLAHE）的过程，标准偏差的值等于0.01。在该处理中，通过替换低对比度图像中的每个灰度值来设置新的灰度值图图5示出了增强技术对灰度图像的效果。转换为单色图像通过应用Otsu阈值化方法将灰度图像转换为单色图像在该方法中，通过使用●●●●R. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6154ð Þ.ðÞ¼v×0011图五、应用CLAHE方法后的灰度图像（a）（b）由算法提供的单一强度阈值。如（2）所示，r2tvtr2tvtr2t2这里，两个类别的概率由权重v0和v 1指示，并且它们通过a阈值t，.r2和r2是两类的方差算法（续）算法1对于i = 2至4 DO使用img，h调用imfilter返回 img ENDFOR3. 通过卷积4个方向核来检测0°、45°、90°和135°方向上的边缘伪代码：对于X=1至4对于y=1至返回Cx，y//Cx，y是由4个方向核卷积的图像。ENDFORENDFOR为X=1到4将C{1，x}、C{2，x}、C{3，x}和C{4，x}相加，并将结果分别设置为{x}//所有方向滤波器的响应ENDFOR4.创建特征图伪代码：使用（resp 1 + resp 3）和（resp 2 + resp 4）调用imad返回Total//Total是所有定向的总和0 1响应基于所生成的阈值T，使用等式（1）将灰度图像转换为单色图像（三）、将resp 3设置为e_strng //e_strong是输入图像的强边缘r x;y1;如果gx;y>¼T0;否则ð3ÞCALL strel with其中，r（x，y）和g（x，y）分别表示（x，y）处的阈值和灰度图像像素。这里，如果像素的灰度值低于阈值，则像素被分类为背景或0。在同一如果像素的灰度值大于或等于阈值，则像素被分类为前景或1。4.1.3. ROI提取为了从场景图像中提取感兴趣区域，提出了一种新的算法（算法1）.算法11. 输入一幅彩色图像，创建一个默认大小为33的高斯核伪代码：读取RGB图像调用rgb 2gray with I RETURNING G;//G是灰度图像调用graythresh with G RETURNING gt;//gt是Otsu阈值CALL imbinarize with G and gt RETURNING Ibin;//Ibin是彩色图像I//方向过滤器将[-1-1-1 2 2;-1-1-1]赋值给k_0;//0度赋值[-1-12;-1 2 -1 2-1 -1]至k_45; // 45度将[-1 2 -1;-1 2 -1;-1 2 -1]分配给k_90; // 90度将[2 -1 -1;-1 2 -1;-1 -1 2]赋值给k_135;// 135度将k_0赋值给K[1]将k_45分配给K[2]将k_90分配给K[3]将k_135分配给K[4]CALL fspecial with Gaussian RETURNING h//h是高斯核2. 创建高斯金字塔伪代码：设置为imgSET img to PD{1}//PD{}是高斯金字塔使用e_strng和SE RETURNING D//D调用imdilate是扩展图像CALL strel withCALL imclose with D and SE 2 RETURNING i_close//i_close是对D从i_close中减去D并设置为wek_edge将e_strng和wek_edge相加，然后SET到v_edge//v_edge是将强边和弱边相加得到的垂直边CALL bwmorph with v_edge，N是CC使用L，'all'调用regionprops返回CALL strel with使用thnd_img调用imdilate， SE 3 RETURNING cand//cand是候选项文本区域CALL与cand相乘，Total RETURNING R//R是细化图像用R来调用imdilate，（用“square”来调用strelMULTIPLE R_img和total并设置为F_map//F_map是输入图像5. 扩展特征图以将文本区域聚集在一起伪代码：CALL imdilate with F_map，使用DF、4和返回实验室呼叫bwlabel，返回实验室为标签编号而是CC的数量使用Lab调用regionpropsR. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6155●×12ðþ Þ× ðþ Þ“#“# ÞyGx;yxXXhg算法（续）算法1对于i=1到R的设置R（i）.面积为A如果AMaxArea=20，则使用DF，A<下面给出算法1的细节步骤1：在该步骤中，通过使用如（4）和（5）中所示的以下函数来创建大小为3 3的高斯核-c2c2hgc1;c2e2r24返回DFENDIF结束hc1;c2hgc1;c2C1C2ð5Þ伪代码：对于i=1到长度RIF（Major_axis_length of R（i））（Minor_axis_length of R（i））>5将R（i）的所有像素设置为0ENDIF对于i=1到长度R将R（i）.实度设为Sd //Sd是R（i）的实度，如果Sd0.6将0设置为R（i）ENDIF的所有像素结束7.计算水平垂直投影像素并提取文本区域伪代码：将DF设置为新CALL sum with new，1 RETURNING S1//S1是每列中的像素数CALL sum with new，2返回S2//S2是每行中的像素数计算Vt=平均值（S1，1）+平均值（S2）20//Vt为垂直阈值FOR I= 1 to LENGTH（S1）其中，c1是行数，c2是列数，在我们的例子中，c1<$c2<$$> 3，（标准差）的值，r <$0：5。我们把这个核记为Gh。图 6显示了高斯滤波器和大小为3 × 3的相应核值。步骤2：在该步骤中，构造高斯金字塔，并且高斯金字塔中的每个图像由高斯核Gh卷积，如（6）中所述。Mp¼GhIMB6其中，M B是输入图像，I是卷积算子。Mp的大小为×。的图像是图像在不同比例下的副本。输入图像为MB，输出图像为R0、R1、R2和R3，其中R i的大小为2n-i1 2n-i1.步骤3：在该步骤中，创建四个方向滤波器以检测水平、垂直和两个对角方向上的边缘。设h∈x;y∈是图像G的任意位置（x，y）处的方向。梯度rG可以如（7）所示定义。如果S1（i）>TY，则设置S1（i）=0 ENDIF结束rG¼grad½Gx;y]gxx;ygyx;y¼@Gx;y@x@Gx;y@ð7ÞINIT V_Edge=zeros（size（new，1）FOR J=1 to size（V_Edge，1）FOR i=1 to length（S1）如果S1（i）=0则V_Edge（j，i）=0ENDIFENDFORENDFOR计算Vh=平均值（S2）20//Vh是x= 1至长度（S2）的水平如果S2（x）Tx，则设置S2（x）=0ENDIF结束INIT h_Edge=zeros（size（new，1）FOR X=1 to size（H_edge，1）FOR y=1 tolength（S2）如果S2=0，则SET H_edge（x，y）=0 ELSESET H_edge（y，x）=new（y，x）ENDIFENDFORENDFOR使用H_edge、V_edge调用imadd RETURNING Total_edge使用NOT Ibin、medFilt调用imadd RETURNING Final //Final是具有提取的ROI点（x，y）处的梯度矢量的方向可以如（8）中所表达的那样定义。hx;yi8角度以x轴为基准沿逆时针方向测量。图7示出了点（x，y）处的边缘的取向。图7（a）示出了正在被缩放的图像的一小部分，其包含边缘的片段每个正方形代表一个像素，每个阴影像素的值为1，每个白色像素的值为0。从图中可以观察到，在点（x，y）处，边缘的方向和梯度向量彼此垂直。图7（b）示出了计算x和y方向上的导数的过程。假设方向核表示为W0、W1、W2和W3，它们分别由边缘方向0°、45°、 90°和135°创建。见图6。(a)高斯滤波器（b）对应的核值。●●6. 应用粗略级别过滤以消除非文本区域R. 马里兰州伊斯兰Rafiqul Islam和Kamrul Hasan Talukder沙特国王大学学报6156¼ ¼ ¼¼XX[×1×23n见图7。使用梯度确定某点处边的强度和方向。结构元素，角度为90度。关闭二进制图像是通过放大图像，然后用相同的结构元素。6. 通过如（14）和（15）所示的方式构造包含垂直（90°）边缘的图像。E弱¼E近-Ed14E90¼E强E弱E15¼7. 通过对图像应用细化操作来构造由（15）创建的图像的骨架。在数学形态学中，通过结构元素R对集合S的细化可以关于命中或未命中变换定义为：在（16）中表示。步骤-4：该步骤对应于通过每个方向核卷积金字塔的每个图像。通过卷积每个薄的S-SRCð16Þ具有每个方向滤波器的金字塔的图像将产生16图像如下：Fk=WiIRj，式中1<<$k<<$4i×j;1 <我<4，对于i的每个值，15，且optS0： 25，其中maxA¼maxVA是最大值，<向量中的mum值，VA。这些最佳值是通过对我们的图像数据库中不同类型的场景图像进行实验来选择的。接下来，过滤如下进行对于11/4i/4k，如果（AioptAorRi>optR orSioptS），则Ai从VA 中移除。<<假设这一步的输出是CF。步骤8：在该步骤中，使用水平阈值和垂直阈值来消除非文本区域。设P i1;P i2;P i3;. . 对于从步骤7获得的大小为m×n的输入图像，第i行的像素值中的P，并且HPi和VPj表示第i行和第j列中的所有白色像素的值（1）的和。现在计算图像类型图像数量Pr（%）RR（%）F1评分（%）准确度（%）旗帜270 95.2498.24 96.32 93.70海报149 94.9497.38 95.69 92.59广告牌39 93.5297.46 95.12 91.53车牌4290.1697.07 93.38 88.884.1.4. 词语的本地化两个或两个以上的孟加拉语字符由“matra”或标题连接构成一个孟加拉语单词。为了从图像中分割出单词，应用包围盒技术和CC分析来选择所有CC。在这里，孟加拉语单词被视为CC。为了标记二进制图像的CC，遵循以下步骤1. 标记过程从图像的第一个像素P开始。将L=1设置为当前标签。1. 对于1i m，计算HPn第1页而每行的像素）。Pij，如果Pij= 1（所有2. 如果P是一个前景像素，并且它还没有被标记，那么给它当前的标签，并将它作为队列中的第一个元素添加，然后继续2. 对于<1=prop（n）.area=2000 SET n1_index=nINCREMENT count by 1见图11。去除马特拉的效果。在该算法中，我们必须输入二值图像的所有CC。设V是一个二值图像，使得V（b，d）= V（b0;d0）= p，其中p = {0，1}.如果像素序列（b，d）=（b0 ;d0），则像素（b，d）和（b0;d0）关于值p（b1; d1），. 其中V（bi; di）= p; i = 0，1，. . ，n，使用（position，prop（n）.BoundingBoxlor'，'y'，' LineWidth'，3）和（bi;di）是（bi-1;d）的邻居i-1 ）对于每个i = 1，2，.. . ，n.SET xy（count）=n1_index ENDIF结束对于i=1到1，将M设置为1000，p=0，总计=0调用find（L=xy（i））返回行和列将final（min（row）to max（row）and min（col）to max（col））设置为n1将size（n1）赋值给r1和c1 //r1是行，c1是列，调用n1，1求和返回colsum // colsum是所有列的求和像素对于i=1到length（colsum）IF（colsum

下载后可阅读完整内容，剩余1页未读，立即下载