印刷体乌尔都语Nastaleeq字体识别的CNN-BiGRU-GRU框架

26 浏览量更新于2023-12-10 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用18（2023）200194基于CNN-BiGRU-GRU编解码框架的印刷体乌尔都语Nastaleeq字体识别Sohail Ziaa，Muhammad Azhar a，b，*，Bumshik Leeb，Adnan Tahir c，Javed Ferzund a，Fozia Murtazaa，Moazam Ali aa计算机科学系，Comsats大学伊斯兰堡，Sahiwal校区，Sahiwal 57000，巴基斯坦b朝鲜大学信息与通信工程系，韩国c计算机科学IT系，Bahalwapur伊斯兰大学，Rahim Yar Khan校区，64200，Punjab，巴基斯坦A R T I C L EI N FO保留字：OCR深度学习序列学习GRUBiGRU编码器-解码器模型A B S T R A C T基于RNN的深度学习模型在顺序和时间数据方面取得了巨大的成功，其中顺序对于实现上下文理解的更高准确性至关重要。RNN家族，如LSTM，BLSTM，GRU，BiGRU等，是这类顺序任务中主要使用的模型。基于RNN家族的编码器-解码器框架被广泛用于各种语言脚本的识别。然而，在乌尔都语中，对深度学习模型的研究很少。印刷乌尔都语识别的现有研究工作表明，目前的模型只适用于乌尔都语的非常基本的句子，但在复杂的单词和句子的情况下，这些算法在识别Nastaleeq字体书写的准确性和时间复杂度方面完全失败。为了识别图像中的印刷乌尔都语文本，我们提出了一种基于编码器-解码器的混合深度学习方法，其中卷积神经网络（CNN）用于特征提取部分，双向门控递归单元网络（BiGRU）作为编码器，门控递归单元网络（GRU）作为解码器。该算法的CNN层用于获得乌尔都语中的连字特征，随后由编码器（BiGRU）和解码器（GRU）利用这些特征通过准确区分字符和连接符来识别句子。实验结果表明，与其他最先进的算法相比，我们提出的具有特定超参数调整的CNN-BiGRU-GRU混合技术在epoch（70 epoch，而基于BLSTM-LSTM的编码器/解码器为100 epoch）方面表现良好，字符识别准确率提高了6%（86.95%，而BLSTM-LSTM为81.08%），单词识别准确率（WRA）提高了10%（89.48%，而BLSTM-LSTM为79.06%），时间复杂度更低（比具有相同系统配置的BLSTM-LSTM少18秒）。1. 介绍由于快速增长和高利用率，深度学习最近在NLP方面取得了长足的进步（ Nasir ， Malik 和 Shahzad ， 2021 ， Khan 等人， 2020 ，Ahmed ， Naz ， Swati 和 Razzak ， 2019 ， Srivastava 等人， 2019年）。近年来，编码器-解码器框架在解决NLP的各种任务方面表现出了主导地位，如神经机器翻译（NMT）（Terasawa，Shima和Kawashima，2011年，Bahdanau，Cho和Bengio，2014年），文本摘要，情感分析以及来自推文的个性化预测等。但在某些情况下，我们必须从图像或视频中提取自然语言文本。这类应用的一个关键例子是旧书的扫描形式报纸或其他文件。因此，基于编码器-解码器框架的OCR可以读取书籍或报纸图像中的文本并将其转换为数字材料，因此可以用于搜索，突出显示，标记和翻译等各种任务（Ahmed，Naz，Swati和Razzak，2019）。在这种情况下，我们首先需要应用一些卷积技术来从图像中提取特征图，然后我们可以应用一些NLP技术。在这种情况下，CNN家族的算法（如Vanilla CNN（LeCun，Bengio和Hinton，2015），基于区域的CNN（ Girshick ， Donahue ， Darrell 和 Malik ， 2014 ）， Fast R-CNN（ Girshick ， 2015 ）， Faster R-CNN （ Ren ， He ， Girshick 和 Sun ，2015）等）。在应用编码器-解码器模型之前，首先使用“特征映射”来提取特征映射。CNN通过在特征期间制作特征图和最大池来* 通讯作者电子邮件地址：azhar. cuisahiwal.edu.pk，muhammad. chosun.ac.kr（M。Azhar）。https://doi.org/10.1016/j.iswa.2023.200194接收日期：2022年9月13日;接收日期：2023年1月19日;接受日期：2023年1月31日2023年2月4日在线提供2667-3053/© 2023作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsS. Zia等人智能系统与应用18（2023）2001942学习阶段。在从CNN模型获得表示之后，编码器和解码器来自RNN（ Rumelhart ， Hinton 和 Williams ， 1985 ）家族（如 LSTM（ Hochreiter 和 Schmidhuber ， 1997 ）， BLSTM （ Schuster 和Paliwal，1997）等）。以处理自然语言文本的排序信息LSTM-BLSTM（Cho，VanMerriéenboer，Bahdanau和Bengio，2014）对经常用作编码器-解码器框架。尽管长短期记忆（LSTM）通过减少RNN的爆炸和消失梯度的影响解决了处理长依赖性的问题（Rumelhart，Hinton和Williams，1985），但时间复杂度问题仍然是该模型的主要缺点，因为许多门驻留在LSTM单元中用于记忆目的。LSTM网络由各种LSTM单元组成，这些单元通过输入、输出和遗忘门来存储信息。由于BLSTM也使用相同的LSTM单元进行双向记忆，因此它大大增加了计算时间的问题。另一关键问题与这些种的编码器-解码器模型，没有CNN层作为预处理步骤，是捕捉特定字体信息的不足。在英语等语言中，单词的每个字符都与所考虑的特定英语单词的其他字符分开，但在阿拉伯语、乌尔都语等语言中并非如此。如图1所示，单词的字符被连接，并且还基于单词内的位置改变形状。这些模型的编码器无法将这种连接信息和由于相同字符的位置而导致的形状多样性传递给解码器。关于乌尔都语脚本的详细信息在第1.1中给出。为了解决识别图像中印刷乌尔都语文本的上述问题，我们提出了一种基于编码器-解码器的混合深度学习方法，其中卷积神经网络（CNN）作为特征提取部分的第一步，双向门控递归单元网络（BiGRU）（Rana，2016）作为编码器，注意力CTC（Zuo例如，2019）的门控递归单元网络（GRU）（Cho，VanMeriéenboer，Bahdanau和Bengio，2014）作为解码器。该算法的CNN层1.1. 乌尔都语文字的乌尔都语主要在南亚被2.3亿人作为第一或第二语言使用，它与纳巴泰写作风格家族有关，就像阿拉伯语，波斯语等。1) 它是从右向左写的，如图所示。3.第三章。2) 上面有大量的连字。这些连字是用来连接两个字符在一起草书写作风格，形成如图所示的话。五、3) 如图所示，同一个字符的位置可以根据单词内部的位置而变化。1.一、识别乌尔都语的字形（符号/字符），因为它们Fig. 1. 乌尔都语字母在不同位置（开始，结束和中间）在这种纳巴泰书写风格的语言中，特定单词内的位置是关键问题，因为连字用于以草书书写风格将两个或更多个字符连接在一起以形成完整的单词（Zuo等人，2019，Naz等人，Ahmad，Orakzai，Shamsher，andAdnan，2007）。每个结扎线有2个部分（i）RASM和（ii）IJAM。图2示出了没有相应的变音符号的主笔画，称为RASM，如图1所示。第2段（b）分段。是的，IJAM是二-用于区分具有不同含义的相似RASM的关键字，如图2所示。一些RASM没有像字符Alif那样的IJAM，而字符Alif madda包含IJAM，如图2（a）所示。连接器用于提供有关角色位置的信息，而不是提供有关其基本形状的信息。一个字符的连接形式取决于连字中的下一个字符。乌尔都语字符集中共有21个不同的RASM，如图4所示。这个记录已经被塑造成488个不同的字符RASM类。关于Nastaleeq字符形式的基于详细的字符识别发现603个不同的字符适当的形式，浓缩为250个RASM类形式（Riaz，2010）。由于强制性、上下文字母形状和复杂的变音符号放置限制，识别乌尔都语文档图形是困难的（Ul-Hasan等人， 2013年）。本研究的目的是提供一种方法来识别乌尔都语文字组成的文字与字符，通过有效地识别的liga。这些Nastaleeq视觉元素对于认识汉字字符识别精度。本研究的主要贡献如下：1) 我们提出了基于CNN-BiGRU-GRU的混合深度学习技术和基于CTC的注意力解码，用于识别图像中的印刷乌尔都语文本。2) 与广泛使用的基于BLSTM-LSTM的编码器-解码器框架相比，编码器-解码器框架中的BiGRU和GRU用于降低时间复杂度。3) 实验结果表明，我们提出的模型在准确识别乌尔都语脚本和时间复杂度方面优于现有的最先进的方法。本研究的其余部分讨论如下：在第2节中讨论了用于OCR的现有最先进的模型。第三节详细介绍了图像中乌尔都语文字的识别方法。第4节显示了数据集的详细信息。第五节对实验结果和讨论进行了讨论，第六节对本文进行了总结。2. 相关工作循环神经网络（RNN）的使用已被证明在识别英语和阿拉伯语草书笔迹方面是有效的（Wang等人，2020年）。为了创建用于印刷的纳巴泰文字的光学字符识别系统，RNN是一种有前途的选择，因为它们能够对数据序列进行建模（Zhang et al.，2021）、（Bengio、Simard和Frasconi，1994），诸如包含语音或文本的那些（它包括Nastaleeq，其还没有光学字符识别技术）。使用递归神经网络打印的Nastaleeq脚本乌尔都语的结果（Elman，1990年，Maass，Natschlaüger和Markram，2002年，Jaeger，2002年）。使用双向短时记忆（BLSTM）网络和CTC联结时态识别印刷的乌尔都语文本。这项研究比较了BLSTM网络在两种不同情况下的性能：一种是忽略字符形状变化，另一种是考虑到它们（Graves，2012）。两个分析产生了意想不到的发现，考虑到最初的信念，即由于类别之间的差异较小，将形式变体视为不同的类别将提高识别准确性（Graves，2012，Azhar等人， 2020年）。以下两个问题可能是S. Zia等人智能系统与应用18（2023）2001943图二. RASM和IJAM在各种乌尔都语字符识别错误。有一种观点认为，更少的类表示更好的分类精度。然而，由于数据集没有改变，类合并实际上增加了方差。拥有一个数据集，其中每个类的实例数量在两个变体之间是可比较的，可以帮助解决这个分歧。RNN优于其他基于神经图3.第三章。一个或两个连字内的字符重叠。发生：如果忽略形式变化，每个类的样本数量将显著增加。一个班级里的学生越多，就意味着在识别人脸时，有更好的指导和更少的错误。另一方面，当考虑形状变化时，每个类的样本量很低，这可能导致训练不足，随后会导致更多的错误。Huang，2019）（Graves等人，2008年）。因为它有能力捕捉上下文。通过将用于注意力和连接时间分类（CTC）的方法合并到编码器-解码器框架中（Graves等人，2008），该方法将文本识别转换为序列符号，通过利用相似性，使其能够更轻松地应对字符分割的挑战图四、唯一字符和具有相同RASM类的多个字符。S. Zia等人智能系统与应用18（2023）2001944===图五、在Nastaleeq字体中使用的连字=+图像和文本序列之间。识别精度受到基于编码器解码器框架的文本识别方法中采用的LSTM网络中的层的显著影响（Kim，Hori和Watanabe，2017）。LSTM中层数的增加对编码器的帮助大于解码器。两层LSTM解码器的适当性能是可能的，三层LSTM编码器可以利用更多信息。大多数时候，该层保持稳定。完整的单词图像被送入卷积神经网络（通常称为CNN），然后产生有序的特征序列。接下来，使用双向长短期记忆网络（Bi-LSTM）学习来对生成的特征序列进行特征编码（Xu，Li，Cassimilar和Wang，2018）。 CTC和注意力机制被组合成一个单一的模块，实验结果表明，该方法为了在不使用行分割的情况下识别由多行文本组成的给定输入图像，从日本历史来源（Kitadai等人，2008年，Van Phan，Baba，Watanabe和Nakagawa，2013年），这项工作提供了一种使用所谓的集中注意力行-列编码-解码（ARCED）系统的方法（Ly，Nguyen和Nakagawa，2020年）。任何识别系统的一个基本部分是特征提取器，其次是行列编码器，最后是解码器。在编码阶段，采用矩阵的行和列BLSTM，并在解码阶段，使用的长短期记忆网络与残差。当在KanaPRMU数据集2级和3级上进行测试时，使用拟议的ARCED模型（Ly，Nguyen，Nguyen和Nakagawa，2019），错误字符的百分比分别在4.15%和12.69%之间。首先，基于注意力的seq2seq方法的错误率远低于现有技术的方法并且可以识别具有单个文本行或多个文本行的图像。第二，基于注意力的模型的错误率被行列BLSTM编码器的捕获顺序的能力进一步降低。秩序更好结果可以被获得使用弧形在2级和3级数据集中使用resLSTM框架。最终结果表明，为了解决使用基于注意力的seq2seq模型识别日本历史文本中的文本的问题，Nakagawa，2020）网络被放置在解码器的注意力向量和SoftMax层之间根据这一点，LSTM残差是后果（Nguyen等人，2017），这有助于使用所有先前观察到的注意力向量来生成准确的预测分配。从头到尾训练系统所需要的是文件的照片和相应的地面实况文本。实验证明，ARCED的性能优于现有的最好的识别技术的数据集。3. 方法在本节中，我们逐一讨论了我们提出的CNN-BiGRU-GRU框架的每个模块，以识别图像中的印刷乌尔都语文本。如前所述，基于CTC注意力的技术与基于CNN-BiGRU-GRU的编码器-解码器框架一起使用，其中CNN用于在开始时提取特征图在开始部分，讨论了特征提取过程，然后详细讨论了基于BiGRU-GRU的编码器-解码器部分和CTC-注意层。3.1. 特征提取和预处理关于脚本的基本信息是区分常见符号/字符的关键特征。因此，我们首先将彩色图像转换为灰度以提高计算效率，然后将所有灰度输入图像在训练和测试数据集中归一化为相同的高度和宽度。使用固定大小的核来遍历包含乌尔都语脚本的训练图像，然后将所得一维序列用作编码器-解码器框架的输入。使用了各种超参数组合，并在验证阶段调整超参数后，优化了我们提出的模型。关于内核大小、输入层、丢弃率和其他超参数的所有细节都在实验设置部分中给出。3.2. 基于CTC-注意的BiGRU-GRU编解码器框架在通过CNN执行特征提取过程之后，执行逐行分裂操作以将特征图转换为序列，因此，结果集S{s1，s2，关于RASM、IJAM的关键上下文信息，以及正在考虑的乌尔都语脚本中的加入者信息。作为RNN家族的一员，BiGRU被证明具有记忆能力通过解决梯度消失和梯度爆炸问题，将序列集S赋予多层BiGRU模型，以探索通过学习隐藏层H {h1，h2，...，h n }的权重来保持顺序，从而在两个方向上对上下文特征进行排序在从Encoder获得编码矢量之后，这些编码矢量是传递到基于GRU的解码器，其中基于注意力的CTC模式-使用通过注意机制使用当前位置的重要特征信息的规则。通过计算CTC的全局概率机制，利用乌尔都文每个单词的关键信息识别RASM和IJAM部分字符。因此，解码的字符序列实际上是乌尔都语脚本作为输出Y {y1，y2，y3，. . .，yk}。基于CTC的注意力模块不仅有助于准确识别单词，而且还提高了网络快速收敛的效率。提出的基于CTC注意力的BiGRU-GRU编码器-DECODER框架如图6所示，而训练和测试阶段如图6所示。第七章4. 实验设置和结果在本节中，我们详细讨论了实验设置和结果。该算法使用由公开的1，00，541个文本行图像组成的数据集进行评估。该系统使用来自Dataset-1的80%的文本行图像进行训练，并使用来自Dataset-2的20%的文本行图像进行测试，该数据集覆盖了清洁的印刷乌尔都语文本行的图片。Dataset-2将建议系统的性能与现有超现代乌尔都语Nastaleeq识别系统的性能相匹配。Dataset-1由来自给定数据集的80，433幅高频图像组成。有4 217 657例结扎和123129个独特的乌尔都语词所涵盖的指定连字类。对给定的数据集进行预处理。连字分类用于对它们进行分类。除了文本样本外，还提供了字体大小、图像尺寸、背景和前景以及其他输入。也就是说，文本行的字体大小设置为11 pt。每张图片的背景颜色是白色，最前面的颜色是黑色，文本摘录在水平和垂直方向居中。最后，建立了一个包含100541行Nastaleeq字体图像的大型语料库。S. Zia等人智能系统与应用18（2023）2001945图6. 提出关注CTC基于BiGRU-GRU编码器-解码器框架这191个类别是独一无二的。在第二个实验类型中，我们只使用了99个基本类别。4.1. 网络配置使用可公开访问的RNN库进行评估（Ul-Hasan等人，2013年）。该软件包经过修改，以评估基于注意力的CTC输出层以及一维和多维BiGRU网络应用的准确性。其他可配置的因素包括隐藏层大小、动量和学习率。通过从左到右扫描归一化的灰度输入文本行图像以用于训练目的来提取特征。使如果它与输入图像一致，则相应的transmits被反转（乌尔都语从右到左阅读首先，使用CNN层的三个块从图像数据中提取特征，如表1所示，每个CNN层中的池化层CNN层、编码器中的BiGRU和解码器中具有GRU的基于注意力的CTC层的完整网络配置在表1中讨论。在编码器块中，两个BiGRU层用于维护和记忆乌尔都语脚本字符的顺序在解码器模块中，带有GRU的CTC-Attention层用于对乌尔都语文本中的序列进行分类。4.2. 实验评价我们已经进行了各种实验来评估我们的模型的输出。在提供的公开数据集上，作为实验的一部分，对模型进行了训练和评估。在70个epoch上，配置了训练和验证。亚当在一个具有快速学习率的模型中解决了噪声问题。在训练数据集中，Error在10到15个epoch中从100下降到40之后稍微下降到70个epoch，如图8所示。验证数据集的误差在10到15个时期内从80下降到30，并从70个时期略微下降。两个参数的动量和学习率，以及几个隐藏层的识别精度的影响进行了评估。首先，在保持学习率为0.0001的情况下探索隐藏层的最佳数量。图9比较了测试集上的各种识别错误。错误识别是识别预测错误存在的错误。该错误识别了准确测量先前未看到的数据的预测结果值。输入层和输出层之间各有一个隐藏层。其中，函数将权重应用于输入，并通过激活函数将其在我们提出的模型中，我们将隐藏层划分为不同的块，如表1所示。块1、2和3是卷积神经网络的块，表1车型配置编码器块1 15*15 3*3 CONV，64 s：1，p= 03*3 CONV，64 s：1，p= 0图第七章培训和测试阶段，包括示例我们把数据集分成三部分。 1) 用于模型构建的训练数据集（50%）。2)用于超参数调整的验证数据集（30%）和3）用于测试准确度目的的测试数据集（20%）。2座7*143座3*13BiGRU1 13BiGRU2 132*2池，64 s：2，p= 13*3 CONV，64 s：1，p= 03*3 CONV，64 s：1，p= 02*2池，64 s：2，p= 13*3 CONV，64 s：1，p= 03*3 CONV，64 s：1，p= 02*2池，64 s：3，p= 1256隐藏层256隐藏层两种类型的实验进行乌尔都语脚本来评估我们提出的方法。第一个是与基于字符位置的形状变化有关，即开头，结尾，中间和孤立解码器CTC-注意GRUCTC-注意GRU-256隐藏单位256隐藏注意力-256隐藏单位256隐藏注意力S. Zia等人智能系统与应用18（2023）2001946见图8。训练和测试数据集上的CTC层错误率。图第九章隐藏层大小与识别错误的仿真结果表示双向门控递归单元（BiGRU），然后是CTC层门控递归单元（GRU）。这有助于识别RASM乌尔都语文本识别。已经提出的RASM识别方法与现有的乌尔都语OCR系统（Elman，1990）兼容。变音符号加上主要形式的连字是文本行图片的链接组件有不同的变音符号。通过指定的识别程序识别核心形式所识别的变音符号和变音符号关联信息用于从字符序列生成连字通过发现相关字符的Unicode序列，连字的准确性进行了探索。图 9显示了隐藏层中识别的错误。当隐藏层的大小增加时，识别错误减少。当隐藏层大小为20时，识别错误从20开始，并随着隐藏层的大小而减小。隐层数增加，误差趋于零，隐层数增加，层间计算时间相应增加。在时间复杂度的增加相对于隐藏层的大小显示在图。10.为了将我们的模型与其他模型进行比较，我们使用了字符识别准确率（CRA）、单词识别准确率（WRA）、所需时间（min）和训练总次数等各种指标。CRA和WRA计算如下：CRA= Correctedrecognizedcharacters/Totalcharacters 100WRA= Correctedrecognizedwords/Totalwords 100实验结果表明，CNN-BiGRU-GRU模型在更少的时期内在CRA，WRA和准确性方面表现出色。从表2可以看出，在不使用CNN层和基于注意力的CTC层的情况下，LSTM和GRU在CRA和WRA方面表现最差图10. 根据隐藏层大小的时间复杂度尽管这两种算法花费的时间更少，但由于准确度较低，因此时间不是一个可比较的参数，因为准确度在这里具有关键的重要性。即使通过基于BLSTM-LSTM的编码器-解码器也表现得更好，但我们的方法在计算时间，epochs数量，CRA和WRA方面仍然表现出色。因此，我们的方法在这类其他模型上表现得更好因此，如表2所示，我们提出的具有特定超参数调整的CNN-BiGRU-GRU混合技术在历元方面与其他最先进的算法相比表现良好（70个epoch，相比之下，基于BLSTM-LSTM的编码器解码器为100个epoch，GRU为130个epoch，LSTM为200个epoch），字符识别精度提高了6%（ 86.95% ，而 BLSTM-LSTM 为 81.08% ， GRU 为 61.53% ， LSTM 为62.76%），单词识别准确率（WRA）提高了10%（89.48%，而BLSTM-LSTM为79.06%，GRU为38.25%，LSTM为39.15%）和更低的时间复杂度（比具有相同系统配置的BLSTM-LSTM少18秒）。4.3. 模型的时间复杂性由于我们采用了CNN-BiGRU-GRU混合模型和CTC层，因此我们逐一讨论了每一层的时间复杂度。CNN层的时间复杂度：CNN层用于从包含乌尔都语脚本的图像CNN层的时间复杂度取决于网络前向传递过程中需要执行CNN中的主要操作是卷积和池化。卷积运算的时间复杂度是O（FHWCK*K），其中F是滤波器的数量，H和W是输入特征图的高度和宽度，C是输入通道的数量，K是卷积核的大小池化操作的时间复杂度为O其中CNN的总时间复杂度是网络中所有卷积和池化操作的时间复杂度之和，以及任何额外操作（如批归一化和激活函数）的时间复杂度。CNN的总体时间复杂度通常由卷积运算主导，卷积运算可以是表2在CRA、WRA、计算时间和历元数方面模型CRAWRA时间（min）历元LSTM62.7639.1562.6200GRU61.5338.2557.0130BLSTM-LSTM（编码器/解码器）81.0879.0698.2100CNN-BiGRU-GRU86.9589.4880.770S. Zia等人智能系统与应用18（2023）2001947由于涉及大量的参数和操作，计算上是昂贵的。值得注意的是，CNN的时间复杂度批量大小，即同时处理的输入示例的数量。批量大小可以极大地影响CNN的性能和时间复杂度，因为较大的批量大小可以使用并行计算，从而加快训练过程。编码器的时间复杂度（BiGRU层）：在CNN层之后，使用基于CTC-Attention的BiGRU-GRU编码器-解码器框架。在Encoder中，BiGRU层是主要部分。双向门控递归单元（BiGRU）层的时间复杂度取决于输入序列的长度、隐藏单元的数量以及网络中的层数时间复杂度为O（N^2），其中N是隐藏单元的数量。这是因为更新和复位门以及隐藏状态都具有N*N的大小。在BiGRU中，输入序列在前向和后向两个方向上进行处理。所以单层BiGRU的时间复杂度是O（2N^2T），其中T是输入序列的长度。对于多层BiGRU，时间复杂度可以计算为O（L2N^2*T），其中L是层数。值得注意的是，这是向前传递的时间复杂度。在训练中发生的向后传球，复杂性解码器（GRU层）的时间复杂度GRU（门控递归单元）的时间复杂度这是因为在每个时间步，GRU必须对输入和隐藏状态执行大量的矩阵运算，其时间复杂度为O（d^2）。连接主义时间分类（CTC）层的时间复杂度：连接主义时间分类（CTC）层的时间复杂度取决于输入序列的长度和可能标签的数量通常，CTC层使用动态编程算法来计算给定输入序列的输出标签序列的概率。CTC算法的时间复杂度为O（TLA），其中T是输入序列的长度，L是输出标签序列的最大长度，A是可能标签的数量。这是因为对于每个时间步t和每个可能的标签a，算法需要计算每个可能的标签a的概率。在时间t结束于标签A的标签序列值得注意的是常用与 RNN，它们有自己的时间复杂度，因此网络的整体时间复杂度将取决于RNN和CTC层的复杂度5. 结论印刷乌尔都语识别的现有研究工作表明，目前的模型只适用于乌尔都语的非常基本的句子，但在复杂的单词和句子的情况下，这些算法在识别Nas- taleeq字体书写的准确性和时间复杂度方面完全失败。在这项研究中，我们提出了一种基于编码器-解码器的混合深度学习方法，卷积神经网络（ CNN ）用于特征提取部分，双向门控递归单元网络（BiGRU）作为编码器，门控递归单元网络（GRU）作为解码器。该算法的CNN层用于获得乌尔都语的连字特征，随后由编码器（BiGRU）和解码器（GRU）利用这些特征通过准确区分字符和连接符来识别句子。实验结果表明，我们提出的具有特定超参数调整的CNN-BiGRU-GRU混合技术与其他最先进的算法相比表现良好。CRediT作者贡献声明Sohail Zia：数据策展，写作穆罕默德爱资哈尔：监督，写作&-审查编辑。Bumshik Lee：写作&– Adnan Tahir：验证。Javed Ferzund：写作&Fozia Murtaza：概念化，方法论，写作&Moazam Ali：视觉化，调查。竞争利益作者声明，他们没有已知的可能影响本文所报告工作数据可用性数据将根据要求提供引用Ahmad，Z.，Orakzai，J.K.，沙姆谢尔岛，&阿德南A.（2007年）。Urdu Nastaleeq光学字符识别。国际计算机与信息工程杂志（8），2380艾哈迈德，S。B、Naz，S.，Swati，S.，Razzak，M.I. （2019年）。手写乌尔都语字符使用一维BLSTM分类器进行识别。Neural Computing andApplications，31（4），1143-1151.Azhar，M.，Huang，J. Z.，马苏德，M。一、Li，M. J.，&崔湖，加-地（2020年）。一种基于分层Gamma混合模型的复杂数据聚类数估计方法。应用软计算，87，文章105891。Azhar，M.，Li，M. J.，&Zhexue Huang，J.（2019）.一种基于层次伽玛混合模型的高维数据分类方法。Entropy，21（9），906.巴达瑙，D.，周，K.， &本焦湾（2014年）。arXiv预印本。本焦，Y.，Simard，P.，&Frasconi，P.（1994年）。用梯度下降学习长期依赖关系是困难的。 IEEE transactions on neural networks，5（2），157-166.周，K.， VanMerr ienboer，B.，巴达瑙，D.，本&焦湾（2014年）。 arXiv预印本。Elman，J. L. （1990年）。在时间中寻找结构 Cognitive science，14（2），179-211.吉希克河（2015年）。快速R-CNN。在IEEE国际会议上，计算机视觉（pp. 1440-1448）。吉希克河，Donahue，J.，Darrell，T.，Malik&，J. （2014年）。丰富的功能层次结构，准确的目标检测和语义分割。在IEEE计算机视觉和模式识别会议论文集（pp.580-587）。格雷夫斯A.（2012年）。监督序列标记。监督序列标记，递归神经网络（Recurrent Neural Networks）5-13）。柏林，海德堡：施普林格。格雷夫斯，A.，Liwicki，M.， Ferna'ndez，S.，贝尔托拉米河邦克，H.，Schmidhuber，J.（2008年）。一种新的用于无约束手写体识别的连接主义系统IEEE模式分析和机器智能学报，31（5），855Hochreiter，S.，Schmidhuber&，J. （1997年）。长短期记忆。 Neural computation，9（8），1735-1780.Jaeger，H. （2002年）的报告。训练递归神经网络，涵盖BPPT，RTRL，EKF和“回声状态网络”方法。Khan，W.，Daud，A.，Alotaibi，F.，Aljohani，N.，&Arafat，S.深度循环神经网络与词嵌入乌尔都语命名实体识别。ETRI Journal，42（1），90-100.Kim，S.，霍里，T.，渡边，S.（2017年）。基于联合CTC-注意的端到端语音使用多任务学习进行识别。2017年IEEE声学、语音和信号处理国际会议（ICASSP）4835-4839）。美国电气与电子工程师协会。Kitadai，A.，Takakura，J.，Ishikawa，M.，Nakagawa，M.，巴巴，H.，&Watanabe，A. （2008年）。文档图像检索，支持阅读Mokkans。2008年，第八届IAPR文件分析系统国际研讨会（第10页）。533-538）。美国电气与电子工程师协会。Y.莱昆，本焦，Y.，&Hinton，G.（2015年）。深度学习nature，521（7553），436-444.利，N。T.，阮角，澳-地T.，&中川，M。（2020年）。一个基于注意力的行-列编码器-解码器模型，用于日文历史文档中的文本识别。Pattern Recognition Letters，136，134利，N。T.，阮氏K. C.的方法，阮角，澳-地T.，&中川，M。（2019年）。日本历史文献中错误变形假名序列的识别。IEICE信息和系统的交易，102（8），1554马斯，W.， Natschlager，T.，马克拉姆&，H. （2002年）的报告。没有稳定状态的实时计算：基于扰动的神经计算新框架。神经computation，14（11），2531Nasir，T.，Malik，M.K.，沙赫扎德角（2021年）。MMU-OCR-21：走向端到端乌尔都语使用深度学习进行文本识别。 IEEE Access，9，124945-124962。Naz，S.，Umar，A.一、艾哈迈德河，西迪基岛艾哈迈德，S。B、Razzak，M.一、&Shafait，F. （2017年）。使用卷积递归深度学习的乌尔都语Nastaliq识别神经计算，243，80-87。阮氏H. T.，利，N。T.，阮氏K. C.的方法，阮角，澳-地T.，&中川，M。（2017年）。日本历史文献中畸形假名的再认识。在第四届国际历史文献成像研讨会上，处理（pp. 31-36）。拉纳河，巴西-地（2016年）。arXiv预印本。S. Zia等人智能系统与应用18（2023）2001948Ren，S.，他，K.，吉希克河，&Sun，J.（2015）.更快的r-cnn：用区域建议网络实现实时目标检测。神经信息处理系统的进展（P. 28 ）。Riaz，K.（2010年）。乌尔都语中基于规则的命名实体识别。在2010年命名实体研讨会的会议记录（pp. 126-135）。Rumelhart，D. E、Hinton，G. E、&威廉斯河，巴西-地J.（1985年）。通过误差传播学习内部表示。加州大学圣地亚哥分校拉荷亚认知科学研究所。Schuster，M.，帕利瓦尔湾K. （1997年）。双向递归神经网络IEEEtransactions on Signal Processing，45（11），2673斯里瓦斯塔瓦，S.，Priyadarshini，J.，Gopal，S.，古普塔，S.，&Dayal，H. S.（2019年）。基于二维卷积神经网络的银行支票光学字符识别。人工智能技术在工程中的应用（第10页）589-596）。新加坡：Springer。Terasawa，K.，Shima，T.，&Kawashima，T.（2011年）。一种基于外观的历史报纸图像快速全文检索方法。在2011年国际会议上的文件分析和识别（pp。1379-1383）。美国电气与电子工程师协会。Ul-Hasan，A.，艾哈迈德，S。B、Rashid，F.，Shafait，F.，Breuel，T.M. （2013年）。离线打印使用双向LSTM网络进行乌尔都语Nastaleeq脚本识别。2013年第12届国际文件分析和识别会议（第12页）。1061-1065）。美国电气与电子工程师协会。Van Phan，T.，巴巴，H.，Watanabe，A.，&中川，M。（2013年）。一个重新组装的方案，破碎的Mokkan图像。在第二届国际研讨会上，历史文档成像和处理（第10页） 22-28）。... &王，H.，蔡河，巴西-地Zhou，B.，（1991年），中国地质大学，Aziz，S.，Qin，B.，Voropai，N.，&Barakhtenko，E.（2020年）。基于直接解释神经网络的太阳辐照度预测。能源转换和管理，226，第113487条。徐，K.，Li，D.，Cassimilar，N.，&Wang，X.（2018年）。LCANet：端到端唇读与级联注意力-CTC。2018年&手势识别（FG 2018）（pp. 548-555）。美国电气与电子工程师协会。张，R. Aziz，S.，法鲁克，M。美国、Hasan，K. N.，Mohammed，N.，Ahmad，S.，&Ibadah，N. （2021年）。结合ega启发的hpsoifa优化器和深度学习预测器的风能供应商投标策略。Energies，14（11），3059.左湖，加-地问：孙，H. M.，茅角，澳-地C.的方法，Qi，R.，&贾河，巴西-地S.（2019年）。基于编解码框架的自然场景文本

下载后可阅读完整内容，剩余1页未读，立即下载