无分割蒙古传统OCR:序列到注意力模型的高效识别

0 下载量 13 浏览量 更新于2024-08-26 收藏 197KB PDF 举报
本研究论文关注于蒙古族传统印刷文本的光学字符识别(Optical Character Recognition, OCR)技术,特别是在解决蒙古文字图像分割难题上的创新方法。当前的蒙古OCR系统普遍依赖于图像分割步骤,然而蒙古文的字形结构复杂,分割过程相对困难,导致这类方法成本高昂且易出错。作者提出了一个基于序列到序列(Sequence-to-Sequence, Seq2Seq)模型并集成注意力机制的无分割解决方案。 在论文中,作者将OCR任务重新定义为序列到序列映射问题,即输入的蒙古文单词图像被视为一系列连续的图像帧,而输出的文本字符串则视为一系列字母的序列。这种转变摒弃了传统的逐字符或逐像素的分割过程,转而利用深度学习框架中的Seq2Seq模型,该模型能够捕捉输入和输出之间的长期依赖关系,并通过注意力机制动态聚焦于输入的关键部分,从而提高识别精度。 注意力机制使得模型能够根据不同部分的重要性给予不同的权重,这对于处理像蒙古文这样的多变字符语言至关重要。这种方法的优势在于它能够处理不同形状和大小的蒙古字母,同时减少了由于分割不精确带来的错误可能性。 实验结果表明,提出的无分割蒙古传统OCR方法在处理印刷文本时表现出较高的识别效率和准确性。相比于现有基于分割的方法,新方法不仅简化了流程,降低了计算成本,还提高了识别性能,对于蒙古文化资源的数字化和利用具有重要意义。 总结来说,这篇研究论文的核心贡献在于提出了一种创新的OCR技术,利用序列到注意力模型解决了蒙古文印刷文本的识别问题,这在推动蒙古族文化数字化和降低OCR技术应用门槛方面具有重大价值。