使用Tesseract OCR引擎的复合文字方向与脚本检测
需积分: 10 175 浏览量
更新于2024-09-09
收藏 229KB PDF 举报
"这篇论文提出了一种简单但有效的算法,用于使用Tesseract OCR引擎估计图像中的文本方向和脚本。该方法首先通过合成渲染的文本生成每个脚本的候选形状类,然后训练一个快速形状分类器。在运行时,分类器独立地应用于图像中的每个连接组件,针对每个组件的可能方向,并累积的置信度分数用于确定最佳页面方向和脚本估计。实验证实在包含14种脚本和四种可能页面方向的1846份文档数据集上,该方法的有效性。预计将在未来的开源Tesseract OCR引擎版本中提供C++实现。"
本文主要关注的是Tesseract OCR引擎的布局分析能力,特别是结合了文本方向(Orientation)和脚本检测(Script Detection)的功能。Tesseract是一个开源的光学字符识别(OCR)软件,它能够识别图像中的文字并转换为可编辑的文本格式。布局分析是OCR过程的一个重要步骤,它有助于理解文本在图像中的排列方式,包括文字的方向、段落结构、表格等。
在提出的算法中,首先利用合成的文本生成各种脚本的形状模板,这有助于训练一个高效的形状分类器。形状分类器的任务是区分不同脚本的特征,如拉丁文、汉字、阿拉伯文等。在实际应用中,当对图像进行分析时,分类器会针对每个连接的文本组件(即图像中的连续字符)在所有可能的方向上运行,收集每个方向上的置信度分数。
通过对所有可能方向的置信度得分进行累计分析,可以确定图像中最可能的页面方向,这是指文本行是水平、垂直还是斜向的。同时,也可以识别出图像中主要使用的脚本类型,这对于多语言或混合脚本的文档尤其有用。这种方法对于处理具有复杂布局和多种语言的文档具有很高的灵活性和准确性。
实验结果表明,该算法在包含14种不同脚本和四种可能页面方向的大量文档数据集上表现出了良好的性能。这涵盖了广泛的文本类型和语言环境,证明了算法的普适性和实用性。未来,这一工作将被整合到开源的Tesseract OCR引擎中,使得更多的开发者和用户能够利用这一功能,提高他们的文本识别和处理能力。
总结来说,"Combined Orientation and Script Detection using the Tesseract OCR Engine"这篇论文提供了一种创新的文本方向和脚本检测方法,通过集成在Tesseract OCR引擎中,有望增强其对多语言和复杂布局文档的识别能力,进一步提升OCR技术在实际应用中的效能。
2017-11-07 上传
2020-06-26 上传
2021-06-05 上传
2021-05-02 上传
2023-07-23 上传
2018-03-08 上传
110 浏览量
2017-09-28 上传
tuling56
- 粉丝: 37
- 资源: 41
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案