有没有其他Tesseract-OCR 开源的训练好的中文数据集
时间: 2024-04-27 20:23:15 浏览: 229
是的,有许多Tesseract-OCR的开源中文数据集,这些数据集可以用来训练Tesseract-OCR模型以识别中文字符。以下是一些常见的Tesseract-OCR中文数据集:
1. 中文OCR训练数据集:这是一个由清华大学开发的开源中文OCR训练数据集,包括10万张中文字符图片以及对应的标注。
2. 中文MNIST数据集:这是一个包含7万张手写中文数字图片的数据集,可以用于训练Tesseract-OCR模型。
3. CASIA-HWDB数据集:这是一个由中国科学院自动化研究所开发的中文手写汉字数据集,包括3755个汉字和940个数字字符,可以用于训练Tesseract-OCR模型。
4. SynthText数据集:这是一个包含800万张合成的中文文本图片的数据集,可以用于训练Tesseract-OCR模型。
请注意,这些数据集的使用可能需要遵循特定的许可协议。在使用这些数据集之前,请务必仔细阅读相关许可协议的条款和条件。
相关问题
tesseract-ocr 4.0.0 如何训练
Tesseract OCR 4.0.0 是一个开源的光学字符识别 (OCR) 工具,用于从图像文件中提取文本。为了让它能识别特定字体或语言,需要对其进行训练。以下是基本的训练步骤:
1. **下载 Tesseract**:首先,你需要从 Google 的 GitHub 存储库下载 Tesseract:https://github.com/tesseract-ocr/tesseract。
2. **获取训练数据集**:Tesseract 使用特定的语言数据文件(如.traineddata)。你可以从 https://github.com/tesseract-ocr/tessdata 下载所需的数据集。
3. **准备样本图片**:收集一些包含你想识别的文字的清晰图像。尽可能包含各种字体、大小和布局情况。
4. **创建配置文件**:在 `tesseract` 根目录下创建一个新的配置文件(例如 `myconfig.conf`),并设置适当的参数,比如页面分割模式 (`PSM`) 和语言设置 (`lang`).
```ini
pageseg_mode=7
lang=<your_language>
```
5. **转换为TIF格式**:对于最佳训练效果,通常将彩色图像转换为灰度单通道,并保存为.tif格式。
6. **运行训练过程**:使用 `tesseract` 的命令行工具训练模型。在一个命令行窗口中,按照以下格式运行:
```
tesseract <image_path> output_name -l <language_code> --psm 7 --user-words <additional_words_file> myconfig.conf
```
其中 `<image_path>` 是图像文件路径,`output_name` 是识别后的文件名,`<language_code>` 是相应的语言代码(如 `eng` 对于英文),`additional_words_file` 可选,用于添加自定义词典。
7. **验证结果**:训练完成后,检查识别的结果是否准确,如有必要调整配置或增加更多样本进行优化。
8. **合并到 tessdata**:将新训练好的文件夹(例如 `output_name/`)中的 `.traineddata` 文件替换到 `tessdata` 目录下的同名文件,供其他项目使用。
阅读全文