jTessBoxEditor：自动化OCR训练数据制作工具

需积分: 0 169 浏览量更新于2024-10-25 收藏 5.07MB ZIP 举报

资源摘要信息:"jTessBoxEditor工具是用于OCR（光学字符识别）训练的样本编辑工具，它支持自动化执行一系列脚本命令以生成OCR训练数据。以下是该工具的主要知识点： 1.OCR训练数据准备：在使用jTessBoxEditor前，首先需要准备用于训练的样本图片，并将其合并成单一文件，这可以通过脚本或其他图像处理工具完成。接着，要将合并后的图片文件转换成Tesseract能够识别的box文件格式，这一步通常涉及到使用特定的命令行指令。 2.脚本命令执行： jTessBoxEditor工具提供了一种自动化的方式来执行Tesseract命令。例如，命令‘tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 batch.nochop makebox’用于创建box文件。这个命令指定了输入文件、输出文件、使用的语言（英语）和页面分割模式（PSM 7代表假设一个均匀分布的文字行）。参数‘batch.nochop’确保整个过程在批处理模式下运行且不进行分割。 3.修改box文件：在生成box文件后，可能需要手动或通过自动化脚本对box文件进行修改。修改可以包括调整文字边界框、文本行高度或文字类别等。 4.font_properties文件生成： font_properties文件用于描述训练样本中的字体属性，如字体名称、水平和垂直字符间距等。创建font_properties文件的命令是‘echo fontyp 0 0 0 0 0 >font_properties’。 5.训练文件生成：创建训练文件是OCR训练的关键步骤之一。命令‘tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 nobatch box.train’用于生成训练文件。这里的‘nobatch’参数表示禁用批处理模式，而‘box.train’指定输出训练文件的名称。 6.字符集文件和形状文件生成：字符集文件（unicharset）是从box文件中提取的，其中包含了所有出现的字符，它通过命令‘unicharset_extractor langyp.fontyp.exp0.box’生成。形状文件（shape file）是通过‘shapeclustering -F font_properties -U unicharset -O langyp.unicharset langyp.fontyp.exp0.tr’命令生成的，这个文件包含了按形状聚类的字符集。 7.聚集字符特征文件：聚集字符特征文件是通过‘mftraining -F font_properties -U unicharset -O langyp.unichars’命令生成的，它包含了用于训练的字符特征。 8.工具和组件： jTessBoxEditor的包中还包含了各种工具和文件，比如train.bat批处理脚本用于自动化训练过程，jTessBoxEditor.jar是该工具的主要Java执行文件，program.log和program.log.lck用于记录程序运行状态和锁定日志文件，versionchanges.txt记录版本变化，tesseract-ocr目录下包含了Tesseract OCR引擎，lib目录包含所需的库文件，tools目录可能包含了辅助工具，data目录用于存放训练数据和生成的文件。使用jTessBoxEditor进行OCR训练时，需要对上述步骤和命令有一定的了解，并确保环境中安装了Tesseract OCR引擎和其他必需的依赖软件。" 【请注意】上述内容完全基于文件信息给出的描述和标签进行知识的提取和说明。

收起资源包目录

jTessBoxEditor工具是一个基本成型的样本训练工具，它的功能就是自动执行上述脚本命令，并形成ocr训练数据（54个子文件）

strokewidth 389B

vie.frequent_words_list 3KB

makebox 27B

train.ps1 5KB

nobatch 2B

vie.arial.exp0.box 51KB

bigram 134B

train.bat 54B

unlv 48B

AppleJavaExtensions.jar 23KB

inter 61B

tesseract.exe 2.25MB

cntraining.exe 602KB

batch.nochop 39B

kannada 105B

train 440B

digits 38B

box.train 369B

matdemo 250B

ambigs.train 153B

combiningsymbols.txt 946B

linebox 72B

program.log.lck 0B

box.train.stderr 391B

segdemo 339B

api_config 27B

versionchanges.txt 3KB

batch 52B

vie.times.exp0.box 51KB

vie-data.txt 11KB

eng.traineddata 2.97MB

wordlist2dawg.exe 661KB

jTessBoxEditor.jar 300KB

Makefile.am 339B

combine_tessdata.exe 567KB

vie.words_list 55KB

msdemo 415B

logfile 26B

unicharset_extractor.exe 572KB

mftraining.exe 930KB

pangram.xml 2KB

hocr 22B

quiet 22B

font_properties 200KB

vie.times.exp0.tif 495KB

program.log 0B

vie.font_properties 498B

vie.arial.exp0.tif 495KB

jai_imageio.jar 1.09MB

get.image 23B

vie.unicharambigs 6KB

Makefile.am 169B

shapeclustering.exe 857KB

rebox 67B

共 54 条

Crhy、Y

粉丝: 1152
资源: 6

jTessBoxEditor：自动化OCR训练数据制作工具

tesseract样本训练工具-jTessBoxEditor2.2.zip

tesseract样本训练工具jTessBoxEditor-1.1

关于tesseract-ocr训练工具jTessBoxEditor

jTessBoxEditor v1.5样本训练软件.zip

android Tesseract-OCR 样本训练

Tesseract使用JTessBoxEditor训练数据.txt

ocr 训练工具源码

OCR样本，网络训练用

Tesseract-OCR 训练工具

jTessBoxEditor

最新资源