怎么安装Tesseract库和相应的语言包(例如英文、中文等)
时间: 2024-06-08 18:09:32 浏览: 395
tesseract所需要安装包和中文语言包
4星 · 用户满意度95%
安装 Tesseract 库和相应的语言包可以分为以下几个步骤:
1. 安装 Tesseract 库
在 Windows 上,可以从 Tesseract 的官方网站(https://github.com/UB-Mannheim/tesseract/wiki)下载并安装最新版本的 Tesseract。在 Linux 上,可以通过包管理器安装。
2. 下载语言包
从 Tesseract 的官方网站(https://github.com/tesseract-ocr/tessdata)下载所需的语言包。例如,如果需要英文和中文语言包,可以下载 `eng.traineddata` 和 `chi_sim.traineddata`。
3. 将语言包复制到 Tesseract 安装目录下的 `tessdata` 文件夹中
在 Windows 上,默认的安装目录是 `C:\Program Files\Tesseract-OCR\tessdata`。在 Linux 上,默认的安装目录是 `/usr/share/tesseract-ocr/4.00/tessdata/`。
4. 测试安装是否成功
在命令行中输入 `tesseract` 命令,如果能够正确输出 Tesseract 的版本信息,说明安装成功。例如:
```
$ tesseract --version
tesseract 4.1.1
leptonica-1.79.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1
Found AVX2
Found AVX
Found FMA
Found SSE
Found libarchive 3.4.3 zlib/1.2.11 liblzma/5.2.4 bz2lib/1.0.8 liblz4/1.8.3 libzstd/1.4.5
```
5. 测试语言包是否可用
在命令行中输入 `tesseract` 命令,加上 `-l` 参数指定要使用的语言。例如,如果要使用英文语言包,可以输入以下命令:
```
$ tesseract image.png output -l eng
```
其中,`image.png` 是要识别的图片文件,`output` 是输出的文本文件,`-l eng` 指定使用英文语言包进行识别。如果能够正确输出识别结果,说明语言包可用。
阅读全文