Tesseract-OCR如何在linux 下安装
时间: 2024-08-15 19:04:04 浏览: 63
Tesseract OCR是一款开源的文字识别引擎,常用于从图像、扫描件中提取文本内容。在Linux下安装Tesseract OCR通常包括下载并配置软件包。以下是简要步骤:
1. **更新包列表**:
```sh
sudo apt-get update
```
2. **安装依赖**:
对于Ubuntu或Debian系列,你需要`libtesseract-dev`和`leptonica`库:
```sh
sudo apt-get install libtesseract-dev leptonica
```
如果你使用的是基于RPM的发行版如Fedora或CentOS,可以用`dnf`代替`apt-get`:
```sh
sudo dnf install tesseract-devel leptonica
```
3. **下载Tesseract源码** (如果需要最新版本):
- 访问Tesseract GitHub页面(https://github.com/tesseract-ocr/tesseract),找到最新版本的zip文件或tarball。
- 将下载的文件解压到一个目录,例如 `/usr/local/src/tesseract`。
4. **编译安装**:
- 进入解压后的目录:
```sh
cd /usr/local/src/tesseract
```
- 配置并编译:
```sh
./configure
make
```
- 安装Tesseract:
```sh
sudo make install
```
5. **添加路径**:
将Tesseract的bin目录添加到环境变量PATH中,以便系统能全局访问它:
```sh
echo "export PATH=/usr/local/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
```
6. **初始化语言数据** (如果你需要识别特定的语言):
```sh
sudo tesseract --list-langs
tessdata_dir_config=$(tesseract --print-dir)
wget https://github.com/tesseract-ocr/tessdata_best/releases/download/<version>/<language>.traineddata -P $tessdata_dir_config
```
`<version>`应替换为你所安装的Tesseract版本,`<language>`是你想要识别的语言代码(如`eng`代表英文)。
完成上述步骤后,你应该就可以使用Tesseract命令行工具了。你可以通过`tesseract input_image output_text`这样的命令来识别图像中的文字。
阅读全文