pytesseract代码识别图片文字
时间: 2024-10-08 15:27:08 浏览: 51
PyTesseract是一个Python库,它基于Google的开源项目Tesseract OCR (Optical Character Recognition),用于从图像中识别文本。它是OpenCV和Tesseract这两个流行工具结合的一个便捷接口。使用PyTesseract,你可以通过简单的几行代码读取图片文件,然后提取出其中的文字内容。
基本步骤包括:
1. 安装必要的库:首先需要安装`pytesseract`、`Pillow`(处理图像)和`opencv-python-headless`(图像处理库)。
```bash
pip install pytesseract pillow opencv-python-headless
```
2. 导入并初始化:导入`pytesseract`模块,并设置语言编码(如果你的图片包含非英文字符)。
```python
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # 设置Tesseract路径
pytesseract.language = 'eng' # 如果是英文识别,可删除此行
```
3. 读取图片并识别文字:
```python
from PIL import Image
# 打开图片
img = Image.open('image.jpg')
# 转换为灰度图以提高识别效果
gray_img = img.convert('L')
# 使用pytesseract识别文字
text = pytesseract.image_to_string(gray_img)
print(text)
```
阅读全文