tesseract-ocr识别汉字 Python
时间: 2025-01-02 21:31:11 浏览: 15
### 使用Python通过Tesseract-OCR进行汉字识别
为了使用 Tesseract-OCR 进行汉字识别,需先确认已正确安装并配置好 Tesseract-OCR 和 Pytesseract 库。确保 Tesseract-OCR 安装
在命令终端输入 `tesseract -v` 可以看到版本信息;而使用命令 `tesseract --list-langs` 来查看 Tesseract-OCR 支持的语言列表,其中应包含中文(通常标记为 chi_sim 或者 chi_tra 表示简体和繁体)[^1]。
#### Python代码实例
下面给出一段简单的 Python 代码用于加载一张图片并通过调用 Tesseract-OCR 实现对图像内汉字的提取:
```python
import pytesseract
from PIL import Image
# 加载要处理的图片
image_path = "C:/Users/Administrator.SC-201909161358/Desktop/OCR.png"
img = Image.open(image_path)
# 设置语言参数为'chi_sim'(简体中文),执行文字识别操作
recognized_text = pytesseract.image_to_string(img, lang='chi_sim')
# 输出去除空白后的结果
print(recognized_text.replace(' ', ''))
```
这段程序首先导入必要的模块——`pytesseract` 用来作为接口访问 Tesseract OCR 引擎,以及 `PIL.Image` 处理图像数据。接着指定待分析的图片位置,并读取该图片对象。最后一步指定了目标语言为中国大陆使用的简化字 (`chi_sim`) 并启动字符识别流程,最终打印出清理过空格的结果字符串[^3]。
阅读全文