首页tesseract-ocr识别汉字 Python

tesseract-ocr识别汉字 Python

时间: 2025-01-02 21:31:11 浏览: 15

### 使用Python通过Tesseract-OCR进行汉字识别为了使用 Tesseract-OCR 进行汉字识别，需先确认已正确安装并配置好 Tesseract-OCR 和 Pytesseract 库。确保 Tesseract-OCR 安装在命令终端输入 `tesseract -v` 可以看到版本信息；而使用命令 `tesseract --list-langs` 来查看 Tesseract-OCR 支持的语言列表，其中应包含中文（通常标记为 chi_sim 或者 chi_tra 表示简体和繁体）[^1]。 #### Python代码实例下面给出一段简单的 Python 代码用于加载一张图片并通过调用 Tesseract-OCR 实现对图像内汉字的提取： ```python import pytesseract from PIL import Image # 加载要处理的图片 image_path = "C:/Users/Administrator.SC-201909161358/Desktop/OCR.png" img = Image.open(image_path) # 设置语言参数为'chi_sim'(简体中文)，执行文字识别操作 recognized_text = pytesseract.image_to_string(img, lang='chi_sim') # 输出去除空白后的结果 print(recognized_text.replace(' ', '')) ``` 这段程序首先导入必要的模块——`pytesseract` 用来作为接口访问 Tesseract OCR 引擎，以及 `PIL.Image` 处理图像数据。接着指定待分析的图片位置，并读取该图片对象。最后一步指定了目标语言为中国大陆使用的简化字 (`chi_sim`) 并启动字符识别流程，最终打印出清理过空格的结果字符串[^3]。

阅读全文