python提取图片中的文字
时间: 2023-06-12 12:05:40 浏览: 168
要从图片中提取文字,您可以使用Python的OCR库。OCR(Optical Character Recognition)是一种将图像中的文本转换为可编辑文本的技术。以下是使用Python的Tesseract OCR库来提取图像中的文本的步骤:
1. 安装Tesseract OCR和Python绑定:
```
sudo apt-get install tesseract-ocr
pip install pytesseract
```
2. 导入必要的库:
```
from PIL import Image
import pytesseract
```
3. 打开图像文件并将其转换为灰度图像:
```
image = Image.open('image.jpg')
image = image.convert('L')
```
4. 使用Tesseract OCR提取文本:
```
text = pytesseract.image_to_string(image, lang='eng')
```
这将使用默认的英语语言模型来提取图像中的文本。您可以根据需要更改语言。
5. 打印提取的文本:
```
print(text)
```
完整代码如下:
```
from PIL import Image
import pytesseract
image = Image.open('image.jpg')
image = image.convert('L')
text = pytesseract.image_to_string(image, lang='eng')
print(text)
```
请注意,OCR并不总是100%准确。提取的文本可能包含一些错误或不完整的信息。
阅读全文