python 读取 pdf 文件中的文字
时间: 2023-09-24 22:12:31 浏览: 83
你可以使用Python中的一些库来读取PDF文件中的文字。其中一个常用的库是`PyPDF2`。
首先,你需要使用`PyPDF2`库来打开PDF文件,然后使用`PdfFileReader`类来读取文件内容。接下来,你可以通过`getNumPages()`方法获取PDF文件中的总页数,并使用`getPage()`方法获取每一页的内容。
下面是一个简单的示例代码:
```python
import PyPDF2
def read_pdf(filename):
with open(filename, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
num_pages = pdf.getNumPages()
text = ""
for page_num in range(num_pages):
page = pdf.getPage(page_num)
text += page.extractText()
return text
filename = "example.pdf"
text = read_pdf(filename)
print(text)
```
请确保你已经安装了`PyPDF2`库,你可以使用以下命令安装:
```
pip install PyPDF2
```
这个例子会将PDF文件中的所有文本提取出来,并打印出来。请注意,有些PDF文件可能包含图像或者其他非文本内容,这些内容无法通过这种方法提取。
阅读全文