python 读取保存 pdf
时间: 2023-12-13 17:00:33 浏览: 94
要使用Python读取和保存PDF文件,可以使用第三方库PyPDF2。以下是一个简单的示例代码:
首先,需要安装PyPDF2库。可以使用pip命令进行安装,如下所示:
`pip install PyPDF2`
接下来,以下是一个示例代码,可以读取PDF文件中的文本并保存为一个新的文本文件:
```python
import PyPDF2
def read_pdf(file_path):
with open(file_path, 'rb') as file:
reader = PyPDF2.PdfFileReader(file)
num_pages = reader.numPages
text = ""
for page_num in range(num_pages):
page = reader.getPage(page_num)
text += page.extractText()
return text
def save_text_as_file(text, output_path):
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
# 替换为你的PDF文件路径
pdf_file_path = "example.pdf"
# 读取PDF文件中的文本
pdf_text = read_pdf(pdf_file_path)
# 将读取到的文本保存为一个新的文本文件
output_file_path = "output.txt"
save_text_as_file(pdf_text, output_file_path)
```
在以上代码中,我们首先定义了一个`read_pdf`函数,它接收一个PDF文件路径作为参数,并使用PyPDF2库的`PdfFileReader`类来读取该PDF的内容。然后,我们使用`getPage`方法读取每一页的内容,并将其提取为文本。
接下来,我们定义了一个`save_text_as_file`函数,用于将读取到的文本保存为一个新的文本文件。我们使用内置的`open`函数打开一个文件,并使用`write`方法将文本写入文件。
最后,我们替换`pdf_file_path`变量为你要读取的PDF文件的路径,并将`output_file_path`变量替换为你要保存结果的文本文件的路径。运行代码后,会生成一个包含PDF文件中文本内容的文本文件。
阅读全文