PyPDF2.errors.DeprecationError: PdfFileReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.
时间: 2024-01-06 18:08:28 浏览: 199
基于python 3.7和pypdf2开发的pdf文件合并工具代码
是的,由于 PyPDF2 库的更新,PdfFileReader 已经被 PdfReader 取代。下面是一个示例代码,可以实现将 PDF 文件中的所有汉字去除:
```python
import PyPDF2
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
pdf_writer = PyPDF2.PdfWriter()
for page_num in range(pdf_reader.numPages):
page = pdf_reader.pages[page_num]
content = page.extract_text()
content_without_chinese = ''.join(c for c in content if not ('\u4e00' <= c <= '\u9fff'))
new_page = PyPDF2.pdf.Page.create()
new_page.add_text(content_without_chinese)
pdf_writer.add_page(new_page)
pdf_output_file = open('example_output.pdf', 'wb')
pdf_writer.write(pdf_output_file)
pdf_file.close()
pdf_output_file.close()
```
在这个示例中,我们使用了 PdfReader 和 PdfWriter 对象来读取和写入 PDF 文件。遍历 PDF 文件中的每一页后,我们提取每一页的文本内容并去除其中的汉字。然后,我们创建一个新的 PDF 页面,并将去除了汉字的文本内容添加到该页面中。最后,我们将新建的页面添加到一个 PdfWriter 对象中,并将 PdfWriter 对象中的所有页面写入到一个新的 PDF 文件中。
阅读全文