import PyPDF2 # 打开PDF文件 pdf_file = open('D:\test_report.pdf', 'rb') pdf_reader = PyPDF2.PdfReader(pdf_file) num_pages = pdf_reader.numPages for page in range(num_pages): # 获取当前页面 current_page = pdf_reader.getPage(page) # 提取文字 text = current_page.extract_text() # 打印文字 print(text) pdf_file.close() 代码哪里有问题

时间: 2024-04-13 20:30:54 浏览: 137

Python利用PyPDF2库获取PDF文件总页码实例

### Python 利用 PyPDF2 库获取 PDF 文件总页码实例详解 #### 一、简介在实际工作中，我们经常需要处理 PDF 文件，比如获取 PDF 的基本信息（如总页数）。本文将详细介绍如何使用 Python 的 `PyPDF2` 库来实现这一目标。 #### 二、安装 PyPDF2 在开始之前，确保已经安装了 `PyPDF2` 库。如果尚未安装，可以通过 pip 安装： ```bash pip install PyPDF2 ``` #### 三、编写代码接下来是具体的实现代码。这里提供了一个名为 `file_utils.py` 的示例文件，用于展示如何使用 `PyPDF2` 获取 PDF 文件的总页数。 ```python from PyPDF2 import PdfFileReader def get_num_pages(file_path): """ 获取文件总页码 :param file_path: 文件路径 :return: 总页数 """ reader = PdfFileReader(file_path) # 如果 PDF 文件被加密，则需要先解密 if reader.isEncrypted: reader.decrypt('') page_num = reader.getNumPages() return page_num ``` 这段代码定义了一个函数 `get_num_pages`，它接收一个参数 `file_path`，即 PDF 文件的路径，并返回该文件的总页数。 #### 四、使用方法调用 `get_num_pages` 函数时，只需要传入 PDF 文件的路径即可。例如： ```python file_path = 'example.pdf' total_pages = get_num_pages(file_path) print(f"Total pages: {total_pages}") ``` #### 五、补充知识：使用 Python 合并 PDF 文件并添加书签 ##### 5.1 需求分析假设您有一系列 PDF 文件，这些文件是根据章节组织的，每个章节都有一个对应的文件夹，文件夹名称即为章节名称。您希望将这些 PDF 文件合并成一个，并为每个章节添加书签。 ##### 5.2 准备工作确保您的环境中已安装 `PyPDF2`。如果没有，请安装： ```bash pip install PyPDF2 ``` 同时，将扫描的 PDF 文件按照章节组织好，每个章节放在一个以章节名称命名的文件夹中。 ##### 5.3 程序代码下面是一段示例代码，用于合并 PDF 文件并添加书签： ```python import os import sys from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger import glob def get_file_names(filepath): """ 获取指定路径下的所有 PDF 文件 """ file_list = glob.glob(os.path.join(filepath, "*.pdf")) return file_list def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]): """ 获取指定路径下的所有子目录 """ for dir in os.listdir(filepath): dirpathlist_out.append(os.path.join(filepath, dir)) return dirpathlist_out def merge_child_dir_files(path): """ 合并每个子目录下的 PDF 文件 """ dirpathlist = get_dirs(path) if len(dirpathlist) == 0: print("当前目录不存在子目录") sys.exit() for dir in dirpathlist: merge_files(dir, dir) def merge_files(path, output_filename, import_bookmarks=False): """ 合并指定路径下的所有 PDF 文件，并生成一个带有书签的 PDF 文件 """ merger = PdfFileMerger() file_list = get_file_names(path) if len(file_list) == 0: print("当前目录及子目录下不存在 PDF 文件") sys.exit() for filename in file_list: with open(filename, "rb") as f: pdf = PdfFileReader(f) merger.append(pdf, bookmark=os.path.basename(path)) with open(output_filename, "wb") as f: merger.write(f) ``` #### 六、总结本文详细介绍了如何使用 Python 和 `PyPDF2` 库来获取 PDF 文件的总页数，以及如何合并多个 PDF 文件并添加书签。这两种方法对于日常的文档管理和处理非常有用，希望对大家的工作有所帮助。

你的代码基本上是正确的，但是在文件路径中有一个小问题。在字符串中，反斜杠（`\`）在Python中是一个转义字符。因此，在Windows路径中，你需要使用双反斜杠（`\\`）或原始字符串（在字符串前加上`r`）来避免转义。请修改以下代码行： ```python pdf_file = open('D:\\test_report.pdf', 'rb') ``` 或者使用原始字符串： ```python pdf_file = open(r'D:\test_report.pdf', 'rb') ``` 这样就可以正确打开PDF文件了。如果你的PDF文件路径仍然存在问题，请确保文件路径是正确的，并且确保文件存在。

阅读全文

相关推荐

python3用PyPDF2解析pdf文件,用正则匹配数据方式

Python实现PyPDF2处理PDF文件的方法示例

Traceback (most recent call last): File "D:\soft\demo\5yue\PDF编辑\pdf加水印.py", line 31, in <module> watermark = PyPDF2.pdf.TextStringObject(watermark_text) AttributeError: module 'PyPDF2' has no attribute 'pdf'

df = pd.read_excel('path_to_pdf_file.pdf', sheet_name='sheet_name')

Traceback (most recent call last): File "D:\Python\程序练习\修改后的程序\关键字.py", line 18, in <module> stream = PyPDF2.pdf.ContentStream(content, pdf_doc) AttributeError: module 'PyPDF2' has no attribute 'pdf'

Traceback (most recent call last): File "D:\Python\程序练习\修改后的程序\关键字.py", line 18, in <module> stream = PyPDF2.pdfinterp.ContentStream(content, pdf_doc) AttributeError: module 'PyPDF2' has no attribute 'pdfinterp'

PyPDF2 pdf_file.addPage(pdf_file.getPage(i)) AttributeError: '_io.BufferedReader' object has no ...

PdfReader(pdf_file) 在PyPDF2中,如何添加一个空白页

最新推荐

Python实现PyPDF2处理PDF文件的方法示例

Python中if __name__ == '__main__'作用解析

Python实现抓取HTML网页并以PDF文件形式保存的方法

解决keras,val_categorical_accuracy:,0.0000e+00问题

jsp物流信息网建设(源代码+论文)(2024vl).7z

JavaScript实现的高效pomodoro时钟教程

管理建模和仿真的文件

【WebLogic客户端兼容性提升秘籍】：一站式解决方案与实战案例

使用jupyter读取文件“近5年考试人数.csv”，绘制近5年高考及考研人数发展趋势图，数据如下（单位：万人）。

CMake 3.25.3版本发布：程序员必备构建工具

Python中if name == 'main'作用解析