基于PyPDF2 版本 3.0.0，用python3.11写一个脚本，在windows系统中根据关键字实现遍历某文件夹下所有pdf文档，找到pdf文档中包含关键字的文件名称、页码,写入word文档。代码中不要使用 PdfFileReader

好的，以下是基于 PyPDF2 版本 3.0.0 的代码实现： ```python import os import re import docx # 定义要搜索的文件夹路径和关键字 folder_path = r"C:\Users\user\Desktop\pdf_files" keyword = "Python" # 定义要保存的Word文档名称 doc_name = "search_result.docx" # 创建Word文档对象 doc = docx.Document() # 遍历文件夹下所有PDF文档 for file_name in os.listdir(folder_path): if file_name.endswith(".pdf"): file_path = os.path.join(folder_path, file_name) with open(file_path, 'rb') as f: # 读取PDF文件内容 pdf_contents = f.read().decode('utf-8', 'ignore') # 查找关键字出现的页码 pattern = re.compile(r'\b{}\b'.format(keyword), re.IGNORECASE) page_numbers = [str(page.start()+1) for page in re.finditer(pattern, pdf_contents)] if page_numbers: # 将结果写入Word文档 doc.add_paragraph(file_name) doc.add_paragraph("关键字出现页码：" + ", ".join(page_numbers)) doc.add_page_break() # 保存Word文档 doc.save(doc_name) print("搜索完成！") ``` 解释一下代码： 1. 首先定义了要搜索的文件夹路径和关键字。 2. 接着定义了要保存的Word文档名称，并创建了Word文档对象。 3. 然后使用 `os.listdir` 方法遍历文件夹下所有PDF文档。 4. 对于每个PDF文档，打开并读取其内容。这里使用了 `rb` 模式打开文件，并使用 `decode` 方法将其内容解码为字符串。 5. 使用正则表达式查找关键字出现的页码。这里使用了 `\b` 匹配单词边界，`re.IGNORECASE` 不区分大小写。 6. 如果找到了关键字，就将结果写入Word文档中。使用 `doc.add_paragraph` 方法添加段落，`doc.add_page_break` 方法添加分页符。 7. 最后保存Word文档，并输出一条搜索完成的提示信息。需要注意的是，这里的代码没有使用 PdfFileReader，而是直接读取了PDF文件的内容。这种方法虽然简单，但可能无法处理一些特殊的PDF文件。如果遇到这种情况，可以考虑使用 PdfFileReader 来读取PDF文件，并按页读取内容。

阅读全文

基于PyPDF2 版本 3.0.0，用python3.11写一个脚本，在windows系统中根据关键字实现遍历某文件夹下所有pdf文档，找到pdf文档中包含关键字的文件名称、页码,写入word文档。代码中不要使用 PdfFileReader

相关推荐

一个基于Python的简单的用于抓取以及下载页面中pdf文件的爬虫脚本+源代码+文档说明

pdf转word，用python写的，带界面，直接点开用。

基于python实现word文档文本读取与文档转换pdf源码

基于PyPDF2 版本 3.0.0，用python3.11写一个脚本，在windows系统中根据关键字实现遍历某文件夹下所有pdf文档，找到pdf文档中包含关键字的文件名称、页码,写入word文档

PyPDF2 版本为 3.0.0 及以上，用python3.11写一个脚本，在windows系统中根据关键字实现遍历某文件夹下所有pdf文档，找到pdf文档中包含关键字的文件名称、页码,写入word文档

基于PyPDF2 版本 3.0.0，用python3.11写一个脚本，在windows10系统中根据关键词自动爬取相关新闻

PyPDF2-3.0.0.tar.gz

pypdf2-3.0.0-py3-none-any.whl

pypdf2 3.0.0 pdf 添加文本

python出现以下报错：PyPDF2.errors.DeprecationError: PdfFileReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.

python 报错 pdffilereader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.怎么解决

PyPDF2.errors.DeprecationError: PdfFileReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.

PyPDF2.errors.DeprecationError: PdfFileWriter is deprecated and was removed in PyPDF2 3.0.0. Use PdfWriter instead.

PdfReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.报错怎么解决

PdfFileReader is deprecated and was removed in PyPDF2 3.0.0. Use PdfReader instead.

基于python实现word文档文本读取与文档转换pdf源码分享

开发形状模型的框架Matlab代码.rar

高级开发简单游戏制作，期末项目答辩小组作业

042Interpolation（目标规划、多元分析与插值的相关例子）Matlab代码.rar

大家在看

surfer教程

Mellanox IB交换机用户手册

IEEE802.3bw-100BASE-T1-2015（roadR-Reach（BRR）或OABR（Open Alliance BroadR-Reach）技术）

Cadence Allegro16.6高级进阶教程

如何使用matlab中的ode45函数进行仿真，详细讲解

最新推荐

window10搭建pyspark（基于spark-3.0.0-bin-hadoop2）.docx

基于python locust库实现性能测试

开发形状模型的框架Matlab代码.rar

高级开发简单游戏制作，期末项目答辩小组作业

042Interpolation（目标规划、多元分析与插值的相关例子）Matlab代码.rar

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧