我想用python的PyMuPDF库对"D:\点宽学院"下所有的PDF文件内容用中文句号进行文本分割,想打印出分割的内容
时间: 2024-05-15 11:12:06 浏览: 242
可以按照以下步骤进行操作:
1. 安装 PyMuPDF 库:在命令行中输入 `pip install PyMuPDF`,等待安装完成。
2. 编写代码:
```python
import fitz
import os
dir_path = r"D:\点宽学院"
# 遍历文件夹下所有PDF文件
for root, dirs, files in os.walk(dir_path):
for file in files:
if file.endswith(".pdf"):
pdf_path = os.path.join(root, file)
# 打开PDF文件
doc = fitz.open(pdf_path)
for page in doc:
# 获取每一页的文本内容
text = page.getText()
# 用中文句号进行文本分割
text_list = text.split("。")
# 打印分割后的内容
for t in text_list:
print(t)
# 关闭PDF文件
doc.close()
```
3. 运行代码:在命令行中进入代码所在的目录,输入 `python 文件名.py`,等待程序运行完成。
运行完成后,会将每个 PDF 文件的每一页内容用中文句号进行分割,并打印出分割后的内容。如果需要将结果保存到文件中,可以使用文件操作相关的函数,将打印出的内容写入到文件中。
阅读全文