python3 遍历文件夹下所有pdf,检测是否损坏
时间: 2024-10-28 22:11:25 浏览: 26
python遍历文件夹下所有excel文件
5星 · 资源好评率100%
在Python 3中,你可以使用`os`和`pyPDF2`库来遍历文件夹下的所有PDF文件,并检查它们是否损坏。首先,你需要安装`pyPDF2`库,可以使用pip进行安装:
```bash
pip install PyPDF2
```
然后,你可以编写如下的脚本来完成这个任务:
```python
import os
import glob
from PyPDF2 import PdfFileReader
def is_pdf_file(filename):
return filename.endswith('.pdf')
def check_pdf_integrity(file_path):
try:
with open(file_path, 'rb') as file:
reader = PdfFileReader(file)
# PDF有至少一个页面说明文件非空且基本完整
if reader.getNumPages() > 0:
return True
else:
print(f"{file_path} seems to be empty or damaged.")
return False
except Exception as e:
print(f"Error occurred while checking {file_path}: {e}")
return False
# 指定要遍历的文件夹路径
folder_path = '/path/to/your/folder'
for root, _, files in os.walk(folder_path):
for file in files:
if is_pdf_file(file):
file_path = os.path.join(root, file)
check_pdf_integrity(file_path)
阅读全文