py写提取文件信息的程序
时间: 2024-10-28 09:11:03 浏览: 6
PDF转Word的py程序源码.rar
Python 提取文件信息的程序通常涉及到使用内置模块如`os`, `shutil`, `pathlib`或者第三方库如`filetype`, `pytesseract`等。这里是一个简单的例子,展示如何读取文件的基本元数据,如文件名、大小、修改时间等:
```python
import os
def get_file_info(file_path):
try:
# 检查路径是否有效
if not os.path.isfile(file_path):
print(f"文件 '{file_path}' 不存在")
return
# 获取文件基本信息
file_name = os.path.basename(file_path)
file_size = os.path.getsize(file_path)
modified_time = os.path.getmtime(file_path)
# 输出信息
print(f"文件名: {file_name}")
print(f"大小: {round(file_size / (1024 * 1024), 2)} MB")
print(f"最后修改时间: {os.pathctime(file_path)[:8]}")
except Exception as e:
print(f"错误: {e}")
# 使用函数
get_file_info("/path/to/your/file.txt")
```
如果你需要提取特定类型的文件信息,比如PDF的元数据或者图片的文字内容,可以使用相应的库。例如,`pytesseract`用于光学字符识别(OCR)从图像中提取文本:
```python
from PIL import Image
import pytesseract
def extract_pdf_info(pdf_path):
with open(pdf_path, 'rb') as f:
pdf_data = f.read()
# 对PDF进行分析,这里只是一个示例,实际处理可能更复杂
# 如果需要提取文字,可以用pdfplumber或其他库
# OCR只适用于图像PDF
text = pytesseract.image_to_string(Image.open(BytesIO(pdf_data)), lang='chi_sim')
print(f"PDF文字内容:\n{text}")
extract_pdf_info("/path/to/your/document.pdf")
```
阅读全文