利用python根据Excel表格中的公司名称和年份筛选出文件中所有满足条件的PDF文件
时间: 2024-02-15 16:02:15 浏览: 53
可以使用Python中的pandas和os模块来实现这个功能。
首先,读取Excel表格中的公司名称和年份,可以使用pandas中的read_excel函数来读取Excel文件,并使用DataFrame对象保存数据。例如:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('companies.xlsx')
# 获取公司名称和年份
companies = df['公司名称'].tolist()
years = df['年份'].tolist()
```
接着,使用os模块遍历PDF所在的文件夹,并筛选出符合条件的PDF文件。可以使用glob模块来获取文件夹中的所有PDF文件,然后使用os.path模块来获取文件名中的公司名称和年份信息,最后判断是否符合条件。例如:
```python
import os
import glob
# PDF所在的文件夹
pdf_folder = './pdf_files/'
# 遍历文件夹中的所有PDF文件
for pdf_file in glob.glob(os.path.join(pdf_folder, '*.pdf')):
# 获取文件名
filename = os.path.basename(pdf_file)
# 获取公司名称和年份
pdf_company = filename.split('_')[0]
pdf_year = int(filename.split('_')[1].split('.')[0])
# 判断是否符合条件
if pdf_company in companies and pdf_year in years:
# 处理符合条件的PDF文件
print(pdf_file)
```
这里假设PDF文件名的格式为“公司名称_年份.pdf”,可以根据实际情况进行修改。筛选出符合条件的PDF文件后,可以进行进一步的处理,例如复制到指定的文件夹中或者进行PDF内容的提取等操作。
阅读全文