Excel表格中第一列列名是‘证券简称’,第二列列名是‘年份’,如何利用python从文件夹中筛选出所有满足Excel表格中第一列和第二列内容的PDF文件
时间: 2024-02-22 13:58:37 浏览: 116
基于python,提取pdf中涉及到的相关表格
首先,需要使用Python中的pandas和os模块。下面是代码示例:
``` python
import pandas as pd
import os
# 读取Excel表格
df = pd.read_excel('your_excel_file.xlsx')
# 获取需要匹配的列名
col1 = df.columns[0]
col2 = df.columns[1]
# 获取文件夹中所有PDF文件
pdf_files = [f for f in os.listdir('your_folder_path') if f.endswith('.pdf')]
# 筛选符合条件的PDF文件
matched_files = []
for file in pdf_files:
name, year = file.split('_') # 假设PDF文件名为“证券简称_年份.pdf”
if name in df[col1].values and year[:-4] in df[col2].values:
matched_files.append(file)
# 打印符合条件的PDF文件名列表
print(matched_files)
```
在上述代码中,我们首先使用pandas模块读取Excel表格数据,并获取需要匹配的列名。然后使用os模块获取文件夹中所有PDF文件名,并在循环中判断每个文件名是否符合条件。最后将符合条件的文件名添加到一个列表中并打印出来。
阅读全文