批量读取一个文件夹下的csv文件提取列合成一个新的数据结构
时间: 2024-03-20 21:40:34 浏览: 65
好的,你可以使用Python中的pandas库来批量读取csv文件并提取列。
首先,你需要安装pandas库。在命令行中输入以下命令即可:
```
pip install pandas
```
接下来,你可以使用以下代码来批量读取一个文件夹下的csv文件并提取列:
```python
import os
import pandas as pd
# 定义CSV文件夹路径
csv_folder = "/path/to/csv/folder"
# 获取CSV文件夹下的所有文件
csv_files = [os.path.join(csv_folder, f) for f in os.listdir(csv_folder) if f.endswith('.csv')]
# 定义要提取的列
cols_to_extract = ['col1', 'col2', 'col3']
# 合并所有CSV文件,并提取指定列
df = pd.concat([pd.read_csv(f, usecols=cols_to_extract) for f in csv_files])
# 打印结果
print(df)
```
在上述代码中,你需要将`/path/to/csv/folder`替换为你实际的CSV文件夹路径。然后,你需要定义要提取的列,将其存储在`cols_to_extract`列表中。接着,代码将使用`pd.concat`函数将所有CSV文件合并,并使用`usecols`参数提取指定列。最后,将结果存储在`df`变量中,并打印出来。
阅读全文