读取同一个文件夹中的多个格式相同的数据集并合并,以序号区分
时间: 2024-05-06 18:17:58 浏览: 73
读取文件夹内多个文件
可以使用Python中的pandas库来读取数据集并合并。假设数据集的文件名格式为"data_1.csv"、"data_2.csv"、"data_3.csv",并且它们都在同一个文件夹中。可以使用以下代码来读取并合并这些数据集:
``` python
import pandas as pd
import os
# 设置文件夹路径和文件名前缀
folder_path = 'path/to/folder'
file_prefix = 'data_'
# 读取所有数据集并将其合并
dfs = []
for file in os.listdir(folder_path):
if file.startswith(file_prefix) and file.endswith('.csv'):
df = pd.read_csv(os.path.join(folder_path, file))
# 在数据集中添加序号列
df['序号'] = int(file.replace(file_prefix, '').replace('.csv', ''))
dfs.append(df)
# 将所有数据集合并为一个数据框
merged_df = pd.concat(dfs, axis=0, ignore_index=True)
```
在这个例子中,首先设置了文件夹路径和文件名前缀。然后,使用os库中的listdir函数遍历文件夹中的所有文件,并选择以指定前缀和.csv结尾的文件。接下来,使用pandas库中的read_csv函数读取每个文件,并在数据集中添加一个序号列,该列包含了每个数据集的序号。最后,使用pandas库中的concat函数将所有数据集合并为一个数据框,并将ignore_index参数设置为True,以重新索引合并后的数据框。
阅读全文