首页python如何用pandas读取一个文件夹里面的所有csv文件的第2列，保存为只有一列数据的数组，然后作为K邻近算法的特征变量

python如何用pandas读取一个文件夹里面的所有csv文件的第2列，保存为只有一列数据的数组，然后作为K邻近算法的特征变量

时间: 2024-03-23 11:44:00 浏览: 75

可以按照以下步骤来实现： 1. 首先，使用Python的os模块，获取指定文件夹下所有csv文件的文件名列表。 ``` import os path = '/path/to/folder' # 指定文件夹路径 csv_files = [f for f in os.listdir(path) if f.endswith('.csv')] # 获取所有csv文件名 ``` 2. 接下来，使用pandas的read_csv函数读取每个csv文件，并将第2列数据保存到一个数组中。 ``` import pandas as pd data = [] # 用于保存所有第2列数据的数组 for file in csv_files: df = pd.read_csv(os.path.join(path, file)) # 读取csv文件 data.append(df.iloc[:, 1]) # 保存第2列数据到数组中 ``` 3. 然后，将data数组合并成一个只有一列数据的DataFrame，并将其作为K邻近算法的特征变量。 ``` result = pd.concat(data, axis=1) # 合并成一个DataFrame result.columns = [f"feature_{i}" for i in range(1, len(csv_files) + 1)] # 给每一列设置特征名称 ``` 4. 最后，使用sklearn库中的KNeighborsClassifier类来实现K邻近算法，并使用result作为输入的特征变量。 ``` from sklearn.neighbors import KNeighborsClassifier X = result.values # 获取特征变量 y = [0, 1] * (len(csv_files) // 2) # 构造样本标签，假设有两类样本 knn = KNeighborsClassifier(n_neighbors=3) # 初始化K邻近分类器 knn.fit(X, y) # 训练K邻近分类器 ``` 这样，就完成了读取指定文件夹下所有csv文件的第2列数据，并将其作为K邻近算法的特征变量的操作。其中，样本标签的构造只是为了示例，实际应用中需要根据具体情况来定义。

阅读全文