首页python西瓜4.0数据集kmeans算法分三类可视化导入数据集csv

python西瓜4.0数据集kmeans算法分三类可视化导入数据集csv

时间: 2023-07-09 09:36:29 浏览: 59

好的，下面是一个简单的Python代码，可以从CSV文件导入数据集，并使用K-Means算法将其分为三类，并进行可视化： ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans # 从CSV文件导入数据集 data = pd.read_csv('watermelon.csv') X = data.iloc[:, [0, 1]].values # 使用K-Means算法进行聚类 kmeans = KMeans(n_clusters=3) kmeans.fit(X) y_kmeans = kmeans.predict(X) # 绘制可视化图形 plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis') centers = kmeans.cluster_centers_ plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5); plt.show() ``` 该代码首先使用`pd.read_csv`函数从CSV文件中导入数据集，并将其存储在`data`中。然后，使用`iloc`函数选取前两列作为样本数据，并将其存储在`X`中。接下来，使用`KMeans`函数进行聚类，并将结果存储在`y_kmeans`中。最后，使用`plt.scatter`函数绘制数据集及其聚类结果的可视化图形。运行代码前，请确保将`watermelon.csv`文件与代码放在同一目录下。而`watermelon.csv`文件应该包含两列特征和标签列。运行代码后，应该能够看到一个分为三类的西瓜4.0数据集的可视化图形。