python西瓜4.0数据集kmeans算法分三类可视化导入数据集csv
时间: 2023-07-09 09:36:29 浏览: 59
好的,下面是一个简单的Python代码,可以从CSV文件导入数据集,并使用K-Means算法将其分为三类,并进行可视化:
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
# 从CSV文件导入数据集
data = pd.read_csv('watermelon.csv')
X = data.iloc[:, [0, 1]].values
# 使用K-Means算法进行聚类
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
# 绘制可视化图形
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5);
plt.show()
```
该代码首先使用`pd.read_csv`函数从CSV文件中导入数据集,并将其存储在`data`中。然后,使用`iloc`函数选取前两列作为样本数据,并将其存储在`X`中。接下来,使用`KMeans`函数进行聚类,并将结果存储在`y_kmeans`中。最后,使用`plt.scatter`函数绘制数据集及其聚类结果的可视化图形。
运行代码前,请确保将`watermelon.csv`文件与代码放在同一目录下。而`watermelon.csv`文件应该包含两列特征和标签列。
运行代码后,应该能够看到一个分为三类的西瓜4.0数据集的可视化图形。