K-means聚类算法实 1.生成两组线性均匀分布的数据(完全线性可分)。生成两组线性均匀分布的数据(线性不可分)。生成两组高斯分布的数据(完全线性可分)。生成两组高斯分布的数据(线性不可分)。 2.使用K-means聚类程序进行二分类。
时间: 2024-03-02 12:52:30 浏览: 73
好的,让我来为你提供更加详细的实现方法,以完成你的要求。
1. 生成数据
首先,我们可以使用numpy库生成随机数据,同时使用matplotlib库将数据可视化。对于线性可分的数据,我们可以使用numpy库的random函数生成两组均匀分布的数据,然后使用matplotlib库将它们可视化。对于线性不可分的数据,我们可以使用numpy库的random函数生成两组均匀分布的数据,并使用numpy库的logical_xor函数将它们组合起来,然后使用matplotlib库将它们可视化。对于高斯分布的数据,我们可以使用sklearn库的make_blobs函数生成两组高斯分布的数据,然后使用matplotlib库将它们可视化。
下面是生成数据的代码示例:
``` python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
# 生成两组均匀分布的数据(完全线性可分)
X1 = np.random.rand(100, 2) * 10
X2 = np.random.rand(100, 2) * 10 + 20
plt.scatter(X1[:, 0], X1[:, 1], c='r')
plt.scatter(X2[:, 0], X2[:, 1], c='b')
plt.show()
# 生成两组均匀分布的数据(线性不可分)
X1 = np.random.rand(100, 2) * 10
X2 = np.random.rand(100, 2) * 10
X2[:, 0] += 10
X3 = np.logical_xor(X1[:, 0] > 5, X2[:, 0] > 15)
plt.scatter(X1[X3, 0], X1[X3, 1], c='r')
plt.scatter(X2[~X3, 0], X2[~X3, 1], c='b')
plt.show()
# 生成两组高斯分布的数据(完全线性可分)
X1, _ = make_blobs(n_samples=100, centers=2, random_state=0)
plt.scatter(X1[:, 0], X1[:, 1], c='r')
plt.show()
# 生成两组高斯分布的数据(线性不可分)
X1, _ = make_blobs(n_samples=100, centers=2, cluster_std=2.0, random_state=0)
X2 = np.random.rand(100, 2) * 10
X2[:, 0] += 20
plt.scatter(X1[:, 0], X1[:, 1], c='r')
plt.scatter(X2[:, 0], X2[:, 1], c='b')
plt.show()
```
2. 使用K-means聚类算法进行二分类
接下来,我们可以使用sklearn库的KMeans函数实现K-means聚类算法进行二分类。对于线性可分的数据和高斯分布的数据,我们可以将聚类数量设置为2,然后使用fit_predict函数将数据点分为两个类别。对于线性不可分的数据,我们可以将聚类数量设置为3,然后使用fit_predict函数将数据点分为三个类别,然后将3个类别中距离两组数据最近的类别作为我们要的两个类别。
下面是使用K-means聚类算法进行二分类的代码示例:
``` python
from sklearn.cluster import KMeans
# 线性可分的数据
X1 = np.random.rand(100, 2) * 10
X2 = np.random.rand(100, 2) * 10 + 20
X = np.concatenate([X1, X2], axis=0)
y_pred = KMeans(n_clusters=2).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
# 线性不可分的数据
X1 = np.random.rand(100, 2) * 10
X2 = np.random.rand(100, 2) * 10
X2[:, 0] += 10
X = np.concatenate([X1, X2], axis=0)
y_pred = KMeans(n_clusters=3).fit_predict(X)
labels = []
for i in range(2):
idx = np.argmin([np.sum((y_pred == j) & (X[:, 0] < 10 + i * 10)) for j in range(3)])
labels.append(idx)
y_pred = np.array([labels[i] for i in y_pred])
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
# 高斯分布的数据
X1, _ = make_blobs(n_samples=100, centers=2, random_state=0)
X = X1
y_pred = KMeans(n_clusters=2).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
# 高斯分布的数据(线性不可分)
X1, _ = make_blobs(n_samples=100, centers=2, cluster_std=2.0, random_state=0)
X2 = np.random.rand(100, 2) * 10
X2[:, 0] += 20
X = np.concatenate([X1, X2], axis=0)
y_pred = KMeans(n_clusters=3).fit_predict(X)
labels = []
for i in range(2):
idx = np.argmin([np.sum((y_pred == j) & (X[:, 0] < 10 + i * 10)) for j in range(3)])
labels.append(idx)
y_pred = np.array([labels[i] for i in y_pred])
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()
```
这样,我们就完成了K-means聚类算法进行二分类的实现。希望能够对你有所帮助。
阅读全文