k-means聚类算法 可用数据集
时间: 2024-12-26 10:23:49 浏览: 9
### 推荐适合 K-means 聚类算法的数据集
#### Iris 数据集
Iris 数据集是一个经典的小型数据集,常用于机器学习中的分类和聚类任务。该数据集中有三个不同种类的鸢尾花(Setosa, Versicolour 和 Virginica),每种各有 50 个样本,总共 150 条记录。每个样本具有四个特征:萼片长度、萼片宽度、花瓣长度以及花瓣宽度。
由于这些类别之间的边界较为清晰,并且簇的数量已知为3,因此非常适合用来测试 K-means 的性能[^1]。
```python
from sklearn.datasets import load_iris
import pandas as pd
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
print(df.head())
```
#### MNIST 手写数字数据库
MNIST 是一个大型的手写数字图像集合,包含了7万张28×28像素灰度图片,分别对应着阿拉伯数字'0'-‘9’这十个标签。尽管原始问题是多分类问题,但如果只关注某些特定子集内的相似性,则可以通过降维技术将其转换成合适的输入给 K-means 使用。
```python
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt
(x_train, y_train), (x_test, y_test) = mnist.load_data()
plt.figure(figsize=(10,1))
for i in range(10):
plt.subplot(1,10,i+1)
plt.imshow(x_train[i], cmap='gray')
plt.axis('off')
plt.show()
```
#### Wine Quality Data Set
Wine quality dataset 包含了葡萄牙 Vinho Verde 酒厂生产的红葡萄酒的质量评分及其化学成分信息。此数据集可用于探索不同类型红酒间的差异模式,通过调整参数 k 可以研究不同数量级别的质量等级分布情况。
```python
url="https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
wine_df=pd.read_csv(url,sep=';')
print(wine_df.describe())
```
阅读全文