适合用来做聚类分析的uci数据集有哪些
时间: 2023-09-06 15:09:42 浏览: 593
有很多适合用来做聚类分析的UCI数据集,以下是一些常用的数据集:
1. Iris 数据集: 包含了三个不同种类的鸢尾花的花萼和花瓣的大小数据。
2. Wine 数据集: 包含了不同品种的葡萄酒的化学分析数据。
3. Breast Cancer 数据集: 包含了乳腺肿瘤患者的一些特征数据。
4. Seeds 数据集: 包含了三种不同种类的小麦种子的不同形态特征。
5. Heart Disease 数据集: 包含了心脏病患者的一些生理指标和症状数据。
这些数据集都是经过处理和标准化的,适合用于聚类分析的实验。当然,在实际应用中,你也可以根据自己的需要选择其他的数据集。
相关问题
k-means聚类算法 可用数据集
### 推荐适合 K-means 聚类算法的数据集
#### Iris 数据集
Iris 数据集是一个经典的小型数据集,常用于机器学习中的分类和聚类任务。该数据集中有三个不同种类的鸢尾花(Setosa, Versicolour 和 Virginica),每种各有 50 个样本,总共 150 条记录。每个样本具有四个特征:萼片长度、萼片宽度、花瓣长度以及花瓣宽度。
由于这些类别之间的边界较为清晰,并且簇的数量已知为3,因此非常适合用来测试 K-means 的性能[^1]。
```python
from sklearn.datasets import load_iris
import pandas as pd
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
print(df.head())
```
#### MNIST 手写数字数据库
MNIST 是一个大型的手写数字图像集合,包含了7万张28×28像素灰度图片,分别对应着阿拉伯数字'0'-‘9’这十个标签。尽管原始问题是多分类问题,但如果只关注某些特定子集内的相似性,则可以通过降维技术将其转换成合适的输入给 K-means 使用。
```python
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt
(x_train, y_train), (x_test, y_test) = mnist.load_data()
plt.figure(figsize=(10,1))
for i in range(10):
plt.subplot(1,10,i+1)
plt.imshow(x_train[i], cmap='gray')
plt.axis('off')
plt.show()
```
#### Wine Quality Data Set
Wine quality dataset 包含了葡萄牙 Vinho Verde 酒厂生产的红葡萄酒的质量评分及其化学成分信息。此数据集可用于探索不同类型红酒间的差异模式,通过调整参数 k 可以研究不同数量级别的质量等级分布情况。
```python
url="https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
wine_df=pd.read_csv(url,sep=';')
print(wine_df.describe())
```
阅读全文