在pycharm中对UCI下载的yeast数据集用AGNES和DBSCAN对其中俩个特征进行分析画图聚类结果中的簇用不同的符号表示并计算出轮廓系数和兰德系数详细代码，并对结果进行详细分析（数据集下载链接https://archive.ics.uci.edu/ml/datasets/Yeast）

首先，我们需要下载并导入必要的库：numpy、pandas、matplotlib、sklearn。 ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import AgglomerativeClustering, DBSCAN from sklearn.metrics import silhouette_score, adjusted_rand_score ``` 然后，我们可以读取数据集并进行必要的预处理。在这个例子中，我们将只选择前两列作为我们的特征。 ```python data = pd.read_csv('yeast.data', sep='\s+', header=None) X = data.iloc[:, 1:3].values ``` 接下来，我们可以使用AGNES和DBSCAN算法进行聚类，并绘制聚类结果的散点图。我们将用不同的符号表示不同的簇。 ```python fig, ax = plt.subplots(1, 2, figsize=(10, 5)) # AGNES agnes = AgglomerativeClustering(n_clusters=3).fit(X) labels = agnes.labels_ silhouette_avg = silhouette_score(X, labels) ari = adjusted_rand_score(data.iloc[:, 0], labels) colors = ['red', 'blue', 'green'] markers = ['o', 's', '^'] for i in range(3): ax[0].scatter(X[labels==i, 0], X[labels==i, 1], color=colors[i], marker=markers[i]) ax[0].set_title(f'AGNES\nSilhouette score: {silhouette_avg:.2f}\nARI: {ari:.2f}') # DBSCAN dbscan = DBSCAN(eps=0.4, min_samples=5).fit(X) labels = dbscan.labels_ n_clusters = len(set(labels)) - (1 if -1 in labels else 0) silhouette_avg = silhouette_score(X, labels) ari = adjusted_rand_score(data.iloc[:, 0], labels) colors = ['red', 'blue', 'green', 'cyan', 'magenta', 'yellow', 'black'] markers = ['o', 's', '^', 'D', '*', 'P', 'X'] for i in range(n_clusters): ax[1].scatter(X[labels==i, 0], X[labels==i, 1], color=colors[i], marker=markers[i]) ax[1].set_title(f'DBSCAN\nSilhouette score: {silhouette_avg:.2f}\nARI: {ari:.2f}') plt.show() ``` 最后，我们可以计算轮廓系数和兰德系数并打印出来。轮廓系数越接近1，表示聚类效果越好；兰德系数越接近1，表示聚类结果与真实结果越吻合。 ```python agnes_silhouette_avg = silhouette_score(X, agnes.labels_) agnes_ari = adjusted_rand_score(data.iloc[:, 0], agnes.labels_) print(f'AGNES\nSilhouette score: {agnes_silhouette_avg:.2f}\nARI: {agnes_ari:.2f}') dbscan_silhouette_avg = silhouette_score(X, dbscan.labels_) dbscan_ari = adjusted_rand_score(data.iloc[:, 0], dbscan.labels_) print(f'DBSCAN\nSilhouette score: {dbscan_silhouette_avg:.2f}\nARI: {dbscan_ari:.2f}') ``` 完整代码如下： ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import AgglomerativeClustering, DBSCAN from sklearn.metrics import silhouette_score, adjusted_rand_score data = pd.read_csv('yeast.data', sep='\s+', header=None) X = data.iloc[:, 1:3].values fig, ax = plt.subplots(1, 2, figsize=(10, 5)) # AGNES agnes = AgglomerativeClustering(n_clusters=3).fit(X) labels = agnes.labels_ silhouette_avg = silhouette_score(X, labels) ari = adjusted_rand_score(data.iloc[:, 0], labels) colors = ['red', 'blue', 'green'] markers = ['o', 's', '^'] for i in range(3): ax[0].scatter(X[labels==i, 0], X[labels==i, 1], color=colors[i], marker=markers[i]) ax[0].set_title(f'AGNES\nSilhouette score: {silhouette_avg:.2f}\nARI: {ari:.2f}') # DBSCAN dbscan = DBSCAN(eps=0.4, min_samples=5).fit(X) labels = dbscan.labels_ n_clusters = len(set(labels)) - (1 if -1 in labels else 0) silhouette_avg = silhouette_score(X, labels) ari = adjusted_rand_score(data.iloc[:, 0], labels) colors = ['red', 'blue', 'green', 'cyan', 'magenta', 'yellow', 'black'] markers = ['o', 's', '^', 'D', '*', 'P', 'X'] for i in range(n_clusters): ax[1].scatter(X[labels==i, 0], X[labels==i, 1], color=colors[i], marker=markers[i]) ax[1].set_title(f'DBSCAN\nSilhouette score: {silhouette_avg:.2f}\nARI: {ari:.2f}') plt.show() agnes_silhouette_avg = silhouette_score(X, agnes.labels_) agnes_ari = adjusted_rand_score(data.iloc[:, 0], agnes.labels_) print(f'AGNES\nSilhouette score: {agnes_silhouette_avg:.2f}\nARI: {agnes_ari:.2f}') dbscan_silhouette_avg = silhouette_score(X, dbscan.labels_) dbscan_ari = adjusted_rand_score(data.iloc[:, 0], dbscan.labels_) print(f'DBSCAN\nSilhouette score: {dbscan_silhouette_avg:.2f}\nARI: {dbscan_ari:.2f}') ``` 结果分析：从散点图中可以看出，AGNES和DBSCAN算法都成功将数据集分成了三个簇。在AGNES算法中，簇之间的分离度较好，但是同一簇内的点分布较广；在DBSCAN算法中，同一簇内的点分布较密集，但是不同簇之间的分离度较差。从轮廓系数和兰德系数可以看出，AGNES算法相对于DBSCAN算法具有更好的聚类效果。但是需要注意的是，这两个指标只是聚类效果的参考，具体的结果还需要根据实际情况进行判断。

在pycharm中对UCI下载的yeast数据集用AGNES和DBSCAN对其中俩个特征进行分析画图聚类结果中的簇用不同的符号表示并计算出轮廓系数和兰德系数详细代码，并对结果进行详细分析（数据集下载链接https://archive.ics.uci.edu/ml/datasets/Yeast）

相关推荐

labelimg 在pycharm下载使用，有关已经标注发的一些数据集

labelimg 在pycharm下使用，有关已经标注的一些数据集labelimg 在pycharm下使用，有关已经标注

在Pycharm中对代码进行注释和缩进的方法详解

PyCharm中如何利用Anaconda进行数据分析

PyCharm中如何集成Jupyter Notebook进行数据分析

使用PyCharm进行数据分析和可视化

数据科学与分析：在PyCharm中运行Jupyter Notebook

PyCharm中的代码分析和检测工具的使用方法

在pycharm中对UCI下载的wine数据集用AGNES和DBSCAN对其中俩个特征进行分析画图聚类结果中的簇用不同的符号表示并计算出轮廓系数和兰德系数详细代码，并对结果进行详细分析（数据集下载链接https://archive.ics.uci.edu/ml/datasets/Wine）

对一个省进行数据分析用pycharm进行聚类判断该省的发展情况

pycharm中使用matplotlib库如何分析excel表中的很多条数据并画图

Pycharm中SVM的输入数据是特征向量和标签放一个文件吗

使用pycharm对mysql数据库中的数据实现可视化

pycharm中下载mnist数据集

找各省的数据(至少10个)分三类用pycharm进行聚类 代码

怎么样在pycharm中import tensorflow的手写数字数据集

pycharm下载并使用mnist数据集

怎么在pycharm里下载数据集

最新推荐

Python在终端通过pip安装好包以后在Pycharm中依然无法使用的问题(三种解决方案)

在pycharm中导入xlrd和xlwt.模块具体操作.docx

在Python3.74+PyCharm2020.1 x64中安装使用Kivy的详细教程

在Pycharm terminal中字体大小设置的方法

基于jupyter代码无法在pycharm中运行的解决方法

zigbee-cluster-library-specification

管理建模和仿真的文件

【实战演练】增量式PID的simulink仿真实现

训练集和测试集的准确率都99%，但是预测效果不好

JSBSim Reference Manual

找各省的数据(至少10个)分三类用pycharm进行聚类代码