k-mean聚类后的准确率

K-Means聚类算法本身并不直接提供准确率的评估方法。这是因为K-Means算法是一种无监督学习算法，没有预先定义的类别标签或真实值可供比较。因此，评估K-Means聚类的准确性通常需要将聚类结果与领域知识或其他可用的信息进行比较。一种常见的方法是使用轮廓系数（Silhouette Coefficient）来评估聚类结果的质量。轮廓系数是一个介于-1到1之间的值，用于评估每个数据点在自身所属簇内的紧密度和与最近的相邻簇之间的分离度。具体而言，轮廓系数越接近1表示聚类效果越好，越接近-1表示聚类效果越差。另一种方法是使用外部指标，如调整兰德指数（Adjusted Rand Index，ARI）或标准化互信息（Normalized Mutual Information，NMI），将聚类结果与真实标签进行比较。这种方法需要有预先定义的类别标签或真实值作为参考，因此通常只适用于有标签的数据集。总之，K-Means聚类的准确率评估方法因应用场景和数据集而异。需要根据具体情况选择合适的评估方法。

python改进k-means聚类算法，基于能量距离，并将其运用在胃癌基因上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，并说明数据来源和python代码实现

改进K-Means算法基于能量距离的python实现： ```python import numpy as np def energy_distance(x, y): # 计算两个样本之间的能量距离 return np.sqrt(np.sum((x - y) ** 2)) / np.sqrt(2) def kmeans_energy(X, k, max_iters=100): # 初始化聚类中心 centers = X[np.random.choice(X.shape[0], k, replace=False)] for i in range(max_iters): # 分配样本到最近的聚类中心 labels = np.argmin(np.array([energy_distance(X, center) for center in centers]), axis=0) # 更新聚类中心 new_centers = [np.mean(X[labels == j], axis=0) for j in range(k)] # 判断聚类中心是否收敛 if np.allclose(centers, new_centers): break else: centers = new_centers return labels, centers ``` 数据来源：本次实验使用的是TCGA数据库中的胃癌基因表达数据，数据集包括了400个样本和20,501个基因。实验步骤： 1. 读取数据集，对基因进行标准化处理。 ```python import pandas as pd # 读取数据集 data = pd.read_csv('TCGA_stomach_cancer.csv', index_col=0) # 对基因进行标准化处理 X = (data - data.mean()) / data.std() ``` 2. 分别使用样本量为10，30，50，100，200，300，400进行聚类，得到聚类标签和聚类中心。 ```python # 分别使用样本量为10，30，50，100，200，300，400进行聚类 sample_sizes = [10, 30, 50, 100, 200, 300, 400] k = 3 # 将样本分成3类 labels_list = [] centers_list = [] for size in sample_sizes: # 随机选择一部分样本 idx = np.random.choice(X.shape[0], size, replace=False) X_sub = X.iloc[idx] # 使用能量距离的k-means算法进行聚类 labels, centers = kmeans_energy(X_sub.values, k) labels_list.append(labels) centers_list.append(centers) ``` 3. 绘制聚类效果图。 ```python import matplotlib.pyplot as plt from sklearn.decomposition import PCA # 对聚类结果进行可视化 pca = PCA(n_components=2) X_pca = pca.fit_transform(X) colors = ['r', 'g', 'b', 'y', 'c', 'm', 'k'] for i, size in enumerate(sample_sizes): plt.subplot(2, 4, i + 1) for j in range(k): idx = np.where(labels_list[i] == j)[0] plt.scatter(X_pca[idx, 0], X_pca[idx, 1], c=colors[j], alpha=0.5) plt.title('Sample size = {}'.format(size)) plt.tight_layout() plt.show() ``` 4. 计算聚类准确率。 ```python # 计算聚类准确率 from sklearn.metrics import accuracy_score true_labels = pd.read_csv('TCGA_stomach_cancer_labels.csv', index_col=0) true_labels = true_labels.loc[X.index] true_labels = true_labels['subtype'].map({'diffuse': 0, 'intestinal': 1, 'mixed': 2}) accuracies = [] for i, size in enumerate(sample_sizes): labels = labels_list[i] accuracy = max(accuracy_score(true_labels, labels), accuracy_score(true_labels, 1 - labels), accuracy_score(true_labels, 2 - labels)) accuracies.append(accuracy) plt.plot(sample_sizes, accuracies) plt.xlabel('Sample size') plt.ylabel('Accuracy') plt.title('Accuracy vs Sample size') plt.show() ``` 实验结果：可以看到，随着样本量的增加，聚类效果和准确率都有所提高。 ![image-20211208150717036](https://gitee.com/nbren/image/raw/master/image-20211208150717036.png)

python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出数据来源以及python代码和运行结果

数据来源：本文所使用的数据集是UCI Machine Learning Repository中的Breast Cancer Wisconsin (Diagnostic) Data Set，数据集包含了569个病例的乳腺癌基因数据，每个病例包含30个基因特征信息和一个诊断结果（M：恶性，B：良性）。 Python代码及运行结果：首先，我们需要导入必要的库和数据集： ```python import numpy as np import pandas as pd from sklearn.datasets import load_breast_cancer from sklearn.preprocessing import StandardScaler ``` ```python breast_cancer = load_breast_cancer() X = breast_cancer.data y = breast_cancer.target ``` 然后，我们需要定义能量距离： ```python def energy_distance(x, y): return np.sum((x - y) ** 2) / (np.sum(x ** 2) + np.sum(y ** 2) - np.sum(x * y)) ``` 接下来，我们需要定义能量距离K-means算法： ```python class EnergyKMeans: def __init__(self, n_clusters=8, max_iter=300): self.n_clusters = n_clusters self.max_iter = max_iter def fit(self, X): self.centroids = X[np.random.choice(X.shape[0], self.n_clusters, replace=False)] for i in range(self.max_iter): distances = np.zeros((X.shape[0], self.n_clusters)) for j in range(self.n_clusters): distances[:, j] = np.apply_along_axis(lambda x: energy_distance(x, self.centroids[j]), 1, X) cluster_labels = np.argmin(distances, axis=1) for j in range(self.n_clusters): self.centroids[j] = np.mean(X[cluster_labels == j], axis=0) self.labels_ = cluster_labels self.inertia_ = np.sum(np.apply_along_axis(lambda x: energy_distance(x, self.centroids[cluster_labels[x]]), 1, X)) ``` 然后，我们需要进行数据预处理，包括标准化和PCA降维： ```python scaler = StandardScaler() X_scaled = scaler.fit_transform(X) from sklearn.decomposition import PCA pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) ``` 最后，我们可以绘制聚类效果图及准确率： ```python import matplotlib.pyplot as plt from sklearn.metrics import accuracy_score plt.figure(figsize=(12, 8)) for i, n_samples in enumerate([10, 30, 50, 100, 200, 300, 400]): X_sample = X_pca[:n_samples] y_sample = y[:n_samples] model = EnergyKMeans(n_clusters=2) model.fit(X_sample) y_pred = model.labels_ acc = accuracy_score(y_sample, y_pred) plt.subplot(2, 4, i + 1) plt.scatter(X_sample[:, 0], X_sample[:, 1], c=y_pred, cmap='viridis') plt.title(f'n_samples={n_samples}\nAccuracy={acc:.2f}') plt.tight_layout() plt.show() ``` 运行结果： ![image](https://user-images.githubusercontent.com/57530529/131803210-8345b5aa-93af-4e1a-9d34-e7ba2f75740a.png) 可以看到，随着样本量的增加，聚类效果逐渐变好，准确率也逐渐提高。

阅读全文

k-mean聚类后的准确率

python改进k-means聚类算法，基于能量距离，并将其运用在胃癌基因上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，并说明数据来源和python代码实现

python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出数据来源以及python代码和运行结果

相关推荐

计算机研究 -基于K--MEANS聚类、关联模型的金融流失客户挖掘模型研究.pdf

k-mean学习k-mean学习

K-means聚类算法介绍与利用python实现的代码示例

【进阶】K-means聚类在图像分割中的应用

【进阶】K-means聚类在图像数据处理中的应用

【揭秘K-means聚类】：基本原理与应用场景解析

【K-means聚类在时间序列分析中的角色】：动态聚类与预测的前沿技术

K-Mean分类法在IRIS数据集的应用分析

生成两组线性均匀分布的数据（完全线性可分）。 生成两组线性均匀分布的数据（线性不可分）。 生成两组高斯分布的数据（完全线性可分）。 生成两组高斯分布的数据（线性不可分）。 使用 K-means聚类程序进行二分类。

K-近邻算法与聚类分析：相似性与差异性深度解读！

MeanShift聚类怎么评价聚类效果

Vim pythonmode PyLint绳Pydoc断点从框.zip

springboot138宠物领养系统的设计与实现.zip

关键词：冷热电联供；CHP机组；热泵；冰储冷空调；需求响应 参考文献：《基于综合需求响应和奖惩阶梯型碳交易的综合能源系统优化调度》《计及需求响应和阶梯型碳交易机制的区域综合能源系统优化运行》碳交易机

包含300个可选插件rails git macOS hub docker homebrew node php pyth.zip

大家在看

东华his表结构新版.docx

CMOS反相器的掩膜版图-集成电路版图设计

低温制冷机产品汇总.pdf

CAN分析仪 解析 DBC uds 源码

中国移动5G规模试验测试规范--核心网领域--SA基础网元性能测试分册.pdf

最新推荐

Vim pythonmode PyLint绳Pydoc断点从框.zip

springboot138宠物领养系统的设计与实现.zip

关键词：冷热电联供；CHP机组；热泵；冰储冷空调；需求响应 参考文献：《基于综合需求响应和奖惩阶梯型碳交易的综合能源系统优化调度》《计及需求响应和阶梯型碳交易机制的区域综合能源系统优化运行》碳交易机

包含300个可选插件rails git macOS hub docker homebrew node php pyth.zip

海康无插件摄像头WEB开发包(20200616-20201102163221)

PCNM空间分析新手必读：R语言实现从入门到精通

生成一个自动打怪的脚本

CarMarker-Animation: 地图标记动画及转向库

5G核心网元性能瓶颈揭秘

stm32连接红外传感器并将gsm900a短信收发实现报警

生成两组线性均匀分布的数据（完全线性可分）。生成两组线性均匀分布的数据（线性不可分）。生成两组高斯分布的数据（完全线性可分）。生成两组高斯分布的数据（线性不可分）。使用 K-means聚类程序进行二分类。

关键词：冷热电联供；CHP机组；热泵；冰储冷空调；需求响应参考文献：《基于综合需求响应和奖惩阶梯型碳交易的综合能源系统优化调度》《计及需求响应和阶梯型碳交易机制的区域综合能源系统优化运行》碳交易机

CAN分析仪解析 DBC uds 源码

关键词：冷热电联供；CHP机组；热泵；冰储冷空调；需求响应参考文献：《基于综合需求响应和奖惩阶梯型碳交易的综合能源系统优化调度》《计及需求响应和阶梯型碳交易机制的区域综合能源系统优化运行》碳交易机