python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出数据来源以及python代码和运行结果

数据来源：本文所使用的数据集是UCI Machine Learning Repository中的Breast Cancer Wisconsin (Diagnostic) Data Set，数据集包含了569个病例的乳腺癌基因数据，每个病例包含30个基因特征信息和一个诊断结果（M：恶性，B：良性）。 Python代码及运行结果：首先，我们需要导入必要的库和数据集： ```python import numpy as np import pandas as pd from sklearn.datasets import load_breast_cancer from sklearn.preprocessing import StandardScaler ``` ```python breast_cancer = load_breast_cancer() X = breast_cancer.data y = breast_cancer.target ``` 然后，我们需要定义能量距离： ```python def energy_distance(x, y): return np.sum((x - y) ** 2) / (np.sum(x ** 2) + np.sum(y ** 2) - np.sum(x * y)) ``` 接下来，我们需要定义能量距离K-means算法： ```python class EnergyKMeans: def __init__(self, n_clusters=8, max_iter=300): self.n_clusters = n_clusters self.max_iter = max_iter def fit(self, X): self.centroids = X[np.random.choice(X.shape[0], self.n_clusters, replace=False)] for i in range(self.max_iter): distances = np.zeros((X.shape[0], self.n_clusters)) for j in range(self.n_clusters): distances[:, j] = np.apply_along_axis(lambda x: energy_distance(x, self.centroids[j]), 1, X) cluster_labels = np.argmin(distances, axis=1) for j in range(self.n_clusters): self.centroids[j] = np.mean(X[cluster_labels == j], axis=0) self.labels_ = cluster_labels self.inertia_ = np.sum(np.apply_along_axis(lambda x: energy_distance(x, self.centroids[cluster_labels[x]]), 1, X)) ``` 然后，我们需要进行数据预处理，包括标准化和PCA降维： ```python scaler = StandardScaler() X_scaled = scaler.fit_transform(X) from sklearn.decomposition import PCA pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled) ``` 最后，我们可以绘制聚类效果图及准确率： ```python import matplotlib.pyplot as plt from sklearn.metrics import accuracy_score plt.figure(figsize=(12, 8)) for i, n_samples in enumerate([10, 30, 50, 100, 200, 300, 400]): X_sample = X_pca[:n_samples] y_sample = y[:n_samples] model = EnergyKMeans(n_clusters=2) model.fit(X_sample) y_pred = model.labels_ acc = accuracy_score(y_sample, y_pred) plt.subplot(2, 4, i + 1) plt.scatter(X_sample[:, 0], X_sample[:, 1], c=y_pred, cmap='viridis') plt.title(f'n_samples={n_samples}\nAccuracy={acc:.2f}') plt.tight_layout() plt.show() ``` 运行结果： ![image](https://user-images.githubusercontent.com/57530529/131803210-8345b5aa-93af-4e1a-9d34-e7ba2f75740a.png) 可以看到，随着样本量的增加，聚类效果逐渐变好，准确率也逐渐提高。

阅读全文

python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出数据来源以及python代码和运行结果

相关推荐

基于python的K-Means聚类算法设计与实现

算法改进基于python实现K-Means聚类算法及其改进(K-mean++)源码+详细代码注释.zip

python实现k-means聚类算法

python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出python代码和运行结果

python改进k-means聚类算法，基于能量距离，并将其运用在乳腺癌基因上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，并说明数据来源和python代码实现

用python运行k-means聚类算法，并将其运用在乳腺癌基因数据上，聚类分成三类，分别从样本量以10，30，50，100，200，300，400递推绘制聚类效果图及准确率，给出数据来源以及python代码和运行结果

Python-K-Means-RandomForest-Wisconsin-Breast-Cancer-Diagnostics

code_k-means_WPBC生存曲线_生存_

第4章 回归与聚类算法 2 4.1. 线性回归 2 4.1.1. 线性回归的原理 2 4.1.2. 线性回归的损失和优化原理（理

sklearn实战教程：从数据集到聚类算法的深度学习指南

掌握聚类算法：hclust包在不同数据集上的表现深度分析

聚类算法在无监督学习中的角色

层次聚类算法在医疗保健中的应用：疾病诊断与患者分层的利器

高维大数据分析：人工智能算法的优势与局限性分析

基于机器学习的图像分类和识别

YOLOv2目标检测算法在医疗影像领域的应用：疾病诊断与辅助治疗，赋能医疗影像分析

乳腺癌数据集聚类分析代码，不使用sklearn，聚类设置簇个数为2，对聚类结果进行可视化

乳腺癌数据集聚类分析代码，不使用sklearn集，聚类设置簇个数为2，对聚类结果进行可视化

用sklearn中kmeans算法处理乳腺癌数据集

乳腺癌数据集聚类分析代码

最新推荐

python基于K-means聚类算法的图像分割

Python——K-means聚类分析及其结果可视化

详解Java实现的k-means聚类算法

Python用K-means聚类算法进行客户分群的实现

python中实现k-means聚类算法详解

JHU荣誉单变量微积分课程教案介绍

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

如何在ZYNQMP平台上配置TUSB1210 USB接口芯片以实现Host模式，并确保与Linux内核的兼容性？

Naruto爱好者必备CLI测试应用

第4章回归与聚类算法 2 4.1. 线性回归 2 4.1.1. 线性回归的原理 2 4.1.2. 线性回归的损失和优化原理（理