Matlab实现k-means聚类算法

下载需积分: 10 | TXT格式 | 2KB | 更新于2024-09-10 | 27 浏览量 | 举报

"该资源是关于使用MATLAB实现k-means聚类算法的代码示例。这个实现无需用户输入参数，可以直接运行，并且允许用户更改聚类数量（N）。代码中通过生成三个不同高斯分布的数据集进行演示，分别用蓝色、红色和绿色标记。在迭代过程中，它通过计算样本到各个聚类中心的距离来更新聚类归属，并当聚类中心不再显著变化时停止迭代。" 在机器学习领域，k-means算法是一种广泛应用的无监督学习方法，主要用于数据的聚类分析。它的目标是将数据集分割成k个不同的簇，使得簇内的数据点相互之间尽可能接近，而不同簇之间的数据点尽可能远离。以下是k-means算法在MATLAB中实现的关键步骤： 1. **数据生成**：首先，代码生成了三个二维高斯分布的数据集，每个数据集代表一类。`mvnrnd`函数用于生成多维正态分布的随机样本。 2. **初始化聚类中心**：在k-means算法开始时，需要随机选择k个数据点作为初始聚类中心。这里，代码使用`randi(300,1)`随机选择300个样本中的一个作为聚类中心。 3. **计算距离并分配类别**：对于每个数据点，计算其与所有聚类中心的距离，然后将其分配给最近的聚类中心。`norm`函数用于计算欧氏距离。 4. **更新聚类中心**：在每个迭代步骤中，根据属于同一簇的所有数据点的平均值更新聚类中心。 5. **迭代检查**：通过比较新旧聚类中心的变化来判断是否达到收敛条件。如果所有聚类中心的移动小于某个阈值（这里为0.1），则认为算法已经收敛，迭代结束。 6. **循环执行**：在满足终止条件之前，重复步骤3和4，直到找到最优的聚类结果。 7. **结果存储**：`pattern`矩阵记录了每个数据点所属的簇，`center`矩阵存储了聚类中心的位置。在实际应用中，k-means算法的选择依赖于数据的特性。它适用于处理大规模数据，并且对凸形簇效果良好。然而，它也有一些限制，如对初始聚类中心敏感，可能陷入局部最优，以及无法处理非凸形或大小不一的簇。在使用时，可以结合其他方法，如多次运行并选择最佳结果，或者采用更复杂的聚类算法，如谱聚类或DBSCAN，来克服这些限制。

clear all;close all;clc;
% 第一组数据
mu1=[0 0 ]; %均值
S1=[.1 0 ;0 .1]; %协方差
data1=mvnrnd(mu1,S1,100); %产生高斯分布数据
%第二组数据
mu2=[1.25 1.25 ];
S2=[.1 0 ;0 .1];
data2=mvnrnd(mu2,S2,100);
% 第三组数据
mu3=[-1.25 1.25 ];
S3=[.1 0 ;0 .1];
data3=mvnrnd(mu3,S3,100);
% 显示数据
plot(data1(:,1),data1(:,2),'b+');
hold on;
plot(data2(:,1),data2(:,2),'r+');
plot(data3(:,1),data3(:,2),'g+');
grid on;
% 三类数据合成一个不带标号的数据类
data=[data1;data2;data3];
N=3;%设置聚类数目
[m,n]=size(data);
pattern=zeros(m,n+1);
center=zeros(N,n);%初始化聚类中心
pattern(:,1:n)=data(:,:);
for x=1:N
center(x,:)=data( randi(300,1),:);%第一次随机产生聚类中心
end
while 1

下载后可阅读完整内容，剩余2页未读，立即下载