算法是一种基于样本间相似性度量的间接聚类方法。此算法以 为参数,把 个
对象分为 个簇,以使簇内具有较高的相似度,而且簇间的相似度较低。相似度的计算根
据一个簇中对象的平均值来进行。此算法首先随机选择 个对象,每个对象代表一个聚类
中心。对于其余的每一个对象,根据该对象与各聚类中心之间的距离,把它分配到与之最
相似的聚类中。然后,计算每个聚类的新中心。重复上述过程,直到准则函数收敛。
算法的工作过程说明如下:首先从 个数据对象任意选择 个对象作为初始聚
类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将
它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类
中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数 个聚类具有以下特点:各聚类本身尽可能的紧凑,
而各聚类之间尽可能的分开。
算法的具体流程如下:
() 从 个数据对象任意选择 个对象作为初始聚类中心;
() 循环()到()直到每个聚类不再发生变化为止
() 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并
根据最小距离重新对相应对象进行划分;
() 重新计算每个(有变化)聚类的均值(中心对象)
算法 算法
算法接受输入量 ;然后将 个数据对象划分为 个聚类以便使得所获得的聚
类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是
利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
算法的工作过程说明如下:首先从 个数据对象任意选择 个对象作为初始聚
类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将
它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类
中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数 个聚类具有以下特点:各聚类本身尽可能的紧凑,
而各聚类之间尽可能的分开。
补充一个 实现方法:
!"!"#$%!!&
'("))"*
'
'+*,*")")"*!-*"
'. / *," **
'"0% ""*","01)
'*-*)",2"
'
'(34!5!(+5#($6!!(&7""