ModEx与Seed-Detective：聚类技术对比及其在数据集中的表现

聚类技术

评估标准

53 浏览量更新于2024-06-17 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"本文比较了两种聚类技术——ModEx和Seed-Detective，它们在K-Means聚类算法的基础上进行了改进，旨在提高聚类质量和效率。这两种技术都是对现有聚类方法Ex-Detective的改良，特别是ModEx解决了Ex-Detective的一些局限性。Seed-Detective结合了ModEx和SimpleK-Means，利用ModEx生成优质的初始种子点，随后用这些种子运行K-Means以得到最终聚类结果。通过在F-测度、熵和纯度三个评估标准上对比了Seed-Detective、ModEx与其他聚类方法（如Ex-Detective、PAM、SimpleK-Means、BFPH和NFPH）的表现，并在UCI机器学习库的四个自然数据集上进行了实验，结果表明提出的这两种技术在多数情况下具有更优的性能，且统计显著性测试也证实了这一优势。" 在这篇文章中，作者探讨了聚类分析中的关键问题，即如何优化聚类过程以得到更准确的分类结果。他们提出的ModEx是对Ex-Detective聚类技术的升级，修正了前者的某些不足。Ex-Detective可能存在的问题可能包括初始化敏感性、对噪声数据的处理能力等。通过ModEx的改进，这些问题可能得到了缓解。 Seed-Detective则是将ModEx的优势与SimpleK-Means的稳定性相结合，通过ModEx找到最佳的初始聚类中心（种子），然后应用K-Means算法进行迭代，期望能生成更高质量的聚类。这种方法的创新之处在于它试图克服K-Means算法对初始种群选择的依赖性，从而提升聚类效果。为了验证新方法的有效性，作者选取了F-测度、熵和纯度作为聚类质量的评价指标。F-测度综合考虑了精确度和召回率，熵衡量了数据集的混乱程度，而纯度则反映了聚类的纯度或一致性。在UCI机器学习库的四个不同类型的数据集上进行实验，新提出的算法在大多数情况下都表现出优越的性能，这不仅体现在数值上，也通过符号测试得到了统计学的证明。 ModEx和Seed-Detective为聚类问题提供了解决的新途径，它们在处理复杂数据集时可能更加有效，能够为数据挖掘和模式识别等领域带来潜在的改进。此外，由于其性能的提升和对现有技术的改进，这些方法可能在实际应用中具有广泛的价值。

资源详情

资源推荐

116

M.A. Rahman

等人

有

个叶子，那么我们总共得到

我

博

学士

硕士

第十

叶：

学术= 3

第

页：物

理学=4

第十二

页：

学术

Acad=

学术

工程师

=工程师Phys=医

师

资格

聚类分类属性

的权重用于修剪将属性

视为类属性的决策

树

如果分类属性的权重是

，决策树

T i

的深度是

，则

修剪树

T 0 i

的深度

（

）

是

0i<

。

重量

可以

变化

从

到

。如果分类属性

的权重

为

，

则不存在

的修剪，即决策树

保持原样。然而，如果分

类属性

的权重

我我

为零，则

Ex-Detective

对

执行最大修剪，其中

仅包含一

个叶节点。在这种情况下，数据集的所有记录都将属于叶

节点。

现在我们用例子来解释前侦探的修剪过程。假设一个数

据挖掘器分别为属性

Qualification

（表

中的第

个属性）和

Occupation

（表

中的第

个属性）分配权重

0.6

和

图中所示的树。

是

和图中所示的树。

是

。深处

树

和

的

平均值

分别为

和

修剪后的深度

分别

为

$$>

：

<$$>

和

$$>

：

<$2

。

图1显示了T4

的修剪

树

T04

第三章

。

类似

地，

图3中示出了T3

的修

剪

树

。四、图 3记录集{R

，

R11

}

，

{

，

R13

，

R14

}

和

{

，

R10

，

R12

、

R15

}

分别属于叶

、叶

和叶

。类似地，在图

中，

记录集合

，

}

，

}

和

，

}

属于

叶

、叶

和叶

。

前侦探建立和修剪一组决策树

considering

每个类别属性

作为类属性一个接一个。让我们考虑一下属性集的第一

个

图4 在

Qualification

属性上修剪的树。

我们现在解释前侦探与

T04

和

T03

的交集过程

。

属于

的叶

的记录

（见图

）可以与属于

T0 3

的叶

、

叶

和

叶

的记录相交

（见

图

）。

）

路口

在属于叶

和叶

的记录之间产生一组新的记录，如叶

叶

{

，

}

所示。

Ex-Detective

将由两个叶子的

交集产生的记录集视为初步聚类。例如，记录集

，

}

被认为是一个初步的集群。属于叶

的记录可以与属

于叶

、叶

和叶

的记录相交。类似地，属于叶

的记

录可以与属于叶

、叶

和叶

的记录相交。

在属于所有决策树的叶子的所有记录之间进行交集运

算，以产生一组初步聚类。例如，如果我们有

个修剪的

树

;

。

. .

其中

树

但

;

. . .

是

范畴

属性，

其余的属性是数值的。也就是说，一组

cal attributes is A

¼ fA

;

一个

。对于

个类别属性

/fA

;

.. .

一个

，前侦探建立

。决策树的数量

^fT

;

. T

，在哪里

决策树

被

构建为将

考虑为类属性。如果权重对的

分类属性

¼ fw

;

.. . w

，前侦探基于

中的权重

修剪

中的所有树。修剪过程生成

个修剪

的

树

;

. .

。

2.2.2.

第二步：找到叶子的交点

Ex-Detective

接下来在属于决策树叶子如果

是数字，

而

是

时的

叶

数

我

可能的交叉点。每个交叉点内的记录被认为是一个初步聚

类。

Ex-Detective

接下来对每个初步聚类应用

K-Means

以产

生最终聚类。

2.2.3.

步骤

：执行

均值

如果数据集中存在任何数值属性，则

Ex-Detective

执行

K-

Means

（

Huang

，

1997; Tan

等人，

2005

）对属于在步骤

在应用

均值时，仅考虑数值属性值。然而，最初的研

究（

Islam

，

2008; Islam

和

Brankovic

，

2011

）没有明确讨论

定义集群数量的过程

I j

将

是

从

树

和

T 0

的

p ω q

个交叉点

。

对于

K-Means

应用于

Prelimi

的记录

nary

集群

例如，从

（见

图

）

和

（见

图。

）是

，

因为每棵树

的叶子数

等于

。

图3

Occupation

属性上的修剪树。

K-Means

一直持续到满足终止条件。

K-Means

中有两个

终止条件。第一个终止条件是

K-Means

的两次连续迭代中

目标函数值之间的绝对差小于用户定义的阈值（

）。用

户定义的最大迭代次数被认为是第二终止条件。

我们提出的聚类技术

3.1.

Modified Ex-Detective

（

ModEx

）

我们现在讨论一些与前侦探有关的问题，然后提出一些修

改如下。

医师

工程师

学术

第十三

页：

第

页：硕

士=4博

第十五

页：

博士

BC = 1

占领

BC=学士

MS=硕士

数量

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

ModEx与Seed-Detective：聚类技术对比及其在数据集中的表现

数据挖掘中聚类方法比较研究

数据挖掘中聚类算法比较研究

3个聚类算法性能比较分析

stm32f103c8t6PA口通过CRL配置成通用推挽输出输出模式和复用推挽输出

STM32F030 IIC2配置

河北金融学院在广东2021-2024各专业最低录取分数及位次表.pdf

非常好的通俗易懂的开关电源原理与维修6.zip

2米输送线_机械3D图Solidworks设计图.zip

分布式电源优化配置与选址定容MATLAB程序基于遗传算法 （1）该程序为基于遗传算法的分布式电源优化配置与选址定容程序，硕士学位

基于ssm图书馆借阅管理系统设计与实现.docx

WordPress优化插件，WPOPT v2.1.0

输送粉末涂层炉_机械3D图Solidworks设计图.zip

Unet 改进：加入SAM的bbox分割代码

链板输送机（链板给料机）_机械3D图Solidworks设计图.zip

宁夏医科大学在广东2021-2024各专业最低录取分数及位次表.pdf

福建师范大学协和学院在广东2021-2024各专业最低录取分数及位次表.pdf

IBM智慧铁路解决方案.doc

2024年中国低空经济报告-蓄势待飞展翅万亿新赛道

山东大学威海分校在广东2021-2024各专业最低录取分数及位次表.pdf

基于ssm卫生人员评审专家申报系统设计与实现.docx

最新资源

分布式电源优化配置与选址定容MATLAB程序基于遗传算法（1）该程序为基于遗传算法的分布式电源优化配置与选址定容程序，硕士学位