2011年：基于CO-occurrence的高效聚类集成方法：识别数据细微结构

需积分: 50 51 浏览量更新于2024-08-12 收藏 483KB PDF 举报

本文主要探讨了一种创新的基于属性值的共现相似度（Co-occurrence Similarity）在聚类集成方法中的应用，发表于2011年的《计算机应用》杂志，作者是凌光、王明春和冯嘉毅，来自天津职业技术师范大学理学院。论文的创新之处在于： 1. 概念引入与定义：首先，作者提出了一种严格的数学定义，用于衡量类别属性值之间的共现相似度。这种定义强调了属性值之间的关联性和频次，是衡量它们共同出现的概率或频率的一种量化方式。 2. 等价性表述：随后，作者进一步扩展了这一概念，提供了三种等价的定义，确保了相似度量的一致性和有效性。这些等价性表述增强了理论的严谨性，使得不同情况下的共现相似度计算更加准确。 3. 数据对象间的相似度计算：论文深入探讨了如何将属性值间的共现相似度推广到数据对象层面。通过这种方法，不仅考虑了单个聚类内的对象间关系，还考虑到各个初始聚类结果之间的相互影响和联系，从而提供了一个更为全面的相似度评估框架。 4. 聚类集成方法：基于共现相似度的聚类集成（CSCE）方法被设计并应用于实际问题中。这种方法能够有效地识别数据对象之间的细微结构，这对于提高聚类集成的性能至关重要。相比于传统的方法，CSCE方法能够更好地捕捉数据集中的复杂模式，提高了聚类的精确性和稳定性。 5. 实验验证：论文通过实验展示了CSCE方法的有效性。实验结果表明，这种方法在处理具有多变性和复杂性的数据集时，能显著提升聚类集成的效率和准确性，从而在实际应用中展现出良好的性能。这篇论文在理论和实践层面上都对聚类集成技术进行了有益的拓展，特别是在处理多源、高维数据集时，共现相似度提供了新的分析视角和解决方案。通过这种方法，研究者可以更深入地理解和挖掘数据内在的结构，提升聚类分析的精度和实用性。

第

卷第

期

2011

年

月

计算机应用

No.2

Feb.2011

Joumal of Computer Applications

文章编号

:1001

-9081(2011)02

-0441

-05

doi:10.

3724/SP.

1087.2011.00441

基于

co-occurrence

相似度的聚类集成方法

凌光，王明春，冯嘉毅

(天津职业技术师范大学理学院，天津

300222)

(

ling_

伊

gO@

163.

com)

摘

要:首先提出了一种基于属性值的

co-occurrence

相似度概念，通过对其进一步的研究，提出了

个等价性表

述;然后对属性值之间的

co-occurrence

相似度进行引中，给出了数据对象之间

COEOCCUrTdnte

相似度的定义，并将其成

功应用到聚类集成方法中。利用

co-occurrence

相似度在计算某个初始聚类结采中数据对象之间的相似度时，充分考

虑了其他初始聚类结采和该初始聚类结采之间的相互影响和联系。实验表明，基于

co-occurrence

相似度的聚类集成

(

CSCE)

方法能有效识别数据之间的细微结构，有助于提高聚类集成的效采。

关键词:聚类集成

;binary

相似度;

co-occurrence

相似度;基于簇相似的划分算法;基于

co-occurrence

相似度的聚

类集成

中图分类号:

TP18

文献标志码

Clustering ensemble method based

co..;occurrence similarity

LING

Guang

, W

ANG

Ming-chun

FENG

Jia-yi

(School

Sciel

凹

，

njin

University

Technology

and

Educ

tion

，

Tianjin 300222,

China)

Abstract:

Firstly,

astrict

mathematical definition of co-occurrence similarity between categorical attribute values was

given. Secondly

, three other equivalent definitions were proposed. Then, the definition of the

co-occurrenc

号

similarity

between

attribute values was extended

平

Iculate

the

co-occuπence

similarity for data objects, and was applied in clustering ensemble

successfully.Using

the co-occurrence similarity between data objects,

the

indiyidud

similarity matrix

initial clustering

result can be calculated

taking other initial clustering results into accoun

The experimental results show that Co-

occurrence Similarity based on Clustering Ensemble (CSCE) method can effectively identify the subtle structures in data

, and

improve the accuracy of clustering ensemble greatly.

Key

wor

d.s:

clustering e

I).

semble; binary similarity; co-occurrence similarity; Cluster-based Similarity Partitioning

AIgorithm

(CSPA);

Co-occurrence Similarity based on Clustering Ensemble (CSCE)

引言

聚类分析是-'--种无监督学习技术，由于缺乏数据集的先

验知识，相关研究比较困难。目前还没有一种单一的聚类方

法能够识别出任意形态的数据结构分布

[1]

，而且各种方法采

用不同的参数得到的聚类结果也各不相同，无法达到普遍适

用的效果[

。近年来，聚类集成方法成为了数据挖掘领域的

一个研究热点，因为采用这种方法能够有效地集成不同的聚

类结果，从而提高聚类的精确度，增强算法的鲁棒性、并行性

和可扩展性等

[3]

。

目前聚类集成的主要方法有:基于簇相似的划分算法

( Cluster-based Similarity Partitioning AIgorithm ,

CSPA)

、超图划

分算法

(Hype

raph

Partitioning AIgorithm ,

HGPA)

和元聚类

算法

(Meta-CLustering

AIgori

由

，

MCLA)

[4]

。其中，

CSPA

的

主要步骤如图

所示。首先根据每个初始聚类结果构造一个

用来衡量两两数据对象相似度的初始相似度矩阵，在初始相

似度矩阵中，若两个数据对象在同一个簇中，则对应值为

否则为

然后将上述相似度矩阵取平均，得到

consensus

相似

度矩阵，并以此获到最终的聚类

结果。

收稿日期

:2010-07-19;

修回日期

:2010-09-09

。

图

CSPA

聚类集成方法的主要步骤

该方法存在两个不足:两个数据对象之间的相似度非

即

，如此度量数据对象间的相似度过于粗糙;每个初始相似

度矩阵是根据单一的初始聚类结果计算得到的，没有考虑其

他初始聚类结果和该初始聚类结果之间的相互影响和相互联

系。

文献

-6J

提出了一种计算类别型属性值之间相似度

的方法，该方法能够精细描述属性值之间的相似度关系。但

是文中没有给'出相似度的确切数学定义，并且该方法的时间

复杂度高，容易遇到组合爆炸的问题。本文首先在定义了一

些基本概念的基础上，用严格的数学公式重新阐述了文献

- 6

所给出的属性值之间相似度的定义，并称之为

co

occurrence

相似度;同时提出了

co-occurrence

相似度的另外

基金项目:国家自然科学基金资助项目

(70972095)

;天津市自然科学基金资助项目

(10JCYBJC07500)

。

作者简介:凌光(1

980

寸，男，河北保定人，讲师，硕士，主要研究方向:模式识别、智能算法、贝叶斯统计;

王明春(1

971-)

，男，山东德州

人，副教授，博士，主要研究方向:不确定规划、数据挖掘;

冯嘉毅(

1986

斗，男，山西吕梁人，硕士研究生，主要研究方向:人工智能、数据挖掘。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38713586

粉丝: 3
资源: 933

2011年：基于CO-occurrence的高效聚类集成方法：识别数据细微结构

基于量子遗传算法的XML聚类集成

Plant_Co-occurrence_Patterns

Scene Classification by Feature Co-occurrence Matrix

FeatureExtraction1.rar_co-occurrence_images

3D image retrieval based on differential geometry and co-occurrence matrix

Gray-level_Co-occurrence_Matrix(灰度共生矩阵).doc

A study on JPEG steganalytic features: co-occurrence matrix vs. markov transition probabilitymatrix

【Basic】Image Texture Analysis in MATLAB: Using Gray Level Co-occurrence Matrices

co-occurrence network

co-occurrence network分析

最新资源