知识迁移极大熵聚类算法KT-MEC：一种增强聚类有效性的新方法

106 浏览量更新于2024-08-29 收藏 601KB PDF 举报

“知识迁移极大熵聚类算法”（KT-MEC）是一种针对数据不足或失真情况下的聚类方法，它通过引入历史类中心和历史隶属度的知识迁移机制，增强了聚类的有效性和实用性。该算法在不暴露源域数据的情况下保护了源域隐私，并通过“参数寻优+聚类有效性度量”的机制确保其性能不低于经典的极大熵算法，从而避免了负迁移问题。在传统的聚类方法中，当面临数据不足或数据质量差的挑战时，算法的准确性往往受到影响。KT-MEC算法正是为了解决这一问题而提出的。它利用历史数据中的知识，即历史类中心和历史隶属度，设计了两种知识迁移机制。历史类中心是过去聚类结果的中心点，而历史隶属度则反映了数据点在过去属于各类别的概率。这两种机制有助于新数据的聚类过程，即使在数据稀少或失真的情况下，也能提供更准确的聚类结果。首先，第一种知识迁移机制基于历史类中心。通过比较新数据与历史类中心的距离，可以引导新数据点更准确地归属到合适的类别。这种方法利用了历史数据的聚类结构，帮助新数据在聚类过程中找到更接近历史状态的位置。其次，第二种知识迁移机制依赖于历史隶属度。这种方法考虑了数据点在过去可能的模糊分类情况，通过调整新数据点的隶属度分布，使其更加符合历史聚类的趋势。这有助于改善新数据的聚类效果，尤其是在数据不完整或者噪声较大的情况下。 KT-MEC算法的一个显著优点是其内嵌的迁移机制不会直接暴露源域数据，因此具备源域隐私保护功能。这意味着在知识迁移过程中，原始数据的敏感信息不会被泄露，对于涉及个人隐私或商业机密的数据集来说，这是非常重要的。此外，KT-MEC算法采用了“参数寻优+聚类有效性度量”的策略，确保了算法的性能。在聚类过程中，通过优化参数来最大化熵，同时结合聚类有效性度量来评估聚类结果的质量。这种方法理论上保证了KT-MEC的性能至少与经典极大熵算法相当，而且由于避免了无效或反效果的知识迁移（负迁移），进一步提升了聚类的稳定性。知识迁移极大熵聚类算法KT-MEC是一种创新的聚类技术，它结合了历史知识和优化策略，旨在提高聚类的准确性和适应性，特别是在数据不足或失真的情况下。同时，它的隐私保护特性使其在处理敏感数据时更具优势，而避免负迁移的设计则确保了算法的性能表现。

第 30 卷第 6 期

Vol. 30 No. 6

控制与决策

Control and Decision

2015 年 6 月

Jun. 2015

知识迁移极大熵聚类算法

文章编号: 1001-0920 (2015) 06-1000-07 DOI: 10.13195/j.kzyjc.2014.0770

钱鹏江, 孙寿伟, 蒋亦樟, 王士同, 邓赵红

(江南大学数字媒体学院，江苏无锡 214122)

摘要: 为解决数据不足或失真等环境下传统聚类技术效果不佳的问题, 基于历史类中心和历史隶属度提出两种知

识迁移机制, 并与极大熵聚类方法融合提出知识迁移极大熵聚类算法 KT-MEC. KT-MEC的优点是: 利用历史知识,

KT-MEC 聚类有效性和实用性明显增强; 内嵌迁移机制均不暴露源域数据, 从而拥有源域隐私保护能力; KT-MEC 基

于的“参数寻优+聚类有效性度量”机制理论上保证其性能不差于经典极大熵算法, 避免了负迁移问题.

关键词: 知识迁移；极大熵聚类；隐私保护；负迁移

中图分类号: TP391.4 文献标志码: A

Knowledge transfer based maximum entropy clustering

QIAN Peng-jiang, SUN Shou-wei, JIANG Yi-zhang, WANG Shi-tong, DENG Zhao-hong

(School of Digital Media，Jiangnan University，Wuxi 214122，China．Correspondent：QIAN Peng-jiang，E-mail:

qpengjiang@gmail.com)

Abstract: Classical clustering methods tend to be less effective in such situation where the data are insufﬁcient or impure.

Therefore, two knowledge transfer mechanisms for fuzzy partition clustering are devised in terms of historical cluster centers

and fuzzy memberships regarding historical class centers respectively. And combining these two transfer mechanisms

with the classical maximum entropy clustering(MEC) approach, the particular knowledge transfer based maximum entropy

clustering(KT-MEC) algorithm is proposed. The major merits of KT-MEC lie in following three aspects. Beneﬁting from

the auxiliary guidance of historical knowledge, the clustering effectiveness and practicability of KT-MEC are enhanced

distinctly. As the couple of built-in transfer mechanisms both don’t expose the raw data in the source domain, KT-MEC

is of good capability of privacy protection for the source domain. Owing to the “searching for best parameters + validity

indices”mechanism, the clustering effectiveness of KT-MEC is not worse than that of MEC in theory, which avoids reliably

the negative transfer risk.

Keywords: knowledge transfer；maximum entropy clustering；privacy protection；negative transfer learning

0 引引引言言言

传统聚类方法一般以大量的可用数据为基础进

行信息挖掘、模型学习和实践验证. 在数据积累初期,

信息往往有限甚至匮乏, 且数据受污染的情况普遍存

在, 这便给传统机器学习带来了新挑战.

研究人员发现, 迁移学习能较好地解决如数据量

少、信息缺失和数据失真等现象

[1-8]

. 关于迁移学习,

目前已有的研究较多集中在分类学习

[1-2]

领域, 在模

式识别其他领域, 基于迁移学习的理论或方法相对较

少. 文献 [3-4] 进行了迁移回归模型的研究; 文献 [7-8]

进行了迁移聚类方法的探索, 本文着眼点正是基于迁

移学习的新型聚类方法研究.

划分聚类是最常见的聚类方法之一. 模糊 C 均值

(FCM) 聚类算法

[9-11]

、极大熵聚类 (MEC) 算法

[12-13]

等

是其中的典型代表. MEC 算法以简洁的数学表达和

明确的物理含义引起许多研究人员的兴趣, 如文献

[14] 尝试提高 MEC 对异常点的识别能力, 文献 [15]

提出的基于模糊线性判别分析的极大熵模糊聚类算

法等.

本文进行了基于划分聚类的迁移学习问题研究,

首先提出两种适用的学习机制: 1) 基于历史类中心的

知识迁移机制, 该迁移机制通过调控源域和目标域类

收稿日期: 2014-05-17；修回日期: 2014-08-06.

基金项目: 国家自然科学基金项目(61202311)；江苏省自然科学基金项目(BK201221834)；江苏省产学研前瞻性研究

项目(BY2013015-02).

作者简介: 钱鹏江(1979−), 男, 副教授, 博士, 从事模式识别、图像处理等研究；孙寿伟(1989−), 男, 硕士生, 从事智能

算法及应用的研究.

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38697274

粉丝: 17
资源: 904

知识迁移极大熵聚类算法KT-MEC：一种增强聚类有效性的新方法

最大熵算法pdf讲义超详细

极大熵聚类算法的收敛性定理 (2003年)

【图像分割】基于模糊熵聚类算法IFFCM实现图像分割附Matlab代码.zip

聚类算法和空间聚类算法的区别

DPC聚类算法与CDP聚类算法

kmeans聚类算法跟层次聚类算法有什么区别

对比，深度嵌入图像聚类算法，深度无监督图像聚类算法，深度子空间图像聚类算法的效率，复杂度，图像聚类程度，准确率

层次聚类算法 和EM聚类算法的详细介绍

谱聚类算法和聚类算法有什么区别

机器学习实验 聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。

最新资源

层次聚类算法和EM聚类算法的详细介绍

机器学习实验聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。