用户参与的多关系聚类算法:提高准确性与目的描述

需积分: 0 0 下载量 9 浏览量 更新于2024-09-06 收藏 664KB PDF 举报
该篇论文研究的主题是"一种新的优化滤波算法",主要聚焦于改进传统聚类方法在处理多关系关联数据时的问题。论文指出,当前的聚类算法往往忽视了用户的具体聚类目的和在聚类过程中的参与,导致聚类结果的准确性有限。作者针对这一问题,提出了一个具有用户特征约束的多关系聚类算法。 首先,论文强调了传统单表无监督聚类的局限性,尤其是在处理现实世界的多关系关联数据库时,缺乏针对性和适应性。为了解决这个问题,作者借鉴了韩家炜教授的用户监督下多关系聚类方法,这种方法允许用户以自己的聚类目的为导向,对数据集进行特征选择。用户可以选择描述性特征,并从关联表中提取关键信息进行聚类,这样能够更好地反映用户的目标,从而提升聚类的准确性。 同时,论文引入了Must-Link和Can't-Link集合约束的概念,这些集合规则明确了数据对象之间在聚类中的必然关系和禁止关系。Haichao Huang等人和Georgios Papachristoudis等人分别通过基因本体和领域知识来指导聚类特征的选择,进一步提高了聚类的精度。 然而,完全依赖用户指定特征选取可能存在偏差,因为用户可能无法确定所有关键特征。因此,论文创新性地提出了一种半监督式的UCMR-Clustering算法。该算法结合领域本体,引入了本体特征相关度的概念,通过计算这个度量,对用户提供的Must特征集和Can't特征集进行领域知识的指导和扩充。这种方法的优点在于,它利用先验知识而非仅仅依赖数据本身,降低了对用户专业知识的要求,使得聚类特征集的选择更加准确,从而显著提升了聚类结果的准确性。 通过实验证明,新的优化滤波算法在聚类结果的准确性和有效性方面表现优于传统方法,特别是在处理多关系数据和考虑用户参与的情况下,具有更高的实用性。这篇论文的研究对于改进聚类算法,提高其适应性和用户友好性具有重要意义。