异构数据集混合聚类框架:保持信息完整性

需积分: 8 0 下载量 55 浏览量 更新于2024-08-12 收藏 696KB PDF 举报
在信息技术领域,异构数据集挖掘是一项重要的研究课题,因为现实世界中的数据往往包含不同类型的属性,如数值、二进制、名义和序数属性。传统聚类算法假设数据集是同质的,但在处理异构数据时可能会导致信息丢失。为了克服这个问题,本文提出了一个创新的"异构数据集挖掘框架",该框架专注于混合聚类方法。 这篇论文的标题"异构数据集挖掘框架"揭示了研究的核心焦点,即开发一种能够有效处理不同类型属性的聚类算法。作者们注意到,许多先前的研究已经在尝试利用各种聚类策略,但这些策略要么依赖于属性的预处理,将它们转换成同质类型,要么假设属性间的相似性度量是固定的。然而,这样的做法可能会牺牲数据的原始信息。 论文的主要贡献在于提出了一种新的混合相似性度量方法,它能够在不改变数据特征的情况下,识别并聚集具有异质属性的相似对象集。这种方法能够更好地保留数据的多样性,并在处理异构数据集时提供更精确的结果。混合聚类算法的设计旨在适应不同类型属性的数据,例如,它可能包括对数值型数据的距离计算、二进制数据的逻辑运算,以及对名义和序数数据的编码处理,以确保在综合考虑所有属性的基础上进行有效的聚类。 此外,论文还提到了实验部分的结果,展示了新提出的聚类算法在实际应用中的优势。与传统的聚类算法相比,该算法在保持信息完整性和提高分类准确率方面表现出色。研究结果发表在2017年国际会议"智能计算系统"(ICICS)上,由Sona技术学院主办,且被收录在Elsevier的SSRN电子图书馆中,期刊为《信息系统与电子商务网络》(Journal of Information Systems & e-Business Network),ISSN为1556-5068。 这篇研究论文不仅为解决异构数据集的聚类问题提供了新的视角,而且通过实践验证了其在提高聚类性能方面的有效性。这对于数据科学家和工程师来说,是一个有益的工具,特别是在处理大量现实世界复杂数据集时,能够有效地提取有价值的信息和知识。