异构数据集混合聚类框架：保持信息完整性

需积分: 8 118 浏览量更新于2024-08-12 收藏 696KB PDF 举报

在信息技术领域，异构数据集挖掘是一项重要的研究课题，因为现实世界中的数据往往包含不同类型的属性，如数值、二进制、名义和序数属性。传统聚类算法假设数据集是同质的，但在处理异构数据时可能会导致信息丢失。为了克服这个问题，本文提出了一个创新的"异构数据集挖掘框架"，该框架专注于混合聚类方法。这篇论文的标题"异构数据集挖掘框架"揭示了研究的核心焦点，即开发一种能够有效处理不同类型属性的聚类算法。作者们注意到，许多先前的研究已经在尝试利用各种聚类策略，但这些策略要么依赖于属性的预处理，将它们转换成同质类型，要么假设属性间的相似性度量是固定的。然而，这样的做法可能会牺牲数据的原始信息。论文的主要贡献在于提出了一种新的混合相似性度量方法，它能够在不改变数据特征的情况下，识别并聚集具有异质属性的相似对象集。这种方法能够更好地保留数据的多样性，并在处理异构数据集时提供更精确的结果。混合聚类算法的设计旨在适应不同类型属性的数据，例如，它可能包括对数值型数据的距离计算、二进制数据的逻辑运算，以及对名义和序数数据的编码处理，以确保在综合考虑所有属性的基础上进行有效的聚类。此外，论文还提到了实验部分的结果，展示了新提出的聚类算法在实际应用中的优势。与传统的聚类算法相比，该算法在保持信息完整性和提高分类准确率方面表现出色。研究结果发表在2017年国际会议"智能计算系统"（ICICS）上，由Sona技术学院主办，且被收录在Elsevier的SSRN电子图书馆中，期刊为《信息系统与电子商务网络》（Journal of Information Systems & e-Business Network），ISSN为1556-5068。这篇研究论文不仅为解决异构数据集的聚类问题提供了新的视角，而且通过实践验证了其在提高聚类性能方面的有效性。这对于数据科学家和工程师来说，是一个有益的工具，特别是在处理大量现实世界复杂数据集时，能够有效地提取有价值的信息和知识。

weixin_38651165

粉丝: 4

异构数据集混合聚类框架：保持信息完整性

基于OpenCL的频繁项集挖掘研究

多数据库挖掘 毕业论文

科学数据挖掘网格服务框架* (2007年)

论文研究-校园大数据分析系统设计与实现 .pdf

基于Map_Reduce的改进选_省略_在云计算的Web数据挖掘中的研究

基于地域特征和异构社交关系的事件推荐算法研究

OpenCL加速频繁项集挖掘：一种CPU-GPU异构算法

遗传算法驱动的最佳频繁模式挖掘框架

时间感知实体集成：异构信息空间的新框架

LLE与LE驱动的异构多任务多视图聚类算法：数据挖掘新趋势

最新资源

多数据库挖掘毕业论文