改进的不确定频繁子图挖掘算法EDFS:效率与精度提升

需积分: 10 1 下载量 135 浏览量 更新于2024-09-06 收藏 542KB PDF 举报
该篇论文深入探讨了在不确定图数据挖掘领域的一个关键问题,即如何设计一种高效的算法来挖掘频繁子图。随着图结构在众多科学领域中的广泛应用,特别是对于复杂数据对象的建模,图数据的规模、增长速度和不确定性成为研究挑战。当前的图挖掘算法,如AGM、FSG、GSpan、FFSM、CloseGraph和SPIN等,尽管在确定性子图挖掘方面有所贡献,但在处理不确定性和冗余性上存在不足。 MUSE算法作为典型的例子,虽然在不确定子图挖掘中起着重要作用,但其存在计算期望支持度效率低、时间性能不佳的问题。为了克服这些问题,研究人员提出了EDFS算法,该算法结合了划分思想和混合搜索策略。首先,它利用改进版的GSpan算法对不确定子图数据进行预处理,这一步旨在优化数据结构,减少后续搜索的复杂性。其次,通过剪枝子图模式的搜索空间,EDFS算法避免了重复挖掘,提高了算法的效率。最后,采用基于划分的思想进行混合策略,有效地挖掘频繁子图,实现了对不确定子图的高效挖掘。 实验结果通过子图同构与边存在概率的对比,证实了EDFS算法在挖掘不确定数据频繁子图方面的优势,相比于现有算法,它能够显著降低时间复杂度,提升挖掘速度,减少了冗余操作。论文作者胡健、何林波、毛伊敏和杨健来自江西理工大学,他们分别来自应用科学学院和信息工程学院,他们的研究工作对不确定频繁子图挖掘领域的理论发展和技术进步做出了重要贡献,这对于实际应用中的大规模图数据分析具有重要意义。