OpenCL加速频繁项集挖掘:一种CPU-GPU异构算法

需积分: 10 9 下载量 111 浏览量 更新于2024-07-25 收藏 7.29MB PDF 举报
"基于OpenCL的频繁项集挖掘研究" 随着信息技术的飞速进步,数据的爆发式增长使得处理海量数据成为数据挖掘领域的关键问题。为了高效挖掘这些数据中的有价值信息,研究者开始探索如何利用成本效益高的方法进行数据挖掘。GPU(图形处理器)通用计算能力的不断提升,为解决这一挑战提供了新思路。GPU从最初的专门图形处理单元发展为如今的通用计算平台,挑战传统的超级计算机架构。由于数据挖掘任务高度依赖计算能力,现代GPU的大规模并行计算特性为加速数据挖掘算法带来了可能。 关联规则学习是数据挖掘中的核心技术,频繁项集挖掘作为关联规则的基础,其效率直接影响整体算法的性能。本文聚焦于利用GPU的通用计算能力,特别是OpenCL框架,来优化频繁项集挖掘过程。OpenCL是一个开放标准,旨在促进跨平台的并行编程,尤其适合多核和GPU的异构计算环境。作者通过对过去频繁项集挖掘研究的分析,设计了一种结合CPU和GPU的异构执行算法,利用OpenCL创建大量并发线程以加速Apriori算法的计算密集部分。实验中,他们采用了OpenCL的Java接口进行具体实现,并比较了相同级别CPU和GPU上的改进算法与原始算法的性能。 实验结果显示,改进后的算法在处理稀疏数据集时展现出更好的加速效果,随着支持度降低,加速比显著增加,最高可达约20倍。此外,文章还初步探讨了使用OpenCL的LocalMemory机制优化事务数据访问的可能性。尽管在稠密数据集上,这种优化策略实现了约10%的性能提升,但对稀疏数据集的影响不明显。作者在论文末尾提出了未来研究可以进一步改进的方向,这包括但不限于更深入地探索GPU本地内存的优化潜力,以及针对不同数据特性的优化策略。 这篇硕士论文展示了OpenCL在加速数据挖掘,尤其是频繁项集挖掘方面的潜力,为利用GPU提升计算密集型任务的效率提供了新的视角和实践案例。它不仅在理论上有一定的贡献,也为实际应用提供了有价值的参考。