云计算环境下的大数据均匀分布不确定关联规则变粒度查询

173 浏览量更新于2024-08-26 收藏 2.95MB PDF 举报

"均匀分布下不确定数据的关联规则变粒度查询" 在大数据时代，云计算作为基础设施，为数据的存储、处理和分析提供了强大的支持。关联规则挖掘是数据分析中的一个重要环节，它能揭示数据间的隐藏模式，帮助用户理解数据集中的关联性。然而，由于隐私保护的需要，大数据中常常包含人为引入的不确定因素。这些不确定数据可能是通过精确数据的泛化处理形成的，具有均匀分布的特性。虽然这种特性降低了精确查询的效率，但它为关联规则挖掘结果的变粒度查询提供了可能。均匀分布不确定数据关联规则的挖掘过程中，作者提出了UFI-DM算法。这个算法能够处理具有均匀分布不确定性的数据，生成关联规则库。为了提升查询效率，研究者进一步利用Hilbert packed R树索引来加速对泛化标识符和敏感属性的查询。R树是一种多维空间数据的索引结构，而Hilbert packing则优化了R树的空间利用率，使得在大数据环境下的查询更加高效。在构建了关联规则库和索引后，文章提出了泛化值粒度转换方法。这种方法允许用户根据需求调整查询的粒度，从而获取不同级别的详细程度的挖掘结果。同时，配合提出的U-ARS查询算法，用户能够方便地进行变粒度查询，即在保持查询结果相关性的前提下，改变查询的精度，以满足不同场景下的信息需求。理论分析和实验对比验证了该方法的有效性和可行性。通过这种方式，用户可以对不确定数据的关联规则挖掘结果进行透明化的查询，解决了大数据挖掘结果查询中的隐私问题，同时保证了查询效率和结果的灵活性。这篇研究工作主要贡献在于提供了一种在均匀分布不确定数据上的关联规则变粒度查询方案，包括UFI-DM算法、泛化值粒度转换方法和U-ARS查询算法，这些方法对于处理大数据环境中的隐私保护和查询效率问题具有重要的实践意义。

展开