基于平均包含度的VPRS分类新方法提升大数据集精度

需积分: 9 0 下载量 121 浏览量 更新于2024-09-11 1 收藏 1.06MB PDF 举报
本文主要探讨了在大数据时代背景下,如何通过改进的变精度粗糙集(Variable Precision Rough Set,VPRS)分类方法来应对数据挖掘中的挑战。传统VPRS依赖于人为设定的边界阈值[β],这在处理复杂多变的数据集时往往显得不足。论文提出了一个新颖的[β]边界阈值选取策略,即利用平均包含度作为选择上、下近似集的依据。 平均包含度作为一种统计指标,能够根据数据集的特性动态调整阈值,使得算法能更有效地区分信息量较大的条件属性,将其归入正域。这样做的好处在于,即使面对噪声、模糊性和不完整性的数据,也能生成更加优化的阈值,从而提高分类精度,同时保持在训练时间上的效率。 作者们针对粗糙集理论在实际应用中的局限性进行了深入研究,特别关注了粗糙集处理不确定性和模糊信息的能力。他们强调了在机器学习、知识获取、决策分析等领域,精确度和处理不确定数据的重要性。论文还提到了项目资助背景,包括国家自然科学基金、甘肃省自然科学基金等多个项目的资金支持,这表明了该研究具有重要的理论价值和实践意义。 文章以西北师范大学计算机科学与工程学院的研究团队——李志磊、蒋芸、胡学伟和沈健为主导,他们结合粗糙集理论和数据挖掘技术,对基于[β]边界阈值选取的VPRS进行了深入的实验验证。实验结果显示,改进后的算法不仅提高了分类精度,而且在处理复杂数据集时表现出了更好的适应性,证明了其在实际应用中的可行性。 这篇论文为粗糙集理论在大数据处理中的应用提供了一个新的视角和方法,对于提升数据挖掘的效率和准确性具有重要的推动作用。未来的研究可以进一步探索如何将这种方法推广到其他领域,如人工智能、深度学习等,以应对更复杂的数据挑战。