MDLP-Apriori算法改进:离散Shannon熵值在标签排序中的应用

需积分: 21 0 下载量 42 浏览量 更新于2024-08-12 收藏 1.02MB PDF 举报
"这篇论文是2016年由于磊、王普、赵寒和翁壮等人发表的,探讨了如何提高Apriori算法在标签等级排序中的辨识度。他们提出了一种基于最小描述长度原则(MDLP)的Apriori算法,结合离散Shannon熵值,以增强对等级排序中分割点的识别能力,从而更精确地分析标签的微小差异。在合成数据集和KEBI测试数据集上的实验结果显示,MDLP-Apriori算法在Kendall系数精度、偏差以及分区数量等方面表现出优越性。此外,论文还提供了选择最小支持度的标准。该研究属于工程技术领域,特别关注数据挖掘和控制科学与工程。" 本文的核心内容是改进Apriori算法以解决其在标签等级排序时的不足。传统Apriori算法在处理标签等级排序时可能无法有效识别和区分细微的差异,这在一些需要精细化分析的应用中是不理想的。为此,研究者引入了最小描述长度原则(MDLP)来提升算法的性能。MDLP是一种信息理论概念,用于衡量模型的复杂性和它对数据的描述能力。通过将MDLP与Apriori算法结合,可以优化分割点的选择,增强算法对等级变化的敏感性。 在离散Shannon熵值方面,Shannon熵是衡量信息不确定性的经典指标。研究者在此基础上增加了额外参数,使得算法能够更准确地评估标签等级的混乱程度。这种改进使得算法能够在保持计算效率的同时,更好地捕捉数据集中的细微模式。 在实验部分,MDLP-Apriori算法在合成数据集和KEBI测试数据集上进行了验证。实验结果表明,改进后的算法在Kendall系数的精度和偏差指标上表现优秀,Kendall系数是衡量排序一致性的一种方法。同时,MDLP-Apriori算法在分区数量的控制上也优于其他对比算法,这意味着它可以更有效地识别数据的结构。 最后,论文提供了选择最小支持度的指导,这是一个关键参数,影响着算法对频繁项集的挖掘。选择合适的支持度可以帮助避免过拟合或欠拟合,确保算法的泛化能力和效率。 这篇论文通过结合MDLP和离散Shannon熵值,提出了一种新的Apriori变体,提高了标签等级排序的准确性,对数据挖掘和控制科学领域的研究具有积极的贡献。这种方法可以应用于各种需要精细化分析标签等级的场景,如市场细分、用户行为分析等。