MDLP-Apriori算法改进:离散Shannon熵值在标签排序中的应用
需积分: 21 99 浏览量
更新于2024-08-12
收藏 1.02MB PDF 举报
"这篇论文是2016年由于磊、王普、赵寒和翁壮等人发表的,探讨了如何提高Apriori算法在标签等级排序中的辨识度。他们提出了一种基于最小描述长度原则(MDLP)的Apriori算法,结合离散Shannon熵值,以增强对等级排序中分割点的识别能力,从而更精确地分析标签的微小差异。在合成数据集和KEBI测试数据集上的实验结果显示,MDLP-Apriori算法在Kendall系数精度、偏差以及分区数量等方面表现出优越性。此外,论文还提供了选择最小支持度的标准。该研究属于工程技术领域,特别关注数据挖掘和控制科学与工程。"
本文的核心内容是改进Apriori算法以解决其在标签等级排序时的不足。传统Apriori算法在处理标签等级排序时可能无法有效识别和区分细微的差异,这在一些需要精细化分析的应用中是不理想的。为此,研究者引入了最小描述长度原则(MDLP)来提升算法的性能。MDLP是一种信息理论概念,用于衡量模型的复杂性和它对数据的描述能力。通过将MDLP与Apriori算法结合,可以优化分割点的选择,增强算法对等级变化的敏感性。
在离散Shannon熵值方面,Shannon熵是衡量信息不确定性的经典指标。研究者在此基础上增加了额外参数,使得算法能够更准确地评估标签等级的混乱程度。这种改进使得算法能够在保持计算效率的同时,更好地捕捉数据集中的细微模式。
在实验部分,MDLP-Apriori算法在合成数据集和KEBI测试数据集上进行了验证。实验结果表明,改进后的算法在Kendall系数的精度和偏差指标上表现优秀,Kendall系数是衡量排序一致性的一种方法。同时,MDLP-Apriori算法在分区数量的控制上也优于其他对比算法,这意味着它可以更有效地识别数据的结构。
最后,论文提供了选择最小支持度的指导,这是一个关键参数,影响着算法对频繁项集的挖掘。选择合适的支持度可以帮助避免过拟合或欠拟合,确保算法的泛化能力和效率。
这篇论文通过结合MDLP和离散Shannon熵值,提出了一种新的Apriori变体,提高了标签等级排序的准确性,对数据挖掘和控制科学领域的研究具有积极的贡献。这种方法可以应用于各种需要精细化分析标签等级的场景,如市场细分、用户行为分析等。
217 浏览量
232 浏览量
253 浏览量
2022-09-24 上传
2021-08-15 上传
1525 浏览量
1497 浏览量
2021-09-11 上传
点击了解资源详情
weixin_38587924
- 粉丝: 4
- 资源: 991
最新资源
- 实战部署UC平台(OCS=VOIP GW=Exchange2007).pdf
- thinking in java
- 嵌入式Linux Framebuffer 驱动开发.pdf
- grails入门指南
- Apress.Pro.OGRE.3D.Programming.pdf
- Linux设备驱动开发详解讲座.pdf
- GoF+23种设计模式
- Wrox.Python.Create.Modify.Reuse.Jul.2008
- sd卡spi模式翻译资料
- 最新计算机考研专业课程大纲
- oracleproc编程
- Google-Guice-Agile-Lightweight-Dependency-Injection-Framework-Firstpress
- oracle工具TOAD快速入门
- Unix 操作命令大全
- ARM映象文件及执行机理
- rhce教材RH033 - Red Hat Linux Essentials