没有合适的资源?快使用搜索试试~ 我知道了~
首页索引效用优化的Top-k高效率项集挖掘技术
"基于索引效用的Top-k高效用项集挖掘方法 (2016年)" 这篇2016年的研究论文主要关注的是在数据挖掘领域中的Top-k高效用项集挖掘问题。传统的Top-k高效用项集挖掘方法存在一个显著的挑战,即在保持向下封闭性的前提下,它们通常会利用项集的事务效用来估计其真实效用,这可能导致项集的效用被过高估计,从而影响剪枝策略的效果,降低了挖掘效率。作者林树宽、王晓丛、乔建忠和王蕊提出了一种创新的解决方案,引入了“索引效用”的概念。 他们构建了两级索引结构,以此来改善挖掘过程中的剪枝效果。这种索引效用的引入能够更准确地评估项集的实际效用,避免了由于过高的效用估计而导致的无效计算。同时,通过建立效用矩阵,该方法支持对项集效用的快速计算,进一步提升了挖掘效率。 论文中提到的“尾超项集”是高效用项集挖掘中的一个重要概念,它是指那些包含低效用项但整体效用仍较高的项集。效用矩阵的运用使得处理这些项集变得更加高效,因为它可以快速确定哪些项集值得进一步扩展,哪些可以立即剪枝。 实验部分,研究人员在不同类型的数据库上验证了他们提出的Top-k高效用项集挖掘方法。这些实验结果证实了该方法在有效性和效率方面的优越性,表明它能够在保持准确性的同时,显著提高挖掘速度。 这篇论文由国家自然科学基金资助,发表在2016年1月的《东北大学学报(自然科学版)》第37卷第1期上,doi:10.3969/j.issn.1005-3026.2016.01.006。关键词包括项集效用、索引效用、Top-k高效用项集和效用矩阵,这表明研究的重点在于如何优化这些核心概念以提升数据挖掘性能。
资源详情
资源推荐
书书书
收稿日期:2014 -10 -31
基金项目:国家自然科学基金资助项目(61272177).
作者简介:林树宽(1966 -),女,吉林长春人,东北大学教授;乔建忠(1964 -),男,辽宁兴城人,东北大学教授,博士生导师.
第3 7 卷第1 期
2 0 1 6 年 1 月
东 北 大 学 学 报 ( 自 然 科 学 版 )
Journal of Northeastern University(Natural Science)
Vo l.37,No.1
Jan.
2 0 1 6
doi:10.3969 /j.issn.1005 -3026.2016.01 .006
基于索引效用的 Top -k 高效用项集挖掘方法
林树宽,王晓丛,乔建忠,王 蕊
(东北大学 信息科学与工程学院,辽宁 沈阳 1 10819)
摘 要:已有的 Top -k 高效用项集挖掘为了保持向下封闭性,利用项集的事务效用代替其真实效用,使
得项集效用被估计得过大,导致剪枝效果不好,挖掘效率较低.针对这一问题,提出了索引效用的概念,在此基
础上建立两级索引,并进行索引剪枝,增强了挖掘中剪枝的效果,提高了 Top -k 高效用项集挖掘的效率;此
外,通过建立效用矩阵,支持对项集效用的快速计算,进一步提高了挖掘效率.不同类型数据集上的实验验证
了所提出的 Top -k 高效用项集挖掘方法的有效性和高效性.
关 键 词:项集效用;索引效用;Top -k 高效用项集;尾超项集;效用矩阵
中图分类号:TP 39 1 文献标志码:A 文章编号:1005 -3026(2016)01 -0024 -05
A Top-k High Utility Itemset Mining Method Based on the Index
Utility
LIN Shu-kuan,WANG Xiao-cong,QIAO Jian-zhong,WANG Rui
(School of Information Science &Engineering,Northeastern University,Shenyang 1 10819,China.Corresponding
author:LIN Shu-kuan,E-mail:linshukuan@ise.neu.edu.cn)
Abstract:The existing methods of Top-k high utility itemset mining substitute the transaction
utilities of itemsets for their real utilities in order to keep the downward closure property.This
makes the utilities of itemsets be estimated too large,resulting in bad pruning effect and low
mining efficiency.To solve this problem,the concept of the index utility was proposed.On this
basis,the two-level index was built and pruned,by which the pruning effect was strengthened and
the efficiency of Top-k high utility itemset mining was enhanced.Moreover,the fast calculation of
itemset utilities was supported by building the utility matrix.Therefore,the mining efficiency was
further enhanced.The experiments on different types of datasets validate the effectiveness and the
efficiency of the proposed method.
Key words:itemset utility;the index utility;Top-k high utility itemset;ending super itemset;
utility matrix
频繁项集挖掘是数据挖掘领域的研究热点,
在顾客购买行为分析
[1 -2]
、网络入侵检测
[3 -4]
等
许多领域 有着广泛的应用.传统 的频繁项集挖
掘
[5 -8]
只依据项集出现的次数决定其频繁性,没
有考虑项集的重要程度.近年来,高效用项集挖掘
越来越受到关注
[9 -13]
,这里,效用是综合考虑项
集出现次数和重要程度(对应单价或权重)的衡
量指标.给定最低效用阈值,效用高于该阈值的项
集称为高效用项集.然而,在实际挖掘过程中,指
定大小合适的效用阈值并不容易,给定的阈值过
大或过小,都会影响高效用项集挖掘的效果.为
此,本文对 Top -k 高效用项集挖掘方法进行研
究,用户无需指定效用阈值,Top -k 高效用项集
挖掘将给出效用最高的前 k 个项集.然而,Top -k
高效用项集挖掘失去了向下封闭性,使挖掘中的
剪枝过程面临挑战.已有的 Top -k 高效用项集
挖掘方法
[14]
为了保持向下封闭性,用项集所在的
事务效用代替其真实效用对候选项集进行剪枝,
使得项集的效用被估计得过高,剪枝效果不明显,
导致挖掘效率低.针对这一问题,本文提出了基于
下载后可阅读完整内容,剩余4页未读,立即下载
weixin_38684509
- 粉丝: 4
- 资源: 914
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功