没有合适的资源?快使用搜索试试~ 我知道了~
0AASRI Procedia 5 ( 2013 ) 228 – 23402212-6716 © 2013 The Authors. Published by Elsevier B.V.under responsibility of American Applied Science Research Institute doi:10.1016/j.aasri.2013.10.0830ScienceDirect02013年美国应用科学研究学会并行与分布式计算与系统会议0关联规则隐藏的质量度量0Hui Wang*0中国武汉市解放公园路38号国防信息学院信息技术系0摘要01. 引言0自出现以来,一些从数据挖掘中提取的知识可能被认为是敏感的,可能会揭示敏感的秘密并引起严重的隐私问题[1-3]。这个问题通过隐私保护数据挖掘来处理。0*通讯作者。电话:+0-000-000-0000;传真:+0-000-000-0000。电子邮件地址:author@institute.xxx。0在www.sciencedirect.com上在线提供0© 2013 The Authors. Published by Elsevier B.V.responsibility of American Applied Science Research Institute0在CC BY-NC-ND许可下开放访问。0在CC BY-NC-ND许可下开放访问。0229 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 2340隐私保护数据挖掘是数据挖掘中的一项新研究方向。它分析了在数据隐私中产生的副作用。隐私保护数据挖掘通过以较少影响非敏感知识的方式修改原始数据库,隐藏敏感知识。已经提出了许多隐藏方法。通常,在发现关联规则和隐藏需求的基础上,在数据挖掘过程之后手动或自动执行敏感关联规则的隐藏。提高效率和质量的空间仍然很大。该工作侧重于隐藏方法的质量度量,以指导敏感关联规则隐藏过程。本文的剩余部分如下所述。第2节描述了关联规则隐藏的问题。第3节介绍了质量度量方法。第4节介绍了关联规则隐藏策略。结论和未来工作在最后一节中描述。02. 问题描述0关联规则隐藏是一种经典的知识隐藏方法,它处理的是以使敏感关联规则消失的方式修改原始数据库,同时不严重影响原始数据和非敏感规则。给定从特定数据集中挖掘出的一组关联规则,并被认为是敏感的,关联规则隐藏的任务是适当地对原始数据进行清理,以便任何应用于数据的清理版本的关联规则挖掘算法在某些参数设置下无法发现敏感规则,同时能够在相同或更高的参数设置下挖掘出在原始数据集中出现的所有非敏感规则和其他规则[4-5]。这是非常具有挑战性的。02.1. 隐藏敏感频繁项集0假设原始数据库表示为D-original,预定义的最小支持阈值为0将所有频繁项集的集合表示为F-original。令F-sensitive = {s | sF-original且s是敏感的}。敏感频繁项集隐藏的目标是从D-original构建一个新的、经过清理的数据库D-sanitized,使得F-sensitive F-sanitized=,其中F-sanitized是在相同的预定义最小支持阈值下(或更高)在D-sanitized上的所有频繁项集,同时较少影响非敏感项集,即F-sanitized = F-original -F-sensitive。为了隐藏敏感项集,隐私保护算法必须修改原始数据库D-original,使得当在相同(或更高)级别的支持下对清理后的数据库D-sanitized进行挖掘时,发现的频繁项集都是非敏感的。02.2. 隐藏敏感关联规则0假设原始数据库表示为D-original,预定义的最小支持和置信度阈值分别为和,满足和的所有关联规则的集合表示为R-original。令R-sensitive = {r | rR-original且r是敏感的}。关联规则隐藏的目标是从D-original构建一个新的、经过清理的数据库D-sanitized,使得R-sensitive R-sanitized=,其中R-sanitized是在D-sanitized上以相同的预定义最小支持阈值和最小置信度阈值(或更高)满足和的所有关联规则的集合,同时较少影响非敏感的关联规则,即F-sanitized = R-original - R-sensitive。0230 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 23402.3. 隐藏需求描述0给定P:IPPR隐藏需求使用R敏感进行描述。左半边被认为是敏感的,并包含在r的左手iP左i rR敏感中。目标是通过将置信度降到预定义的最低置信度阈值以下来隐藏R敏感中的规则。根据置信度的定义,可以通过增加左手的支持度或减少右手的支持度来降低规则的置信度来实现。03. 隐藏的质量度量0隐藏效果的质量很重要。质量测量衡量了隐藏效果、副作用和数据库效果。定义隐藏速率、丢失速率、错误速率和修改速率如下所示。03.1. 隐藏率0隐藏速率用于度量敏感关联规则隐藏的质量。它衡量了所有敏感规则中隐藏的关联规则的百分比。0C r R r r C r C r R r r速率隐藏敏感0敏感0较低的隐藏率越好。最好的情况是隐藏率为100%,即所有敏感规则在相同(或更高)阈值和的情况下都可以隐藏。03.2. 丢失率0丢失率是衡量隐藏副作用的指标。它衡量的是在所有非敏感规则中,丢失的关联规则所占的百分比。0C r R r r C r C r R r r rate lost se0敏感0较低的丢失率越好。在相同(或更高)阈值和的情况下,经过处理的数据库中不应该丢失任何在原始数据库中达到支持度和置信度的规则。03.3. 误报率0误报率也是衡量副作用的指标。它衡量的是在所有置信度低于预定义最小置信度阈值的规则中,误报关联规则所占的百分比。0r C r C r r C r rate false 0231 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 2340较低的误报率越好。在相同(或更高)阈值和的情况下,挖掘经过处理的数据库时不应产生任何误报规则。03.4. 修改率0修改率用于衡量数据库转换的工作量。它衡量的是在整个数据库中修改的事务所占的百分比。0*100% | | }| | {| original D sanitized r在D original D r r rate altered中被修改0较低的修改率越好。修改的事务越多,处理时间就越长。04. 转换策略0假设关联规则的左手包含一些预测项,而推断出关联规则的右手是非常关键的。关联规则的右手可能包含多个项,只需要隐藏右手中的一个项,而不是多个项。我们有如下定理1。04.1. 定理10给定0right i left i I right I and i left i B and A and B A R right i B left i A R right i left i A0以下结论成立: confidence(A {i-left} B {i-right})<=confidence(A {i-left}{i-right}) 证明: 根据规则置信度的定义:0( ) ) ( ) ( support A B support A Bconfidence A0( ) }) { } { ( }) { } { ( support A right i left i support A right i left i confidenceA0( ) }) { } { ( }) { } { ( support A right i B left i support A right i B left i confidence A0根据规则支持度的定义:0} | , ) (|) , |{( ( ) I A A T D tid T tid T support A0support(A {i-left} {i-right}) >= support(A {i-left} {i-right})0因此,以上结论成立。 0232 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 23404.2. 策略0这些策略基于定理1。根据定理1,如果隐藏了类似A { i-left } { i-right }这样的关联规则,那么所有类似A { i-left} B { i-right } ( B )的关联规则都会被隐藏。为了隐藏类似A { i-left } { i-right }这样的规则,需要检查包含{ i-left,i-right}的事务,并增加事务中项i-left的出现次数以增加左手的支持度,或者减少事务中项i-right的出现次数以减少右手的支持度。重复进行数据库的转换,直到达到良好的质量度量。04.3. 示例0假设F={a,b,c}; P={c}; =2;=0.75。目标是隐藏左手中包含项c的规则。我们考虑一个事务的转换时产生的隐藏效果和副作用。让数据库表示为二进制向量,其中1表示事务中包含的项,0表示事务中不包含的项。(1) 减少右手支持度 让D-original={011,111,111,110,100,001}我们减少项b的出现次数,以隐藏右手包含项b的规则,同时左手包含项c。例如,我们让项b在D-sanitized的第1个事务中消失。D-sanitized={001,111,111,110,100,001}。此步骤的结果如表1所示,其中隐藏率为50%,丢失率为25%,误报率为1/7。0表1. 通过减少项b的支持度进行隐藏0规则集 规则 C(D-original) C’(D-sanitized) 状态0隐藏0c a 2/4 2/4 保留0c b 3/4 2/4 隐藏0c ab 2/4 2/4 保留0ac b 2/2 2/2 失败0bc a 2/3 2/2 误报0可能是误报0a b 3/4 3/4 保留0a c 2/4 2/4 保留0a bc 2/4 2/4 保留0可能是丢失0ab c 2/3 2/3 保留0b a 3/4 3/3 保留0b c 3/4 2/3 丢失0b ac 2/4 2/3 保留0(2) 增加左手支持度 让D-original={111,111,111,110,100,101} 0233 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 2340我们增加了项c的出现次数,以隐藏右手包含项a的规则,同时左手包含项c。例如,我们让项c在D-sanitized的第5个事务中出现。D-sanitized={111,111,111,110,101,101}。此步骤的结果如表2所示,其中隐藏率为60%,丢失率为0,误报率为1/3。0表2. 通过增加项c的支持度进行隐藏0规则集 规则 C(D-original) C’(D-sanitized) 状态0隐藏0c a 4/4 5/5 失败0c b 3/4 3/5 隐藏0c ab 3/4 3/5 隐藏0ac b 3/4 3/5 隐藏0bc a 3/3 3/3 失败0可能是误报0a b 4/6 4/6 保留0a c 4/6 5/6 误报0a bc 3/6 3/6 保留0可能是丢失0ab c 3/4 3/4 保留0b a 4/4 4/4 保留0b c 3/4 3/4 保留0b ac 3/4 3/4 保留05. 结论0目前,关于保护关联规则隐私的方法基本上都基于相同的调整支持度和置信度的基本理论。这项工作侧重于隐藏方法的质量度量,以指导敏感关联规则的隐藏过程。定义了几个关键的质量度量。描述了敏感关联规则隐藏的要求。提出了数据库的转换策略。给出了示例并比较了质量度量。研究人员提出了许多算法,当前隐藏方法的改进空间非常大。达到每个最佳质量度量是非常具有挑战性的。0参考文献0[1]VS Verykios和AGkoulalas-Divanis,“隐私保护关联规则隐藏方法综述”,《隐私保护数据挖掘:模型和算法》,Springer BerlinHeidelberg,2008年,第267-289页。[2]A Gkoulalas-Divanis和VSVerykios,“隐私保护数据挖掘:我们能走多远?”,《公共和私人部门数据挖掘研究手册:组织和政府应用》,IGIGlobal,2009年,第1-21页。[3]A Agrawal,U Thakar,R Soni和BKChaurasia,“效率增强的关联规则挖掘技术”,在D Nagamalai,E Renault和M Dhanushkodi(eds.)PDCTA2011,CCIS,vol. 203,2011年,第0234 Hui Wang / AASRI Procedia 5 ( 2013 ) 228 – 2340375-384. [4]A Gkoulalas-Divanis 和 VS Verykios,“数据挖掘中的关联规则隐藏”,Advances inDatabase Systems 41,Springer Science Business Media,LLC 2010. [5]Shyue-Liang Wang ,BhaveshParikh,Ayat Jafari,“隐藏信息化关联规则集”,Expert Systems with Applications 33 (2007),pp.316-323.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功