没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种隐私增强的分布式数据挖掘混合安全模型Tanzeela Javid1,Zhao,Manoj Kumar Gupta2,Abhishek Gupta3计算机科学与工程系,Shri Mata Vaishno Devi大学,卡特拉,查谟和克什米尔,印度阿提奇莱因福奥文章历史记录:收到2020年2020年6月16日修订2020年6月26日接受2020年7月7日在线保留字:隐私增强数据挖掘四维旋转变换混合隐私增强数据挖掘模型A B S T R A C T这项研究包括一个新的混合安全模型,它结合了集中式数据挖掘系统以及分布式数据挖掘系统的好处的建议。混合模型提供两个级别的安全性。第一个安全级别通过使用四维旋转变换将其转换为不可理解的形式来扰动各个数据集,并且第二个安全级别有助于使用安全求和协议的比率来执行安全的分布式数据挖掘。通过k-means聚类技术和朴素贝叶斯分类技术等数据挖掘技术验证了混合安全模型的有效性和准确性混合安全模型为敏感数据提供了安全性,而不会影响数据的质量。在隐私增强的分布式数据挖掘环境中,使用朴素贝叶斯和k-means技术对不同数据集进行分类任务和聚类任务,验证了混合安全模型的有效性©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍对隐私的关注并不是针对某个特定群体的,它涵盖了整个人类。在这个数字化的时代,整个数字化世界所依赖的重要组成部分是数据。从社交网站、购物网站、医疗机构、银行、政府机构或商业机构等不同来源收集的数据经常被传输和分析,以从中提取有价值的知识。由匿名组织处理的机密数据会导致真正的隐私问题。 在确保数据机密性的完整过程中,的数据需要保持完整。*通讯作者。电子邮件地址:tanzeela. gmail.com(T.Javid),M.J. smvdu.ac.in(M.K.Gupta),abhishek. smvdu.ac.in(A. Gupta)。1邮政地址:House Number 2242 SBI Colony,Sector 42-C Chandigarh 160036,India。2邮政地址:Shri Mata Vaishno Devi大学计算机科学和工程系,卡特拉,查谟和克什米尔182320,印度。3邮政地址:Shri Mata Vaishno Devi大学计算机科学和工程系,卡特拉,查谟和克什米尔182320,印度。沙特国王大学负责同行审查制作和主办:Elsevier数据挖掘在过去的二十年里得到了极大的关注。数据挖掘由Han,Kamber和Pie定义为从巨大的数据库中分离有用的,隐藏的和有意义的全部信息的方法(Han等人,2006年)。数据挖掘的好处使社会的几乎每个领域都取得了进步。然而,有了好处,就有了代价。随着各种组织越来越频繁地收集和传输数据的数量和种类,个人对其机密信息的关注不断增加,他们对“隐私权”的兴趣是真实的。政府机构、商业或非营利组织等组织通过分析有关个人的机密信息来支持其长期和短期规划活动。这些信息主要包括客户购买、电话记录、社会安全号码、疾病类型和收入等详细信息。因此,有必要保护个人隐私,防止未经授权的访问。这些问题的解决方案是研究协会的长期目标,并导致许多基本的安全技术相结合,以提供新的隐私保护方法(亚当和沃特曼,1989年;Thuraisingham和福特,1995年;马克,1996年)。传送和分析的机密然而,众所周知,仅仅限制对敏感数据的访问并不能确保完全的敏感数据保护。随着云计算的出现,基于服务的计算正在成为占主导地位的范例。用户必须将他们的私人数据导出给第三方。由于这些第三方不在信任边界内https://doi.org/10.1016/j.jksuci.2020.06.0101319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comT. Javid等人/沙特国王大学学报3603hiPPiPiPi0对于数据所有者来说,外包数据的隐私是最优先考虑的问题之一数据挖掘是最流行的数据密集型任务之一,针对外包数据的隐私增强数据挖掘(privacy-enhancing datamining,PEDM)是利用公共计算资源的重要使能技术各种机制可用于在集中式和分布式系统中保护和增强机密数据的隐私我们提出了一个混合安全模型,有两个级别的安全。第一层通过将数据集转换为不可理解的形式来保护数据集,第二层(数据挖掘完成)提供分布式环境中数据挖掘过程的安全性四维旋转数据变换(4DRT)(Javid和Gupta,2019)技术保护了数据集,安全求和与有理数分布的比率(RSS-RD)保护了挖掘过程(Shao等人,2019年)的报告。扰乱数据集中的信息是安全的第一层。在混合安全模型中,采用了一种新的方法--几何数据变换族中的四维旋转变换技术,对数据集进行扰动,从原来的状态到另一个状态。几何数据变换包含多种扰动技术,其中4DRT技术安全性高,时间效率高。通过在原始数据值中加入噪声项来扰动数据值。该方法中的噪声项是角度h。角度h旋转初始属性,bute值由h度,和方程V0获得:新的扰动属性,R表示旋转矩阵,V是实际属性向量,V0是扰动属性向量。为了达到更好的准确性和保密性,我们可以轮换将原始数据值旋转一次以上,即通过将四维平面中的数据值旋转一定度数多次。在这项研究中,我们只使用了一次该技术。在隐私增强分布式数据挖掘(PEDDM)中,多个数据所有者不想与其他用户共享他们的数据,但他们非常有兴趣通过使用竞争对手收集的数据为了解决这个问题,人们进行了大量的研究,并提出了一种重要的方法,称为安全多方计算(SMC)。基于SMC,不同的数据使用者可以使用多个数据集的聚合计算,而不需要知道数据所有者所持有的数据SMC由各种原型组成,其中经常使用的是隐私增强分布式数据挖掘环境中的安全求和(RSS)比率(Yang和Nakagawa,2010)。使用RSS-RD,许多数据挖掘模型被构建并用于分布式数据挖掘目的,例如k均值聚类算法(Jagannathan和Wright,2005; Patel等人,2012; Upmanyu等人, 2010)、朴素贝叶斯分类模型(Vaidya等人,2008; Kantarcioglu等人,2003;Ye等人,2017),期望最大化聚类算法(Leemaqz等人,2017;Lin等人, 2005年)。 RSS是指SMC协议,通过该SMC协议,n个参与者(P1,. . ,Pn)可以计算出此外,在第5节中描述了实验及其模型和结果的工作。最后,第6节通过提供所提出的混合安全模型的优点和缺点来总结研究。2. 文献调查在数据挖掘和保护敏感数据的隐私方面做了很多工作。隐私增强数据挖掘(PEDM)是研究人员自20世纪后期以来一直在研究的研究领域。Purwar和Kumar在一项调查中列出了数据挖掘的七个问题,其中数据隐私和从分布式数据中挖掘是一项具有挑战性的任务(Purwa和Singh,2014)。所有的隐私增强数据挖掘(PEDM)技术分为两大类,即集中式PEDM技术和分布式PEDM技术。集中式PEDM技术在单个数据集上工作以提供数据安全性。集中式PEDM技术如下:随机化,其中随机添加的噪声项将数据从一个状态转换到另一个状态(Adam和Wortmann,1989;Muralidhar等人,1999年)。扰动、概率分布和几何 变 换 将 数 据 转 换 为 不 可 理 解 的 形 式 ( Ateniese 等 人 , 2015 年 ;Agrawal和Srikant,2000年)。阻塞通过用任何符号替换数据值来隐藏 敏 感 规 则 ( Saygin 等 人 , 2002; Wang 和 Jafari , 2005;Amiri ,2007)。交换通过交换数据集中的值来创建随机化效果。密码加密,包括传统的加密技术(Verykios,2013)。匿名化,保护数据集的一些匿名 化 模 型 包 括 k- 匿 名 ( Sweeney , 2002 ) , l- 多 样 性(Machanavajjhala等人,2007; Fung等人,2010),t-接近度(Li例如,2007年; Aggarwal,2015年)、ε差动保护模型(Dwork,2006年; Dankar和Emam,2013年)和个性化匿名(Xiao和Tao,2006年 ) 。 关 联 规 则 隐 藏 了 敏 感 的 规 则 并 保 护 了 关 联 规 则 挖 掘 过 程(Atallah例如,1999; Verykios,2013; Aggarwal,2015)。降级分类器有效性降低了数据挖掘过程中使用的分类器的效率(Shokri等人,2016; Ateniese等人,2015;Zhang等人,2018年; Ji等人,2016年)。查询审计和推理控制,拒绝某些查询或允许某些查询执行(Shoshani,1982; Adam和Wortmann,1989)。Estivill-Castro和Brankovic(1999年)在他们的论文中提到了一个一种在隐藏关键信息的同时,揭示数据的部分细节,并允许同时挖掘和探索细节数据的方法。在他们的方法中,交换决策树中叶节点的机密属性使训练数据随机化。Agrawal和Srikant(2000)介绍了一种方法,该方法将单个数据的实际值替换为新值,该新值是通过使用概率分布将任意值添加到决策树分类器中的旧数据属性而获得的贝叶斯重构算法对原始数据进行重构主要的缺点比率ni¼0x /ni¼0 y i 其中(x i,y i)是一对秘密数据在这种方法中,丢失了一些信息。克服仅由Pi保持。整个协议过程中,既不显示(xi,yi)(Agrawal和Srikant,2000年)的缺点,作者赞成,向除P以外的任何一方披露,也不披露n的值1/4xi 和提出了一种基于期望最小化(EM)的算法任何参与方的任何一方一种新的方法来计算-I¼计算邵、洪、李提出的比例,共谋和半诚实攻击,而且还消除了执行计算的可信主设备第二部分概述了近二十年来的文献综述第三节提出了问题,并简要介绍了所提出的混合安全模型,然后详细介绍了开发该模型所使用的技术背景第四介绍了用于构建混合安全模型的分布式数据挖掘算法算法EM算法和贝叶斯重建是相同的,除了分区值到近似区间。Liew介绍了概率分布方法,该方法用一些其他特征或相同分布的特征来替换特征以扰动数据元素(Liew等人,1985年)。该方法通过在实际数据元素中加入一定的噪声,得到新的扰动特征。噪声可以是加性噪声或乘性噪声。Huang研究了Bayes估计技术和主成分分析的概念,从而给出了随机化技术重建成本的估计(Huang et al.,2005年)。Oliveira和Zaiane3604T. Javid等人/沙特国王大学学报提出了一种新的基于几何数据变换的扰动方法(Oliveira和Zaïane,2004)。独立于聚类算法是这种方法的关键特征。隐私增强数据挖掘提出了许多其他算法,主要包括随机决策树(Vaidya et al.,2014)改进的贝叶斯网络(Yang和Wright,2006)和SVM分类器(Lin和Chen,2011)。Pinkas提出了保护数据隐私的加密方法(Pinkas,2002)。关联规则隐藏方法是隐藏决策规则的常用方法之一(Verykios等人,2004年)。Somya等人(2016)给出了扰动数据集的三维变换方法,Javid和Gupta(2019)将这项工作进一步修改为四维旋转变换。在本文中,我们使用Javid和Gupta(2019)所做的工作,并为混合安全模型的第一级构建安全数据集。 四维旋转变换保护了分布式数据挖掘中使用的数据集,RSS-RD方法保证了分布式数据挖掘过程(Shaoet al., 2019年)的报告。PEDDM技术分为两大类:安全协议集和原语操作集。一组安全协议包括同态加密(Rivest等人,1978年;Gentry,坚持论文的结果。所使用的技术如下:3.1. 问题陈述在本节中,我们将简要讨论我们的混合安全模型布局。为了开发一个安全的模型,以提高用户的隐私,我们结合了两个PEDM技术,这将有助于在集中式数据挖掘系统以及在分布式数据挖掘系统中的个人信息的安全的效果。准确地说,问题陈述已经被定义为问题陈述已被分解并分两个阶段完成:第一阶段第二阶段算法1给出了为图1所示的隐私增强分布式数据挖掘设计的混合安全模型的总体步骤。1.一、2009)和不经意传输协议(Even等人, 1985年)。 组原始操 作包括诸 如安全求 和的和的 操作( Clifton 等人, 2002;Sheikh等人,2010),集合并集(Aggarwal,2015),集合交集,标量积(Clifton等人,2002; Goethals等人,2004),交叉点的安全尺寸(Freedman等人,2004年)。Vaidya和Kantarcioglu将所需的比率转换为等效的对数形式,并基于双方计算获得结果(Vaidya等人, 2008年)。这种方法无法抵抗合谋攻击。Du和Atallah(2001)使用乘法扰动,通过将分子和分母与随机乘法扰动相乘来获得比率然后进行所需的分割。这种方法对双方都有效为了增加分布式系统的可扩展性,Cramer等人,提出了一种新的方法“安全求和比率”(Cramer等人, 2001年)。它工作在同态技术和阈值密码系统。在这种方法中生成的密钥需要可信的第三方,这是这种方法的主要缺点。除此之外,该方法对于高安全性要求不能很好地工作(Shao等人, 2019年)的报告。通过使用乘法分布代替随机乘数来增强RSS方法这种新的RSS方法适用于分布式环境中的多方,复杂度为O(n)。它还能抵抗共谋攻击,即使n-1个参与者是不诚实的,它也是一种安全的计算方法。考虑到这种新方法的优点,我们使用它来执行安全的分布式数据挖掘过程中,我们的混合安全模型。3. 拟议方法在本节中,我们定义了问题陈述,并描述了本研究中使用的技术,以便帮助读者了解-算法1:Hybrid_4DRT_RSS-RD_Model输入:数据集输出:数据挖掘结果开始对于每一Pi i = 1,. . ,n并行执行1. 将数据集di转换为数值形式2. 使用四维旋转变换技术4DRT端使用基于RSS-RD的数据挖掘算法。端3.2. 四维旋转变换在线性代数中,旋转矩阵R执行欧几里得空间中的点的旋转(Erdogdu和Ozdemir,2015)。在旋转过程中,向量V包含预先已知在二维平面中,坐标对(x,y)表示点,并且在三维平面中,坐标(x,y,z)表示点。坐标x、y和z分别对应于x轴、y轴和z轴。类似地,在四维空间中,坐标(x,y,z,w)表示欧几里得空间中的一个点。 通过使用矩阵乘法[R][V],如等式(1)所示,(1)下面,我们获得旋转矩阵[V0]:hV0i¼½R]ω½V]1等式(2)和(3)表示用于四维旋转变换中的简单旋转(仅具有一个旋转平面)的旋转矩阵。Fig. 1.两阶段混合安全模型。●●T. Javid等人/沙特国王大学学报36052423523H.吉吉543给定的矩阵固定xy平面,并且zw平面成为旋转平面,zw平面中的点旋转角度α,如等式(1)所示。(二):不透露任何其他信息。每个参与者P i(i > 1)具有秘密输入数据ai,并联合计算目标函数f(ai)=bi。SMC方法旨在设计安全协议这有助于构建安全模型,这是更有效的,1 0 0 00 1 0 0½R]¼6 7ð2Þ在复杂的现实生活场景中是有效和适用的。图2示出了SMC的理想世界场景,其中,在一个不确定的情况下,0 0cosa-sina0 0sina cosa给定的矩阵固定zw-平面,并且xy-平面成为旋转平面,xy-平面中的点旋转角度b:(3):受信任的环境将其秘密数据发送给受信任的第三方。第三方执行所有计算并将所需的输出发送给相应的各方。在现实世界中,很难找到一个可信的第三方来执行分布式系统中的所有计算,同时我们的数据保持安全。 图 3显示了SMC在一个DIS-A中的真实场景。cosb-sinb0 0sinbcosb0 0b½R]¼6700ð3Þ致敬环境分布式计算的各个领域都可以使用SMC来支持,1 00 0 0 1在双旋转中,我们沿着两个轴旋转点。对于每个平面,旋转角度是不同的。双旋转的旋转平面和角度是唯一的。提供一种高效、安全的计算方法,如SMC构建块、通用SMC协议、云辅助SMC和面向应用的SMC。我们的研究重点是面向应用的SMC,包括特殊的集合操作,隐私增强的机器学习和数据挖掘。为了提供隐私增强的数据挖掘,我们使用了安全求和协议(RSS-R)(Shao等人,(2019)建设一个cosb-sinb0 0sinbcosb0 0½R]¼6700ð4ÞD在分布式环境中工作的混合安全模型。 RSS-RD协议嵌入到朴素贝叶斯分类中400cosa-sina唱一首歌算法和K-Means聚类算法来设计一个数据集给定的矩阵沿xy平面以及zw-平面,其中旋转角度b和a如等式(1)所示。(四)、算法2给出了使用四维旋转变换(4DRT)变换属性的详细步骤(Javid和Gupta,2019)。算法2:4DRT(数据集)输入:数据集M输出:扰动数据集MP Begin从.csv文件中读取数据属性M Normalize(attribute)将数据划分为包含四个元素的集合,每个集合选择安全阈值对于每组a和b的值从o到360o1. 计算:M第0页 A u0;Av;A w;Ax0½R]ω½VAu;Av;A w;Ax]2. 计算方差= M-M3. 绘制方差与角度a和b之间的3D图形。端端选择角度:a和b,使a和b处的方差最大。使用以下方程计算在上述步骤中获得的这些角度下的扰动数据集MPh五。Au;Av;Aw;Ax0i<$<$R]ω<$V<$Au;Av;Aw; Ax]图二、分布式环境中SMC的理想世界场景端3.3. 安全多方计算在安全多方计算(SMC)方案中,分布式环境中的多方参与执行某些计算,并且每一方获得对应的输出,图3.第三章。分布式环境中SMC的真实场景53606T. Javid等人/沙特国王大学学报联系我们PPxP.ΣP.P.P.P:i;jPn yi¼0i我躲着其他人。i¼0i我;;I¼I¼我我1/1我1/11/1;我i;jj;i;;I¼;ni j¼-Ri;jPP一种支持安全高效的分布式数据挖掘过程的挖掘模型。一种分布式朴素贝叶斯分类算法此外,它将si的值广播给分布式系统中的所有各方。在接收值时通过对RSS-RD协议的方法进行改造,在计算后验概率时,分布式朴素贝叶斯技术将在4.3节讨论。同样,通过转换K-Means中计算质心值的方法,伪码1:RSS-RD输入:来自n方的数据点xi;yi输出:比率SX100x1100x2100···100xn100基于RSS-RD的聚类技术,设计了一个分布式K-Means聚类算法,将在第4.4中讨论。开始SYy1y2···yn算法3和算法4分别给出了分布式朴素贝叶斯分类算法和分布式K-Means聚类算法。3.4. 安全求和-有理数乘性扰动比B. Yang和H. Nakagawa引入了“安全求和比”(RSS)的概念他们用数学表达式将RSS公式化如下:‘‘In a distributed environment there areP =(x,y)对于每个Pi,i = 1,. . n1. 在范围[-0.5,0.5]之间随机生成/i2. 修改输入xi;yi,使xixii3.对于j =1,. . n生成随机有理数。a. Rib. fi;jc. gi;jd. Ri;j端4. 对于j = 1,. . n并行执行a. 计算½fi;jωri]b. 加密½f使用Paillier加密111P2 =(x2,y2)P3 =(x3,y3)Pn=(xn,yn)系统ei;j¼c. 发送ei;j到Pj端EP K岛½fi;jωrii;fi;ji。每一方都参与计算,以获得所需的比率i1/4 0我 同时保持它们的输入(x,y)和值Pn x和n5. 对于j = 1,. . n做平行a. Pjreceivesei;j;fi;jj;i1/4C. 计算rei;j<$$> Epk<$fijωri]ω<$gjiωxj]<$Rj;i<$协议包括安全两方对数协议(2PL)(Vaidya等人,2008)、安全求和-乘法干扰比(RSS-ID)(Yang和Nakagawa,2010)、安全求和-Paillier同态密码系统比(RSS-P)(Patel等人,2012)和Ratio OfSecure Summation-Rational Number Multiplicative Disturbance(RSS-RD)(Shao等人, 2019年)的报告。上面提到的每一个协议都有其缺陷。2PL是仅适用于n= 2且无法抵抗共谋的情况D. 将rei;j和gj;i发送到Pi。端6. Pi解密rei;j,并将结果除以kfi;jω gj;i以得到共享rei;j。7. 对于j = 2,.. 编号:a. sharel/fi;jωri]ω½gj;iωxj]Rj;i;nfi;jωgj;ib. 分享0i j¼;fj;iωgi;j攻击在RSS-ID中,随机分布可以很容易地使用GCD猜测,从而使其易于攻击。在RSS-P中,在找到比率之前,使用阈值密码系统。SMC的复杂性对于真实场景来说太高了,并且在这样的环境中很难找到第三方,因此使得RSS-P不切实际for real真实life applications应用. RSS-R消除了以前8. Pi在[-0.5,0.5]范围内随机生成有理数ui9. 计算si¼j- i sha r e i ; j sha r e 0 i ; j sha r i u i ω xi10. 与所有参与方共享si11. 每一方Pi计算n n nD设计了RSS协议,并基于有理数乘性扰动提出了一种安全高效的RSS协议。该协议在有理数上引入随机数RSXsi rixi12. 计算SY<$n1riωn1yi13. 所有Pi计算比率SXx1x2xn···················数字字段。每一方Pi持有一对密钥-公钥和私钥,在Paillier公钥密码系统中使用,并生成六个跑-dom数fi;j 和gi;j 与ri端端SYy1y2···yn以及输入的i =x i; y i=。有理数ri远大于每一方计算的近似值为联合秘密值x;y是由SX¼Pn s iPn r iωPn X i.随机扰动法,如方程所示。 (5)和(6)。类似地,计 算 SY,并且比率SX =1 ×1 ×2 × 2 ×···×n × 是xi¼x ii5得到了SYy1y2···ynyi ¼yiþ/ið6Þfi和ui的值位于范围[-0.5,0.5]内每一方Pi计算1/2fi;jωri]加密并发送到Pj。Pj在收到加密值ei;j^Ep ki。由Pi计算的½fi;jωrii;fi;jRSS-RD协议有助于设计安全的分布式数据挖掘算法,并且与以前提出的RSS协议使用RSS-RD优于任何其他安全求和协议的好处如下:a. 基于有理数乘性扰动的RSS-RDreijEpkfωri]ω½g并将r eij和gji发送回扰动构造了一个扰动求和R:Pn0xi和发送者Pi.现在Pi解密的值rei;j 除以Rn1/4以获得该比率。实际上,fi;jωgj;iPi计算si<$Pjn-1方合作并攻击系统以找到B. 计算e½gωxj]最近的研究在计算安全和高效的RSS亲,T. Javid等人/沙特国王大学学报3607SY×ð Þ ð ÞðjÞ ð jÞ12K KKKKKKKKKJ3J3K四分之一便士。X轴基于有理数域生成作为随机乘数的值xi;yjib. 该算法能够防止合谋攻击,即使分布式系统中的n-1个参与方合谋窃取系统的数据,个派对通过使用paillier加密,因为除了数据所属的加密方之外c.RSS-RD可以扩展到任何数量的参与方。在现实场景中,它们是参与方从系统中退出的时候,有时参与方被添加到现有系统中;因此,系统需要可伸缩。RSS-RD提供可扩展的分布式数据挖掘。d. 由于分布式系统中的所有参与方都平等地参与计算比值SX,因此与以前的RSS协议相比,该协议是公平的。e. RSS-RD的计算复杂度为O(n)。 的时间在计算中所采取的是由于paillier加密和同态n-1加法和乘法运算。此外,n方执行n-1个解密。伪码1给出了RSS-RD协议的总体步骤(Shao等人, 2019年)的报告。4. 分布式隐私增强数据挖掘算法在本节中,我们精确地概述了我们的混合安全模型布局和模型愿望。此外,还描述了用于构建模型的算法。4.1. 混合安全模型在我们的安全模型中,如图1所示,d. 可扩展性:模型必须可扩展到任何数量的参与方。在分布式系统中,各方在现实场景中随时加入或离开系统;因此,模型应该在两种情况下都能工作。e. 攻击防御:如果n-1方合谋对抗一方,以找到其秘密数据,该模型应该为这种攻击提供安全性。f. 公平性:分布式系统中的每一方都应该平等地参与计算,没有任何特殊的特权。g. 复杂性:模型的复杂性应该是线性的。此外,它应该很容易适用于不同的数据挖掘应用程序。4.3. 朴素贝叶斯分类技术朴素贝叶斯分类技术是贝叶斯分类方法的一种。它属于基于贝叶斯定理的统计分类器。这种分类技术遵循这样的假设,即任何属性值都独立于其他属性值,称为条件独立性。此外,它是一个多类预测器,最适合文本分类、垃圾邮件过滤和情感分析等任务。由于其精度高、速度快,适用于大型数据集。通过将朴素贝叶斯与协同过滤相结合,我们可以设计一个推荐的系统。推荐的系统使用机器学习算法,即,朴素贝叶斯分类算法和数据挖掘技术,即协同过滤技术,用于过滤隐藏信息并预测喜欢或不喜欢某个来源的可能性。朴素贝叶斯的工作原理是后验概率的概念,即事件可以根据给定的证据发生。在在分类方面,我们将后验概率写为:PxjC:P C安全第一阶段提供数据集的安全性,第二阶段提供分布式数据挖掘过程中的安全性PCjxPx7在分布式数据挖掘中,有n个参与者持有各自的秘密数据,每一个参与者都希望通过使用所有参与者的数据来增强其数据挖掘结果。由于数据是私有的,因此需要在不损害隐私的情况下安全地挖掘数据。阶段I使用如上面已经讨论的四维旋转变换来变换数据,以将其转换为不可理解的形式,因此隐藏其实际属性值。此外,第二阶段使用RSS-RD协议中的分布式朴素贝叶斯分类技术和K-Means聚类技术提供安全的聚合计算,这两种方法中。 I相的输出,即,的等式(7)表示x属于类别C的概率。P C x是后验概率,P x C是x属于类别C的可能性,P C是类别先验概率,P x 是预测先验概率。在分布式系统中,Pi方(i = 1,. . ,n)使用RSS-RD协议合作计算P_xj_C_n和P_xj_C_n(Shao等人,2019年)的报告。每一方持有数据集di,使得所有数据集中的属性下面的等式给出了对于持有数据集d的n方的实例:安全数据集被作为第二阶段的输入。这两个阶段系统地工作,从而提供了一个混合安全P1:24P1.CkjxjP1.x jC1=P1。C1-C4P. x105模型4.2. 设计抱负1J其中:P1.x jjC1P1.x1jC1<$ωP1.x2jC1<$ω· · · ω P1.xmjC1上述混合安全模型应实现以下目标-降低目标:a. 高端安全性:设计的模型应提供P2:24P2.CkjxjP2.x jC2=P2。C2-C4P. x105两个敏感级别的安全性,即,安全的个人数据集,并确保数据挖掘过程中,2J其中:致敬环境P.xjC2±1P.xjC2<$ωP.xjC2<$ω·· ·ωP.XjC2b. 隐私:任何一方都不应获得任何其他数据。而不是期望的输出。2JK21K22K2MKc. 效率:安全模型的效率是设计这种高安全性混合模型的中心焦点。的产品编号:“P n.CnjxjP n.x jjC nn n n:P n.Cn#模型需要高效并与任何数据挖掘技术兼容。nJ其中:3608T. Javid等人/沙特国王大学学报K.[Ky.Σ.ΣðÞKKKK我12MKCiK1我KJK我JJK我K.- 是的- 是 的- 是的Σ对于k =P n x jjC n¼P n x1jC nωPn x2jC nω ··· ωPn xmjCn因此为一数据集D与多属性说X ¼x;x;···;x和类C,我们可以生成方程为了解释上述算法在使用RSS-RD的分布式环境中的工作,我们取具有其数据集的三方P1、P2和P3,整理数据。所有这些政党都持有一个数据集,分布式数据挖掘系统从上述给定的等式的集合例如:.阿尔普岛x jjC i·P i.CiPX¼属性,其中最后一个属性是具有两种类型值“是”和“否”的类属性。表1、表2和表3中给出的P1、P2和P3数据集中共有14、11和13个实例ikjj派岛xjP.Cijx xx i是第i方计算的后验概率,算法3:RSS-RD_Naïve_Bayes_Algorithm开始具有j个属性的x个实例属于属于Pi的第k个数据集类。 其中i = 1,. . ,n,j = 1,. . ,m并且,k = 1,. . ,c.每一方P i同时计算可能性P i。xjjCi对于每个Pi i = 1,n,对于k = 1,,c1. 计算P。CiK和类先验概率P i<$C i <$。 对于分布式系统,我们Ik2.对于j =1,. . ,m可以写P i。x jjCi和P iC i 如Eqs中所示。 (9)和(10)计算 派岛xjjCiK K分别n;m;cKEnd for结束PxjjCk¼i<$1;j<$1;k< $1派岛xjjCi9端对于每个Pi i = 1,n对于k = 1,,cn;c.我的PC kPi Ck计算pC kSP i。Ci端在上面导出的方程中,我们嵌入RSS-RD议定书端对于每个P i = 1,,n计算概率P。xC i-1和P.C.安全地。出-i通过计算概率P i生成的put。xjjCiiP每一方都以X .因此,我们计算联合IkC我对于j =1,. . ,mJ端S.ΣK我KJK..计算P。xjC/PxjC iPx jjC k通过在分布式系统上使用RSS-RD协议,以伪代码1给出。算法3给出了以下总体步骤:基于RSS-RD的朴素贝叶斯算法。表1P1的数据集,14 μ m。表2具有11个实例的P2的数据集端端对于k = 1,. . ,c对于j =1,. . ,m计算PCk jx P Ck ωP Xj jCkEnd for结束x2maxPC1jx;PC2jx;PC3jx···PCcjx设x的值为令人愉快的;热的;正常的;弱的)。我们必须确定球员是否会在这样的天气条件下比赛。P1、P2和P3协作分类x是否属于“玩”课还是“不玩”课由P1执行的计算:表3具有13个实例的P3数据集天气温度湿度风游戏(职业属性)朦胧冷正常大风不玩愉快冷正常大风不玩朦胧温暖正常微风不玩朦胧热高大风发挥愉快冷正常微风发挥愉快温暖正常大风发挥愉快热高微风发挥降雨温暖正常微风不玩愉快温暖正常大风不玩降雨温暖高微风没有朦胧热高大风发挥朦胧冷高大风不玩降雨冷高大风不玩愉快冷高微风发挥降雨冷正常微风发挥降雨冷正常微风发挥愉快冷正常微风发挥愉快热高微风不玩降雨温暖正常大风发挥愉快温暖正常大风发挥降雨冷高微风发挥[端8Þi¼1;k¼1ð10Þ天气温度湿度风游戏(类)愉快热高微风不玩愉快热高大风不玩朦胧热高微风发挥降雨温暖高微风发挥降雨冷正常微风发挥朦胧冷正常大风发挥愉快温暖高微风不玩愉快冷正常微风发挥降雨温暖正常微风发挥愉快温暖正常大风发挥朦胧温暖高大风发挥朦胧热正常微风发挥降雨温暖高大风不玩降雨冷正常大风不玩天气温度湿度风游戏(职业属性)朦胧热高微风发挥T. Javid等人/沙特国王大学学报3609降雨温暖正常微风发挥降雨热高大风不玩3610T. Javid等人/沙特国王大学学报22发发发发1514Notplay14发9发9发P Cplayjx9951Notplay51Notplay发6发6发5Notplay5Notplay发1313Notplay3发83发83发83发83Notplay331x;yx1-xþy1-y¼5;P3breeze jCNotplay¼514þ 11þ133815.Σ62315发发11P1.C12009年9月;P1.C1Σ¼5P.C playjxp.p.C playω P.令人愉快的jC播放ω P。热jC播放器P 1.令人愉快的jC1P1.加热器jC11.正常jC1π。Σ3823232323发Notplay1/4 5; P1.微风jC11.令人愉快的jC1Σ1/43;黑腹叶蝉P.加热器jC12002年2月正常jC1P.CNotplayjx38ω15ω15ω15ω150:00898245611;.微风jC1Σ¼2由于P. C playjxP. CNotplayjx;因此输入5由P2执行的计算:Notplay5舒适;热;正常;微风属于“玩”类。4.4. k均值聚类技术P2.C22006年;P2.C2Σ¼5打11P2.快乐jC2不玩112003年; P2.热jC21P2.正常jC2K-means是一种划分算法,属于无监督学习范畴。它以n个对象作为输入,并根据相似性或不相似性标准创建k个分区瑞恩。每个分区代表一个集群。它会产生这样的集群1/4; P2。微风jC22.3 P2.令人愉快的jC2集群中的物体之间的距离是微小的,61/42; P2。热jC2发挥61P2.正态jC2NotplayΣμ m,不同聚类的对象之间的距离最大。最初,它选择k个随机对象作为中心值-称为种子,然后它测量所有1/4 2; P2。微风jC2Σ¼3对象和这些种子值。每次集群形成后-5由P3执行的计算:Notplay5的算术平均值重新计算种子值。一个簇的所有对象,并且该过程重复,直到在第i步和第(i-1)步中获得相同的簇P3.C32008年8月;P3.C3Σ¼5k-均值算法中最常用的距离函数rithm是欧几里得距离,给出为:P.快乐jC3P.加热器jC32013年3月31日.正常jC3dx1;y1;x2;y2qx2-x12y2-y12ð11Þ1/44;P.微风jC32006年6月令人愉快的jC3在分布式系统中,Pi方(i = 1,. . ,n)计算值新的种子后,每一步的k-均值算法。因此我们1;P.加热器jC31P.正常jC3重写方程式 (11)对于分布式数据挖掘系统为:53Notplay53.ΣNotplay“的。.ΣΣR.你知道吗?ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiΣffiffi2ffiffi#JJ计算P.P.C不玩游戏;P.xjC播放器和P.xjC不玩游戏RSS-RD协议。“的。.ΣΣP2:D2x;yR.你知道吗?ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiΣffiffi2ffiffi#¼x2-xþy2-yP.1 . pk10开奖结果C1[P2.C2[P3.C3Σj jj j[使用Eq.(十)]P:D。x;yxn;ynffiffi ffixffiffi ffinffiffi ffi—ffiffiffiffi ffixffi ffiΣffiffi ffi2ffiffi ffiþffiffiffiffi ffi.ffiffiffiyffiffinffiffiffi-ffiffiffiffiffiyffiffiffiΣffiffi2ffiffi#PC游戏9689þ6þ8¼23nnjjjj.14[11[13]14页11页13 38同样,P. C不玩游戏5 þ 5 þ 5¼15发等式(12)给出了n方的欧几里德距离,如下所示:发PPleasantjCplayP1.令人愉快的jC1[P2.快乐jC2P3.快乐jC3使用Eq. (九)]表4具有4个实例的P1药物重量pH值指数P愉快的jC发挥2332þ3þ3¼81升.2019 -10-1800:00:00同样,P. pleasantjC Notplay2016B 2 1C 4 3D 5 46 4P.热j
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功