健康云隐私保护技术探讨及改进

183 浏览量更新于2024-01-04 收藏 810KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

⃝⃝可在www.sciencedirect.com上在线ScienceDirectICT Express 5（2019）167www.elsevier.com/locate/icte一种改进的健康云隐私保护技术Mayank Kumar Kundalwal，Kakali Chatterjee，Ashish Singh计算机科学与工程系，国家技术学院，巴特那，比哈尔邦，800005，印度接收日期：2018年7月16日;接受日期：2018年2018年10月30日在线提供摘要在当今的云计算环境中，健康云保留了个人特定的敏感信息，用于多种目的，例如生物医学研究，健康保险公司，医疗数据分析等。当任何授权人员访问这些云时，发布的数据不应损害任何个人的隐私，并且仍然有用。在健康云系统中，数据的发布方式必须确保不会泄露任何个人单靠数据库管理系统无法确保任何个人访问控制（AC）模型也不能保护数据免受间接访问或多个查询。为了解决这些问题，推理控制是确保数据机密性的技术之一，从间接数据访问。在本文中，我们提出了一种混合技术，其中包括两个不同的推理控制技术，查询集大小限制和k-匿名，以确保个人通过对查询集大小的限制来防止敏感数据受到推理攻击，而通过k-匿名来防止数据受到链接攻击。这两我们还生成了一个规则集，以提高医疗保健数据的隐私性。c2018韩国通信与信息科学研究所（KICS）。Elsevier B.V.的出版服务。这是一个开放获取CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：推理控制;查询集大小限制;结果集重叠限制;隐私; k-匿名;攻击1. 介绍最近，健康云已经被许多健康应用广泛使用，例如实时健康监测、保险目的、疾病诊断和医疗数据分析等。在许多情况下，不受信任的第三方代替原始数据所有者处理或访问数据。因此，各种云安全攻击的可能性增加了[1]。为了防止这些攻击，在[2，3]中发现了几种访问控制技术。但是，在许多情况下，合法用户可以推断敏感数据（如姓名，SSN，地址等）。但仍然存在着许多问题。因此，推理控制技术必须在云数据库上实现，以维护个人*通讯作者。电子邮件地址：nitp.ac.in（M.K. Kundalwal），kakali@nitp.ac.in（K. Chatterjee），nitp.ac.in（A. Singh）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2018.10.002当任何统计医疗数据集通过云发布时，所有显式标识符（如名称，SSN，地址等）都将被删除，以使数据匿名。但是，另一方面，删除所有标识符并不能保证数据的匿名性，因为它可以与其他一些公开可用的数据库链接以侵犯隐私[5]。例如，一家医疗机构在删除了所有标识符（姓名、社会安全号码（SSN）、地址）后，将其数据发布到云存储上用于研究目的。现在，数据集中只有非识别属性，如年龄、性别、PIN码、疾病。这些属性不能单独引用任何记录，但是所有这些属性的组合可以很容易地指向任何个人。入侵者可以很容易地使用非识别属性的组合从任何公开可用的数据库（选民名单）中如果在公开数据库中发现这些非识别属性的组合，则入侵者可以容易地推断出个体的身份这被称为链接攻击。还有，2405-9595/c2018韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。168M.K. 昆达瓦尔湾Chatterjee和A.Singh/ICT Express 5（2019）167}联系我们={个攻击者可以在数据库中传递多个查询以获取敏感信息，这被称为推理攻击。为了满足安全要求并在健康云中实施隐私，通过使用k-匿名[6-大多数现有的方法（数据扰动和k%-优势）随机化/累积数据元组，这导致信息丢失。20世纪98年代，Samarati和Sweeney [19]提出了一种k-匿名模型，利用泛化和抑制的方法来维护隐私。但是，这种方法本身并不足以在数据库中提供完全的隐私。2001年，Samarati [20]提出了一种基于k-匿名的方法来解决发布微数据的问题。在2002年，Sweeney [5]提出了一个正式的保护模型，名为k-匿名与伴随的政策数据库。这种保护模式解决了几种使数据库更容易受到攻击的攻击。但是，如何确定k的最佳值并没有包括在这种技术中。2009年，等人[21]提出了一种通过使用k-匿名来保护个人隐私的方法。在该算法中，一些节点不被考虑用于评估目的。因此，该算法的结果是快速的。数据以非常概括的形式呈现，这可能会造成信息丢失，并且数据对研究目的没有用处。2015年，Caballero-Gil et al.[22]提出了一种使用k-匿名来维护云上基于位置的服务的隐私的方法车辆的位置存储在云存储服务器上。2015年，Turkanovic等人[3]研究了传统数据库中的几个推理问题。推理控制的方法表明，AC技术不能保护数据的间接访问。但是，在本文中，推理问题仍然存在。攻击者可以通过使用多个小的查询集来发现敏感信息。在2016年，Basso等人[23]使用了数据扰动的概念来最大限度地减少推理攻击的可能性但是，数据扰动技术增加了查询输出中的噪声。因此，只有近似的结果将显示给请求的用户，而不会丢失信息。从上面的讨论中，我们已经确定了三个主要问题，第一个是防止医疗保健数据库的链接攻击和推理攻击（使用多个查询集）。第二是尽量减少信息损失，使用户得到精确的结果。第三个是，如果有人冒充为有效用户，那么数据库的视图也将受到限制。为了解决这些问题，我们使用了两个有前途的隐私控制技术（查询集大小限制和k-匿名）与生成的规则集，以达到一定的隐私水平和令人满意的数据效用。这种混合技术将被纳入托管在云服务器上的Web应用程序中。该技术过滤医疗保健数据并控制不同用户的视图。该技术专门针对健康云用户实施，因为医疗保健数据需要公开发布用于研究目的，而没有其他敏感数据发布用于公共用途。这些类型的数据泄漏可能会产生阻碍性的社会影响（完全身份盗窃），并可能以多种方式滥用因此，我们提出了一种混合技术来维护医疗数据的隐私。我们工作的主要贡献如下。该混合技术基于查询集大小限制，利用结果集重叠限制来防止敏感数据受到推理攻击。这种混合技术还通过使用k-匿名来保护数据免受链接攻击如果执行模仿攻击，然后保护授权用户的敏感数据的隐私，规则集已被提出的视图控制。这种技术还可以用更少的处理时间最大限度地减少信息损失本文的其余部分的结构如下：第2节介绍了我们提出的工作的详细描述。第三节介绍了实施情况和结果。最后，在第四节中讨论了本文的结论。2. 拟议工作所提出的技术由以下实体组成：健康云用户、注册用户、未注册用户、健康云存储服务器数据库和中间层规则集管理器，如图1所示。1.一、当医疗保健用户想要访问健康云数据库时，执行以下步骤步骤1在此步骤中，用户与Web接口连接。有两种可能性：注册用户或未注册用户。(a) 如果用户未注册，则他/她可以作为访客用户登录，而无需使用凭据。(b) 如果用户是注册用户，则他/她必须提供他/她的凭据才能登录。步骤2认证成功后，用户请求被重定向到查询表单，在该表单中，用户能够通过中间层将查询传递到健康云存储服务器。步骤3查询结果将根据规则集管理器提供的规则集显示所有这些步骤都受以下小节中描述的以下隐私技术的约束。2.1. ResultSet重叠限制为了防止健康云数据库受到推理攻击，我们提出了一个新的概念，称为结果集重叠限制（算法1）。在这项技术中，我们使用了查询集大小限制的概念。在我们提出的算法中，所有的查询都是统计查询（计数，求和，平均等）。这种技术背后的基本思想是，所有后续的查询结果必须与所有以前的查询结果进行检查。如果任何查询结果中的记录总数超过N-1····M.K. 昆达瓦尔湾Chatterjee和A.Singh/ICT Express 5（2019）167169⋀8：限制查询结果9：其他10：按行数显示查询结果。地址}→权限={允许}记录={完成}--⋀⋀⋀⋀Fig. 1. 建议的健康云架构。其中N是当前结果集中的记录总数，则不会释放结果集。所有以前的查询结果存储和刷新后，每5天自动。数据库管理员（DBA）可以更改此时间段。DBA还可以将此时间段设置为随机时间帧。算法1结果集重叠限制一曰：程序 INPUT：QUERY（查询集1，查询集2.............查询集N），其中N是查询集的总数。2：OUTPUT：查询结果（行数），查询限制（无结果）3：开始4：传递查询。2.3. 视图控制建议使用以下规则集来控制授权人员的完整数据为了保护数据或表免受假冒攻击，在我们提出的规则集中，我们添加了一个新的规则，其中规则引擎首先检查请求用户如果用户的上下文与存储的值相匹配，则将允许用户查看完整的数据，• RS1：R S T yp e={R e galleryUser}查询查询结果=5：if（query result==1）then{An y}资源={病历}操作=6：限制查询结果7： elseif（当前查询结果-任何先前查询结果==±1）则{读取，追加}系统MA C地址={存储的MA C第十一章结束2.2. K-anonymity如果一个个体的信息不能与数据集中至少k个其他个体区分开来，则数据将具有k-匿名性。为了防止健康云数据库规则解释：如果任何注册用户想要执行从其注册的医疗保健数据MAC地址，然后他/她将被允许查看完整的数据• RS2：用户类型= {注册用户}查询结果={任何}资源={病历}操作={Read，Append} SystemMA Caddress={StoredMA C从数据链接攻击，我们已经实现了k-匿名在数据集上在这种技术中，我们给出了一个计算一种计算k-匿名中k（V（k））值的方法的地址}→权限={允许}记录={匿名}View.Medical计算方法被简化为下面的Eq.（一）.V （ k ） =M AX{ 公共元组（ Q （ A1 ， A2. A m ）） }（1）在上面的等式中，m是准标识符的总数k的值由所有准标识符（Q）的值的公共元组的最大值确定规则解释：如果任何注册用户想要执行任何读取或附加医疗保健数据的查询，但其MAC地址未注册，则他/她将仅被允许查看匿名数据。• RS3：用户。类型={未注册用户}资源=医疗记录。（性别、出生日期、pin、g o vemp、疾病）Q（A1，A2，A3............Am）定义为：标识符是表（T）中所有属性的集合的子集这是由Eq。（二）、查询结果={1}任务= {允许}【匿名】操作= {读取} →每-查看.病历=Q（A1，A2，A3...... A m）Δ T（A1，A2. A3...... A n）（2）其中，n是表T中属性的总数。规则解释：如果任何未注册的用户想要执行任何查询只读取医疗保健数据的选定属性（性别、出生日期、pin、gov emp、疾病），则他/她将⋃View.Medical170M.K. 昆达瓦尔湾Chatterjee和A.Singh/ICT Express 5（2019）167⋀联系我们⋃联系我们⋀⋀·={}={}5联系我们·={ }=6⋀⋀Qn• RS4：用户.角色={DBA}查询结果={Any}权限={允许}【匿名】查看.病历=Qnα=如果查询结果不等于1，则只允许查看匿名数据。表1实验中考虑的不同值属性不同值最小频率最大频率资源病历操作管理系统MAC地址存储MAC地址任务={允许}查看病历={完成}规则说明：如果数据库管理员希望执行任何查询以从其注册的MAC地址管理医疗保健数据，则他/她将被允许查看和管理完整的数据。RS：用户.角色DBA查询结果任意资源病历操作管理系统MAC地址性别2 1103 1214销587 1 18YOB 50 3 190电话：+86-21 - 8888888疾病6 378 401Q属性。我们已经将我们的隐私技术与先前存在的技术（t-接近度[11]，i-多样性[24]和k-匿名性[21]）在平均处理时间和信息损失方面进行了比较，分别与记录和准标识符的数量有关。为了验证隐私技术，我们测量了平均处理时间和记录数量方面的信息丢失，如图分别为2和3。图图4和图5示出了相对于准同步的平均处理时间和信息损失。规则解释：如果数据库管理员想要执行任何查询来管理医疗保健数据，但其MAC地址未注册，则他/她将仅被允许查看匿名数据。RS：用户类型未注册用户资源{病历}操作={写入}→权限=（拒绝）规则说明：如果任何未注册的用户想要执行任何查询以追加医疗保健数据，则不允许他/她执行该查询。• RS7：用户类型={任何}，资源={医疗记录}标识符，分别。为了抵抗模仿攻击，我们使用了我们提出的规则集。图6显示了我们的方法中预测的和测量的匿名视图之间的差异。我们方法的不同之处只是因为用户在其上下文之外访问健康云。为了验证结果集重叠限制技术，我们在数据集中传递了多个查询，这被描述为- low。查询分析表明，当查询结果重叠时，规则引擎会对查询结果进行限制。查询1：SELECT count（*）FROM dataset WHERE dis-ease =“tuberculosis”AND pin“620706”;查询结果：查询1返回值5。操作={修改} →权限={拒绝}规则说明：如果任何用户想要修改医疗保健数据，则不允许他/她。3. 执行情况和结果分析这项工作是模拟亚马逊网络服务和NetBeans（集成开发环境）使用Java编程语言。为健康云仿真提供了一个良好的实验环境。我们使用MySQL服务器在我们的云存储服务器中存储了12527个元组和8个属性。我们数据集中使用的属性的不同值、最小和最大频率如表1所示。我们测量了单位时间间隔内匿名视图的数量、平均处理时间和信息损失。信息损失（I损失）度量被用来衡量广义质量的Q属性。它被定义为每个属性（A）的平均信息损失，如等式（1）所示。（三）、I损失=1∑I损失（A）（3）α=1上面的查询返回值5。现在，对手知道，有5人谁是生活在该地区的pincode=620706和谁是患有肺结核。查询2：SELECT count（*）FROM dataset WHEREdisease=“tuberculosis”ANDpin=“620706”ANDgender- der=“male”;查询结果：查询2返回值4。上面的查询返回值4。敌对方现在发现，有一名妇女住在该地区，患有肺结核。查询集大小限制技术无法处理这种推理攻击。因为没有查询结果指向单个行。因此，为了克服该数据隐私问题，使用了结果集重叠限制技术，该技术将限制第二查询（查询2）结果。4. 结论在本文中，我们的目标是提高医疗数据的安全性和隐私性，遭受多种攻击，如推理攻击，链接攻击和冒充攻击。我们提出了一个隐私保护技术，通过使用两个有前途的推理控制技术：查询集大小其中Qn是Q属性的数量，I损失是由于泛化而导致的信息丢失。信息损失（I损失）度量用于测量限制和k-匿名。此外，我们还定义了一些用于视图控制的规则集，可防止数据受到入侵攻击。我们还分析了我们提出的工作··M.K. 昆达瓦尔湾Chatterjee和A.Singh/ICT Express 5（2019）167171图二. 相对于记录数的平均处理时间。图三. 关于记录数量的信息丢失。见图4。关于准标识符的平均处理时间。图五. 关于准标识符的信息损失。见图6。关于隐私技术的分析观点。通过传递多个查询来从我们的数据库中推断敏感知识。我们提出的工作的模拟显示，平均处理时间每元组和信息丢失量相比，其他技术。因此，我们提出的隐私保护技术保护数据免受推理攻击，链接攻击和冒充攻击。在未来，我们扩大了我们的数据集的实验工作。利益冲突作者声明，本文中不存在利益冲突引用[1] Salman Iqbal ， Miss Laiha Mat Kiah ， Babak Dhaghighi ，MuzammilHussain ， Suleman Khan ， Muhammad Khurram Khan ，Kim-Kwang Ray-mond Choo，关于云安全攻击：分类和入侵检测和预防即服务，J. Netw。Comput. 74（2016）98-120。[2] PierangelaSamarati，Sabrina Capitani de Vimercati，Access control：policies ， models ， and mechanisms ， in ： International School onFoundations ofSecurity Analysis and Design ， Springer ， 2000 ， pp.137-196。[3] Tatjana Welzer Druzovec，Marko Hölbl，Inferenceattacks and controlon database structures，TEM J. 4（1）（2015）3.[4] 叶伟文，E.N. Levitt，数据库系统中的数据级推理检测，计算机安全基础研讨会，1998年。程序。第11届IEEE，IEEE，1998，pp.179比189[5] LatanyaSweeney，K-匿名：保护隐私的模式，Internat。J.不确定。基于知识的系统10（05）（2002）557-570。[6] Jordi Soria-Comas ， Josep Domingo-Ferrer ， David Sánchez ，SergioMartínez，通过基于微聚合的k k匿名增强差异隐私中的数据效用，VLDB J。23（5）（2014）771[7] 蔡志鹏，何造波，关鑫，李英淑，社交网络中防止敏感信息推断攻击的集体数据清理，IEEE跨部门安全计算。（2016年）。[8] Mohammad Saiful Islam，Mehmet Kuzu，Murat Kantarcioglu，对外包数据库上加密范围查询的推理攻击，在：第四届ACM数据和应用程序安全与隐私会议上，ACM，2014年，第10页。235-246。[9] 牛本，李庆华，朱晓燕，曹国宏，李辉，在基于位置的隐私感知服务中实现k-匿名，INFOCOM，2014年IEEE会议录，IEEE，2014年，pp. 754-762。172M.K. 昆达瓦尔湾Chatterjee和A.Singh/ICT Express 5（2019）167[10] 王伟，陈雷，张倩，将高维医疗数据外包到云并提供个性化隐私保护，Comput。网络88（2015）136-148。[11] 李宁辉，李天成，Suresh Venkatasubramanian，t-closeness：Privacybeyond k-anonymity and l-diversity，in：Data Engineering，2007。ICDE 2007年。 IEEE第23届国际会议，2007年，pp。106-115[12] Tamer E Abuelsaad，Carlos Hoyos，使用单向散列的数据扰动和匿名化，Google专利，美国专利9，202，078，2015。[13] YKumar Jain，Santosh Kumar Bhandare，基于最小最大归一化的隐私保护数据扰动方法，Int. J计算Commun. 2（8）（2011）45-50。[14] Adeela Waqar ， Asad Raza ， Haider Abbas ， Muhammad KhurramKhan，使用元数据的动态重建来保护云用户数据隐私的框架，J.Netw。Comput. 36（1）（2013）235-248。[15] 陈文，多媒体资料库管理系统之安全性与隐私性，多媒体工具应用，第33卷第1期，2007年，第13-29页。[16] Zahid Pervaiz ， Walid G Aref ， Arif Ghafoor ， NagabhushanaPrabhu ， Accuracy-constrainedprivacy-preservingaccesscontrolmechanism forrelational data，IEEE Trans. Knowl. Data Eng.26（4）（2014）795-807。[17] Gábor Bergmann，Csaba Debreceni，István Ráth，Dániel Varró，基于查询的访问控制，用于使用双向转换的安全协作建模，在：ACM/IEEE第19届模型驱动工程语言和系统国际会议论文集，ACM，2016年，pp. 351-361.[18] Anand Kumar ， Jay Ligatti ， Yi-Cheng Tu ， Query monitoring andanalysisfordatabase privacy-a security automata model approach，in：InternationalConference on Web Information Systems Engineering ，Springer，2015，pp. 458-472.[19] Pierangela Samarati，Latanya Sweeney，在披露信息时保护隐私：K-匿名性及其通过一般化和压制的实施。技术报告，技术报告，SRI国际，1998年。[20] P. Samarati，Protecting responses identities in microdata release，《知识数据工程》，13（6）（2001）1010http://dx.doi.org/[21] Khaled El Emam ， Fida Kamal Dankar ， Romeo Issa ， ElizabethJonker，Daniel Amyot，Elise Cogo，Jean-Pierre Corriveau，MarkWalker ， SadrulChowdhury ， Regis Vaillancourt ， et al. ， A globaloptimal k-anonymousmethod for the de-identification of health data，J.Am.医疗报告。16（5）（2009）670-682。[22] Cándido Caballero-Gil，Jezabel Molina-Gil，Juan Hernán-Serrano，OlgaLeón ， MiguelSoriano-Ibanez ， Providingk-anonymityandrevocation in ubiquitous vanets，Ad Hoc Netw. 36（2016）482-494。[23] Tania Basso，Roberta Matsunaga，Regina Moraes，Nuno Antunes，Challengeson anonymity，privacy，and big data，in：DepartmentsComput-ing （ LADC ）， 2016 Seventh Latin-American Symposiumon，IEEE，2016，pp. 164-171。[24] AshwinMachanavajjhala ， DanielKifer ， JohannesGehrke ，Muthuramakr-ishnan Venkitasubramaniam ， L-diversity ： privacybeyond k-anonymity，ACM Trans. Knowl. Discov.数据1（1）（2007年）。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

健康云隐私保护技术探讨及改进

云技术的安全，隐私合规性

隐私保护技术的发展历程

什么是区块链隐私保护技术

关于大数据安全与隐私保护技术的文献综述

基于系统体系结构的隐私保护技术

简单介绍一下差分隐私保护技术

试述数据库隐私保护技术的分类及度量标准。

大数据安全技术与大数据隐私保护技术的区别与联系

基于区块链技术的隐私保护技术的应用现状（应用场景、应用内容、应用效果）与未来发展方向

数据隐私保护技术的发展趋势是什么？

试述数据隐私保护技术的分类及度量标准

什么是差分隐私保护技术

大数据安全与隐私保护技术的文献综述

试述数据隐私保护技术的分类及度量标准。

基于smc的隐私保护技术

物联网的用户隐私数据保护技术

试述位置隐私保护技术的分类及度量标准。

如何用机器学习算法和隐私保护技术对数据集进行处理

基于差分隐私的个人健康数据保护设计与实现的课题研究内容应该怎么写

阿里公共云 网络安全等级保护2.0合规能力技术白皮书word版

最新资源

阿里公共云网络安全等级保护2.0合规能力技术白皮书word版