没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报用于提高用户隐私和发布电子健康数据Abdul Majeed韩国航空航天大学信息电子工程学院,韩国京畿道高阳市Deogyang-gu,邮编412-791阿提奇莱因福奥文章历史记录:2017年11月10日收到2018年3月4日修订2018年3月26日接受2018年3月31日在线提供保留字:隐私治疗质量医疗法规协作背景知识A B S T R A C T医疗保健行业采用先进技术为行业带来了许多改进,包括医疗保健提供者之间更好的沟通,提高治疗质量在很大程度上,这些改进是由于医疗保健提供者之间的合作和医疗保健数据的共享。然而,这引入了与所讨论的数据有关的各种安全和隐私问题。保护患者的隐私,同时共享有助于医学研究的数据是绝对必要的,因为这不仅是在本文中,我们提出了一个新的匿名化方案的数据隐私的电子健康记录,它不同于现有的方法,即使面对对手有相关的背景知识,其防止身份泄露的能力。所提出的方案是基于将数据转换成固定的间隔,然后用平均值代替原始值。因此,该方案提供了改进的数据隐私和实用程序的隐私保护数据发布。仿真结果表明了该方案的有效性,并验证了上述权利要求。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍对医疗数据的研究为此,许多研究机构和医院通过共享健康记录进行合作,以便在研究人员和制药公司之间进行有效的数据分析。共享电子健康记录(EHR)以帮助在医学进步中发挥关键作用的医学研究(Hill和Powell,2009)。其他好处包括治疗/咨询费用的减少,以及容易获得。它允许医生从任何地方访问记录和开药,从而实现远程医疗和远程医疗保健。研究表明,医疗数据的发布对于电子卫生领域的创新和创新治疗方式至关重要。电子保健还减少了物理资源和管理成本(Hsu等人, 1999年)。电子健康服务提供的一些主要优势总结在图。1.一、沙特国王大学负责同行审查制作和主办:Elsevier电子邮件地址:Abdulmajid09398@kau.kr除了几个优点之外,数据所有者(例如,医院)由于隐私问题而不愿共享患者隐私保护数据发布(Chen等人,2009)是为隐私保护数据共享提供工具和方法的领域。虽然在不同方之间共享患者数据可能会导致尖端研究,但它也会引起对用户数据隐私的重大关注(Sweeney,2014)。数据持有者只有在信任云提供商的情况下才会发布数据隐私是电子保健中的一项道德要求,也是一项监管要求隐私泄露可能导致身份泄露、敏感信息丢失、身份盗窃和未经授权的数据修改。根据一项隐私研究(Sweeney,2002年a),2002年发布的用于研究目的的特定于个人的数据被具有最少背景知识的对手分析攻击者通过简单地链接已发布数据中的记录,设法找出个人避免此类违规行为对于正在探索和研究用户数据隐私的研究人员和科学家来说是一个挑战当数据包含个人身份信息(PII)时,攻击可能导致个人另一项由Ponemon Institute/MSNBC于2007年进行的与隐私相关的研究(Grandison,2007)涉及一项民意调查,要求人们回答以下问题:在保护您的隐私方面,您更信任谁,政府还是私营公司?作为回应,https://doi.org/10.1016/j.jksuci.2018.03.0141319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Majeed/ Journal of King Saud University427Fig. 1.电子保健服务概览。100人中有88人选择了第三个选项"既不是政府也不是私人”。本研究的结论是,隐私是一个重要的关注。这项研究还强调了对新型隐私保护技术的需求,以保护私有云中的用户数据(Chen和Zhao,2012)。为了避免这些问题,在发布电子健康数据时应采取有效措施,以保持个人信息的安全和隐私。图2描述了一个完整的清理模型,其中包括从个人收集数据到将数据分发给第三方。攻击者很可能可以从外部源获得数据内容,并且可以应用复杂的技术来链接记录(Ganta等人,2008年)。因此,有必要对模型进行修订,以保护数据免受误用和明确的身份披露。图二. 数据收集、共享和问题概述。已经提出了许多方法来保护EHR的隐私,包括k-匿名(Sweeney,2002 a); l-多样性(Machanavajjhala等人,2007),(a,k)-匿名(Jian-min等人, 2008)和t贴近度(Li等人,然而,攻击者仍然可以在复杂技术的帮助下推断敏感信息(Wernke等人,2014年)。在这项研究中,我们研究了广泛使用的数据隐私的方法用于k-匿名和其他几种方法起源于k-匿名命名的generalization。我们在这项工作中的贡献是双重的。首先,我们描述了分类EHR的泛化方法,它提供了一个安全和简单的机制来泛化数值属性。其次,我们提出了一种新的方法,基于固定的时间间隔概括的数字属性的电子健康记录。所提出的方案完全基于数据值。因此,我们希望这项工作将为数据发布者、研究人员和隐私领域的关键参与者提供必要的知识,以设计和构建更安全的解决方案,在发布数据时保护个人隐私。本文的其余部分组织如下:第2节介绍了电子健康记录中的隐私的几个主要要求。隐私保护技术的描述和泛化方法的简要概述在第3节中提供。同时,第4节通过实例说明了所提出的方法,第5节描述了所提出的方案在隐私和实用性方面的主要发现和优越性,最后一节给出了结论,并详细说明了同一领域的未来发展方向。2. 电子卫生领域医疗保健行业的最新趋势越来越多地集中在随时随地访问、生成和发送信息上。这鼓励将电子保健数据转移到云端,以确保可用性(Craig和Ludloff,2011年)。尽管云计算提供了许多服务,但它也在隐私和安全方面带来了一定的挑战。根据最近的研究,云服务提供商有必要满足隐私要求,以便获得预期用户的信任(Lederer等人,2003年)。满足这些要求保证了安全和隐私保护的数据发布,并阻止攻击者获取所需的数据。关于每项要求的详细讨论如下。2.1. 保证不同实体之间基于信任的关系对于确保数据有效且没有错误是很重要的。信任管理受制于策略和权限的强制执行。EHR中的保证为用户提供了信心,并确保他们访问和使用来自可信第三方云提供商的准确信息。保证提高了信息的效用,使信息更容易获得。2.2. 审计有效的审计确保了电子卫生系统上的每一项活动都得到监控和记录,以便以后进行检查和调查。这将有助于识别攻击和了解对抗能力。审计对于进行攻击后分析非常重要,这有助于理解通信方之间发生的不同活动(Shah等人,2008年)。确保数据访问仅在请求实体满足某些要求时发生,例如:验证证书、获得令牌、两次身份验证或物理存在等。428A. Majeed/ Journal of King Saud University2.3. 匿名在不同方之间交换具有受控修改的数据对于确保用户隐私是重要的( Chow 和 Mokbel , 2009; Zhou 等人, 2008; LeFevre 等人,2008; Klosgen,1995; Cormode和Srivastava,2009; Byun等人,2007; Bettini 等 人 , 2009;Muntés-Mulero 和 Nin , 2009; Das 等人 , 2010;Masoumzadeh 和 Joshi , 2012; Majeed 等 人 , 2017年),这样数据就不能链接回个人。从多个来源获得的数据不足以让未经授权的用户揭示与特定实体有关的任何信息,这是必要的2.4. 不可抵赖确保每个活动都受到监控,并记录实体详细信息,以便任何实体在执行活动后都无法拒绝在电子医疗保健系统中,每个实体的活动都应该被记录和存储以供分析。2.5. 授权她的系统的用户是患者、医院工作人员(护士、医生、药房和实验室工作人员)、保险公司和云服务提供商(Byun等人,2005年)。这种分布式特性和多个客户端基础架构容易受到未经授权的访问和内部攻击。基于角色的访问控制可用于限制来自组织的攻击。2.6. 欺骗攻击者可以通过伪造的凭证获得授权访问,并且可以作为授权用户获得对医疗数据的访问。在电子健康中,每个实体都必须拥有有效的凭证才能登录系统,并且在访问任何计算资源之前必须验证这些凭证。2.7. 恶意内部人员作为电子健康记录的授权消费者和生产者的医生可以与未经授权的药房和实验室共享这些数据,从而导致信息泄露。在电子健康系统中,需要针对此类恶意内部人员的数据保护,以确保授权人员不会不公平地利用其数据访问。2.8. 一致性位置导致一致性和泄漏问题,这反过来又损害了数据的效用和风险信息披露。因此,在电子健康记录中,数据一致性非常重要,以便相关方始终获得最新数据。2.9. 个人信息披露医生处方药物的纪录,可能会侵犯私隐有关保险公司的信息可能被篡改并造成财务损失。敏感信息泄露需要云端保护2.10. 使用控制使用控制调解谁可以访问哪些数据以及数据将如何使用和分发。在电子健康中,使用控制很重要,这确保了数据不会受到恶意攻击,延迟、修改或信令。使用控制确保正确使用数据并控制数据修改。2.11. 患者患者必须有权允许或不允许传播其信息(Lunshof等人,2008年)。在云环境中,患者的同意保护是必要的,以便将信息限制到所需的实体。当有人患有危险疾病时,这一要求至关重要2.12. 相关性只有相关实体(即医生、患者、制药公司和保险公司)才能访问患者的数据。此外,可以应用细粒度的访问控制来确保人员仅具有与其任务相关的信息。2.13. 医疗数据EHR 不需要存储器,因为过多的数据存储会增加硬件需求(Barrows和Clayton,1996)。云提供商应该在患者的一生中拥有关于他/她的因此,数据被压缩并保存在存储库中以应对这一挑战。3. 相关工作近年来,云计算已经成功地获得了大量的关注。电子健康也受益于云提供的服务(Rolim等人,2010年)。然而,云计算本身也存在许多安全和隐私问题。许多隐私保护技术存在于文献中,以克服隐私问题。不同 的技 术( Dinev和 Hart, 2004; Young和 Quan-Haase,2013;Sheehan和Hoy,1999; Sheehan,2002; Bellman等人,2004; Hann等人,2007)喜欢一般化、切片、分组化、抑制、加密和密码技术用于保护数据免受云中的身份/属性公开。隐私在互联网上非常重要。因此,有必要调查隐私保护数据发布技术的最新发展状况。在这项工作中,我们专注于一个著名的数据匿名化的方法命名为3.1. 隐私保护技术即使云计算为用户提供了许多服务,但它也容易受到许多攻击,电子健康的分布式性质带来了某些挑战,如完整性,机密性,隐私泄露 , 身 份 泄 露 , 用 户 数 据 不 可 用 以 及 传 输 期 间 内 容 的 更 改 等(Wernke et al.,2014年)。对于数据持有者来说,拥有在第三方环境中有效保护数据的技术组合是很重要的。除了上述用于保护隐私的非密码技术之外,还使用了一些基于密码的解决方案,例如认证、访问控制、密码管理和生物识别方案(Craig和Ludloff,2011)。这些技术的实施导致更好的结果,但明确的监测和维护这些技术是非常具有挑战性的。 诸如泛化、抑制、随机化、匿名化、加密技术之类的技术(Hsu等人, 1999)和解剖学来支持隐私保护数据发布。然而,每种技术都有其自身的优点和缺点。一个全面的概述了初级-A. Majeed/ Journal of King Saud University429表1中给出了隐私实现方面的vacy技术。表中提供了隐私要求方面的全面概述本文的具体目的是比较一般化与固定间隔的建议方法图中列出了所有现有的技术。3.第三章。当用户的数据在云上持久化时,许多隐私目标倾向于显式身份然而,这些方法共同有助于实现隐私目标。密码技术(Pinkas,2002;Ristenpart 等 人 , 2008;Diffie 和 Hellman , 1976; Clifton 等 人 ,2002 a; Goethals 等人, 2004; Bogdanov 等人, 2008; Bellare 等人 , 2000; Pedersen 等 人 , 2007;Feistel 等 人 , 1975; Fischer-Hübner,2001)比非加密技术更安全,并在云计算环境中提供更好的 数 据 安 全 性 。 Bahga 和 Madisetti ( 2013 年 ) 、 Zhang 和 Liu(2010年)、Proceedings of the 8thInternational Conference onCollaborative Computing(2012年)提供了基于利益相关者的各种角色从云中存储和检索电子健康记录的相关文献综述。他们将注意力集中在通过云安全共享电子健康记录上,而不是建立和维护专用的数据中心。我们建议感兴趣的读者阅读Fernán-Alemán et al. (2013)关于电子健康记录系统的安全和隐私的综合文献。作者(Fabian等人,2015年)。所提出的架构有助于在半可信云计算环境中考虑隐私需求的数据共享。大规模框架(Benharref和Serhani,2014)依赖于面向服务的架构(SOA)和云,允许不同技术,应用程序和服务的无缝集成。建议的框架允许医生,护理人员或任何其他授权实体轻松访问数据。最近,用于医疗保健的物联网(IoT)已经普及(Hossain和Muhammad,2016)。然而,这需要在收集和发布数据时识别和建模隐私威胁(Deng等人, 2011年)。数据挖掘揭示知识表1隐私技术和需求实现分析。图三. 隐私保护技术的分类。数据中适用于许多人的模式(Vercellis,2011),现有的隐私模型通常忽略这些可能会伤害用户隐私的接受模式。2008年的一项独立研究(Friedman et al.,2008)从数据挖掘的角度讨论了k-匿名,似乎是用户隐私的可靠解决方案。匿名性是通过对一般k-匿名模型进行数据挖掘模型的扩展来实现的.关于一般和从云角度的隐私方法和概念的综合文献可以从源获得(Fung,2011; Rass和Slamanig,2013)。3.2. 数据综合技术泛化是最广泛使用的匿名技术-Sr.数量技术支持的隐私要求描述替换准标识符(潜在地标识个体的属性即,年龄、邮编、性别等)价值观与其他1.不披露身份和敏感信息。2.抑制欺骗,患者同意.3.假名一致性,匿名4.Bucktization不披露信息、相关性5.切片审计,不披露成员资格6.随机化焦虑,增加攻击者搜索空间430A. Majeed/ Journal of King Saud University它被广泛使用使用预定义的层次结构或值来确保隐私的方法。这是另一种形式的推广,它完全隐藏了原始值与它将原始值替换为同义词。它用于将单个数据保存在单独的存储桶中,以确保存储桶保护。它将原始值拆分为切片。随机化通过在原始数据中添加噪声来增加攻击者与原始数据一致的不太具体的值。泛化通过用不太具体的记录替换准标识符来保护个体的身份。隐 私 模 型(Machanavajjhala等人, 2007; Sweeney,2002 b,2000 c;Wang等人,2004;Bayardo和Agrawal,2005; Aggarwal和Philip,2008; Chen等人,1996; Li等人,2012; Clifton等人,2002 b;Aggarwal,2005)与k-匿名一样,使用泛化和抑制来匿名化数据,但该技术不提供对属性泄露的保护。然而,数据持有者还考虑实用性和隐私性,以确保数据持有者发布的数据对研究人员有用,尽管是匿名的。一种流行的k-匿名模型使用泛化来创建数据的匿名版本。K-匿名还提供了防止链接和属性泄露的保护。该模型将一般化应用于准标识符,如小节c中所讨论的,以便用更一般的值替换显式信息。然而,这项技术并不能保证保护基于背景知识的披露,7.加密方法保证、真实性、审计、授权、机密性、完整性、不可否认性它们主要用于保护云中的数据。联系具体案例。表2和表3中给出了一个至少包含11条记录的简单示例,其中前者显示原始数据,后者显示应用泛化后的转换数据。在生成过程中,原始值被语义替换,A. Majeed/ Journal of King Saud University431表2原始数据。标识符的一般分类澄清、映射、规范化和识别数据中的关系这些标识符进一步26M53706流感I. 个人标识符(用ID表示)是唯一标识32F53710癌属性例如,社会安全号码,姓名等。这些属性-36F53715撕裂的ACL48M52108流感56F52100Whiplash表3广义数据(k= 2)。年龄性邮政编码疾病20–30M53705–53710贫血20–30M53705–53710流感30–40F53710–53715癌30–40F53710–53715撕裂的ACL45–60M52100–52108流感45–60F52100–52108Whiplash一致的价值观。城市可以概括为国家,国家可以概括为特定国家所属的大陆。对于数值数据,进行泛化以用数值范围或仅显示一位数(年龄:30-40或2/4)替换原始值。泛化保护隐私不受侵犯,但丢失了微观数据的重要信息,因此数据变得无用。然而,当对手有很强的背景知识时,泛化根本不是有效的。根据表3中提供的数据,如果对手知道Bob是21岁并且他的邮政编码是53706,则他可以推断Bob患有贫血症或流感。基于广义表的研究还得出结论,对它们执行查询会导致错误的结果,并且数据挖掘和相关性等技术的实施并不有效。4. 建议的匿名化方案本节重点阐述我们用于数据匿名化的总体方法。一个值得信赖的出版商,比如一家医院,收集关于病人的数据。该数据包含关于不同个体的信息。经过一段时间后,受信任的出版商将这些信息发布给制药公司,这些公司对用于开发特定疾病药物的数据进行研究。他们的主要发现包括这些疾病如何与年龄和性别相关。在电子健康数据中,通常存在这些标识符:姓名、年龄、邮政编码、地址、疾病、联系电话、身份证号码、工资信息以及疾病和治疗细节。这些属性分为特定类别(表4)。表4提供了发布者收集的属性及其分类的综合概述。这表4标识符标识符数字类别名称×U地址× U年龄U×邮编U ×疾病× U工资信息U×诊断历史U U名称× U但是在匿名化过程中被删除,因为它们直接识别用户。II. 准标识符(由QI表示),例如,年龄、邮政编码、设计和性别是公开可用的属性集合,并且可以用于揭示个人III. 敏感属性(用SA表示)包含关于必须保护免受攻击者攻击的个人的敏感信息。在表4中,疾病、治疗史等可被称为敏感属性。在发布数据时,ID被完全删除,QIs被泛化,抑制或分桶,具体取决于场景。Sensitive的属性也在经过一些修改后与微观数据一起发布,主要是为了研究人员。 可信的发布者总是试图确保电子健康数据的隐私保护分发,使得作为数据主体的人的身份不被公开。 在预处理阶段,如果邮政编码部分由“-”分隔,我们首先通过删除它将其转换为数量,并在平均值计算期间将其视为数字。考虑到数据隐私的重要性,作为一个未得到满足的需要,电子健康,我们提出了一个变种的泛化,保护身份披露,并有助于推广的质量指标,在这样一种方式,隐私得到保护。它有助于满足第1节中所述的大多数与隐私相关的要求。此外,我们还提出了另一种分类分类数据的方法。这个完整的匿名化模型有助于轻松地概括数字和分类数据。我们提出了用于确定每组中的间隔和数据分布的公式。这种最先进的解决方案有助于电子医疗服务提供商放心地发布数据。固定间隔方法保护数据免受具有背景知识的对手的攻击。它协助数据提供者对当前不同的安全趋势进行评估。它在保护数据隐私方面发挥着至关重要的作用我们提出的方法在匿名数据中具有广泛的应用。与其他数据隐私方法相比,它有助于数据发布者创建数据的匿名版本,其复杂性较这是一个相对更好的技术,在数据隐私方面的推广假设有一个由医院XYZ收集的原始数据这些微观数据将在以后与不同的公司一起发布,用于研究目的。在发布之前,将生成数据的匿名版本,以便保护个人的隐私完整的数据匿名化过程在下面的示例的帮助下给出。首先,我们将匿名化数值属性,然后匿名化分类属性。任何隐私技术的核心目标都是为研究人员保留最大限度的信息,同时限制背景知识和链接攻击的隐私问题在背景知识攻击中,攻击者通过知道某个人的QIs来获得他/她的一些初步他们试图在数据中精确定位个人,并试图识别他们的信息。为了匿名化年龄属性,将排序的值分配到N个固定大小的桶或箱中,然后用箱平均值替换微数据的每个值将范围划分为N个大小相等的间隔,以创建统一的网格。如果A和B是我们想要匿名化的实际数据中年龄属性的最低值和最高值,则将使用等式来(1)、年龄性邮政编码疾病分类为,21M53706贫血432A. Majeed/ Journal of King Saud University联系我们3¼33间隙宽度B-Að1Þ表6年龄属性分析。其中B是年龄属性的最高值,A是最低值,N是箱中的值的总数在我们的原始微观数据中,年龄属性的最小值为21,最大值为56,我们希望创建三个大小相等组宽度:56-21经过计算,我们根据原始微观数据得到以下三组:I. 21-33二. 三十三至四十五岁三. 45-57之后,属于这些区间的实际值可以由这些值的平均值或中值代替。即使百分比也比平均值有更多的保护,在我们的例子中,我们用特定区间内的值的平均值替换实际在第一个区间中,有三个值,因此计算值的平均值如下,间隔值21–332633–453645–5752表7邮政编码属性的解析间隔值52100–526395210452639–53178053178–5371753709基于ID。每个ID值都以匿名数据的形式发布。例如,性别的匿名化对于男性可以是零,对于女性可以是1。敏感分类值的匿名化见表8。这种方法适用于为匿名数据制定适当的间隔。该方案具有抗背景知识攻击的能力.所提出的方法与以下方法有一些相似之处:平均值 ,1μ g,2μg,nnð2Þ用于统计数据建模的分箱方法。但是,这种技术不会损害数据实用性。这种方法消除其中,1和2是实际值,并且n是该组或箱中的总值的数目(例如,第1组)。归纳记录的手工树制作过程。图4中描绘了所提出的方案的完整工作以及主要组件。平均体重121þ26þ32¼26大多数现有的基于泛化的算法伤害了匿名数据工具太多了。例如,如果一个医学研究...对于两组的其余部分,平均值计算过程与上述公式中所述相同。为了将表5中给出的邮政编码值匿名化为原始微数据,邮政编码属性的较低值是52100,最高值是53715,并且我们想要创建三个与性别相同大小的匿名化数据组。使用等式(1),我们得到如下结果,电话:+86-53715-52100-539经过计算,我们根据原始微观数据得到了以下几组:I. 52100-52639二. 52639-53178三. 53178-53717之后,属于这些区间的实际值可以用表6和表7所示值的平均值或中位数代替。为了简单起见,我们保持原始数据值不变。这种匿名化非常适合数据不太大且数据内容已知的情况对于分类数据的匿名化,我们建议基于身份的匹配。在原始微观数据中,我们有两个分类属性,即性别和疾病。只是匿名的表5原始数据。年龄性别邮编疾病21 M 53706贫血登特想模拟25岁的人通常患的疾病泛化将给他/她年龄属性的部分值或过拟合或欠拟合区间。例如,10他/她在这些时间间隔上建模或进行一些疾病分析将变得非常从隐私保护的角度来看,如果攻击者知道某人的年龄(例如,27)性别为男性,并且具有邮政编码(例如,53710)基于背景知识,攻击者可以推断出某人的敏感信息。实用程序基于动机的泛化算法将向攻击者提供完整的信息,以识别某人,如表9所示。同时,所提出的方法在这种情况下具有更好的保护。该方法克服了生成泛化层次和建立泛化度的困难它提供了更好的保护,从众所周知的攻击有关的隐私保护,并保留更好的语义的原始数据从效用的角度来看。它解决了拟标识符值的泛化、欠拟合和过拟合问题,使有效的数据分析成为可能。为了对包含用户准标识符(如年龄、性别、邮政编码等)和敏感属性(如工资或疾病信息)的任何个人特定数据进行匿名化,引入了以下六个原则:(1)原始电子健康记录的预处理;(2)基于QIs值的最高相似性用户排名;(3)使用隐私参数k形成等价类(Ci);(4)属性值范围分析和从数据中去除离群值(5);将属性分类为两个表8名义属性数据匿名化。2632MF5370653710流感癌ID值ID值36F53715撕裂的ACL0贫血2撕裂的ACL48M52108流感1流感3Whiplash56F52100Whiplash4癌Þ¼A. Majeed/ Journal of King Saud University433K-Sim P1;Q1n1n1上述问题数据中不相关和冗余值的存在增加了匿名化过程的复杂性。数据预处理包括数据清理、标准化、特征提取、选择和变换(例如,数字化(Numerical)。4.2. 高度相似用户排名基于QI值,对相似用户进行排名,这是通过余弦相似度来完成的,给出如下:PN1×Q1q其中P1和Q1是具有Q1的两个不同用户,P11,Q11,P12,Q12,.. .P1n,Q1 n. 所得到的矩阵包含基于他们的QIs值的高度相似的4.3. 等价类的形成在对相似用户进行排序之后,将用户矩阵U划分为不同的等价类(C1;C2;C3;.. ;C N),其中每个类由至少k个标识符组成。k的值由数据所有者选择(例如,hospi-tals),并且它可以是任何整数。然而,必须仔细考虑数据分布和数据发布的目标来选择它。如果高度相似的用户是N,则可以使用以下等式获得等价类的数量(Ci)。表9见图4。固定间隔进近工作流程图。Ci¼N4.4. 等价类ð4Þ基于属性分类的数据匿名化。年龄性邮政编码疾病20–30M53705–53710贫血20–30M53705–53710流感30–40F53710–53715癌30–40F53710–53715撕裂的ACL45–60M52100–52108流感45–60F52100–52108Whiplash(6)数据匿名化。选择这种方法来增强任何数据集中的用户隐私,并减少由背景知识和链接攻击引起的隐私泄露。除了用户的隐私保护,匿名的数据效用方面建立不同的分类器,并保持属性值尽可能接近原始值的建议方案的主要目标。所提出的方案与程序步骤一起工作如图所示。四、主要成分的方程式和程序的简要细节如下。4.1. 电子健康记录的预处理在对电子健康数据进行匿名化之前,进行预处理数据预处理是非常重要的一步,因为数据收集方法往往是松散的控制,从而产生不准确的结果。诸如超出范围值(即,收入:100),不可能的数据组合(例如,性别:男性,怀孕:是)和丢失值等。会产生误导性的结果。除了在形成等价类之后,我们通过绘制数据来分析等价类中每个属性的值通过目视检查数据(如有)去除异常值除了离群点在某些情况下,一个等同性类中的属性也可能只包含单个值(例如,所有用户具有年龄值30岁)或非常小数量的值(例如,年龄值分别为30、31、30、32和30岁的五个用户)。在这种情况下,这种等价类的匿名化因此,如果范围值低于定义的阈值T,则属性的实际值增加常数因子以保护用户在我们的实验中,T的值但是,它可以根据目标进行调整,以及数据所有者希望确保EHR的保护级别4.5. 属性分类在EHR中,记录可以是数字、字符或组合。在所提出的方法中,我们处理两种类型的数据,同时产生匿名值。因此,我们只将数据分为两种类型。在头脑中出现的一个问题是,EHR中只有这两种类型的数据吗因此,为了澄清这一点,数据可能以我们工作中提到的这两种形式之外的几种形式存在,但我们只处理了两种类型的数据电子邮件地址和邮政地址等显式标识符存在于这两个属性的组合中。同时,根据隐私保护数据发布(PPDP)概念,直接标识符(例如,电子邮件地址,邮政地址,电话号码,姓名和地点等)在数据匿名化过程开始之前被删除。ð3Þ434A. Majeed/ Journal of King Saud University~~4.6. 数据匿名化执行数据匿名化以将原始属性值替换为广义值以匿名化数据。每个等价类中属性的匿名化基于特定属性的类型和值。考虑真实属性值的数据匿名化促进了优异的数据匿名性,从而保护身份并防止机密信息泄露。同时,还保留了数据效用,以进行有效的分析和构建多种类型的该方案有助于在最大程度上保留原始值的语义,从而提高数据的实用性。5. 结果和讨论本节介绍所讨论的概念的产出。固定区间法的计算结果比密切相关法的计算结果要好。所提出的方法具有广泛的采用,并确保准确的结果,在用户的隐私和匿名数据的效用。最重要的是,这种方法与所有泛化方法相比具有许多优点,例如它可以防止身份和成员身份泄露攻击,因为它是大多数方案未满足的要求之一。另外,这种方法适用于用户交互程度高且同时生成查询响应的Web应用程序。它还在很大程度上增加了攻击者学习数据内容的搜索空间。因此,该方法在电子健康数据发布过程中,在用户隐私和匿名数据效用方面都产生了有希望的结果5.1. 改善用户隐私所提出的方法不仅在空间和实用性方面很好,而且还可以防止显式身份泄露。提出的方法有助于避免背景知识攻击、身份泄露和成员身份泄露.两种技术的详细比较分别见表9和表10。为了生成每个属性的匿名值,使用表5中给出的记录如果对手对一个人的年龄、邮政编码或性别有一些背景知识,他们就可以很容易地识别出这个人的疾病。即使最好的数据隐私技术(例如,一般化)是无用的,当对手拥有一些背景知识。在大多数情况下,当数据发布者定期发布他们的数据时,泛化严重地无法保护微数据中的身份和成员身份。然而,有一些算法可以更好地联合使用这些技术。5.2. 匿名数据实用程序在脑海中出现的一个问题是,准确性的损失可能是拟议方法的一个问题,需要加以澄清。为了解决这种模糊性,我们进行了大量的模拟,表10建议的数据匿名化方法。年龄性邮政编码疾病260521040,1260521040,1361537152,4361537152,4520,1537091,3520,1537091,3从实用性的观点来看,成人的数据集(Blake和Merz,1998)在UCI机器学习库中可用,使用两个分类器,称为随机森林(Breiman,2001)和支持向量机(Osuna等人, 1997年)。原始数据集包含48,842条记录,包括6个数值和8个分类/非数值属性,大小为5.4 MB。四个属性用作准标识符,一个属性用作目标类。在存在缺失值的情况下,实际数据的三分之二划分给出32,561个实例作为训练数据,16,281个实例作为测试数据。我们在进行实验之前消除了具有未知值的记录,得到的数据集包含45,222个元组。细化数据的三分之二划分包含30,162个实例作为训练数据,15,060个实例作为测试数据。 我们将获得的结果与现有的和最先进的名为IACk的方法之一进行了比较(Li等人, 2011年)。所提出的算法性能始终优于IACk算法相比。图1列出了K值从5到25的不同值的精度结果。 5使用随机测试(RF)。同样,对于不同的K值,使用支持向量机(SVM)在图6该方案的结果是有前途的实用性和隐私的匿名数据。所提出的方案可以很好地工作与所有类型的数据。有些读者可能想知道,由所提出的方案产生的匿名属性值的应用是什么。因此,为了解决这种模糊性,我们强调了匿名值的一些潜在用途,这些用途也被许多研究所阐明。从对电子病历的不同研究来看,电子病历中的每个属性对用户的实用性和隐私性的贡献是不同的。除了效用和隐私之外,每个属性都有不同的预测能力。某些属性具有与其他属性不同的预测能力。例如,性别属性比属性ID具有更大的预测能力,因为男生比女生更有可能学习计算机科学,并且这种趋势几年来没有改变。同样,医学研究人员也一直对在大多数情况下使用年龄属性来模拟疾病的原因感兴趣。因此,希望向他们呈现与原始值偏离较小的匿名值以执行有效分析。该方案通过平均值很好地保留了原始值的语义,因此有助于准确的疾病建模。此外,邮政编码属性比国家或州更清楚地表示本地区域,图五.准确度:建议算法与IACk算法。A. Majeed/ Journal of King Saud University435见图6。准确度:建议算法与IACk算法。疾病(例如,癌症在当地很常见。它将帮助制药公司和医院发现更复杂的治疗方法,并根据提取的信息为这些地区提供特殊优惠。除了诸如年龄、性别和邮政编码等常见的QI之外,诸如个体的身高、体重和身体质量指数读数的一些其他相关属性在通过设备传输时也可能导致隐私泄露。所提出的方案确保了所有数字属性的保护。同时,组合的数字属性值知识,例如,具有邮政编码412- 791的某些地区的80岁或以上的人总是患有阿尔茨海默病。这种从所提出的方案提供的数据中提取的信息分析,同时保护个人6. 结论和今后的工作云中电子健康记录的隐私是一个真正的问题,需要研究团体特别考虑。研究人员已经提出并实现了不同的算法来保护用户的隐私。在本文中,我们讨论了一个国家的艺术和现有的泛化技术的数据匿名化及其局限性。针对包含用户准标识符和敏感属性的电子健康数据,提出了一种固定区间的数据隐私保护方法。这种方法也可以应用到其他类似的系统中,以保护用户的隐私。我们比较了一般化和固定间隔的方法在隐私和效用方面的有用性。所提出的技术背后的主要思想是,电子健康记录中存在的准标识符应该在固定的间隔内被适当地分类,然后用原始值的平均值替换原始值。对于分类属性的匿名化,提出了基于身份的匿名化。我们发现这种方法非常有前途,有效地解决了隐私问题所产生的对手的背景知识,并保持更好的匿名数据的效用下面简要地提到几个需要进一步探讨的未决问题选择适当的可信基础设施,服务提供商和算法仍然不足以满足用户的隐私需求,在普及的环境。由于云的多样性,安全来源是需要探索的关键问题。通常,这种安全起源包括1-动作(插入、删除、查看、更新等等)。2-实体个人信息安全,3-动作的位置(即, (四)地理位置;(四)行动的原因。尽管这种环境受到不同方法的保护,但是起源仍然通过几种方式向恶意用户泄露了敏感信息(例如,嗅探欺骗等)。基于密码学的算法工作得相当慢。在大型数据集中搜索和操作记录是一个耗时的过程。因此,有一个显着的需要,实施有效的,可扩展的和可用的数据搜索策略,以提高这些技术的速度。将我们提出的方案扩展到多个敏感属性,并从匿名数据中有效地挖掘出感兴趣的模式是未来研究的一个非常有趣的课题引用Aggarwal,C.,菲利普,S.,2008.隐私保护数据挖掘模型与算法综述。隐私保护数据Min.Aggarwal,C.,2005.论k-匿名性和维数灾难。在:31st Int.非常大的数据。Bahga,A.,Madisetti,V.K.,2013.基于云的可互操作电子健康记录(EHR)方法。IEEE J. BioMed. 痊愈的 Informatics 17(5),894-906.巴罗斯,R.C.,克莱顿警局1996.隐私、保密和电子病历。 J. Am. Med. 信息学协会 3(2),139-148。巴亚尔多河阿格拉瓦尔河2005.通过最佳k-匿名化保护数据隐私。Data Eng. 2005. ICDE2005年。Bellare,M.,Kilian,J.,Rogaway,P.,2000.密码块链接消息认证码的安全性。J.计算机系统Bellman,S.,约翰逊,E.J.,科
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功