隐私合规性和风险评估：隐私指标框架及评分方法的研究

112 浏览量更新于2024-01-17 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报隐私评分框架：使用标准指标自动进行隐私合规性和风险评估Nakyoung Kima，Hyeontaek Oha， Choi Jun Kyunba大韩民国大田韩国科学技术高级研究所信息技术融合研究所b大韩民国大田韩国科学技术高等研究院电气工程学院阿提奇莱因福奥文章历史记录：收到2022年2022年9月29日修订2022年12月28日接受2023年1月2日上线关键词：个人数据隐私指标风险评估隐私政策分析A B S T R A C T个人数据已成为数据驱动型服务和应用的关键，而隐私要求现在受到法规的强烈要求。与此同时，人们发现很难理解服务和应用程序是否处理个人数据以遵守其协议和法规。因此，需要隐私指标，其将隐私内容概括为隐私评分、标签等形式，通过提供关于隐私的可理解的信息来增强用户对于可靠的隐私指标，需要适当的标准和方法来评估隐私风险和合规性的水平因此，本文提出了一个隐私评分框架的服务在处理个人数据的背景下，六个标准化指标的启发。本文介绍了详细的信息标准化指标，并提出隐私指标量化隐私得分。此外，本文提出了一套基于机器学习的分层二进制分类器和过程的基础上评估隐私政策的方法，从隐私相关信息的隐私风险和合规性的水平进行量化。通过分析Google Play商店上超过10，000个移动应用程序的隐私策略和数据访问列表，以及对一些移动应用程序的隐私评分案例研究，本文证明了所提出的框架的可行性版权所有©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着新兴的大数据和人工智能技术（Oussous等人，2018; Elallid等人，2022; Pandey等人，2021年），数据现在已经成为许多数据驱动服务的关键。特别是，个人数据（也称为个人信息或个人身份信息）引起了各种利益相关者的关注，因为个人数据带来了新的价值和见解*通讯作者。电子邮件地址： nkim71@kaist.ac.kr （ N.Kim ）， hyeontaek@kaist.ac.kr（H.Oh），jkchoi59@kaist.edu（J.K. Choi）。沙特国王大学负责同行审查q这项工作部分得到了&&韩国政府（科学和信息通信技术部; MSIT）资助的信息通信技术规划评估研究所（IITP）资助（编号2020-0-00833，基于5G的智能物联网信任使能器研究）的支持，部分得到了韩国政府（MSIT）资助的韩国国家研究基金会（NRF）资助（NRF-2022 R1 C1 C2003437）的支持。制作和主办：Elsevier提高服务质量（Malgieri和Custers，2018）。虽然个人数据是通过从数据创建到消费的复杂价值链处理的，但数据流通常分为三个主要阶段：收集、管理和与四个不同利益相关者的使用，如图1所示ITU-T（2020）、ISO中央秘书（2019）、ISO中央秘书（2017）。个人数据来自数据主体，任何可以通过个人数据直接或间接识别的个人（a：k：a）。服务用户），通过使用由数据控制器和处理器提供的服务，数据控制器和处理器利用个人数据提供服务（a：k：a.服务提供商）。此外，个人数据可以从数据控制者交换或转移到第三方，用于各种其他目的，数据主体的同意。作为个人数据利益相关者之间互动的结果，确定了三个主要阶段。当数据主体试图使用由数据控制器提供的新服务时，他们首先看到关于服务的信息及其用于注册的隐私策略。注册后，数据主体通过使用服务产生个人数据，并将其提供给数据控制者（即，数据收集阶段）。之后，数据控制者管理收集的个人数据为了满足隐私合规性和数据主体的同意（即，数据管理阶段）。管理的个人数据是https://doi.org/10.1016/j.jksuci.2022.12.0191319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. Kim，H.还有J. K。Choi沙特国王大学学报515Fig. 1.个人数据利益相关者及其互动的说明。由数据控制器和/或处理器处理以提取用于向数据主体提供服务的各种信息。此外，个人数据可能会提供给第三方用于其他目的（即，数据使用阶段）。数据收集和使用阶段包括数据生成、收集、分析和利用的一般活动，而数据管理阶段则包括处理对个人数据进行操作（包括数据收集和使用）的隐私保护的实践（ISO中央秘书，2019）。如今，个人数据管理的概念近年来正积极引起关注，因为个人数据收集和使用现在需要遵守隐私法规或要求，而个人数据生命周期涵盖各种个人数据利益相关者。如图 1，因为隐私政策是数据主体使用数据控制者提供的服务所满足的第一项。近年来，个人数据法规对个人数据收集和使用的实体提出了严格的要求，需要在隐私政策中披露（GDPR，2022;加利福尼亚州消费者隐私法案，2022），以赋予个人数据生态系统中数据主体的个人权利。因此，个人资料持份者现时应透过隐私政策明确告知资料当事人有关其资料收集及使用的详情。然而，数据主体很少阅读所提供的隐私政策，因为阅读政策和识别风险和选择需要大量的时间和精力（Schaub等人，2015;Reidenberg等人，2015年），因为法规的要求增加了隐私政策的长度（Linden等人，2020年），其中非专家往往发现难以阅读（Becher和Benoliel，2021年）。换句话说，人们通常只是同意隐私政策而不阅读它们。为了缓解阅读和理解隐私政策的问题，已经引入了隐私指示符的概念，以创建合成或概括的隐私内容，用于向数据主体提供关于隐私的更有意义的信息（Reidenberg等人，2019; Barth等人， 2021年）。具体地，为了向服务用户提供关于服务的隐私合规性和风险的直观信息，隐私指示符可以被形成为隐私评级（例如，A、B、C等等级），隐私得分（例如，74分在100个中）等（Reidenberg等人，2019; Barth等人，2021; ToS;DR，2021; Privacy Icons，2021; Disconnect Me，2021;TrustArc，2021）。为了产生隐私指标，重要的是通过评估数据控制器和处理器的隐私政策和其他隐私因素来量化隐私合规性水平或隐私侵权风险。尤其重要的是，决定评估隐私指标的具体标准以及量化标准的数据来源。与此同时，已考虑将隐私政策作为隐私指标评估的数据源之一，因为其包含有关隐私和个人数据处理的信息因此，各种现有的研究（Wilson等人，2016; BannihattiKumar等人，2020; Nejad等人，2019; Nokhbeh Zaeem 等人， 2020; Keymanesh 等人， 2020;Harkous 等人， 2018;Ravichander 等人， 2019; Ahmad 等人，2020）已经集中于适当地分析隐私政策的文本以获得关于隐私合规性和风险的信息。为了处理隐私策略的文本，自然语言处理（NLP）技术已经被应用于隐私策略分析（Ravichander等人，2021）在消化冗长的隐私政策文件与法律术语。此外，为了进行全面的隐私风险评估，还调查了隐私政策以外的各种来源，以确定对个人数据的做法（例如，请求权限列表、静态代码分析等）。除分析个人数据的实践外，数据控制者和处理者与数据主体的互动也被纳入隐私风险评估。目前关于隐私风险评估的研究和项目旨在分析数据控制者因此，以往的研究工作大多集中在将机器学习技术应用于隐私风险评估领域，并通过更先进、更新的技术来提高分析性能。然而，同样重要的是，不仅要考虑提高分析性能的技术，还要提供评估隐私指标的严格标准。同时，还没有一个工作提出了基于国际标准的隐私指标为了填补这一空白，本研究的灵感来自于国际电信联盟-电信（ITU-T）标准化部门发布的一般服务和应用可信度评估标准和指标（ITU-T，2017;ITU-T，2020），该标准是一个法定标准制定组织。本文在隐私和个人数据的背景下重新定义了指标，然后提出了一个隐私指标评估框架与定义的隐私指标。通过使用所提出的框架，服务用户可以更直观地了解隐私合规性和风险的分数。此外，服务提供商可以通过利用该框架的结果来改进其隐私N. Kim，H.还有J. K。Choi沙特国王大学学报516本文的主要贡献如下：隐私指标评估框架产生隐私分数，该框架利用关于服务对个人数据的数据实践的客观信息以及服务与最终用户之间的客观和主观隐私指标是根据标准对个人数据进行定义，包括多种评估项目，以衡量和量化个人数据收集、管理和使用所造成的隐私风险和合规水平。此外，每个隐私指标的详细标准和评估方法，提出了衡量和量化隐私指标。此外，技术和方法，包括机器学习，以评估每个隐私指标进行了深入讨论，作为建议的评估框架的一部分。特别是，本文特意设计了一个层次结构的隐私政策分析模型，以确定各种数据的政策指标评估的做法。在性能评估方面，介绍了该分析模型在隐私策略数据集上的分析结果.此外，本文还利用所提出的客观隐私指标评价标准，对GooglePlay Store上的1万多个移动应用的隐私策略进行了分析。此外，在不同的用户偏好的隐私场景下，智能家居服务的移动应用程序的隐私指标进行评估，作为一个案例研究与真实世界的数据，如隐私政策，请求的权限列表，评级和服务使用信息，以检查隐私指标的主观性的影响。本文的其余部分组织如下。在第二节中，提供了现有的研究和项目的隐私指标和隐私风险评估。第三部分提出了隐私指标的具体衡量标准和隐私指标评价框架。提供了用于分析隐私策略和客观隐私指标的性能分析结果。此外，在第4节中提供了一个案例研究，用于整个建议的隐私指标评估结果与建议的框架，作为两个著名的移动应用程序的概念证明，然后在第5节中得出结论。2. 文献综述隐私指示器的目标通常被认为是提供数据主体（即，服务用户）更有意义的通知，以授权他们并改进个人数据的实践（Reidenberg等人，2019; Barth等人，2021年）。因此，已经以多种形式广泛地研究了关于明确地呈现用户的权利及其隐私风险的隐私指标的许多方法（即，隐私等级、分数、标签、证书等（ToS;DR，2021; Privacy Icons，2021;Disconnect Me，2021; TrustArc，2021），这些通常通过服务对个人数据的做法来衡量也有许多作品分析隐私政策，以确定政策中的数据做法，并将其明确传达给服务的用户。服务条款;未读（ToS; DR）引入了一个同行评审流程，该流程分析隐私政策，以告知用户他们的权利，并对服务进行评级（ToS;DR，2021）。同样，MozillaDisconnect Me还引入了图标，标签，以直观地简化由TrustArc数据库授权的隐私策略，TrustArc是一家隐私合规认证公司，前身为TRUSTe，对隐私策略进行手动分析（Disconnect Me，2021; TrustArc，2021）。以前的工作集中在各种方式来表示隐私指示器在许多形式。然而，以前的工作隐私指标利用自定义的指标，这取决于服务的环境，以衡量隐私的合规性和服务的风险。同时，Wilson等人（2016）创建了一组115个在线隐私政策（NLP-115）语料库，并对个人数据的实践进行了注释，这引发了许多基于NLP技术的隐私政策分析自动化的研究和支持。Bannihatti Kumar等人（2020年）使用了Bannihatti-115语料库来开发模型，这些模型分别从隐私政策和网站中自动提取退出选择。与此同时，隐私政策分析Nejad等人。（2019）使用使用ESTA- 115语料库训练的多标签分类器。分类器对每个陈述中与数据相关的实践进行分类，然后通过基于规则的信息提取进行分析以进行风险度量。在Nokhbeh Zaeem等人（2020）中，开发了一种名为PrivacyCheck的服务，该服务提供了关于10个选定隐私因素的隐私政策摘要通过使用400多家公司的注释隐私政策，针对3 个风险级别的数据实践。类似地， Keymanesh等人（2020）提出了一种方法，通过利用150多项隐私政策来提取可能描述隐私风险的部分作为隐私政策的总结。在Harkous等人（2018年）中，基于深度学习的模型对隐私政策中的隐私实践进行了分类，这些模型是用ESTA-115和其他语料库训练的，还被用作服务的解决方案，该服务提供关于具有问题回答功能的隐私策略的概要，称为Polisis-Pribot。此外，为了开发自动此外，还有一些工作扩展了Wilson et al.（2016）的工作。在Zimmeck等人（2019）中，发布了一个用于移动应用程序隐私策略分析的数据集，其中包括350个注释了隐私实践的Android应用程序隐私策略，并提出了一个移动应用程序隐私系统（MAPS），用于进行隐私合规性分析。此外，Story等人（2019）的作者通过NLP技术和作为MAPS一部分的静态代码分析，进一步检查了移动应用程序的实际数据访问与隐私政策中指定的数据实践的一致性。在欧盟《通用数据保护条例》（GDPR）的背景下，Poplavska（2020年）扩展了ESTA-115的工作。作者识别了GDPR与XML-115语料库的注释类别中的匹配和不匹配，并验证了它们之间的系统化一致性，这验证了XML-115在分析隐私政策的GDPR合规性方面的适用性。虽然先前有关隐私-115数据集的研究及项目已成功应用先进的机器学习技术评估隐私合规性，但在评估中并未适当考虑隐私风险的主观性。与此同时，在指标方面也开展了标准化工作在评估服务时，我们坚持客观和主观因素都需要适当考虑。在ITU-T标准（ITU-T，2017）中，在主体可信度的背景下讨论了服务评估的直接和间接指标ITU-T（2020）将直接指标和间接指标进一步扩展为个人数据处理特定领域的客观指标和主观指标。虽然可以通过上述研究和项目确定隐私风险背景下服务的客观信息，●●●●●N. Kim，H.还有J. K。Choi沙特国王大学学报517服务与其用户之间的主观交互需要被测量为定量分数。在Dagger et al.（2009），Mccaffrey et al.（2018），Haring et al.（2020），研究了将交互作用转化为两个主题之间的广义关系强度的方法。由于还没有一个工作，提供了一个整体的隐私指标评估框架，考虑到评估的主观性，在标准化的指标，这留下了空间，以改善以前的研究和项目的隐私指标评估。因此，本文的范围是引入隐私指标评估框架，以说明隐私风险的主观性，并解释隐私和个人数据处理背景下的标准化指标3. 隐私指标评估框架本节介绍隐私指标和评估隐私风险和隐私合规水平的框架，以制定处理个人数据的服务的隐私指标。图2描述了所提出的隐私指标评估框架，其包括四个主要过程：1）分析服务的隐私策略和请求的数据访问权限，2）评估用户对隐私策略、数据访问请求和用户交互的分析将服务的隐私指示符计算为量化值的步骤，所述量化值然后被组合成总体隐私得分。在本节的其余部分中，首先根据国际标准（ITU-T，2017;ITU-T，2020）定义隐私指标，然后详细介绍评估框架中每个过程所3.1. 隐私指示器在评估隐私风险时，不仅需要考虑有关服务对个人数据的做法的客观信息，还需要考虑有关服务与其用户之间互动的主观信息。因此，所提出的隐私指标评估框架将服务的隐私风险测量3.1.1. 客观隐私指示器客观隐私指标包括可以从客观信息评估的评估标准。客观信息意味着对所有用户产生相同影响的信息。例如，服务隐私政策中规定的个人数据做法是客观信息，因为无论隐私政策的受众如何因此，个人数据背景下的客观隐私指标根据国际标准（ITU-T，2017;ITU-T，2020）的建议定义如下：目标服务服务1提取物隐私政策分析隐私政策分析映射评价客观指标能力隐私评分个隐私性评分服务2服务3服务n数据访问权限提取物用户交互提取物数据访问权限分析用户交互分析映射映射慈善诚信主观指标体验声誉倾向服务1：80服务2：70服务3：78服务编号：90图二. 拟议的隐私指标评估框架的系统概述。表1隐私指标的评价标准和方法。指标ID标准方法A1收集IP或设备信息和在线访问记录，分析隐私策略、数据访问、静态代码等A2一般个人信息的收集（即，联系人姓名）A3收集敏感个人信息（即，A4提供与安全相关的功能仁B1授予个人信息的选择权和控制权B2授予个人信息的访问权和更正权B3隐私政策/协议条款B4提供个人信息管理者的联系方式IntegrityI1说明收集目的及其适当性I2与任何第三方共享所收集的个人信息I3说明与任何第三方共享信息的类型和目的I4通知隐私政策或协议条款主观体验E1服务使用频率来自用户输入的信息，外部源系统日志，E2服务使用R1服务评级R2对服务进行评分的用户数量倾斜度W用户等……N. Kim，H.还有J. K。Choi沙特国王大学学报518能力：与处理个人信息的资格和能力相关的特征，可能包括个人信息收集的范围和类型、安全功能等。仁慈：该服务与个人信息提供者合作或行动的态度特征，可能包括是否以及如何传递数据主体的权利内容，如个人信息处理或保护政策等。完整性：服务遵守个人信息相关原则的特征，包括个人信息使用与公布目的的一致性、收集目的的充分性等。3.1.2. 主观隐私指示器主观隐私指标包括以定量和定性方式对累积交互的评估。因此，可以从服务与其用户之间的交互的强度来评估主观指标。例如，用户使用服务的频率越高且时间越长，则服务与用户之间的交互就以定量的方式越强烈。此外，当更多用户使用服务并给予高评级时，服务和用户之间的定性交互更强。以这种方式，个人数据背景下的主观隐私指标基于标准的建议定义如下：经验：用户和服务之间的累积交互，其可以包括诸如在频率和持续时间方面的服务使用程度的关系。声誉：对服务以前的行为和性能的评价，可能包括用户的评价。倾斜度：其他隐私指示器的重要性作为隐私风险评估的权重，其可以根据服务的特性和用户的偏好而不同。在本节的其余部分中，提供了用于评估所定义的隐私指标的方法和3.2. 分析隐私政策和请求的权限对于客观隐私指标的评估，提供有关服务数据的客观信息实践得到利用。法律规定，处理个人数据的服务现在必须在收集和使用个人数据之前提供最新的隐私政策。因此，我们会就个人资料的惯例分析隐私政策，以评估客观指标。此外，发布的列表中对所请求的数据进行了访问权限也被许多中间业务分发者推荐，或者可以通过分析业务的系统日志和静态代码来获得。因此，关于所请求的数据访问的信息也被用于在评估中考虑隐私策略和数据访问3.2.1. 私隐政策所订明的处理个人资料的做法在隐私策略分析中，隐私策略中陈述的各种类型的数据实践通过利用具有自然语言处理技术的监督学习来识别。开发了一组分类器来识别来自隐私策略的数据实践。分类器是用IBM-115数据集训练的，IBM-115数据集是用于分析隐私政策中规定的数据实践的最知名的数据集（Wilson等人，2016年）。该数据集提供了描述隐私策略中的状态指定的数据实践的注释，这使得数据实践识别转换为分类问题。这些注释是由一组法律系学生在一个层次结构中完成的，该层次结构由一组数据实践类别、属性和值组成。115数据集的详细结构如图3所示。对于我们的隐私指标评估框架，我们修改了Sathyendra等人（2016）提出的隐私政策分析模型，因为本研究的范围是引入隐私指标评估的整体框架，而不是提高框架每个部分中特定模型的性能。特别是，我们特意组织隐私策略分析模型在一个建议的层次结构的政策指标评估，如图4所示。在Sathyendra et al. （2016），一组分类器候选（即，逻辑回归、支持向量机、朴素贝叶斯、随机森林等）的研究，以确定具有最佳性能的分类器，用于提取用户的隐私政策中规定的退出选择。本文在与Sathyendra et al.（2016）的政策分析模型共享的基础上，以分层结构系统地设计了一组分析模型，每个模型都旨在识别不同的数据实践，以识别基于所提出的分层分类器模型的隐私策略中的数据实践。在隐私策略分析之前，然后组织成句子，还有一系列图3.第三章。图115数据集中注释的层次结构●●●●●●N. Kim，H.还有J. K。Choi沙特国王大学学报519见图4。用于识别数据实践的拟议分层分类器的系统结构。应用清除过程，清除过程去除非字母字符，将所有字母转换成小写，并将单词词干转换成它们的根形式。然后，使用二元词频逆文档频率（TF-IDF）向量化器（Chowdhury，2010）嵌入句子，该向量化器计算给定句子集合中二元词袋的频率并将句子嵌入分布式向量中。为了评估文档中术语的统计重要性，TF-IDF向量化器首先测量术语频率（TF）和逆文档频率（IDF），术语频率（TF）是术语在文档中的相对频率，逆文档频率（IDF）是包含该术语的文档的按比例缩放的逆分数。然后，计算TF和IDF的乘积TF-IDF以获得最终权重。分类器采用每个句子的嵌入向量来估计句子所描述的数据实践。每个分类器负责将单个类型的数据实践类别、属性或值识别为二元分类，其确定给定句子是否对应于每个数据实践类别、属性和值。在本文中，基于机器学习的分类器用于对47个选定的类别、属性和值（例如，与客观隐私指标相关，如图所示。 6在下面的案例研究部分。同时，其他类型的矢量化方法和分类器可以替代地用于上述框架中。此外，为了识别关于其类别和属性的数据实践，用于所选类别、属性和值的分类器被系统地设计在如图4中所描述的分层结构中。也就是说，例如，只有被识别为具有关于第一部分收集的描述的句子被进一步处理，以调查该句子是否暗示该服务收集个人数据。同样，只有被识别为告知服务收集个人数据的句子才会被进一步分析，以检查是否说明了数据收集和使用的目的等。因此，服务隐私政策中的句子会通过分类器进行分层检查。3.2.2. 请求的数据访问权限除了隐私策略分析外，还将服务请求的数据访问权限用于评估客观隐私指标。许多中间服务分发商现在建议服务提供商公开其请求的数据访问权限的列表。因此，我们利用服务提供商发布的数据访问许可请求信息来识别可能无法通过隐私策略分析识别的数据集合。同时，可以应用其他方法来验证服务的数据访问，例如Zimmeck等人中的静态代码分析。（ 2017年）。隐私策略和数据访问权限的分析结果综合用于评估相应的客观隐私指标。所识别的数据实践和数据访问用于将客观隐私指示符测量为0和1之间的分数。从分析结果到隐私指示符的映射的细节以及用于计算分数的特定方法在本节的后半部分中提供3.3. 评价用户虽然客观隐私指标是从服务提供商提供的客观信息源或从对系统工作过程的分析中获得的，但是主观隐私指标需要对用户与服务之间的交互进行分析。因此，该框架利用用户对服务的使用和评价信息进行主观指标评价，从定量和定性两个方面考虑用户与服务之间的交互。此外，该框架还考虑了隐私指标评估中的用户3.3.1. 服务的使用为了定量地评估用户对服务的体验，每个用户的服务使用根据给定时段的频率和持续时间来测量。用户的使用频率和持续时间以对数标度表示用户与服务之间的广义交互强度（Dagger等人，2009年）。因此，用户使用服务的频率和持续时间在对数尺度上被用于主观隐私指标评估。通过分析各级系统日志，可以获得有关频率和持续时间的信息N. Kim，H.还有J. K。Choi沙特国王大学学报520.¼KFG[1/2]<我>：k.¼半]FG[1/2]（）.¼[1/2]RthrKKK或者所提出的框架可以在不能自动检索这样的信息时请求用户输入。同时，仁慈指标B1/4/2B1;B2;B3;B4]的评价项目定义为：（b）第（1）款1/4分钟1BBk2f1; 2;3gK;thrK; 2003年同时，用户在隐私指标评估中考虑，和用户和服务之间的定性交互。此外，拟议的评价框架考虑到性别问题，服务评级的可评估性系数，可以是B1;如果提供;40;否则;ð4Þ以对数刻度（Mccaffrey等人，2018; Haring等人，2020年）。因此，评级和给出评级的用户的数量被用于主观隐私指示符（即，信誉）评价。可以从中间服务分发者检索评级信息。3.3.3. 用户此外，拟议的框架提供了一种手段，通过对隐私指标的重要性进行不同的加权，将用户的特征包括其中b1和b2分别是选择类型的数量，在隐私政策中规定的访问范围，b3是Flesch阅读容易度分数，用于衡量文本的可读性。这里，B_thr是用于所有k的预定义阈值，1; 2; 3 .与此同时，评估-在人的服务的仁慈指标的评价项目提供个人信息管理者的联系信息的用户被测量为B4。对于完整性指标II1;I2;I3;I4，评价项目定义为>8分钟。1;i;8k2f1;3g;thr为每一位用户。由于每个隐私指示器具有不同的我知道>KK.Ithr-Ithr我ð5Þ重要性，用户可能有不同的观点隐私指标的重要性。因此，亲-设定的评估框架采用用户输入来建立隐私指示符的权重（即，倾斜度）。权重和0;KthrK;8k2f2g;对于每种服务，也可以根据其他标准而不同，由用户设置，如服务类型、服务提供商和I1;如果通知;40;否则;ð6Þ服务经销商此外，委员会认为，无监督学习技术-可以应用标准来将服务分组在标准的相同边界中，以便最小化用户3.4. 将评估结果映射到隐私指标来自先前步骤的分析结果用于评估其对应的隐私指示符。所有的隐私指标，除了倾向，被评估为0; 1范围内的实际值。同时，将倾向隐私指示符中的权重定义为一组实正值，其中所有权重的和等于1。3.4.1. 客观隐私指标对隐私策略和请求的数据访问权限的分析结果用于客观的隐私指标评估。因此，与数据保护法规相关的EJB-115数据集中的类别、属性和值被映射到如表1所述的相应隐私指示符。评价项目为的能力指标服务其中，i1是以特定目的声明的收集数据类型的数量，而i2和i3分别是与任何第三方共享的数据类型的数量和以共享的特定目的描述的共享数据类型的数量。这里，Ik是完整性指标中第k个评价项的预定义阈值，用于1;2; 3中的所有k个。同时，隐私策略的改变的个人通知方式的完整性指示符的评估项目被测量为I4。3.4.2. 主观隐私指标对用户与服务之间的交互的分析结果用于主观隐私指标评估。因此，具有费率信息的服务的使用频率和持续时间被映射到如表1中所描述的对应的价格指示符。体验指标EE1;E2的评估项目是从服务使用情况中测量的。基于使用频率和持续时间的交互强度定义为杨永min1;aklogek;7一根圆木A1;A2;A3;A4]定义为：（Athr-a）一其中，e1是用户在给定时间段内访问服务的次数，e2是服务被Ak2f1; 2;3g0;KKthrK;100%在用户设备的后台或前台运行。这首诗经验指标第k个评价项目的精细化阈值cator由Bthr表示。这里，k被定义为参数，和A1;如果提供;40;否则;其中Athr是f1; 2; 3g中所有k的预定义阈值，ð2Þ是K指示将频率和持续时间转换为相互作用强度的速率，然而，由于测量值和阈值都受到参数的同等影响，因此在评估过程中相互作用强度消失。同时，信誉指标收集的数据类型或请求的访问的数量对应于-响应于评估项Ak，其可以根据需要设置为收集的数据类型和请求的访问权限的数量的平均值、最小值或最大值。同时，服务提供安全措施能力的评估项目被评为A4。R1;R2是从定义为R1½min（1;r1）;108mm1KN. Kim，H.还有J. K。Choi沙特国王大学学报521212[1/2]（）四分之二j2≤≤k千分之四和Rmin1人;博客2人：9人blogRthr评级的比率由R1给出，其中r1指示平均评级，并且Rthr是预定义的阈值。同时，定义了评价的概化系数如R2。其中，r2表示给出RAT的用户的数量ings，并且Rthr是预定义阈值。在此，定义b为表示将评分和评分员人数分别转换为比率和概化系数的比率的参数，而不像经验指标评价那样影响得分。与其他隐私指示符不同，倾向指示符表示其他指示符的重要性，其被定义为权重向量，使得WRn，其中0W1;W1和n一B我ER.在这里，表示分量的基数（即，元素的数量）。利用所定义的隐私指示符，然后将隐私得分计算为隐私指示符的值与它们的相应权重的内积，如由下式给出的S¼V;W;100000其中V A;B;I;E;R。同时，本文的研究范围是提出上述政策指标评估的总体框架，而不是为框架的每个部分开发先进的模型因此，应当注意，我们的框架不限于我们在本节中描述的特定技术，并且可以广泛地应用其他替代方法和技术4. 性能分析本节提供了对所提出的隐私指标评估框架的各个方面的性能分析结果。由于本研究的目标是提出一个基于标准指标的隐私评分框架，因此所提出的框架的性能分析是以概念证明的形式提供的，而不是比较概念证明中使用的机器学习技术的量化性能评估。首先，使用不同的机器学习分类器评估隐私策略分析器的性能然后，对移动应用程序的客观隐私指标进行分析，以了解隐私策略描述在现实应用中的趋势。在此基础上，分析和讨论了不同用户隐私偏好场景下，主观隐私指标对隐私评分的影响4.1. 实验装置对于性能分析，本文使用三种类型的数据源（即，隐私策略、移动应用的请求许可以及移动应用使用），用于评估隐私指示符以测量隐私分数。对于隐私策略数据，使用前面章节中提到的115数据集对115数据集中的文本进行了注释，以指示文本在处理个人数据方面的含义然后，根据数据集中的注释开发上一节中描述的策略分析器具体地，对于量化客观隐私指标的隐私策略分析器数据集来识别隐私政策中的数据做法在分析器的数据预处理中，首先使用自然语言工具包（NLTK）中提供的句子标记器将隐私策略分割成短语。超文本标记语言（HTML）标签和停止词（即，“a”、“the”、“and”等）在分段的短语中，然后被移除。NLTK提供了词干提取功能，将短语中的单词转换为它们的形态。词干化后的词用TF-IDF向量化进行向量化，TF-IDF向量化是一种反映词对集合或语料库中文档的重要性的数值统计此外，为了根据隐私策略和移动应用的所请求的访问来移动应用程序请求的访问权限数据是在2019年从Google Play商店中抓取的，当时移动应用程序有义务列出其请求的数据访问以将其应用程序启动到Google Play商店。收集了10，000多个移动应用程序的访问数据，不包括没有有效的隐私策略统一资源定位符（URL）链接从Google Play商店获得的请求访问权限数据集包括244种类型的访问权限（例如，查看Wi-Fi连接、读取历史网络使用情况、捕获视频输出、身体传感器等）。与此同时，只有105种与用户行为有关的权限类型读取通话记录，读取您的Web书签和历史记录，读取电池统计数据等），身份（例如，查找设备上的帐户、查看配置的帐户、读取联系人等），和位置（例如，近似位置（基于网络）、精确位置（GPS和基于网络）、访问额外的位置提供程序命令等）被选择并映射到用于评估的能力指标。此外，对于移动应用使用数据，使用Carat top 1，000用户长期应用使用（Carat）数据集来评估关于用户的主观隐私指标（Oliner等人，2013年）。Carat数据集提供了超过1，000名用户在2年内使用移动应用程序的记录。特别地，Carat数据集的属性包括电池水平分数、电池状态（例如，充电或不充电），运行进程的数量，存储器状态（例如，活动页面的数量）、操作系统和版本、设备型号以及唯一的匿名客户端标识符。4.2. 隐私政策分析器对于隐私分析器来说，在IBM-115数据集中的3，778个预处理片段中，有70%用于训练，而剩下的为了简单起见，传统的基于机器学习的分类器被应用于隐私策略分析，诸如朴素贝叶斯（NB）、支持向量机（SVM）和随机森林（RF）。分类器的决策边界的阈值被确定为使假阳性率最小化的值，而真阳性率被设置为超过0.8。表2和图5中提供了二进制分类器在分类精度方面的性能。结果呈现了与测试数据集上的客观隐私指标相关的47个选定类别、属性和值的分类准确度的平均值。实验结果表明，RF分类器的分类性能优于其他类型的分类器。表2用于隐私策略分析的分类器的平均准确度分类器，一套二进制分类器的开发与ESTA-115分类器召回精度F1分数精度NB62.591.169.062.5SVM80.093.083.280.0RF86.993.889.186.9N. Kim，H.还有J. K。Choi沙特国王大学学报522的分类器，并相应地应用RF分类器在本文中进行进一步的性能分析。应当注意，所提出的隐私指示符框架不限于特定类型的分类器，而是Sathyendra等人中描述的其他类型和分类方法集。（2016）可以广泛应用。图6描述了表2和图6中提供的测试数据集上的二进制RF分类器的详细F1分数。五、RF分类器的性能因数据实践类型而异，因为隐私政策中关于每个数据实践的声明数量不均匀。大多数经过预处理的M115图五. 用于隐私策略分析的分类器的F1见图6。二进制随机森林分类器的F1分数，用于识别隐私政策中个人数据的每种做法。N. Kim，H.还有J. K。Choi沙特国王大学学报523数据集提供有关第一方收集和第三方共享个人数据的做法的信息与此同时，关于用户访问的信息往往是顺从的，因为用户请注意，2015数据集是在2016年创建的，而关于隐私政策描述和授权个人权利的监管要求（例如，选择控制、删除等）自2018年起实施（GDPR，2022;加利福尼亚州消费者隐私法，2022）。结果，识别与用户访问相关的语句（特别是数据删除）的分类器实现了相对较差的性能。4.3. 评估客观隐私指标为了评估客观隐私指标，RF分类器使用整个ESTA-115数据集进行训练。于二零一九年在Google Play商店注册的移动应用程序的客观指标随后根据其隐私政策的内容和所请求的访问权限进行评估。训练的RF分类器被映射到每个客观隐私指标的评估项目。此外，移动应用所请求的数据访问权限的列表也被映射到能力指标的评估项目。图7示出了在Google Play商店上注册的移动应用的评估的客观指标分数的分布。没有隐私策略有效URL链接的移动应用程序从评估中排除，10，588个移动应用程序的客观指标分数采用标准阈值水平进行评估，该阈值水平用于以下案例研究部分。对于评估，能力指标被测量为所收集的数据类型和所请求的访问权限的数量的最大值。对于能力指标，A1、A2和A3的分数分布表明，移动应用程序请求的数据类型和数量因应用程序而异，因为A1、A2和A3的分数与其他指标相比均匀分布。同时，对移动应用程序是否使用数据安全技术进行了A4评价，结果表明，许多移动应用程序没有明确提及安全技术的应用。就善意指标而言，根据B1及B2的分数分布，部分应用程序允许用户选择及控制个人资料，但授予用户查阅或更正所提供个人资料的权利的应用程序并不多同时，B3上的得分分布表明，对于用户来说，没有多少隐私策略具有良好的可读性，而B4意味着大多数隐私政策都提供了个人信息管理员的联系信息。对于完整性指标，I1的分数分布暗示了移动应用程序往往没有明确说明目的见图7。在Google Play商店上注册的移动应用程序的客观隐私指标的分数分布。他们的数据收集。I2和I3上的分数分布表明，与第三方共享收集的数据的移动应用程序并不多，而与第三方共享数据的应用程序通常没有明确说明其数据共享的目的。此外，根据I4的分数分布，大多数的移动应用程序不提供有关隐私政策或协议条款变更4.4. 案例研究：主观性本节提供了一个案例研究的隐私指标评估在移动应用领域考虑到用户的主观性。本文中的案例研究针对两个著名的智能家居移动应用程序Nest和Google Home的评估，作为所提出的评估框

下载后可阅读完整内容，剩余1页未读，立即下载