健身社交网络隐私风险：端点隐私区推理攻击与防范

99 浏览量更新于2024-01-22 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

801→一天跑步不会让黑客远离：健身跟踪社交网络中端点隐私区的推理攻击卡雷尔·通特imec-DistriNet，KULeuvenGhent，Belgiumkarel.kuleuven.be维克托·勒波沙imec-DistriNet，KULeuven鲁汶，比利时victor.lepochat@kuleuven.be比利时鲁汶根特市Alexios LeuvenLimeneasimec-DistriNetalex. kuleuven.be摘要Wouter Joosenimec-DistriNet，KULeuven比利时wouter.joosen@kuleuven.be施廷·沃尔茨卡尔特imec-DistriNet，KULeuvenGhent，比利时stijn.volckaert@kuleuven.be网络. 2022年ACM SIGSAC计算机会议论文集Strava等健身追踪社交网络允许用户记录体育活动并公开分享。分享鼓励同伴互动，但也构成了风险，因为活动的开始或结束可能会无意中暴露隐私敏感的位置，为了减轻这种风险，网络引入了端点隐私区（EPZ），隐藏受保护位置周围的轨道部分。在本文中，我们表明，EPZ实现的主要服务仍然容易受到推理攻击，显着降低了有效的匿名提供的EPZ，甚至揭示了受保护的位置。我们的攻击利用了活动元数据、街道网格数据以及出口加工区入口点位置中泄露的距离信息这将产生一个约束搜索空间，我们使用回归分析来预测受保护的位置。我们对140万个Strava活动的评估表明，我们的攻击发现了高达85%的出口加工区的受保护位置。较大的出口加工区会降低我们的攻击性能，而在稀疏的街道网格中地理分散的活动会产生更好的性能。我们提出了六个对策，然而，这是一个可用性的权衡，并负责任地披露了我们的调查结果和对策的主要网络。CCS概念• 安全和隐私隐私保护;安全和隐私的可用性;安全和隐私的社会方面;社交网络安全和隐私。关键词隐私区域;健身跟踪社交网络;位置隐私;基于位置的服务;隐私ACM参考格式：Karel Dhondt ， Victor Le Pochat ， Alexios Allimeneas ， WouterJoosen，and Stijn Volckaert.2022年。每天跑步附录的扩展版本可在www.example.com上https://osf.io/3m5ut/。本作品采用知识共享署名国际4.0许可协议进行许可。CCS©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9450-5/22/11。https://doi.org/10.1145/3548606.3560616和通信安全（CCS '22），2022年11月7日至11日，洛杉矶，加利福尼亚州，美国。ACM，纽约，纽约，美国，16页。https://doi.org/10.1145/3548606.35606161介绍健身追踪社交网络（FTSN）一直是最受欢迎的移动应用程序之一，并在COVID-19大流行期间进一步激增[4，49]。例如，最大的网络之一Strava拥有超过1亿注册用户[50]。这些健身跟踪社交网络允许用户记录他们的体育活动，并与朋友和平台的其他用户分享他们的轨迹和成就，促进享受和动力[7]。轨迹表示用户在活动期间遵循的路线。虽然共享轨迹构成了这些网络吸引力的一部分，但这也带来了隐私和安全风险，因为它们可能会向怀有恶意的人泄露敏感信息，例如用户的常规路线或访问过的位置。过去的几起事件引起了人们对与公众共享这些数据的危险的关注，从泄露秘密军事地点[25]，盗窃运动器材[10]，泄露附近运动员的身份[45]，到doxing用户[39]。为了限制共享信息的潜在风险，所有主要网络都提供隐私控制，限制共享信息的数量，以及控制与谁共享信息。一个值得注意的隐私控制是端点隐私区（EPZ）。 EPZ允许用户隐藏受保护（敏感）位置附近的轨迹部分，例如他们的家庭或工作地址，以避免向其他用户显示所有活动轨迹。这项措施旨在防止在经常访问的地点[54]进行骚扰和跟踪，或在受保护的地点[10]进行盗窃等犯罪活动。最常见的是，EPZ实现平衡了隐私与可用性的增加，特别是在跟踪健身成就方面，因为排行榜等功能可能仅适用于公开可见的数据[14]。此外，活动通常仍然包含完整的旅行距离，即使是被出口加工区隐藏的部分。创建活动的用户仍然可以访问完整的活动，如图1所示。出口加工区的一种实现方式是将轨道部分隐藏在以敏感位置为中心的圆内，半径是用户可配置的。然而，这种实现已经失宠，因为给定一个用户的一个或多个轨迹，有可能重构隐私区（即，半径），并找到敏感位置802CCS图1：Strava中的活动示例该界面显示轨迹曲线、总行驶距离曲线和每个点的计算距离（通过高程剖面）。部分赛道被标记为“隐藏”赛道，因为它被出口加工区掩盖。只有Activity的所有者才能看到Activity的隐藏部分;其他用户只能看到可见部分，而没有任何其他部分被隐藏的指示。(i.e.、中心）通过基本的几何推理。2018年，Has- san et al.表明这种EPZ实现容易受到自动推理攻击[24]。2022年，Mink etal. 表明人类用户可以在视觉上推断使用这种实现的隐私区域[35]。我们通过系统分析证实，主要的健身跟踪社交网络实施了一些对策，试图更好地保护敏感位置免受这些基本推理攻击[24，35]。这些对策包括Hassan等人提出的对策。[24]：更大的半径，在出口加工区边界处增加噪声，以及出口加工区中心随机移动的空间隐身。然而，一些可用性权衡，如允许小或仅固定半径，或不需要空间隐身。而且，一些健身追踪社交网络仍然根本没有实现出口加工区。在本文中，我们首次表明，这些较新的出口加工区的实施仍然非常容易被发现的据称受保护的位置，即使在采取空间隐身等我们的新推理攻击利用两个输入，使回归分析，从而在受保护的位置的出口加工区。首先，道路网络限制了用户在出口加工区内可能采取的路径其次，活动元数据泄露了出口加工区内行进的路径的确切距离。然后，我们将受保护的位置预测为可能路径和实际路径的距离在多个活动中最匹配的点。通过对140万个真实Strava活动的评估，我们发现我们的攻击可以使受保护的位置去匿名化，85%的出口加工区。较大的出口加工区半径在防止位置推断和保护用户隐私方面更有效，但即使是非常大的半径（1公里），55%的出口加工区仍然可以进行去匿名化。通过详细分析我们的攻击的敏感性，我们发现，较高的地理活动多样性和较低的街道密度有利于其性能。我们提出并评估了六种对策，可以恢复匿名的出口加工区保护的位置在不同程度上。我们发现，概括（四舍五入）报告的活动距离将是最有效的对策，虽然它带来了显着的负面可用性的影响，健身跟踪社交网络是有吸引力的，正是因为它们允许跟踪小成就差异准确。其他对策可能侵入性较小，但在改善隐私方面也不太有效。有趣的是，某些干预措施，如再生出口加工区，实际上可能会提高我们的攻击效率，因为它们提供了更多的数据，从中可以更可靠地推断出受保护的位置。因此，必须仔细评估对策，以尽量减少其对可用性和隐私的负面影响我们揭示了我们的研究结果，并提出了对策，主要脆弱的健身跟踪社交网络。总之，我们做出了以下贡献：我们对目前最流行的健身跟踪社交网络的EPZ实现进行了系统分析。我们开发了一种概念验证攻击，通过对道路网络和泄漏覆盖距离的回归分析推断出口加工区内的受保护位置（第4节）。我们评估了我们对140万个真实世界Strava活动的攻击（第5节）。我们发现了高达85%的出口加工区的敏感位置，并发现我们的攻击在稀疏街道网格上的地理分散活动中表现更好（第6节）。我们提出了六项改善出口加工区匿名性的对策，并讨论了它们在隐私性和可用性之间的权衡（第7节）。2健身跟踪社交网络我们的工作涉及健身跟踪社交网络，用户可以在其中记录他们的锻炼并与他人分享。用户通常使用支持GPS的智能手机或可穿戴设备记录锻炼，并以活动的形式上传。一个活动包含一个轨道，即，用户采取的路线，由一系列点（坐标）表示。该活动还报告行进的总距离，以及在轨迹的每个点处的累积距离，以及诸如持续时间、步速、海拔曲线、心率等的其他元数据。最后，许多FTSN定义了特定的道路延伸（例如，图1显示了一个完全开发的活动的样子。大多数网络提供隐私控制，其允许用户对其他用户隐藏所有活动（即，私人配置文件）或将特定活动标记为隐藏。使用这些控件可能会严重限制受影响活动的社交功能例如，被其所有者标记为私有的活动不能被其他用户查看，并且可能没有资格被包括在细分领导板和挑战中[14，7]。然而，Strava等网络····803--（）下一页联系我们--健身跟踪社交网络中端点隐私区的推断攻击CCS表1：从Google Play商店和流行健身跟踪社交网络的EPZ功能应用下载EPZEPZ半径（米）Adidas Runtastic [1]50M+✗[48]第四十八话循环[200，. . . ，1600]增加200[21]第二十一话循环[100，. . . ，1000]incr 100 Komoot [27]10M+多边形[53]第五十三话10M+✗[38]第三十八话10M+✗[42]第四十二话10M+圆形[200，. . . ，1000]增加200带GPS的骑行[43]1M+圆形[150、300、600、1200][31]第三十一话100k+圆形[500、1000、1500]可能暴露敏感位置的轨道的那些部分，即，就在这附近只有活动的所有者��才能查看完整的轨道，包括其实际的起点和终点（统称为“终点”），以及出口加工区本身的布局（如图2a所示）。其他用户只能看到��定义1中定义的和图2b中描述的隐藏活动。具体地说，在这样一个隐形活动的所有点，从开始的轨道，直到第一个所有者离开出口加工区的时间都是隐藏的，从所有者最后一次进入出口加工区到轨道结束的所有时间点也是隐藏的因此，其他用户观察隐藏的开始点和结束点。请注意，如果车主经过出口加工区，但不是从那里开始或结束，则通过出口加工区的轨道部分不会隐藏。此外，即使隐藏了出口区内的点，出口区外的点的累积距离以及总距离也不会改变。这构成了我们在第4节中描述的攻击的基础。定义1（端点隐私区）。让受保护的位置=，是笛卡尔平面中的点，并且是点 1，. . . ，的。我们将101表示为实际的起点，将102表示为实际的终点。设��为的子平面。强制��执行活动��会导致隐藏的活动′=��，。. .、�� 被1��得双曲余切值.活动路线的第一个点和最后一个点分别为（a）活动（ 1，. . .，），作为其所有者可见。（b）活动��“（{��，. . .，��}，1 ≤�� ≤ ��≤��），对其他用户可见。并不存在于谎言中。我们将隐藏的起始点表示为“隐藏”，作为隐形的终点。活动距离在表1中，我们列出了受欢迎的total_distance：1.86，1.86公里1.66公里FTSN。大多数FTSN使用圆形出口加工区，并让用户选择visible_distances：1000米1.50公里200米[0.16，0.18，从一组固定半径中选择圆的半径Hassan等人推断...，1.65，1.66]1 j0.36 kmmn受保护的位置使用公开可用的信息，可视距离可用距离：内部距离情景：0.16 km+ 1.50 km +0.20 km= 1.86 km总距离情景：0.36公里+ 1.50公里= 1.86公里图2：出口加工区所适用的活动的可见性。出口加工区显示为红色圆圈。默认情况下将活动标记为公开的[33]，大多数用户都保持这一设置[22]。（端点）隐私区（EPZ）是一种功能更友好的隐私控制，大多数网络都支持。出口加工区允许用户隐藏他们活动中最敏感的部分，否则他们可能会暴露经常访问的位置，如用户适用于出口加工区的活动仍然可以共享，但轨道的隐藏部分可能仍然没有资格进行性能比较，因此用户可能倾向于禁用或至少严格限制它们。我们将在第3节中更详细地讨论这些区域。3端点隐私区大多数 FTSN 允许用户通过在该位置周围定义端点隐私区（EPZ）来隐藏隐私敏感一个位置对应一个出口加工区，但用户可以配置多个位置，每个位置都有自己的出口加工区。出口加工区可以随时重新建立，并追溯适用于所有者的所有活动出口加工区的目标是隐藏用户活动的广告开始和结束点[24]。研究人员证明，考虑到受保护活动的多个端点和出口加工区的圆形布局，对手可以重建出口加工区并暴露受保护的位置（即，出口加工区的中心点为了应对上述攻击，一些FTSN通过向出口加工区的中心添加随机平移来应用空间隐身，从而产生如定义2所定义的隐身圆形出口加工区。攻击者仍然可以确定隐藏的出口加工区的参数，但不能推断出受保护的位置，因为受保护的位置和出口加工区中心不匹配。Komoot在受保护的位置周围使用随机形状的多边形，而不是圆形的出口加工区。这使得攻击者更难推断隐私区的形状[28]。Map My Tracks有一个自动隐私区域检测工具，降低了用户创建隐私区域的门槛[37]。此自动工具扫描所有新的活动端点，以确定常规的开始和结束位置。如果发现这种地点，则追溯性地对所有活动强制实行（循环）出口加工区此功能默认启用，但用户可以随时禁用。定义2（隐匿的环形端点隐私区）。设��为一个圆，其圆心��从受保护位置��随机平移，半径为。 ��对Activity��强制执行会导致隐藏的Activity ��′ ={ ��，. . . ，��}，其中1 ��≤ ，其中 �� 是 dist （�� ， �� ） > �� 的第一个点和dist （�� ，��）>的最后一个点。804CCS图3：我们攻击背后的直觉：我们搜索受保护的位置（显示为黑色标记），作为从出口加工区入口门（不同方向，以不同颜色显示）开始的理论路径（基于报告的距离，以虚线显示）相交的点4突破端点隐私区在本节中，我们将在预定义的威胁模型下对当前最先进的出口加工区进行攻击至关重要的是，这种攻击是通过提供隐形活动的精确累积和总距离来实现的，从而揭示了出口加工区内的行进距离。我们的攻击背后的直觉是，如果受害者在一个或多个基本方向上有多个活动（我们将其表示为“入口门”），我们可以使用这些距离来限制受害者可能开始或结束活动的位置。例如，考虑图3中用蓝色、橙色和绿色表示的三个活动。虽然只有活动的所有者可以看到出口加工区内活动的虚线部分，但攻击者仍然知道它们的长度。有了这些长度和给定的街道网格，对手就能够构建出受害者可能在出口加工区内覆盖的所有路径鉴于这些路径，活动的终点有可能被出口加工区内多条不同路径的交叉点推断出来。我们将隐私区的破坏分为两个子问题：第一，识别出口加工区，以减少搜索空间，第二，找到保护的位置内的出口加工区，通过回归分析。4.1威胁模型在这项工作中，我们考虑攻击者试图通过仅使用普通用户有权查看的公开可用信息来推断另一个用户的受保护位置，如FTSN所显示的。攻击者拥有与普通用户完全相同的权限，并且无法通过任何其他方式访问任何信息，例如，入侵了FTSN攻击者可以针对一个特定用户或网络的整个用户群。攻击者在技术上相当成熟，能够检查网络流量以检索活动元数据（例如，在浏览器开发者工具）、下载地图数据并运行推断算法。这个攻击者模型类似于Hassan等人的模型[24]第10段。 Mink等人[35]考虑一个技术不太熟练的黑客，他从网络网站上的活动视图中直观地推断出受保护的位置。在亲密伴侣暴力的背景下，Tseng etal. [52]发现了论坛讨论的证据，用户在其中合作进行技术复杂的攻击。考虑到可能类似的动机去匿名化受保护的位置（例如，跟踪），即使技术不熟练的攻击者也可以在成功部署推理攻击时获得支持。4.2识别出口加工区作为我们攻击的第一步，我们试图识别用户的出口加工区这个步骤类似于Hassan等人开发的攻击[24]，其中识别出口加工区（通过拟合一个圆圈）揭示了受保护的位置。然而，这对于我们的推理攻击来说已经不够了，因为网络使用EPZ来对抗Hassan等人。的攻击。在我们的例子中，这一步也不是我们的攻击有效的严格必要条件，因为我们可以在整个街道网格中搜索候选位置，而不管出口加工区的布局如何。然而，该步骤限制了搜索空间，这通过移除不适合作为受保护位置的点来提高攻击的功效和计算性能。此外，如果一个搜索空间包含多个不重叠的出口加工区1，则我们的基于回归的位置发现方法（参见算法2）可以返回这些出口加工区之外的位置，即，实际上不符合受保护的条件因此，某些限制是有利的，尽管它不需要是精确的。然而，通过了解出口加工区在特定平台上的配置方式（见第3节），攻击者可以更精确地识别不同的出口加工区。作为一个例子的出口加工区识别算法，我们提出算法1发现圆形出口加工区。大多数服务业都使用这种出口加工区（表1）。该算法从一个用户的所有隐藏活动的集合中识别多个圆形出口加工区，每个出口加工区具有不同的保护位置和参数。我们的算法的输入是在出口加工区内开始的隐藏活动的所有起始点的集合，以及在出口加工区内结束的活动的所有结束点的集合，因为它们被显示给对手（非所有者用户）。然后，我们调整了平均聚类算法[30]，以根据这些起始点和结束点输出不同的圆形EPZ布局，迭代地增加平均值，直到每个EPZ都由一个聚类表示。对于给定的，该算法将聚类（ =1，. . . ，），其中随机选择点。在随后的迭代中，我们的算法将每个点分配给聚类中的每个点，该聚类中的每个点与该聚类中的点之间拟合的最小二乘圆的欧氏距离最小，并且拟合使得没有点位于最小二乘圆内（圆形EPZ隐藏圆内的所有点，参见。定义2）。这个代价函数不同于常规的k-均值，在常规的k-均值中，从点到其聚类的均值的距离被最小化。拟合圆的半径应受最小和最大半径的概念的限制，1.如果出口加工区重叠，我们将其视为一个出口加工区，其中有多个受保护的地点。然后，将输入的活动引导到算法2将概率地返回这两个位置（也参见第6.2节）。2请注意，我们从FTSN转换大地坐标（纬度和经度）通过将活动数据投影到笛卡尔平面上，将其转换为平面坐标（通用横轴墨卡托），如定义1所述。805←（）下一页（）下一页联系我们联系我们∈（）联系我们|∈ }∃←（）′.（）（）健身跟踪社交网络中端点隐私区的推断攻击CCS算法1cEPZ识别算法输入：��隐藏活动的端点集输出：��1，.，�� =��1，...，��出口��加工区1：在出口加工区识别期间执行（��）第二章：1第三章：做4：随机初始化集群3（ = 1，. . . 、）的内容5：做6：重复分配步骤7：对于点E100在E1008：←argmindist（��，）��算法2保护位置预测算法输入：��出口加工区内的道路图�� 终点和出口加工区内的距离输出：预计的受保护位置1：程序预计的受保护位置（X，Y）��第二章：计算理论距离第三章：��′← ∅第四章：forpair（，） in5：←argmin ∈dist（，）��6：←dist（，）��7：如果′≤，则��9：=10：结束11：更新步骤8：009：如果结束10：结束← '{（，）}��12：为位于马林多的集群，13：通过圆拟合14：结束15：while图：图的质心变化>图的质心变化16：00：0017：while：dist ，公司简介18：return1，.，19：结束程序出口加工区的实施。这避免了太小的集群11：��←|��′|×|��|矩阵12：用于在'do中的对（，）��13：最后一个，最后一个←dijkstra_single_source_lengths（最后一个，最后一个）��14：结束15：识别入口门16：��17：删除偏离活动第18章：一个人��19：对于入口��处，=（，）in��20：��′←{（��，��）|（��，��）∈��，��≤ma x（��，n）}21：��′′←{（��′��，��′）|（��′��，��′）∈��′，|��′−��′|≤3��′}点太少，以至于多个圆实际上是一个圆的一部分第22章：一个人��EPZ，以及由于离群点而导致的过大聚类23：结束我们的算法重复这些点到集群的分配，并更新到拟合圆，直到圆24：预测受保护位置25：←argmin′′′′”。��“−��”。补间迭代次数都低于最小值。这个阈值应该（凭经验）选择，使得集群足够稳定，而不是无限地更新集群。此外，k-means可能会返回局部最小值，而不是全局最小值，因为在初始化阶段将点分配给聚类26：return返回27：结束程序��∈（，）∈��你好在实践中，我们的算法因此将重复初始化、分配和更新步骤若干次，并使用具有最低失真的聚类，即，点与其指定拟合圆的边缘之间的距离的全局平方和。该算法最后检查是否所有不同的出口加工区已被确定，或是否多个出口加工区仍然合并到一个集群。因此，它测试每个点到其指定的拟合圆（EPZ）的最大距离是否小于。例如，该阈值可以是特定出口加工区实施的已知最大半径如果还不是这种情况，我们假设仍然有一个包含多个出口加工区的集群，因此增加一个集群，并在随机分配点到集群时重新开始一旦条件也满足，算法输出拟合圆 1，.，通过每个聚类的点配置文件，其对应于用户配置的配置文件配置文件4.3找到出口加工区的受保护位置我们攻击的核心包括预测对手先前确定的每个出口加工区的受保护位置。我们将该出口加工区与用户活动的子集相关联，3与相应的圆圈使用这个出口加工区（cf.定义1）。然后，我们检索出口加工区内的道路网络图，定义为一组边，通过节点，代表所有可能的保护��位置。��这有效地限制了我们的搜索空间的位置的有限集合，因此减少了识别的出口加工区内的受保护的位置从一个连续的离散问题。因此，我们的解决方案的正确性也受到图的分辨率的限制。可以使用链接来提高该分辨率，即，以一定的间隔距离添加等距的中间节点，例如，�� 选择以模仿GPS精度，在比图4b所示��的边缘��长的边缘上。我们提出算法2，预测最可能的可以-基于两个输入。第一个输入是先前构造的具有节点和边的道路图。第二个输入是一组隐藏的活动，由从其隐藏的开始（）和结束（）点的并集到实际和隐藏的开始点（dist1）或实际和隐藏的结束点（dist）之间的报告距离的映射定义。这些报告的距离可通过活动数据（例如，高程剖面）。在我们的内部距离场景中，起点和终点的距离是单独可用的，因为从隐藏起点开始的累积距离806∈∈��|| × ||∈⊆��CCS点和从隐藏的终点到终点的剩余距离。我们将其推广到只有组合隐身距离可用的总距离sce-nario，即，而起点和终点没有明显的距离如果只有一个点位于隐私区域内（如可以使用算法1推断的），则总距离微不足道地减少到内部距离，因为在单个隐藏侧的该内部距离等于报告的距离差异。我们在第5.2节中的数据特征表明，35.08%的活动仅在出口加工区内开始或结束，但不是两者都在。当两个端点都被遮盖时，在起始点和结束点上的距离差异的划分中存在无法解析的自由度。在这种情况下，活动被丢弃，攻击将在剩余的活动上运行。(a)（b）具有节点分辨率的道路网络的示例道路网络图我们在6.3节中的分析表明，我们的攻击仍然可以执行一个出口加工区。通过链接增加。在这个总距离场景中与内部距离场景相比，性能仅略有降低在理想情况下，所有活动的报告距离的端点将恰好在道路图的一个节点处重叠如果以下理想假设成立，则受保护的位置）：A1. 隐藏的起点和终点与出口加工区的边相交A2. 受保护位置总是沿着路径定位，即，一个节点上A3. 受害者在一个不同的出口加工区内的单一受保护地点开始和结束他们的活动A4. 在出口加工区内，受害者使用街道网格上的最短路径从或到受保护的位置。然而，在实践中，这些假设并不总是成立的。例如，用户可能仅在距离其受保护位置50米处开始记录其活动，并且GPS跟踪错误将导致跟踪偏离街道网格（上的最短路径总的来说，对于一个200米的出口加工区，在我们的真实世界数据集（第5节）中，54%的活动违反了至少一个理想化的假设。我们的方法明确旨在对这些违规行为进行强有力的打击，即，它甚至在非理想的环境中也能工作我们开发了一个四步算法，它提供了一个足够正确的解决方案，即使这些来自理想环境的假设不成立，正如我们在现实世界的评估中所展示的那样（第6节）。4.3.1计算理论距离。该算法首先将所有端点与道路图进行地图匹配（“捕捉”）。对于每个点��，算法识别��具有最低欧几里德距离��的节点。如果该距离超过阈值，然而，该算法丢弃了这一点，因为它不确定是否路被使用。 ��可以基于平均GPS采样距离凭经验选择。“"表示保留的地图匹配点集合��然后，该算法使用Dijkstra单源多目的地算法[16]计算从��（回忆：出口加工区边缘附近的点）到出口加工区内所有其他节点��的最短路径长度。这些长度被收集到一个��大小为��“��的距离矩阵中。这些长度表示从出口加工区边缘的隐藏地图匹配端点到出口加工区内节点的可能的受保护位置），如果轨道精确地遵循道路图的话。然而，GPS误差和道路宽度的变化导致实际用户轨迹偏离该道路图。的图4：道路网络图限制了我们的位置预测算法的搜索空间。以红色显示的每个节点都是潜在的受保护位置。(a)（b）（c）图5：入口门被识别为封闭端点的集群. 端点不会与圆形出口加工区完全相交，因为出口加工区外的第一个（最后一个）点将是第一个（最后一个）可见点。因此，出口加工区内没有终点当预测受保护位置时，我们算法的最后步骤中的回归分析解决了这些偏差4.3.2识别入口门。一个活动和出口加工区的确切交点很少是可恢复的，这违反了假设A1。定义1指出，活动在出口加工区外的第一个点被切断，而不是在确切的交叉点。结合低GPS采样率（以节省电池）和GPS误差，该隐藏的端点可能远离出口加工区的边缘，特别是随着活动速度的增加。图5显示了这种场景的一个示例，其中活动的端点与圆形出口加工区不完全相交。我们把隐形的端点聚集在一起形成密集的区域。我们将这些区域称为入口门，并且我们假设每个入口门��由端点��组成，其中实际轨道与出口加工区边缘的交点是共享的。在图5中，形成一个入口门的点以相同的颜色显示。最适合地理空间数据的算法是DBSCAN [19]，这是一种基于密度的聚类算法，因为它不需要聚类数量的先验知识（即，入口门）。DBSCAN需要两个参数：一个是簇中两点之间的最大距离，另一个是形成密集区域的最小点数��例如，可以将第95位确定��807∗∈��∈健身跟踪社交网络中端点隐私区的推断攻击CCS样本距离的分位数（即连续活动点之间的距离）。我们在点“0”上运行DBSCAN以获得所有表2：根据经验选择的算法1和2的参数，以及我们评估中使用的成功率度量每个入口门��由一个子集定义��点��中的“点”(a)算法1(b)算法2(c)成功率对应于该入口门，与所有其他子集不相交参数值参数值参数值参数值4.3.3删除偏离活动。接下来，我们丢弃可能错误地扭曲受保护位置的预测的离群端点。这样的异常值可能源于用户远离受保护位置开始或结束的活动（违反了受保护位置）。10米1600米��ℎ��3米10米120米22.95米假设A3），或没有遵循出口加工区内的最短路径（违反假设A4）。该算法首先丢弃报告距离大于最大理论距离max的点到EPZ内的节点，即，矩阵行的最大值为 k，.我们这样做是因为这些活动永远无法覆盖通往受保护地点的最短路径对于每个入口然而，我们的算法然后丢弃离群点，该距离显著偏离同一入口门内的其他点的距离具体地说，我们认为偏离平均值超过三个标准差是4.3.4预测受保护的位置。由于构成一个入口门的点并不完全重叠，我们使用最小绝对偏差（LAD）回归来预测所有这些扩散入口门中最可能受保护的位置。对于��出口加工区内的每个节点（即，每个可能的受保护位置），该算法计算Ob之间所有点的绝对差��之和。服务距离和理论最短路径距离此活动不是公开的，不存在了，或者是在7月11日之前完成，但仅在之后上传，我们认为是下一个后续活动。对于此（公共）活动，我们标识创建它的用户这最终为我们提供了一个随机生成的，具有代表性的4,000名用户样本。对于我们示例中的每个用户，我们检索用户信息（即，国籍）和他们的公共活动的ID与地图数据。为此，我们使用Selenium抓取并解析运动员个人资料页面4的概述部分[47]。然后，对于每个Activity（ID），我们从www.example.com页面提取其总距离和类型strava.com/activities/ID。我们还从strava.com/stream/IDAPI端点收集高程剖面，包括作为坐标对的GPS 由于经过身份验证的用户每天最多可以向Strava的流API发出375个请求，因此我们使用多个帐户来加快下载过程。尽管使用多个帐户下载以规避费率限制，我们的数据集还是花了三个月的时间收集。在将收集的数据存储到数据库之前，我们在两个节点之间和 . 最终的预测结果是根据IRB的要求，通过使用自动递增的主键我们重复这个和是最小的。请注意，我们保留阿桑普-在此，由于预测位置将始终位于道路图上，因此预测位置将位于图A2上。然而，用户可以远离道路开始或结束他们的活动，例如，在他们的私人领地我们通过定义一个错误阈值来抵消这种违反我们假设的行为，低于这个阈值，受保护的位置就足够接近地预测用户去匿名化。在附录A中，我们根据实际活动经验确定了可接受的错误阈值。5数据收集需要从健身跟踪社交网络中获取大量真实用户数据，以进一步评估我们对最先进的EPZ实现的攻击的可扩展性为此，我们使用Strava，因为它是最受欢迎的健身跟踪社交网络之一，迄今为止记录的活动总数超过40亿[49]。在本节中，我们将解释我们用于从Strava收集用户数据的方法，并进一步分析该数据集，以获得有关用户和健身追踪器隐私习惯的有用见解。5.1方法我们的数据收集范围为自2021年7月11日起为期一周。通过检查活动的时间戳和经过的时间，我们得出结论，活动的ID是顺序分配的，而不是随机上传。然而，由于向Strava上传活动的延迟，时间顺序并不连续。我们识别在2021年7月11日00：00UTC之后全局分配的第一个活动ID。然后，我们访问本周上传的大约3600万个活动中的每一个下9,000个公共活动。如果活动ID的过程相同为了获得每个出口加工区的道路图，我们使用OSMnx框架[8]下载图形格式的OpenStreetMap道路网络（见图4a）。5.2数据特性通过上述方法，我们收集了4,000名用户创建的1,404,886个活动的数据集我们在附录B中绘制了该数据集中的几个分布。图11显示了每个用户活动数量的分布，每个用户活动的中位数为136个。如图12所示，我们的数据集在地理上是多样化的，包含来自160个不同国家的活动端点数据集提供了不同的道路网络密度和布局，这是我们攻击效率的重要因素，如第6.4.4节所示。我们观察到461名用户（占我们总数据集的11.53%）使用至少一个出口加工区来掩盖活动。图13显示了通过算法1确定的这些用户的出口加工区半径分布（参数来自表2a）。半径高达400米的有65.50%的份额，表明较小的半径比较大的半径更受欢迎。在我们的数据中，35.08%的受保护活动只有一个隐形端点，这使得它们可以用于总距离场景。我们在我们的数据集中观察到非固定EPZ半径，其具有统计学上不显著的失真评分，并且通过目视检查很好地拟合终点。我们假设用户选择的非固定半径是不再可用的传统功能。4strava.com/athletes/ATHLETE_ID808∈∈惠∈（）≤∑ˆ？∈（|）的方式.？1998年，|）∈⊆ˆ∑ˆΣ1998年，|）的1998年，|）的∑ˆCCS6评价6.1地面实况定义为了评估我们算法的有效性，我们需要已知受保护位置的地面实况，我们可以将其与我们算法的预测进行比较。为此，我们使用了数据集中4,000名用户产生的1,312,250个未隐藏的活动（第5节）。对于每个用户，我们搜索他们的活动，这些活动属于至少15个端点的集群的一部分，这些端点彼此之间的距离在50米以内。由于大多数健身跟踪社交网络使用自动完成地址表单来创建隐私区域，因此我们随后指定距离这些俱乐部最近的地址的街道位置通过远离道路图开始或结束的活动（第4.3.4节）。该扩展的CI包括�� 位于预测位置的误差阈值��内的节点，即，你知道吗，你知道吗？�� 我们进一步讨论过冲，并��在附录A中根据经验确定。我们的预测受到以下隐私指标的影响，除了成功率之外，我们为每个出口加工区分别计算：成功率[36]定义为攻击者“成功”的出口加工区百分比（二进制值）。当地面实况位置位于扩展的CI预测的受保护位置，或者换句话说，预测的受保护位置是ter��∈��（即，的点足够接近地面实况位置，user.用户将配置为受保护位置）。我们认为，从暴露的活动中推断可能受保护的地点是生成足够大规模但可靠的地面真相的最可行方法。我们注意到，我们获得地面实况的方法几乎与现有技术的方法相同[24]。使用上述方法，我们为2，527名用户构建了4，689个地面实况位置（占整个数据集的63.18%我们无法为其他1，473名用户构建至少一个可靠的地面实况位置，因为缺乏地理上集中的，未隐藏的步行，跑步或骑行类型的6.2预测评价对于每个地面实况位置，我们合成一个EPZ，其中心从该位置随机平移，对于Strava中可用的半径集中的我们认为这组半径作为范例，因为Strava是最流行的FTSN之一，因为它支持最大的出口加工区半径。在同一用户的多个受保护位置位于同一出口加工区内的情况下，即，距离比出口加工区半径（200m出口加工区的8%）更近，我们只在活动观测最多的保护位置周围合成一个出口加工区。然后我们模拟这些隐形装置��∈��,��(1)正确性[46]被量化为真实结果（地面实况位置）和每个节点之间的欧几里得距离之和，由概率分布加权（只有在预测位置时才（一） | ）dist（，）（2）��∈准确度[46]被量化为通过自举构建的置信区间的宽度（即，唯一预测位置的数量）。请注意，较高的准确度值反映了较宽的置信区间，因此对手对其预测的信心较低，隐私也得到了改善。|（三）|(3)匿名集合的约简是指由EPZ生成的覆盖地面实况位置的匿名集合，其中 EPZ内的链式道路图的节点的数量（即，所有可能的保护位置）。然后将减少定义为减去扩展CI

下载后可阅读完整内容，剩余1页未读，立即下载