没有合适的资源?快使用搜索试试~ 我知道了~
337→→本作品采用知识共享署名国际4.0许可协议进行许可。网络上基于广告的隐私限制:对Google FLoC的事后实证分析摘要AlexBerkeaberke@mit.eduMITMedia LabUSA关键词DanCalaccidcalacci@media.mit.edu麻省理工学院媒体实验室美国2020年,谷歌宣布将在Chrome浏览器中禁用第三方Cookie,以改善用户隐私。为了继续支持基于兴趣的广告,同时降低个性化用户跟踪的风险,谷歌提出了FLoC。FLoC算法将用户分配到“队列”,这些队列代表具有相似浏览行为的用户组,以便广告可以基于他们的队列提供给用户。2022年,在真实世界的试验中测试了FLoC后,谷歌取消了这一提议,并没有做出什么解释,而是选择了另一种方式来支持基于兴趣的广告。这项工作通过将FLoC的实现应用于从超过90,000个美国用户中收集的真实浏览历史数据集,对FloC的两个关键隐私风险进行了事后分析 设备在一年内。首先,我们展示了与其隐私目标相反的是,FLoC如何通过为跨站点的用户提供唯一标识符来实现个性化的跨站点用户跟踪,类似于FLoC旨在改进的第三方Cookie。我们展示了随着时间的推移观察到的FLoC队列ID序列如何为跟踪器提供此唯一标识符,即使禁用了第三方Cookie。 我们估计数据集中可以通过FLoCID唯一识别的用户数量在3周后超过50%,在4周后超过95%。 我们还展示了当队列数据与浏览器指纹相结合时,这些风险是如何增加的,以及我们的结果是如何保守地低估了FLoC在现实世界部署中所带来的风险。其次,我们研究了FLoC泄露用户敏感人口统计信息的风险。虽然我们发现人口统计组之间的浏览行为存在统计学显著差异,但我们并没有发现FLoC有暴露数据集中用户种族或收入信息的显著风险我们的贡献为未来寻求保护用户隐私同时将网络货币化的新方法提供了见解和示例分析。CCS概念• 一般和参考评估;实证研究;·安全和隐私安全和隐私的社会方面;隐私保护;安全和隐私的经济学;安全和隐私的可用性。CCS©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9450-5/22/11。https://doi.org/10.1145/3548606.3560626隐私,网络广告,数据分析ACM参考格式:Alex Berke和Dan Calacci 2022.网络上基于广告的隐私限制:对谷歌FLoC的事后实证分析 在2022年ACM SIGSAC计算机和通信安全会议(CCS '22)的会议记录中,2022年11月7日至11日,美国加利福尼亚州洛杉矶。ACM,美国纽约州纽约市,13页。https://doi.org/10.1145/3548606的网站。35606261介绍在线广告被认为是网络上“免费”内容的支柱[11]。广告商可以根据各种信息选择为用户投放特定的广告。 这些信息之前已经在3个主要类别下进行了描述:(1)关于用户正在查看的页面的第一方上下文信息,(2)关于可能登陆广告可以提供的页面的用户的兴趣的一般信息,以及(3)为用户记录的特定操作或浏览历史[36]。在当前的广告生态系统中,(2)和(3)通常由“第三方”Cookie启用,可用于跟踪访问网站的个人用户[3,11]。这种跟踪可以用于为用户建立简档,表示他们过去的互联网行为,兴趣或其他信息。隐私倡导者认为这种跟踪对用户隐私有害,许多Web浏览器现在默认禁用第三方Cookie。随后,谷歌宣布还将从Chrome浏览器中删除第三方Cookie,并将提供一个新系统来启用基于兴趣的广告,同时减轻个性化用户跟踪的风险,并更好地保护用户隐私。在2020年,Google提出了FLoC作为这样的系统[30]。FLoC被描述为一种基于一般浏览兴趣实现广告定位的方法,而不会暴露个人浏览历史[36]。在所提出的方法中,浏览器使用FLoC算法基于用户的浏览历史来计算用户的“兴趣群组”,其中群组包括具有类似的最近浏览历史的数千个用户。 然后,广告商和其他第三方跟踪者或观察者可以访问队列ID。在该提议之后,谷歌进行了一项试验,它认为这是FLoC的初步实现,数百万Chrome浏览器用户自动被纳入试验[8]。在2022年初,谷歌取消了FLoC提案,转而支持另一个系统,该系统将再次支持基于兴趣的广告,并更好地保护用户隐私。计划的改变几乎没有任何解释,比如审判导致的分析FLoC是否能够为基于兴趣的广告提供效用FLoC是否能够充分保护用户隐私?338CCS我们的分析解决了有关隐私的问题,并提出了有关实用程序的问题,以及FLoC将提供的潜在隐私-实用程序权衡。甚至在谷歌完成FLoC试验之前,隐私倡导者将FLoC描述为重新发明行为目标的“误导”尝试[31],并描述了FLoC带来的特定隐私风险。例如,Mozilla的一份报告建议,当被视为第三方cookie的替代品时,FLoC仍然可以启用用户跟踪[31]。其他人提出了一个问题,即FLoC可能会根据其队列揭示有关个人的敏感信息,例如他们可能的人口统计数据[6,31]。然而,据我们所知,谷歌或外部研究人员都没有对这些风险进行实证评估。贡献:在本文中,我们提供了一个事后实证分析,评估了关于FLoC的两个隐私问题:(1)FLoC可能会启用跨站点用户跟踪,即使禁用第三方Cookie,(2)FLoC可能会泄露用户的敏感人口统计信息。 为了评估这些问题,我们实现了谷歌2021年试验中使用的FLoC算法。我们在一年内从分布在美国各地的50,000个家庭拥有的90,000多台设备中收集的浏览历史的真实数据集中计算用户的队列对于(1),我们表明,即使禁用第三方Cookie,跟踪器也可以使用FLoC来跨站点识别用户虽然FLoC队列是 匿名的,当考虑一个给定的时间段隔离,我们展示了如何随着时间的推移,用户设备的队列ID序列可以是唯一的,并用于跨域跟踪它们。 我们从数据集计算的队列ID序列中,超过一半在3周后是唯一的,其中95%在4周后是唯一的。 我们还展示了当队列ID与浏览器指纹识别的弱代理相结合时,单一性风险如何增加。对于(2),我们没有发现FLoC泄露了我们数据集中用户的敏感人口统计信息我们重新利用了Google使用的一个版本的t-贴近度来识别访问敏感域的速率高于普通人群的队列。使用这个指标,我们表明,FLoC集群用户的种族或收入的可能性是不大于随机机会。这些结果是令人惊讶的,因为我们还发现浏览行为显着不同的人口统计组。我们开发的分析方法和我们发现的重大隐私风险可以为未来旨在改善用户网络隐私的建议提供有用的见解。大纲:本文概述如下。 背景部分简要概述了什么是Cookie、Cookie与在线广告的关系以及正在开发的更多隐私保护替代方案。它还提供了FLoC的简要技术概述,以便为读者提供必要的信息,以了解我们解决的隐私风险以及我们的实证分析如何解决这些风险。背景部分也描述了这些风险。然后,数据和计算队列部分描述了我们的数据源,预处理方法以及如何在整个分析过程中计算和使用队列。 我们的两个主要分析将在单独的章节中介绍。第4节讨论了FLoC启用的个性化用户跟踪的风险第5节讨论了FLoC泄露敏感用户人口统计信息的风险。然后,我们讨论了我们的结果和结论。2背景2.1Cookie、基于Cookie的广告和FLoC作为解决方案Cookie [2]提供了一种存储机制,允许网站在会话中保存有关用户的信息它们支持现代Web浏览的许多重要功能,例如保持用户登录或维护购物车。 当用户访问网站时,HTTP请求会发送到网站上嵌入内容的域,并在请求中发送Cookie。“第一方”Cookie和“第三方”Cookie之间存在重要区别。“第三方”Cookie是目前实现跨站点用户跟踪的主要机制 它们被第三方观察服务器或跟踪器(我们将其称为“第三方”)使用,这些第三方在许多网站上嵌入内容,以便在用户访问的网站上跟踪用户。考虑一个第三方,其内容嵌入在许多网站上,包括网站A和B。 当用户访问其中一个网站(A)时,第三方可以在cookie中存储该用户的唯一标识符。当用户访问另一个网站(B)时,第三方可以通过第三方cookie访问第一个网站(A)上设置的用户标识符,并看到该用户与他们在网站A上跟踪的用户相同 通过这种方式跨网站跟踪用户,广告技术公司可以根据用户访问的网站为他们建立个人资料,推断他们的兴趣,并提供个性化广告。 2018年的估计显示,许多广告和分析公司可以观察到平均用户浏览历史的至少91%,即使使用广告拦截器,公司仍然可以观察到40-90%。相比之下,“第一方”Cookie通过同源策略隔离数据这意味着存储在一个网站上的数据无法在另一个网站上访问。单独使用第一方Cookie不支持跨站点用户跟踪,因为没有机制可以跨站点链接数据,无法知道访问两个站点的用户是同一个用户。出于这个原因,第一方cookie和其他仅限于同源策略的存储机制更能保护隐私,并且随着第三方cookie的逐步淘汰,这些机制正在进一步发展,以增强网络分区存储就是这样一种同源策略存储机制,它已经在Firefox浏览器中实现[26],并为Chrome提出[12]。 当用户访问特定的域时,分区存储允许嵌入的第三方访问该第三方和域唯一的存储。这将根据用户访问的域对第三方有权访问的存储进行“分区” 与第一方Cookie一样,这限制了第三方跨站点跟踪用户的能力,因为第三方无法跨域访问为用户存储的数据。但是,如果第三方能够跨站点为用户导出相同的唯一ID,则它们仍然能够跨站点跟踪用户。我们在第2.4节中描述了如何将具有同源策略的存储机制与FLoC队列ID结合使用以实现此目的。虽然跨网站跟踪用户的能力是一个隐私问题,但它也在广告服务生态系统的盈利能力中发挥着重要作用。2019年,GoogleDisplay Ads团队进行了一项随机对照实验,以实证方式量化禁用第三方Cookie对程序化广告收入的影响网络上基于广告的隐私限制:对Google FLoC的事后实证分析CCS339互联网出版商[29]他们用谷歌服务用来在网络上的非谷歌网站上投放广告的广告服务系统进行了实验。他们观察到,对于全球500强出版商,治疗组的平均收入下降了52%,每个出版商的平均收入下降了64%。FLoC作为一种解决方案:为了解决隐私问题,同时又不会对广告业造成实质性的破坏,谷歌宣布计划从Chrome中删除第三方Cookie,并提出FLoC作为实现基于兴趣的广告的替代手段。在高层次上,FLoC旨在通过将用户分组为k-匿名[32]队列来保护隐私。 用户的群组在他们的浏览器内基于他们的浏览历史进行计算,然后网站可以通过浏览器API访问用户的群组ID。 通过观察跨站点的群组ID,广告商可以构建关于群组而不是个人的配置文件。12.2FLoC如何工作FLoC是Federated Learning of Cohoons的缩写然而,尽管有这个名字,但联邦学习并没有用于FLoC的实现。在本节中,我们将对Google的真实世界试验中使用的FLoC实现进行高级描述,我们也在本工作中实现了FLoC更多细节可以在Google的文档中找到[28]。用于计算用户的FLoC群组ID的输入是用户在群组计算之前的7天期间访问的公共域(eqs+1)的集合。浏览器使用这组域名来使用SimHash生成一个哈希位向量,SimHash属于位置敏感哈希(LSH)算法家族[37]。SimHash的特性是相似的向量比不相似的向量更有可能具有相同的哈希值-这意味着相似的浏览历史更有可能产生相同的SimHash值。为了强制执行k-匿名,哈希值使用Google的PrefixLSH算法被排序到大小为1的组中虽然SimHash可以在浏览器中本地计算,但这个排序过程必须访问所有哈希值,因此集中进行。这种排序是由谷歌称为“匿名服务器” 的东西完成的,它会生成SimHash值前缀到队列ID的映射 映射存储在浏览器中,以允许它们在本地计算队列ID。FLoC被设计为使得群组ID可以定期重新计算,从而允许用户的群组随着他们的浏览行为的改变而未明确定义重新计算队列的频率;此项工作假设每7天重新计算一次队列。2.3FLoC试验(起源试验)FLoC在2021年春季至秋季的起源试验(OT)中进行了测试[28](Chrome 89至91)[4]。该试验包括浏览历史记录中至少有7个域名的Chrome用户。使用的OT FLoC实施 = 2000,得到33,872个队列。这些队列中约有2.3%被视为敏感并脱落,进一步描述如下[28]。我们注意到,在FLoC中,1 有 关 如 何 使 用 FLoC 代 替 第 三 方 Cookie 的 图 形 说 明 , 请 参 阅https://web.dev/floc/#how-does-floc-work。算法可以被调整到数据集大小;队列和数据集大小都会影响创建的队列数量2.4FLoC的隐私问题许多关于FLoC的隐私问题被提出[6,31]。在本节中,我们将重点介绍我们分析中涉及的问题。2.4.1FLoC可以启用跨站点用户跟踪。 即使没有第三方Cookie,如果第三方可以访问用户的唯一标识符,并且该标识符在用户访问的网站之间是一致的,那么第三方仍然可以跨网站跟踪用户。FLoC可以通过提供这样的标识符来实现跨站点用户跟踪 这是因为用户的FLoC群组ID随时间而改变,且因此,用户的群组ID序列可为唯一的,或仅与少数其它用户共享,从而破坏匿名性的保证 。在用户访问的各个网站上观察用户队列ID的第三方通过这种方式,他们可以为他们观察到的每个用户积累队列ID序列的存储,并识别独特的序列。当用户的群组ID序列与指纹数据组合时,单一性的可能性可以增加。指纹识别[9]是一种独立于cookie的机制,允许第三方观察者从用户的浏览器收集信息[25]或设备特定信息[15]。 虽然许多用户设备可能共享特定的群组ID或群组ID序列,但是这些用户的小得多的子集也可能共享特定的浏览器“指纹”。为了更好地说明这种隐私风险,我们提供了一个玩具例子,改编自Mozilla研究人员以前对这种风险的描述[31]。 这在表1中示出。 这个玩具示例假设只有6个用户设备的web浏览世界,其中每个用户设备都具有相关联的指纹数据。重新计算每个时间段内每个器械的队列ID,其中队列的最小规模为= 3,有效地将6件器械分为2个队列(队列ID 1和2)。考虑观察多个研究中心器械队列ID的第三方的观点。 在任何给定的时间段内,他们观察与3个设备的k-匿名组共享的队列ID。 他们的目标和用户的隐私风险是识别唯一的队列ID序列,以便在他们访问的站点中唯一识别设备。在玩具示例中,尽管单个时间段的最小群组大小 = 3,但是在2个时间段之后,用户设备1和6可以分别由它们的群组ID序列[1,1]和[2,2]唯一地标识。 3个时间段后,所有用户都可通过其队列ID序列唯一识别。 当也使用指纹数据时,用户设备3和4从时段1开始是唯一可识别的(即,通过[B,1]和[B,2]),并且所有用户设备通过周期2唯一地可识别(即,[1],[2],[3],[4],[5],[6],[7],[8],[9],[10],[11],[12],[13],[14],[15],[16],[17],[18],[19],[19][C,2,1],[C,2,2])。第一方cookie和分区存储至少提供了两种跟踪用户队列ID的方法,未来的Web生态系统中可能会出现更多方法。例如,嵌入在网站上的第三方可以在分区存储中存储或访问队列ID序列,类似于使用第三方cookie所做的事情。或者,第一方网站可以将队列ID序列存储在第一方cookie中,CCSAlex Berke Dan Calacci340表1:示出用户被群组ID序列和指纹数据跟踪的风险的示例用户通过观察唯一的群组ID序列,第三方可以识别和跟踪网络上的用户当队列ID序列与指纹数据相结合时,这些隐私风险会增加用户设备1用户设备2用户设备3用户设备4用户设备5用户设备6指纹数据一一BBCC阶段1队列ID111222阶段2队列ID122112阶段3队列ID121122然后与第三方跟踪器共享信息,第跟踪器与整个Web上的站点具有类似的数据共享关系虽然这听起来可能令人费解,但第一方网站和第三方跟踪器之间的这种合作关系类似于当前的创收模式,其中第一方网站嵌入来自第三方跟踪器的代码。数据收集模型可能会改变,而关系保持相似。2.4.2FLoC可能会泄露用户的人口统计信息。虽然k-匿名可以帮助保护用户不被唯一识别,但群组仍然受到“同质性攻击”的影响,这些攻击可能会泄露群组共有的敏感信息。考虑到群组是由浏览行为定义的,并且一些浏览行为是敏感的。谷歌提供的这种风险的一个例子是,队列仅由访问过关于罕见医学状况的网站的用户组成[24]。 在这种情况下,通过提供用户群组ID,FLoCAPI可以揭示可能调查该罕见医学状况的用户。在考虑人口群体时,如按种族背景或家庭收入界定的群体,如果某些人口统计数据在特定群组中非常普遍,则FLoC群组ID可以揭示用户更可能处于某个人口统计组中。 这种隐私风险可能不仅仅意味着泄露关于所谓匿名用户的敏感人口统计信息。例如,这可能进一步使用户遭受在线歧视,如价格歧视、掠夺性营销或有针对性的虚假信息活动。2.5谷歌敏感类别的概念仅限于敏感分类的领域,而不是用户人口统计[24]。特别是,谷歌使用了与其基于兴趣(个性化)的广告产品相同的敏感兴趣类别[13]。谷歌已经禁止显示与这些类别相关的广告或基于这些类别针对用户的广告,这就是为什么它也在这种情况下使用这些类别 它使用这些类别来确定一个网站是否被认为是“敏感”的,然后阻止访问与特定敏感类别相关的网页的人群,这些人群的访问率远远高于一般人群。这些类别的例子包括成人和医疗网站以及带有政治或宗教内容的网站。谷歌指出,其方法可以应用于其他敏感类别的Ontologies[24]。在这里,我们描述了谷歌图1:Google在[24]中提供的图显示了t接近度的t值与随后被阻止的队列比例之间的用户人口统计数据,即种族背景和家庭收入。为了正式化基于敏感属性阻止队列的方法,Google使用了t-closeness [21]。 如果对于每个敏感类别,访问与该类别相关的网页的用户的分布最多与一般分布有距离,则队列满足t-贴近度。我们描述他们的方法来确定是否队列满足t-贴近度如下。假设队列访问的每个域都有一个关联���的类别。然后可以将队列表示为各个类别的访问频率分布。一个异常类别,即群体频率,是指群体频率与总体频率差异最大的类别���������∗=argmax������ℎ���������������������(���, )−������ ������������������ ������ ��� ��� (���)(1)���������������������队列研究不满足t-接近度,如果队列研究的访视频率高于人群频率的某个阈值,则认为队列研究是有意义������������ℎ���������������������(������∗, )−������������������������ ������ ��� ��� ( )> (2)���������������������������原点试验采用a ���= 0。1,阻断任何队列,其异常类别的访问频率比基础人群频率高10%������ (FLoC API不返回被阻止队列的ID。) 这导致所有队列中有2.3%在原始试验中被阻断[28]。网络上基于广告的隐私限制:对Google FLoC的事后实证分析CCS341在确定匿名性的价值时,有一个明显的效用-隐私权衡:较低的匿名性阈值提供了更强的隐私保证,但会导致更多的队列被阻止,这会降低效用。确定=0的值 。1在起源试验中使用,谷歌使用同步的Chrome历史数据进行了初步分析,以估计使用各种阈值 被阻止的队列比例[24]。 如图1所示。在接下来的工作中,我们将这种方法应用于将用户我们注意到,Google将种族命名为敏感类别,不应用于广告中,用于对敏感网站进行分类以进行t-接近度分析的同一文档[13]。 我们的分析将用户种族背景以及家庭收入群体视为敏感类别。3数据和验证队列为了实证测试FLoC的隐私风险,我们利用comScore Inc.的用户浏览历史数据[5],允许我们从真实世界的浏览数据中计算假设的FLoC队列。我们首先创建浏览历史数据的样本,过滤掉不符合Google FLoC OT标准的数据然后,我们使用Google开发的基于PrefixLSH哈希的聚类算法来计算以下分析中使用的队列。有关数据和分析代码的更多细节可以在我们的开源存储库中找到:https://github.com/aberke/floc-analysis。3.1数据我们使用comScore Web行为数据库中的浏览会话数据。我们还使用美国2017年人口普查数据人口普查局美国社区调查(ACS)[34]和当前人口调查(CPS)[35],以评估浏览数据在多大程度上代表了美国。 人口以及创建分层样本,代表美国。人口用于分析。comScore Web行为数据库收集了50,000名互联网用户,这些用户明确允许comScore在域级别上机密地捕获他们的详细浏览行为。 他们是通过互联网招募的,激励措施包括现金奖励和免费软件。他们通过在机器上安装跟踪软件来捕获他们的网络浏览会话来提供数据会话数据集来自2017年的52周每个会话都与一个唯一的机器ID相关联,数据行包括此机器ID、顶级域名、会话ID、时间戳和相关的统计信息,如查看的页面数量和网站访问的持续时间表2中提供了一个表示采样行的示例。机器ID还与在家庭级别报告的邮政编码和用户人口统计信息相关联。当用户使用comScore注册机器时,自我报告演示图形。多台机器可以与一个家庭相关联;机器ID在数据集中没有按家庭链接,我们的分析将机器视为独立的。在预处理之前,会话数据集包括93,808台机器。我们在分析中使用的人口统计数据是家庭收入、种族和邮政编码。我们使用种族的分析受到comScore数据集中报告的种族类别的限制,其中家庭被标记为“黑人”、“白人”、“亚洲人”或“其他”。我们将“其他”视为包括多种族家庭和拉丁裔或西班牙裔家庭。在考虑收入人口统计数据时,我们使用定义为“低于25,000美元”、“25,000 -75,000美元”、“75,000 - 150,000美元”、“150,000美元或更多”。comScore数据集中机器的人口和地理分布与同期人口普查估计(2017年)非常当比较comScore人群在美国的分布 Pearson相关系数为0.988(p=0.000)。 当比较种族背景和家庭收入组时,Pearson 相 关 系 数 分 别 为 0.979 ( p = 0.021 ) 和 0.971(p=0.029)。详见附录图A.2和图A.1。虽然高度相关,但我们comScore数据集中的人口统计与人口普查人口估计之间存在差异。这些差异可能是由于抽样偏差以及机器与家庭人口统计数据的统计 在我们考虑用户人口统计的t贴近度分析中,我们通过使用分层抽样方法来创建更能代表美国的数据面板来缓解这些问题。 在种族和收入方面。 这将在第5节中进一步描述。3.2数据预处理我们通过首先过滤掉不是有效的eXtreme +1s的域来预处理浏览会话数据[36]。然后,我们按机器ID和周对浏览会话进行排序和分组,以创建一个记录数据集,我们将其称为机器周,其中每条记录是给定机器在给定周内访问的唯一域的集合。按照FLoC OT中使用的策略,删除当周访问的唯一域少于7个的机器周记录(每台机器每周的唯一域数量分布见附录中的图A.3。)得到的预处理数据集包含2,073,405个机器周记录。它被用于进一步描述的每个分析中:用于计算队列ID序列随时间的唯一性,用于按人口统计组比较用户浏览行为,以及用于构建作为队列ID序列的代表性样本的面板美国用于t-接近度分析的群体 在每种情况下,这些分析分别使用预处理的数据集。3.3计算群组为了计算类似于使用FLoC OT的队列,我们使用SimHash的开源实现,该实现已用于复制OT结果,并已由Google工程师验证[1,27]。 我们使用它来计算每个机器周的SimHash值,然后将其用作PrefixLSH排序算法的输入。 我们使用自己的PrefixLSH实现计算队列ID。我们可能会使用FLoCOT中使用的预先计算的队列,方法是从实现OT的Chrome浏览器中复制队列映射。然而,这些队列定义并不适合我们的数据集,它比OT所用的要小得多。直接使用OT队列与我们的数据集将导致人口稀少的队列,而不是 匿名的。计算我们自己的队列使我们能够改变FLoC���CCSAlex Berke Dan Calacci342----表2:表示web浏览会话数据的示例(假)数据行会话与机器ID和有关会话的统计信息以及机器用户人口统计信息相关联,这些信息被分类编码。机ID会话ID持续时间域页日期时间. .家庭收入种族 Zip169007206 19308896 33site.biz2201705152019 - 01 - 23 01:00:00169007206 27157206 5example.com1201705152019 - 06 - 25 00:00:00170422065 67238569 46google.com32017051523:27:22 16 1 80233参数和计算队列的设备数量(机器周数),更适合我们的数据集。它还允许我们操纵这些变量,并研究数据集大小、序列长度和队列ID序列唯一性之间我们采用的值 以及我们如何使用由此产生的队列在我们的单一性和t-接近度分析之间存在差异,如下所述。4队列ID序列的跨时间第2节描述了FLoC启用跨站点用户跟踪的风险。具体地,第三方可以跨站点存储或访问用户表1中的一个玩具例子也说明了这种风险。 在本节中,我们通过分析4个周期后器械具有唯一队列ID序列的可能性来解决该风险,其中每个周期重新计算队列。 我们注意到,虽然FLoC文档描述了如何使用前7天的浏览历史定期重新计算FLoCID,但频率未指定。在我们的分析中,我们使用1周的时间(即 7天),并为每周单独计算群组ID,周与周之间的浏览历史没有重叠。鉴于我们必须对FLoC的实施做出假设,我们的目标是用下面描述的方法来低估单一性风险。4.1方法我们在这里解决的一个问题是数据集大小。我们估计FLoC OT已经在超过N= 100,000,000台设备上实现,这只是Chrome用户的一小部分。这比我们使用的comScore数据集大几个数量级。虽然我们有兴趣尽可能接近地重新创建FLoC��� ���的OT,但运行与OT相同的FLoC(=2000),并且我们的数据集较小,创建的队列比OT少得多。更少的队列降低了器械具有唯一队列ID序列的可能性。为了解决这个限制,我们采用以下方法来扩展数据集大小。我们进一步使用该数据集来研究最小队列规模和单一性风险之间的���我们有效地将数据集扩展为一个代表更大样本的4周浏览数据序列的数据集,然后我们将其用于分析。为此,我们将每台机器然后,我们重新标记与每个机器周相关联的周,按照它们在4周序列中出现的位置,1,2,3,4。 如果机器在所有4周内没有足够的数据,我们将删除任何序列(每个FLoC算法有7个唯一域)。 此过程为每台机器创建最多13个4周序列(52周/4周)的浏览数据。这导致���= 305,312个4周序列,每个序列代表机器在4周期间的浏览数据的样本。 然后,在这4周中的每一周,在该周中表示的所有机器周中计算队列。然后,每个4周样本具有相应的队列ID序列,即101、���102、���103、104。我们数据集中的样本队列ID序列更有可能与4周样本均来自不同机器的情况相比,这是因为向数据集贡献多个4周样本的机器可以具有跨时间的一致浏览模式 这意味着我们计算的唯一性风险可能被低估,因为样本的队列ID序列是唯一的可能性低于现实世界中的情况。我们还分析了当FLoC队列ID与浏览器指纹数据相结合时,单一性风险如何增加。为此,我们将每个4周样本与其机器 国家和使用美国作为指纹识别的弱代理 我们使用美国州,因为邮政编码是我们为机器提供的唯一附加设备特定数据,但它太独特了:许多机器在comScore数据集中都有唯一的邮政编码。 我们汇总了美国的邮政编码。states. 使用这种弱代理来处理浏览器指纹数据有助于我们衡量指纹数据如何与FLoC相互作用,并且使用弱代理与我们保守低估单一性风险的目标一致。为了估计随着时间推移的单一性风险,我们随后在4周中的每一周后对我们的数据集中具有独特队列ID序列的样本数量进行计数,以及当与它们的美国专利申请组合时,有多少这样的序列是独特的状态4.2结果我们发现,超过50%的用户设备样本在3周后是唯一可识别的,并且这种风险在4周后攀升至95%的样本当队列ID与我们的弱指纹代理(美国州)相结合时,这些风险甚至更高,这为单一性提供了另一个维度。见图2(a)。作为比较,2018年的一项分析发现,33%的设备可以单独使用指纹识别进行唯一识别,并预计由于浏览器的发展趋势,这种风险正在下降[15]。考虑到我们的数据集大小,我们认为我们的风险估计保守低估了。我们的分析使用了305,312个样本,每个样本代表4周的用户浏览数据,= 2000,得到97-100个队列(随周变化)。当考虑到潜在FLoC使用者的数量时,该样本量和由此产生的队列数量都很小例如,虽然FLoC OT只包括一小部分Chrome用户,但它导致了33,872个队列,最小队列大小 = 2000。独特的队列ID序列的风险随着更多的队列而增加如果保持带宽不变,则会产生更多的用户设备(UE网络上基于广告的隐私限制:对Google FLoC的事后实证分析CCS343(a)(b)(c)图2:(a)跨周的群组ID序列的单一性使用从用户设备采样的k=2000和N= 305,312个4周数据序列进行计算蓝色条表示在观察1、2、3、4周后,单独通过群组ID序列数据唯一可识别的分数橙色条表示将队列ID数据与可用指纹数据相结合时估计的风险增加。美国住宅设备用户的状态被用作指纹数据的弱代理使用的数据集代表了一小部分Chrome和潜在的FLoC用户;报告的结果被低估了。对于固定的k,更多的用户设备导致更多的群组和更高的唯一群组ID序列的可能性(b)对于固定的k=2000和变化的N,在3周和4周后唯一可识别的样品的分数更多的设备导致更多的队列,随着时间的推移增加了唯一队列ID序列(c)使用固定样本量N= 305,312和k递减值,3周和4周后唯一可识别样本的分数对于固定的N,较低的k导致更多的队列。在更多的队列中,并且因此从一周到另一周的队列ID的更可能唯一的我们测试设备的数量如何影响唯一性,方法是固定**=2000,���=20,000至���对于每个值,我们从我们的数据集中随机抽取10个4周序列,并计算相应的队列ID。图2(b)显示,这些序列在3周和4周后是独特的部分随着增加而���增加。我们注意到,用户设备越多导致单一性风险越高的结果乍一看是违反直觉的;我们提醒读者考虑FLoC OT聚类算法有效地限制了固定k的队列平均大小,其中这里���= 2000。总的来说,对于固定���的用户设备,更多的用户设备导致更多的队列,增加了队列ID的可能组合,因此增加了唯一队列ID序列的可能性。我们提醒读者,这���是FLoC算法中的一个可调参数,其中���确定最小队列大小以提供 匿名性。我们还探讨了如何影响一个固定的固定的单值性。图2(c)显示了3周和4周后来自用户设备的唯一可识别样本的分数,使用固定的N= 305,312和���范围从2000到200的值,以200的增量递减。随着���减少,到第3周,唯一可识别序列的分数稳定增加。更高的cohort值导致更少的队列,每个队列中有更多的用户,因此更高的���隐私级别5絮凝物本节解决了第2.4.2节中所述的FLoC可能泄露用户敏感人口统计信息的问题具体来说,我们评估了用户种族和家庭收入的风险我们使用Google开发的t贴近度方法来处理敏感类别的网站,如第2.5节所述。 我们注意到,这种t贴近度的应用可能无法完全衡量FLoC泄露敏感人口统计信息或以其他方式促成在线歧视的风险。然而,我们的目标是评估一个重要的风险,谷歌没有通过应用谷歌自己的方法来解决的敏感类别,谷歌没有报告的本体。在我们的t-贴近度分析之前,我们首先证明了在我们的数据集中,按人口统计组划分的浏览行为存在显着差异这一点很重要,因为如果我们数据集中的不同人口群体在浏览历史中没有表现出差异,我们应该期待一个聚类算法,如FLoC,独立于人口统计数据对用户进行聚类。5.1按人口统计组浏览行为差异5.1.1方法. 为了测试不同的人口统计组是否在浏览行为上存在显著差异,我们使用卡方独立性检验比较了不同人口统计组的域名访问频率。 我们使用3.2节中描述的机器周数据集,其中每个记录都是给定机器在给定周内访问的唯一域的集合。 我们将域名访问计算为一周内对唯一域名的访问(因此一周内对同一域名的重复访问不计算在内),类似于FLoC。我们分别测试种族和收入在每种情况下,我们将数据集中的机器划分为由其CCSAlex Berke Dan Calacci344×()下一页()+人口群体。 我们使用第3.1节中描述的类别。 我们的种族亚群是标记为白人、黑人、亚洲人和其他人的机器。 对于收入群体,我们使用“低于25,000美元”、“25,000 - 75,000美元”、“75,000 -150,000美元”和“150,000美元或以上”。我们创建并测试了一个额外的随机对照组,从总人口中随机抽取,不进行替换(n= 10)。0的情况。25分)作为稳健性检查和比较点对于种族和收入,我们���对数据集中排名靠前的领域进行了一系列独立性卡方检验,逐步���增加10,使得���= 10,20,30,40,. . . ,100。对于的每个值 ,检验将顶级域的访问频率的子群体���分布与聚合群体的分布进行比较。特别是,我们分别对= 0的每个亚群检验以下零假设���。01:子人群访问顶级���域名的频率与总人群的访问频率相匹配。5.1.2调查结果。我们发现,不同的人口群体在浏览行为上表现出显着差异。对于第5.1.1节中描述的每个独立性卡方检验,我们发现域访问频率存在统计学显著差异( <0。0001)从聚合域访问分布。对于每一组 顶级域名都是如此, 范围从10到100,每个子人群由种族或收入群体定义。我们注意到p值足够小,因此我们的多重检验的Bonferroni校正对确定显著性没有影响。相比之下,我们随机抽取的亚群没有显示出显著差异( > 0。75、每一个 人这些结果表明,由种族或收入定义的每个亚群与平均浏览行为有很大差异。不同种族的域名访问频率差异图3显示了访问前10=50个域的频率 关于总人群和每个亚群的域名和相对访问频率,请参见附录中的第A.3节。虽然每个组的分布的整体形状是相似的,但可以看到各组之间的相对频率和顶部域的顺序存在很大差异。 我们在按收入定义的子人群中看到了类似的结果,但为了简洁起见,省略了这样的图。5.2按种族和收入的5.2.1方法. 为了根据用户的种族和收入人口统计数据计算t-接近度,我们遵循Google在[ 24 ]中使用的相同定义。 这些在2.5节中描述,并由公式1和2正式定义。在Google的分析中���,表示一个群组中用户访问的网站类别。这里,���表示群组中的用户的人口统计类别(即,种族或收入群体)。为了更好地匹配Google我们通过比较每个队列中每个人口统计组的相对频率与其在总人口中的相对频率来计算有多少队列违反了如果一个群体是一个不同的人口统计学群体,���������从总体频率中至少增加1/3������ℎ���������������������(������∗, )−������ ������������������ ������ ��� ��� ( )>���������������������������我们分别计算收入和种族人口统计组的t-贴近度
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功