没有合适的资源?快使用搜索试试~ 我知道了~
数字广告:用户和广告商成本比较
14790数字广告的成本:用户和广告商观点的比较0Panagiotis PapadopoulosFORTH-ICS,希腊panpap@ics.forth.gr0Nicolas KourtellisTelefonica研究,西班牙nicolas.kourtellis@telefonica.com0Evangelos P. MarkatosFORTH-ICS,希腊markatos@ics.forth.gr0摘要0数字广告以静态图像、动画或视频的形式传递,旨在向桌面或移动用户推广产品、服务或理念。因此,广告商支付货币成本在内容提供商的媒介(例如网站)中购买广告空间,将他们的广告放置在消费者的显示器中。然而,只有广告商为广告投放付费吗?与传统媒介(如报纸、电视或广播)中的广告不同,在数字世界中,最终用户也为广告投放支付成本。广告商一方的成本明显是货币成本,而最终用户一方的成本包括可量化的成本,如网络请求和传输字节,以及隐私损失等质量成本。在这项研究中,我们旨在增加用户对移动设备中数字广告隐藏成本的认识,并比较用户和广告商的观点。具体而言,我们构建了一个透明度工具Open-DAMP,被动分析用户的网络流量并估计双方的成本。我们使用了一个为期一年的1270个真实移动用户的数据集,并通过对比双方的成本,我们发现了明显的不平衡:广告商支付的广告投放成本比用户下载广告所支付的成本要少几倍。此外,大多数用户在个性化广告投放机制中经历了显著的隐私损失。0CCS概念0• 信息系统 → 在线广告;网络日志分析;• 安全与隐私 →安全与隐私经济学;0关键词0移动广告成本,个性化广告,用户隐私0ACM参考格式:Panagiotis Papadopoulos,Nicolas Kourtellis和EvangelosP. Markatos。2018。数字广告的成本:用户和广告商观点的比较。在WWW2018:2018年网络会议上,2018年4月23日至27日,法国里昂。ACM,纽约,美国,11页。https://doi.org/10.1145/3178876.318606001 引言0数字广告业务在2016年增长到1946亿美元[51],其中1080亿美元来自移动广告。此外,正是数字广告推动了我们所知的互联网。0本文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂。© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860600绝大多数内容提供商提供他们的网站或复杂的服务免费(例如GoogleDocs,Facebook,Twitter,Gmail),以换取允许第三方访问并向他们的用户展示广告。在线广告通过程序化广告购买模式逐渐向更个性化的广告投放方式发展。在这种模式下,广告商根据所广告产品与用户个人资料的匹配程度自动购买用户显示器中的可用广告位。因此,当用户访问网站时,每个可用的广告位都会进行拍卖,广告商根据他们对当前用户的信息(兴趣、收入、性别等)决定是否出价以及出价金额。根据上述过程,仔细阅读者可以确定三个关键角色:(i)通过拍卖从广告商那里赚钱的网站提供商,(ii)通过传递有效广告向适当的用户推广和销售产品的广告商,以及(iii)从网站免费获取他感兴趣内容的用户。表面上,每个人都从这种模式中受益。但是用户确实免费获得他们想要的内容吗?与传统广告(例如报纸、电视、广播)相反,在数字世界中,支付广告投放成本的不仅仅是广告商,还有用户!事实上,用户的数据计划费用用于下载额外的与广告相关的千字节。更糟糕的是,用户还要下载与所访问网站的实际内容完全无关的其他字节,例如分析和用户跟踪。当然,这种成本不仅仅是金钱成本,因为上述操作导致的隐私损失是显著的[33,44]。在本研究中,我们研究了移动广告对广告传播者(广告商)和接收者(用户)的隐藏成本。实际上,我们比较了相同用户配置文件下的两者,并调查了它们在两方之间的公平共享程度。我们的动机是增加关于在线广告的整体成本的透明度,并提高用户对在使用广告支持的在线服务时支付的隐藏成本的意识。该领域的过去研究已经试图揭示移动生态系统中广告的隐藏成本。例如,Gui等人[25]分析了应用程序的免费和付费版本,以比较开发者方面的广告成本。他们积极分析移动应用程序以测量与内存、功耗和CPU使用相关的成本。与Gao等人的研究[20]类似,他们将这些成本与应用程序评论中的用户反馈进行了比较。据我们所知,这项工作是第一个测量移动用户浏览网页时广告的隐藏成本的工作。与上述启发性方法相反,我们更加以用户为中心的研究试图从最终用户的角度来研究这些成本。为了实现这个目标,我们设计了一个透明度工具Open-DAMP,passively分析用户的网络流量并估计双方的成本。我们使用了一个为期一年的1270个真实移动用户的数据集,并通过对比双方的成本,我们发现了明显的不平衡:广告商支付的广告投放成本比用户下载广告所支付的成本要少几倍。此外,大多数用户在个性化广告投放机制中经历了显著的隐私损失。0Track:物联网、移动和普适计算WWW 2018年4月23日至27日,法国里昂14800我们在OpenDAMP中设计了一种方法,并将其实现为一种工具,用于估算广告对广告商和用户的成本,通过对用户HTTP流量的被动分析。我们收集了一个数据集,其中包含来自1270名志愿者用户的移动流量,时间跨度为一整年,并使用OpenDAMP进行分析。最后,我们比较了双方的成本,以评估它们在两端之间的公平程度。总之,这项工作做出了以下贡献:(1)我们设计了一种方法来衡量用户在接收与广告相关的流量时所支付的成本。这些成本可以是直接可量化的(例如请求、字节、能量),也可以是定性的,如隐私的损失。此外,我们的方法还建立在之前的方法[45]的基础上,估计广告商为通过当代程序化实时竞价拍卖[56]向用户展示每个广告所支付的成本。0(2)我们在OpenDAMP(开放数字广告测量平台)中实现了我们的方法:一种面向数字广告的被动日志分析框架。OpenDAMP可以分析用户的HTTP流量,并检测第三方之间的ID共享事件(称为Cookie同步)。此外,通过整合来自外部资源和黑名单的信息,OpenDAMP可以根据域名传递的内容对流量进行分类,并从RTB广告拍卖中提取元数据和收费价格。0(3)为了评估我们的方法的有效性,我们收集了来自1270名志愿者用户的一年长的移动浏览流量数据集。我们的分析显示,广告商和用户支付的成本在很大程度上不平衡,事实上,用户通过他们的数据计划下载广告支付的费用是广告商向这些用户投放广告所支付费用的3倍左右。此外,大多数用户为了接收这些个性化广告而承担了重大的隐私损失。02 使用OpenDAMP进行成本分析0在这项研究中,我们通过被动监控用户的浏览流量来衡量广告对用户的隐藏成本,同时考虑广告商的观点。为了进行分析,我们设置了一个服务器作为代理,并招募了1270名位于同一国家的用户。这些志愿者用户同意将他们的移动网络流量重定向到我们的代理服务器上,为期12个月。这样,我们收集了一年的网络日志数据,总共有2.5亿个HTTP请求(出于安全目的,我们避免中断用户的SSL连接)。02.1 定量和定性用户成本0除了用户可能支付的定量广告成本,如额外的网络使用量,用户还会付出重要的定性成本:隐私的丧失。众所周知,构成在线广告生态系统的公司收集多种类型的用户数据:位置、行为、偏好、兴趣等。这些数据被这些公司用于向在线用户提供更个性化的广告。01 所有位于西班牙的用户都签署了一份同意书,允许我们收集、分析和发布从他们的数据中提取的结果。0浏览器:cnn.com0(1)/ GET tracker.com/beacon.gifCookie:{cookie_ID= user123 }0tracker.com0(3)/ GET advertiser.com?syncID= user123&publisher= cnn.com0Cookie:{cookie_ID= userABC }0advertiser.com0图1:CSync过程在实际中的应用。通过用户的浏览器,两个实体匹配他们为特定用户设置的ID。0Cookie同步为了使所有这些丰富的用户数据对公司有用,必须进行所有第三方为同一用户分配的用户ID的匹配过程。通过用户ID的概念,我们定义了一个能够在在线世界中唯一标识用户的字符串。在Web上,用户ID是在用户端设置的ID,通常以cookie的形式存在(即cookieID)。然而,cookie是特定于域的,这意味着由一个第三方实体创建的cookie不能被其他任何人读取(参见同源策略[54])。为了解决这个问题,发明了Cookie同步(CSync)[1,21,34,42],通过它,第三方能够匹配他们为同一用户设置的不同用户ID。图1展示了一个简单的示例,以便更好地理解Cookie同步的实际工作原理。假设(i)一个网站(例如cnn.com),其中包含来自tracker.com的一些代码,以及(ii)另一个名为advertiser.com的第三方网站,它不包含在cnn.com的网页中,因此(也不能)知道哪些用户访问cnn.com。现在,假设一个用户在浏览网页时,由tracker.com设置了一个cookie(cookieID=user123),由advertiser.com设置了另一个cookie(cookieID=userABC),现在访问cnn.com。当tracker.com的代码被调用时,浏览器向tracker.com发出一个GET请求(步骤1)。然后,tracker.com返回一个重定向请求(步骤2),指示用户的浏览器向advertiser.com发出另一个GET请求,这次使用一个特殊构造的URL(步骤3):advertiser.com?syncID= user123 &publisher=cnn.com,以及它的cookie(cookieID=userABC)。当advertiser.com收到上述请求以及cookie IDuserABC时,它发现userABC访问了cnn.com。更糟糕的是,advertiser.com还了解到tracker.com所知道的user123和userABC实际上是同一个用户。因此,CSync使advertiser.com能够与tracker.com合作,以(i)找出哪些用户访问cnn.com,并且(ii)同步(连接)同一用户在Web上的两个不同身份(cookieID)。隐私影响:上述同步过程引发了在线用户的重大隐私问题。通过使用CSync,实际上,advertiser.com了解到(i)它所知道的userABC实际上也是user123,以及(ii)这个用户刚刚访问了cnn.com。这使得advertiser.com能够追踪用户访问的站点数量比最初想象的要多得多。实际上,通过与多个跟踪器合作,advertiser.com能够跟踪用户在各种各样的网站上的活动,即使这些网站与advertiser.com没有任何合作关系。最后但并非最不重要的是,在CSync之后,0Track: Web of Things, Mobile and Ubiquitous Computing WWW 2018, April 23-27, 2018, Lyon, France2.2The OpenDAMP framework14810(2)网络信标0(1)访问(4)访问0eshop.com0awesomesite.com0(8)对Acookie789的竞标请求0广告交换0(5)网络信标0(6)设置Cookie Acookie7890(9)竞标0再营销平台0(7b)Cookie同步(Acookie789==RPcookie123)0(7a)读取Cookie RPcookie1230用户0图2:CSync在程序化广告中的一个示例用途。广告商可以在用户浏览网页时跟踪和重新识别用户。0tracker.com和advertiser.com可以合并它们对该用户的所有数据(以及从现在开始将有的数据)。如今,这种服务器到服务器的用户数据合并在大规模上进行[17],不同的网络实体进行相互协议以进行数据交换或购买,以丰富其用户数据仓库的质量和数量[10,35]。因此,可以预见,Cookie同步的同步用户ID对于跟踪实体来说至关重要,以便(a)在他们浏览的不同网站之间重新识别用户,但也(b)参与用户数据拍卖和市场[2],从而增加他们对每个用户所了解的信息的财富和细节。因此,在这项研究中,我们使用CSync作为隐私损失的代理。事实上,假设1个CSync泄漏1个用户ID,我们使用执行的CSync作为度量标准来量化和比较移动网络中用户的隐私和匿名性损失。0Cookie同步和个性化广告除了用户跟踪外,CSync还是个性化广告的核心组成部分,它允许广告商在用户浏览网页时重新识别(或重新定位)用户,并向其提供适当的广告。如图2所示,一个例子是:假设一个与再营销平台RP合作以提高其营销策略效率的鞋子销售电子商务网站E。此外,假设一个与RP也合作的广告交换A。RP需要随时了解访问E的用户以及他们的行动:他们访问哪些其他页面,何时访问以及访问时间有多长。因此,RP要求E通过在其网站的每个页面中嵌入指向RP的Web信标[36,40]来标记每个页面:一个1x1像素的图像(也称为像素标签或WebBug)。这样,用户每次浏览页面时都会发送此Web信标,允许RP了解她的行动并在她的一侧设置一个Cookie(例如UID_RP123)。现在,假设一个用户U在E的购物车中添加了一双鞋子,但从未完成购买。E显然希望重新定位U并提供广告,引导U返回E并尝试完成销售。过了一会儿,U在网上浏览,并登陆到使用A来变现其广告库存的awesomesite.com。使用类似的Web信标,awesomesite.com允许A(i)了解U的行动。0在对awesomesite.com的可用广告位进行拍卖之前,A会触发U的浏览器上的Cookie同步,与其关联的竞标者(包括RP)共享IDUID_A789。在此同步之后,RP可以通过匹配两个别名来重新识别用户:UID_A789 ==UID_RP123,并相应地进行竞标,以展示U打算购买的E的鞋子的再营销广告。0为了分析我们的流量,我们构建了OpenDAMP(开放数字广告测量平台):一个面向数字广告的网络日志分析框架。OpenDAMP解析HTTP流量并根据域名提供的内容对其进行分类。此外,使用来自公共众包资源的元数据,它还可以根据广告商提供的产品(DMP、广告平台、DSP、SSP等)进一步对其进行分类。最后,利用HTTP请求的User-Agent字段,OpenDAMP可以根据设置的硬件特征识别设备的操作系统(iPhone、WindowsPhone、Android)。流量分类:如上所述,使用OpenDAMP,我们能够将流量分为5个类别(i)广告,(ii)分析,(iii)社交,包括社交小部件和插件,以及(iv)第三方内容,包括来自第三方提供商的内容(例如来自CDN的内容,嵌入的Instagram照片,验证码,博客评论托管服务(如Disqus)等),以及(v)其他,包括用户实际感兴趣的其余内容。为了进行这样的分类,OpenDAMP使用了一个流行的浏览器广告拦截扩展的黑名单[12]。该黑名单将属于同一公司的不同域名分组(例如,Google集团的Doubleclick、AdMob和Adscape)。它包括:1)广告:770家公司,共1395个域名;2)分析:150家公司,共239个域名;3)内容:111家公司,共522个域名;4)社交:17家公司,共58个域名。0CSync检测:为了检测我们数据集中的Cookie同步过程,在OpenDAMP中,首先我们提取用户浏览器上设置的所有cookie。然后,受到之前的研究的启发[42],我们创建了一系列旨在提取可能构成用户ID的实体之间共享的所有ID的启发式方法:0(a)我们过滤掉会话cookie(没有过期日期的cookie),并提取能够唯一标识用户的用户ID。0(b)我们只保留具有重定向状态码(即301、302、303)的捕获的HTTP请求。0(c)我们识别出携带ID样式的字符串,这些字符串可以是(i)每个请求URL的参数,或者(ii)引荐URL中的字符串。作为ID样式的字符串,我们定义具有特定长度和字母和数字数量的字符串(此时误报不重要),对于每个用户来说这些字符串是唯一的。0(d)每个这样的ID样式字符串在检测到后与URL的域名(ID的接收者)一起存储在哈希表中。02 商业软件和服务评论:g2crowd.com0Track: 物联网,移动和普适计算WWW 2018,2018年4月23日至27日,法国里昂1001011021031041051001011021031041051060%5%10%15%20%25%00:00-03:0004:00-07:0008:00-11:0012:00-15:0016:00-19:0020:00-23:000%20%40%60%80%100%14820一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月0每个用户的HTTP请求0年份0图3:每个用户在一年内产生的HTTP请求。用户创建了一个相对稳定的HTTP流量,通常在假期期间增加。0一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月0每个用户消耗的千字节0年份0图4:每个用户每年消耗的总千字节量。用户每月平均消耗5.9 GB。0HTTP流量比例0一天的时间0图5:一天内产生的HTTP请求比例。如预期,用户主要在早晨到下午早些时候产生网络流量。0一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月0请求比例0年份 广告0分析0社交0第三方内容0其他0图6:用户每年通过的每个内容类别的HTTP请求比例。平均而言,77%的HTTP请求与用户实际感兴趣的内容相关。0(e)如果我们在过去已经看到相同的ID,我们只有在它们属于不同域名时才将两个请求视为共享ID。0(f)为了确保我们捕获并排除同一提供者拥有的不同域名的情况(例如doubleclick和googlesyndicate),我们使用多个来源,如DNSwhois,黑名单等。通过过滤掉同一提供者的域名,我们的方法可以区分有意的ID泄漏和明确合法的内部ID共享,从而避免误报。0(g)最后,为了验证检测到的共享ID是否是能够唯一标识用户的用户ID,我们在步骤(a)中提取的用户ID列表中搜索该ID。如果有匹配,则将此请求视为CSync。03 用户的视角0在本节中,我们分析用户在浏览网页时承担的接收广告的成本。在我们的数据集中,我们将每个用户的网络流量分开,并组成描述每个用户流量特征的用户时间线。时间线包括接收的HTTP请求、传输的字节数、接收的文件、接收的展示等。所有这些都是可以量化的属性,我们可以测量以提取用户支付的最终成本。然而,在浏览网页时,用户还会泄漏对广告有用的信息。0生态系统,这是广告的另一项成本。在本节中,我们还尝试量化这个成本,除了其定性特性。03.1 网络资源消耗0有多少HTTP请求是由广告引起的?首先,我们进行了简要分析,探索了关于用户网络流量的收集数据集的内容。在图3和图4中,我们分别看到了整个数据集中每个用户产生的HTTP请求的分布和每个用户整年消耗的KBytes(百分位数:10th,25th,50th,75th,90th)。正如我们所看到的,中位数用户的网络流量相对稳定,因此平均每月消耗约5891KBytes。此外,我们还看到了预期的每月行为,在包括长假的月份(春假,暑假等)期间,产生的网络流量增加。当测量流量产生的时间时,还可以看到一种白天行为。如图5所示,用户主要在早晨到下午早些时候从移动设备产生网络流量,并且这种情况在整个星期内都会重复。在图6中,我们使用OpenDAMP对整年的HTTP请求进行分类,根据其域名提供的内容。考虑到第三方内容是网站的一个重要(外部)组成部分,其缺失可能会破坏提供的功能并降低用户的体验,我们将其视为网站实际内容的一部分。另一方面,分析类别包括旨在监控性能并行为跟踪网站受众的服务。因此,我们可以看到,整年来将实际内容传递给用户的请求的百分比稳定在77%左右,而广告和分析相关的百分比平均高达19%。接下来,在图7中,我们调查用户在整年中为这两个内容类别检索了哪些不同资源。在此图中,我们呈现了用户的分布(百分位数:10th,25th,50th,75th,90th)。对于中位数用户,大部分广告HTTP请求是动画和静态图像和脚本,除了预期的HTML体积。此外,在分析中,大部分请求是监控脚本。0下载量中有多少与广告相关?用户下载的所有(附加)资源的成本转化为消耗的字节。这是最重要的0Track: 物联网,移动和普适计算WWW 2018年4月23日至27日,法国里昂100101102103104100101102103104105 0 2 4 6 81012JanFebMarAprMayJun Jul AugSepOctNovDec0%2%4%6%8%10%12%14%JanFebMarAprMayJun Jul AugSepOctNovDecAdversitingAnalyticsSocial0%20%40%60%80%100%14830数据0HTM0图片0脚本0样式0文本0视频0HTTP请求的数量0文件类型0广告0分析0图7:每个用户接收的HTTP请求,按不同资源类型划分。0数据0HTM0图片0脚本0样式0文本0视频0接收的KBytes0文件类型0广告0分析0图8:每个用户接收的字节数,按不同资源类型划分。0年份的月份0图9:每个用户的每个广告相关HTTP请求的KBytes,整年。0每个用户下载量的比例0年份的月份0图10:广告相关的每个用户下载的KBytes,整年。0一月0二月0三月0四月0五月0六月0八月0九月0十月0同步比例0年份的月份0广告-广告 广告-分析广告-内容 广告-其他广告-社交 分析-分析分析-其他 分析-社交分析-内容 内容-其他其他-其他 内容-内容其他-社交 社交-社交内容-社交0图11:每个内容类别对的CSyncs比例,按年份划分。0这是一个不仅在经济上影响用户的数据计划,而且通过保持其CPU和网络卡开启来影响设备电池的度量。从图8可以明显看出,下载的静态广告图片和脚本的字节量分别达到了约700 KBytes和850KBytes;90th百分位数峰值分别达到了近10MByte。在这两个图表(图7和图8)中,我们可以清楚地看到广告和分析相关域指示用户浏览器运行的脚本的数量和大小。请注意,这些脚本及其额外的CPU周期与用户感兴趣的实际内容无关,因此对用户来说构成了明显的额外开销。如果我们更深入地观察HTTP请求和它们传递的字节量,在图9中我们可以观察到一年中的增长趋势,广告的HTTP请求需要传输的平均字节量增加了一倍(从4KB增加到8KB)。结合图6,它显示了一定比例的广告相关请求,在相同数量的请求中传递了更大的有效负载,尽管可能需要设备更多的内存,但它为设备提供了最小化所需的延迟来进行每个广告相关请求的编组/解组的机会。然而,我们还怀疑广告商会利用更好的移动网络速度和设备资源,随着时间的推移,它们迫使每个移动设备下载越来越多的数据,显示在发布者的页面上,以用户为代价。最后,我们测量了与广告和分析相关的总下载量相对应的用户下载量的比例。在图10中,我们看到用户在一年中稳定地下载了平均8.2%的字节(超出他们浏览的实际内容),这些字节属于0仅用于广告(7.3%)和分析(0.8%)相关内容。与先前的研究相比(5年前)[52],广告相关的流量有小幅增加,先前的研究测得的流量为5.6%。如果我们还加上社交相关的流量,用户需要下载的额外内容的总百分比平均达到11%。根据[24, 41,55]的结果,我们还提供了广告相关流量在用户端消耗的功率的估计。根据图10的结果,仅移动设备的网络组件由于额外的广告相关传输字节而消耗了7.98%的能量,由于分析相关字节而消耗了0.86%的能量。这意味着一个移动设备,其电池可以支持10小时的无广告浏览,由于接收到的额外广告相关网络流量,将只能持续9.2小时。实际上,根据先前的研究[25],如果我们还考虑显示屏的能量消耗,这个成本可能超过15%。0无限数据计划对用户数据计划的成本进行被动测量当然存在一些限制。首先,可能有用户设备通过WiFi连接到互联网。此外,一些ISP最近提供了无限数据计划,为客户提供大量的数据(通常约为20GB/月[26])。尽管这些产品目前存在问题(如限速[50]、高价格(70-90美元/月)[26]、昂贵的互联网漫游),但很可能在未来它们会变得足够便宜以普及。因此,对于拥有无限数据计划的用户来说,相关的经济成本将变得几乎可以忽略。然而,即使在这种情况下,个性化广告仍然会消耗设备资源(电池、网络流量、CPU等),并且仍然会对用户的隐私和匿名性造成高成本。03.2 用户隐私损失0用户对Cookie同步的暴露程度是多少?通过使用OpenDAMP,我们在我们的数据集中检测到了CSync,并且我们发现对于在网络上有常规活动的用户(每天>10个HTTP请求),97%的用户至少一次暴露于CSync。接下来,我们将在我们的数据集中分离和分类进行CSync的实体对,并在图11中显示每种类型的实体对执行的CSync的比例。大多数(约85%)的CSync发生在不同的广告实体之间,但也有一些情况下,广告实体会将其用户ID与社交或分析相关的实体进行同步。接下来,我们调查用户暴露于时间变化的同步情况。因此,我们提取每个用户的CSync,按用户的总请求数进行归一化。在图12中,0Track: 物联网、移动和普适计算 WWW 2018,2018年4月23日至27日,法国里昂10-410-310-210-1Jan FebMar AprMayJun Jul AugSep Oct NovDec0%20%40%60%80%100%1001011021031040%20%40%60%80%100% 0.01 0.1 1 100%20%40%60%80%100%100101102103Portion of userIDs:(0-20%](20-40%](40-60%](60-80%](80-100%](A) cpp.imp.mpx.mopub.com/imp?ad_domain=amazon.es&ads_creative_id=ID&bid_price=0.99&bidder_id=ID&...&bidder_name=..&charge_price=0.95&country=..&...(B) tags.mathtag.com/notify/js?exch=ruc&...&price=B6A3F3C19F50C7FD&...&3pck=http%3A%2F%2Fbeacon-eu2.rubiconproject.com%2F...14840每个用户的同步/请求数0年份0图12:用户每年收到的HTTP请求的同步数。中位数用户暴露于稳定数量的CSync。0用户分布0每个用户的唯一用户ID数量0图13:每个用户的唯一同步用户ID。中位数用户至少一次同步了63(75th百分位数为195)个唯一ID。0追踪实体的CDF0我们数据集中用户ID的比例(%)0广告0分析0图14:我们数据集中每个追踪实体学习到的整体用户ID的比例。一些实体学习到了超过10%的所有用户ID。0用户的CDF0追踪实体的数量0图15:访问用户ID部分的实体数量。中位数用户向22个追踪实体失去了最多20%的匿名性。0我们在整个年份中绘制了这些同步情况。中位数用户每140个HTTP请求接收到1个同步,而90th百分位数用户每50个请求接收到1个同步!考虑到追踪实体可能为用户分配的不同用户ID,在图13中,我们测量了每个用户同步的唯一用户ID的数量。显然,中位数用户每年至少一次同步了63个不同的用户ID,而75th百分位数用户每年至少一次同步了195个用户ID。0追踪实体对用户了解多少?接下来,我们衡量追踪实体的普及程度。具体来说,在图14中,我们测量了每个(与广告和分析相关的)实体通过CSync学习到的整体用户ID的比例。有趣的是,广告和分析实体遵循相似的分布,显然,这些实体倾向于学习到用户ID的相当大的比例。因此,尽管中位数与广告相关的实体可能只学习到整体用户ID的约0.03%,但在我们的数据集中,有5%的实体学习到了超过10%的用户ID,还有0.6%的实体学习到了超过25%的整体用户ID。正如我们之前所描述的,CSync是追踪器通过连接其分配的用户ID来增加用户在网络上的可识别性的机制。在图15中,我们绘制了获得用户ID访问权限的实体数量。从图中可以看出,中位数用户向22个追踪实体失去了最多20%的匿名性,向3个追踪实体失去了最多40%的匿名性。这样一个重要的泄漏使得少数实体能够准确地在网络上重新识别用户,并通过合并其在后端收集的数据构建一个丰富的用户资料。04 广告主的视角0毫无疑问,数字广告正朝着更个性化的广告投放方式发展,广告会根据个人的兴趣与之匹配,采用程序化广告购买模式。其中最流行的是实时竞价(RTB)的程序化拍卖模式[22],其年复合增长率为24%[4]。在RTB中,用户显示屏上的广告位通过拍卖出售,出价最高的竞标者将其广告展示给用户。具体来说,在基于RTB的拍卖中,当用户访问一个有可用广告位的网站时,会向广告交易所(ADX)发送一个广告请求,ADX调用拍卖并向广告买家(竞标者)发送出价请求(以及用户信息)。RTB中的竞标者通常是需求方平台(DSPs),它们是利用复杂的决策引擎的机构,旨在帮助广告商实时决定是否参与拍卖以及出价金额。0基于他们收到的用户信息以及广告产品与用户兴趣的接近程度,广告竞拍整个过程都有严格的时间限制,通常从用户访问网站到最终交付获胜印象的时间为100毫秒。在本文中,我们利用移动RTB评估广告商为向用户提供个性化广告所支付的成本。为此,我们在RTB的特定步骤中搜索ADX通过用户的浏览器向更高的竞标者通知其获胜。通常,此通知URL使用两家公司(ADX和DSP)之间约定的关键字进行参数化,并携带获胜的DSP要支付的RTB价格。价格可以是明文或加密的,如表1中的两个示例所示。尽管自2010年以来,RTB协议已经由OpenRTB[27]进行了很好的标准化,但在图16中,我们观察到用于定义收费价格的关键字的大量异质性。实际上,每个ADX可能使用自己的参数,使得RTB过程不够透明,对于外部观察者来检测和研究使用的RTB参数和值更加困难。我们使用OpenDAMP,并使用过去研究[42,45]和RTB文档[14,27,28,37,43,47,48]中公开可用的关键字列表进行模式匹配,并成功提取了数据集中所有用户的44997个明文和加密的收费价格。这些印象来自超过770个不同的广告商和广告网络。此外,使用OpenDAMP,我们提取了估计加密RTB价格价值所需的特征。这些特征包括ADX可以提供给竞标者的用户信息(用户位置,访问网站的日期和时间,用户设备类型,用户兴趣等)。利用[45]中的技术和提取的特征,我们计算了每个用户的广告商成本的年度汇总估计,同时使用了明文和加密价格。在图17中,我们展示了数据集中每个竞标者的RTB市场份额。从市场份额细分中可以看出,只有少数几家大公司赢得了大部分拍卖。具体来说,不超过5家公司赢得了67.7%0获胜价格通知URL0表1:明文和加密的RTB价格通知示例0Track: 物联网,移动和普适计算 WWW 2018,2018年4月23日至27日,法国里昂0 %5 %10 %15 %20 %25 %charge_pricebid_pricepriceppbpprcpzwpbidPriceext_costpriceFloorcomputedPricewinPriceacpepcostbidfloortt_bidpricebdrct0.1%1%10%100%mopub.comadnxs.comdoubleclick.netmathtag.commediasmart.escasalemedia.comliverail.comobfc0%10%20%30%40%50%60%70%80%90%100%10-2 10-1 100 101 102 103 1040%10%20%30%40%50%60%70%80%90%100%10-710-610-510-410-310-210-10%20%40%60%80%100%10-2 10-1 10010110210310414850reqs的百分比0参数名称0图16:尽管有一个OpenRTB标准[27],但每个公司都遵循自己的协议,使用不同的参数命名,使得RTB价格过滤成为一项具有挑战性的任务。0mo0ajilco0w5t0rfim0turm0ge0tatworks.c0其它0RTB份额0竞标公司0图17:我们数据集中不同投标者的RTB市场份额。如我们所见,市场份额主要分为几十家公司,前5家公司赢得了67.7%的RTB拍卖。0CDF0每位用户的RTB成本(以欧元表示的CPM)0每次展示0图18:广告商全年展示广告的每位用户成本。中位数用户的每次展示的平均成本为0.9CPM。广告商为中位数用户支付的总成本约为22CPM。0整体RTB拍卖的百分比。此外,我们看到在我们的样本中,只有14个投标者赢得了大于或等于1%的拍卖份额。在图18中,我们展示了广告商为向我们数据集中的移动用户投放和展示广告所支付的总成本的CDF。这些价格(以蓝色表示)代表我们在数据集中检测到并计算出的每位用户全年的总成本,并以CPM表示。正如我们所看到的,有些用户的到达成本比平均用户高出几个数量级:广告商为第75个百分位用户全年支付了高达100 CPM,而他们为中位数用户支付了约20CPM。在同一图中,我们还绘制了每位用户每次展示的成本分布(以红色表示)。我们看到,中位数用户的展示成本为0.9CPM,但有三类用户:那些到达成本相对较低且低于平均水平的用户(<1CPM),可以以约1CPM到达的平均用户,以及更昂贵的用户(>1CPM),广告商为每次展示支付高达9CPM。此时,我们必须注意上述计算的RTB收费价格仅涉及投标者为特定用户显示的特定广告位支付的价值。可能会出现中间代理和平台的佣金,从而增加广告公司实际支付的成本。05整合两个视图0前面,我们展示了广告商通过各种实时竞价广告活动和公司向用户投放广告所支付的费用。在本节中,我们将这个RTB成本用作整个广告过程(例如用户跟踪、分析和最终广告检索)的货币成本的代理。我们将其与用户为下载这些相应广告到其设备中所支付的估计成本进行比较。具体而言,我们使用用户在其数据计划中为这些广告下载的总字节数所支付的每字节成本的估计。我们还查看用户通过CSync指标承担的隐私成本,以及与广告商的RTB成本的比较。05.1数据计划成本与RTB成本0对于这个比较,我们使用当前可用的价格[3,18],针对数据集收集时用户所在国家的各种数据计划。我们使用来自6个不同ISP和子公司的20种不同数据计划的价格,计算了一个平均值。0CDF0每次展示的平均成本(欧元)0RTB收费价格广告字节数 分析字节数广告+分析字节数0图19:用户数据计划的平均成本和广告商为向同一用户提供个性化广告支付的成本的CDF。0CDF0Cookie同步0总计 每次展示0图20:每位用户检索的每次展示的平均CSyncs的CDF,跨年度。0每字节的欧元成本。从历史上看,数据计划价格一直在下降,因此我们对字节成本的估计可以被认为是用户在数据收集期间实际支付的下
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功