没有合适的资源?快使用搜索试试~ 我知道了~
12210城市中移动应用的WWW(和H)0什么,哪里,何时和如何0爱德华多∙格拉尔斯-加里多数据科学研究所圣地亚哥发展大学圣地亚哥,智利0迭戈∙卡罗 数据科学研究所圣地亚哥发展大学圣地亚哥,智利0奥马尔∙米兰达圣地亚哥智利大学计算机科学系 圣地亚哥,智利0罗萨诺∙斯基法内拉都灵大学都灵,意大利0奥斯卡∙费尔南德斯∙佩雷多 Telefonica R&D圣地亚哥,智利0摘要0人们通过智能手机满足他们的信息需求,然而,关于城市结构和其中发生的活动如何影响移动应用的使用,我们知之甚少。在这方面,我们从智利最大电信运营商的深度数据包检查(DPI)数据的匿名数据集开始,我们关注以下问题:城市中最受欢迎的应用程序是什么?它们在空间上聚集在哪里?应用程序何时使用最频繁?城市环境和移动模式如何与应用程序使用相关?结果显示,特定的应用程序呈高度空间聚集,而最受欢迎的服务在整个城市范围内地理分散。聚集出现在人口流动较高的地方;然而,热点在空间上因应用程序而异。有趣的是,我们发现通勤在交通高峰和交通基础设施方面起着重要作用。我们对这些结果进行了讨论,重点关注物理空间和日常通勤例行活动如何影响数据消费模式,并在移动用户行为研究中代表一个重要方面。0CCS概念0• 以人为本的计算 → 协作和社交计算的实证研究;0关键词0深度数据包检查,空间分析,城市信息学0ACM参考格式:Eduardo Graells-Garrido,Diego Caro,OmarMiranda,Rossano Schifanella和Oscar F.Peredo。2018年。城市中移动应用的WWW(和H):什么,哪里,何时和如何。在WWW '18Companion:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,美国,9页。https://doi.org/10.1145/3184558.31915610本文根据知识共享署名4.0国际许可证(CC BY4.0)发表。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW'18 Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.319156101 引言0在过去的十年中,采用用户生成的内容和交互日志已成为理解用户与地点之间关系的重要手段。地理定位数字痕迹的可用性使得城市信息学和计算地理学等领域得以发展。虽然上述领域依赖于地理定位数据,但通常不关注人类的一个关键方面:人类是动态的多任务代理,其需求在一天之中不断演变。这意味着,例如,移动模式和信息需求与他们正在做什么和在哪里做什么相关联。城市是按顺序体验的,而这些序列对每个人来说是独特的[18]。因此,有必要了解用户执行的活动与围绕用户的城市环境之间是否存在关系,即用户运行的应用程序以及这些活动在城市中发生的物理环境,例如通勤时的地铁、工作场所、娱乐区或私人住宅。在这个领域已经有一些工作,涉及不同的方法:带有自定义日志应用程序的移动电话;现场研究和服务器日志分析。然而,它们往往不关注日常城市生活对数字领域的影响。在本文中,我们介绍了智利圣地亚哥最大电信运营商的大规模长期移动应用使用数据集的描述性分析。经过匿名、过滤和在基站级别聚合的数字痕迹,以保护客户隐私,使我们能够根据不同的方面研究空间和时间模式:(i) 什么,即最常访问的应用程序;(ii)在哪里,即与应用程序更相关的地点;(iii)何时,即应用程序更常见的一天中的时间;以及(iv)如何,我们将其解释为主要使用移动服务的物理环境。特别是,我们将重点分析通勤和交通方式的影响。事实上,通勤改变了用户的周围和注意力的环境,因此在建模用户行为中起着重要作用。我们的贡献可以总结如下:0•我们将IP地址映射到移动应用程序,识别出在圣地亚哥通过移动设备访问的最受欢迎的服务。•我们应用空间分析工具,通过估计空间自相关度指标来找到特定应用程序的流量热点。0Track: 第八届位置与Web国际研讨会WWW 2018,2018年4月23日至27日,法国里昂ni=1nj=1 wij(d)xixjni=1nj=1 xixj, j � i,nj=1 wij(d)xjnj=1 xj.3http://titan.disi.unitn.it/pdtloc/apps.php12220WWW '18 Companion,2018年4月23日至27日,法国里昂,E. Graells-Garrido等人0•我们使用广义线性模型在不同的时间间隔内进行回归分析,以建模使用模式。作为回归的输入,我们根据上下文的城市特征(例如兴趣点)对蜂窝塔进行标记。我们展示了一些流行的应用程序在城市中分散(超过随机空模型的预期),而其他应用程序呈现空间聚类,我们从全局和局部的角度进行分析。聚类出现在人口流动较高的地方,但并不是所有应用程序都出现在同样的地方。•我们展示了通勤在应用程序使用中的重要作用,无论是时间(高峰时段)还是交通基础设施(地铁站、高速公路、公交车走廊)。0最后,我们对这些结果进行讨论,从而揭示了从匿名和聚合的数字痕迹中可以推断出什么。这包括揭示被动用户的空间和时间习惯,即使用应用程序但不发布内容的用户;以及使用趋势与通勤的关系如何增强用户在最广泛的日常活动之一中的能力。02 方法和数据集0在本节中,我们介绍了描述性分析所采用的方法和数据集。02.1 什么:应用程序标记0这种分析的主要输入是每个移动电话基站的特定IP地址访问日志。因此,方法学的第一步是将每个IP地址映射到一个应用程序标签。应用程序标签包括特定的应用程序(例如WhatsApp、Facebook或Twitter)以及一般类别(例如游戏或电子邮件客户端)。在本文的其余部分,我们将两者都称为应用程序、应用或类别。给定一个IP地址,我们执行一个WHOIS1查询,并根据调用的输出决定一个标签。有三种情况可能发生:0(1)IP地址的所有者被识别为特定服务。在这种情况下,我们使用所有者的名称标记相应的地址。在这种情况下,发现了一些知名的应用程序(例如Facebook、Twitter、Spotify),以及本地网站、报纸、广播和电视服务。(2)IP地址的所有者是一家制作多个应用程序的公司(例如Apple、Microsoft或游戏公司)。在这种情况下,我们使用一个反向DNS查找服务2,返回指向(或曾指向)该IP地址的当前和先前的主机名。在这里,我们假设主机名揭示了应用程序的名称。例如,与形式为xxx.yyy.com的主机名相关联的IP地址与移动应用程序xxx相关(或在某些情况下是yyy)。通过这种方法,我们能够识别出Skype、WhatsApp、Apple Maps和Google Maps等应用程序。01 https://whois.icann.org 2https://www.robtex.com/0(3)IP地址托管在云服务中。在这种情况下,我们查询通常由Android应用程序访问的IP地址目录。这些目录已经被编制成研究隐私和地理数据泄露。一个例子是Eskandari等人创建的PDTLoc3存储库[10]。在这种情况下,由于它们依赖于外部映射服务,识别出与约会和汽车运输相关的应用程序。我们过滤掉在多个案例中出现的IP地址。02.2 空间自相关0我们试图了解城市背景,即城市的建筑环境和功能区域是否影响应用使用。这涉及测试应用使用是否倾向于在塔的空间布局中聚集。例如,人们预期照片分享应用主要在旅游区域附近的塔附近使用。由于这些区域的边界未知(因为它们可能没有官方定义),找到城市的拍摄区域,而不是特定的兴趣点,的一种方法是通过识别热点。空间聚类或热点是应用使用集中的区域,每个塔上的访问次数比其周围的塔多。例如,如果一个塔i有大量的访问量,但其相邻塔没有类似的行为,那么塔i不属于热点。通过全局和局部空间自相关,可以测量这一点。在空间分析中,有几个捕捉这种行为的空间自相关度量。这里我们使用Getis-Ord系列度量[23],G(global)和G*i(local),它们已经在交通事故[27]和社交媒体犯罪检测[19]等情境中使用。全局G度量的定义如下:0G =0其中w ij ( d)是塔i和j之间的二次距离衰减函数(根据定义,该权重是对称的);xj是研究中应用的总访问次数。该指标可以标准化,因此,z(G) >1.96(在正态分布中表示97.5%的百分位点)表示应用流量在空间上倾向于聚集,与随机分布的空模型相比;相反,z(G) <1.96(2.5%的百分位点)表示应用流量在空模型中比预期更分散,具有95%的置信度。我们预计,一些应用没有显著的空间聚类,这是由于它们的一般使用模式或受欢迎程度。对于具有显著z(G)的应用,我们将估计局部指标G* i,定义如下:0G* i =0G*i的制定衡量了应用使用在塔i及其周围的集中程度。作为其父指标,G*i也可以标准化,这允许识别具有显著更多应用访问的塔的聚类(具有95%置信度的z > 1.96)。由于z分数可能为负,这也0Track: 第八届国际位置与Web研讨会WWW 2018,2018年4月23日至27日,法国里昂The WWW (and an H) of Mobile Application Usage in the CityWWW ’18 Companion, April 23–27, 2018, Lyon, France12230包括应用访问低于预期的聚类(即冷点)。在这项工作中,我们只关注热点。02.3 何时和如何:时间行为0在这一部分,我们关注(1)应用使用信号的时间动态和(2)它与城市指标的关系。例如,两个空间聚类可能位于城市的不同区域,但它们可能共享特征,如社会经济指标或不同类型的兴趣点的可用性。为了评估这一点,我们对IP访问集合进行了一系列广义线性模型(GLM)[22]回归。特别地,该模型使用了负二项回归[13],该回归用于计数数据(例如访问次数)在过度离散的情况下(例如方差大于均值的情况)。在之前的工作中,我们使用这种方法来衡量城市中PokémonGo的影响[11],我们在这里将其用于应用访问:模型的规定如下:0log(E[Xa(b,t)]) = logα + β0 + βiXi0其中E[Xa(b,t)]是在时间窗口t内使用塔b连接到应用程序a的连接数的期望值。协变量Xi的定义如下:0•室内,地铁(二进制):塔b是否安装在室内(例如医院、商场、机构内)或地铁站内。室内和地铁塔保证用户在封闭空间的范围内。•公交车通道,高速公路,步行街(二进制):塔b是否位于距离交通基础设施不超过500米的地方,分别是公交车通道、高速公路和步行街。•主要街道,次要街道(二进制):塔b是否位于距离主要街道(根据OpenStreetMap的主要指示)500米以内的地方,或者次要街道(通常连接主要街道的街道)。•收入十分位数(有序):塔b所在区域的平均居民收入的十分位数。•绿地(二进制):塔b是否位于距离公园或公共广场不超过500米的地方,或者位于其中。•周末(二进制):t的日期是否为星期六或星期日。0请注意,协变量在分类变量的情况下使用虚拟编码。此外,模型暴露α表示连接到每个塔的用户数量,这允许控制人口在一天中的波动。通过在每个可用的时间窗口评估此模型,可以研究应用程序使用在一天中的变化(β0),以及协变量的影响。为了解释结果,我们可视化协变量的几率比(OR)在一天中的变化情况(expβi)。OR被解释为观察变量的变化比例。OR为1表示没有显著影响;OR>1表示正向变化(例如,OR=1.5表示增加50%),前提是其他因素保持不变。02.4 数据集0我们的研究分析了智利圣地亚哥市,该市拥有近800万居民,城市面积为867.75平方公里。它由35个独立的行政单位组成,称为“市政府”。0图1:智利圣地亚哥市各市政府的分级地图。每个市政府的颜色代表了平均年收入(以美元计)。0市政府。图1显示了圣地亚哥城市区域内的市政府,根据其平均年收入进行了划分。为了描述城市环境与应用程序使用之间的关系,我们使用了智利最大的电信公司TelefonicaChile的聚合深度数据包检查(DPI)数据集,该公司在2016年的市场份额为33%。DPI是一种用于网络数据的探针方法系列,可以识别网络数据包的多个属性,例如请求的IP地址和端口。特别是,我们的数据集来自HUAWEI SmartCare SEQAnalyst和NetProbe工具[14]中的DPI聚合,该工具旨在改善移动电话网络的服务质量。具体而言,NetProbe工具在单个记录中执行多个TCP流,多个HTTP事务,电子邮件事务或流缓冲区的聚合,并识别应用程序使用的初始和结束时间戳。该数据集包含从2016年7月27日到2016年8月10日期间使用TelefonicaSIM卡和数据计划的设备访问的前5000个IP地址的连接数。数据集的每一行包含以下信息:塔ID,日期,时间窗口,IP:端口,访问次数。5000个限制约占最常访问IP的80%。在城市的城区中,每个塔的连接数在10分钟的时间窗口内进行采样。这些阈值的设定是为了防止对可能导致用户识别的塔和IP对进行分析(例如,访问私人服务器)。为了给每个观测结果提供地理背景,我们使用Telefonica的塔网络(参见图2左上角)。值得注意的是,塔的分布在城市内并不均匀。实际上,人流量较大的城市区域往往具有更高的密度,以确保高质量的服务。0Track:第八届位置和Web国际研讨会WWW 2018,2018年4月23日至27日,法国里昂12240WWW '18 Companion,2018年4月23日至27日,法国里昂 E. Graells-Garrido等人0图2:圣地亚哥的示意图。左上方:Telefonica塔楼的空间分布。右上方:OpenStreetMap的高速公路和主要街道网络。左下方:OSM地铁(地面和地下)和公交车道网络。右下方:根据与OSM特征的距离进行标记的塔楼。0为了对城市环境建模,我们从OpenStreetMap(OSM)下载了移动网络和兴趣点数据,日期为2016年8月。4我们使用OSM根据塔楼与移动基础设施的不同元素的接近程度进行标记。图2对数据进行了视觉总结:右上方是城市的高速公路和主要街道;左下方是部分公共交通网络;右下方是根据城市特征进行标记的塔楼。为了对每个用户的应用程序访问次数进行近似,我们使用了一项先前研究的数据集[11],该数据集包含每个塔楼连接用户的数量。我们认为这是每个塔楼上人数的下限,因为它没有涵盖电信公司的全部市场份额。请注意,该数据集与DPI数据集的分析期间完全相同。03 结果0在本节中,我们描述了将定义的方法应用于研究数据集的结果。03.1 应用程序标记0在应用标记过程中,我们能够将1133个IP地址分配给一个应用程序/类别。表1显示了结果。除了移动应用程序,我们还将浏览器使用归类为04来源:http://download.geofabrik.de/south-america/chile.html0表1:数据集中发现的应用程序和应用程序类别。请注意,新闻和维基百科是指Web浏览器流量。0类别 应用程序数量0音乐 iTunes,Spotify,Soundcloud 33 视频Youtube,Netflix,CrunchyRoll 38 游戏Zynga,Blizzard,King,Pokémon Go,GameLoft 310出租车 Uber,Cabify,EasyTaxi 6 消息WhatsApp,Telegram,Line 735 地图 AppleMaps,Google Maps 7 新闻国际新闻(纽约时报,卫报等)和国内新闻媒体(ElMercurio,COPESA等)0邮件 Gmail,Yahoo-Mail,Outlook,企业邮件 990约会 Tinder,Grindr 5 Facebook - 84 Twitter - 41Instagram - 9 Wikipedia - 20特定内容作为一个类别。在新闻的情况下,由于我们对了解新闻消费感兴趣,而不是对特定媒体的访问进行分析,我们将它们归类为更广泛的新闻类别。关于未标记的IP地址,其中大部分属于国家ISP和DNS服务器、云服务提供商和分析/广告服务。每个识别的类别/应用程序的平均每日流量(及其标准差)如图3所示。可以看出,它们的每日流量分布呈现出不同的模式。例如,音乐应用似乎与通勤密切相关,因为其流量高峰的位置。还可以看到的另一个模式是某些类别的流量在一天内持续增加,这意味着人们主要在晚上下班后(或学习后)在家中玩游戏、约会(约会)和观看视频。消息和邮件呈钟形分布,这说明它们在工作/学习环境中以及远离家人和朋友时的使用情况。因此,这些结果支持我们的假设,即应用程序的使用在一天内存在很大差异。我们还需要看看这种使用在与城市建筑环境相关的空间和时间背景中是否也存在差异。03.2全局自相关和热点0我们在以下时间段进行了分析:工作日早上6点至9点(例如,上班时间),下午2:30至5:30(例如,下午活动,我们假设大多数人倾向于待在一个地方),晚上9点至12点(例如,家中或娱乐场所的夜晚);周末下午4点至9点(例如,周末活动,我们假设人们倾向于离开家)。在这些时间段,我们考虑了每个塔/应用程序对的累积流量。由于我们只关注特定应用程序,因此我们没有所有塔的流量,以及0跟踪:第八届位置和Web国际研讨会WWW 2018,2018年4月23日至27日,法国里昂12250城市中移动应用程序使用的WWW(和H)WWW '18 Companion,2018年4月23日至27日,法国里昂0图3:每个类别的IP地址的平均访问次数(及其标准差)的时间序列,根据执行时间进行了展示。偏差展示了每个时间序列的过度离散性。0在空间自相关的距离带上,我们定义了一个1公里的阈值和二次衰减,估计了每个塔之间的应用程序流量的相对比例,除了那些在地铁站附近的塔,因为地铁乘客与外部人群处于不同的环境中(请注意,我们在时间分析中考虑了这些塔)。图4显示了使用点图的全局相关度量G。可以看到城市中有分散的应用程序(z(G)<-1.96)。当高值排斥其他高值并且倾向于接近低值时,会出现这种分散行为,而当高值聚集在其他高值附近或低值聚集在其他低值附近时,会出现聚集行为。请注意,Facebook和视频始终是分散的,而地图仅在一个时间窗口内分散(工作日下午)。图中还出现了无自相关的情况,即应用程序没有自相关(|z(д)|<1.96)。这意味着邻居值是随机的。一些应用程序除了在特定的时间窗口内(工作日早晨)呈现这种行为:消息(工作日早晨z(G)>1.96),游戏和出租车(工作日下午z(G)>1.96)。其余的应用程序在大多数(或全部)空间自相关的时间窗口内呈现。我们将本地自相关分析集中在所有正值和显著的时间窗口z(G)上。图5显示了所有应用程序的检测到的热点。值得注意的是,由于这些地区人口流动密度高,因此一些应用程序在相似的位置上呈现空间聚类(请参考图2以了解手机塔的分布)。正如预期的那样,一些广泛传播的应用程序在整个城市范围内地理分布热点:0图4:每个应用程序的标准全局Getis-Ord空间自相关G的点图,分别在工作日(早晨、下午和晚上)和周末下午。灰色区域表示相对于空模型不显著的标准G值。正值表示空间聚类;负值表示空间分散。0例如,邮件、新闻、Twitter、视频通话、Instagram和音乐。游戏类别遵循相同的行为模式,但空间模式较为稀疏。相反,其他类别在特定区域内密集聚集,其使用更为普遍。其中包括消息和约会(商业和商务区域的高密度区域)或出租车(高收入地区的商业区和交通繁忙的地方)。维基百科似乎没有显示出直接可解释的模式。通过对热点分布的检查,一个有趣的结果是,虽然空间聚类往往出现在人口流动高的地区,但对于所有应用程序来说并不相同。例如,新闻覆盖的区域比其他应用程序更广泛。此外,图5显示了热点在一天中的变化,其中一些热点仅在特定的时间窗口内显著。例如,消息应用程序主要在早晨注册热点,相反,约会应用程序在多个时间窗口内覆盖,如市中心和城市最大购物中心附近的一组类似圆形的塔楼所示。03.3回归结果0我们在早上6点到晚上12点之间的每个10分钟时间间隔内评估了回归模型。作为暴露参数,我们计算了连接到每个塔的人数,如前所述0研讨会:第八届位置和Web WWW 2018国际研讨会,2018年4月23日至27日,法国里昂12260WWW '18 Companion,2018年4月23日至27日,法国里昂,E. Graells-Garrido等0图5:圣地亚哥的点地图。每个地图根据本地Getis-Ord G * i指标显示一组应用程序热点。每个空间聚类根据其相应的时间窗口进行着色。0在[11]中完成。这样可以根据连接到每个塔的人数的下限调整每个塔的应用程序流量。图6显示了每个应用类别的β系数的摘要。为了简化结果的探索,我们应用了层次聚类。找到的三个聚类是:(I)音乐,邮件,视频,游戏;(II)Instagram,Twitter,维基百科,视频通话,地图,约会,出租车;(III)消息,Facebook,新闻。图6中的时间序列根据应用程序聚类进行着色。然而,对图表的手动检查没有显示出明显的差异。相反,因素聚类分析显示了它们之间的明显语义分离。两个聚类是:(A)是周末吗?靠近次要街道,靠近主要街道,截距,靠近行人街道;(B)靠近公交走廊,靠近绿地,室内,收入十分位数,靠近高速公路,地铁内。一方面,聚类A是从城市角度看的城市基础设施(例如,“这是一条主要街道”)。另一方面,聚类B是指地点和交通方式。由于空间限制,我们在这里总结了这些结果的主要发现,重点关注每个聚类的一些因素。0在聚类A中:总体而言,截距捕捉到应用程序访问的一般模式(参见图3),包括音乐,它遵循与通勤相关的分布,高峰期在劳动时间周围。周末在所有应用程序中似乎有类似的行为-除了约会,它遵循相反的趋势,以及出租车,它在早上和下午呈现脉动但显著的正效应。街道因素(主要街道,次要街道,行人)呈现混合效应:一些应用程序对它们有正效应,而对其他应用程序则没有或负效应,反映了人们如何使用街道(例如,消息在主要街道上的流量几乎增加了10%,可能是因为主要街道上有更多的人)。行人街道与应用程序流量总体上没有或负相关,除了约会应用程序(例如,行人街道包含良好的会面点)。在聚类B中,地铁因素显示与通勤时间相关的分布。然而,这种行为并不总是对称的。例如,音乐应用程序在早上高峰期的流量增加了400%,而在下午高峰期增加了300%。高速公路通常与应用程序有更高的关联,除了两个具有更多文本的应用程序:维基百科和新闻(对于这两个类别,效应为零)。我们预期在Instagram等应用程序中看到绿地的正效应,但发现相反的情况。在室内环境方面,效应通常为负,除了邮件在特定时间。公交走廊对所有应用程序都有正效应,除了出租车,约会,视频通话和维基百科等一些无效情况。人们可能预期其行为与地铁因素类似,但乘坐公交车的乘客可能具有不同的特征。最后,区域收入的影响很小(每个收入十分位数的增加最多增加2%的流量),这意味着它没有通过城市环境显示出强大的互动,可能是由于流动人口的影响(来自不同的城市区域)。0研讨会:第八届位置和Web WWW 2018国际研讨会,2018年4月23日至27日,法国里昂12270城市中移动应用程序使用的WWW(和H)WWW '18 Companion,2018年4月23日至27日,法国里昂0图6:每个应用程序在分析中的因素的时间序列的赔率比(效应大小)矩阵。时间序列周围的灰色区域表示每个因素的95%置信区间,如果不与1相交,则表示显著。因素和应用程序在矩阵中使用层次聚类进行排序(颜色表示应用程序聚类)。0这两个类别的效果为零)。我们预期在Instagram等应用程序中看到绿地的正效应,但发现相反的情况。在室内环境方面,效应通常为负,除了邮件在特定时间。公交走廊对所有应用程序都有正效应,除了出租车,约会,视频通话和维基百科等一些无效情况。人们可能预期其行为与地铁因素类似,但乘坐公交车的乘客可能具有不同的特征。最后,区域收入的影响很小(每个收入十分位数的增加最多增加2%的流量),这意味着它没有通过城市环境显示出强大的互动,可能是由于流动人口的影响(来自不同的城市区域)。04 讨论0我们对城市中应用程序使用的空间和时间模式进行了描述性分析。其中一些结果是预期的,由于我们限制在最受欢迎的IP地址,但其他结果可能是违反直觉的,比如区域收入的小效应0或者缺乏绿地附近有趣效果。尽管应用背景不是一个新的话题,但据我们所知,在这个规模上还没有完成,使用了一个主要电信公司的全部流量,以及一个大城市中最受欢迎的应用程序。一个有趣的方面是许多应用程序分散在城市各地(同时仍然保持一定程度的本地聚类),但它们被认为是具有偏见用户群的应用程序。这种情况的一个例子是Twitter,其中只有少数用户参与[3]。根据我们的结果,Twitter在生成内容的人群方面可能存在偏见,但被动用户可能没有那么偏见,因为他们存在于城市的许多地区。我们观察到“热点”位置在一天中会发生变化,一些因素会影响应用程序流量。对于应用程序提供商来说,这意味着同一应用程序内的信息需求可能会根据上下文而变化。我们强调的一个重要上下文是通勤。通勤是最常见的日常活动之一,同时也是最不受欢迎的活动之一[15]。然而,并非所有通勤者都受苦,一些人0Track:第八届位置和Web国际研讨会WWW 2018,2018年4月23日至27日,法国里昂5http://geopandas.org12280WWW '18 Companion,2018年4月23日至27日,法国里昂,E. Graells-Garrido等人0甚至可以说“到达目的地就是一半的乐趣”[21]。装备时间的概念[30]意味着,无论交通方式如何,通勤者在旅行时都有几种选择利用时间。虽然过去已经研究过这个问题,但智能手机所提供的可能性尚未得到探索-这是我们的研究通过与通勤相关的因素以及它们与应用程序流量之间的主要正相关性所展示的。鉴于通勤时间正在增加[17],这是一个值得研究的相关主题,可能对用户的生活产生影响。05 相关工作0移动电话网络中最常见的数据集是扩展和通话详单记录(X/CDR),这些数据集已经得到了广泛的研究(参见一份调查[4])。事实上,我们的辅助数据集之一由XDR数据组成[11]。但据我们所知,没有其他研究分析与城市背景相关的应用程序的深度数据包检查数据。话虽如此,我们的描述性分析在意图方面并不新颖。与我们最相似的研究是[5],但规模和重点不同-该研究依赖于用户在其手机上安装应用程序。另一种选择是进行原地研究,这提供了定性的见解,但规模更小[7]。因此,尽管这个想法已经被探索过,但它是以不同的重点(用户)和规模(数千用户)进行的,而我们分析了整个城市的应用程序流量,使用了该国最大的电信公司的数据集。另一个来源是移动传感器数据和移动应用程序日志,这些数据已被用于了解应用程序的使用情况,特别是预测用户将要打开的下一个应用程序[2,9]。我们的重点不同,因为我们正在研究聚合行为及其与城市背景的关系。实际上,在我们的设置中,无法个别化用户。我们使用的DPI数据集侧重于服务质量。在设备驱动的环境中获得这些测量数据是昂贵的,但在这个领域已经有了努力,比如[6]。这一研究方向侧重于移动电话网络状态而不是用户的信息需求。城市背景以前已经被探索过,特别是在通勤[20]、土地利用和功能区[12,28]、城市主义[8]以及城市的感受[1,24]或记忆[29]方面。在这项工作中,我们提出了通过居民使用的应用程序来表征城市的另一种方式,这提供了对塑造(或被塑造)城市的另一种视角。06 结论0我们对移动电话应用程序流量与用户所在城市之间的关系进行了描述性分析。我们关注以下几个方面:最受欢迎的应用程序有哪些;这些应用程序在何地和何时产生流量;以及用户周围的城市环境是如何的。输入数据集是来自智利最大电信公司的深度数据包检查,结合OpenStreetMap的数据,我们进行了分析。我们发现,城市中有几个应用程序呈现出分散在各处的“热点”,而城市环境在基础设施方面能够理解日常活动和应用程序使用之间的关系。0我们的工作的一个局限性是我们只关注最受欢迎的应用程序。可能还有其他应用程序,用户群体更为分散(例如,体育应用程序),它们可能仍然受到城市环境的影响/影响,并且可能在收入等因素上显示出相关差异。然而,为了解决这个局限性,应该制定一种与电信公司聚合数据的策略,以便在不放弃隐私问题的情况下分析更多数据。我们假设如果考虑更多的应用程序,结果可能会有一定的变化,即找到的模式应该保持不变。这些模式的程度留待未来工作。最后,一个重要的方面是隐私。我们表明,即使应用程序流量可能是加密和聚合的,DPI数据仍然能够揭示城市上的使用模式,尽管这些模式存在一定的限制。0致谢。我们感谢Telefonica Research的Pablo GarcíaBriosso提供数据访问权限,以及NIC Chile的JavierBustos就IP标记进行有益的讨论。我们感谢在分析中使用的以下库:PySAL [25],statsmodels [26],geopandas [5]和Project Jupyter[16]。用于示意图和分析的部分数据归功于OpenStreetMap的贡献者。0参考文献0[1] Luca Maria Aiello,Rossano Schifanella,Daniele Quercia和FrancescoAletta。2016。Chatty maps:从社交媒体数据构建城市声音地图。开放科学3,3(2016),150690。[2] Ricardo Baeza-Yates,Di Jiang,Fabrizio Silvestri和BeverlyHarrison。2015。预测您将要使用的下一个应用程序。在第八届ACM国际网络搜索和数据挖掘会议论文集中。ACM,285-294。[3] Ricardo Baeza-Yates和DiegoSaez-Trumper。2015。群众的智慧还是少数人的智慧?用户内容生成的分析。在第26届ACM超文本和社交媒体会议论文集中。ACM,69-74。[4] Vincent D Blondel,AdelineDecuyper和Gautier Krings。2015。移动电话数据集分析结果调查。EPJ数据科学4,1(2015),1。[5] Matthias Böhmer,Brent Hecht,Johannes Schöning,AntonioKrüger和GernotBauer。2011。与愤怒的小鸟,Facebook和Kindle一起入睡:关于移动应用程序使用的大规模研究。在第13届人机交互与移动设备和服务国际会议论文集中。ACM,47-56。[6]Javier Bustos-Jiménez,Gabriel Del Canto,Sebastián Pereira,Felipe Lalanne,JoséPiquer,Gabriel Hourton,Alfredo Cádiz和VictorRamiro。2013。AdkintunMobile如何测量世界。在2013年ACM普适计算会议附刊论文集中。ACM,1457-1462。[7] Juan Pablo Carrascal和KarenChurch。2015。关于移动应用和移动搜索交互的现场研究。在第33届ACM人机交互计算机系统年会论文集中。ACM,2739-2748。[8] Marco De Nadai,JacopoStaiano,Roberto Larcher,Nicu Sebe,Daniele Quercia和BrunoLepri。2016。伟大的意大利城市的生与死:基于手机数据的视角。在第25届国际万维网会议论文集中。国际万维网会议筹委会,413-423。[9] Trinh Minh Tri Do和DanielGatica-Perez。2014。在日常生活中使用智能手机预测下一个位置和应用程序。Pervasiveand Mobile Computing 12(2014),79-91。[10] Mojtaba Eskandari,BrunoKessler,Maqsood Ahmad,Anderson Santana de Oliveira和BrunoCrispo。2017。分析移动应用程序中个人数据传输的远程服务器位置。隐私增强技术2017年论文集,1(2017),118-131。[11] Eduardo Graells-Garrido,Leo Ferres,DiegoCaro和LoretoBravo。2017。《口袋妖怪Go》对城市脉搏的影响:一项自然实验。EPJ数据科学6,1(2017),23。[12] Eduardo Graells-Garrido,Oscar Peredo和JoséGarcía。2016。通过天线映射感知城市模式:以智利圣地亚哥为例。传感器16,7(2016),1098。[13] WilliamGreene。2008。负二项模型的功能形式。经济学通讯99, 3(2008),585-590。0Track: 第八届国际位置和网络研讨会WWW 2018, 2018年4月23日至27日,法国里昂12290城市中移动应用使用的WWW(和H)WWW '18 Companion, 2018年4月23日至27日,法国里昂0[14] HUAWEI. [n. d.]. Smartcare. http://www.webcitation.org/query?url=http3A%2F%2Fwww1.huawei.com%2Fenapp%2F9%2Fhw-u_256445.htm&date=2018-02-05. ([n.d.]). 访问日期:2018年2月5日。[15] Daniel Kahneman, Alan B Krueger, David ASchkade, Norbert Schwarz和Arthur A Stone. 2004.一种描述日常生活体验的调查方法:日重建方法。科学306, 5702 (2004), 1776–1780. [16]Thomas Kluyver, Benjamin Ragan-Kelley, Fernando Pérez, Brian E Granger, MatthiasBussonnier, Jonathan Frederic, Kyle Kelley, Jessica B Hamrick, Jason Grout, SylvainCorlay等. 2016. Jupyter Notebooks-一种可重复计算工作流的发布格式。ELPUB. 87–90.[17] David Levinson和Yao Wu. 2005.重新审视理性定位器:旅行时间是否仍然稳定?交通32, 2 (2005), 187–202. [18] KevinLynch. 1960. 城市的形象。第11卷。麻省理工学院出版社。[19] Nick Malleson和MartinA Andresen. 2015.在犯罪率计算中使用社交媒体数据的影响:热点的转移和空间模式的变化。制图与地理信息科学42, 2 (2015), 112–121. [20] Graham McNeill, Jonathan Bright和Scott A Hale.2017. 从地理定位的Twitter数据估计当地通勤模式。EPJ数据科学6, 1 (2017), 24. [21]Patricia L Mokhtarian和Ilan Salomon. 2001.旅行需求的派生程度如何?一些概念和测量考虑。交通研究第A部分:政策与实践35, 8(2001), 695–719. [22] John A Nelde
下载后可阅读完整内容,剩余1页未读,立即下载
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 电力电子系统建模与控制入门
- SQL数据库基础入门:发展历程与关键概念
- DC/DC变换器动态建模与控制方法解析
- 市***专有云IaaS服务:云主机与数据库解决方案
- 紫鸟数据魔方:跨境电商选品神器,助力爆款打造
- 电力电子技术:DC-DC变换器动态模型与控制
- 视觉与实用并重:跨境电商产品开发的六重价值策略
- VB.NET三层架构下的数据库应用程序开发
- 跨境电商产品开发:关键词策略与用户痛点挖掘
- VC-MFC数据库编程技巧与实现
- 亚马逊新品开发策略:选品与市场研究
- 数据库基础知识:从数据到Visual FoxPro应用
- 计算机专业实习经验与项目总结
- Sparkle家族轻量级加密与哈希:提升IoT设备数据安全性
- SQL数据库期末考试精选题与答案解析
- H3C规模数据融合:技术探讨与应用案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)