没有合适的资源?快使用搜索试试~ 我知道了~
9670留下还是离开:初期城市移民的流失预测0浙江大学杨洋yangya@zju.edu.cn0浙江大学刘宗涛tomstream@zju.edu.cn0科罗拉多大学博尔德分校陈浩chenhao@chenhaot.com0浙江大学吴飞wufei@zju.edu.cn0浙江大学庄跃婷yzhuang@zju.edu.cn0中国电信李亚峰liyafeng@chinatelecom.cn0摘要0在中国,有2.6亿人迁往城市实现他们的城市梦想。尽管这些移民在快速城市化过程中扮演着重要角色,但他们中的许多人最终无法安定下来并离开了城市。因此,移民的融入过程对学者和决策者来说是一个重要问题。在本文中,我们以上海为例,研究移民在他们的头几周的行为,特别是他们的行为与早期离开的关系。我们的数据集包括一个完整的一个月的数据集,其中包括5400万用户之间的698个电信日志,以及上海18000个房地产的新颖且公开可用的房价数据。我们发现最终提前离开的移民在他们的头几周内往往不会发展多样化的联系,也不会在城市中四处移动。他们的活动区域的房价也比留下的移民高。我们制定了一个流失预测问题,根据移民在头几天的行为来确定他是否会离开。随着我们包括更多天的数据,预测性能得到了提高。有趣的是,当使用相同的特征时,仅使用头几天的数据训练的分类器已经和使用完整数据训练的分类器一样好,这表明性能差异主要在于特征之间的差异。0CCS概念0• 应用计算 → 法律、社会和行为科学;• 信息系统 →社交网络;数据挖掘;• 计算方法学 → 人工智能;0关键词0城市移民,移民融入,流失预测0ACM参考格式:杨洋,刘宗涛,陈浩,吴飞,庄跃婷和李亚峰。2018年。留下还是离开:初期城市移民的流失预测。在WWW2018:2018年万维网会议,2018年4月23日至27日,法国里昂。ACM,纽约,美国,10页。https://doi.org/10.1145/3178876.31861440本文在知识共享署名4.0国际许可证(CC BY4.0)下发表。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW2018,2018年4月23日至27日,法国里昂,©2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.318614401 引言0在像洛杉矶这样的大城市里,你可以花很多时间被成千上万的人包围,但你却感觉自己像个外星人或者幽灵之类的东西。-Morley0数百万人迁往城市实现他们的城市梦想,从追求潜在的工作机会到拥抱开放的动态文化[29]。这些移民通过构成城市劳动力的重要组成部分,加强了城市的政治和经济地位,并将多元文化带到了城市。尽管移民带来了巨大的好处,但政策制定者和学者们已经充分认识到快速迁移的速度带来了巨大的挑战[3,29]。隔离和社会不平等已成为移民过程中的重要问题。例如,移民可能定居在有健康危害的贫民窟[6];他们往往工作过度但薪酬不足[40];他们的孩子可能被排除在学校之外[21]。这些问题在中国可能更加突出,中国是一个城市化速度前所未有的发展中国家[3]。因此,了解移民融入城市社会的问题是一个重要的研究问题。在本文中,我们关注移民融入过程的初期阶段,因为移民的第一步对于他们最终的融入至关重要。尽管初期阶段的重要性[6,10,37],现有的研究大多依赖于调查数据,很少有细粒度的数据来研究这一阶段。我们以上海为例,基于电信数据研究两个方面:他们如何发展初期的个人网络以及他们如何在城市中移动。特别是,我们的数据集使我们能够探索为什么一些移民决定提前离开。这个是否留在新城市的问题类似于关于用户是否会留在在线社区的研究,也称为流失预测[2,13,14,28,34,47],但由于线下搬迁需要大量努力,所以呈现出更复杂的动态。本文的组织和亮点。我们在中国最大的城市之一上海进行了一次大规模的定量探索,研究移民到达上海后的头几周。我们使用了中国第三大移动服务提供商中国电信提供的一个上海一个月的完整电信元数据。我们的数据集包括约5400万用户之间的约6.98亿通话日志。此外,我们收集了上海超过2万个房地产的房价数据,以研究房价在移民融入中的作用。我们的数据集的详细信息在第2节中介绍。我们能够确定中国电信用户是否0会议:Web和社会WWW 2018,2018年4月23日至27日,法国里昂9680是移民,因为:1)移民需要在上海申请本地电话号码,以避免长途费用;2)临时访客由于繁琐的申请流程很少申请本地电话号码;3)申请电话号码需要个人身份证明,其中包含出生地信息。我们使用在上海出生的本地人作为比较点来了解融入过程。我们还区分了离开的移民(在搬到上海后的三周内离开城市的新移民)和留下的移民(在第一个月成功留下的新移民)。我们的研究结果表明,约有4%的新移民最终提前离开。这项工作基于我们之前的工作[55],该工作使用相同的电信数据集探索新移民、定居移民和本地人的不同特征。主要区别在于预测新移民早期离开的流失预测任务以及住房价格信息和电信元数据的新颖组合。我们首先在第3节中探讨了本地人、离开的移民和留下的移民在移动通信网络和地理位置方面的差异。随时间变化的动态模式使我们能够研究第一个月的融入过程。总体而言,在这段时间内,本地人在我们提出的所有特征上都是稳定的,而尽管时间很短,但留下的移民和离开的移民都经历了显著的变化。然而,留下的移民和离开的移民的变化可能发生在不同的程度上,甚至有时发生在不同的方向上。具体而言,我们发现新移民在最初的几周内发展多样化的社交联系非常重要。例如,与更多省份有联系的移民更有可能留下。至于地理位置,离开的移民在地理活动方面不太活跃,并且在更昂贵的住房区域移动,而留下的移民随着时间推移在更便宜的区域移动。这一观察结果表明,新移民在大城市中找到自己的活跃区域非常重要。在我们的数据集的最后一周,留下的移民仍然与本地人有所不同,这表明一个月远远不足以让移民融入新城市。然后我们在第4节中通过制定预测任务来研究在多大程度上可以区分这三个群体。由于类别不平衡,我们研究了两个预测任务:区分新移民和本地人,以及区分离开的移民和留下的移民。我们提出的特征在这两个任务中都很有效,并且明显优于随机猜测。随机森林是表现最好的分类器,表明非线性的重要性。我们将重点分析第二个任务,因为它有望为发现融入过程困难的新移民提供个性化服务。随着我们包含跨越更多天数的特征,预测性能得到改善。这种性能改善主要来自于更好的特征质量,因为仅使用最初几天训练的分类器在测试时使用相同的特征集可以与使用完整数据训练的分类器表现一样好。我们的工作旨在理解移民的(非)融入。这个具有挑战性的问题必然需要来自各种学科的努力,包括人类学、经济学和社会学。因此,我们在第5节提供了相关工作的概述,并在第6节提供了一些结论性的讨论。09月1日 9月30日 9月5日 9月19日 9月25日0离开的移民0留下的移民0未到达的被过滤的“最后一周”0图1:我们如何定义离开移民和留下移民的示意图。前几天用于筛选新移民。由于最后几天与国庆节重叠,我们使用9月19日至9月25日作为最后一周,以确保离开的移民是提前离开而不是暂时旅行。02 实验设置0在本文中,我们的主要数据集是2016年上海使用中国电信的移动用户之间的完整电信记录。在介绍我们的数据集和实验设置之前,我们强调中国的几个电信事实。首先,由于长途通话费用,获得本地号码是新移民的第一步整合,我们能够区分一个电话号码是上海的本地号码还是来自其他地区。其次,由于获得电话号码并非易事,需要个人身份识别,临时访客获得本地号码并不常见。个人身份识别允许我们提取一个人的出生地。因此,我们可以识别那些刚获得本地号码但原本不是上海人的人。值得注意的是,中国电信在2017年9月取消了长途通话费,这使得我们的电信元数据在理解移民整合方面具有独特和有价值的意义。我们的工作洞察力可以在不透露个人身份信息的情况下用于分析电信模式。02.1 初几有多少移民离开?0电信数据集。我们的电信数据集由中国第三大移动服务提供商中国电信提供。该数据集跨越2016年9月1日至2016年9月30日一个月的时间。它包括约5400万用户之间的超过6.98亿通话记录。对于每个用户,我们通过与电话号码绑定的个人身份识别获取她的年龄、性别和出生地等人口统计信息。通话记录中的每个条目包含呼叫者的号码、被呼叫者的号码、开始时间和结束时间。此外,对于每个通话,我们有相应电信塔的GPS位置,该位置被广泛用于在通话期间近似用户位置。我们的数据集经过中国电信的匿名处理,以保护用户隐私。在本文中,我们只报告平均统计数据,不透露任何个人可识别信息。本地人、居住移民和离开移民。在这项工作中,我们只考虑拥有本地电话号码的用户。我们将用户分为以下几类:0我们将与同一用户ID对应的号码合并为一个,以考虑拥有多个号码的用户。我们还过滤了约15000个异常用户。0论文主题:Web和社会WWW 2018,2018年4月23日至27日,法国里昂。9690(每平方米10,000元) 0 4 8 120图2:上海房价分布。0根据他们的出生地和通话历史,我们将数据集中的用户分为三组。我们将在上海出生的人称为本地人。我们将在上海以外出生并且在数据集的前4天没有通话记录的人称为新移民。我们本文的重点是了解新移民的行为模式,这有助于我们理解移民的整合过程。我们的第一个问题是在最初几周有多少新移民离开了,尽管他们努力获得了本地号码。我们确定那些在数据集的最后一周之前就离开了上海的新移民。为了确保人们没有暂时离开,我们省略了所有用户的最后5天数据,因为国庆节假期接近那个时间,可能会导致临时旅行。也就是说,我们将数据集的最后一周定义为9月19日至9月25日。如果新移民在前两周(9月5日至9月18日)活跃,并且自9月19日以来没有记录,我们将其视为离开的移民;如果他们在所有三周都活跃,则视为留下的移民。图1给出了一个示例。根据我们的定义,我们确定了180万本地人、3.4万名留下的移民和1.5千名离开的移民。这意味着约4%的新移民在最初几周离开了上海,这对城市政策制定者来说是一个有用的统计数据,并且补充了现有的基于调查的方法。据我们所知,目前没有公开的官方报告提到这个统计数据。将用户分为本地人、留下的移民和离开的移民是我们计算框架的基础。02.2 房价数据0经济理论表明,个体迁移取决于不同地区的房价[45]。为了验证和进一步研究我们数据集中的这一点,我们使用了安居客2的房价数据,这是一个用于房地产销售和租赁的在线平台。我们的数据涵盖了2017年上海约18K个房地产。结合GPS位置,我们计算了特定用户的家庭、工作地点和其他活动区域的平均房价。总体而言,上海的房价范围很广(图2)。例如,在上海中心的黄浦区,平均房价已经超过了10万元(约合15K美元)每平方米。与此同时,其他地区如闵行的房价低于3万元每平方米。0高度,可能对应于欺诈者、送货人员或客户服务,根据中国电信提供的用户类型列表。2https://shanghai.anjuke.com/ 3 这些数据是公开可用的:http://yangy.org/data.html0每平方米。我们数据集中的平均房价为54.3K,标准差为29.4K。02.3 计算框架0从一个人的通话记录中,我们可以提取一个移动通信网络,这可以合理地近似一个用户的社交网络以及她在搬到新城市后如何与他人建立联系。我们还可以从我们的数据中获取用户的地理位置,这对于了解移民在新城市的活动区域也很有价值。然后,我们制定了以下符号,这些符号与我们之前的工作[55]一致。移动通信网络。根据通话记录,我们建立了一个按时间段分组的移动通信网络。形式上,我们为时间段t建立了一个有向图Gt = (Vt,Et),其中Vt是用户集合,每个有向边eij∈E表示在该时间段内vi呼叫vj(vi,vj∈Vt)。这里t可以指一周或几天。请注意,只有Vt中的一部分用户被标记为本地人、逗留移民或离开移民。地理位置。对于一个人打的每个电话,我们可以从相应的电信塔获取GPS位置。然后,我们按时间段对一个人的位置进行分组。我们收集一个人在时间段t内打电话的所有位置,并将这个有序的位置列表称为用户v的Lt v =[l1,...,ln],其中li包含纬度和经度。由于它们都是中国电信的用户,所以我们对于带有标签的用户有地理位置。03 移民的(非)整合0在本节中,我们研究了移民在搬到新城市后的头几周的整合过程,以及一些提前离开的移民的分解过程。为了做到这一点,我们从人们的移动通信网络和地理位置考察了一系列因素。我们提出了四种类型的特征:自我网络属性、通话行为、地理模式和房价信息。为了理解整合过程,我们以本地人作为比较点。因此,我们研究了本地人、逗留移民和离开移民在每周的差异以及特征随时间的演变。在这里,我们重点解释每个特征本身的动机和演变模式,并将在第4节中检验它们的预测性能。有关每个特征的计算细节,请参阅附录中的表4。请注意,我们在第3周没有离开移民的特征值,因为他们在第三周离开了。03.1 自我网络属性。0我们首先研究个体在搬到新城市后的头几周如何建立新的联系和维持现有的关系。我们基于一个人的自我网络提取特征,即由一个人和她的所有邻居组成的子图[19]。在构建自我网络时,我们将电信网络视为一个无向图,因此一个人v的每个邻居要么呼叫v,要么接收v的呼叫。如图4所示,我们研究了v和她的朋友的特征,如人口统计学、出生地和与其他人的联系。图3呈现了结果。总体而言,0Track: Web and Society WWW 2018, April 23-27, 2018, Lyon, France3540455040455055468101234567303540450.20.30.00.060.080.100.120.40.50.60.79700第一周 第二周 第三周0同龄(%)0(a) 同龄联系比例。0第一周 第二周 第三周0同性别(%)0(b) 同性别联系比例。0第一周 第二周 第三周0度0(c) 度。0第一周 第二周 第三周0联系人度0(d) 联系人平均度。0第一周 第二周 第三周0城市人(%)0(e) 城市人比例。0第一周 第二周 第三周 0.10省份多样性0(f) 省份多样性。0第一周 第二周 第三周0(g) 聚类系数。0第一周 第二周 第三周0沟通多样性0(h) 沟通多样性。0图3:当地人、留下的移民和离开的移民在前三周内建立社交联系的方式。y轴表示基于个体自我网络的特征值,x轴表示时间。0男性0年龄:310上海0北京0杭州0图4:以特定用户v为中心的自我网络示例。我们研究其自我网络结构随时间的演变,以及新移民的演化模式与其决定在城市定居或离开之间的相关性。0我们发现,随着时间的推移,当地人的自我网络特征比新移民更加稳定。人口统计学。社会同质性表明,人们倾向于与与自己相似的人建立联系[35]。如图3(a)所示,当地人有一个稳定的与同龄朋友的比例(约为0.41),而离开的移民有更大的比例,留下的移民有较小的比例。我们看到离开的移民和留下的移民的结果都越来越接近当地人,这表明了移民的融入过程。就与性别有关的情况来看(图3(b)),当地人表现出最强的同性别联系比例。相比之下,在第一周,同性别联系比例较高的新移民更倾向于离开,而与不同性别有更多朋友的新移民更倾向于留在上海。度。一个人的度反映了她的联系人数量(图3(c)(d))。正如预期的那样,当地人及其联系人的度最大。在第一周,留下的移民、离开的移民以及他们的朋友的联系人数量非常相似。然而,在第二周,留下的移民比离开的移民建立了更多的联系。这种更好的联系也适用于留下的移民在第二周建立的联系。联系的多样性。最后,我们从三个方面考察一个人的联系的多样性:联系人的出生地、聚类系数和联系人的沟通多样性。我们分析了联系人的出生地,包括来自同一个家乡的人的比例以及不同省份之间的多样性。离开的移民更依赖于来自同一个家乡的人,而留下的移民则从更少的城市人中开始,并在融入过程中略微增长(图3(e))。请记住,当地人出生在上海,所以他们在这个图中没有显示出来。为了进一步研究这一点,我们将一个人v的省份多样性定义为v的联系人中出生省份分布的熵,即−∑xp(x)log2px,其中px是v的一个联系人出生在省份x的概率。图3(f)再次显示,当地人随着时间的推移相当稳定,而留下的移民拥有最多样化的联系人群体和0在性别上最强的同质性,即当地人与相同性别的联系人比例最大。相比之下,在第一周具有强烈性别同质性的新移民倾向于成为离开的移民,而与不同性别有更多朋友的新移民倾向于留在上海。度。一个人的度反映了她的联系人数量(图3(c)(d))。正如预期的那样,当地人及其联系人的度最大。在第一周,留下的移民、离开的移民以及他们的朋友的联系人数量非常相似。然而,在第二周,留下的移民比离开的移民建立了更多的联系。这种更好的联系也适用于留下的移民在第二周建立的联系。联系的多样性。最后,我们从三个方面考察一个人的联系的多样性:联系人的出生地、聚类系数和联系人的沟通多样性。我们分析了联系人的出生地,包括来自同一个家乡的人的比例以及不同省份之间的多样性。离开的移民更依赖于来自同一个家乡的人,而留下的移民则从更少的城市人中开始,并在融入过程中略微增长(图3(e))。请记住,当地人出生在上海,所以他们在这个图中没有显示出来。为了进一步研究这一点,我们将一个人v的省份多样性定义为v的联系人中出生省份分布的熵,即−∑xp(x)log2px,其中px是v的一个联系人出生在省份x的概率。图3(f)再次显示,当地人随着时间的推移相当稳定,而留下的移民拥有最多样化的联系人群体和0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂51015localstayingleaving115120125130135140localstayingleaving20406080100localstayingleaving1162024localstayingleaving9710第1周 第2周 第3周0外呼-内呼0(a) 外呼和内呼之间的差异。0第1周 第2周 第3周0通话持续时间(秒)0(b) 通话的平均持续时间。0第1周 第2周 第3周0当地持续时间(秒)0(c) 对当地人进行的通话的平均持续时间。0第1周 第2周 第3周0互相通话的比例(%)0(d) 互相通话的比例。0图5:当地人、停留移民和离开移民的通话行为。0离开移民的通话行为最低。这表明与来自不同地区的人联系可能有助于在新城市中融入。聚类系数衡量了自我网络中三角形的比例,并指示一个人的联系人彼此认识的可能性。从图3(g)中,我们可以看到离开移民的聚类系数最大,而当地人最低。这表明在搬到大城市后,新移民从一个紧密的群体开始可能会阻碍他们的融入。最后,受Eagle等人提出的社会多样性的启发,我们定义通信多样性作为Shan-non熵的函数,以量化一个人将通话次数分割为0她的朋友,即−�jp ij log(p ij)loд(ki)。这里ki是出度,pij是概率,定义为pij=nij�lnil,其中nij是用户vi拨打给用户vj的通话次数。图3(h)的结果再次表明,建立更多多样化的联系可能有助于新移民融入上海这样的大城市。03.2 通话行为0对于用户的通话行为,我们首先在图5(a)中检查一个人的外呼和内呼之间的差异。正值表明我们数据集中的三组人更有可能打电话而不是接电话。我们还可以从图中看到,新移民的差异比当地人更大。打更多的外呼可能意味着新移民正在建立初步的联系。随着时间的推移,停留移民的外呼次数增加,而离开移民的外呼次数减少。需要注意的是,停留移民的这一特征与当地人的差异越来越大,这表明两周对于停留移民来说对融入当地人来说太短了。通话的持续时间可能反映了两个人之间关系的强度。自然而然地,亲密的朋友倾向于通话时间更长,而陌生人更有可能进行快速检查。图5(b)显示,停留移民的通话时间比当地人和离开移民要长得多。一个可能的解释是停留移民需要更多时间来适应新城市的生活。由于缺乏这样的关系,离开移民无法融入上海。与此同时,上海的当地人在与其他当地人通话时通话时间显著更长,0新移民在抵达后的前三周内不会与当地人建立牢固的关系。最后,我们调查了互相通话的比例(即用户之间的双向关系)。如图5(d)所示,当地人更有可能与他们的联系人建立互相关系,而停留移民的互相通话比例较低,离开移民的互相通话比例最低。这再次表明新移民的个人网络仍处于初期阶段。在第2周,停留移民更有可能建立互相关系,而离开移民的可能性降低。03.3 地理模式0我们使用位置来衡量移民的流动性。给定用户v的地理位置Ltv={l1,∙∙∙,ln},它按时间顺序排列,并包含用户v在时间段t内的位置的纬度和经度,我们可以从三个不同的方面衡量用户的活动区域。首先,我们测量用户移动的总距离,即|i|li−li−1|(图6(a))。其次,我们计算0|L_t(v)|0平均半径定义为v距离其质心的平均距离0|l - l_CM|0|L_t(v)|(图6(b))。同样地,我们定义最大半径为v距离其质心的最大距离,即max l ∈ L_t(v) |l -l_CM|(图6(c))。使用这三个统计量得到的结果是一致的:本地人平均移动距离最长,活跃区域比新移民大得多。相比之下,留下的移民倾向于扩大他们的活跃区域,而离开的移民的移动距离、平均半径和最大半径随时间变化很小。假设大多数人在白天工作,晚上回家,我们可以将一个人的工作地点定义为她在上午9点到下午4点期间的质心,将她的家定义为晚上8点到早上7点期间的质心。我们研究了一个人的家和工作地点之间的距离(图6(d))。本地人的距离随时间稳定,小幅波动可以通过人们在白天和晚上的活动来解释。新移民在第一周离工作地点稍近一些,而随着时间的推移,距离变小,这表明新移民可能在找到工作后找到新的居住地。白天和晚上之间距离的减小可以进一步缓解这些新移民是临时访客的担忧。0Track: Web and Society WWW 2018, April 23-27, 2018, Lyon, France20406080100234468102.02.53.03.54.04.5localstayingleaving000.00.20.40.60.81.0×1045.05.56.0localstayingleaving0.00.20.40.60.81.0×1044.85.05.2localstayingleaving9720第一周 第二周 第三周0移动距离(公里)0(a)移动距离。0第一周 第二周 第三周0平均半径(公里)0(b)平均半径。0第一周 第二周 第三周0最大半径(公里)0(c)最大半径。0第一周 第二周 第三周0(d)家和工作地点之间的距离。0图6:本地人、留下的移民和离开的移民的地理特征(以公里为单位)。0第一周 第二周 第三周0房价(元/平方米)0(a)用户活跃区域的平均房价。0第一周 第二周 第三周0联系人的价格(元/平方米)0(b)朋友活跃区域的平均房价。0图7:本地人、留下的移民和离开的移民的房价特征。03.4 房价信息0高房价一直是中国城市化进程中的一个核心问题[12,51]。房价在移民的融入过程中起着重要作用。图2展示了房价的整体分布情况。我们计算了一个人活跃地理位置的平均房价,以及一个人朋友的活跃地点的平均房价。令人惊讶的是,本地人倾向于活跃在最便宜的地区,而留下的移民则居住在最昂贵的地方(图7(a))。留下的移民的平均住房价格从第一周到第二周显著下降,但离开的移民则不是这样。一个人家中的平均房价也有类似的结果。由于社会同质性,一个人活跃地区的平均房价与他们朋友的平均房价相似(图7(b))。总结起来,通过我们提出的特征的演变模式,我们发现留下的移民在许多方面能够向本地人靠拢,但三周当然是完成融入过程所需的时间太短了。然而,与离开的移民相比,留下的移民具有更多活跃和多样化的移动通信联系和地理移动。0特征集 精确率 召回率 F10所有特征 0.2355 0.8397 0.3678 自我网络属性 0.20970.8499 0.3363 通话行为 0.1021 0.8358 0.1820 地理模式0.0813 0.5971 0.1433 房价信息 0.0641 0.5347 0.11440随机猜测 0.0198 0.0198 0.01980表1:使用不同特征集的随机森林区分新移民和本地人。0表明在搬到新城市后积极扩大社交网络是移民融入的重要步骤。04 预测(离开)移民0在建立了单个特征的动态模式之后,我们探索了基于我们提出的特征在多大程度上可以区分本地人、留下的移民和离开的移民。由于这三组人的人口规模非常不同,我们设置了两个预测任务。我们首先提出了一个二分类任务,预测一个个体是本地人还是新移民,然后进行区分离开的移民和留下的移民。由于数据的稀疏性,这两个任务都具有挑战性:不到2%的人是新移民,4%(1.5K)的移民在我们的数据集中提前离开。第二个任务更加困难,因为离开的移民和留下的移民的行为模式比新移民和本地人的行为模式更相似。然而,准确预测离开的移民可能会为个性化服务提供帮助,并且第二个任务的见解有可能为城市政策制定者提供信息,因此我们专注于第二个任务。对于这两个任务,我们使用附录中表4中列出的相同特征。04.1 区分新移民和本地人0我们的第一个二分类任务是区分新移民和本地人。形式上,给定一个用户v,v在她搬到上海的头14天内的移动通信网络{Gt}和v在时间t(第t天)的地理位置Lt v,我们的目标是预测v是否是新移民。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂9730分类方法 精确率 召回率 F10随机森林 0.1597 0.6659 0.2576 多层感知器 0.13290.5533 0.2140 支持向量机 0.1238 0.6815 0.2095逻辑回归 0.1006 0.7082 0.17620随机猜测 0.0437 0.0426 0.04310表2:使用不同分类器区分离开移民和留下移民的性能。每个分类器使用从第k = 14天提取的所有特征。0特征集 精确率 召回率 F10所有特征 0.1597 0.6659 0.2576 自我网络属性 0.13470.6580 0.2234 房价信息 0.1067 0.5978 0.1809 通话行为0.0984 0.5853 0.1683 地理信息 0.0863 0.5691 0.14980表3:使用不同特征集的随机森林区分离开的移民和留下的移民,这些特征集从第k = 14天提取。0或者本地人。我们进行了5折交叉验证,并使用精确率、召回率和F1得分进行评估,将少数类别(即新移民)作为目标类别。表1展示了在这个任务中随机森林的结果。请注意,在我们的数据集中,有180万名本地人和35.5万名新移民(52:1的比例)。因此,随机猜测的F1得分大约为0.02。我们的方法能够显著优于这个随机基准,F1得分为0.36。我们进一步通过训练一个包含单个特征集并排除其他特征集的分类器来比较不同特征集的有效性。表1显示,使用每个单独的特征集都优于随机猜测。自我网络属性表现最好,其次是地理模式。04.2 预测离开的移民0在第二个任务中,我们的目标是将留在上海的移民与离开上海的移民分开,即预测一个新移民是否会在第三周离开上海。我们再次进行5折交叉验证,并使用精确率、召回率和F1分数进行评估,以离开的移民作为目标类别。总体表现。我们尝试了不同的分类器,包括逻辑回归、支持向量机、多层感知机和随机森林。回想一下,我们的数据集中有34K个留在上海的移民和1.5K个离开的移民。随机猜测的F1分数约为0.04。表2显示,所有的机器学习分类器明显优于随机猜测和随机森林提供了最佳的性能。随机森林和多层感知机在F1方面表现优异,这表明非线性对于这个分类任务是重要的。总体而言,预测性能表明,所提出的特征不仅在区分新移民和本地人方面有效,而且在预测移民的决定留下还是离开方面也是有用的。0离开。然而,这个任务的F1分数不如第一个任务那么好。性能下降表明,预测一个移民的离开决策比区分新移民和本地人要困难得多。表3还列出了使用单一特征集和随机森林的分类器的性能。再次,个人网络特性表现最好。然而,地理模式在这个任务中的表现比在区分新移民和本地人的任务中要差。相比之下,房价特征的F1分数比地理模式更好,这表明了了解一个人活动区域的元信息,如房价,对于预测移民的早期离开更有用。早期检测离开的移民。我们接下来探索是否可能比两周更早地检测到离开的移民。如果我们能早早地检测到离开,我们可能能够提供一体化服务。为此,我们根据一个人在前k天的信息提取特征。图8显示,精确率和F1分数呈现非常相似的趋势:了解一个人在她搬到新城市后更长时间的行为(随着k的增加)可以更好地预测她的离开或留下的决定。由于离开的移民只占我们数据的很小一部分,所以在不同的k下,召回率相对稳定,当k=3时已经达到了约0.6,而精确率的提高是整体性能提升的主要原因。即使只观察3天,分类器也可以胜过随机猜测。为什么性能会提高?为了理解为什么随着我们观察新移民的时间变长,性能会提高,我们提出了一系列新的实验。我们尝试通过在应用仅使用少数天数的数据训练的分类器时,用未来信息替换特征,来分解由于特征质量或分类器质量改进而导致的性能提高。具体来说,我们首先使用前k天的数据训练一个分类器,然后使用从前t天提取的特征来预测用户是否会在她抵达上海后的第三周离开城市。我们变化不同的k和t来观察它们如何影响性能。令人惊讶的是,我们发现仅使用前5天的数据训练的分类器在使用前10或14天提取的特征进行测试时,表现与使用14天训练的分类器一样好(见图8(d))。这个结果表明,分类器可以很好地使用少数天数的数据进行训练,而性能的提高主要是由于特征质量的改进。换句话说,随着新移民的停留时间变长,我们对她的行为有了更可靠的信息,但即使从最初的5天的不可靠信息中,我们也可以知道不同特征与离开的移民的关系。特征重要性最后我们讨论了在学习的随机森林中重要的特征。对于每个特征,我们计算了它在使用前14天的数据训练的随机森林模型中的基尼重要性(也称为平均减少不纯度)。图9列出了最重要的10个特征。度数(#联系人)排名第一,而呼入电话数(#呼入电话)、出度(#发出电话的联系人)和CC(聚类系数)都在前10名。这再次表明,扩展更多(多样化的)联系对于新移民来说至关重要,个人网络特性是有用的特征。前3个最重要的特征中有2个与房价相关。0Track: Web and Society WWW 2018, 2018年4月23日至27日,法国里昂35710140.050.100.150.2035710140.200.400.6035710140.050.100.150.200.2535710140.100.150.200.25k=3k=5k=7k=10k=140.020.030.040.050.060.070.089740前k天0精确度0RF随机0(a) 精确度。0前k天0召回率0RF随机0(b) 召回率。0前k天0F10RF随机0(c) F1。0特征的时间窗口(t)0F10(d) 解开性能改进。0图8:左侧的三个图展示了使用从新移民搬到上海的第k天提取的特征来区分离开移民和留下移民的预测性能。x轴表示我们提取特征并训练分类器的天数,y轴表示评估指标。图8(d)显示性能改进主要来自于特征质量的提高。x轴表示我们在测试时从第t天提取特征,而不同的线跟踪使用k天训练的分类器的性能。当我们在测试时使用14天的特征时,k≥5的分类器与k=15的分类器表现相似。0出度0CC0呼入0同性0通话时长0入度0加权度0邻居中心价格0邻居平均价格0学位0图9:最重要的10个特征。x轴表示特征的相对Gini重要性。0这与我们在第3节中的发现一致,即生活在价格合理的地区很重要。05相关工作0城市化进程对社会提出了重大挑战,需要各个学科的努力。我们在以下四个方面总结了相关研究。移民融合。移民融合是许多学科中一个被广泛研究的问题,包括人类学、经济学、社会学和城市规划[9]。与我们的工作最相关的是城市迁移的研究[7, 8, 18, 20, 21, 42-44,55]。例如,我们之前的工作探讨了当地人、定居移民和新移民的不同特点[55]。除了人口统计学特征(如民族群体、城市与农村)对城市移民融合的影响外,Schiller和Çauglar[42]认为移民在城市中的角色取决于城市本身的重新调整。政府政策和议程设置在融合过程中也起着重要作用[44]。除了我们的研究范围,移民(移居新国家的移民)和难民(移民的一个亚群)也引起了广泛关注[4, 5, 24, 46,50]。中国的城市移民。中国发展的前所未有的速度和庞大的人口引发了一系列关注城市移民的研究[1, 11, 26, 32, 33, 49, 52-54, 56,57]。正如[26]所建议的,至少有三个视角:移民自身的视角,城市雇主的视角和政府的视角。我们的工作基于移民的通信模式,从移民的视角进行研究。值得注意的是,关于中国移民的公共政策的一个核心问题是“户口”制度的影响,这是一个限制移民福利和社会福利的户籍制度[1, 53,54]。最后,尽管满足移民需求是白等人[3]在中国政府的城市化战略中强调的挑战之一,但对移民的社会融合却付出了很少的关注。城市计算。最近,与城市相关的数据驱动研究变得越来越重要,并引发了一个新的术语,城市计算[1, 16, 22, 25, 39, 41, 58,59]。这些研究结合了包括位置数据、社交媒体活动数据、手机数据和调查数据在内的异构数据源,提出了城市发展的度量标准,并可能指导城市政策。例如,郑等人[59]利用出租车的GPS数据评估北京的交通系统;DeNadai等人[15]利用手机数据提取人类活动并提出了衡量城市多样性的度量标准。最近,Twitter也被用作理解全球移动模式的工具[16]。时间社交网络和在线社区。我们的工作也与网络演化的研究[23,27, 30, 31, 36, 38,48]相关。利用在线社交媒体的数据,这些研究探索了个体行为与全局网络属性之间的联系。例如,Viswanath等人[48]发现活动网络中的链接往往随时间快速出现和消失,而关系的强度随着社交网络链接的年龄而呈现出普遍下降的趋势。Leskovec等人[30]开发了一个三角闭合模型来解释网络演化。此外,研究还调查了新用户在在线社区中的融入过程[2, 13, 14, 28, 34,47]。特别是,McAuley和Leskovec [34]研究了新用户如何成为评论网站上的专家的过程。0关于中国城市移民的研究有很多[1, 11, 26, 32, 33, 49, 52-54, 56,57]。正如[26]所建议的,至少有三个视角:移民自身的视角,城市雇主的视角和政府的视角。我们的工作基于移民的通信模式,从移民的视角进行研究。值得注意的是,关于中国移民的公共政策的一个核心问题是“户口”制度的影响,这是一个限制移民福利和社会福利的户籍制度[1, 53,54]。最后,尽管满足移民需求是白等人[3]在中国政府的城市化战略中强调的挑战之一,但对移民的社会融合却付出了很少的关注。城市计算。最近,与城市相关的数据驱动研究变得越来越重要,并引发了一个新的术语,城市计算[1, 16, 22, 25, 39, 41, 58,59]。这些研究结合了包括位置数据、社交媒体活动数据、手机数据和调查数据在内的异构数据源,提出了城市发展的度量标准,并可能指导城市政策。例如,郑等人[59]利用出租车的GPS数据评估北京的交通系统;DeNadai等人[15]利用手机数据提取人类活动并提出了衡量城市多样性的度量标准。最近,Twitter也被用作理解全球移动模式的工具[16]。时间社交网络和在线社区。我们的工
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功