没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报用于用户移动性的分级表征的Francisco Talavera,Isaac Lera,Carlos GuerreroCrta. Valldemossa km 7.5,帕尔马E07121,西班牙阿提奇莱因福奥文章历史记录:2021年11月8日收到2022年3月8日修订2022年3月11日接受2022年3月29日网上发售保留字:移动性建模用户行为模拟雾计算A B S T R A C T本文提出了一种方法,生成一个分层的用户移动性模型,从分析的数据,从Wi-Fi连接。从Wi-Fi基础设施获得的数据根据用户移动通过的接入点的覆盖区域来定义。这些接入点基于其地理空间特征被递归地分组为不同的粒度级别。的轨道用户被定义为一系列Wi-Fi接入点,这足以模拟用户的移动性,例如雾的情况。提出了研究区域的层次定义,以降低模型在高尺度情景下的复杂性,并增加具有不同地理空间特征的情景之间的适应性。模型创建基于使用聚类算法的用户分析方法,并且每个用户类型用覆盖区域之间的转换矩阵和区域的时间长度向量来定义。该方法适用于巴利阿里群岛大学校园的情况下。通过对计算结果的均方误差分析,我们认为该方法对转移矩阵的计算结果是好的,但时间向量的结果还表明,在分层模型的情况下,与一个区域为每个建筑物和三个级别,在一个非分层模型,只有一个区域和一个级别为整个校园的复杂性较低。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍雾计算领域的研究数量在过去几年中显着增加。在大多数情况下,新的研究方案的实验阶段和测试是在模拟环境中进行的,这主要是因为难以与真实用户访问真实的基础设施。只有在模拟使用基于真实场景的模型时,模拟结果才是可靠的。因此,模拟通常包括从根据真实数据定义的模型创建的合成迹线(Eeckhout等人,2000年)。但快速回顾一下最新的文献,雾计算领域(Ogundoyin和Kamil,2021; Brogi等人,2020)表明,大多数实验都是用随机的非现实模型进行的,因为很难从这些环境中访问真实数据来创建模型。此外,雾环境中的系统中的用户的移动性的强烈影响,与其他传统的分布式架构。因此,用户移动性模型,*通讯作者。电子邮件地址:f. uib.es(F.Talavera),isaac. uib.es(I.Lera),carlos. uib.es(C.Guerrero)。基于真实数据,也是必要的,以获得可靠的结果,在模拟实验。用户移动性影响与用户连接到的接入点(AP)有关的雾架构。换句话说,用户到给定AP的连接例如确定请求的来源、请求的数量、请求的类型、请求的因此,在模拟中,雾用户的移动性模型确定用户连接到的AP。这种模式不受影响通过底层网络技术,可以与例如Wi-Fi AP、5G无线电接入网络等建立这些连接,而不改变用户的移动模式。用户信息对技术公司的重要性影响了其在开放数据目录中的发布,用户移动性就是这样一个例子。在文献中有许多研究需要用户移动性并且说明具有用户移动性模型的重要性(Toch等人,2019年)的报告。在技术研究领域中存在这种用户移动性建模的关键方面的示例 , 例 如 移 动 网 络 ( Zonoozi 和 Dassanayake , 1997; Zhang 和Dai,2019),基于位置的应用(Noulas等人,2012),智能交通系统https://doi.org/10.1016/j.jksuci.2022.03.0141319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comF.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报2472(Quessada等人,2020)、云性能(Secci等人,2016),或雾基础设施(Bittencourt等人, 2017年)- 在 社 会 领域- 如人群管理(Huang等人,2018年),旅行模式发现(Hoogendoorn和Bovy,2005年),自然区域管理(Meijles等人, 2014),或运动活动的分析(Lera等人, 2017年)-。描述用户移动性的建模方法仍然有新的建议空间。一个示例是我们的域问题的情况,其中用户的移动性被分层地建模并且从一小组移动性数据创建,仅需要与用户连接到的AP相关的数据在这项工作中,我们提出了一种方法来创建一个层次化的用户移动模型,递归地定义地理空间级别分组的相邻AP到不同的粒度的区域和地带该方法的输入数据是到Wi-Fi基础设施的AP的用户连接的数据集。我们将研究重点放在Wi-Fi技术的使用上,因为这种类型的数据比5G数据更容易访问,这需要公共通信公司的合作但我们的方法可以很容易地应用于其他类型的连接网络。请注意,我们不建议用于用户定位或收集此数据的新系统或工具。我们使用这种类型的系统来收集用户位置数据,这些数据随后由我们提出的方法用于创建用户移动性模型。在我们的特定案例研究中,我们决定使用Aruba定位引擎(ALE),因为它已经部署在我们的基础设施中,但任何其他系统,如Cisco Prime基础设施,也适合收集数据。本文的结构如下:第一部分介绍了本文的研究动机和贡献;第二部分回顾了相关的研究成果;第三介绍了用户移动建模的背景;第四部分介绍了用户移动建模方法的细节;第五部分介绍了该方法在UIB校园用户移动研究中的应用,并对结果进行了分析;最后,第六总结了本文的结论,并提出了未来的研究方向。1.1. 动机和贡献由于这些基础设施的规模很大,新的雾方案的评估通常在早期实验阶段在模拟器中进行。模拟需要真实的数据才能获得可靠的结果。但是与IT基础设施中的用户移动性相关的开放数据集的数量非常有限(Luca等 人 , 2021 年 ) , 其 中 大 多 数 不 包 括 与 计 算 基 础 设 施 的 关 系(Mimouna等人, 2020年)。从真实场景中获取数据是复杂的,许多研究人员无法访问合适的数据集,也无法访问他们可以收集数据的基础结构。从大多数研究工作的实验分析(Ogundoyin和Kamil,2021; Brogi等人,2020年),据观察,有一个重要的挑战有关的使用模拟中的真实模型。当雾基础设施的研究人员需要测试和验证他们的建议时,他们需要面对两个重要的挑战,这取决于他们拥有的资源。第一种情况是研究人员可以访问他们想要模拟的部署基础设施,并且他们可以收集用户的移动数据以及他们与计算基础设施的交互。在这些情况下,主要挑战是创建用户移动模型的计算复杂性非常高,高第二种情况是研究人员只能访问开放的数据集或模型,其可用性非常有限,并且现有模型需要适应其研究案例的基础设施和地理空间特征。因此,从这些研究挑战中产生了两个研究问题:RQ 1:是否有可能以这样一种方式对用户移动性进行建模,使我们能够在具有不同地理空间特征的案例研究之间推断/调整模型?RQ2:是否有可能降低大规模场景(如雾基础设施)的移动性创建的复杂性?我们已经分析了用户移动性建模领域的几个最新评论和调查,正如我们在第2节中所评论的那样,据我们所知,目前的用户建模提案缺乏两个挑战,即为大规模域创建移动性模型的计算复杂性,以及在具有不同地理空间特征的场景之间调整移动性模型。我们的建议通过结合用户特征和地理空间研究领域的方法来解决这两个挑战。我们结合使用过渡矩阵来模拟用户移动行为(Barbosa-Filho等人,(2018)定义层级地理空间组织(Xie et al., 2014;Xu等人,2015年)的网络资源,用户连接到。我们具体我们的建议,在以下研究假设:用户移动性可以通过定义所研究的区域的地理空间区域的层次结构来建模,并在每个层次上用区域之间的转换矩阵来建模移动性。这种分层方法降低了复杂性,并增加了所得模型的外推关于用户连接的大量数据需要一种数据分析解决方案,该解决方案在不损害结果的情况下减小问题大小。通过使用地理空间层次分解,将研究区域分解为级别和区域,建模过程可以拆分为较小的集合,降低计算复杂性。此外,移动性模型的分层定义使我们能够通过放大/缩小它来轻松地使其适应具有不同地理空间特征的场景。例如,可以复制或删除具有给定特征的区域,以使移动性模型适应其他案例研究。我们详细介绍了我们的建议,在Wi-Fi基础设施的情况下,并将其应用于一个真正的研究案例。因此,本文的贡献是:一种用于分层用户移动性建模的方法该模型用随机转移矩阵和时间向量的对来定义,其分别对AP的覆盖区域中的变化(即,用户连接到的AP)和用户停留在该覆盖区域中的时间。模型的输入是从Wi-Fi AP获得的连接数据。所提出的方法可以容易地扩展到其他连接技术,例如5G网络。所提出的方法应用到一个真实的场景(巴利阿里群岛,UIB,一个中等规模的大学的大学校园),以验证和测试所提出的方法。所获得的模型也已发布在一个开放的存储库中,以允许其他研究人员使用/调整/扩展该模型以满足其特定需求。我们强调了在雾基础设施的评估中使用移动数据,并且我们专注于我们的但我们的移动性模型可以用于任何类型的评估/实验,需要在无线环境中模拟用户的移动性唯一的约束是用户移动性是按照用户连接到的AP来建模和表达的,即,网络接入设备的覆盖区域。●●●●F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报24732. 相关工作人类流动数据的研究在理解相关科学领域中发挥着核心作用,就像我们的情况一样,雾基础设施的评估。但它在文化、流行病传播、环境影响、旅游业等领域的作用同样重要。在如此多的科学领域,对人口流动性的分析研究多种多样,反映了其重要性。许多调查收集和分类这些研究,一般基于数据集类型和研究目的(Barbosa-Filho et al., 2018;Solmaz和Turgut,2019; Thornton等人,2018; Toch等人,2019年;Wang 等 人 ,2019; Luca 等 人 , 2021; Pappalardo 等 人 , 2019;Kulkarni等人,2019; King等人,2021; Hess等人, 2016年)。Becker等人(2013)证明了蜂窝网络数据对人类移动建模的价值。但他们对移动性的分析集中在结果的地理聚合上,而不是单一的用户感知建模。因此,用户移动的痕迹不能从他们的移动性特征中获得Azevedo等人(2009年)分析了利用GPS技术获得的移动性真实轨迹。他们建议将移动性特征建立在研究用户轨迹的速度、加速度、方向角变化和停顿时间的概率和累积分布函数的基础上。他们发现,速度和加速度分量遵循正态分布,方向角变化分量和停顿时间更好地表示为对数正态分布。这一结果对于在一般情况下生成用户的合成痕迹非常有价值。但是对于我们的目标,模拟用户到AP的连接,需要一个更详细的模型。Wu et al.(2017)通过提出一种用于移动建模的分布式方法来处理模型创建的复杂性。他们提出了集中式算法NN-K-SVD的分布式版本。但由此产生的模型是不适合的仿真用户连接到AP。Thuillier等人(2018)通过首先使用k均值聚类算法对用户进行分析来表征用户移动性。虽然我们的建议也创建用户集群,在我们的情况下,集群组用户具有类似的移动性。相反,Thuillier等人基于呼叫详细记录的特征进行聚类在过去的几十年中,来自GSM网络记录的数据已经允许对移动性模式进行表征(Barbosa-Filho等人,2018年),具有比其他技术(即GPS)更大的样本量。在这种无处不在的技术发展之后,手机的Wi-Fi适配器详细描述了室内时空分辨率,这是以前的技术难以获得的,并且还提供了大量的样本。任何Wi-Fi设备都会向Wi-Fi AP发送类似信标的消息,这些消息在AP中收集以用于记录目的。Traunmueller等人(2018)提出了一项研究,重点是使用Wi-Fi探头改善城市管理和规划决策。他们在曼哈顿下城使用了54个AP,在一周内从80万个独特的设备中获得了3000万次观察在数据匿名化和清理处理之后,他们进行了一个图形分析,将AP位置建模为节点,将用户在连续AP之间的移动建模为边。他们生成了一个街道使用强度网络模型和一次旅行的路径。他们使用该模型来解释行人路线和兴趣点(渡轮、建筑物、街道连接器等)的频率我们的研究的不同之处在于,它主要集中在方法来获得的移动模型,而不是获得的移动模型。在任何情况下,我们的案例研究,在一个比较规模,使用425 AP位于楼层和房间在18栋建筑物,导致633000过滤轨迹记录在一周内。还有更多的SIM卡-plistic的研究,不考虑用户的路径,他们也集中在Wi-Fi数据集,而不是建模方法。Uras等人(2019)进行了另一项人类移动性研究,通过Wi-Fi探测数据识别人口密度、流量、模式和热图。实验设置在三个地点:图灵的一条街道,阿尔巴中心和卡利亚里大学,与其他研究相比,他们部署了少量的AP-分别为1,5和8个设备-。他们简化了统计方法,设置了七个时间段,并计算了AP半径内唯一设备的持续时间。这项研究表明,这些日志的灵活性,以获得流动性指标和特设模型。但是他们用来创建模型的方法对于大规模场景是非常有限的。这些数据集的另一个重要问题是估计在特定地点和时间存在的移动设备的数量Oliveira等人(2019)使用几个具有Pearson系数相关性的阈值来关注这个问题。 Balzotti et al. (2018)使用意大利电信公司提供的移动电话数据来调整移动流的长度。Hoteit等人(2017)提出了一种技术,以减少真实和估计的人类轨迹之间的误差我们使用实验阈值来解决这个问题,因为我们的上下文在这个未定义的用户状态中提供了更少的噪声。Gao等人(2010)的移动性建模,使用从Wi-Fi基础设施的数据获得的隐马尔可夫模型。但他们的目标是获得细粒度模型(更精确的用户位置),而不是粗粒度模型(由AP位置或覆盖区域确定)。由于我们对雾环境中用户模拟的生成感兴趣,因此粗粒度模型更适合。除了Gao等人的工作之外,马尔可夫模型在用户移动性建模的大量研究中得到了研究,其中大多数研究使用GPS轨迹。马尔可夫建模的变体的示例是:使用GPS轨迹的简单马尔可夫模型(Ashbrook等人,2002);使用GPS、GSM和Wi-Fi数据集的半马尔可夫模型(Chon等人,隐马尔可夫模型(Hidden Markov Model)GPS跟踪(Mathew等人,2012);使用GPS轨迹的混合马尔可夫模型(Asahara等人,2011);使用GPS轨迹的移动性马尔可夫链(Gambs等人,2012)、使用呼叫细节记录的扩展移动性马尔可夫链(Amirrudin等人,2013)、使用GPS迹线的可变阶马尔可夫模型(Yan等人,2013)、隐半马尔可夫模型(Yu和Kobayashi,2003)或使用地理标记的Twitter数据集的球形隐马尔可夫模型(Zhu等人, 2018年)。所有这些相关的参考文献都支持我们的建议,建模用户的移动性与过渡矩阵。虽然他们涵盖了广泛的替代品,据我们所知,我们是第一个工作,认为一个层次模型的基础上,通过固定用户的位置,他们连接到AP的transi- tion矩阵。最后,我们引用了一些相关的研究,实现了类似的时空聚合的目标,集中在一个特定的区域的研究,而不会丢失的信息的上下文所包含的区域。Xie等人(2014)实现了直方图树来识别车辆循环的区域。Xu etal.(2015)在移动电话塔中对来自中国深圳的电话位置数据集进行了分层分解。这两项研究都获得了更好的性能分析,使用这种层次分解,但在我们的情况下,分解是用来描述流模型,不仅方便操作。这是一个具有不同粒度级别的移动愿景F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报24743. 问题陈述一般而言,用户通常,轨迹由提供细粒度精度的GPS设备记录(Lera等人,2017年)。然而,其他技术及其基础设施通过将个人设备与绑定点相关联,使得捕获用户在区域上的通行成为电话和蜂窝无线电塔是一个例子,或者,在我们的情况下,Wi-Fi设备和AP。据观察,迁移率建模通常具有很高的计算复杂性(Fülöp等人,2009),并且所生成的模型是特定于特定场景的,并且它们缺乏对具有不同地理空间特征的其他场景的适应性(Xie等人,2013年)。我们提出了一个地理空间层次用户移动性建模,以解决大规模移动场景的计算复杂性和所获得的模型的适应能力低的问题。我们的模型定义了用户和网络接入设备之间的交互,以及这些交互的演变,即,该模型表示用户在其会话/轨迹期间连接到的AP的序列。图 1.a示出了UIB的大学校园中的用户1轨迹的示例。用户沿着背景校园图像上的红线路径行进,该背景校园图像还包括覆盖区域(用六边形表示)和每个区域的AP(用六边形中心的编号蓝点表示)该轨迹也遵循时间分布从雾基础设施的角度来看,轨迹取决于用户设备和Wi-Fi AP之间的通信探测这些探测依赖于覆盖网格和两个实体交换的消息在任何情况下,在一个时间点上设备与AP之间的业务链路使得能够表征用户移动。因此,我们可以创建一个访问日志,其中包括与时间、设备/用户和AP相关的3元组行。我们将这种类型的数据集命名为无线会话访问日志。给定用户的会话对应于具有相同设备标识符的样本子集。通常,无线会话访问日志交错不同用户会话的样本。图1.b示出了来自图1的示例的无线会话访问日志。1.一、用户会话的关键样本甚至可以减少到第一个和最后一个(指示起点和终点)以及每个新AP连接的第一个(图1.b中的蓝色线)。其他样本仅与样本的准确性相关,不提供任何额外信息。利用样本的该子集,识别用户连接的用户连接2我们将切换跟踪日志命名为仅包括过滤的无线会话的此数据子集图1.c示出了图1.c中的示例的包括单个过滤的无线连接会话的切换跟踪日志。1 .一、我们的建议表示用户移动性模型,如在其他先前的研究中一样,具有随机转移矩阵(起源-目的地矩阵Barbosa-Filho等人,2018年),这代表了AP中断的概率。我们扩展了该模型与inclu- sion的时间向量,代表了一个用户到一个给定的AP的连接的平均长度时间。图1.d示出了示例的转移矩阵和时间长度向量我们还通过定义用户连接到的网络设备的地理空间结构来扩展用户建模分层建模是通过将相邻AP以不同的粒度级别分组来执行的,通过考虑1我们在论文中模糊地使用了用户和设备这两个术语。它们指的是物联网中的事物概念,即请求服务或生成和传输数据的实体。2当设备改变其连接的AP时,发生切换。研究区域的地理空间组织。考虑到这种地理空间组织,通过复制具有相似特征的区域或删除不相似的区域,将更容易使生成的模型适应具有不同特征的区域。例如,在第一级中,可以利用同一建筑物中的AP来创建组。在第二层中,建筑物中的一组AP可以被分成建筑物的部分(例如,楼层或侧翼),并且这将递归地重复,直到粒度达到每组仅一个AP。例如,图2示出了三个粒度级别的具体情况该区域的递归地理空间划分直接反映在移动模型中,因为该模型也被划分为每个地理空间区和每个级别的独立转换矩阵这也在图2中示出,其中第一级用建筑物数量的大小的矩阵表示,其对所研究的区域中的建筑物之间的移动进行建模。在第二个层次中,为每个建筑物创建一个新的矩阵,以模拟每个建筑物内部的运动矩阵大小对应于建筑物被划分成的部分的数量一旦研究人员有了移动模型,他们需要将其适应特定的问题定义,以从一般的移动模型生成特定的合成轨迹。简单且一般的适应是指在其他之间改变每个用户类型的百分比、用户类型的数量或用户速度。但是,如果地理空间特征需要适应,非层次模型不能很容易地适应。在这些情况下,使用分层地理空间模型简化了适应过程。图3显示了第5节中研究案例背景下的一个示例,即大学校园。想象一下,一组研究人员想要测试一个新的雾基础设施的性能,模拟他们校园(大学A)中用户的移动。这些研究人员无法获得学生运动的真实数据大学B模型是用我们的分层方案定义的,它模拟了一个校园,其中有一个教室楼(建筑物内有两个区域),一个教师办公楼(建筑物内有两个区域)和一个学生宿舍(建筑物内有三个区域)。问题是A大学具有不同的地理空间特征,有两个教室建筑(其中一个与B大学的特征相似,另一个具有双倍大小),一个教师建筑(与B大学的特征相似),没有学生宿舍。因此,B大学的流动模型并不直接适用于A大学.由于移动模型的层次定义,研究人员可以通过移除学生宿舍,在层次结构的建筑层中复制教室建筑,并通过将建筑部件层中的区域加倍来增加第二个复制教室建筑的大小来调整大学B的模型。这些调整如图3所示。此外,该图还示出了如何通过复制或移除矩阵以及这些矩阵的列/行来修改转换矩阵。4. 提出的解决方案本节介绍了我们提出的方法的细节,该方法涵盖了解决上一节(第3节)中所述研究问题的要求。我们的方法包括数据收集的连续阶段、模型的定义和合成数据的生成(图4)。通过这种方法,研究人员能够用从这些数据中获得的流动性模型创建合成痕迹。F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报2475Fig. 1. 用户轨迹和相应移动模型的示例。阶段。用户移动性的合成轨迹可以导出到模拟/仿真引擎,以进行更真实的评估,例如雾环境。我们提出的方法中的各个阶段是基于传统的问题,即用顾客行为模型图(CBMG)(Menasce和Pillilio,2000)来表征电子商务工作负载。但我们已经扩展了这种方法,以纳入AP的地理空间层次结构,该层次结构:(a)促进模型在具有不同地理空间特征的场景之间的适应;(b)降低了模型生成的计算复杂度。总之,CBMG的工作负载特征化使用存储在Web访问日志中的Web用户请求来基于他们的Web浏览创建用户特征化。要做到这一点,首先要识别用户会话,因为用户会话的结束没有在weblog中注册。随后,执行聚类算法以识别不同类型的用户,并且每个用户会话与一个用户类型相关联。最后,一个Web trans.图二. 用户移动性的地理空间分层建模示例。F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报2476图三. 具有不同地理空间要素的场景之间的模型自适应示例。图四、完整的生命周期,我们提出的方法的层次模型的用户移动性的基础上的转移矩阵。F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报2477使用每个用户类型的用户会话集合为该用户类型生成会话矩阵。我们建议从电子商务工作负载特征(Kurz等人,2005)被应用于雾体系结构中的用户移动性的问题域。在我们的研究问题中,我们处理用户连接到AP,而不是Web用户请求。将此方法应用于雾用户移动性或使其适应雾用户移动性的新挑战之一是问题的大小映射到州的网页数量通常比所研究区域的AP数量少得多我们的建议解决了这个问题,并且以下小节解释了该方法的生命周期(图4)对于用户移动性建模的适应。4.1. 第一阶段:数据收集我们的问题域只需要表征AP连接长度和表示用户移动性的带宽。因此,第一阶段,数据收集,负责通过收集表征用户轨迹的无线会话跟踪日志来监视用户移动性。收集无线会话跟踪日志的最直接的解决方案是使用已部署的Wi-Fi基础设施。市场上有几种商业替代品,跟踪使用Wi-Fi基础设施的用户以及收集无线会话。任何这些替代方案都允许我们收集有关用户存在的数据,并且我们的问题要求不需要设备的准确位置。收集的关于用户的预期数据是存储和关联用户设备(MAC地址)、AP(对应于设备所在的覆盖区域的AP)和时间戳的日志。此阶段的输出是无线会话跟踪日志,其中包含所研究区域中所有设备和AP的定期数据此跟踪日志的每一行都包含一个由三个元素组成的元组为所有设备和所有AP定期存储。由此,可以生成给定设备的无线会话,并且还可以检测其中断。从模拟雾基础设施的角度来看,切换是用户移动性中唯一相关的事件。切换涉及服务请求(或设备生成的数据)来自不同的AP,并且它们可能也遵循不同的网络路由。4.2. 第二阶段:模型定义使用无线会话跟踪日志,此阶段的目标是使用此日志生成移动模型。在我们工作的背景下,我们提出通过设备到给定AP的连接时间(用时间向量表示)和AP覆盖区域的变化概率(用随机转移矩阵表示)来定义用户移动性(KeramatJahromi等人,2016年)。这种类型的模型以前已经在其他场景中实现,例如使用客户行为模型图(CBMG)表征电子商务工作负载(Menasce和Pillilio,2000; Kurz等人, 2005年)。转移矩阵的直接使用可以导致将矩阵的每个条目与设备连接到的一个AP进行映射,将转移视为设备切换到另一AP覆盖区域的概率。第一个近似值不适用于具有高数值的中型-大型场景基础设施中的AP。在这些情况下,建模的复杂性增加,甚至导致无法解决的问题。因此,我们建议将AP分组,而不是映射一个将问题场景划分为不同粒度的区域和级别。例如,在大学校园的第一层,所研究的区域可以被分割成建筑物,将每个建筑物与所研究的区域的区域(矩阵的在连续迭代中,第二层(建筑物)通过对它们中的每一个的隔离分析来利用对每个建筑物重复建模过程,必须再次将其划分为区域。通过这种分层定义,区域的区被独立地建模,并且因此,模型可以通过例如移除或复制区来修改。这种修改简单地导致转换矩阵和时间向量的行和列如果模型的最终用户有兴趣将结果应用于其他不同(但具有相似特征)的移动性场景,则现有模型的适应性更容易,因为可能性修改模型的区域。图 4包含我们提出的用户移动性的分层建模的步骤。在我们的分层模型中,分析被分成连续的粒度级别以降低复杂性,这导致了该阶段的某些步骤的孤立重复4.2.1. 数据清洗数据清理是指对数据集进行分析,以识别和删除对移动性建模无用的样本。它是一个非常特殊的过程,依赖于每个数据集,研究的目标。例如,用户可能有兴趣移除:仅具有一个AP样本的用户;与特定AP相关联的样本,因为它位于研究区域之外;与特定设备相关联的样本;时间间隔中的样本(在夜间)等。4.2.2. 层次区域定义我们的建议考虑将物理区域划分为分层区域。每个区域被划分为区,并且区被反复地认为是子区域,子区域也被划分为新的区。每个区域对应于一对变换矩阵和时间向量,或者由一对变换矩阵和时间向量建模类似地,区域与矩阵/向量的行和列相关。因此,我们将表征问题分为地理,拓扑或其他类型的标准方面的水平。需要对每个区域进行独立的建模过程,一级递归。这个建模过程包括会话识别、数据过滤和映射、聚类和转换矩阵创建(图1)。 4).层次结构从较高的层次开始,其中所研究的区域被划分为N个区域,N是一个合理的数字,既不会太小(这会降低模型的准确性),也不会太大(这会增加模型的复杂性)。每个区域都映射到一个状态,它们包括不相交和地理上相邻的AP。一旦对第一级执行了建模过程,则对每个特定区域独立地重复该过程层次结构受到几个要求的约束:定义层次结构级别,直到达到每个区域1个AP的粒度级别;从区域出现的每个新区域仅考虑进入前一个区域的AP,新区域覆盖所有AP(满射),AP仅与一个区域映射(不相交)。我们在图5中包括分层划分的示例。第一层,0层,将研究区域分为两个区域,对应两栋建筑物。每个建筑物的AP被映射到相应的区域。一旦生成了级别0的模型,就对级别0中的每个区域重复建模过程,即,对第一建筑物(区域S0)和第二建筑物(区域S1)执行建模处理这两个新的Level 1区域按照建筑物的翼部进行分割这个层次结构被分成合理数量的级别,直到每个区域只覆盖一个AP,就像我们的例子中需要三个级别一样。F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报2478图五. 移动性建模的分层方法示例。研究中使用的区域的层次划分也有利于所得到的模型的推广。正如我们所解释的,开放移动模型的数量非常少,推广现有模型的可能性是一个重要的问题。分层模型可以轻松地删除、复制或修改结果模型的某些区域,以使其适应不同的研究案例。考虑一个开放的模型,考虑大学校园的三栋建筑,一栋是学生宿舍,另一栋是教学教室,教师办公室在最后一栋。如果我们需要将此模型调整到不同的校园,例如有三个教室建筑或没有学生宿舍,我们可以通过复制与教室建筑相对应的部分或删除宿舍建筑的模型来调整它。还可以根据用户类型、流行度概率等来执行4.2.3. 设备会话标识一旦数据被加载和清理,下一步就是识别用户。我们假设一个MAC地址对应一个用户。因此,用户样本的选择需要通过MAC地址进行过滤。不仅需要识别用户,还需要识别用户会话。会话被定义为用户在实验期间对所研究区域的每次访问。换句话说,如果用户离开所研究的区域并再次返回,则这两次访问导致两个不同的用户会话。从基础设施的角度来看,用户会话被定义为在某个时间点进入由研究级别定义的覆盖范围的设备,它在该区域中停留特定的时间段,然后离开该区域。Wi-Fi基础设施不登记数据集中的断开,并且相反,在以下情况下概念上确定会话检测● 用户在研究区域之间进行更改● 在一段时间后未检测到任何连接这两个标准通过检测以下时间在数据集上执行:用户的样本与不属于所研究的当前区域的任何区域同一设备的两个连续连接之间的时间大于定义的阈值。用户会话识别的阈值的定义意味着执行初步研究以计算正被分析的数据集的最佳阈值时间。例如,在第5节的案例研究中,我们测试了一系列定义的阈值,并计算了所有这些阈值的会话数量与平均连接时间之间的欧几里得距离。基于最佳阈值是平衡会话总数的阈值的思想,最佳阈值由较小的欧几里德距离确定以及会话的长度(Kurz等人, 2005年)。4.2.4. Data filter/map一旦识别出不同的用户会话,并非数据集中的所有用户会话样本都提供有用的信息。因此,通过保持以下参数来过滤样本:具有相同AP标识符的连续样本子集的第一样本。这对应于用户会话的关闭(AP更改)。每个会话的第一个和最后一个样本。它们标识用户会话的入口点和出口点此阶段的结果是代表会话开始、结束和AP更改的样本子集。图1.c示出了从图1.b获得的子集的示例。4.2.5. 用户分析:集群人类的行为是非常不同的,它不能只用一个通用的模型来确定,所有用户的模式都是相同的。既不现实也不准确。因此,重要的是将具有相似移动模式的用户分开。用户分析或细分的目标是明确描述用户如何在每一个集群中的行为和周围的研究区域移动。聚类是这种类型的分析的通常解决方案,并且有必要权衡用户类型的数量(尽可能小)和模型的适用性(尽可能准确)(Hardy,1996)。●●●●F.塔拉韦拉岛Lera和C. 格雷罗沙特国王大学学报247988我们根据用户在所研究区域的特定区域中花费的时间百分比来描述用户的行为。因此,每个用户会话的特征在于具有n元组概率向量,其中n是所研究的区域中的区域的数量。该向量表示用户在每个区域中的概率,计算为每个区域中的总时间除以会话长度。聚类算法的选择取决于许多因素(Abbas,2008)。例如,在我们的案例研究中,我们实现了k- means算法,因为它很简单,而且用途广泛4.2.6. 转换矩阵和时间向量创建一旦使用聚类过程根据用户的行为将用户分成不同的组,就为每个聚类生成数据模型。该数据模型由一个转移矩阵和一个向量组成,该向量包含每个区域的平均停留时间转移矩阵表示区域之间的转移,其中矩阵的每个元素ai;j是当用户在区域i中时前往区域j的概率。 每个元素ai;j被计算为从i到j的中断总数除以给定集群组中用户的所有会话的中断总数。另外,矩阵由标记为IN和OUT的两个附加元素完成,这两个附加元素分别表示用户会话的开始和结束换句话说,aIN;j表示区域j是用户的起点的概率。相反,aiOUT表示区域i是用户会话的最后区域的概率。因此,aOUT;j<$0j和ai;IN<$0i。停留长度向量指示给定用户类型在以时间单位表示的每个区域中花费的平均时间。向量v i的每个元素被计算为所有元素的时间之和。用户访问区域i的次数除以访问该区域的总次数数据模型提供了双重效用。第一,它们用于描述不同群体用户的移动。如果需要,它们也是下一阶段的输入,即轨迹的合成生成。4.3. 第三阶段:生成合成痕迹此阶段的目标是使用前一阶段获得的数据模型生成合成数据集。生成合成跟踪的最重要优点是,生成的模型可以外推到具有其他功能的场景(例如,更改用户数量,构建,删除某些用户类型等)。此外,使用合成跟踪还保证了敏感信息的额外匿名化。合成数据也是一个三元素元组:time_stamp,user_id,ap_id>,在原始time_stamp,device_id,ap_id>元组之前。合成元组的用户标识符在合成生成期间自动递增地生成。每个用户跟踪使用移动模型随机生成。每次生成合成用户时,我们首先随机确定他们所属的用户类型,使用手动确定的权重或真实数据集的流行度分布。使用该用户组的转移矩阵的概率,确定入口点(区域)。该区域中的时间由停留时间向量确定,并随机生成,遵循指数分布。用户轨迹中的第二区域再次利用转移矩阵的概率来确定。这随后重复,直到随机选择区域OUT每个样本的时间、被映射到模拟时间,该模拟时间从时间0开始并且以模拟时间单位递增。用户的产生是通过增加其初始样本的时间与用户到达之间的平均时间来确定的。这个时间可以手动固定,或者我们可以使用从真实数据集获得的时间。指数分布用于生成这些用户到达。5. 案例研究:巴利阿里群岛大学校园我们应用我们的层次分解方法在巴利阿里群岛大学(UIB)的校园。UIB是一所中小型大学,拥有约14,000名学生,1,000名教师和800名行政人员。大学的Wi-Fi基础设施由425个AP组成,分布在校园的18栋建筑物中,这些建筑物位于城市的一个僻静区域,专门用于校园。在本节的其余部分,我们将详细介绍将第4中提出的方法应用于UIB案例的具体方面在本节的最后,还对流动性模型所获得的一些结果5.1. 数据收集部署在UIB中的AP来自Aruba Net-works公司。这些AP包括ALE技术(分析和定位引擎),该技术收集用户设备的位置和移动数据(Gouin-Vallerand和Rousseau,2019)。因此,我们很容易实现数据收集阶段使用ALE提供的方法。我们首先使用access_points方法来收集部署在摄像机的Wi-Fi基础设施中的所有AP其次,ALE通过三种主要方法提供关于设备/用户的位置的数据:接近度、存在和站。 我们选择邻近,因为它会注册所有检测到的用户设备的MAC地址,无论它们是否登录到Wi-Fi网络。方法邻近度还将用户设备与最近的AP相关联。 图 6显示了由方法proximity返回的JSON文件的示例。在这个例子中,只表示了关于一个设备和一个AP的数据,但是通常的执行返回所有AP的所有设备。请注意,我们的API供应商仅提供实时数据。对分析历史数据感兴趣的用户我们实现了一个Python脚本,它请求方法接近度,解析返回JSON文件,并将3元组存储到数据库中<时间戳,user_id,ap_id>用于覆盖区域中的每个设备。ALE被配置为返回单向散列的MAC地址以保护用户的隐私。散列函数在以下时间段内被加盐:有一天,以避免跟踪与真实用户的匹配。该脚本每分钟执行一次,因此数据库以1分钟的精度存储设备-AP连接。数据库将用户设备的散列MAC地址存储为设备标识符,并将AP的MAC地址存储为AP标识符。在这项研究中,我们在2020年11月9日至15日的一周内以分钟频率收集了Wi-Fi探头于本期间,由于COVID-19疫情,本集团实施部分流动限制。用户人数减少到通常的一半左右。此外,我们进行了几项研究,通过将本周的数据划分为不同的时间子集。更具体地说,考虑了9项研究:一周中的每一天,一个五个工作日,一个周末。我们选择了其中之一,11月9日星期一的实验,在本文的结果中进行分析所选实验是任何工作日的合适示例如果读者对其他结果感兴趣F.塔拉韦拉岛Lera和C. 格雷罗
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功