没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:Elsevier沙特国王大学学报电信领域的大数据分析:治理、架构和用例Mohamed Zouheir Kastouni,Ayoub Ait Lahcen摩洛哥凯尼特拉伊本托费尔大学国立工程学院工程学系阿提奇莱因福奥文章历史记录:收到2020年2020年11月6日修订2020年11月9日接受2020年11月20日网上发售保留字:大数据分析大数据项目数据治理方法论大数据项目大数据电信用例A B S T R A C T随着客户使用电信服务的行为发生变化,加上当前全球健康状况(主要是由于Covid-19),数据流量激增,电信运营商拥有利用大数据分析(BDA)解决方案创造新收入来源的黄金机会。为了建立BDA项目,我们面临着几个挑战,特别是在从大量现有工具中选择技术解决方案以及选择管理项目和数据的政府方法方面。与电信行业有关的大多数研究文件没有从头到尾讨论BDA项目的执行情况。本研究的目的是针对BDA电信项目,即项目本研究的最后一部分介绍了有用的BDA用例,这些用例涉及能够创造收入和优化成本的应用程序。这项工作将有助于BDA项目的实施,并使运营商更好地了解需要关注的基本方面,因此,这项研究将有助于实现这一目标。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言27592.电信行业数据分析的历史3.电信运营商面临的大数据分析挑战和优势3.1.BDA挑战27603.1.1.技术挑战27603.1.2.组织挑战27613.2.BDA福利27614.大数据分析项目:主要支柱27614.1.项目管理方法27614.2.建筑设计和基础设施27644.3.数据管理27654.4.数据团队27675.大数据分析在电信行业的应用27675.1.消费者流失预测27675.2.提供倾向2768*通讯作者。电子邮件地址:ayoub. univ-ibntofail.ac.ma(A. Ait Lahcen)。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2020.11.0241319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comMohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报27595.3.防止收入流失5.4.客户体验改善27685.5.主动护理27685.6.用于预防COVID-19的移动位置数据27685.7.社交网络分析(SNA)和多SIM卡检测27685.8.BDA公共安全27695.9.节能27695.10.实时交通分析27696.结论和未来的工作2769竞争利益声明参考文献27691. 介绍2019冠状病毒病大流行、休假和居家订单打破了数据消费记录。事实上,电信客户的使用已经发生了巨大的变化。某些被认为是例外的做法已经变得普遍,即远程工作、电子学习、在线游戏、IpTv和流媒体。带宽越来越饱和,生成的数据每分钟都在呈指数级增长。电信运营商在数据量方面成为最富有的公司之一,然而,他们仍然不知道如何有效地利用数据。问题是要了解他们如何利用这些数据来降低运营成本,提供个性化的客户体验,降低流失率,并开发新的收入来源。这个问题的答案是太明显了在过去的十年中,一些电信运营商已经启动了BDA项目,但未能取得预期的结果。事实上,麦肯锡对80家投资于BDA平台的电信运营商进行 了 一 项 调 查 , 其 中 不 到 8% 的 运 营 商 实 现 了 超 过 10% 的 利 润(Bughin,2016 b),几乎三分之一的运营商实现了约0%的利润。2015年,Gartner预测60%的BDA项目将失败(Gartner,2015),主要原因是缺乏适当的管理,加上缺乏清晰的愿景和技能短缺。JacquesBughin发现BDA项目的投资回报率可以受到Bughin(2016 a)的高度积极影响:首先,架构的选择会影响解决方案的性能和可扩展性。第二,项目的所有权必须来自组织的最高层。最后是治理模型,它必须涵盖与项目和数据治理相关的所有方面。其他研究(Otto,2011; Zahid等人,2019年)指出,在管理BDA项目和数据方面仍然缺乏指导方针,并且缺乏电信项目的参考架构。本研究的目的是为电信参与者提供一个基于最佳实践的框架,使他们能够确保其BDA项目实施成功的最关键方面,即项目和数据治理,解决方案架构和项目所为了实现这一点,我们进行了文献综述相关的BDA在电信行业的实施。本次审查的重点正是BDABDA的架构和BDA的技能要求。接下来,我们描述和分析了几家电信运营商已经实施的最流行的方法和架构,并描述了这种举措取得成功所需的相关能力。在本工作的最后一部分,我们列出了在电信部门成功实施的BDA用例。2. 电信行业数据分析的历史数据分析及其应用的概念对某些人来说可能是新的,然而,回顾文献,我们发现数据分析可以总结为使用数据来帮助决策和业务活动,这表明这个概念并不新(Davenport,2005)。事实上,罗马领导人凯撒的故事在电信行业,在第一代移动网络1G期间,数据分析主要集中在业务和运营效率上。生成的数据与简单的数据交易有关,如短信和语音通话。设备渗透率将促进创建数据平台以使用分析,但这一点非常有限。因此,分析软件开发包括内部和专有计划。90年代初,第二代2G网络采用TDMA和CDMA数字通信,并带来了一系列新业务,如文本消息、图片消息、MMS(多媒体消息)、传真和语音邮件。第二代设备的存储和处理能力有限。结合所有这些,电信提供商能够执行一些数据密集型操作,例如自动化频繁生成的报告和仪表板(例如销售,收入)。. 等)。这些技术解决方案是建立在旧的传统数据库和数据仓库的基础上的,这些数据库和数据仓库使用独特的信息积累、提取和分析技术模式。分析能力是基于1970年代的统计方法。Fig. 1. 大数据分析四大支柱Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2760自2000年以来,2G移动设备逐渐被3G产品所取代,3G网络和手机都设计成2Mbps的速度,以满足通过蜂窝系统进行多媒体传输的需求在此阶段,电信运营商从专注于资产行为分析转向专注于客户行为分析。新的数据类型已经可用,特别是图形和视频,扩大了被利用数据的范围,并为电信运营商提供了复杂的分析能力。4G LTE(长期演进)网络的首次部署于2009年在瑞典斯德哥尔摩,允许100 Mbps的下载和50 Mbps的上传(爱立信,2009年)。该技术允许与其先前技术相比减少50%的往返延迟,使得高质量视频通话和在线游戏等实时应用成为可能(Ménard等人,2012年)。4G网络还通过移动应用程序促进了服务的发展,从而产生了大量数据第四代移动网络的出现标志着移动生态系统中分析使用的转折点。电信提供商开始对网络性能和用户行为产生新的见解,这有助于创造新的收入流,改善客户体验,提高客户保留率(Ott,2014)。同样,Hadoop生态系统的引入(Oussous等人, 2018)在通信服务提供商(CSP)的解决方案组合中,彻底改变了数据分析领域,因为它提供了新的工具和技术来克服旧的传统数据库和数据仓库在性能、可扩展性和分析工具方面的局限性。事实上,Hadoop在集群上运行,允许在数千台服务器上存储大量数据。资源的可伸缩性是通过简单地增加集群节点的数量来实现的。在Hadoop生态系统的主要组件中,我们引用Hadoop分布式文件系统(HDFS),这是Hadoop应用程序使用的主要数据存储系统。它存储大文件通过将它们分成块并在多个服务器上复制它们。2017年,Hadoop 3.0带来了几项HDFS增强功能,支持额外的NameNodes,并通过擦除编码功能实现更好的数据压缩。Hadoop生态系统的另外两个主要组件是MapReduce(Mohammad et al.,2020),这是一个大规模数据处理的编程模型,和YARN,这是一个框架的作业调度和集群资源管理。 关于实时数据收集,Apache Kafka支持从异构源收集数据,并将结果传递给多个消费者。这些数据然后由Apache Spark进行处理,这是一个流处理框架,适用于高容量,高可靠性的流处理工作负载。最后,为了获得更快的查询结果,Hive或Presto是满足用户需求的合适引擎。与Hadoop不同,关系数据库管理系统(RDBMS)是一种结构化数据库,其中数据存储在行和列中,并以表的形式呈现。对数据的操作是通过SQL语言完成的。这种结构化RDB的方法在以下方面限制了其能力:Hadoop是一个免费的开源软件框架。相反,RDBMS是一个许可软件,需要购买才能充分使用功能。表1显示了传统解决方案和Hadoop生态系统之间的功能比较。3. 大数据分析对电信运营商的挑战和好处在开始任何BDA计划之前,确定可能阻碍项目实施的挑战以及解决方案交付后可以获得的收益是非常重要的在本节中,我们介绍了电信行业实施大数据的主要3.1. BDA挑战电信运营商在处理由连接设备、客户行为、社交媒体网络、呼叫数据记录、政府部门和计费信息产生的大量数据方面面临困难。I. 我和玛拉卡。布朗基于他们对南非实施大数据分析的研究,将挑战分为三个部分(Malaka和Brown,2015),技术,组织和环境。在这次审查中,我们将只讨论前两个部分,在我看来,这两个部分对BDA的实施更有影响3.1.1. 技术挑战a) 缺乏电信BDA实现的参考体系结构:BDA体系结构可能是数据架构师的一个脑筋急转弯,因为它需要大量不同数据源的集成。事实上,数据整合是一个重大挑战,因为运营商的组织孤岛模式以产品和服务开发为中心。将这些数据片段整合到一个集中式平台中可能是一项具有挑战性的任务(Malaka和Brown,2015)。b) 数据质量差:根据麦肯锡对全球273家电信运营商进行的调查(Bughin,2016 b),作者宣布,BDA项目失败的主要原因是数据质量差这可以通过电信运营商解决方案组合中包含的众多系统和功能以及管理的数据量来解释表1Hadoop生态系统与传统RDBMS常规能力解决方案Hadoop生态系统数据量:当数据量从低到中(100字节到100 TB)时,RDBMS工作得更好。但是当数据量很大(PB或更大)时,RDBMS无法提供良好的结果。● 数据多样性:无法处理非结构化数据。摄取速度低高数据种类结构化和非结构化容量(TB)(PB)及更多吞吐量(数据处理的速度):传统的数据库无法实现更高的吞吐量,复杂响应时间小时/天分钟Apache Hadoop● 可伸缩性:RDBMS支持垂直可伸缩性,数据处理离线离线和实时数据对象关系工作键/值工作表对支持添加资源(CPU、内存.. . 等)到同一台机器,而Hadoop支持水平可伸缩性,包括向集群中添加新机器。存储成本高低硬件配置高端服务器商品硬件维护成本高低●●●Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2761c) 性能和存储:社交媒体、OTT和移动应用对数据流量的需求不断增长,这促使运营商寻找新的方法来管理和利用他们的数据。事实上,基于传统数据库(RDBMS)的传统解决方案在性能、存储和处理不同类型的数据(准确地说,非结构化数据)方面已经显示出其局限性,这超出了RDBMS的范围3.1.2. 组织挑战a) 所有权和控制权:P. Russom在他的调查中发现,BDA解决方案最常见的所有者是业务智能(BI)团队(Russom,2011)。这是因为大多数组织都通过单个技术团队集中尽可能多的BI和数据仓库(DWH)功能,这不是正确的配置。事实上,根据T.皮尔逊和R. Wegener,BDA项目不被视为一项技术计划,他们更多地 将 其 视 为 一 项 需 要 技 术 悟 性 的 业 务 计 划 ( Pearson 和Wegener,2013)。b) 技能短缺:事实上,BDA职业生涯中最具挑战性的是找到一个合格的团队.这可以解释为,与商业智能相比,BDA总是被认为是新技术,而大多数组织已经建立了几十年。高级分析需要员工在不同领域具有深厚的知识,从数据科学到全球隐私法,以及对电信业务的了解(Pearson和Wegener,2013)。3.2. BDA福利在电信行业,BDA是一个游戏规则改变者,因为它为运营商提供了利用新数据集和提取有价值信息以更好地了解客户行为的机会。因此,运营商将提供更有针对性的报价,从而提高收入并降低成本(Nwanga等人, 2015年)。无可否认,BDA解决方案为电信运营商提供了处理不同类型数据的方法,无论是结构化还是非结构化数据,无论其生成速度如何。这些数据可以转化为可利用的客户见解。通信服务提供商(CSP)可以开发准确的客户档案,更好的客户细分和适当的客户指标。此外,BDA还可以通 过 启 用 实 时 欺 诈 检 测 应 用 程 序 来 帮 助 防 止 某 些 收 入 泄 漏 情况(Chen,2016)。BDA还可以在许多其他领域产生重大影响,例如:服务质量改进(Jain等人, 2016年)。运营商能够获得对其网络的可操作见解,以使其耐用,优化和可扩展。体验质量(Rueda等人,2018年)可以通过高性能服务,快速反馈和个性化优惠在每个接触点进行改进。实时呼叫数据记录(CDR)监控,以检测异常行为。网络主动护理和异常检测(Parwez等人,2017年)。网络流量结合实时掉话率分析,提供呼叫路由优化。根据客户偏好自动生成优惠。例如,菲律宾电信公司GlobeTelecom 利 用 大 数 据 分 析 将 促 销 活 动 的 有 效 性 提 高 了 600%(Pearson,2010)。典型要求用于该用例的数据是订户利用社交媒体和网络数据与营销活动相结合,以实现更好的营销活动投资回报(Pearson,2010)。4. 大数据分析项目:主要支柱BDA项目的实施需要特别关注,无论是在技术方面还是在治理方面。实际上,项目要取得成功,就必须一方面确定管理项目和数据的最适当方法,另一方面确定要实施的目标技术和功能结构同样重要的是,确定项目每个阶段所需的技能,以便在需要时可用基于文献综述,为了涵盖上述挑战,我们在本章中描述了大数据电信领域流行的方法和架构的几个示例,以便为读者提供现有解决方案的概述,并使他们能够选择最能满足其需求的解决方案。4.1. 项目治理方法随着越来越多的通信服务提供商(CSP)开发BDA项目,项目管理者面临着新的挑战。大数据分析项目的范围比标准软件开发项目大得多。在项目实施过程中,需要考虑数据和分析建模技术BDA项目成功的另一个挑战性方面来自于业务决策者为快速取得成果而施加的巨大压力。A. Tokujiang等人研究了通过对PMI流程进行一些调整来实施PMI方法用于BDA项目治理的可能性(Tokujiang,2019)。该研究详细介绍了PMI方法的各个知识领域,并为管理BDA项目提供了有形的积极结果下面是作者为适应BDA项目的具体情况而提出的PMI知识领域的调整:项目范围管理:A. Tokueland等人增加了四个子阶段:数据生成、数据获取、数据存储和数据分析。项目进度管理和项目成本管理:由于缺乏内部能力,作者建议使用迭代技术,包括仅给出所需成本和项目计划的概述,图二、CRISP-DM方法。●●●●●●●Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2762项目的开始。在项目进展过程中应提供更多细节。项目质量管理:作者建议,表2数据挖掘方法比较。KDD SEMMA CRISP-DM聘请质量专家,以便有效地管理数据质量领域。了解应用程序领域未涵盖业务理解项目风险管理:作者强调了项目风险管理的重要性,降低与基础设施、安全和团队知识相关的风险。另一项研究由法国研究人员B. Ponsard等人, 他研究了更适合数据科学项目的特定治理方法(Ponsard等人, 2018年)。根据他们的文献综述,他们确定了一系列方法-选择并创建一个数据集,样本数据将执行发现了解预处理和清理探索数据转换修改数据准备选择合适的数据挖掘任务模型建模选择数据挖掘算法调整模型评价法评价可 以 应用 于 BDA 项 目 的方 法 。 我 们 引用 , 数 据 库 中的 知 识 发 现(Fayyad,1996年),样本探索修改模型评估(SEMMA)和跨行业标准流程,巩固发现的知识部署数据挖掘(CRISP-DM)(Eckerson等人,2000年)。以下是这三种方法的简要总结。1. 数据库中的知识发现KDD被定义为在数据集中识别有效的、新颖的、潜在有用的模式以做出重要决策的非平凡过程。KDD方法被认为是数据挖掘的开创性方法,催生了其他方法(SEMMA,CRISP-DM)。知识发现过程是迭代的和交互的,由九个步骤组成:a)发展对应用领域的理解,包括理解最终用户的目标和知识发现过程将发生的环境。b)选择和创建数据集,包括识别将用于知识发现的数据。c)预处理和清洗,包括通过清洗数据来提高数据的可靠性。(d)数据转换,包括为数据挖掘准备更好的数据。e)选择合适的数据挖掘任务,与数据挖掘类型(分类、回归或聚类)的选择有关。f)选择数据挖掘算法,包括选择用于搜索模式的特定方法。g)调整模型,包括调整模型参数直到达到最佳结果。h)评估,包括根据第一步中定义的目标来评估和解释所挖掘的i)巩固发现的知识,包括将知识纳入另一个系统以供进一步行动。2. SEMMA方法学第三种流行的项目治理方法是SEMMA。 它是由SAS研究所设计的。SEMMA是Sample、Explore、Modify、Model和Assess的缩写。a)样本,包括分析大数据集的一小部分。b)探索,包括在数据中寻找模式,目的是获得一些信息。c)修改,包括创建、修改或消除研究变量。d)模型,包括创建最适合项目目标的有效模型。e)评估,包括评估结果的有用性和可靠性。3. CRISP-DM方法跨行业数据挖掘标准流程CRISP-DM(见图2)将数据挖掘项目流程的治理分为六个阶段:业务理解、数据理解、数据准备、建模、评估和部署。这些阶段帮助组织了解项目实施过程,并提供规划和执行大数据分析项目时要遵循的路线图。CRISP-DM、SEMMA和KDD有很多相似之处。表2显示了这三种方法的不同阶段之间的相似性。在分析所描述的方法时,作者,B。Ponsard等人,强调了一些局限性,即缺乏对基础设施和运营活动的覆盖,以及与项目进展有关的沟通薄弱第三个限制是部署阶段的任务很轻,这与缺乏模板或指导方针有关。为了提供更完整的治理模式,B. Ponsard等人提出了一种方法,解决了从设计到安装的基础结构方面,改善了项目进度的沟通,最后,结合了所有敏捷性规则,这将提高BDA项目的成功率。所提出的方法由三个主要阶段组成:第一个阶段是情境和意识,这是BDA概念的介绍阶段,也是衡量利益相关者成熟度的阶段。其次,理解用例阶段,包括识别BDA解决方案所设想的需求。第三,试点实施阶段,包括数据理解、数据建模、模型评估和解决方案部署 。 通 过 对 上 述 两 项 研 究 的 分 析 , 发 现 A. Tokuelian et al. 和 B.Ponsard等人,为了确保更全面地覆盖BDA项目的不同领域,PMI适应提案能够覆盖相当大的大数据特性,但它缺乏解决标准软件项目中不存在的一些重要数据挖掘方面。例如,数据探索阶段没有涉及任何知识领域。该阶段允许项目团队描述数据质量、数据完整性和数据价值。另一个例子要提到,没有适当处理在适应的PMI方法中,是数据挖掘评估过程的迭代方面的集成,这可能会在项目执行期间产生令人不快的意外。在成本管理和计划管理方面,大量的项目经理不会随着滚动的浪潮而做得很好由于缺乏专家意见,作为一种变通办法,逐步阐述技术。这可能导致预算超支和不遵守时间表。因此,在所有需要的专家聚集之后开始项目将是一个明智的决定,否则,失败的风险将非常大。在质量管理方面,所提出的方法只涉及实现高水平项目质量的过程,而没有深入到数据质量管理。因此,建立一个标准化的框架来处理与数据质量有关的问题,同时描述提供高质量、相关和有价值数据的技术和工具,这将是非常重要的。风险管理领域是一个关键领域,应密切关注,以避免任何灾难性后果。以下,我们将列举两个在电信部门非常常见的风险实例,这些风险需要由Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2763图3.第三章。BDA项目管理的PMI和CRISP-DM方法的结合项目经理。一是资源稀缺性和波动性。第二个是由于特别优惠或客户行为的变化而导致的流量迅速膨胀。项目经理还应跟踪采购管理,必须特别注意开放源码解决方案,以降低拥有成本。最后一点评论与“适应性PMI方法”缺乏敏捷性方面的覆盖有关。这需要解决,以便在项目执行期间接受业务需求变更方面具有更大的灵活性B. Ponsard等人,更适合数据科学项目,但缺乏与PMI方法学大量涵盖和描述的某些方面相关的细节,特别是在集成、规划和通信管理方面。此外,我们关于基础设施部分,鉴于其复杂性和与其他外部解决方案的大量互动,其管理流程应进一步详细说明。电信行业的BDA项目实施可以被视为一个IT项目,但它绝对需要考虑与数据科学项目执行相关的方面这是为什么,为了管理BDA电信项目,我们提出了PMI方法和敏捷CRISP-DM之间的融合,PMI方法完美地覆盖了软件开发项目的不同阶段,敏捷CRISP-DM很好地解决了数据科学项目的管理步骤。这两种方法的结合必须明智地考虑,以便在过程实施期间保持一定的灵活性,并避免给项目带来新的复杂性水平(见图3)。融合这两种方法的一个选择是:首先,将CRISP-DM的业务理解阶段纳入PMI的规划阶段,因为后者已经涵盖了与客户需求收集相关的所有要素。第二,CRISP-DM的数据理解阶段在PMI的计划和执行阶段之间的定位。事实上,在开始任何实现步骤之前,探索现有数据以了解其内容,衡量其复杂性并决定它们是否足以实现项目目标是非常重要的。第三,将CRISP-DM的剩余阶段放在PMI执行阶段之后,如果模型表现不佳或业务需求未得到满足,则可以循环到规划阶段。最后,在CRISP-DM评估阶段之后立即执行PMI部署和关闭阶段。见图4。 Lambda架构。Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2764图五. 卡帕建筑另一个值得探索的选择是建立一个这必将为CSP做出宝贵的贡献。4.2. 建筑设计和基础设施电信运营商正坐在一座金矿上。它们生成大量数据,每天可达到数十亿个CDR/事件这些数据可以是客户数据、使用数据或网络数据。有效地收集、存储、处理和分析这些数据量对数据采集运营商来说是一个真正的挑战基础设施需要具有高计算能力和存储空间。它还需要灵活性来分析不同的数据格式。因此,设计最合适的架构来解决这些技术复杂性并满足业务需求非常重要。两种BDA架构被广泛实现,但形式不同:Lambda架构和Kappa架构。Lambda的第一次实现是在2011年。它允许处理流和批处理数据的部分。这种架构在电信运营商中实施得最多,因为它使他们能够满足实时KPI方面的业务要求,并且还提供基于历史数据的见解。 Lambda架构(见图11) 4)包括三个主要层:a)批处理层:它专注于容错。它将数据视为不可变的,并从数据集计算视图批处理周期的持续时间取决于处理的数据量。b)速度层:其目标是通过提供查询最新数据的有效方法来弥补批处理层的高延迟。c)服务层:它合并来自两个先前层的结果,并进行数据索引,以提供低延迟视图和容易的用户Con-2000,Kappa架构,在电信行业并不像它的前身那样受欢迎。它始于2014年,旨在通过将所有内容都视为流数据来解决Lambda架构的复杂性(见图1)。5)。该架构首先将数据临时存储在Kafka等消息传递系统中,然后,流处理引擎读取数据并将其转换为可分析的格式;该格式将存储到分析数据库中。为了解决BDA解决方案的复杂性,F。Su等人提出了一基于五层设计的大数据架构(Su等人,a)数据收集层:允许从不同的网络元件收集不同类型的数据。b)数据存储层:基于HDFS集群的分布式存储架构。c)ETL层:允许提取不同类型的数据,并在加载到数据库之前将其转换为适当的格式d)数据分析层:通过基于数据特征部署特定模型和算法,从数据中发现知识和见解。 采用的分析聚类研究基于Hadoop/Spark和MPP数据库。这个想法是通过Spark实现批处理,并基于MPP数据库的数据仓库进行快速查询。e)数据可视化/应用层:它使用户能够可视化已经由四个先前层准备的数据所采用的技术是地理信息系统和电子海图。还进行了其他研究,以便为电信部门的BDA项目提出一个参考架构一个重要的文献综述所做的H。Zahid等人,其中作者提出了一种名为LambdaTel的架构(Lambda指的是Lambda架构(见图1))。4),和TEL to Telecommunications),已经在称为Darbi的电信解决方案中实现,使得能够同时执行批处理和流数据处理(Zahid等人,2019年)。该架构由七层组成:1. 连接层:该层负责收集电信运营商内部的不同数据源数据收集是通过应用程序编程接口(API)的实现完成的,或者通过数据库(SQL和NoSQL),物联网馈送和其他电信数据的连接器完成的2. 集成层:该层负责集成收集的数据,并将结果插入数据湖。所提出的逻辑是将每个数据源存储在其相关的数据库中(例如,Neo4J中 的 社 交 网 络 数 据 , MangoDB 中 的 CDR ) , 然 后 使 用 APIController在不同商店之间进行协调。作者建议使用MongoDB,因为文档数据库是存储和检索数据的强大方式,允许开发人员快速移动。3. 批处理层:该层负责对从主数据库接收的电信数据进行批处理。作者建议根据速度要求的标准来区分任务。需要运行得更快的将通过Spark处理,其他的通过Map Reduce处理。4. 流层:这一层负责处理实时流.作者建议使用Apache Kafka进行数据摄取,使用Apache Spark Streaming功能进行数据处理。5. 服务层:该层准备处理后的数据(批处理和流处理),以显示最终用户仪表板。6. 接口层:此层将所有先前层(后端层)与仪表板层(前端层)组合在一起。7. 仪表板层:这一层涉及显示仪表板,供各种电信终端用户查看。它位于架构的顶部,并回顾所描述的两个架构,我们注意到它们都共享收集、集成和处理Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2765层次。然而,F.Su等人提出了一个融合的架构,包括一个数据仓库(DWH)模块,这将是吸引电信运营商。这将产生若干积极的财政和技术影响。一方面,就投资收购新DWH平台而言,将无额外需要另一方面,由于消除了DWH和数据湖位于两台独立机器中时可能发生的网络延迟,技术性能将得到增强然而,该架构缺乏实时流处理,这将需要在收集和处理模块中添加新的组件,并且还需要提升硬件资源。H. Zahid等人(LambdaTEL)正在使用Lambda架构模型,以确保流和批处理模式。当然,这种类型的架构可以覆盖大多数电信运营商的需求,但仍然存在可以改进的领域,以优化运营商的数据,而无需进行巨大的投资或复杂的 这个想法是设计一种架构,它将结合Lambda和Kappa架构的最佳效果(Feick等人,2018年),同时具有高效率和成本效益。Lambda架构的不方便之处在于它的高成本,这是由于维护批处理和流式API。可能会想到的问题是,是否可以只使用一种处理模式(流或批处理)而不是两种,以处理所有数据类型(实时和历史),并保证相同或更好的结果?一个选项可以是从Lambda中删除实时处理,并保留批处理模式仅用于流式传输。第二种选择是将Kappa容量用于流处理和批处理。在本文中,我们将只关注第二种选择。实际上,出于几个原因,使用流模式来处理一方面,需要扩展Kafka存储容量,与Hdfs存储相比,这可能非常昂贵。另一方面,超出一定大小的存储扩展,由于分区和代理之间的双射(单个分区用于单个代理),将不可能添加更多容量一个解决方案是在timetable平台上扩展存储(例如Hdfs或Hive),并在注入Kafka之前将数据集分解为许多小块这种情况需要大量的工作和更多的资源来重新创建数据的原始顺序(在从Hdfs/Hive到Kafka注入的检索期间),这也可能非常昂贵。在2019年,Uber提出了一个解决上述限制的提议,并提出了一个新的这是基于以下假设:数据仓库中的数据必须按时间进行分区必须进行作业分类(例如,无状态、聚合.. . 等等)。处理模型之间的区别:Kappa+架构的优势在于:经济高效的解决方案。只有一个API需要维护。资源的最佳利用。只有一个保留分区来处理历史数据。一个单一的作业可以处理所有的分区,不像批处理模式,我们必须做分割成几个较小的作业,并协调它们。结果开始显示的权利后,分区的处理结束我们快速恢复时,有一个分区处理过程中的失败只有出现问题的分区会被重新处理,而不是所有的批处理.因此,由于Uber数据和电信运营商的数据之间的高度相似性,在电信运营商内实现这种新架构并在处理性能和成本效益方面评估结果是合适的4.3. 数据治理在文献中,数据治理是指为了定义如何访问和操纵数据资产以及由组织中的谁访问和操纵而采用的策略和过程。数据治理框架(DataGovernance Framework,DGF)被定义为然而,数据质量通常由数据满足业务需求的能力决定(Olson,2003)。电信运营商经常犯的一个错误是他们混淆了数据质量管理和数据治理,数据质量管理包括提高数据质量的活动。这可以通过数据治理和数据质量管理之间的密切联系来解释,从数据的角度来看,数据质量管理是一种公司资产。数据治理对于保护电信运营商的数据和资产至关重要了解到电信部门数据的生产和使用发展的速度有多快,需要对数据治理进行特别考虑。Mark Newman(Newman,2019)对在CSP中担任数据分析角色的人员进行了一项调查,了解在管理和利用数据期间遇到的挑战。与会者指出的主要原因是:缺乏一致的数据模型:一半的受访者认为数据模型的不一致性是利用数据的主要障碍。这是因为每个CSP这种配置需要大量的努力,使数据可重用的其他解决方案。在利用数据方面进展缓慢:这并因此,在采取行动利用数据时,必须衡量所获得的收益人才匮乏:人才资源匮乏是另一个关键挑战。社区支助方案意识到拥有内部专门知识的重要性数据质量差:拥有干净、正确和完整的数据将对AI和ML的结果产生巨大影响。博斯曼-帕特尔TM论坛的人工智能和客户体验副总裁说,在他与CSP的经验,数据质量排名这是运营商面临的头号挑战。数据治理:有两个主要方面需要说明:第一,遵守法规,第二,为确保收集,处理和分发数据的正确方法而定义的规则。马克·纽曼提出的解决这些挑战的战略基于七个轴:●●●●●●●●●●●●●Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报2766创建愿景:拥有愿景是成功的数据治理计划的基础。最高管理层必须充分参与愿景的定义,并拥有所有权。设置治理:作者建议建立一个数据治理框架,这将有助于提高以客户为中心的运营效率。它还可以发挥创新催化剂的作用。征求他人避免筒仓组织:根据作者的说法,将所有的分析经验集中在一个团队上肯定会减缓分析计划的部署。分析技能应该分布在整个组织中,中心团队应该非常小,负责架构和数据治理。跟踪旅程:为了成功部署愿景,需要设置里程碑,以衡量实现的进展。应该研究失败和困难,以便在今后避免。考虑边缘:CSP必须将边缘计算的使用视为数据分析策略的主轴,而不是次要的。招聘所需的技能也必须是一个优先事项。迁移到云:电信运营商应该认真考虑云选项,因为它可以在灵活性,可扩展性和效率方面产生一些积极的影响。2019年7月,AT T投资20亿美元,将非网络应用迁移到Azure云。在电信行业,使用掌握的高质量数据被广泛视为一种竞争优势。Boris Otto 将电信行业内的数据治理分解为三个子集( Otto ,2011):a)组织目标:包括正式和功能目标。b)组织形式:包括为实现组织c)组织转型:包括转型过程和组织变革。Boris Otto领导了一项比较研究(Otto,2011年),研究电信行业的两大参与者,即英国电信(BT Group)和德国电信(DeutscheTel- ekom),对上述数据治理框架的实施情况进行了比较。作者强调了电信行业数据保密与其他行业相比的特殊性,其特点是消费者互动频繁,产生的数据量大,以及数据安全和隐私方面的监管要求英国电信于1997年开始其数据治理计划,在那里他们发起了由当时的业务职能部门CIO集团赞助的信息管理(IM)计划。该计划的目的是确定机会,以更好地利用投资在信息系统在英国电信电信公司。数据质量是需要解决的首要问题1998年,获得了为期一年的数据质量软件许可证。牌照费已在上线后的前三个月内收回1999年,英国电信成立了IM论坛,该论坛涵盖了数据质量项目的管理:确定数据质量项目的机会,规划和预算数据质量活动/流程,并确保与BT的整体业务目标保持一致2000年,项目小组制定了数据质量方法,包括五个阶段:1. 问题和机会识别阶段:旨在识别阻碍业务目标的数据质量问题。2. 诊断阶段:旨在通过数据发现和数据分析来评估数据质量水平。3. 提案阶段:旨在交付商业提案,并确保业务团队对项目的所有权。4. 再工程或实现阶段:它涵盖了解决方案的设计和实现。5. 巩固阶段:它确保了一个持久的解决方案。关于德国电信,他们决定在2006年建立组织单位,专门负责解决数据质量管理问题。2007年4月,德国电信成立了两个数据质量管理部门。第一个部门属于业务职能部门,负责整合相关的业务需求到数据。第二个部门位于中央IT部门,负责提出数据质量管理的概念,例如定义数据治理的标准,制定指导方针和规则以确保高数据质量。 与此同时,一个可持续的数据质量项目已经启动,以建立一个框架,界定与数据活动相关的责任。Boris Otto分析的结论是,两家被研究的电信运营商能够估计实施数据治理计划所带来的业务收益。作者补充说,英国电信的数据治理组织设计似乎更有利于为公司创造利润。2016年,电信管理论坛(TM Forum)是致力于为电信行业制定标准的组织,提出了一个实施数据治理的框架(Wray,2016),基于六个步骤:1. 定义和调整:第一步是定义一个数据治理策略,通过明确的目标和方法完美地解决业务2. 角色和职责:第二步首先是识别不同的数据类型,并将它们分配给它们的所有者。第二,定义每个所有者在监控和控制数据方面的角色和责任。3. 策略和流程:首先,这一步涵盖了数据治理所需的各种流程的开发。第二,将这些过程分配给其所有者。4. 测量和监控:这一步包括定义测量方法和度量。5. 选择技术:这一步骤包括确定能够应用数据治理框架的工具。6. 闭环:最后一步是检查数据治理框架应用程序对业务目标的贡献。在我们的文献回顾中,我们注意到数据治理的主题还没有得到研究人员的充分探讨Boris Otto后者在电信运营商中最受欢迎,因为它对分析项目有直接影响TM Forum框架通过融合电信行业内数据管理方法和流程的最佳实践来填补这一●●●●●●●Mohamed Zouheir Kastouni和A.艾特·拉赫森沙特国王大学学报27674.4. 数据团队人是任何大数据分析项目最重要的资产,团队成员的素质对项目的成功至关重要由于与大数据分析相关的人才稀缺,公司正在努力招聘具有合适技能的合适员工。一些公司转向内部招聘,组建大数据分析团队。然而
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功