没有合适的资源?快使用搜索试试~ 我知道了~
对大规模数据处理系统的马修·卡内尔引用此版本:马修·卡尼尔。对大规模数据处理系统的贡献。其他[cs.OH]。格勒诺布尔阿尔卑斯大学,2018年。英语。NNT:2018GREAM006。电话:01891825HAL ID:电话:01891825https://theses.hal.science/tel-01891825提交日期:2018年HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire论文要获得的等级格勒诺布尔阿尔卑斯大学社区博士专业:计算机科学部长令:2016年提交人马修·卡内尔论文由格勒诺布尔阿尔卑斯大学教授Noël De Palma指导在格勒诺布尔计算机科学实验室对大规模数据处理系统的对大规模论文于2018年2月5日在评审团面前公开答辩,评审团成员包括:西赫姆·阿梅-亚希亚CNRS/格勒诺布尔大学研究主任ALPES,审查员,评审团丹尼尔·哈根蒙特INP TOULOUSE - ENSEEIHT教授,报告员Jean-Marc MENAUD教授,IMT大西洋布列塔尼-卢瓦尔河地区,报告员诺埃尔·德·帕尔马格勒诺布尔阿尔卑斯大学教授,主任论文给我的家人。4内容。确认11摘要13法文摘要151引言191.1背景191.2动机201.3问题描述和挑战211.4捐款221.5大纲222背景概述252.1云计算和数据中心262.1.1云计算的出现262.1.2虚拟机和硬件虚拟化272.1.3容器282.1.4现代数据中心292.1.5群集调度程序292.1.631级监测2.2大规模数据处理322.2.1MapReduce范例322.2.2Apache Spark生态系统332.2.3分布式框架的性能342.2.4流处理框架352.3组件和块编程372.3.1基于组件的软件工程3756内容2.3.2基于流的编程382.3.3使用块编程393在线指标预测413.1导言423.2背景433.2.1监测433.2.2时间序列预测443.3系统描述453.3.1建筑453.3.2数据模型463.3.3线性回归473.3.4指标选择493.3.5优化493.4评估513.4.1设置513.4.2缩放513.4.3时间分配533.4.4负载处理533.4.5预测准确性543.5相关工作563.5.1时间系列563.5.2监测563.6结论574数据感知路由594.1引言604.2背景614.2.1流处理614.2.2流路由策略634.3位置感知路由654.3.1问题陈述654.3.2识别相关性664.3.3生成路由表684.3.4在线重新配置704.4评估734.4.1实验设置734.4.2使用合成工作负载的本地影响744.4.3在线优化的影响804.4.4重新配置协议验证844.5相关工作87内容74.5.1操作员实例调度。 . . . . . . . . . . . ..874.5.2有状态应用程序的负载平衡。... ... ... ... ... ... ... ...884.5.3共同定位相关键。... ... ... ... ... ... ... ... ... ... ... ... ... ... ...894.6结论905λ-区块915.1导言925.2背景945.2.1使用DAG94进行数据处理5.2.2基于组件的软件工程955.3λ-区块955.3.1术语955.3.2建筑965.3.3拓扑格式975.3.4101区实习生5.3.5执行引擎1035.4DAG操作1045.4.1类型检查1045.4.2仪器1055.4.3调试1075.4.4其他图形操作1075.5缓存/存储1085.6示例1095.6.1文字计数1095.6.2Twitter API和封装的wordcount1125.7评估1145.7.1性能1145.7.2发动机仪表1175.8相关工作1185.9结论1206结论123参考书目127以λ为单位的PageRank源代码-块1398个内容图列表2.1麻省理工学院刮擦。......................................................................... 403.1系统体系结构。.................................................................................. 463.2公制趋势案例。.................................................................................. 483.3在15分钟内处理的指标数量,数量变化从机数量和CPU内核数量。...............................................................513.4CPU负载和内存消耗,运行时为100核心15分钟。...................................................................................... 523.5预测指标的端到端过程的时间分布(使用90K指标进行平均)。533.6三种不同指标的测量和预测。.......................................................... 554.1一个简单的字数统计流应用程序。S发送句子,运算符A提取单词,B将其转换为小写,以及C计算每个单词的频率。.....................................................................624.2DAG的三个组件分别具有2、2和3个实例。A和B是无状态的,而C是有状态的。....................................................................................634.3部署有状态流应用程序,使用域分组链接POA和B、本地或随机分组链接POB和C以及字段分组链接POC和D664.4PO检测:每个实例计算其接收和发送的密钥对,并将最频繁的对保存在内存中。 674.5关键对的二分图,显示不同的权重对于顶点和边,即,对。.................................................................. 694.6在POI之间重新配置协议、转发路由表和密钥状态。(1)获取统计数据。(2)发送统计信息。(3)发送重构。(4)发送确认。(5)繁殖。(6)换钥匙。...................72910个数字列表4.7当60%局部性的平行性发生变化时的吞吐量4.8当100%局部性的平行性变化时的吞吐量4.9位置变化时的吞吐量,消息大小为12kB和不同的parallelism784.10 元组大小变化时的吞吐量,本地化率为80%和不同的parallelism794.11 #nevertrump标签在不同州的出现次数美国。.................................................................................................. 804.12 以6的并行度和1周的周期重新配置后获得的局部性和负载平衡。在线:每周重新配置。离线:一周后重新配置。基于哈希:不重新配置。........................................................................... 814.13 当考虑的边数变化时实现的局部性不同的平行现象。....................................................................................... 834.14 对于6的并行性、不同的填充大小和10 Gb/s,在重新配置或不重新配置的情况下吞吐量的演变带宽854.15 对于6的并行性、不同的填充大小和1Gb/s,在重新配置或不重新配置的情况下,吞吐量的演变带宽864.16 不同并行性的平均吞吐量,以及4kB的填充(在1Gb/s网络上)。通过重新配置,平均值在第一次重新配置后测量。.................................................... 875.1表示文件开始时计算单词的程序的图形-和"A"一起宁。.................................................................................... 945.2系统体系结构。.................................................................................. 975.3与程序计数错误关联的DAGThe为子图提供了bind_in和bind_out链接。..........................................1015.4类型检查1045.5有向图和Merkle树的签名依赖关系。108 5.6............................... 文字计数为黑盒。......................................................................................... 1125.7Twitter Wordcount的拓扑表示-Wordcount子图。.........................1145.8Twitter标签Wordcount。............................................................... 1165.9维基百科文件Wordcount。............................................................. 1165.10 维基百科超链接PageRank。............................................................1175.11 在不同条件下运行的Wordcount程序的仪器设置。................................................................................................ 118确认文件写一篇论文需要很大的精力,如果没有许多人的帮助,我是不可能找到这种精力的,因为我对他们负债累累。以下列表并非详尽无遗。我首先想到的是我的博士顾问,教授。帕尔马的圣诞节我想表达我的感激之情,感谢我给了我这个机会,感谢我这些年来在这个领域的指导,感谢我鼓励我采取主动,帮助我完善我的想法。我真的很喜欢挑战,感谢友好和信任的气氛。许多人要感谢辩护陪审团:我的两位评审员Daniel Hagimont教授和Jean-Marc Menaud教授花时间阅读了这篇论文并提供了有见地的评论,Sihem Amer-Yahia(研究主任)同意担任陪审团主席。我要感谢我的合著者艾哈迈德·埃尔·雷丹、文森特·勒罗伊、诺埃尔·德帕尔马、阿里·艾特-巴希尔、巴斯蒂安·戴恩、拉希德·莫赫塔里和亚格穆尔·吉泽姆·西纳尔。一起工作是一种乐趣,在这个过程中我学到了很多。我想向我在ERODS团队的同事们特别说明,感谢他们在咖啡馆里的激烈辩论、分享的饭菜、调试帮助,最重要的是,感谢他们之间的友谊。我非常没有他的宝贵投入,我可能不会开始攻读博士学位音乐艺术家Ratatat、Griz、Gramatik和Pretty Lights、莱比锡的Volk-shaus Biergarten以及Jorge Cham的所有博士漫画都极大地帮助了我的写作情绪,它们在这里更值得拥有。最后,但并非最不重要的是,非常感谢所有的支持,没有他们,一切都是可能的。非常感谢1112个确认摘要几十年来,互联网的基础已经建立在技术解决方案(开放协议、指数级硬件改进)和社会价值(网络中立性、全球连通性)的基础上,它向不同范式转变的能力不断给研究人员带来新的、令人兴奋的挑战。向云计算的转变并不新鲜;然而,这一领域正在扩大,而且很可能只是一个开始。随着越来越多的设备获得IP地址(范围从个人计算机到商品服务器、超级计算机、智能手机或更广泛的物联网设备),并在复杂的系统中产生和使用数据,需要存储、分析、聚合和重新分发这些数据。全球数以千计的数据中心,包括数以百计的数以千计的服务器,正在变得更加强大和复杂。在本文中,我们建议在不同的抽象层上分析数据中心系统的特定子领域,但为了同一个目的:提高大规模数据处理的效率。我们进行的第一项研究回答了以下问题:如何设计和集成一个可扩展的系统,该系统可以分析和存储数百万个计量指标,同时使用机器学习算法对其未来行为进行实时预测。这是由行业挑战驱动的,也是智能支持中心项目的一般范围。它的优势在于它与行业的直接联系,以及我们对我们研究的研究挑战提供的见解,随着开发的解决方案投入生产,它具有直接的行业影响。第二项研究提供了实时数据如何被摄取到数据中心并在相关数据内共址以进行处理的低级别优化,同时避免了网络瓶颈。 它的实现对传入数据的较小部分之间的关系进行统计分析,并由一个神谕决定如何处理这些数据。它保持最新1314摘要持续监控数据相关性的演变并重新生成优化的路由表。最后,我们的第三项研究深入研究了用于大规模数据分析的编程模型。我们意识到编写、运行、维护、共享和改进分布式程序以从分散的数据中提取智能信息是很困难的。虽然许多框架添加了抽象层以使此任务更容易,但我们更进一步,定义了一种以描述性而非编程方式编写数据处理计算的方法。这是通过将代码块组装成有向图来完成的,这比编写传统源代码带来了许多优势,例如以高级方式操作程序的能力。 数据模型与我们开发的参考框架一起,可以成为编写和执行程序的创新方法的基础,特别是对非专业人员。法文摘要近年来,组织转向云计算的趋势稳步增长,在全球范围内部署了数千个数据中心。这些中心可能包含数十万台计算机,这些计算机不断地产生和处理大量数据。因此,管理它们的系统变得越来越强大和复杂,为新的挑战打开了大门在本文中,我们建议监控指标的预测我们进行的第一项全面研究是智能支持中心项目的一部分。 该研究项目由几家专门从事IT基础设施监督和技术支持中心的公司以及两个专门从事机器学习、知识提取和系统的研究团队共同承担。其目标是在分布式基础设施上开发一套软件和方法,能够摄取监管代理收集的所有指标,以便存储和分析这些指标。它们的实时处理允许进行为此,我们提出并测试了一种分布式体系结构监控代理持续监控1516法文摘要时间序列,如正在运行的进程数或硬盘上分区的填充率。 这些度量是在预定义的时间段内计算的,通常在一分钟到几分钟之间,因此表示特定度量随时间的演变。一旦Cassandra是一个面向列的分布式数据库由于采用了对等通信和同步模型,因此没有单个故障点。 此外,它还具有高性能,并且至少可以扩展到数万个节点。因此,我们使用Cassandra作为一个弹性和权威的基础,用于存储所有的度量,以及学习到的预测模型参数。为了预测指标的未来行为,并在分析其通常趋势后,我们选择线性回归作为第一个机器学习算法,因为它的简单性和性能。 这种选择使我们能够提取一般趋势,同时避免由于峰值而导致的大量误报,这在系统监控中是常见的。 为了实现这一点,我们使用Spark,它的主要兴趣是在大量机器上分发任务,同时管理故障。经过大量优化后,我们获得了以线性方式扩展的性能,并且在大约一秒内预测了处理器内核上的指标。这一强大的解决方案可用于以最少的资源监控和预测大型机器群。第3章详细介绍了该体系结构及其评估。数据路由和位置在本研究中,我们关注的是实时到达分布式处理系统的数据。我们注意到,这些数据之间通常具有很强的相关性,这将允许在例如,在Twitter上,标签倾向于围绕地理区域增长,通常与外部事件有关。因此,对微消息执行数据分析的系统将对将处理特定标签的任务与处理特定地理区域的任务共定位以减少网络上的负载17我们建议实时我们在Apache Storm(一个实时分布式数据处理引擎)中实施了我们的解决方案,并衡量了收益:每秒可处理的消息数量(吞吐量)显著增加,高达150%,真实数据集复制了Twitter和Flickr的数据集。算法、其实现、数据集和获得的结果的详细信息在第4章中描述。λ-块我们最新的研究集中在大规模数据处理的编程模型上我们发现编写分布式程序是困难的,即使使用非专业人员难以访问的专业此外,在避免代码重复的同时维护和改进这些程序并不是一项容易因此,我们提出了λ-blocks,这是一个以描述性而非编程方式编写算法的开发环境 通过块库(实现常见任务的代码片段,或使用Spark等专用库),可以使用简单的数据模型来描述有向图,该图的顶点是块及其参数,链接是块之间的连接,有效地表示数据流通过绘制图形来编写程序有很多优点。 作为一个组件模型,λ-blocks表现出诸如黑盒(不需要知道组件的实现细节就可以使用它)、可重用性(一个组件可以很容易地属于多个图,并且图本身可以作为更大程序的子图重用)和替换(如果一个组件与另一个组件具有相同的接口,它可以替换它,例如,如果它表现出更好的性能)等属性。这个简单的图形模型,加上丰富的预编程组件库,使得在不编写源代码的情况下编写数据转换算法成为可能我们还实现了一个扩展模块系统,它允许在执行之前或执行18法文摘要例如,调试或因此,我们打开了一扇关于数据转换程序的推理之门就性能而言,我们比较了使用第5章详细介绍了λ-区组、使用示例第一章简介伯克利最著名的两个产品是LSD和Unix。我不认为这是巧合。»《讨厌Unix的人手册》[115]内容。1.1背景191.2动机201.3问题描述和挑战211.4捐款221.5大纲221.1上下文这篇论文是我在格勒诺布尔阿尔卑斯大学攻读博士学位的结果,更具体地说,是在格勒诺布尔计算机科学实验室的ERODS(高效和ROBust分布式系统)团队中完成的顾名思义,这个研究小组专注于计算机系统,特别是分布式系统。虽然不同的团队成员涵盖了许多领域(如多核系统、高性能计算、内核等),但我的研究重点是包括商品服务器在内的异构集群的编程19
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功