阿里云EMR 2.0:打造新一代开源大数据平台
86 浏览量
更新于2024-08-03
收藏 1.34MB PDF 举报
“阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf”
阿里云EMR(Elastic MapReduce)2.0是一款基于开源大数据技术的云原生平台,旨在解决传统大数据处理中的痛点,如性能、成本、运维效率和数据可靠性。EMR 2.0在原有基础上进行了重大升级,提供了全新的特性和功能,以适应不断发展的大数据需求。
自2016年以来,EMR经历了多个重要里程碑,包括公有云商业化版本的发布、打破CloudSort世界纪录、国际化进程、TPC-DS性能登顶以及JindoFS的发布,这些都展示了EMR在大数据领域的技术创新和领导地位。2020年后,EMR进一步推出了Starrocks和Doris等组件,增强了数据分析能力,并且在2022年发布了新版控制台,提升了用户体验和架构性能。
EMR 2.0新特性主要集中在以下几个方面:
1. **全新平台体验**:集群创建和扩容速度显著提升,达到2倍以上和3倍以上的优化,支持弹性扩展至千台以上节点。同时,加入了故障节点迁移和集群诊断工具,提高了系统的稳定性和可维护性。
2. **全托管服务**:EMR Notebook(基于Jupyter)提供了一个集成的开发环境,Workflow(Dolphinscheduler)支持工作流管理,Dataworks则为数据开发和治理提供了平台。这些工具降低了用户的运维成本,使得数据开发和管理更加高效。
3. **资源形态创新**:EMR支持ECS(包括Intel, AMD, 倚天)、神龙和ECI等不同类型的硬件资源,通过EMRonECS和EMRonACK(Kubernetes)实现了对传统计算和容器化计算的支持。EMRServerless的引入,使得资源利用率和性价比得到大幅提升。
4. **存储与分析**:采用OSS-HDFS(由JindoData驱动)作为存储资源,提供高性能的数据处理。新版数据湖、Datalake、OLAP、实时数据流(Dataflow)和DataServ则涵盖了从数据存储到分析的全方位场景,满足了多样化的大数据分析需求。
5. **数据分析与服务**:除了传统的批量分析外,EMR 2.0还支持实时流处理和复杂的数据服务,使得数据能够更快地转化为业务价值。
通过这些创新,阿里云EMR 2.0不仅重新定义了开源大数据平台,也构建了下一代开源大数据基础设施,为企业提供了一站式的大数据解决方案,实现性能优化、成本节约、运维简化和数据治理的有效管理。
2024-01-25 上传
2021-12-09 上传
2022-12-24 上传
2022-11-30 上传
2022-03-26 上传
2022-07-14 上传
2022-11-30 上传
九层之台起于累土
- 粉丝: 380
- 资源: 1448
最新资源
- JavaScript实现的高效pomodoro时钟教程
- CMake 3.25.3版本发布:程序员必备构建工具
- 直流无刷电机控制技术项目源码集合
- Ak Kamal电子安全客户端加载器-CRX插件介绍
- 揭露流氓软件:月息背后的秘密
- 京东自动抢购茅台脚本指南:如何设置eid与fp参数
- 动态格式化Matlab轴刻度标签 - ticklabelformat实用教程
- DSTUHack2021后端接口与Go语言实现解析
- CMake 3.25.2版本Linux软件包发布
- Node.js网络数据抓取技术深入解析
- QRSorteios-crx扩展:优化税务文件扫描流程
- 掌握JavaScript中的算法技巧
- Rails+React打造MF员工租房解决方案
- Utsanjan:自学成才的UI/UX设计师与技术博客作者
- CMake 3.25.2版本发布,支持Windows x86_64架构
- AR_RENTAL平台:HTML技术在增强现实领域的应用