阿里云EMR 2.0:打造新一代开源大数据平台
157 浏览量
更新于2024-08-03
收藏 1.34MB PDF 举报
“阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf”
阿里云EMR(Elastic MapReduce)2.0是一款基于开源大数据技术的云原生平台,旨在解决传统大数据处理中的痛点,如性能、成本、运维效率和数据可靠性。EMR 2.0在原有基础上进行了重大升级,提供了全新的特性和功能,以适应不断发展的大数据需求。
自2016年以来,EMR经历了多个重要里程碑,包括公有云商业化版本的发布、打破CloudSort世界纪录、国际化进程、TPC-DS性能登顶以及JindoFS的发布,这些都展示了EMR在大数据领域的技术创新和领导地位。2020年后,EMR进一步推出了Starrocks和Doris等组件,增强了数据分析能力,并且在2022年发布了新版控制台,提升了用户体验和架构性能。
EMR 2.0新特性主要集中在以下几个方面:
1. **全新平台体验**:集群创建和扩容速度显著提升,达到2倍以上和3倍以上的优化,支持弹性扩展至千台以上节点。同时,加入了故障节点迁移和集群诊断工具,提高了系统的稳定性和可维护性。
2. **全托管服务**:EMR Notebook(基于Jupyter)提供了一个集成的开发环境,Workflow(Dolphinscheduler)支持工作流管理,Dataworks则为数据开发和治理提供了平台。这些工具降低了用户的运维成本,使得数据开发和管理更加高效。
3. **资源形态创新**:EMR支持ECS(包括Intel, AMD, 倚天)、神龙和ECI等不同类型的硬件资源,通过EMRonECS和EMRonACK(Kubernetes)实现了对传统计算和容器化计算的支持。EMRServerless的引入,使得资源利用率和性价比得到大幅提升。
4. **存储与分析**:采用OSS-HDFS(由JindoData驱动)作为存储资源,提供高性能的数据处理。新版数据湖、Datalake、OLAP、实时数据流(Dataflow)和DataServ则涵盖了从数据存储到分析的全方位场景,满足了多样化的大数据分析需求。
5. **数据分析与服务**:除了传统的批量分析外,EMR 2.0还支持实时流处理和复杂的数据服务,使得数据能够更快地转化为业务价值。
通过这些创新,阿里云EMR 2.0不仅重新定义了开源大数据平台,也构建了下一代开源大数据基础设施,为企业提供了一站式的大数据解决方案,实现性能优化、成本节约、运维简化和数据治理的有效管理。
2024-01-25 上传
2021-12-09 上传
2022-12-24 上传
2022-11-30 上传
2022-03-26 上传
2022-07-14 上传
2022-11-30 上传
九层之台起于累土
- 粉丝: 376
- 资源: 1448
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常