OSS与计算引擎融合:建表与存储分离实践

4 下载量 22 浏览量 更新于2024-08-27 收藏 637KB PDF 举报
本文主要探讨了存储与计算分离的概念,特别是在阿里云的OSS(对象存储服务)上构建数据表以及使用计算引擎进行数据处理的方法。OSS最初设计用于存储非结构化数据如图片、视频和文件,但随着技术的发展,它已具备了在大规模、通用存储基础上进行更复杂操作的能力。 首先,OSS作为阿里云飞天分布式系统的一部分,提供了海量、安全和高可靠的服务,支持RESTful API,这使得其具有很好的弹性扩展性,能够应对不断增长的数据需求。尽管OSS原本不是设计用来直接建立数据表的,但在2016年,通过亦龙大神的帮助,Hadoop社区将OSS集成到官方版本中,实现了阿里云存储与开源世界的深度结合。 文章强调了OSS在构建数据表上的易用性提升,日志服务(原SLS)的LogHub支持OSS上的实时写入,并且兼容多种表类型(如TextFile和Parquet),同时还支持数据压缩和分区配置。在计算引擎方面,阿里云的MaxCompute和E-MapReduce,以及开源计算引擎Presto等都已与OSS无缝对接,方便用户根据需要选择合适的计算工具。 存储与计算分离的趋势反映了现代技术环境的变化。传统的“Locality”理念不再主导,全量数据计算模式逐渐被列存、索引技术和高效计算平台取代。网络速度的提升、存储介质的革新以及计算平台的多样性都促使存储和计算走向独立服务化,通过高速网络实现数据传输和处理的分离。这种方式的优势在于可以最大化地利用各自服务的专业性,同时减少硬件和基础设施限制,促进技术创新。 选择OSS存储表数据的原因在于,它能在保持数据安全性和高可用性的前提下,利用其自身的存储优势,同时借助外部计算引擎实现高效的分析和处理,体现了“分层”工作方式中的灵活性和优化。这种方式不仅降低了建表门槛,还适应了大数据时代对存储和计算性能的更高要求。 总结来说,本文深入介绍了如何利用OSS进行存储与计算分离,展示了其在构建数据表和接入计算引擎方面的应用,以及这一技术趋势背后的行业变迁和优势。这对于企业在选择存储和计算解决方案时提供了有价值的参考。