初探数据湖(初探数据湖(DataLake),到底有什么用?让我们来一窥究),到底有什么用?让我们来一窥究
竟竟...
一、前言
数据湖的概念最早是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、
维护成本,细节数据丢失等问题出现的。
数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移
到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服
务。这样的数据仓库,已经具有了数据湖的部分功能。
关于数据湖的定义,维基百科上是这样讲的:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。它按原样存
储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如
CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
但是随着大数据技术的融合发展,数据湖不断演变,汇集了各种技术,包括数据仓库、实时和高速数据流技术、数据挖掘、深
度学习、分布式存储和其他技术。逐渐发展成为一个可以存储所有结构化和非结构化任意规模数据,并可以运行不同类型的大
数据工具,对数据进行大数据处理、实时分析和机器学习等操作的统一数据管理平台。
二、现代数据架构
三、数据湖架构参考
结合目前开源的数据湖平台和组件,总结数据湖的基本参考架构如下:
数据湖架构-流程
评论0