数据湖存储架构选型指南:挑战、架构、选型checklist
版权申诉
53 浏览量
更新于2024-07-05
收藏 757KB PDF 举报
"数据湖存储架构选型.pdf"
数据湖存储架构选型是当前IT行业中非常重要的一部分,特别是在大数据时代,数据湖存储架构选型变得更加重要。数据湖是一个集中地存储所有原始数据的存储架构,可以存储结构化、半结构化和非结构化数据,包括图像、视频、音频等多种类型的数据。
数据湖的出现是为了解决传统数据仓库和数据 mart 的问题,例如数据孤岛、计算、管理、弹性等问题。数据湖可以提供统一、集中地存储所有原始数据,使用BI+AI来分析,不只是SQL。数据湖架构包括数据湖存储、数据湖加速、数据湖管理、元数据服务、数据开发、数据湖集成、数据治理、数据大屏、机器学习、数据报表、数据挖掘等多个部分。
数据湖架构选型需要考虑到多个方面,包括海量数据、数据规模、PB、EB、文件规模、亿级文件数据、超大目录、成本等因素。此外,还需要考虑到存储和计算分离、吞吐、性能、丰富的计算和场景、AI、训练、大数据、分析、交互式、实时计算、计算场景、EMR、ECS自建、云原生、混合云等多个方面。
在架构升级和迁移中,需要考虑到数据迁移、校验、作业迁移、比对、运维、治理、Ranger权限、审计等多个方面。同时,需要选择合适的“完美”选项,包括基于对象存储的大规模存储能力、大目录元数据操作能力、策略灵活的缓存加速能力、和计算打通优化的能力、支持数据湖新型表格存储的能力、归档/压缩/安全存储的能力、全面的大数据+AI生态支持、强大的迁移能力甚 至是无缝迁移能力等多个方面。
数据湖存储架构选型需要考虑到多个方面,需要选择合适的架构和技术来满足业务需求。同时,需要考虑到数据湖的安全性和可扩展性,以确保数据湖的稳定运行和安全性。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2022-01-25 上传
2022-11-15 上传
168 浏览量
2022-06-18 上传
2021-08-08 上传
2021-10-13 上传
Build前沿
- 粉丝: 1044
- 资源: 2233
最新资源
- 2020巨量引擎美妆白皮书精品报告2020.rar
- Grove:用于love2d的迷你图形库
- 易语言-易语言复制窗口组件后组件的排列计算+实现窗口滚动功能
- news-crawler:新闻检索器
- vertex-web-sdk:用于Vertex前端SDK代码库的Monorepo
- TDM:TDM是一个小型python库,可轻松进行数据操作
- WAD:Web应用开发
- 易语言-易语言高仿win8进度条源码 无模块/DLL
- 电信设备-基于信息融合的煤矿救灾机器人导航装置.zip
- lp-reactive-deprecated:这被合并到引擎中,而是使用内置引擎!
- Harbor Master-crx插件
- redroseDB
- 简单医生
- http_ng:下一代 HTTP 的描述
- Python-GUI-Sample:python GUI示例
- SourceInsight35760.zip