百度大数据平台:探索与应用
5星 · 超过95%的资源 需积分: 13 98 浏览量
更新于2024-07-23
1
收藏 931KB PDF 举报
"刘立萍在Hadoop与大数据技术大会上分享了百度大数据平台的构建和应用,涉及数据仓库体系、分布式存储、计算、调度等多个层面,旨在解决大规模数据处理和分析的问题。"
刘立萍,作为百度基础架构部数据平台技术经理,在HBTC 2012会议上详细阐述了百度如何应对大数据挑战。百度面临的数据规模庞大,包括网页和超链数据10PB到50PB,日志数据达100PB,以及80PB的数据仓库和1TB的广告数据。为了处理这些海量数据,百度的数据团队构建了一个全面的数据平台。
该平台的核心组成部分包括:
1. **分布式存储**:百度使用KV存储系统如Mola和Table存储如CCDB,为大数据提供基础存储解决方案。
2. **计算能力**:支持批量计算(如Abaci、Peta)、小批量计算(Mini-BatchProcess)和流式计算(StreamProcess),满足不同计算需求。
3. **调度系统**:通过底层资源管理工具Matrix和上层通用调度系统Long-Scheduler,实现高效的任务调度和资源分配。
4. **数据仓库体系**:包括数据格式化(Logging/PB)、传输(BigPipe、LogSaver)、数据仓库(DW)、报表及多维分析引擎(Doris)、AdHoc查询引擎(QueryEngine)以及商业智能工具(BaiduInsight)。
数据仓库设计的目标是服务于策略分析、统计分析和数据挖掘等应用场景,提供类SQL工具进行快速Ad-hoc查询,提高数据访问效率。设计思路强调数据的完整性、准确性、一致性,以及易理解性,通过数据建模和一致的数据结构优化数据管理。此外,FastIN和FastOUT机制分别关注数据的快速写入和访问速度。
数据仓库还促进了非结构化高价值数据的治理和分层,通过基础数据提供和数据集市(Data-Mart)的建立,形成数据管理的基本结构,以特定领域数据主题分片来加速处理并固化领域逻辑。这样,99%的原始日志访问需求可以通过BIEE/Dashboard等工具进行隐藏,便于进行统计分析、流量预测、异常检测和数据挖掘。
百度大数据平台是一个综合性的解决方案,涵盖了数据的存储、处理、分析和应用,展示了在大数据环境下企业如何构建高效的数据基础设施以支持业务决策和创新。
2009-03-10 上传
2015-05-09 上传
2019-05-15 上传
2021-11-22 上传
点击了解资源详情
点击了解资源详情
阿斗
- 粉丝: 28
- 资源: 167
最新资源
- 掌握Jive for Android SDK:示例应用的使用指南
- Python中的贝叶斯建模与概率编程指南
- 自动化NBA球员统计分析与电子邮件报告工具
- 下载安卓购物经理带源代码完整项目
- 图片压缩包中的内容解密
- C++基础教程视频-数据类型与运算符详解
- 探索Java中的曼德布罗图形绘制
- VTK9.3.0 64位SDK包发布,图像处理开发利器
- 自导向运载平台的行业设计方案解读
- 自定义 Datadog 代理检查:Python 实现与应用
- 基于Python实现的商品推荐系统源码与项目说明
- PMing繁体版字体下载,设计师必备素材
- 软件工程餐厅项目存储库:Java语言实践
- 康佳LED55R6000U电视机固件升级指南
- Sublime Text状态栏插件:ShowOpenFiles功能详解
- 一站式部署thinksns社交系统,小白轻松上手