百度大数据平台:探索与应用
5星 · 超过95%的资源 需积分: 13 135 浏览量
更新于2024-07-23
1
收藏 931KB PDF 举报
"刘立萍在Hadoop与大数据技术大会上分享了百度大数据平台的构建和应用,涉及数据仓库体系、分布式存储、计算、调度等多个层面,旨在解决大规模数据处理和分析的问题。"
刘立萍,作为百度基础架构部数据平台技术经理,在HBTC 2012会议上详细阐述了百度如何应对大数据挑战。百度面临的数据规模庞大,包括网页和超链数据10PB到50PB,日志数据达100PB,以及80PB的数据仓库和1TB的广告数据。为了处理这些海量数据,百度的数据团队构建了一个全面的数据平台。
该平台的核心组成部分包括:
1. **分布式存储**:百度使用KV存储系统如Mola和Table存储如CCDB,为大数据提供基础存储解决方案。
2. **计算能力**:支持批量计算(如Abaci、Peta)、小批量计算(Mini-BatchProcess)和流式计算(StreamProcess),满足不同计算需求。
3. **调度系统**:通过底层资源管理工具Matrix和上层通用调度系统Long-Scheduler,实现高效的任务调度和资源分配。
4. **数据仓库体系**:包括数据格式化(Logging/PB)、传输(BigPipe、LogSaver)、数据仓库(DW)、报表及多维分析引擎(Doris)、AdHoc查询引擎(QueryEngine)以及商业智能工具(BaiduInsight)。
数据仓库设计的目标是服务于策略分析、统计分析和数据挖掘等应用场景,提供类SQL工具进行快速Ad-hoc查询,提高数据访问效率。设计思路强调数据的完整性、准确性、一致性,以及易理解性,通过数据建模和一致的数据结构优化数据管理。此外,FastIN和FastOUT机制分别关注数据的快速写入和访问速度。
数据仓库还促进了非结构化高价值数据的治理和分层,通过基础数据提供和数据集市(Data-Mart)的建立,形成数据管理的基本结构,以特定领域数据主题分片来加速处理并固化领域逻辑。这样,99%的原始日志访问需求可以通过BIEE/Dashboard等工具进行隐藏,便于进行统计分析、流量预测、异常检测和数据挖掘。
百度大数据平台是一个综合性的解决方案,涵盖了数据的存储、处理、分析和应用,展示了在大数据环境下企业如何构建高效的数据基础设施以支持业务决策和创新。
2009-03-10 上传
2015-05-09 上传
2019-05-15 上传
2021-11-22 上传
点击了解资源详情
点击了解资源详情
阿斗
- 粉丝: 28
- 资源: 167
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程