百度大数据平台:探索与应用

5星 · 超过95%的资源 需积分: 13 41 下载量 98 浏览量 更新于2024-07-23 1 收藏 931KB PDF 举报
"刘立萍在Hadoop与大数据技术大会上分享了百度大数据平台的构建和应用,涉及数据仓库体系、分布式存储、计算、调度等多个层面,旨在解决大规模数据处理和分析的问题。" 刘立萍,作为百度基础架构部数据平台技术经理,在HBTC 2012会议上详细阐述了百度如何应对大数据挑战。百度面临的数据规模庞大,包括网页和超链数据10PB到50PB,日志数据达100PB,以及80PB的数据仓库和1TB的广告数据。为了处理这些海量数据,百度的数据团队构建了一个全面的数据平台。 该平台的核心组成部分包括: 1. **分布式存储**:百度使用KV存储系统如Mola和Table存储如CCDB,为大数据提供基础存储解决方案。 2. **计算能力**:支持批量计算(如Abaci、Peta)、小批量计算(Mini-BatchProcess)和流式计算(StreamProcess),满足不同计算需求。 3. **调度系统**:通过底层资源管理工具Matrix和上层通用调度系统Long-Scheduler,实现高效的任务调度和资源分配。 4. **数据仓库体系**:包括数据格式化(Logging/PB)、传输(BigPipe、LogSaver)、数据仓库(DW)、报表及多维分析引擎(Doris)、AdHoc查询引擎(QueryEngine)以及商业智能工具(BaiduInsight)。 数据仓库设计的目标是服务于策略分析、统计分析和数据挖掘等应用场景,提供类SQL工具进行快速Ad-hoc查询,提高数据访问效率。设计思路强调数据的完整性、准确性、一致性,以及易理解性,通过数据建模和一致的数据结构优化数据管理。此外,FastIN和FastOUT机制分别关注数据的快速写入和访问速度。 数据仓库还促进了非结构化高价值数据的治理和分层,通过基础数据提供和数据集市(Data-Mart)的建立,形成数据管理的基本结构,以特定领域数据主题分片来加速处理并固化领域逻辑。这样,99%的原始日志访问需求可以通过BIEE/Dashboard等工具进行隐藏,便于进行统计分析、流量预测、异常检测和数据挖掘。 百度大数据平台是一个综合性的解决方案,涵盖了数据的存储、处理、分析和应用,展示了在大数据环境下企业如何构建高效的数据基础设施以支持业务决策和创新。