海量数据分析架构：互联网企业与银行实践

5星 · 超过95%的资源需积分: 5 36 浏览量更新于2024-07-27 收藏 2.06MB PPTX 举报

本资源是一份关于海量数据分析架构的PPT，主要涵盖了传统BI系统、互联网企业所采用的工具和架构，以及特定案例——AdMaster的数据分析实践。内容包括数据仓库、ETL、OLAP、报告工具、数据挖掘工具、开源BI选项，以及针对海量数据的解决方案，如高性能计算、分布式系统、MPP数据库、Hadoop生态系统，并提及了Google、Facebook、Twitter等公司的数据分析技术。正文：在面对海量数据的挑战时，传统的BI（Business Intelligence）数据分析系统往往力不从心。传统的BI系统通常由DataWarehousingTool（数据仓库工具）、ETLTool（数据抽取、转换、加载工具）、OLAPServer（在线分析处理服务器）、ReportingTool（报告工具）和DataMiningTool（数据挖掘工具）组成。这些工具在处理大规模数据时可能存在性能、成本和扩展性的问题。为了应对海量数据，许多企业转向了硬件DSM（Distributed Shared Memory）分布式系统和高性能并行计算方案。例如，EMC的Greenplum和Teradata的Asterdata都是基于MPP（Massively Parallel Processing）架构，结合行列混合存储和MapReduce技术，以实现更高效的数据处理和分析。同时，Hadoop作为一个分布式数据仓库技术，通过RCFile、Hive等工具，提供了处理大规模数据的能力。 Google、Facebook和Twitter等互联网巨头也开发了一系列专用于海量数据分析的技术。Google有MapReduce、GFS（Google File System）、Bigtable、Chubby、Sawzall和Percolator等；Facebook则使用Hadoop、HBase、Hive、Zookeeper、Pig、Scribe和Cassandra等；Twitter选择了Hadoop、Storm、Kestrel、ElephantDB和Cassandra等技术栈。具体到AdMaster的业务场景，其面临的特点是海量数据集、大量常用维度、高频率的adhoc查询、数据质量问题以及各种格式的数据集。因此，AdMaster可能采用了流式计算（如Apache Storm）来实现并行计数和增量统计，以适应其业务需求的实时性和灵活性。海量数据分析架构是一个综合了多种技术和工具的复杂体系，它需要根据业务特性进行定制化设计，以确保数据的高效处理、准确分析和快速响应。随着大数据技术的发展，越来越多的开源和商业化解决方案应运而生，为企业提供了更多选择，以满足他们在海量数据面前的挑战。

商业 OLAP Server

Oracle Hyperion Essbase

IBM Cognos Enterprise Server(MOLAP)

SAP BO Analysis

SAS DW

MicroStrategy Intelligence Server

Microsoft Analysis Service

剩余17页未读，继续阅读

ketsuki

粉丝: 0
资源: 1

海量数据分析架构：互联网企业与银行实践

大数据技术分享大数据处理与分析 AdMaster海量数据分析架构 共18页.pptx

大数据采集架构知识总结

数据平台架构与主流技术栈 pdf

基于数据湖架构下的数据治理体系 pdf

HBase为什么可以存储海量数据

基于hadoop的电影数据分析系统

hadoop基于底层大量物理服务器组成的集群对海量数据进行

原有大数据湖向AI大模型演进的数据架构

hadoop海量数据存储

just京东城市时空数据引擎2.0架构实践

最新资源

大数据技术分享大数据处理与分析 AdMaster海量数据分析架构共18页.pptx