大数据BI发展：开源与商用生态解析

需积分: 10 87 浏览量更新于2024-07-23 收藏 1.59MB PDF 举报

本文档是一份关于2014年业界大数据BI发展的分享，由永洪科技公司提供，主要关注大数据领域的技术和生态。文章首先介绍了大数据的四个关键特性：数据量大（Volume）、处理速度快（Velocity）、数据类型多样（Variety）以及价值密度低（Veracity），强调了数据量的重要性，认为更多的数据往往胜过更先进的算法。在开源大数据生态方面，文档讲述了大数据的起源，尤其是谷歌在2003年发布的几个重要论文，如《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》和《Bigtable: A Distributed Storage System for Structured Data》，这些论文推动了大数据时代的到来。Hadoop生态系统随之兴起，包括Hadoop HDFS、Hadoop MapReduce、HBase和Hive等组件，构成了早期的大数据基础架构。然而，文中也指出Hadoop MapReduce并不适合实时计算，因为它的设计初衷在于批处理，而非低延迟场景。MapReduce框架的工作方式是计算节点主动拉取任务，而不是推送给它们，这可能导致延迟增加。此外，MapReduce任务的执行涉及到多次JVM进程的启动和停止，降低了实时响应速度。Hypertable作为另一款非Hadoop生态系统的产品，尽管在初期有一定的用户，但并未深入讨论。文章还提到，随着大数据的发展，谷歌等公司为了追求高扩展性，容忍了一定程度的延迟，这是在大数据处理中需要权衡的要素之一。整体来看，这份分享旨在帮助读者理解大数据BI系统的技术基础，并提供建设大数据BI系统的思考，对当时的业界动态和技术趋势进行了详尽的分析和探讨。对于对大数据和BI感兴趣的读者来说，这是一个宝贵的学习资料，可供免费下载。

www.yonghongtech.com

开源大数据生态圈

诞生：谷歌

大数据领袖谷歌，于2003年起发布一系列论文:

1. 《The Google File System 》

2. 《MapReduce: Simplified Data Processing on Large Clusters》

3. 《Bigtable: A Distributed Storage System for Structured Data》

战火被点燃，从此进入大数据时代

剩余23页未读，继续阅读

andy_wong_2014

粉丝: 0
资源: 1

大数据BI发展：开源与商用生态解析

大数据平台下SAP系统权限风险管控策略

毛永红：深入研究IO-LINK轴的应用

永红煤矿瓦斯综合治理技术：采前预抽、采中高位抽采与采后埋管策略

贾永红 数字图像处理

永红小煤窑火区治理效果分析

习题三龙永红版答案.doc

概率论与数理统计 龙永红1

阔永红DSP各章英文单词

永红煤矿采煤方法比选探讨

数字图像处理（贾永红）

最新资源

贾永红数字图像处理

概率论与数理统计龙永红1