秒针系统大数据实践：Cloudera Impala与PostgreSQL

3星 · 超过75%的资源需积分: 9 83 浏览量更新于2024-07-23 1 收藏 449KB PDF 举报

"刘诚忠：Running Cloudera Impala on PostgreSQL" 这篇文档是2013年中国大数据技术大会上，秒针技术经理刘诚忠的演讲内容，主要探讨了为何选择Cloudera Impala作为大数据处理的基础，以及如何在PostgreSQL上运行Cloudera Impala。刘诚忠详细介绍了Cloudera Impala的功能，并对未来的可能性进行了展望。在秒针系统（Miaozhen）中，每天处理30亿次广告印象，每天早晨需要扫描20TB的数据生成报告，这需要强大的数据处理能力。在引入Hadoop之前，他们使用的是PostgreSQL 9.1集群和一个简单的代理，可以实现2TB数据的快速扫描。此外，还有针对移动监测的自建分布式计算系统，基于RabbitMQ和C++编写的Map-Reduce，处理3000万到5亿的广告印象。然而，随着数据量的增加和业务需求的变化，出现了数据库集群、对SQL on Hadoop的需求，以及各种不同类型的数据。刘诚忠提出了对SQL接口的需求，因为大多数数据是结构化的。于是，他开始研究SQL on Hadoop的解决方案，如Google的Dremel、Apache Drill、Cloudera Impala、Facebook的Presto以及EMC的Greenplum/Pivotal HDFS。 Cloudera Impala被选中的原因在于它是一种并行处理（MPP）引擎，特别强调内存处理，能实现从小规模到大规模的JOIN操作，这对于实时或近实时的大数据分析至关重要。与传统的MapReduce和Hive、Pig相比，Impala提供了显著的性能提升，尤其是在延迟方面。刘诚忠的演讲还涉及了在Cloudera Impala上的实践，包括性能测试和优化，尽管具体内容未在摘要中详述，但可以推测这些实践可能包括了数据模型设计、查询优化、硬件配置等。演讲最后，刘诚忠对Cloudera Impala的未来进行了展望，可能涉及到更多的功能增强、性能提升以及更广泛的行业应用。这篇演讲揭示了大数据背景下，Cloudera Impala作为一种高效、低延迟的SQL查询工具，如何成为应对海量数据处理挑战的关键，同时展现了在PostgreSQL之上运行Impala的潜力，为业界提供了一种创新的数据分析解决方案。

Before Hadoop

• Scrat

– PostgreSQL 9.1 cluster

– Write a simple proxy

– <2s for 2TB data scan

• Mobile Monitor

– Hadoop-like distribute computing system

– Rabbit MQ + 3 computing servers

– Write a Map-Reduce in C++

– Handles 30 millions to 500 millions Ads impression

剩余23页未读，继续阅读

涿郡小民

粉丝: 429
资源: 87

秒针系统大数据实践：Cloudera Impala与PostgreSQL

SequoiaSQL：基于Cloudera Impala的非关系型数据库SQL执行引擎解析

开启大数据分析新纪元：Cloudera Impala简介与优势

Cloudera Impala JDBC驱动包下载与安装指南

王涛：基于Cloudera Impala的非关系型数据库SQL执行引擎

cloudera:Public Cloudera工具集

Cloudera Impala

awscdh:StartStop Cloudera CDH 5.3 和 AWS EC2 实例

Cloudera_Hadoop_UserMetrics:查询Cloudera Manager API以生成作业数据以确定用户指标

CDH5.11.1集群配置指南：使用Cloudera Manager

CDH离线安装全攻略：从ClouderaManager到HA配置

最新资源