秒针系统大数据实践:Cloudera Impala与PostgreSQL
3星 · 超过75%的资源 需积分: 9 83 浏览量
更新于2024-07-23
1
收藏 449KB PDF 举报
"刘诚忠:Running Cloudera Impala on PostgreSQL"
这篇文档是2013年中国大数据技术大会上,秒针技术经理刘诚忠的演讲内容,主要探讨了为何选择Cloudera Impala作为大数据处理的基础,以及如何在PostgreSQL上运行Cloudera Impala。刘诚忠详细介绍了Cloudera Impala的功能,并对未来的可能性进行了展望。
在秒针系统(Miaozhen)中,每天处理30亿次广告印象,每天早晨需要扫描20TB的数据生成报告,这需要强大的数据处理能力。在引入Hadoop之前,他们使用的是PostgreSQL 9.1集群和一个简单的代理,可以实现2TB数据的快速扫描。此外,还有针对移动监测的自建分布式计算系统,基于RabbitMQ和C++编写的Map-Reduce,处理3000万到5亿的广告印象。
然而,随着数据量的增加和业务需求的变化,出现了数据库集群、对SQL on Hadoop的需求,以及各种不同类型的数据。刘诚忠提出了对SQL接口的需求,因为大多数数据是结构化的。于是,他开始研究SQL on Hadoop的解决方案,如Google的Dremel、Apache Drill、Cloudera Impala、Facebook的Presto以及EMC的Greenplum/Pivotal HDFS。
Cloudera Impala被选中的原因在于它是一种并行处理(MPP)引擎,特别强调内存处理,能实现从小规模到大规模的JOIN操作,这对于实时或近实时的大数据分析至关重要。与传统的MapReduce和Hive、Pig相比,Impala提供了显著的性能提升,尤其是在延迟方面。
刘诚忠的演讲还涉及了在Cloudera Impala上的实践,包括性能测试和优化,尽管具体内容未在摘要中详述,但可以推测这些实践可能包括了数据模型设计、查询优化、硬件配置等。演讲最后,刘诚忠对Cloudera Impala的未来进行了展望,可能涉及到更多的功能增强、性能提升以及更广泛的行业应用。
这篇演讲揭示了大数据背景下,Cloudera Impala作为一种高效、低延迟的SQL查询工具,如何成为应对海量数据处理挑战的关键,同时展现了在PostgreSQL之上运行Impala的潜力,为业界提供了一种创新的数据分析解决方案。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2014-05-29 上传
2021-05-02 上传
2016-12-11 上传
2021-06-30 上传
2021-04-29 上传
点击了解资源详情
涿郡小民
- 粉丝: 429
- 资源: 87
最新资源
- 计算电网中的电压降 3f-1f:计算径向电网中的电压降-matlab开发
- 手机小游戏网站蓝白.zip
- yl_236-daima_c,c语言通信系统源码,c语言
- FLASH+ASP投票程序(完整版)
- Haddock-crx插件
- jquery-salary-calculator
- 3 波段参数均衡器:由用户友好的 GUI 控制的 3 波段参数均衡器的 Simulink 模型。-matlab开发
- bashrc:我的BASH点文件
- C#图像水印,为图片增加光晕效果
- anchoredphotography:anchoredphotographyfl.com的官方资料库
- Usb_Cdc,c语言源码分析软件,c语言
- ekşi sözlük derdini sikeyim butonu-crx插件
- 安卓可抖视v1.2.9免费版.txt打包整理.zip
- 响应式婚纱网站.zip
- DTMF 发生器和接收器:DTMF 发生器和接收器-matlab开发
- socketio-v1