Hadoop大数据处理中的压缩优化策略

16 浏览量更新于2024-08-27 收藏 350KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

Hadoop压缩实现分析压缩实现分析

Hadoop 作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在 Hadoop 系统中对数据进行压缩处

理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。在使用压缩方式方面，主要考虑

压缩速度和压缩文件的可分割性。综合所述，使用压缩的优点如下：节省数据占用的磁盘空间；加快数据在磁盘和网络中的传

输速度，从而提高系统的处理速度。

引子

随着云时代的来临，大数据（Big data）也获得了越来越多的关注。著云台的分析师团队认为，大数据（Big data）通常用来

形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数

据分析常和云计算联系到一起，因为实时的大型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电脑

分配工作。

“大数据”在互联网行业指的是这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如

此庞大，以至于不能用 G 或 T 来衡量。所以如何高效的处理分析大数据的问题摆在了面前。对于大数据的处理优化方式有很

多种，本文中主要介绍在使用 Hadoop 平台中对数据进行压缩处理来提高数据处理效率。

压缩简介

Hadoop 作为一个较通用的海量数据处理平台，每次运算都会需要处理大量数据，我们会在 Hadoop 系统中对数据进行压缩处

理来优化磁盘使用率，提高数据在磁盘和网络中的传输速度，从而提高系统处理数据的效率。在使用压缩方式方面，主要考虑

压缩速度和压缩文件的可分割性。综合所述，使用压缩的优点如下：

1. 节省数据占用的磁盘空间；

2. 加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度。

压缩格式

Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名（比如 lzo，gz，bzip2 等）。Hadoop 会

根据压缩格式的扩展名自动选择相对应的解码器来解压数据，此过程完全是 Hadoop 自动处理，我们只需要确保输入的压缩文

件有扩展名。

Hadoop 对每个压缩格式的支持, 详细见下表：

表 1. 压缩格式

如果压缩的文件没有扩展名，则需要在执行 MapReduce 任务的时候指定输入格式。

hadoop jar /usr/home/hadoop/hadoop-0.20.2/contrib/streaming/

hadoop-streaming-0.20.2-CD H3B4.jar -file /usr/home/hadoop/hello/mapper.py -mapper /

usr/home/hadoop/hello/mapper.py -file /usr/home/hadoop/hello/

reducer.py -reducer /usr/home/hadoop/hello/reducer.py -input lzotest -output result4 -

jobconf mapred.reduce.tasks=1*-inputformatorg.apache.hadoop.mapred.LzoTextInputFormat*

性能对比

Hadoop 下各种压缩算法的压缩比，压缩时间，解压时间见下表:

表 2. 性能对比

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38637764

粉丝: 10
资源: 953

Hadoop大数据处理中的压缩优化策略

Java写的hadoop压缩worldcount例子

深入云计算 Hadoop源代码分析

Hadoop压缩：数据压缩技术在Hadoop中的应用

Hadoop数据压缩与编码方案

hadoop文件压缩与压缩算法的选择

Hadoop中的数据压缩技术

使用Hadoop实现MapReduce任务

基于hadoop电影数据分析的代码

Hadoop与doris区别

hadoop,hive笔试题

网易云hadoop系统

华为云安装hadoop

hadoop-3.2.1.tar.gz

帮我搭建Hadoop单机版，使用MapReduce解决姓名分析问题

hadoop图片处理项目

Hadoop的面试问题及答案

hadoop集群搭建csdn

用shell脚本自动化安装hadoop

搭建Hadoop单机版，使用MapReduce解决姓名分析问题的代码编写环境

基于hadoop云盘项目得商业化

最新资源