编译Hadoop 2.7.4集成Snappy压缩：详细步骤

5星 · 超过95%的资源需积分: 29 34 浏览量更新于2024-09-09 2 收藏 133KB PDF 举报

"关于在Hadoop 2.7.4中启用Snappy压缩的详细步骤" 在大数据处理领域，Hadoop是一个关键的开源框架，用于分布式存储和计算。Snappy是一种高效的压缩和解压缩库，特别适合于提升Hadoop集群中的数据传输速度和降低存储需求。在Hadoop 2.7.4版本中，默认可能不支持Snappy压缩，但可以通过编译源码来添加这一支持。以下是一份详细的指南，介绍如何在Hadoop 2.7.4中编译源码以启用Snappy压缩。首先，理解压缩在HBase中的重要性。HBase作为基于Hadoop的分布式数据库，处理大量数据时，合适的压缩算法可以显著减少存储空间，同时优化网络带宽的使用。尽管压缩会增加CPU负载，但通常认为这是值得的，因为它能够换取更高的IO吞吐量和更有效的磁盘空间利用。比较不同的压缩算法，如GZIP、LZO和Snappy，可以看出Snappy在压缩效率和解压缩速度上都有优秀的表现，尤其是在解压缩速度方面接近LZO。在默认情况下，Hadoop可能没有加载Snappy的本地库。当运行`hadoop checknative`命令时，可能会看到类似如下的警告： ``` snappy:false ``` 这表明系统未找到Snappy的本地库。为了启用Snappy，你需要按照以下步骤操作： 1. **下载Hadoop源码**：你可以从Apache官方镜像站点（例如http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4-src.tar.gz）下载Hadoop 2.7.4的源码包，并进行解压。 2. **编译源码**：进入解压后的源码目录，你需要执行一系列编译命令。首先，确保所有依赖项已安装，包括SNAPPY的开发库。在Linux环境中，这通常意味着安装`libsnappy-dev`。然后，配置并编译源码，使用以下命令： ``` cd hadoop-2.7.4-src ./configure --with-snappy make ``` 3. **编译生成Snappy的动态链接库**：编译过程将生成一个名为`libsnappy.so`的文件，这是Hadoop需要的本地库。确认文件位于正确的位置，通常是在`lib/native`目录下。 4. **设置环境变量**：为了让Hadoop能够找到新编译的Snappy库，需要更新HADOOP_OPTS环境变量，添加对Snappy库的路径引用。在你的`bashrc`或`bash_profile`文件中添加： ``` export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=/path/to/hadoop-2.7.4/lib/native" ``` 替换`/path/to/hadoop-2.7.4`为实际的Hadoop安装目录。 5. **验证设置**：重新启动Hadoop服务后，再次运行`hadoop checknative`，你应该能看到Snappy显示为“true”，表明已经成功加载和初始化了Snappy库。通过以上步骤，Hadoop 2.7.4将能够支持Snappy压缩，从而提高HBase和其他依赖Hadoop的组件的数据处理效率。在处理大规模数据时，选择正确的压缩算法和正确地配置系统以支持这些算法，对于优化整个Hadoop集群的性能至关重要。

hbase压缩存储压缩存储

hbase存储的是海量数据，好的压缩算法可能节省存储空间和网络带宽，当然了cpu将会升高，压缩不就是拿cpu换IO吞吐量和磁盘空间吗？

Algorithm % remaining Encoding Decoding

GZIP 13.4% 21 MB/s 118 MB/s

LZO 20.5% 135 MB/s 410 MB/s

Zippy/Snappy 22.2% 172 MB/s 409 MB/s

由于版权的原因，在默认情况下hbase是不支持snappy:

[hadoop@master ~]$ hadoop checknative

17/10/21 10:54:03 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version

17/10/21 10:54:03 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library

Native library checking:

hadoop: true /home/hadoop/opt/hadoop-2.7.3/lib/native/libhadoop.so.1.0.0

zlib: true /lib64/libz.so.1

snappy: false

lz4: true revision:99

bzip2: false

openssl: false Cannot load libcrypto.so (libcrypto.so: cannot open shared object file: No such file or directory)!

在hadoop2.X中最好使用源码编译生成snappy的so文件，如果使用其它已编译好的so文件，可能会报出not support错误，以下便是hadoop2.X编译生

成snappy的so文件的步骤：

编译编译Hadoop2.7.4源码，源码，使之支持使之支持snappy压缩。压缩。

1:下载:http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4-src.tar.gz

解压:# tar -zxvf hadoop-2.7.4-src.tar.gz

2: 查看安装的hadoop的位数:file libhadoop.so.1.0.0

libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), ......

3: 查看编译依赖环境要求:head -15 BUILDING.txt

----------------------------------------------------------------------------------

Requirements:

* Unix System

* JDK 1.7+

* Maven 3.0 or later

* Findbugs 1.3.9 (if running findbugs)

* ProtocolBuffer 2.5.0

* CMake 2.6 or newer (if compiling native code), must be 3.0 or newer on Mac

* Zlib devel (if compiling native code)

* openssl devel ( if compiling native hadoop-pipes and to get the best HDFS encryption performance )

* Linux FUSE (Filesystem in Userspace) version 2.6 or above ( if compiling fuse_dfs )

* Internet connection for first build (to fetch all Maven and Hadoop dependencies)

下面依次安装所需的组件

1:安装g++

# yum -y install gcc-c++

2:安装CMake

yum源里的CMake版本较低，所以选择从官网下载。下载地址:https://cmake.org/files/v3.9/cmake-3.9.4.tar.gz

解压:tar -zxvf -C opt/

进入目录，编译:[root@pseudo-distributed cmake-3.9.4]# ./bootstrap && make && make install

检查是否安装成功: cmake --version

3:编译，安装snappy

下载后可阅读完整内容，剩余3页未读，立即下载

PUXIN12

粉丝: 0
资源: 4

编译Hadoop 2.7.4集成Snappy压缩：详细步骤

Windows 7上配置Hadoop 2.7.4 + HBase 1.3.1 开发环境指南

Hadoop 2.7.4集群搭建步骤详解

Hadoop2.7.4 & Spark2.2.1 集群环境搭建指南

Hadoop-2.7.4-win-bin

windows-hadoop-2.7.4-bin

hadoop-2.7.4-with-windows

hadoop-common-2.7.4-win-dll

hadoop-2.7.4-with-centos-6.5.tar.gz

hadoop-2.7.4-with-centos-6.7.tar.gz

hadoop-2.7.4-with-windows.tar.gz

最新资源