Ubuntu14.04上配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3爬虫实战指南
4星 · 超过85%的资源 需积分: 9 181 浏览量
更新于2024-09-09
3
收藏 20KB DOCX 举报
"Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略"
本配置攻略是关于在Ubuntu 14.04系统上搭建Hadoop-2.4.0、Hbase-0.94.18和Nutch-2.3集成的分布式爬虫环境的详细指南。作者通过10天的努力,成功解决了不同组件之间的版本兼容性问题,并提供了完整的配置步骤。
首先,我们来看Hadoop-2.4.0的配置部分:
1. Hadoop编译:在编译Hadoop之前,需要确保已安装必要的依赖,包括Maven 3.0或更高版本、Findbugs 1.3.9(如果要运行Findbugs)、ProtocolBuffer 2.5.0以及CMake 2.6或更高版本(如果需要编译原生代码)。编译Hadoop时,使用`mvn package -Pdist,native -DskipTests -Dtar`命令。
2. 环境配置:在`hadoop-env.sh`文件中设置JAVA_HOME变量,例如`export JAVA_HOME=/usr/java/latest`,并设置HADOOP_PREFIX变量,如`export HADOOP_PREFIX=/usr/local/hadoop`。
3. 配置core-site.xml:这是Hadoop的核心配置文件,其中`fs.defaultFS`属性指定了默认的文件系统,设置为`hdfs://localhost:9000`。`hadoop.tmp.dir`定义了Hadoop临时文件的存储位置,这里设置为`/opt/hadoop-2.4.0/tmp`。
4. 配置hdfs-site.xml:这个文件用于HDFS的特定设置。`dfs.replication`属性定义了副本因子,设置为2。`dfs.name.dir`和`dfs.data.dir`分别指定NameNode和DataNode的数据目录,这里分别为`/opt/hadoop-2.4.0/datalog1,/opt/hadoop-2.4.0/datalog2`和`/opt/hadoop-2.4.0/data1,/opt/hadoop-2.4.0/data2`。
接下来是HBase-0.94.18的配置,虽然具体细节未在描述中给出,但通常涉及以下步骤:
1. HBase编译:与Hadoop类似,需要先安装依赖,然后执行Maven编译。
2. 配置hbase-site.xml:设置`hbase.rootdir`为HDFS上的HBase目录,如`hdfs://localhost:9000/hbase`。另外,还需配置`hbase.cluster.distributed`为true,表明是在分布式模式下运行。
最后是Nutch-2.3的配置:
1. Nutch源码获取:从GitHub获取最新版本的Nutch-2.x源码。
2. 配置nutch-site.xml:这一步骤可能包括配置抓取间隔、抓取范围、种子URL等参数。
3. 配置crawl-infrastructure:根据Hadoop和HBase的配置,更新Nutch的相关配置,确保它们能正确地与Hadoop和HBase通信。
在完成所有配置后,需要执行Hadoop的格式化操作,以初始化NameNode,然后启动Hadoop集群,接着启动HBase,最后启动Nutch进行爬虫的本地或分布式运行。
此配置攻略对解决版本不兼容问题、理解Hadoop、HBase和Nutch之间的交互以及如何在实际环境中部署爬虫具有很高的参考价值。对于那些想要构建大规模网络爬虫系统的人来说,这是一个宝贵的指南。如果在配置过程中遇到任何问题,可以通过留言寻求帮助。
2019-07-09 上传
2016-10-15 上传
点击了解资源详情
2014-11-18 上传
2023-03-21 上传
2022-03-18 上传
hunauchenym
- 粉丝: 28
- 资源: 27
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目