Ubuntu14.04上配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3爬虫实战指南

4星 · 超过85%的资源 需积分: 9 85 下载量 181 浏览量 更新于2024-09-09 3 收藏 20KB DOCX 举报
"Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略" 本配置攻略是关于在Ubuntu 14.04系统上搭建Hadoop-2.4.0、Hbase-0.94.18和Nutch-2.3集成的分布式爬虫环境的详细指南。作者通过10天的努力,成功解决了不同组件之间的版本兼容性问题,并提供了完整的配置步骤。 首先,我们来看Hadoop-2.4.0的配置部分: 1. Hadoop编译:在编译Hadoop之前,需要确保已安装必要的依赖,包括Maven 3.0或更高版本、Findbugs 1.3.9(如果要运行Findbugs)、ProtocolBuffer 2.5.0以及CMake 2.6或更高版本(如果需要编译原生代码)。编译Hadoop时,使用`mvn package -Pdist,native -DskipTests -Dtar`命令。 2. 环境配置:在`hadoop-env.sh`文件中设置JAVA_HOME变量,例如`export JAVA_HOME=/usr/java/latest`,并设置HADOOP_PREFIX变量,如`export HADOOP_PREFIX=/usr/local/hadoop`。 3. 配置core-site.xml:这是Hadoop的核心配置文件,其中`fs.defaultFS`属性指定了默认的文件系统,设置为`hdfs://localhost:9000`。`hadoop.tmp.dir`定义了Hadoop临时文件的存储位置,这里设置为`/opt/hadoop-2.4.0/tmp`。 4. 配置hdfs-site.xml:这个文件用于HDFS的特定设置。`dfs.replication`属性定义了副本因子,设置为2。`dfs.name.dir`和`dfs.data.dir`分别指定NameNode和DataNode的数据目录,这里分别为`/opt/hadoop-2.4.0/datalog1,/opt/hadoop-2.4.0/datalog2`和`/opt/hadoop-2.4.0/data1,/opt/hadoop-2.4.0/data2`。 接下来是HBase-0.94.18的配置,虽然具体细节未在描述中给出,但通常涉及以下步骤: 1. HBase编译:与Hadoop类似,需要先安装依赖,然后执行Maven编译。 2. 配置hbase-site.xml:设置`hbase.rootdir`为HDFS上的HBase目录,如`hdfs://localhost:9000/hbase`。另外,还需配置`hbase.cluster.distributed`为true,表明是在分布式模式下运行。 最后是Nutch-2.3的配置: 1. Nutch源码获取:从GitHub获取最新版本的Nutch-2.x源码。 2. 配置nutch-site.xml:这一步骤可能包括配置抓取间隔、抓取范围、种子URL等参数。 3. 配置crawl-infrastructure:根据Hadoop和HBase的配置,更新Nutch的相关配置,确保它们能正确地与Hadoop和HBase通信。 在完成所有配置后,需要执行Hadoop的格式化操作,以初始化NameNode,然后启动Hadoop集群,接着启动HBase,最后启动Nutch进行爬虫的本地或分布式运行。 此配置攻略对解决版本不兼容问题、理解Hadoop、HBase和Nutch之间的交互以及如何在实际环境中部署爬虫具有很高的参考价值。对于那些想要构建大规模网络爬虫系统的人来说,这是一个宝贵的指南。如果在配置过程中遇到任何问题,可以通过留言寻求帮助。
2019-07-09 上传
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群网络环境介绍 ................................................. 2 1 /etc/hosts文件配置 ............................................... 2 2 SSH无密码验证配置 ................................................ 2 2.1配置所有节点之间SSH无密码验证 ................................ 2 3 JDK安装和Java环境变量配置 ........................................ 3 3.1 安装 JDK 1.6 ................................................ 3 3.2 Java环境变量配置 ............................................ 4 4 Hadoop集群配置 ................................................... 4 5 Hadoop集群启动 ................................................... 6 6 Nutch分布式爬虫 .................................................. 9 6.1配置Nutch配置文件 ............................................ 9 6.2 执行Nutch分布式爬虫 ........................................ 10 7 Nutch检索 ....................................................... 13 7.1 Windows下Nutch单机搜索本地索引数据 ......................... 13 7.2 Linux下Nutch单机搜索本地索引数据 ........................... 14 7.2.1 WEB前端搜索 ........................................... 14 7.2.2 命令行搜索 ............................................ 15 7.3 Linux下Nutch搜索HDFS中索引数据 ............................. 15 7.3.1 WEB前端搜索