Hadoop-Hbase-Solr 分布式集群部署手册（含中文分词）

3星 · 超过75%的资源需积分: 10 32 浏览量更新于2024-09-10 收藏 1.83MB PDF 举报

本文档主要介绍了如何在分布式环境中部署Hadoop、Hbase和Solr，并集成了中文分词功能。文档适用于具有一定Linux基础的运维人员，提供了详细的集群节点规划、系统配置、软件安装和集成步骤。在搭建这样一个分布式系统时，首先需要规划集群的节点角色。在给出的示例中，包括一个主节点（Namenode）和两个数据节点（Datanodes）。主节点承担Hadoop NameNode和Hbase Master的角色，而数据节点则负责存储Hadoop的DataNodes和Hbase的RegionServer。所有的节点都需要关闭防火墙，确保网络通信畅通。在系统层面，建议在安装SUSE操作系统时选择自定义安装，以便设置静态IP地址和主机名，避免后续修改的复杂性。同时，所有节点的时间需要同步，这对分布式系统的协调至关重要。为了便于管理，所有节点使用同一个hadoop用户，并设置相同的密码。在部署Hadoop之前，需要安装Java开发环境（JDK），这里使用的是版本7。然后解压缩并安装Hadoop，配置相关的环境变量，如HADOOP_HOME和PATH。在配置Hadoop的XML文件（如hdfs-site.xml和core-site.xml）时，要指定Namenode和Datanode的位置，以及集群通信的相关参数。接下来是Hbase的部署，同样需要解压缩并配置环境变量。在Hbase的配置文件（如hbase-site.xml）中，需要指定Hbase的Zookeeper地址，以及与Hadoop的交互方式。由于Hbase在此示例中部署在主节点，因此需要在该节点上启动Hbase Master，并在其他数据节点上启动RegionServer。对于Solr的部署，首先安装Apache Tomcat作为Web服务器来托管Solr。然后解压缩Solr并将其放入Tomcat的webapps目录下。为了支持中文分词，需要下载jcseg中文分词库，并将其配置到Solr的lib目录中。此外，还需要在Tomcat的lib目录中添加两个特定的JAR包（commons-logging-api和slf4j-api）以解决依赖问题。最后，为了在Hbase和Solr之间建立连接，可能需要更新Hbase的类路径，用hadoop-client-2.5.0.jar替换旧版本的hadoop-client-2.2.0.jar。完成这些配置后，可以通过Xmanager等远程桌面工具进行远程管理和监控。整个部署过程涉及到多步骤的配置和命令行操作，需要对Linux系统、Hadoop、Hbase和Solr有深入的理解。在实际操作时，遇到未解释的命令或概念，建议查阅相关文档或通过搜索引擎获取更多信息。

Code_luer

粉丝: 0
资源: 2

Hadoop-Hbase-Solr 分布式集群部署手册（含中文分词）

基于cdh5.7.5集群的solr(4.10.3-cdh5.7.5)+hbase(1.2.0-cdh5.7.5)构建二级索引方案

solr+hbase

hbase+solr创建二级索引完整操作

Ubuntu14.04上配置Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3爬虫教程

基于Hadoop平台的分布式搜索引擎.zip

HBase视频教程下载|基于微博数据应用的HBase实战开发

hadoop在支付宝的应用

apache-solr4.10参考指南-英文版下载

searching-recommend:基于solr和协同过滤算法的构件检索与推荐系统

人工智能-项目实践-检索系统-基于solr和协同过滤算法的构件检索与推荐系统

最新资源