Nut：Lucene+Hadoop的分布式搜索框架

需积分: 5 139 浏览量更新于2024-09-13 收藏 149KB PDF 举报

"lucene + hadoop 分布式搜索运行框架 Nut 1.0a8" Nut 是一个基于 Lucene 和 Hadoop 的分布式搜索框架，专为处理大规模索引（千G以上）而设计，能够提供全天候（7*24小时）的搜索服务。它在配置充足的服务器环境下，可以支持每秒处理一百万次的搜索请求。Nut 的开发环境包括 JDK 1.6.0.21、Lucene 3.0.2、Eclipse 3.6.1、Hadoop 0.20.2、Zookeeper 3.3.1、HBase 0.20.6、Memcached 以及 Linux 操作系统。该框架的主要特点包括： 1. **热插拔**：允许在不影响系统运行的情况下，进行组件的添加或移除。 2. **可扩展性**：设计灵活，便于功能扩展。 3. **高负载处理**：能有效地处理大量并发搜索请求。 4. **易用性**：易于集成到现有的项目中，减少开发难度。 5. **支持排序**：用户可以根据需求对搜索结果进行排序。 6. **持续服务**：确保7*24小时不间断运行。 7. **失败转移**：当某个组件出现问题时，能够自动转移任务到其他可用组件，保证系统的稳定性。 Nut 框架主要由五个部分组成： 1. **Index**：负责索引的构建和维护。 2. **Search**：包含索引数据，仅处理搜索请求，数据存储在 DB 中。 3. **Client**：接收并处理用户的搜索请求，同时对搜索结果进行排序。 4. **Cache**：通常使用 Memcached 作为缓存系统，存储搜索条件和结果文档的 ID。 5. **DB**：默认使用 HBase 存储实际的数据，客户端根据排序后的文档 ID 从 DB 中获取数据。搜索流程如下： - 用户的搜索请求首先到达由 Nut Client 构成的集群。 - Nut Client 首先查询 Cache，如果找到匹配的缓存，则直接从 DB 获取数据。 - 若无缓存，请求会被发送到一组随机选择的 Search Group（包含 n 台搜索服务器）。 - 搜索服务器执行查询，并将结果返回给 Nut Client 进行排序。 - 排序后，将搜索条件和当前页的文档 ID 缓存，并从 DB 读取对应数据。索引流程涉及两个主要操作： 1. **删除**：通过在 HDFS 上删除索引文件（生成 *.del 文件），并将其分发到所有索引服务器，或直接在 HDFS 索引目录上删除。 2. **添加**：新增数据在单独的服务器上生成索引，然后将新的索引分发到各个索引服务器。 - 这两个操作可以通过不同的定时策略来控制，以适应不同的数据更新需求。通过这样的架构和流程，Nut 实现了高效的分布式搜索，兼顾了性能和可靠性，适合作为大规模数据的搜索引擎解决方案。

weixin_38669628

粉丝: 386
资源: 6万+

Nut：Lucene+Hadoop的分布式搜索框架

SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--dic

Nut：Lucene与Hadoop结合的分布式搜索框架

Nutch+solr + hadoop相关框架搭建教程

实战Elasticsearch、Logstash、Kibana++分布式大数据搜索与日志挖掘及可视化解决方案

实战Elasticsearch、Logstash、Kibana++分布式大数据搜索与日志挖掘及可视化解决方案.pdf

Hadoop分布式计算框架详解

Hadoop开发者第二期：Nutch+Hadoop搜索引擎与分布式技术探索

Nutch+Solr+Hadoop框架搭建与入门教程

基于Hadoop分布式系统的地质环境大数据框架探讨.pdf

Lucene+Heritrix(搜索引擎开发)

最新资源

SSH + Lucene + 分页 + 排序 + 高亮模拟简单新闻网站搜索引擎--dic