Apache Lucene：全文检索框架与应用解析

需积分: 9 165 浏览量更新于2024-09-09 收藏 193KB PDF 举报

Lucene笔记 Lucene是一个开源的全文检索框架，最初由Apache软件基金会开发，官方网站提供技术支持，最新版本为Lucene 4.9.0。然而，由于学习资源的可用性，本笔记主要关注的是较早的Lucene 4.0版本，因为Luke工具包（lukeall-4.0.0-ALPHA.jar）并非最新。全文检索是指根据用户的查询条件，在大量的文档中进行精确搜索，特别适用于处理需要分词处理和复杂查询条件的情况，比如在数据库中处理大量数据的Like或OR查询，以及在商城网站（如产品信息）、论坛系统（帖子信息）、新闻系统和搜索引擎等场景中的信息检索。虽然Lucene本身可以用于实现站内搜索，但它局限于网站内部的数据，无法构建互联网级别的搜索引擎，因为这涉及到网络爬虫（网络蜘蛛）抓取互联网上的信息和海量数据的存储与管理。网络蜘蛛负责在各网站间爬取网页，并将有价值的信息存储到索引库和数据库中，以供后续搜索。在实际应用中，Lucene的安装主要包括以下几个步骤： 1. 下载：访问Lucene官网下载lucene-4.0.0.zip，包含核心模块（core）、分词器（analysis）、高亮功能（highlighter）、查询解析器（queryparser）等组件以及API文档和示例代码。 2. 建立索引库：类比于数据库，索引库可以理解为文件夹对应表，Document对应行，Field对应列。首先，需要准备好数据源，可以来自数据库、文本文件或HTML。然后，对数据进行预处理和分析，接下来通过以下步骤创建索引： - 创建`IndexWriter`对象，指定存储目录和配置信息，用于执行增删改查操作。 - 创建`Document`对象，模拟数据库中的一行数据。 - 添加字段，根据业务需求定制文档结构。 - 将处理好的`Document`写入索引库。 - 提交更改并关闭`IndexWriter`以确保数据持久化。 Lucene的核心工具`IndexWriter`专门负责文档的CRUD操作，它使得开发者能够高效地管理索引内容。在构建完整的搜索引擎解决方案时，除了Lucene，还需要配合网络爬虫技术、分布式存储系统以及高效的索引管理和查询优化策略，才能构建出能够处理互联网海量数据的强大搜索引擎。

Lucene：它是一个全文检索的框架。(开源的)

1. 官网：http://lucene.apache.org

最新版本：Lucene 4.9.0

学习的版本：Lucene 4.0 因为 lukeall-4.0.0-ALPHA.jar 不是最新的。

2. 什么是全文检索: 根据检索的条件在所有文档中进行检索。

3. 什么用全文检索？

-- 当你查询的条件，需要分词进行查询时。

-- 当你查询时用到很多 like or 查询时。(数据库数据量也很大)

4. Lucene 应用场景：

a. 商城网站: 产品信息

b. 论坛系统：帖子信息

c. 新闻系统。

d. 搜索引擎。

5. 单独的 Lucene 只能做站内检索.(网站内的)

单独的 Lucene 是做不互联网的搜索引擎，因为它还需要【网络蜘蛛】与【海量数据】的

存储与管理。

-- 网络蜘蛛: 它负责在互联网所有网站的网页之间进行“爬动”，它会把爬到的有效信

息存储到数据库与索引库中。

一、Lucene 安装：

-- 到官网下载 lucene-4.0.0.zip

-- core : 核心部分

-- analysis : 分词器

-- highlighter : 高亮部分

-- queryparser : 查询解释

-- docs : api 文档

-- demo : 示例

二、建索引库：

1. 索引库与数据库类比

索引库数据库

文件夹表

Doucment 行

Field 列

2. 准备数据来源 (数据库、txt、html)

3. 加工、分析

下载后可阅读完整内容，剩余8页未读，立即下载

web159687

粉丝: 0
资源: 9

Apache Lucene：全文检索框架与应用解析

传智播客Lucene课程课堂笔记

黑马2016年javaee32期lucene和solr的使用视屏教程

传智播客32期solr所用的数据库.txt

lucene笔记

Lucene笔记.doc

lucene笔记.pdf

Lucene笔记：全文检索的实现机制

lucene笔记共38页.pdf.zip

lucene阅读笔记

lucene学习笔记

最新资源