Java Lucene快速入门：索引与搜索核心技术解析

需积分: 10 35 浏览量更新于2024-07-22 收藏 140KB DOC 举报

Lucene快速入门指南深入解析 Lucene是一款强大的、基于Java的全文信息检索工具包，它专注于提供索引和搜索功能，而非完整的搜索应用。作为Apache Jakarta项目的一部分，Lucene在众多Java开发者的应用中享有极高声誉，特别适用于构建高效、可扩展的搜索引擎和文档管理系统。本文档主要涵盖了Lucene的基础知识，包括以下几个关键部分： 1. **Document（文档对象）**: 文档对象是Lucene的核心概念，它代表了一个信息单元，如网页、邮件或文本文件。文档由多个Field组成，每个Field代表文档的一个特定属性，例如邮件的标题和内容。Document类类似于数据库中的记录，而Field就像字段。 - Field有多种存储选项： - Field.Store.YES：存储字段的原始值（未分词），方便检索原始数据。 - Field.Store.NO：仅索引，不保存字段值，节省空间。 - Field.Store.COMPRESS：用于存储长文本或二进制数据，可能会牺牲部分性能。 - Field.Index.ANALYZED/ANALYZED_NO_NORMS：针对分词后的索引处理，前者保存完整信息，后者节省空间但不保留规范化信息。 - Field.Index.NOT_ANALYZED/NOT_ANALYZED_NO_NORMS：非分词索引，速度较快，但可能影响精确度。 2. **Field（字段对象）**: 字段对象描述文档的特定属性，通过不同设置可以调整索引策略和存储需求。例如，TermVector属性定义了是否存储单词在文档中的出现次数、位置和偏移量，这对于分析文档结构和上下文信息至关重要。 - TermVector=YES：存储整个字段的TermVector信息，包含词频、位置和偏移。 - TermVector=NO：不存储TermVector，简化存储需求。 - TermVector=WITH_POSITIONS/WITH_OFFSETS：分别存储单词位置或偏移信息，有助于精确匹配查询。了解和掌握这些基本概念对于使用Lucene进行文本索引和高效搜索至关重要。通过实例代码和工作原理的学习，开发者可以更好地在自己的应用程序中集成Lucene，实现强大的全文搜索功能。

public class IndexWriterDemo {

/**

* 将即将检索的资源写入索引库

* @param writer

* @throws Exception

public void buildDocs(IndexWriter writer)throws Exception {

writer.deleteAll();//清空索引库里已存在的文档（document）

List<User> list = DataUtil.getUsers();//得到数据资源

System.out.println("buildDocs()->总人数为 :"+list.size());

for(User user :list){

Document doc = new Document();//创建索引库的文档

doc.add(new Field("id",String.valueOf(user.getId()),Store.YES,Index.NO));

doc.add(new Field("name",user.getName(),Store.YES,Index.ANALYZED));

doc.add(new

Field("age",String.valueOf(user.getAge()),Store.YES,Index.ANALYZED));

doc.add(new Field("sex",user.getSex(),Store.YES,Index.ANALYZED));

doc.add(new

Field("birthday",String.valueOf(user.getBirthday()),Store.YES,Index.ANALYZED));

writer.addDocument(doc);//将文档写入索引库

}

int count =writer.numDocs();

writer.forceMerge(100);//合并索引库文件

writer.close();

System.out.println("buildDocs()->存入索引库的数量："+count);

}

/**

* 从索引库中搜索你要查询的数据

* @param searcher

* @throws IOException

public void searcherDocs(IndexSearcher searcher) throws IOException{

Term term =new Term("sex", "man");//查询条件，意思是我要查找性别为“man”的人

TermQuery query =new TermQuery(term);

TopDocs docs =searcher.search(query, 100);//查找

System.out.println("searcherDoc()->男生人数："+docs.totalHits);

for(ScoreDoc doc:docs.scoreDocs){//获取查找的文档的属性数据

int docID=doc.doc;

Document document =searcher.doc(docID);

String str="ID:"+document.get("id")+", 姓名： "+document.get("name")+" ，性

别："+document.get("sex");

System.out.println("人员信息:"+str);

}

:、 在内存里创建索引库及查询。

public class TestIndexWriterRAMDirectory {

public static void main(String[] args) throws Exception {

Directory directory = new RAMDirectory();

剩余19页未读，继续阅读

kevin747904126

粉丝: 21
资源: 7

Java Lucene快速入门：索引与搜索核心技术解析

Lucene4入门教程：构建大规模文档搜索系统

探索Lucene：入门指南与高效全文检索

Lucene开发入门与实战指南

lucene3.0入门

Lucene-入门

lucene－入门

lucene 3.0 入门实例

Lucene2.4入门总结

lucene3.0.0 入门DEMO

lucene学习入门程序

最新资源