构建搜索引擎：Lucene2.0与Heritrix实践

需积分: 10 39 浏览量更新于2024-07-22 收藏 359KB DOC 举报

"这篇文档介绍了如何开发自己的全文搜索引擎，主要基于Lucene 2.0和Heritrix。文档涵盖了Lucene的基本用法，包括搜索、排序、过滤和分页功能，以及对不同格式如Word、Excel和PDF文档的处理。还提到了Compass搜索引擎框架，Lucene的分布式搜索和Google Search API的集成。此外，文档讨论了网络爬虫Heritrix和HTMLParser的使用，以及DWR（Direct Web Remoting）在内容获取中的应用。文档最后提到，对于需要快速全文检索和中文分词支持的场景，可以考虑使用Sphinx搜索引擎，并且强调了建立高效检索系统的重要性，即构建反向索引机制，以优化模糊查询的性能。" 本文档主要关注两个核心开源工具——Lucene和Heritrix。Lucene是一个强大的全文搜索引擎库，允许开发者构建自己的搜索引擎应用。它提供了丰富的功能，包括文本分析、索引创建、搜索、排序和过滤。从2.3.0到3.5.0的版本更新表明Lucene在持续改进和增强其性能和特性。 Heritrix是一个广泛使用的网络爬虫，用于抓取和存档互联网上的网页。它与Lucene结合使用时，可以帮助收集和预处理数据，为搜索引擎提供输入。HTMLParser是解析HTML文档的工具，可能被Heritrix或单独用于解析网页内容。文档中提到，对于含有模糊查询的数据库服务，使用LIKE操作符会严重影响性能，因为这会导致全表扫描。而反向索引是解决这个问题的关键，它创建了一个关键词到文档的映射，使得查找过程更加高效。Sphinx则是一个比Lucene更快的全文搜索引擎，特别适合中文分词，并内置了分布式搜索功能。这篇文档提供了构建自定义搜索引擎的基础知识，包括选择合适的工具（如Lucene和Heritrix）、处理各种格式的文档、优化搜索性能以及考虑使用如Sphinx这样的替代方案。对于想深入了解全文搜索引擎开发的读者，这是一个宝贵的资源。

文档标题

 2(($#(4%.70 

%.75

 !,$;"( 

 /&$# 

 /&$7; 

 /&$ 

 E3 

配置：

 '" ?<F%>*. 11!"1"$"?7.?1

 /&0"1(" AAA1A

&0#@#A8!74(44%'4%

 '" %.73!73)F%>*. 11!"1"$"

%&$0"""   "<)

&8;";6A8!749#"84"!48;";6

B /&0#%&"  $$

 A"AA"&A 2 )

&8;";6A8!74/4(4&B

C ""  "! "  "" )

/DE8;";6A8!7434&

F !"("#$%&4"?1"650

" ?<F>2!' + "+ 2)A# "/

<"! " )

&0#@#A!9")6/?C7

启动

E8;";6A8!7434&))

"*,&3(&(&//&(

$$



%%

&%

)<))3)

/

>,

G(&&5&(/((&&/(&3

(&((&H3I<"(/&(J*,

&H3I<"/&*/&

(<>//->/((<K

/+</-/<#(*8&B+*&/&(

&&)//&((&,3,,&L+&(&

*&(&,(&&(G/&,&&

,(("((&*&&&&

/(/((

)3<))3)

G(//)(&(&*(&/(49)(((&3&

5

3)(&(

>,

&H3I*(G+&H3I3'3'

(&4M??N/(O4O((&*O(((O

)+))

>,<

P((,*/&

)%+))%3() P(&%3(&<"*&(<4%3(

)+)),,,)

&(

P(&*&&&,,,&(G

.,+<*4,,,&(1<*(&+&(G3(&

G,0',,,<"*&(<4*4,,,&(

)+))3)

&>,

*&&&H3I(&

)+)))%3

>,

G(%3G/&8&(&&(<*

G/((G+&GG(&3&

%3+&&%33<#(*8&B+&(

&(3/&

)(+))(()

/(

>,

G((&&+(&((+((*

8""9(<&&'(&//(&

&(

#! "  ""&2@72"" )A#

"&2@7""B BB B" +<)

E8;";6A8!7434&)/-/

-$#0":@3($$$"B"B$$ !"#0":@3$

""#"""$!"BB$$##A$$$$

' ';$ #"(("$#

) " C ( C2

""(5)5))(,

## 3"#(#0$$GG 

%&$# >$#$

&###(1" /&&&=&&I 

$#$#"1$1

2#$1("#((1$ 3"0

#$"""("(## !" $1("$

#($##$""(

:""#"$$###(#3#"

G#0G#-#""(("##(#"("#

 " 

#%&"G#G(1"$ !"#

82 配置

/0$$1$1"$;@0" "HAA"1(



剩余39页未读，继续阅读

badbbs

粉丝: 4
资源: 6

构建搜索引擎：Lucene2.0与Heritrix实践

开发自己的搜索引擎《lucene2.0+heritrix》一书对应的源码资料

lucene2.0+Heritrix配套源码

开发自己的搜索引擎-Lucene 2.0+Heritrix

开发自己的搜索引擎-Lucene 2.0+Heritrix源码（1）

开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)

开发自己的搜索引擎-Lucene 2.0+Heritrix源码（2）

开发自己的搜索引擎-Lucene 2.0+Heritrix源码（3）

Lucene2.0+Heritrix搜索引擎 随书光盘

【完整光盘24.5M】开发自己的搜索引擎-Lucene 2.0+Heritrix.zip

Lucene2.0+Heritrix搜索引擎(完整光盘).part2.rar

最新资源

Lucene2.0+Heritrix搜索引擎随书光盘