Lucene 实时搜索与准实时搜索机制解析
需积分: 50 169 浏览量
更新于2024-08-10
收藏 9.63MB PDF 举报
“实时搜索-high-performance-java-persistence”主要讨论的是在Java环境下,特别是Lucene库中如何实现高效的实时搜索功能。实时搜索允许用户在数据被添加到索引后几乎立即能够搜索到这些新数据,而无需等待整个索引的提交。
在传统的Lucene使用中,`IndexReader`一旦打开,就会固定对某个时间点的索引快照进行查询,这意味着在`IndexWriter`添加新的文档并提交之后,新的文档不会立即在搜索结果中出现,除非重新打开`IndexReader`。为了解决这个问题,Lucene 3.0引入了`IndexWriter.getReader()`方法,实现了准实时搜索(Near Realtime Search,NRT)。
`IndexWriter.getReader()`返回一个只读的`IndexReader`实例,这个实例包含了所有已提交和未提交的更改。这种方法相比调用`commit`然后使用`IndexReader.open`创建新索引,执行速度更快,因为它避免了可能较慢的`commit(long)`操作。开发者可以通过以下方式使用这个特性:
```java
IndexReader reader = indexWriter.getReader();
...
IndexReader newReader = indexWriter.reopen();
if (reader != newReader) {
reader.close();
reader = newReader;
}
```
当`IndexWriter`没有提交更新时,`IndexReader`可以被重新打开。一旦`IndexWriter`提交了更改,再次调用`reopen()`将返回一个新的`IndexReader`对象,表示索引已经更新。
此外,提供的资源摘要还提到了一本关于搜索引擎开发的书籍——《搜索引擎核心技术与实现——Lucene+Solr罗刚2011》。这本书涵盖了搜索引擎的基本模块、开发环境、工作原理,以及网络爬虫的相关技术,如爬虫的基本原理、架构、下载网络资源的方法、URL地址处理、信息过滤、URL查新、增量抓取、并行抓取等。同时,书中还涉及了Web结构挖掘,包括PageRank和HITs算法等。
实时搜索在Java持久化领域,特别是在Lucene中是一个重要的优化点,它提升了搜索系统的响应速度,使得用户能够及时获取到最新的搜索结果。而《搜索引擎核心技术与实现》这本书则提供了更广泛的搜索引擎开发背景和实践知识,对于深入理解搜索引擎的工作原理和技术实施非常有帮助。
2019-09-26 上传
2017-09-30 上传
2018-10-10 上传
2021-03-25 上传
2021-04-28 上传
2018-10-23 上传
点击了解资源详情
2017-11-29 上传
2024-05-23 上传
六三门
- 粉丝: 25
- 资源: 3872
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建