Mdrill优化Lucene：在HDFS上创建索引与addIndexesNoOptimize改进

需积分: 0 68 浏览量更新于2024-08-04 收藏 431KB DOCX 举报

"Mdrill项目是对Lucene的改进，旨在解决大数据量下内存占用过高以及离线创建索引速度慢的问题。通过修改索引创建逻辑，使得索引能够在HDFS上创建，避免了随机写操作，实现了在Hadoop环境中的并行处理。此外，还优化了`addIndexesNoOptimize`方法，减少了不必要的文件复制，提高了合并索引的效率，以适应分布式存储的需求。" 在Lucene的改进上，Mdrill项目主要关注两个关键点：在HDFS上创建索引和优化`addIndexesNoOptimize`方法。 1. HDFS上的索引创建： - 原始的Lucene由于存在随机写操作，无法直接在HDFS上创建索引，因为HDFS不支持随机写。Mdrill通过分析源码，发现在Lucene中，随机写主要用于文件头部的记录计数预留和CRC32校验值预留。 - Mdrill通过不再预留这些空间，而是将这些信息顺序写入单独的文件，成功避免了随机写，使得索引创建可以在HDFS上进行，从而利用MapReduce在Hadoop集群中并行创建索引，提高效率，并解决了对大硬盘的依赖。 2. `addIndexesNoOptimize`方法的优化： - 此方法用于将多个小索引合并为一个大索引。原版Lucene的实现会在合并前先将所有外部索引复制到当前索引目录，增加了额外的I/O开销，并限制了合并速度和多磁盘利用率。 - Mdrill的改进类似于Linux文件的软链接，它避免了文件复制，允许直接引用外部索引，使合并过程更高效。这种方法不仅减少了大容量数据时的开销，还使得索引段可以分布在不同硬盘上，提高检索速度，充分利用分布式存储的优势。通过这些改进，Mdrill项目显著提升了Lucene在大数据场景下的性能和可扩展性，为大规模数据分析和搜索提供了更强大的工具。对于那些需要处理海量数据的系统，如日志分析、内容检索等，Mdrill的优化技术具有很高的实用价值。

Mdrill 项目在 lucene 的改进上的 10 点心得

https://github.com/alibaba/mdrill

一、修改创建索引逻辑，让索引能够基于 hdfs 中进行创建

目的：

这样就不在需要使用本地硬盘，可以通过 mapreduce 并发的在 hadoop 中创建索引，从

而解决离线创建索引的速度，而且也同时解决创建索引过程中本地必须要有大硬盘的囧况。

原理：

之所以原先的 lucene 不能再 hdfs 中创建索引，是因为 lucene 中存在随机写，而 hdfs

不支持随机写导致，仔细阅读 lucene 源码发现，lucene 使用随机写的场景只有两种，

一种是在文件的头部预留出一个 int 长度的空间，等待索引创建完毕后，更新这个预留

的 int 位置，标记上该索引一共有多少条记录。

另外一种是存在文件校验 crc32，前面预留出一个 long 类型的空间，在后续写入数据

后，得到其 crc32 的值后，重新写入。

综上所述，这些随机写是可以避免的，我们的处理办法是不在预留这些空间，而是将其

值顺序的写到另外一个文件中去。

二、 addIndexesNoOptimize 的优化

目的：

该方法了解 lucene 的人应该知道，是向当前索引中添加一个新的索引，通常来说我们

在 mapreduce 的第一个阶段会通过大并发创建小索引，在第二个阶段会通过

addIndexesNoOptimize 的方法将这些小的索引合并成一个完整的最终的索引。

目前 lucene 在这个地方的实现并不是特别好，addIndexesNoOptimize 的处理逻辑是先

将外部的索引 copy 到当前索引所在的目录，然后在进行合并，所以这个就多了一个 copy 的

过程

这样做目前有 3 个缺点

第一、当数据量特别大的时候，因为有了一次额外的 copy，这种 copy 带来的开销

是很大的，而且也是没必要的。

第二、因为这这种 copy 将索引都 copy 到同一个目录上了，也就意味着在同一个磁

下载后可阅读完整内容，剩余8页未读，立即下载

ali-12

粉丝: 34
资源: 328

Mdrill优化Lucene：在HDFS上创建索引与addIndexesNoOptimize改进

FMI项目基于Lucene的Java信息检索技术解析

基于Lucene的Java示例项目入门指南

Lucene：从私有项目到开源巨头的历程

lucene项目

Lucene项目

针对中文检索的Lucene改进策略

Lucene项目源码

Lucene项目 贴吧

lucene项目代码

博客园文章搜索项目（Lucene）

最新资源

Lucene项目贴吧