高并发短文检索：DAT与轻量级方案探讨

需积分: 14 15 浏览量更新于2024-09-10 收藏 62KB DOCX 举报

在高并发短文检索的场景中，面临的需求是处理大量并发请求（每秒20万次）和适中的数据量（约200万条），同时需要进行分词检索且数据不需实时更新。针对此场景，本文探讨了三种常见的解决方案： 1. **数据库搜索法**： - 方法：将标题数据存储在数据库中，通过`LIKE`操作进行模糊匹配。 - 优点：实施简单，适合小规模数据。 - 缺点：无法进行精确分词，且并发量受限，难以应对高并发。 2. **数据库全文检索法**： - 方法：同样将标题数据存数据库，利用全文索引进行检索。 - 优点：相对于`LIKE`操作，索引能提供更好的搜索性能。 - 缺点：同样受限于并发量，且对数据库资源消耗较大。 3. **开源外置索引方案**（如Lucene, Solr, ES）： - 方法：通过独立的索引服务处理数据，提供更高性能。 - 优点：能提高检索速度，支持大规模并发，但可能增加系统复杂性和部署成本。 - 缺点：并发量管理需要注意，系统的维护和扩展较数据库方案复杂。 58龙哥给出了以下几点建议： - DAT（双数组 trie）：冠军方案之一，适用于数据过滤问题，但DAT更新数据不方便且不支持增量更新，不适合实时变化的数据。 - Trie树：虽然高效，但内存占用大，特别是对于长标题和大量文档，可能导致内存膨胀。 - 为了支持分词，需要对每个分词遍历trie树并合并结果，这增加了复杂性。 - 针对内存限制，龙哥提到一个轻量级方案，但未明确指出具体是什么，可能是指某种特殊设计或优化过的数据结构。关于轻量级解决方案，龙哥并未推荐具体的在线文章，但暗示存在一个与标题长度无关，内存占用极低的创新方法，这可能是通过更高效的算法或者数据压缩技术来实现。总结来说，选择解决方案时需权衡并发、性能、内存使用和维护成本，数据库搜索法适合初期需求较小的场景，全文检索和开源索引则更适合并发量大、性能要求高的环境，而针对内存限制和分词问题，可能需要寻找更优化的数据结构或者算法来提升效率。对于具体轻量级方案，可能需要进一步研究或咨询专家。

一、需求缘起

某并发量很大，数据量适中的业务线需要实现一个“标题检索”的功能：

（1）并发量较大，每秒 20w 次

（2）数据量适中，大概 200w 数据

（3）是否需要分词：是

（4）数据是否实时更新：否



二、常见潜在解决方案及优劣

（1）数据库搜索法

具体方法：将标题数据存放在数据库中，使用 like 来检索

优点：方案简单

缺点：不能实现分词，并发量扛不住



（2）数据库全文检索法

具体方法：将标题数据存放在数据库中，建立全文索引来检索

优点：方案简单

缺点：并发量扛不住



（3）使用开源方案将索引外置

具体方法：搭建 lucene，solr，ES 等开源外置索引方案

优点：性能比上面两种好

缺点：并发量可能有风险，系统比较重，为一个简单的业务搭建一套这样的系统成本较高



三、58 龙哥的建议

问 1：龙哥，58 同城第一届编程大赛的题目好像是“黄反词过滤”，你是冠军，当时是用 DAT 来实现

的么？

下载后可阅读完整内容，剩余3页未读，立即下载

hyy80688

粉丝: 10
资源: 202

高并发短文检索：DAT与轻量级方案探讨

java实现快速全盘搜索内容

java多线程查询数据库

查询和并发

天人短文网站系统

天人短文网站系统(带手机版) v3.71

亿级数据的高并发通用搜索引擎架构设计

纯Java全文检索

高并发搜索系统设计

Java并发Fork and join

基于java的贝儿米幼儿教育管理系统答辩PPT.pptx

最新资源