千万级数据查询：CK、ES、RediSearch性能对比与优化方案

需积分: 0 78 浏览量更新于2024-08-03 收藏 1.34MB PDF 举报

本文档探讨了在千万级数据查询场景下，如何选择最合适的解决方案来满足特定的业务需求。业务需求涉及在大规模数据库中筛选出大约10万条数据，并按配置的权重规则进行排序，同时避免同一类别数据连续出现超过三次的情况。以下是几种可能的技术路线： 1. **多线程+CK（ClickHouse）翻页方案**：利用ClickHouse的高效性能，通过多线程分页策略，将数据集划分为较小的块，逐块查询并存储筛选结果。这个方案强调实时性和并发处理能力。 2. **ES（Elasticsearch）scrollscan深翻页方案**：Elasticsearch 的 scrollscan 功能允许高效地遍历大型索引，通过递归或深度扫描获取目标数据，适合对实时性要求较高的场景。 3. **ES+Hbase组合方案**：结合Elasticsearch的搜索能力和Hbase的存储，可能是在Hbase中存储原始数据，而使用ES进行高级查询，这可以优化查询性能，但可能涉及到数据同步和维护的复杂性。 4. **RediSearch+RedisJSON组合方案**：Redis 的 RediSearch 是一个强大的全文搜索引擎，配合Redis的JSON支持，可以在内存中处理大量数据，提供快速查询。这个方案可能依赖于Redis的高可用性和缓存性能。初版设计方案首先通过配置的筛选和排序规则对原始数据进行预处理，然后分别执行以下步骤： - 每天将Hive表中的数据导出到ClickHouse中，利用其高效查询特性。 - 构建SelectionQueryCondition对象，封装筛选和排序规则。 - 使用多线程并行处理分页查询，将目标数据添加到结果列表中。每种方案都有其优缺点，如ClickHouse在实时性上表现优异，而Redis由于内存操作速度快，适用于对速度敏感的场景。选择哪种方案取决于业务的具体需求，包括数据量、实时性要求、系统资源限制以及对数据一致性或持久性的偏好。开发者需要权衡各种因素，选择最适合当前业务场景的解决方案。

在「初版设计方案」章节的第 3 步提到了「从 C K

底池表取目标数据时，开启多线程，进行分页筛选」。此处对

C K 分页查询进行介绍。

① 封装了 q u e r y P o o l S k u L i s t 方法，负责从 C K

表中获得目标数据。该方法内部调用了

s q l S e s s i o n . s e l e c t L i s t 方法。

public List<Map<String, Object>> queryPoolSkuList( Map<String, Object> param

s ) {

List<Map<String, Object>> resultMaps = new ArrayList<>();

QueryCondition queryCondition = parseQueryCondition(params);

List<Map<String, Object>> mapList = lianNuDao.queryPoolSkuList(getCkDt()

,queryCondition);

if (CollectionUtils.isNotEmpty(mapList)) {

for (Map<String,Object> data : mapList) {

resultMaps.add(camelKey(data));

}

return resultMaps;

}

// lianNuDao.queryPoolSkuList

@Autowired

@Qualifier("ckSqlNewSession")

private SqlSession sqlSession;

public List<Map<String, Object>> queryPoolSkuList( String dt, QueryCondition

queryCondition ) {

queryCondition.setDt(dt);

queryCondition.checkMultiQueryItems();

return sqlSession.selectList("LianNu.queryPoolSkuList",queryCondition);

}

② s q l S e s s i o n . s e l e c t L i s t 方法中调用了和 C K 交互的

q u e r y P o o l S k u L i s t 查询方法，部分代码如下：

剩余12页未读，继续阅读

毕业小助手

粉丝: 2761
资源: 5583

千万级数据查询：CK、ES、RediSearch性能对比与优化方案

2013奥迪A6全车电路图电气原理图.zip

spring-cglib-repack-3.2.5.jar，spring-objenesis-repack-2.6.ja及ck-2.5.1.jar

chem.ndekc.ck.ua：chem.ndekc.ck.ua

CK4-团标《TCCUA005-2023软件造价评估实施规程》.pdf

使用说明 LD... - AS. (AS. - T) LD ...[手册].pdf

ck-ext-far-manager-plugin:CK扩展

JEDEC JESD82-531-2023 DDR5 Clock Driver Definition (DDR5CK01)

ck-gran.github.io：世界您好

CK2-family-tree-generator：* .ck2文件的家族树HTML生成工具

最新资源