千万级数据查询:CK、ES、RediSearch性能对比与优化方案
需积分: 0 155 浏览量
更新于2024-08-03
收藏 1.34MB PDF 举报
本文档探讨了在千万级数据查询场景下,如何选择最合适的解决方案来满足特定的业务需求。业务需求涉及在大规模数据库中筛选出大约10万条数据,并按配置的权重规则进行排序,同时避免同一类别数据连续出现超过三次的情况。以下是几种可能的技术路线:
1. **多线程+CK(ClickHouse)翻页方案**:利用ClickHouse的高效性能,通过多线程分页策略,将数据集划分为较小的块,逐块查询并存储筛选结果。这个方案强调实时性和并发处理能力。
2. **ES(Elasticsearch)scrollscan深翻页方案**:Elasticsearch 的 scrollscan 功能允许高效地遍历大型索引,通过递归或深度扫描获取目标数据,适合对实时性要求较高的场景。
3. **ES+Hbase组合方案**:结合Elasticsearch的搜索能力和Hbase的存储,可能是在Hbase中存储原始数据,而使用ES进行高级查询,这可以优化查询性能,但可能涉及到数据同步和维护的复杂性。
4. **RediSearch+RedisJSON组合方案**:Redis 的 RediSearch 是一个强大的全文搜索引擎,配合Redis的JSON支持,可以在内存中处理大量数据,提供快速查询。这个方案可能依赖于Redis的高可用性和缓存性能。
初版设计方案首先通过配置的筛选和排序规则对原始数据进行预处理,然后分别执行以下步骤:
- 每天将Hive表中的数据导出到ClickHouse中,利用其高效查询特性。
- 构建SelectionQueryCondition对象,封装筛选和排序规则。
- 使用多线程并行处理分页查询,将目标数据添加到结果列表中。
每种方案都有其优缺点,如ClickHouse在实时性上表现优异,而Redis由于内存操作速度快,适用于对速度敏感的场景。选择哪种方案取决于业务的具体需求,包括数据量、实时性要求、系统资源限制以及对数据一致性或持久性的偏好。开发者需要权衡各种因素,选择最适合当前业务场景的解决方案。
2021-08-31 上传
2017-08-18 上传
2021-02-15 上传
2023-09-22 上传
2019-09-15 上传
2021-05-17 上传
2023-05-23 上传
2021-02-12 上传
2021-02-28 上传
2023-06-05 上传
毕业小助手
- 粉丝: 2747
- 资源: 5583
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜