百度Elasticsearch实践:大数据分析与优化案例
需积分: 16 193 浏览量
更新于2024-07-20
收藏 2.09MB PPTX 举报
百度Elasticsearch实践 - 高攀
2015年10月17日在北京举行的百度国内开发者会议中,百度大数据部的高攀分享了百度在Elasticsearch上的实践经验。Elasticsearch是一款开源的分布式搜索和分析引擎,以其强大的全文搜索和实时数据分析能力而知名,被广泛应用在诸如Wikipedia、Github、Quora、Facebook等互联网巨头中,以及金融(如Goldman Sachs)、地理位置服务(Foursquare)和职业社交(LinkedIn)等领域。
在百度,Elasticsearch被定位为支持OLAP报告和多维分析的工具,与传统的SQL数据库(如Palo)和文本分析搜索引擎(如PaloText)形成互补。自2013年引入以来,Elasticsearch已在百度内部广泛应用于20多个业务线,涵盖了云计算分析、网盟、预测、百度文库、直达号、钱包、风控等多个场景。
其中,云分析业务是一个典型的应用案例。该业务面临的主要挑战包括海量文本数据的分词处理、索引分片过多导致的元数据膨胀、以及fielddata内存占用过大易引发OOM问题。解决策略包括根据索引大小调整分片数、合并类型来提高效率,非分词字段采用docvalue存储以节省内存,并通过分离部署masternode、datanode和clientnode,以及合理设置fielddata内存限制和有效期来优化性能。
Casio业务则具有不同的特点,数据量巨大且持续导入,对小时级至天级的聚合分析速度要求极高。为应对这些挑战,百度采取了动态映射以适应未知字段、数据批量导入、全量使用docvalue存储以降低内存消耗,并通过模板实现不同时间范围的数据处理,确保了即使在大规模且硬件老旧的集群环境下也能实现高效的分析。
总结来说,百度在Elasticsearch的实践中,注重针对具体业务需求进行定制化的解决方案,通过优化数据处理、内存管理以及集群配置,成功地应对了各种挑战,实现了大数据分析的高效处理和稳定运行。这表明Elasticsearch在百度已经成为不可或缺的数据处理和分析工具,不仅支持实时搜索,还在大数据分析领域发挥着关键作用。
2022-02-17 上传
2021-07-25 上传
2020-07-15 上传
2020-04-23 上传
2023-06-09 上传
2023-06-30 上传
2023-06-29 上传
2021-05-11 上传
Wang_Zhenwei
- 粉丝: 316
- 资源: 33
最新资源
- WPF渲染层字符绘制原理探究及源代码解析
- 海康精简版监控软件:iVMS4200Lite版发布
- 自动化脚本在lspci-TV的应用介绍
- Chrome 81版本稳定版及匹配的chromedriver下载
- 深入解析Python推荐引擎与自然语言处理
- MATLAB数学建模算法程序包及案例数据
- Springboot人力资源管理系统:设计与功能
- STM32F4系列微控制器开发全面参考指南
- Python实现人脸识别的机器学习流程
- 基于STM32F103C8T6的HLW8032电量采集与解析方案
- Node.js高效MySQL驱动程序:mysqljs/mysql特性和配置
- 基于Python和大数据技术的电影推荐系统设计与实现
- 为ripro主题添加Live2D看板娘的后端资源教程
- 2022版PowerToys Everything插件升级,稳定运行无报错
- Map简易斗地主游戏实现方法介绍
- SJTU ICS Lab6 实验报告解析