百度Elasticsearch实践:大数据分析与优化案例
需积分: 16 199 浏览量
更新于2024-07-20
收藏 2.09MB PPTX 举报
百度Elasticsearch实践 - 高攀
2015年10月17日在北京举行的百度国内开发者会议中,百度大数据部的高攀分享了百度在Elasticsearch上的实践经验。Elasticsearch是一款开源的分布式搜索和分析引擎,以其强大的全文搜索和实时数据分析能力而知名,被广泛应用在诸如Wikipedia、Github、Quora、Facebook等互联网巨头中,以及金融(如Goldman Sachs)、地理位置服务(Foursquare)和职业社交(LinkedIn)等领域。
在百度,Elasticsearch被定位为支持OLAP报告和多维分析的工具,与传统的SQL数据库(如Palo)和文本分析搜索引擎(如PaloText)形成互补。自2013年引入以来,Elasticsearch已在百度内部广泛应用于20多个业务线,涵盖了云计算分析、网盟、预测、百度文库、直达号、钱包、风控等多个场景。
其中,云分析业务是一个典型的应用案例。该业务面临的主要挑战包括海量文本数据的分词处理、索引分片过多导致的元数据膨胀、以及fielddata内存占用过大易引发OOM问题。解决策略包括根据索引大小调整分片数、合并类型来提高效率,非分词字段采用docvalue存储以节省内存,并通过分离部署masternode、datanode和clientnode,以及合理设置fielddata内存限制和有效期来优化性能。
Casio业务则具有不同的特点,数据量巨大且持续导入,对小时级至天级的聚合分析速度要求极高。为应对这些挑战,百度采取了动态映射以适应未知字段、数据批量导入、全量使用docvalue存储以降低内存消耗,并通过模板实现不同时间范围的数据处理,确保了即使在大规模且硬件老旧的集群环境下也能实现高效的分析。
总结来说,百度在Elasticsearch的实践中,注重针对具体业务需求进行定制化的解决方案,通过优化数据处理、内存管理以及集群配置,成功地应对了各种挑战,实现了大数据分析的高效处理和稳定运行。这表明Elasticsearch在百度已经成为不可或缺的数据处理和分析工具,不仅支持实时搜索,还在大数据分析领域发挥着关键作用。
2018-02-17 上传
2023-05-04 上传
2023-06-10 上传
2023-11-29 上传
2023-06-09 上传
2023-06-07 上传
2024-05-22 上传
2023-03-29 上传
Wang_Zhenwei
- 粉丝: 316
- 资源: 33
最新资源
- real-world-react:从头开始的真实世界的React
- aws-code-star:由AWS CodeStar创建的存储库
- 448_Project_1
- lerna-flow
- 布兰迪
- logistics:基于Spring+MyBatis的物流系统,数据库为oracle
- StoreMetadata:hamarb123商店的元数据
- Python库 | msgraphy-0.3.4.tar.gz
- Google Translation API:Google翻译API-开源
- LRH
- ImportantDays:重要日子 - 一个 Android 应用程序
- Shalini-Blue1:蓝色测试1
- mixins:Holochain应用程序(例如用户或锚点)的mixin zomes的集合。 这些都经过审查。 文档在Wiki中
- awesome-blazor-browser:Blazor WebAssembly应用程序,用于浏览“ Awesome Blazor”资源
- 电子功用-双轴承电气柜集线束胶带缠绕系统
- To1 Express-crx插件