百度Elasticsearch大数据分析实践
4星 · 超过85%的资源 需积分: 16 134 浏览量
更新于2024-07-21
5
收藏 2.09MB PPTX 举报
"百度Elasticsearch实践"
在本文中,我们将探讨百度如何实践Elasticsearch,并分享在大数据分析实践中遇到的问题和经验。Elasticsearch(简称ES)是一款基于Lucene的开源搜索引擎,支持全文搜索、结构化数据分析和文本数据分析等多种应用场景。
背景介绍
----------
在2013年10月,百度开始使用Elasticsearch,目前已经覆盖了20多个业务线,包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等。单集群每天导入30TB+数据,总共每天60TB+,单集群最大100台机器,200个ES节点。共使用近300台机器,启动500+ES节点。
典型应用场景一:云分析业务
---------------------------
在云分析业务中,我们使用Rsyslog、Kafka、LogStash、Elasticsearch API、App、Web、Mysql、OS、Hadoop、Client、HDFS、Hive等技术栈。主要挑战包括大量文本数据的分词及建立索引、数万用户、索引分片过多、元数据过大、fielddata占用大量内存、容易OOM、任意多维度关键词聚合查询秒级返回等。
解决方案包括根据索引大小分别设置分片数、充分利用type合并索引、除分词字段外,其他字段全部存储为docvalue、masternode、datanode、clientnode分离部署、保守设置fielddata内存占用软硬限、及其他内存占用限制、设置fielddata有效期等。
典型应用场景二:casio业务
---------------------------
在casio业务中,我们面临着字段不确定、数据量较大、每天30TB+数据、24小时不间断导入、小时级任意维度聚合分析毫秒级返回、天级秒级返回、集群规模较大、机器较旧、宕机为常态等挑战。
解决方案包括使用动态mapping自动匹配未知字段、数据分发到所有节点批量导入、全部使用docvalue存储、减少内存消耗、使用模板、分天级等。
Elasticsearch在百度的使用
---------------------------
Elasticsearch在百度的使用定位为OLAP Reporting Multidimensional Analysis SQL DB Palo Text Analysis Search DB。ES在百度的使用包括大数据分析实践、云分析业务、casio业务等多种应用场景。
结论
----------
在本文中,我们分享了百度Elasticsearch实践的经验和挑战,包括云分析业务和casio业务两个典型应用场景。我们也探讨了ES在百度的使用、挑战和解决方案,希望能够为读者提供有价值的参考。
2018-02-17 上传
2023-09-27 上传
2023-05-28 上传
2023-06-07 上传
2023-06-08 上传
2023-03-29 上传
2023-09-09 上传
2023-06-08 上传
2023-06-13 上传
土哥呀
- 粉丝: 6
- 资源: 11
最新资源
- 前端面试必问:真实项目经验大揭秘
- 永磁同步电机二阶自抗扰神经网络控制技术与实践
- 基于HAL库的LoRa通讯与SHT30温湿度测量项目
- avaWeb-mast推荐系统开发实战指南
- 慧鱼SolidWorks零件模型库:设计与创新的强大工具
- MATLAB实现稀疏傅里叶变换(SFFT)代码及测试
- ChatGPT联网模式亮相,体验智能压缩技术.zip
- 掌握进程保护的HOOK API技术
- 基于.Net的日用品网站开发:设计、实现与分析
- MyBatis-Spring 1.3.2版本下载指南
- 开源全能媒体播放器:小戴媒体播放器2 5.1-3
- 华为eNSP参考文档:DHCP与VRP操作指南
- SpringMyBatis实现疫苗接种预约系统
- VHDL实现倒车雷达系统源码免费提供
- 掌握软件测评师考试要点:历年真题解析
- 轻松下载微信视频号内容的新工具介绍