百度Elasticsearch大数据分析实践
4星 · 超过85%的资源 需积分: 16 90 浏览量
更新于2024-07-21
5
收藏 2.09MB PPTX 举报
"百度Elasticsearch实践"
在本文中,我们将探讨百度如何实践Elasticsearch,并分享在大数据分析实践中遇到的问题和经验。Elasticsearch(简称ES)是一款基于Lucene的开源搜索引擎,支持全文搜索、结构化数据分析和文本数据分析等多种应用场景。
背景介绍
----------
在2013年10月,百度开始使用Elasticsearch,目前已经覆盖了20多个业务线,包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等。单集群每天导入30TB+数据,总共每天60TB+,单集群最大100台机器,200个ES节点。共使用近300台机器,启动500+ES节点。
典型应用场景一:云分析业务
---------------------------
在云分析业务中,我们使用Rsyslog、Kafka、LogStash、Elasticsearch API、App、Web、Mysql、OS、Hadoop、Client、HDFS、Hive等技术栈。主要挑战包括大量文本数据的分词及建立索引、数万用户、索引分片过多、元数据过大、fielddata占用大量内存、容易OOM、任意多维度关键词聚合查询秒级返回等。
解决方案包括根据索引大小分别设置分片数、充分利用type合并索引、除分词字段外,其他字段全部存储为docvalue、masternode、datanode、clientnode分离部署、保守设置fielddata内存占用软硬限、及其他内存占用限制、设置fielddata有效期等。
典型应用场景二:casio业务
---------------------------
在casio业务中,我们面临着字段不确定、数据量较大、每天30TB+数据、24小时不间断导入、小时级任意维度聚合分析毫秒级返回、天级秒级返回、集群规模较大、机器较旧、宕机为常态等挑战。
解决方案包括使用动态mapping自动匹配未知字段、数据分发到所有节点批量导入、全部使用docvalue存储、减少内存消耗、使用模板、分天级等。
Elasticsearch在百度的使用
---------------------------
Elasticsearch在百度的使用定位为OLAP Reporting Multidimensional Analysis SQL DB Palo Text Analysis Search DB。ES在百度的使用包括大数据分析实践、云分析业务、casio业务等多种应用场景。
结论
----------
在本文中,我们分享了百度Elasticsearch实践的经验和挑战,包括云分析业务和casio业务两个典型应用场景。我们也探讨了ES在百度的使用、挑战和解决方案,希望能够为读者提供有价值的参考。
2018-02-17 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-05-17 上传
2019-08-26 上传
点击了解资源详情
土哥呀
- 粉丝: 6
- 资源: 11
最新资源
- IBMIotForAndriod:用于 IBM IoT 的 Andriod 应用程序
- hext:HtmlAgilityPack库的扩展
- 一个非常简单的markdown文档的静态站点生成器-Node.js开发
- NanoR:R程序包用于分析和比较纳米Kong数据-开源
- FileTest,java项目源码下载,二叉平衡树Java
- 安卓Android源码——安卓Android中实现Iphone样式的AlertDialog.zip
- 打印机驱动 LJPro_MFP_M125-126_full_solution_15309
- AccessControl-4.3-cp38-cp38-win_amd64.whl.zip
- STM32F429 FreeRTOS实战:实现FreeRTOS任务运行时间统计【支持STM32F42X系列单片机】.zip
- webpack4-template:标记样板
- rmr:JavaScript JavaScriptWebGL中的音频React式视觉引擎
- pipetastic-foldl:将管道函数转换为 foldl 折叠的实验
- 箱型图,简单a星算法源码matlab,matlab源码网站
- assigment-4-源码.rar
- Python库 | gecosistema_lite-0.0.650.zip
- Accern-0.1.8-py2.py3-none-any.whl.zip