携程机票大数据架构实战分享：选型与应用

版权申诉

84 浏览量更新于2024-08-23 收藏 296KB DOCX 举报

本文是一篇关于携程机票大数据架构的最佳实践分享，由携程机票大数据基础平台Leader许鹏撰写。他曾在DAMS2021中国数据资产管理峰会上分享了搭建大数据平台的关键要素和经验。文章探讨了数据平台技术选型的重要性，尤其是在面临众多开源项目的挑战时，如何选择合适的组件构建高效架构。首先，文章强调了数据平台的整体框架设计应具备灵活性，以便适应不同的业务需求和场景。在这个框架中，数据源通常通过消息队列Kafka进行传输，确保高吞吐量和实时数据推送与拉取。LinkedIn的Camus被推荐用于将Kafka中的数据同步至Hadoop分布式文件系统(HDFS)，为批量处理做好准备。在批处理分析环节，许鹏指出，选择分析引擎时需要权衡多种选项，包括Hive、Spark、Presto、Impala等。每种引擎都有其优势，例如Spark以其强大的并行计算能力闻名，而Presto则以快速查询性能受到青睐。实际选择应根据具体业务场景的实时性要求、查询性能、数据处理复杂度等因素综合考虑。此外，文章还提到了非数据建模的重要性，即如何组建一个有效的团队，将数据科学家、工程师、业务分析师等不同角色有效协作，共同推动数据价值的发掘和应用。这涉及到团队建设、技能互补以及跨部门沟通协调。总结来说，本文提供了携程在构建机票大数据架构时的实战经验和思考，对于企业级大数据平台的搭建者和开发者具有很高的参考价值，特别是在技术选型和团队协作方面。

型上面易都很好。但是 Elasticsearch 的难点在于如何对它进行好的维护，

后面我会讲到它可能存在的维护痛点。

那么，Elasticsearch 有格外强大的搜索力量，响应时间也是格外快的，但

是它的用户接口，有本人的一套基于 Lucene 的搜索语法，当然 Lucene 的

这一套语法本身是格外极客的，很简约，但是一般的人不情愿去学这个东

西，由于对于分析师来讲去学，就意味着以前的武功，几十年功夫白费

了。



于是我们就接受了一个插件 Elastisearch-SQL，这样就可以接受 SQL 语句

对 Elasticsearch 进行点查询或者范围查询。而且在 Elasticsearch 的演进

路径当中，也会支持 SQL，依据之前看到的 ES roadmap, 应当在 17 年最

迟不超过 18 年发布 6.×，重要的特性之一是对 SQL 的支持，大家可以看到

假如不支持 SQL，就等于是自废武功，或者拒客户于千里之外。



WebUI 是人机交互的部分，我们会进行 Ad-hoc 查询，但在整个部门当中

有不少程序期望调用查询，也就是应用的接口，接受 SOA 的架构，我们本

人开发实现了 BigQuery API，可以通过这种调 Restful 接口方式，进行取

数或者分析。那么我们会自动判别到底是到 ES 这一侧还是到 Presto 进行

取数。



在很多公司的使用当中，数据分析这一块是需要报表的，就是要有很好的

Dashboard。



2、ETLPipeLine -- Gobblin

剩余12页未读，继续阅读

manyunmanyun

粉丝: 0
资源: 7万+

携程机票大数据架构实战分享：选型与应用

打造“智慧名城”,重庆住建系统实施大数据智能化战略.docx

互联网大数据架构最佳实践.docx

大数据技术之spark.docx

大数据架构和模式.docx

互联网平台大数据架构大比拼.docx

万字详解大数据架构新概念.docx

新零售下的大数据架构及应用.docx

TB级大数据应用搭建实践.docx

大数据的架构特征.docx

大数据平台架构剖析.docx

最新资源