eBay云原生日志监控演进:从Elasticsearch到ClickHouse

版权申诉
0 下载量 59 浏览量 更新于2024-07-05 收藏 3.72MB PDF 举报
"eBay在云原生生产环境下的日志监控经历了从初期的Elasticsearch方案到后来尝试Loki,最终采用Filebeats+LogIngress+ClickHouse+FileSystem+LogEgress+Grafana的演进过程。" 在云原生环境中,随着应用程序的容器化和微服务化,日志监控面临着前所未有的挑战。传统的日志处理方式不再适应大规模、分布式系统的需求。eBay在面对超过十万台Kubernetes Node的集群时,日志监控的效率、存储成本和可扩展性成为了关键问题。 最初,eBay采用了Filebeat+Kafka+Elasticsearch+Grafana的组合,这是一个常见的开源日志收集和分析解决方案。然而,随着日志量的增加,这套系统在扩容、查询性能和数据完整性方面暴露出问题,特别是Elasticsearch在处理大规模日志时显得力不从心,成本高昂且不易扩展。 之后,他们转向了Loki,一个专为云原生环境设计的轻量级日志聚合系统。Loki以标签索引而非全文索引来优化存储,同时支持读写分离和使用对象存储(如S3)。尽管Loki在概念上很有吸引力,但在实践中,Ingester的稳定性、日志分发的均匀性和大规模下的性能都未能达到eBay的要求。 最后,eBay构建了一个定制的解决方案,包括Filebeats用于日志收集,LogIngress处理入站日志,ClickHouse作为高性能的数据存储,FileSystem提供额外的存储支持,LogEgress负责出站日志操作,以及Grafana用于可视化。这个方案不仅解决了存储和性能问题,还提供了友好的用户体验,并能够与其他监控数据无缝集成。 在整个过程中,eBay不断探索和优化,从早期的全栈解决方案到针对特定场景进行定制,体现了在应对大规模日志监控挑战时的灵活性和创新精神。他们的经验教训对于其他寻求优化云原生日志监控的企业具有很高的参考价值。