海尔实时计算平台:技术选型与实战揭秘

需积分: 5 1 下载量 63 浏览量 更新于2024-06-21 收藏 3.18MB PDF 举报
"《藏经阁-海尔实时计算平台技术选型与实践》一文深入探讨了海尔公司在构建其实时计算平台时的技术选型策略和实践经验。作者肖云,作为海尔电器的资深架构师,曾任方正电子新媒体开发总监和中投视讯研发总监,以其丰富的行业经验和专业技术背景,分享了海尔在大数据管理中的关键决策。 文章首先阐述了实时计算平台在海尔大数据战略中的重要性,它涉及到的数据采集、实时处理、离线计算、数据可视化等多个环节。实时计算框架涵盖了存储服务、数据采集框架(如Fluentd、Flume、Logstash等)、实时计算引擎(如Storm、JStorm、Spark和Flink)以及数据产品的多样化应用。 在技术选型上,作者强调了实时数据采集的低延迟性和业务系统兼容性,同时指出了代码埋点虽然采集能力强但成本较高,而可视化埋点则成本低但信息记录有限。具体到技术实现,文中提到了Flume的Source、Channel和Sink组件,以及Ganglia用于监控事件接收、处理和拥堵情况。此外,文章还讨论了应对业务系统不配合修改的情况,提出了使用ChangeDataCapture(CDC),如Oracle CDC的OGG方案,以及MySQL CDC的Canal作为替代。 在实际操作中,作者分享了OGG的监控方案,包括GoldenGateDirector和GoldenGateMonitor等工具,并对比了不同数据库(如Oracle、MySQL和PostgreSQL)的CDC实施细节和推荐方案。此外,文章也关注了数据入库、解析、采集和插码的过程,以及如何通过Nagios、Caravel等工具进行数据可视化和监控。 《海尔实时计算平台技术选型与实践》这篇文档提供了实用的指导,对于企业在选择实时计算平台技术时面临的问题和挑战,以及如何平衡性能、成本和业务集成度等方面提供了有价值的参考。通过阅读这篇文章,读者可以了解到一个大型企业级实时计算平台的构建过程和技术细节,有助于其他企业在类似场景下做出明智的技术决策。"