易果集团:TiDB/TiSpark驱动的实时数仓创新应对挑战

0 下载量 25 浏览量 更新于2024-08-28 1 收藏 214KB PDF 举报
在易果集团的实时数仓创新实践中,随着业务规模的扩大和需求的多元化,原有的基于Hadoop生态(包括HDFS、Hive、Spark、Presto和Kylin)的数据分析解决方案已无法满足对实时性和复杂度要求更高的业务需求。原有的准实时系统,虽然初期运行在SQL Server上,但随着数据量的增长,其性能瓶颈日益显现。为了应对这些挑战,易果集团进行了深入的选型评估。 评估过程中,Greenplum因其主要用于并发度不高的离线分析场景,且在OLTP性能上不敌TiDB,被排除在实时系统的首选之外。Kudu作为CDH2015年的产物,虽然在OLTP性能上与TiDB相当,但在中等数据量的分析性能上存在差距。此外,与Presto的兼容性问题也成为了考虑因素,而TiDB通过兼容MySQL协议,可以无缝对接Presto,提供了一种便捷的解决方案。 Tispark和SparkSQL的通用性是另一个重要的考量,它们能够在实时系统和离线系统之间切换,使得易果集团能够利用相同的代码库处理不同场景,无论是小时级的离线任务还是实时业务,甚至T+1的需求,都能灵活应对。因此,最终TiDB和TiSpark被选为易果集团实时数仓的核心技术,它们不仅能满足OLAP和OLTP的混合需求,还能与现有的Hadoop生态整合,提供了高效、灵活且易于扩展的实时数据分析平台。这一创新实践不仅解决了当前的性能瓶颈,也为未来业务发展奠定了坚实基础。