Bloomberg的中数据处理:突破TB级挑战与高效设计

1 下载量 132 浏览量 更新于2024-08-27 收藏 235KB PDF 举报
"勿谈大数据的宏大概念,而是关注Bloomberg如何应对中数据处理的复杂现实。中数据是指数据规模介于单服务器能处理的范围与PB级大数据集群之间,通常在TB级别。Bloomberg面临的是这种规模的挑战,特别是在时间序列数据分析中,如债券价格、交易量等数据,对实时性和性能有极高要求。 在企业级场景下,Bloomberg发现传统的Hadoop和Spark系统在低延迟处理中并不理想,尽管现代硬件如高核心数、SSD和大内存变得普遍。现有的大数据平台未能充分利用这些硬件优势,尤其是在处理当天数据的写入和历史数据的批量更新时,两者的需求和性能差距显著。例如,当天数据系统需要频繁写入,历史数据则涉及大量搜索,这导致系统设计复杂且效率不高。 一个具体的例子是债券时间序列数据,其中需要快速响应,响应时间需控制在5毫秒内,每日被访问数十亿次,高峰期甚至每秒高达50万次。这对系统的稳定性和性能提出了严峻考验。 PortfolioAnalytics等应用可能同时需要处理大规模数据,如数万个债券的归因计算,涉及到大量数据点。即使使用高效的缓存,仍有大量未命中的情况,这可能导致磁盘I/O密集,特别是当用户请求大量增加时,对价格历史系统的压力倍增。 总结来说,Bloomberg面临的中数据处理挑战在于如何在满足实时性、高性能和海量数据管理的同时,优化硬件资源利用,降低延迟,并应对不断增长的业务需求。这需要创新的架构设计和数据处理技术,以应对不同于传统大数据的中等规模数据处理问题。"