HiTSDB升级：分布式流式聚合解决云上痛点

93 浏览量更新于2024-08-27 收藏 1.19MB PDF 举报

深度解读时序数据库HiTSDB：分布式流式聚合引擎 HiTSDB作为阿里巴巴内部时序数据库引擎，起初针对集团业务进行了大量定制化优化。但在向公有云产品转型过程中，面临了将这些优化推广到不同用户难题，同时，公有云用户在使用HiTSDB时遇到了诸多聚合查询相关的挑战，如数据量大引发的栈溢出、内存溢出（OOM）和查询性能问题等。这些问题根源在于原有的聚合引擎架构存在局限。为解决这些问题，HiTSDB开发团队决定对引擎进行全面升级，重点关注五个关键领域： 1. **时序数据存储模型**： - 时序数据通常由时间轴和时间线两维表示，数据随时间增加而追加，用id+{timestamp,value}模型表示。常见的存储策略分为两种： - **时间窗口划分**：如InfluxDB和Prometheus，数据根据时间窗口紧凑存储，利于写入和高纬度标签查询，但存在“乱序”问题，处理迟到数据可能需要丢弃或牺牲性能。 - **时间线划分**：如OpenTSDB，通过先按指标再按时间窗口划分，解决了OpenTSDB的单值模型问题，但可能导致性能损失。 2. **索引方式升级**：为了提高查询效率，新的聚合引擎可能引入更高效、动态调整的索引策略，以减少全表扫描和响应延迟。 3. **流式聚合**：通过实现全新设计的流式聚合，HiTSDB能实时处理数据流，降低数据量对系统的影响，避免堆积和延迟，提高整体性能和稳定性。 4. **数据迁移**：在升级过程中，需要考虑数据的平滑迁移，确保服务的不间断，同时降低对业务的影响。 5. **性能评测与优化**：升级后，HiTSDB团队会进行全面的性能测试，对比旧版引擎，分析新功能的性能瓶颈，并持续优化，以满足不同场景下的性能需求。总结来说，HiTSDB的新聚合引擎升级旨在解决原有架构的局限，通过改进存储模型、优化索引、引入流式处理方式，提升数据处理效率和系统的健壮性，为公有云用户提供更加稳定、可扩展的时序数据分析解决方案。这个过程不仅涉及技术细节，也包括了对业务场景和用户体验的深入理解与适应。

深度解读！时序数据库深度解读！时序数据库HiTSDB：分布式流式聚合引擎：分布式流式聚合引擎

背景

HiTSDB时序数据库引擎在服务于阿里巴巴集团内的客户时，根据集团业务特性做了很多针对性的优化。然而在HiTSDB云产

品的打磨过程中逐渐发现，很多针对性的优化很难在公有云上针对特定用户去实施。

于此同时，在公有云客户使用HiTSDB的过程中，发现了越来越多由于聚合查询导致的问题，比如：返回数据点过多会出现

栈溢出等错误，聚合点过多导致OOM，或者无法完成聚合，实例完全卡死等等问题。这些问题主要由于原始的聚合引擎架构

上的缺陷导致。

因此HiTSDB开发团队评估后决定围绕新的聚合引擎架构对HiTSDB引擎进行升级，包含：存储模型的改造，索引方式的升

级，实现全新的流式聚合，数据迁移，性能评测。本文主要围绕这5个方面进行梳理，重点在“全新的流式聚合部分”。

1. 时序数据存储模型：

1.1 时序的数据存储格式。

一个典型的时序数据由两个维度来表示，一个维度表示时间轴，随着时间的不断流入，数据会不断地追加。另外一个维度是

时间线，由指标和数据源组成，数据源就是由一系列的标签标示的唯一数据采集点。例如指标cpu.usage的数据来自于机房，

应用，实例等维度组合成的采集点。这样大家逻辑上就可以抽象出来一个id+{timestamp, value}的时序数据模型。这种数据模

型的存储是如何呢。一般有两种典型的数据存储思路：

一种按照时间窗口维度划分数据块，同一段自然时间窗口内的连续数据放到相邻的位置，比如{1:00, 2:00}->(id1, id2, id3, ... ...

,idN)。采用这种方式的典型时序数据库包含InfluxDB, Promethues等等TSMT结构的数据库。OpenTSDB有些特殊，因为

OpenTSDB是单值模型，指标这个维度在查询的时候是必带的。所以可以先按照指标做了一级划分，再根据时间窗口做二级

的划分，本质上还是同一时间窗口内的连续数据。按照时间窗口切分的方式，优势是写入的时候可以很天然的按照窗口去落

盘，对于高纬度的标签查询基本上是一些连续Scan. 这种方式有个比较难解的问题就是"out of order"乱序问题，对于时间窗口

过期后再来的时间点， Promethues直接采用丢弃的方式，InfluxDB在这种情况下性能会有损耗。

另外一种按照时间线维度划分数据块，同一时间线的数据放到相邻的位置，比如(id1)->(1:00, 2:00, 3:00, ... ... , 23:00)。

HiTSDB采用时间线维度划分的方式：目前落盘数据存储于HBASE，底层Rowkey由指标+标签+自然窗口的方式组合而成.

Rowkey按照大小顺序合并某个时间线的数据点是连续相邻的。因此对于一些低维的查询效率是非常高效的。根据目前接触的

一些物联网服务，更多的是一些低维的访问。对于中等维度的查询采用流式scan。对于极高纬度标签的查询HiTSDB采用预聚

合的服务(不在本文讨论范围内)。

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38668754

粉丝: 3
资源: 972

HiTSDB升级：分布式流式聚合解决云上痛点

时序数据的分布式处理优化.pptx

HiTSDB：分布式流式聚合引擎的优化与升级

阿里云HiTSDB：物联网高性能时序数据库解决方案

阿里云HiTSDB：为物联网打造的高性能时序数据库

时序数据库TSDB：SQL与流计算解析

时序数据库基础：概念、架构与实战解析

时序数据库在物联网中的应用：数据采集到分析的完整解析

：揭秘Doris数据库架构：从存储到查询的全面解析

时序数据库在金融科技中的应用：实时数据处理，提升决策效率

：快速解决数据库难题：Doris数据库常见问题与解决方案

最新资源