InfluxDB数据写入机制：Shard路由与TSM引擎解析

73 浏览量更新于2024-08-31 收藏 178KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文主要探讨了InfluxDB的数据写入机制，特别是其TSM存储引擎的工作原理。InfluxDB提供多种接口供外部应用写入数据，如Collected、OpenTSDB、HTTP和UDP协议。数据写入过程主要包括批量时序数据的shard路由、倒排索引引擎的构建以及TSM引擎的持久化。每个shard类似HBase的region，负责处理读写请求。数据先通过倒排索引引擎构建索引，然后在TSM引擎中被持久化到磁盘上的TSMFile。文章还简要回顾了InfluxDB的分片策略，包括时间范围分片和哈希分片，确保高效的数据管理和查询能力。" 在InfluxDB的数据写入过程中，首先，外部应用通过各种接口协议如Collected、OpenTSDB、HTTP或UDP将批量时序数据导入。这些数据随后会被路由到相应的shard，shard是根据时间范围和SeriesKey的哈希值进行分片的，确保相同SeriesKey的数据落在同一shard内，以优化查询效率。每个shard包含两个重要的LSM引擎：倒排索引引擎和TSM引擎。倒排索引引擎在数据写入时起关键作用，它负责构建倒排索引，这使得InfluxDB能够支持高效的多维查询。倒排索引允许快速定位到具有特定维度值的数据点，极大地提高了查询性能。数据点在构建索引后，将进入下一个阶段。 TSM（Time Series Merge）引擎是InfluxDB的核心存储组件，它负责将数据持久化到磁盘。TSM引擎遵循LSM（Log-Structured Merge Tree）结构，先将数据写入WAL（Write-Ahead Log）日志，接着存入内存的cache。当cache达到一定大小或达到预设条件时，会触发flush操作，将cache中的数据写入磁盘形成TSMFile。TSMFile是一种压缩的、列式存储的格式，有利于快速读取和压缩存储大量时序数据。批量时序数据的Shard路由是整个写入流程的关键步骤，通过高效的分片策略，InfluxDB能够在高并发环境下保证数据的正确性和查询的性能。这一过程不仅考虑了时间窗口，还利用哈希分片确保数据分布的均匀性，从而提高系统的可扩展性和并发处理能力。 InfluxDB的数据写入机制是其作为一个高性能时序数据库的关键特性。通过精心设计的sharding策略、倒排索引和TSM引擎，InfluxDB能够有效地处理大量时序数据，同时提供强大的查询性能，满足监控、分析和其他实时数据处理场景的需求。

资源详情

资源推荐

InfluxDBTSM存储引擎之数据写入存储引擎之数据写入

InfluxDB写入总体框架

InfluxDB提供了多种接口协议供外部应用写入，比如可以使用collected采集数据上传，可以使用opentsdb作为输入，也可以使

用http协议以及udp协议批量写入数据。批量数据进入到InfluxDB之后总体会经过三个步骤的处理，如下图所示：

批量时序数据shard路由：InfluxDB首先会将这些数据根据shard的不同分成不同的分组，每个分组的时序数据会发送到对应的

shard。每个shard相当于HBase中region的概念，是InfluxDB中处理用户读写请求的单机引擎。

倒排索引引擎构建倒排索引：InfluxDB中shard由两个LSM引擎构成 – 倒排索引引擎和TSM引擎。时序数据首先会经过倒排索

引引擎构建倒排索引，倒排索引用来实现InfluxDB的多维查询。

TSM引擎持久化时序数据：倒排索引构建成功之后时序数据会进入TSM Engine处理。TMS Engine处理流程和通用LSM

Engine基本一样，先将写入请求追加写入WAL日志，再写入cache，一旦满足特定条件会将cache中的时序数据执行flush操作

落盘形成TSM File。

批量时序数据Shard路由

通常来说时序数据都会以批量的形式写入数据库，很少会像关系型数据库那样一条一条写入，这对于追求高吞吐的时序系统来

说至关重要。批量数据写入InfluxDB之后做的第一件事情是分组，将时序数据点按照所属shard划分为多组（称为Shard

Map），每组时序数据点将会发送给对应的shard引擎并发处理。

这里我们简单回顾下InfluxDB的Sharding策略（详见文章《时序数据库技术体系 – 初识InfluxDB》中Sharding策略一节）。

InfluxDB虽说是单机数据库，但是每个表依然会被分为多个shard。简单来说，InfluxDB中sharding属于两层sharding：首先按

照时间进行Range Sharding，即按时间分片，比如7天一个分片的话，最近7天的数据会分到一个shard，一周前到两周前的数

据会被分到上一个shard，以此类推；在时间分片的基础上还可以再执行Hash Sharding，按照SeriesKey执行Hash（保证同一

个SeriesKey对应的所有数据都落到同一个shard），再将数据分散到指定的多个shard中。

当然，经过笔者深进一步了解，发现单机InfluxDB只有第一层sharding，即只有根据时间进行Range Sharding，并没有执行

Hash Sharding。Hash Sharding只会在分布式InfluxDB中才会用到。

倒排索引引擎构建倒排索引

InfluxDB中倒排索引引擎使用LSM引擎构建，上篇文章《时序数据库技术体系 – InfluxDB 多维查询之倒排索引》其实已经对引

擎的工作原理进行了深入的介绍。这里重点将整个流程做一个串联梳理，其中细节部分不会展开来讲，有兴趣的话可以参考上

一篇文章。

这里首先思考一个问题：为什么InfluxDB倒排索引需要构建成LSM引擎？其实很简单，LSM引擎天生对写友好，写多读少的系

统第一选择就是LSM引擎，所以大数据时代的各种数据存储系统就是LSM引擎的天下，HBase、Kudu、Druid、TiKV这些系统

无一不是这样。InfluxDB作为一个时序数据库更是写多读少的典型，无论倒排索引引擎还是时序数据处理引擎选用LSM引擎更

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38499706

粉丝: 2
资源: 906

InfluxDB数据写入机制：Shard路由与TSM引擎解析

OPC2DB软件提供OPC Server数据与数据库数据的同步

easy-loxone-influx:使用UDP日志将Loxone转换为InfluxDB脚本

InfluxDB.UDP

Spark存储原理——数据写入过程

Doris数据写入和读取效率

西门子1200将数据写入到数据从存储模块中怎么写

mysql各个存储引擎的区别

click如何数据写入

hive表数据写入es

kafka数据写入mysql

kepserverex数据写入数据库案例.pdf

MySQL有哪些常见的存储引擎

请简述apache hadoop3.x中HDFS的数据写入流程

kep数据写入到sql

mysql所有存储引擎

负责将数据写入到Mongodb中

python中如何将数据写入excel中

emqx数据写入postgresql

控制软件数据写入函数注册表 解释一下这句话

python爬虫数据写入excel

最新资源

控制软件数据写入函数注册表解释一下这句话