InfluxDB基础：数据格式与核心概念解析

74 浏览量更新于2024-08-31 收藏 161KB PDF 举报

"本文主要介绍了InfluxDB的基本概念，包括数据格式、与传统数据库的比较、Point和Series的定义。" InfluxDB是一款专为时间序列数据设计的高性能开源数据库，广泛应用于监控、物联网(IoT)以及大数据分析等领域。其设计理念是优化对时间序列数据的写入和查询性能。 1. 数据格式 InfluxDB的数据模型基于一种简化的键值对结构，可以将其理解为虚拟的key-value形式。关键组成部分包括： - **database**: 数据库名，InfluxDB支持创建多个数据库，每个数据库的数据存储在独立的磁盘目录，以实现数据隔离。 - **retention policy (RP)**: 存储策略，定义了数据应保留多久。默认的RP名为`autogen`，默认保留数据无限期，用户可自定义如保留最近2小时的数据等策略。未指定RP时，默认使用`autogen`，且默认RP可被修改。 - **measurement**: 测量指标，类似于传统数据库的表名，用于描述一类度量，如CPU利用率。 - **tagsets**: 包含一系列tag键值对，用于分类和过滤数据，它们构成数据库的索引。 - **tag**: key-value结构，与measurement一起形成索引，有助于高效查询。 - **fieldname**: 数据字段名，如上述例子中的"value"，一个数据点可以有多个字段，但底层存储中被视为多条单独记录。 - **timestamp**: 每个数据点的时间戳，用于定位数据，InfluxDB的查询优化依赖于它。 2. 与传统数据库的比较 InfluxDB与传统的关系型数据库相比，更专注于时间序列数据的处理。传统数据库通常以行和列的形式组织数据，而InfluxDB则将数据组织为Point和Series，强调时间戳和标签的利用，以提供更快的写入和查询性能。 3. Point Point是InfluxDB中的基本数据单元，类似于传统数据库中的一行记录。一个Point包含以下元素： - **time**: 数据的时间戳。 - **fields**: 包含具体数值的数据字段，可以有多个。 - **tags**: 用于分类和筛选的元数据，以key-value形式存在，不携带具体数值。 4. Series Series是一组具有相同**database**、**retention policy**、**measurement**以及**tagsets**的数据。这些数据在InfluxDB中被视为一个逻辑组，允许高效地进行聚合查询和分析。了解InfluxDB的基本概念对于有效管理和利用时间序列数据至关重要，无论是监控系统性能、跟踪设备状态还是进行实时分析，都离不开这些核心组件的理解和应用。

InfluxDB概念和基本操作概念和基本操作

InfluxDB基本概念

1、数据格式

在 InfluxDB 中，我们可以粗略的将要存入的一条数据看作一个虚拟的 key 和其对应的 value(field value)。格式如下：

虚拟的 key 包括以下几个部分： database, retention policy, measurement, tag sets, field name, timestamp。

database: 数据库名，在 InfluxDB 中可以创建多个数据库，不同数据库中的数据文件是隔离存放的，存放在磁盘上的不同目

录。

retention policy: 存储策略，用于设置数据保留的时间，每个数据库刚开始会自动创建一个默认的存储策略 autogen，数据保

留时间为永久，之后用户可以自己设置，例如保留最近2小时的数据。插入和查询数据时如果不指定存储策略，则使用默认存

储策略，且默认存储策略可以修改。InfluxDB 会定期清除过期的数据。

measurement: 测量指标名，例如 cpu_usage 表示 cpu 的使用率。

tag sets: tags 在 InfluxDB 中会按照字典序排序，不管是 tagk 还是 tagv，只要不一致就分别属于两个 key，例如

host=server01,region=us-west 和 host=server02,region=us-west 就是两个不同的 tag set。

tag--标签，在InfluxDB中，tag是一个非常重要的部分，表名+tag一起作为数据库的索引，是“key-value”的形式。

field name: 例如上面数据中的 value 就是 fieldName，InfluxDB 中支持一条数据中插入多个 fieldName，这其实是一个语法上

的优化，在实际的底层存储中，是当作多条数据来存储。

timestamp: 每一条数据都需要指定一个时间戳，在 TSM 存储引擎中会特殊对待，以为了优化后续的查询操作。

2、与传统数据库中的名词做比较

3、Point

Point由时间戳（time）、数据（field）、标签（tags）组成。

Point相当于传统数据库里的一行数据，如下表所示：

4、Series

Series 相当于是 InfluxDB 中一些数据的集合，在同一个 database 中，retention policy、measurement、tag sets 完全相同的

数据同属于一个 series，同一个 series 的数据在物理上会按照时间顺序排列存储在一起。

5、Shard

Shard 在 InfluxDB 中是一个比较重要的概念，它和 retention policy 相关联。每一个存储策略下会存在许多 shard，每一个

shard 存储一个指定时间段内的数据，并且不重复，例如 7点-8点的数据落入 shard0 中，8点-9点的数据则落入 shard1 中。

每一个 shard 都对应一个底层的 tsm 存储引擎，有独立的 cache、wal、tsm file。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38744435

粉丝: 373
资源: 2万+

InfluxDB基础：数据格式与核心概念解析

C#读写Influxdb代码例子

实用的influxdb连接工具

influxdb-handbook

influxdb rpm包共享

InfluxDB管理工具源码

influxdb-demo_influxdb_forgetxbi_batch_源码

influxdb_c.zip

InfluxDB中文文档.pdf

influxdb-python.pdf

InfluxDBStudio-0.1.0.rar

最新资源