Hypertable：C++实现的Bigtable开源版

148 浏览量更新于2024-08-29 收藏 1.17MB PDF 举报

"Hypertable是一个开源的分布式数据存储系统，由C++编写，其设计灵感来源于Google的Bigtable。Hypertable主要解决大数据量的存储和管理问题，尤其适用于云计算环境中的大规模分布式应用。它提供了一个类似于表格的结构来组织数据，允许高效、可靠地处理PB级别的结构化数据。 1. 数据模型与组织结构 Hypertable的数据模型基于一个多维稀疏矩阵，这种结构使得数据能够被高效地存储和检索。矩阵的每一行代表一个数据记录，行键（RowKey）作为主键进行排序。列族（ColumnFamily）是第二维度，包含了一组具有相同类型属性的列（ColumnQualifier）。列族内的列数量理论上没有限制，列名通常以family:qualifier的形式表示。时间戳（Timestamp）是第四维度，用于区分同一列族、列下不同时间点的数据版本。 2. 表键与原子性操作 RowKey是Hypertable中数据记录的唯一标识，可以是任意长度不超过64Kbyte的字符序列。行的操作，如插入、更新和删除，都保证了原子性，确保了数据操作的完整性。例如，对行的插入（Insert）操作会根据RowKey进行排序，并且在系统中以原子的方式完成。 3. 分布式与可扩展性基于分布式并行文件系统（如GFS、HDFS等）构建，Hypertable具有良好的可扩展性和伸缩性。数据分布在多个计算节点上，通过分片（Sharding）和副本（Replication）策略确保数据的高可用性和容错性。每个分片称为一个 Tablet，Tablet 可以根据RowKey范围进行划分和分配，使得数据的读写操作能够在集群中的不同节点上并行处理，从而实现高性能的数据访问。 4. 接口与访问方式虽然Hypertable的数据组织方式与表格类似，但它不完全支持SQL。不过，它提供了面向表的访问接口，使得开发者可以方便地进行数据查询和操作。此外，Hypertable还支持使用像Thrift这样的远程过程调用（RPC）框架，以自定义的方式与系统交互，从而适应不同的应用需求。 5. 性能与可靠性通过使用Bigtable的设计理念，Hypertable在处理大数据量时表现出了优秀的性能。它支持高效的读写操作，尤其是在大数据场景下，能够提供低延迟的服务。同时，通过分布式存储和复制策略，Hypertable保证了数据的可靠性和一致性，即使在部分节点故障的情况下也能正常工作。总结： Hypertable是一个强大的、面向大规模分布式应用的存储系统，它利用多维稀疏矩阵的数据模型和分布式架构，实现了对PB级别结构化数据的高效管理。其设计目标是提供高吞吐量、低延迟的数据访问，以及良好的可扩展性和容错性，是云计算环境中处理大数据的理想选择。"

Hypertable简介简介(一个一个C++的的Bigtable开源实现开源实现)

1.Introduction

随着互联网技术的发展，尤其是云计算平台的出现，分布式应用程序需要处理大量的数据(PB级)。在一个或多个云计算平台中

(成千上万的计算主机)，如何保证数据的有效存储和组织，为应用提供高效和可靠的访问接口，并且保持良好的伸缩性和可扩

展性，成为云计算平台需要解决的关键问题之一。分布式并行文件系统，为云计算平台解决了海量数据存储问题，并且提供了

统一的文件系统命令空间，如GFS、Hadoop HDFS、KFS等，在此基础上， Hypertable实现了分布式结构化的数据组

织，Hypertable可以对海量的结构化的数据(PB级)提供面向表形式的组织方式,并向应用提供类似表访问的接口(如SQL接口)

2 Structured Data and Tablet Location

2.1 数据模型（Data Model）

Hypertable采用类似表的形式组织数据，但目前Hypertable并不支持关系数据库中丰富的关系属性。Hypertable将数据组织成

一个多维稀疏矩阵。该矩阵中的所有行信息可以基于主键（Primary Key）进行排序。在该多维矩阵中第一维称为行

（Row），行键值（Row Key）即为Primary Key；第二维即列族（Column Family），一个列族包含多个列（Column

Qualifier）的集合，它们一般具有相同的类型属性，系统在存储和访问表时，都是以Column Family为单元组织；第三维即列

（Column Qualifier），理论上，一个列族中列的个数不受限制，列的命名方式通常采用family:qualifier的方式；最后一维就是

时间戳（Timetstamp），它通常是系统在插入一项数据时自动赋予。如果我们把行和列族看成三维矩阵的行和列，那么我们

可以将“时间戳”看成是纵向深度坐标。如图2-1所示，Tn就是每项值（Value）的“深度”标签。

Figure 2-1 A Multi-Dimensional Table

2.1.1 行键（Row Key）

Hypertable中Row Key定义为任意的字符序列（长度不超过64Kbyte，通常的应用也就百个字节左右），所有行以Row key为

主键进行字典排序。在Hypertable中队行的操作保持原子性，对行的插入（Insert）、更新（Update）、删除（Delete）等都

保持整行的原子操作，无论行操作涉及到的列的个数。在Hypertable中保持行操作的原子性，对应用程序来说显然具有积极的

意义，它使得Hypertable对应用程序来说，行的一致性得到保证。

在Hypertable中，所有的行数据按照Row Key的字典序排列，如图2-1，随着数据量的不断增长（不断的有新的数据插入），

该多维数据表会不断增长，在一个并行的云计算平台中，当该表增长到一定大小时，系统会将该表一分为二，分别由平台中不

同的主机维护，分裂后的表可以独立增长，再进行分裂，由此反复，最终一个多维的Hypertable表实际上是以大量的“小表

（Tablet）”的形式存在于云计算平台中，它们具有完全对等的属性，分别维护表中的部分数据；一个小表（Tablet）由一台主

机维护，一台主机可以维护多个小表。在Hypertable中，表的分裂沿行区间（Row Range）切分，如图2-2所示，一张表在生

长过程中，在一定的行区间被分裂为多个行区间（Row Range），每一个行区间成文一个新的小表（Tablet）。在Hypertable

中缺省是一个Tablet增长到200M左右分裂，同时由于系统在并行处理平台上运行，会根据负载均衡原则进行调解。在云计算

平台中，分裂出来的Tablet基于Load Balance原则被分布在不同的主机上维护，从而，对表的操作演化成对各小表（Tablet）

的操作，处理效率显然高于对整个大表的操作。用户在使用Hypertable时合理的选择Row Key，可以得到更好的数据处理效

率。例如在处理大量网页数据时（网页crawler获取的网页数据），通常把网页URL作为Row Key，其中URL的主机域名被反

序处理（如maps.google.com/index.html被反置为com.google.maps/index.html），如此具有相同域的网页被尽可能的组织在

相同或相邻的Tablet中，因此应用程序在处理这些数据时能得到更好的效率。

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38701640

粉丝: 2
资源: 901

Hypertable：C++实现的Bigtable开源版

Hypertable：C++实现的Bigtable开源版，分布式结构化数据处理

hypertable 源码

HyperTable 0.9.7.8 源码

hypertable-0.9.5.6源码

hypertable-0.9.8.9-src.tar.gz

C++开源的Hypertable：云计算时代的分布式数据管理解决方案

Hypertable：大并发与大数据的开源解决方案

Nosql数据库实践：从Hypertable到PNUTS

云计算平台的Hypertable：分布式结构化数据存储解决方案

【java毕业设计】应急救援物资管理系统源码（springboot+vue+mysql+说明文档）.zip

最新资源