NoSQL数据库入门：思想、技术与软件探索

需积分: 32 21 浏览量更新于2024-07-29 收藏 3.88MB PDF 举报

"NOSQL 技术文档，探讨NOSQL思想、框架及软件应用，适合初学者入门" NOSQL（Not Only SQL）数据库是一种非关系型的数据库技术，它针对大规模数据分布式存储和处理的需求，提供了不同于传统SQL数据库的解决方案。NOSQL的核心思想在于放弃对ACID（原子性、一致性、隔离性和持久性）事务的严格支持，转而追求更高的可扩展性、高可用性和容错性。 1. 思想篇 - CAP理论：在分布式系统中，无法同时满足一致性（Consistency）、可用性（Availability）和分区容忍性（Partition Tolerance）。NOSQL通常选择AP或CP，牺牲强一致性以换取系统性能和稳定性。 - 最终一致性：系统中的所有副本经过一段时间后，最终会达到一致状态，允许短暂的数据不一致。 - BASE理论：基本可用（Basically Available）、软状态（Soft State）、最终一致性（Eventual Consistency），是对CAP理论的一种实践策略。 - I/O的五分钟法则：强调快速响应用户请求，即使数据不完全是最新的。 - Amdahl定律和Gustafson定律：讨论并行计算性能提升的限制和可能性。 2. 手段篇 - 一致性哈希：解决分布式系统中负载均衡和数据分布问题。 - 亚马逊现状：亚马逊的Dynamo论文提出了一种基于一致性哈希和虚拟节点的分布式数据库设计。 - QuorumNRW：读写策略，确保数据的一致性和可用性。 - Vectorclock：用于分布式系统中处理时序和冲突检测的工具。 - Gossip协议：通过节点间的信息传播来维护数据一致性，分为StateTransferModel和OperationTransferModel两种模型。 - Merkletree：用于证明数据完整性和减少数据验证的复杂性，常见于区块链中。 - Paxos算法：解决分布式系统中的共识问题。 3. 软件篇 - 亚数据库：如Memcached，提供高速缓存功能，提升系统性能。 - Hadoop之Hbase：基于Hadoop的分布式列式存储系统，适合实时查询大数据。 - Facebook之Cassandra：分布式NoSQL数据库，适用于大规模数据分布式存储，提供高吞吐量和低延迟。 - Google之BigTable：大型分布式多维数据表，用于存储海量数据。 - Yahoo之PNUTS：云数据库系统，提供高性能的数据存储和访问。 NOSQL数据库根据数据模型的不同，可以分为多种类型： - 列存数据库：如Hbase，适合分析大量结构化数据。 - 文档存储：如MongoDB，以JSON文档形式存储数据。 - 键值对存储：如Amazon SimpleDB，适合简单的键值操作。 - 图形数据库：如Neo4j，用于存储和查询复杂的关系网络。这些不同的NOSQL数据库软件各有特点，可以根据具体应用场景选择合适的解决方案。例如，Memcached适用于需要高速缓存的场景，Hbase适合实时查询大规模数据，MongoDB则适合处理结构多变的数据。 NOSQL数据库在大数据时代提供了灵活、可扩展的存储和处理方案，适应了互联网应用对数据处理的新需求。其设计思想和软件应用已经广泛应用于社交网络、推荐系统、日志处理等场景。

这个阶段的设计存在以下问题

负载不均衡，尤其是单台发生故障后剩下一台会压力过大。

不能动态增删节点

节点发生故障时需要

client

重新登录

第三阶段

第三阶段第三阶段

第三阶段

打算去掉硬编码的hash() mod n 算法，改用一致性哈希(consistent hashing)分布

假如采用

Dynamo

中的

strategy 1

我们把每台

server

分成

个虚拟节点，再把所有虚拟节点

(n*v)

随机分配到一致性哈希的圆环上，这样所有的用户从自

己圆环上的位置顺时针往下取到第一个

vnode

就是自己所属节点。当此节点存在故障时，再顺时针取下一个作为替代

节点。

优点：发生单点故障时负载会均衡分散到其他所有节点，程序实现也比较优雅。

优点：发生单点故障时负载会均衡分散到其他所有节点，程序实现也比较优雅。优点：发生单点故障时负载会均衡分散到其他所有节点，程序实现也比较优雅。

优点：发生单点故障时负载会均衡分散到其他所有节点，程序实现也比较优雅。

亚马逊的现状

亚马逊的现状亚马逊的现状

亚马逊的现状

aw2.0

公司的

Alan Williamson

撰写了一篇报道，主要是关于他在

Amazon EC2

上的体验的，他抱怨说，

Amazon

是

公司唯一使用的云提供商，看起来它在开始时能够适应得很好，但是有一个临界点：

在开始的日子里

Amazon

的表现非常棒。实例在几分钟内启动，几乎没有遇到任何问题，即便是他们

的小实例（

SMALL INSTANCE

）也很健壮，足以支持适当使用的

MySQL

数据库。在

个月内，

Amazon

云系统一切运转良好，不需要任何的关心和抱怨。

……

然而，在最后的八个月左右，他们

“

盔甲

”

内的漏洞开始呈现出来了。第一个弱点前兆是，新加入的

Amazon SMALL

实例的性能出现了问题。根据我们的监控，在服务器场中新添加的机器，与原先的

那些相比性能有所下降。开始我们认为这是自然出现的怪现象，只是碰

巧发生在

“

吵闹的邻

居

”

（

Noisy Neighbors

）旁边。根据随机法则，一次快速的停机和重新启动经常就会让我们回到

“

安

静的邻居”旁边，那样我们可以达到目的。

2011-1-9 NoSQL数据库笔谈

yankay.com/…/NoSql Database Note/ 10/57

……

然而，在最后的一两个月中，我们发现，甚至是这些

“

使用高级

CPU

的中等实例

”

也遭受了与小实例相

同的命运，其中，新的实例不管处于什么位置，看起来似乎都表现得一样。经过调查，我们还发现

了一个新问题，它已经悄悄渗透到到

Amazon

的世界中，那就是内部网络延迟。

算法的选择

算法的选择算法的选择

算法的选择

不同的哈希算法可以导致数据分布的不同位置，如果十分均匀，那么一次MapReduce

就涉及节点较多，但热点均匀，

方便管理。反之，热点不均，会大致机器效率发挥不完全。

Quorum NRW

N: 复制的节点数量

成功读操作的最小节点数

成功写操作的最小节点数

只需

W + R > N

，就可以保证强一致性。

第一个关键参数是

，这个

指的是数据对象将被复制到

台主机上，

在实例级别配置，协调器将负责把数据复

制到

N-1

个节点上。

的典型值设置为

复

制中的一致性，采用类似于

Quorum

系统的一致性协议实现。这个协议有两个关键值：

与

。

代表一次成功

的读取操作中最小参与节点数量，W 代表一次成功的写操作中最小参与节点数量。R + W>N ，则会产生类似

quorum

的效果。该模型中的读

(

写

)

延迟由最慢的

R(W)

复制决定，为得到比较小的延迟，

和

有的时候的和又设

置比 N 小。

如果

中的

台发生故障，

Dynamo

立即写入到

preference list

中下一台，确保永远可写入

如

果

W+R>N

，那么分布式系统就会提供强一致性的保证，因为读取数据的节点和被同步写入的节点是有重叠的。在

一个RDBMS的复制模型中（Master/salve)，假如N=2,那么W=2,R=1此时是一种强一致性,但是这样造成的问题就

是可用性的减低，因为要想写操作成功，必须要等

个节点都完成以后才可以。

在分布式系统中，一般都要有容错性，因此一般

都是大于

的，此时根据

CAP

理论，一致性，可用性和分区容错

性最

多只能满足两个，那么我们就需要在一致性和分区容错性之间做一平衡，如果要高的一致性，那么就配置

N=W

，

R=1,

这个时候可用性就会大大降低。如果想要高的可用性，那么此时就需要放松一致性的要求，此时可以配置W=1，这样

使得写操作延迟最低，同时通过异步的机制更新剩余的

N-W

个节点。

当存储系统保证最终一致性时，存储系统的配置一般是

W+R<=N,

此时读取和写入操作是不重叠的，不一致性的窗口就

依赖于存储系统的异步实现方式，不一致性的窗口大小也就等于从更新开始到所有的节点都异步更新完成之间的时

间。

(N,R,W) 的值典型设置为 (3, 2 ,2),兼顾性能与可用性。R 和 W 直接影响性能、扩展性、一致性，如果 W 设置为

，则一个实例中只要有一个节点可用，也不会影响写操作，如果

设置为

，只要有一个节点可用，也不会影响读

请求，

和

值过小则影响一致性，过大也不好，这两个值要平衡。对于这套系统的典型的

SLA

要求

99.9%

的读

2011-1-9 NoSQL数据库笔谈

yankay.com/…/NoSql Database Note/ 11/57

写操作在

300ms

内完成。

无论是Read-your-writes-consistency,Session consistency,Monotonic read consistency,它们都通过黏贴

（

stickiness)

客户端到执行分布式请求的服务器端来实现的，这种方式简单是简单，但是它使得负载均衡以

及分区容

错变的更加难于管理，有时候也可以通过客户端来实现Read-your-writes-consistency和Monotonic read

consistency,

此时需要对写的操作的数据加版本号，这样客户端就可以遗弃版本号小于最近看到的版本号的数据。

在系统开发过程

中，根据

CAP

理论，可用性和一致性在一个大型分区容错的系统中只能满足一个，因此为了高可用

性，我们必须放低一致性的要求，但是不同的系统保证的一致性

还是有差别的，这就要求开发者要清楚自己用的系统

提供什么样子的最终一致性的保证，一个非常流行的例子就是web应用系统，在大多数的web应用系统中都有“用户

可感知一致性

”

的概念，这也就是说最终一致性中的

“

一致性窗口

大小要小于用户下一次的请求，在下次读取操作来之

前，数据可以在存储的各个节点之间复制。还比如假如存储系统提供了

read-your-write-consistency

一致性，那么当一个用户写操作完成以后可以立马看到自己的更

新，但是其它的用

户要过一会才可以看到更新。

几种特殊情况：

W = 1, R = N,

对写操作要求高性能高可用。

R = 1, W = N ,

对读操作要求高性能高可用，比如类似

cache

之类业务。

W = Q, R = Q where Q = N / 2 + 1 一般应用适用，读写性能之间取得平衡。如N=3,W=2,R=2

Vector clock

vector clock

算法。可以把这个

vector clock

想象成每个节点都记录自己的版本信息，而一个数据，包含所有这些版

本信息。来看一个例子：假设一个写请求，第一次被节点A处理了。节点A会增加一个版本信息(A，1)。我们把这个时

候的数据记做

D1(A

，

。

然后另外一个对同样

key(

这一段讨论都是针对同样的

key

的

)

的请求还是被

处理了于是有

D2(A，2)。

这个时候，

是可以覆盖

的，不会有冲突产生。现在我们假设

传播到了所有节点

和

，

和

收到的数据不是

从客户产生的，而是别人复制给他们的，所以他们不产生新的版本信息，所以现在

和

都持有数据

D2(A

，

。好，

继续，又一个请求，被

处理了，生成数据

D3(A

，

2;B

，

，因为这是一个新版本的数据，被

处理，所以要增加

的

版本信息。

假设D3没有传播到C的时候又一个请求被C处理记做D4(A，2;C，1)。假设在这些版本没有传播开来以前，有一个读

取操作，我们要记得，我们的

W=1

那么

R=N=3

，所以

会从所有三个节点上读，在这个例子中将读到三个版本。

上

的

D2(A

，

2);B

上的

D3(A

，

2;B

，

1);C

上的

D4(A

，

2;C

，

这个时候可以判断出，

已经是旧版本，可以舍弃，但是

D3和D4都是新版本，需要应用自己去合并。

如果需要高可写性，就要处理这种合并问题。好假设应用完成了冲入解决，这里就是合并D3和D4版本，然后重新做了

写入，假设是

处理这个请求，于是有

D5(A

，

2;B

，

2;C

，

1);

这个版本将可以覆盖掉

D1-D4

那四个版本。这个例子只

举了一个客户的请求在被不同节点处理时候的情况，

而且每次写更新都是可接受的，大家可以自己更深入的演算一下

几个并发客户的情况，以及用一个旧版本做更新的情况。

上面问题看似好像可以通过在三个节点里选择一个主节点来解决，所有的读取和写入都从主节点来进行。但是这样就

违背了

W=1

这个约定，实际上还是退化到

W=N

的情况了。所以如果系统不需要很大的弹性，

W=N

为所有应用都接

2011-1-9 NoSQL数据库笔谈

yankay.com/…/NoSql Database Note/ 12/57

剩余56页未读，继续阅读

hahaxyz

粉丝: 0
资源: 6

NoSQL数据库入门：思想、技术与软件探索

Nosql

nosql数据库hbase

什么是NoSQL数据库？

NoSQL数据库

NoSQL数据库选型指南：根据业务需求选择合适的NoSQL数据库（深入分析NoSQL数据库特性，根据业务需求选择...

初识NoSQL NoSql数据库入门 NoSql数据库基础知识

NoSQL数据库（如MongoDB,Cassandra）：NoSQL数据库与关系型数据库的比较.docx

NoSQL数据库原理-第二章-NoSQL数据库的基本原理.pptx

NoSQL数据库（如MongoDB,Cassandra）：NoSQL数据库概论与历史.docx

NoSQL数据库（如MongoDB,Cassandra）：NoSQL数据库的分布式系统原理.docx

最新资源