大数据与内存管理：DynamoDB与一致性哈希解析

需积分: 0 95 浏览量更新于2024-08-04 收藏 244KB DOCX 举报

"该资源是一份关于数据管理的音频整理，涵盖了大数据的特性、内存替换策略、Memcached的惰性回收、DynamoDB的多副本功能以及一致性哈希模型的相关内容。" 在2018年的数据管理领域，大数据的特征被归纳为四个V：Volume（大量）、Variety（多样）、Velocity（高速）和Value（价值）。Volume指的是数据的体积，随着信息技术的发展，数据量已经从TB级别跃升至PB级别，甚至更大。Variety则强调数据来源广泛，包括网络日志、视频、图片、地理位置等不同类型的海量信息。Velocity表示数据处理速度的快速，需要在1秒内完成处理，与传统数据挖掘技术相比有显著提升。Value则表示尽管大数据中价值密度低，但通过深入分析，能提取出高价值的信息。在内存管理方面，Memcached的内存替换策略是一个关键点。首先，它优先使用已超时的记录的空间，以避免浪费存储资源。如果空间仍然不足，系统会采取最近最少使用（LRU）策略，删除最近最少访问的缓存内容，但只有引用计数为零的记录才会被真正替换。此外，Memcached的惰性回收策略表明，记录超时并不立即释放内存，而是等到下次get操作时检查时间戳来确定是否过期，以此节省CPU资源。 DynamoDB是Amazon的一款分布式键值存储系统，它引入了多副本功能以提高数据的可用性和持久性。面对节点临时失效，DynamoDB采用hinted handoff技术，通过找到其他健康的节点暂时代理失效节点的角色，确保数据的写入和读取。一旦失效节点恢复，数据会被安全地回写，从而保证了系统的高可用性。一致性哈希模型是分布式系统中常用的数据分发策略，其目标是降低节点变化时的数据迁移成本。原模型的虚拟节点可能导致大规模迁移，改进后的方案则是固定虚拟节点大小和位置，只调整节点与虚拟节点的映射，降低了新节点加入或离开时的数据迁移开销。同时，R+W>N的规则保证了读写操作的可靠性，而vector-clock更新算法则用于解决分布式系统中的并发冲突，但它可能导致数据版本无限增长。为解决这个问题，可能需要采取如时间戳比较、冲突检测和合并策略等方法，以维护数据的一致性。这个资源涵盖了大数据的挑战、分布式存储的优化策略以及一致性模型的深度探讨，对于理解现代数据管理系统的设计原理和技术挑战具有重要价值。

所以，剪枝策略是一个 tradeoff 权衡，一方面是无限增长的向量时钟的

空间，另一方面是偶尔的会有“false merge”，产生兄弟数据，但不会丢失数据。

从这个意义上看，防止向量时钟空间的无限增长，剪枝策略优于用 server

标识向量时钟的策略

6 DynamoDB 的 merkleTree 怎么实现层次化？工作原理？典型应用？哪种性能保证了可

以被广泛应用？

6.1 Merkle tree 工作原理？实现层次化方法？

每个叶子节点对应一个数据项，并记录其 hash 值；

每个非叶子节点记录其所有子节点的 hash 值。

Dynamo 为每一个分片维护一个 Merkle Tree，需要比较分片是否相同时，自根向

下的比较两个 Merkle Tree 的对应节点，可以快速发现并定位差异所在。

6.4 典型应用

文件校验（BitCommit， BitTorrent 种子）

副本同步（DynamoDB）

可信计算

区块链交易认证

6.4 优点，被广泛利用的保证

Merkle Tree 的主要优点是树的每个分支可以独立地检查，而不需要下载整个树或整个

数据集。

此外，MerkleTree 有助于减少为检查副本间不一致而传输的数据的大小。

Merkle tree 可以通过部分 hash 就能校验整个文件的完整性

例：如果两树的根哈希值相等，且树的叶节点值也相等，那么节点不需要同步。如果不

一致,通过这种二叉树的结构可以在 log(N)的复杂度快速定位到出错的数据块。

第三个课件（一般性了解）

7 淘宝升级前有哪些存储方面的进展？如存储区域网的特点，通讯模式

采用 NetApp 的 NAS(NetworkAttached Storage：网络附属存储) 存储作为数据库的存

储设备，加上 Oracle 实时应用集群 (RAC，Real Application Clusters，)来实现负载均衡。

隐患：NAS 的 NFS(Network File System)协议传输的延迟很严重；

SAN （Storage Area Network，存储区域网）（存储扩容）（光纤通讯）

SAN 是一个高速的子网，子网中的设备可以从主网卸载流量。通常 SAN 由 RAID 阵列连

接光纤通道组成，SAN 和服务器和客户机的数据通信通过 SCSI 命令而非 TCP/IP，数据

处理是“块级”（block level）。

SAN 是一种高速的专用网络，它建立起服务器、磁盘阵列、磁带库之间的一种直接连接。

它如同扩展的存储器总线，将专用的集线器、交换器以及网关或桥路互相连接在一起。

高性能的光纤通道交换机和光纤通道网络协议是 SAN 的关键。

SAN 利用光纤通道协议（FCP，Fibre Channel Protocol ）上加载 SCSI 协议来达到可靠

的块级数据传输。

在一些关键应用中，传输块级数据要求必须使用 SAN，尤其是多个服务器共同向

大型存储设备进行读取。

SAN 的优点和问题

1）由于在数据传输时被分成小段，使 SAN 对服务器处理的依赖较少，可以有效地

传送爆发性的块数据，性能及可靠性就得到了充分的发挥。

2）通过城域网（MAN， Metropolitan Area Network ），SAN 可以实现远程灾难恢

剩余10页未读，继续阅读

臭人鹏

粉丝: 34
资源: 328

大数据与内存管理：DynamoDB与一致性哈希解析

伊比音乐管理系统V1.2 - 音频资料整理与管理

Jaudiotagger：掌握音频文件元数据处理

OMG情感挑战2018数据融合与特征提取的Matlab代码实现

jaudiotagger音频元数据

元数据：从音频文件中提取元数据

音频文件帮助器：我用于管理音频文件的一些工具。

2018年应聘硬件笔试面试整理硬件知识

数据管理 麦轲数据管家 v4.30

惠普视音频资产存储管理系统解决方案

项目识别数据集整理与分享

最新资源

数据管理麦轲数据管家 v4.30