“第9章 分布式数据库系统.ppt”
分布式数据库系统是计算机科学中一个重要的研究领域,它源于集中式数据库系统在处理大规模、分布式数据时所面临的挑战。随着传统数据库技术的发展和计算机网络的普及,集中式数据库的局限性日益凸显,如通信开销大、可靠性低和扩展性差等问题。因此,从“集中计算”转向“分布计算”成为必然趋势,这主要体现在客户机/服务器(C/S)模式和分布式数据库系统(DDBS)上。
分布计算的三种形式包括处理分布、数据分布和功能分布。处理分布是指计算任务分布在不同的节点上进行,以减轻单个节点的压力;数据分布则是在网络的不同位置存储数据,以便更接近数据使用者;功能分布意味着系统功能不再集中在一处,而是分散到多个组件中。
C/S系统是一种常见的分布计算模型,由客户端(Client)和服务器端(Server)组成。客户端负责用户交互,而服务器端处理数据请求。C/S结构有两层、三层甚至多层的形式,每层都有特定的职责,例如在三层结构中,有表示层、业务逻辑层和数据访问层。随着需求复杂性的增加,多层结构可以提供更好的模块化和可扩展性。
分布式数据库系统(DDBS)是将数据分布在多个物理位置上的数据库系统,具有高可用性、容错性和可扩展性。它有多种分类,如共享无盘(Shared Nothing)、部分共享(Shared Everything)等。分布式数据存储的两种基本形式是分片和分配。分片是将数据按照某个标准分成若干部分,分配到不同的节点;分配则是根据数据的键值,将数据均匀分布在各个节点上。
DDB的体系结构通常包括六层模式,这些模式描述了数据如何在网络中分布以及如何被访问。分布透明性涉及数据位置、复制和一致性等问题,分为数据位置透明性、数据复制透明性和数据分区透明性三个层次。DDBS由分布式数据库管理系统(DDBMS)管理,负责数据的存储、查询处理、并发控制和恢复等功能。
在分布式查询处理中,查询代价是优化查询性能的关键因素。基于半联接的优化策略和基于联接的优化策略是两种常见的方法,它们旨在减少网络通信并提高查询效率。并发控制在分布式数据库中尤为重要,因为它需要解决多个事务同时访问同一数据时可能出现的冲突。恢复机制则确保系统在发生故障后能够恢复到一致状态。
分布式数据库的并发控制通常采用两阶段提交、多阶段提交等协议,以确保数据的一致性。恢复机制则涉及日志记录、检查点和反事务操作,以确保数据的可靠性和系统的容错性。
分布式数据库系统是应对大规模、分布式数据处理的有效解决方案,它通过分布计算、C/S架构和DDBS的设计,提供了高可用性、可扩展性和灵活性。然而,这也带来了新的挑战,如查询优化、并发控制和故障恢复,这些都需要深入理解和掌握的高级技术。