大数据时代：分布式数据库的崛起与技术对比

59 浏览量更新于2024-08-29 收藏 601KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

大数据需求下的分布式数据库探析随着大数据技术的快速发展，已经走过十余年的历程，吸引了众多企业和机构的关注，特别是在金融行业中，大数据被视为未来的重大机遇。随着理论研究的深入，焦点转向了如何将大数据实际应用于企业运营中，实现价值增值。大数据的应用主要聚焦在两个核心领域：大数据分析和在线数据操作。首先，大数据分析领域关注海量数据的挖掘和复杂计算，Hadoop/Spark技术因其在批处理分析和数据挖掘中的强大能力而成为首选。然而，Hadoop的开源生态系统庞大且发展迅速，给工具选择、实施和成本效益控制带来了挑战。Gartner的报告指出，如今的数据管理不再单纯依赖Hadoop，而是需要根据用户的具体场景和需求来选择合适的技术。分布式数据库则应运而生，它专为满足实时高并发请求和在线数据操作的需求设计，尤其适用于那些需要实时交互的业务场景。相较于Hadoop，分布式数据库的部署和运维更为简洁，更接近传统的数据管理系统，因此市场发展迅速。在技术体系对比上，Hadoop主要通过HDFS和YARN构成分布式文件系统，而非数据库，它的核心在于处理大规模数据的并行计算。而Spark虽然与Hadoop并列为大数据分析的主要技术，但其提供了更灵活的数据处理方式，支持实时流处理和交互式查询。理解这两种技术的定位和使用场景的关键在于它们的发展历史和初衷。Hadoop最初是为了应对大规模数据集的存储和访问，而分布式数据库则侧重于提供实时、低延迟的数据服务。因此，企业在选择时需结合自身业务需求，比如数据处理的实时性、复杂性，以及系统的易用性和成本效益来决定是否采用分布式数据库。总结来说，大数据需求下的分布式数据库是为满足特定场景而生，它在实时性和交互性方面优于传统的Hadoop框架，为企业提供了更加灵活的数据管理解决方案。同时，随着市场和技术的发展，用户在选择时应根据具体业务场景、性能需求以及技术成熟度来做出最佳决策。

资源详情

资源推荐

探析大数据需求下的分布式数据库探析大数据需求下的分布式数据库

一、前言

大数据技术从诞生到现在，已经经历了十几个年头。市场上早已不断有公司或机构，给广大金融从业者“洗脑”大数据未来的美

好前景与趋势。随着用户对大数据理念与技术的不断深入了解，人们已经开始从理论探索转向对场景落地的寻找，让大数据在

企业中落地并开花结果。

从大数据的管理和应用方向集中在两个领域。第一，大数据分析相关，针对海量数据的挖掘、复杂的分析计算；第二，在线数

据操作，包括传统交易型操作以及海量数据的实时访问。大数据高并发查询操作。用户根据业务场景以及对数据处理结果的期

望选择不同的大数据管理方法。

分析型的大数据管理以Hadoop/Spark技术为主，适用于数据批处理分析挖掘的场景。随着时间推移，Hadoop由于开源生态体

系过于庞大且扩张迅速，对于大数据工具选择、实施复杂度以及性价比都比较难以控制。近期，著名市场分析和咨询机构

Gartner发布报告[Gartner 2017年报告《Hype Cycle for Data Management,2017》]，报告指出目前大数据服务不再依赖单一

Hadoop大数据商业平台，必须从满足用户的场景和案例的角度出发。

分布式数据库则是在线操作性的大数据管理而诞生的，强调满足大数据在实时高并发请求压力下的交互业务场景。这一领域

的“大数据”应用也正在被更多的人接受，又由于分布式数据库的落地更简单，开发运维上更接近与传统数据管理系统。因此近

年来分布式数据库市场也在快速地发展壮大。

二、技术体系对比

在上述大数据技术实现中，Hadoop技术看似是自成一套体系。Hadoop/Spark与分布式数据库的设计思路为什么有所差异，其

定位和使用场景应该如何与分布式数据库技术进行区分？这需要从两种技术的起源与发展来进行分析。（Gartner 2017年报

告）

1. 大数据分析

大数据分析体系以Hadoop生态为主，近年来逐渐火热的Spark技术也是主要的生态之一。其中，Hadoop技术只能算是以

HDFS+YARN作为基础的分布式文件系统，而不是数据库。

Hadoop的历史可以向前追溯10年，当年Google为了在几万台PC服务器上构建超大数据集合并提供极高性能的并发访问能

力，从而发明了MapReduce，也是Hadoop诞生的理论基础。

从Hadoop的诞生背景可以看出，其主要解决的问题是超大规模集群下如何对非结构化数据（Google扒取的网页信息）进行批

处理计算（例如计算PageRank等）。实际上，在Hadoop架构中，一个分布式任务可以是类似传统结构化数据的关联、排

序、聚集操作，也可以是针对非结构化数据的用户自定义程序逻辑。

再来看Hadoop的发展道路。最开始的Hadoop以Big、Hive和MapReduce三种开发接口为代表，分别适用于脚本批处理、SQL

批处理以及用户自定义逻辑类型的应用。而Spark的发展更是如此，最开始的SparkRDD几乎完全没有SQL能力，还是套用了

Hive发展出的Shark才能对SQL有了一部分的支持。但是，随着企业用户对Hadoop的使用越发广泛，SQL已经渐渐成为大数

据平台在传统行业的主要访问方式之一。Hortonworks的Stinger、Cloudera的Impala、Databricks的SparkSQL、IBM的

BigSQL都在两年前开始慢慢抢占市场，使得Hadoop看起来貌似也成为了SQL的主战场。

2. 分布式数据库

分布式数据库有着悠久的历史，从以Oracle RAC为代表的联机交易型分布式数据库，到IBM DB2 DPF统计分析性分布式数据

库，分布式数据库覆盖了OLTP与OLAP几乎全部的数据应用场景。

大部分分布式数据库功能集中在结构化计算与在线增删改查上。例如IBM DB2 DPF，用户可以像使用普通单点DB2数据库一

样，几乎透明地使用DPF版本。DPF中的SQL优化器能够将一个查询自动拆解并分发到多个节点中并行执行。

但是，这些传统的分布式数据库以数仓及分析类OLAP系统为主，其局限性在于，其底层的关系型数据库存储结构在效率上并

不能满足大量高并发的数据查询以及大数据数据加工和分析的效率要求。

因此，分布式数据库在近几年也有着极大的转型，从单一的数据模型向多模的数据模型转移，将OLTP、联机高并发查询以及

支持大数据加工和分析结合起来，不再单独以OLAP作为设计目标。同时，分布式数据库在访问模式上也出现了K/V、文档、

宽表、图等分支，支持除了SQL查询语言之外的其他访问模式，大大丰富了传统分布式数据库单一的用途。一般来说，多模数

据库的主要目的是为了满足具有高性能要求的操作型需求以及目标明确的数据仓库功能，而不是类似大数据深度学习等数据挖

掘场景。

3. 业务场景

从大数据技术的使用方式上来看，这些技术一方面可以按照结构化与非结构化数据类型划分，另一方面也可以按照业务类型，

即统计分析与联机操作两种类型（图1）。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38609002

粉丝: 4
资源: 936

大数据时代：分布式数据库的崛起与技术对比

探析分布式数据库技术运用在大数据中的策略.pdf

分布式数据库技术在大数据中的应用探析.pdf

手机视频app交互体验设计的趋同性探析

基于android的校园新闻app,移动端校园新闻APP的设计探析

基于yolov5的车牌识别探析

关于地缘文化视角下新加坡“平衡外交”逻辑探析，国内外研究现状是怎样的呢

行为型模式中的“观察者模式”应用探析

python古诗词风格分析_古诗词语言风格鉴赏分类探析

根据题目，写提纲：探析林业工程苗木培育及移植造林技术

基于C语言，1. 编程实现：将一个数组的值按逆序重新存放。如原来值顺序为1、2、3、4、5、6，重置后要求改为6、5、4、3、2、1。

mysql BETWEEN and 数字精确度

智慧社区便民服务系统近几年中文参考文献

强势文化造就强者，弱势文化造就弱者为话题写几个标题

defer的javascript

selenium 动作链

PYQT定义全局变量

vue2响应式原理流程图

注册会计师会计第十五章 债务重组.doc

第0章 前言.doc

python链表实战制作学生管理系统（附带pyqt5的界面优化）

最新资源

注册会计师会计第十五章债务重组.doc

第0章前言.doc