Spark与Cassandra联手：构建高效数据分析平台的实战指南

31 浏览量更新于2024-08-27 收藏 181KB PDF 举报

"本文主要探讨了如何利用Spark和Cassandra构建高性能数据分析平台的过程。Spark作为一款强大的迭代计算框架，其在内存数据计算上的优势使其在大数据处理中表现出色。Cassandra则以其优异的列式存储NoSQL特性，特别是在写入操作方面的高效性能，成为数据仓库的热门选择之一，如HBase和MongoDB。作者许鹏在深入研究Spark的内部实现后，意识到在分布式计算环境中实现高效和可靠的数据处理是关键。然而，将理论应用于实际工程实践时，面临着数据仓库选择的挑战，每个选项都有其独特的优势和适用场景。Cassandra凭借其高可靠性，通过gossip通信协议确保节点间平等交互，即使单个节点故障也不会影响整个集群的运行。另外，Cassandra的p2p架构使得它具有高度的扩展性，支持级联扩展，方便添加新节点应对数据增长。选择Cassandra作为数据仓库时，开发者需要具备深入的Linux知识，因为这有助于解决开发和上线过程中出现的各种问题。文章分享了作者在选择和使用Cassandra过程中遇到的问题和经验，包括如何在众多NoSQL数据库中做出明智选择，以及如何克服可能出现的挑战。本文不仅提供了关于Spark和Cassandra结合使用的技术指导，还强调了实践经验、问题解决策略以及在实际项目中选择合适技术的重要性。对于那些希望在大数据分析领域运用这两种技术的开发者来说，本文是一份宝贵的参考资料。"

使用使用Spark+Cassandra打造高性能数据分析平台打造高性能数据分析平台

摘要：Spark，强大的迭代计算框架，在内存数据计算上无可匹敌。Cassandra，优异的列式存储NoSQL，在写入操作上难逢

敌手。自本期《问底》，许鹏将结合实际实践，带大家打造一个由Spark和Cassandra组成的大数据分析平台。

笔者在源码阅读的过程中秉持着一种非常简单的思维模式，就是努力去寻找一条贯穿全局的主线索。在笔者看来，Spark中的

线索就是如果让数据的处理在分布式计算环境下是高效，并且可靠的。

在对Spark内部实现有了一定了解之后，当然希望将其应用到实际的工程实践中，这时候会面临许多新的挑战，比如选取哪个

作为数据仓库，是HBase、MongoDB还是Cassandra。即便一旦选定之后，在实践过程还会遇到许多意想不到的问题。

要想快速的解决开发及上线过程中遇到的系列问题，还需要具备相当深度的Linux知识，恰巧之前工作中使用Linux的经验在大

数据领域中还可以充分使用。

笔者不才，就遇到的一些问题，整理出来与诸君共同分享。

1. Cassandra

NoSQL数据库的选择之痛，目前市面上有近150多种NoSQL数据库，如何在这么庞杂的队伍中选中适合业务场景的佼佼者，

实非易事。

好的是经过大量的筛选，大家比较肯定的几款NoSQL数据库分别是HBase、MongoDB和Cassandra。

Cassandra在哪些方面吸引住了大量的开发人员呢？下面仅做一个粗略的分析。

1.1 高可靠性

Cassandra采用gossip作为集群中结点的通信协议，该协议整个集群中的节点都处于同等地位，没有主从之分，这就使得任一

节点的退出都不会导致整个集群失效。

Cassandra和HBase都是借鉴了Google BigTable的思想来构建自己的系统，但Cassandra另一重要的创新就是将原本存在于

文件共享架构的p2p(peer to peer)引入了NoSQL。

P2P的一大特点就是去中心化，集群中的所有节点享有同等地位，这极大避免了单个节点退出而使整个集群不能工作的可能。

与之形成对比的是HBase采用了Master/Slave的方式，这就存在单点失效的可能。

1.2 高可扩性

随着时间的推移，集群中原有的规模不足以存储新增加的数据，此时进行系统扩容。Cassandra级联可扩，非常容易实现添加

新的节点到已有集群，操作简单。

1.3 最终一致性

分布式存储系统都要面临CAP定律问题，任何一个分布式存储系统不可能同时满足一致性(consistency)，可用性(availability)

和分区容错性(partition tolerance)。

Cassandra是优先保证AP，即可用性和分区容错性。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38624183

粉丝: 6
资源: 941

Spark与Cassandra联手：构建高效数据分析平台的实战指南

sparkSQL连接cassandra和mysql的demo

vbay#big-data#14.4Spark-SQL基于Cassandra数据分析编程实例1

一个spark streaming+Cassandra、分布式作业调度系统总结

spark sql 独有的

csdn 大数据分析平台 架构

为什么要使用spark

.Spark是基于内存计算的大数据计算平台，阐述Spark的主要特点

有什么框架比elastic stack 更适合大数据分析

pyspark系列1-spark概述

flink，spark streaming，storm对比分析

最新资源

csdn 大数据分析平台架构