机器学习实践:如何将机器学习实践:如何将Spark与与Python结合结合
Apache Spark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如
果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢?
在国外,Apache Spark开发人员的平均年薪为110,000美元。毫无疑问,Spark在这个行业中被广泛使用。由于其丰富的库
集,Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难,Spark用Scala语言开发,这种语言与Java
非常相似。它将程序代码编译为用于Spark大数据处理的JVM字节码。为了集成Spark和Python,Apache Spark社区发布了
PySpark。
Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。Spark提供了一个接口,用于编程具
有隐式数据并行和容错功能的整个集群。
下面是Apache Spark的一些特性,它比其他框架更具优势:
速度:比传统的大型数据处理框架快100倍。
强大的缓存:简单的编程层提供强大的缓存和磁盘持久性功能。
部署:可以通过Mesos、Yarn或Spark自己的集群管理器进行部署。
实时:内存计算,实时计算且低延迟。
Polyglot:这是该框架最重要的特性之一,因为它可以在Scala,Java,Python和R中编程。
虽然Spark是在Scala中设计的,但它的速度比Python快10倍,但只有当使用的内核数量少时,Scala才会体现出速度优势。由
于现在大多数分析和处理都需要大量内核,因此Scala的性能优势并不大。
对于程序员来说,由于其语法和标准库丰富,Python相对来说更容易学习。而且,它是一种动态类型语言,这意味着RDD可
以保存多种类型的对象。
尽管Scala拥有SparkMLlib,但它没有足够的库和工具来实现机器学习和NLP。此外,Scala 缺乏数据可视化。
使用Python设置Spark(PySpark)
首先要下载Spark并安装,一旦你解压缩了spark文件,安装并将其添加到 .bashrc文件路径中,你需要输入source .bashrc
要打开PySpark shell,需要输入命令./bin/pyspark