Spark与Hadoop结合使用及Linux命令、环境变量笔记

需积分: 9 49 浏览量更新于2024-07-20 1 收藏 2.64MB PDF 举报

"Spark+hadoop+mllib及相关概念与操作笔记" 这篇笔记主要涵盖了Spark、Hadoop以及mllib（Spark的机器学习库）的相关概念和操作，适合于个人学习和理解分布式计算框架的基础知识。作者刘炜在2016年7月18日编写了这个0.1版本的笔记，旨在帮助读者深入理解大数据处理的技术栈。首先，笔记提到了进行技术调研的重要性，包括明确调研目的、梳理问题、寻找解决方案和形成有说服力的结论。在实际工作中，这一步骤对于了解现有技术状况、发现潜在问题和提出改进措施至关重要。接着，笔记介绍了Linux操作系统的一些常用命令，这对于在Linux环境下操作Spark和Hadoop非常重要。例如，`locate`命令用于快速查找文件，但由于依赖数据库，可能无法找到最近创建的文件。`uname -a`用于查看系统和内核信息，而`cat /proc/version`和`cat /etc/issue`则分别提供运行中的内核版本和发行版信息。`lsb_release -a`则是一个跨发行版的命令，用于获取更详细的Linux发行版信息。然后，笔记讲解了Linux环境变量的设置。环境变量在系统和用户级别都有定义，影响着用户的交互体验和程序的运行。`/etc/profile`是系统级环境变量，用于交互式Login shell，而`/etc/bashrc`通常用于非交互式shell，确保每个使用bash shell的用户都能得到正确的环境设置。`/etc/environment`则是在登录时加载的全局环境变量。在Spark和Hadoop方面，笔记可能涵盖了如何配置和使用这两个工具，包括数据处理、分布式计算、任务调度等方面。mllib作为Spark的一部分，提供了丰富的机器学习算法，如分类、回归、聚类、协同过滤等，便于在大数据集上进行训练和预测。学习这部分内容，读者需要理解RDD（弹性分布式数据集）和DataFrame的概念，以及如何使用Spark SQL进行数据操作。这份笔记是一个综合性的学习资源，涵盖了从基础操作系统的使用到大数据处理框架的实践，对想要掌握Spark和Hadoop的初学者来说非常有价值。通过深入学习，读者能够提升自己在大数据分析和机器学习领域的技能。

The --master option specifies the master URL for a distributed cluster, or local to

run locally with one thread, or local[N] to run locally with N threads. You should start

by using local for testing. For a full list of options, run Spark shell with the --help

option.

这--master 选项指定 master url 为一个分布式集群还是本地单线程的，或者

local[N]本地 N 线程的。你应该开始使用本地测试，运行 Spark shell --help 选项。

e) Mllib 例子运行

./bin/run-example mllib.JavaKMeans mllibTestData/kmeans_data.txt 3 100

mllib.JavaKMeans 为相应的机器学习程序，是 mllib 文件夹下的

JavaKMeans，后面三个是数据集及相应参数。这里是 K 均值算法，后面 3

表示 K 的大小，100 表示迭代次数。

f) Job

提交

参考：http://spark.apache.org/docs/latest/submitting-applications.html

# 本地 8 线程运行应用

# Run application locally on 8 cores

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[8] \

/path/to/examples.jar \

100

Eg:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master

local[2] ./lib/spark-examples-1.6.1-hadoop2.7.1.jar 10

# 单集群

# Run on a Spark standalone cluster in client deploy mode

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--executor-memory 20G \

--total-executor-cores 100 \

/path/to/examples.jar \

1000

# Run on a Spark standalone cluster in cluster deploy mode with supervise

./bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://207.184.161.138:7077 \

--deploy-mode cluster \

剩余45页未读，继续阅读

明烨海海

粉丝: 2
资源: 1

Spark与Hadoop结合使用及Linux命令、环境变量笔记

Spark与Hadoop大数据分析实战

深入学习Spark与Hadoop在大数据处理中的应用

掌握Spark与Hadoop在大数据处理中的应用技巧

spark+hadoop大数据处理学习笔记

spark,hadoop生态圈总结

掌握Spark与Hadoop本地调试的必备资源

Hadoop学习笔记：核心概念与组件解析

掌握Apache Spark与Hadoop 2.0/2.7大数据分析实战

Hadoop与Spark在对象检测技术中的应用笔记

Spark MLlib项目流行度预测：操作指南与Zeppelin安装

最新资源