安装Spark (1)参考实验手册完成Spark伪分布式模式的安装。完成安装以后,启动pyspark,在命令行模式下读取Hadoop中的某个文件,并显示文件的第1行内容。
时间: 2024-11-03 22:23:44 浏览: 10
安装Apache Spark通常分为几个步骤:
1. **下载和解压**:首先从Spark官网(https://spark.apache.org/downloads.html)下载适合你操作系统的版本,然后解压缩到一个目录,例如`/opt/spark`。
2. **配置环境变量**:编辑`~/.bashrc`或`~/.zshrc`(取决于你的shell),添加如下行以便系统可以找到Spark的bin目录:
```bash
export SPARK_HOME=/path/to/spark
export PATH=$SPARK_HOME/bin:$PATH
```
3. **配置核心-site.xml**:创建或编辑`$SPARK_HOME/conf/core-site.xml`,加入HDFS相关的URL,如果你使用的是本地模式,可以保持默认。
4. **启动Spark Master**:在`conf/spark-env.sh`中设置`SPARK_MASTER`为`local[cores]`,然后运行`sbin/start-master.sh`启动Spark本地Master。
5. **验证安装**:启动`pyspark` shell,输入`sc = SparkContext.getOrCreate()`应该能成功创建SparkContext。现在你可以开始处理数据了。
6. **读取HDFS文件**:假设你有一个HDFS文件名为`hdfs://localhost:9000/path/to/file.txt`,可以用下面的代码读取第一行:
```python
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("readFile")
sc = SparkContext(conf=conf)
lines = sc.textFile("hdfs://localhost:9000/path/to/file.txt").take(1)
print(lines[0])
```
运行上述代码,你应该能看到文件的第一行内容。
7. **停止Spark**:结束后,记得关闭SparkContext `sc.stop()`并停止Master进程 `sbin/stop-master.sh`.
阅读全文