Spark - shell中 读取上传到HDFS上的数据
时间: 2024-12-16 17:22:38 浏览: 3
实验七:Spark初级编程实践
Spark Shell 是Apache Spark的一个交互式命令行环境,它允许用户直接运行Spark作业并查看结果。如果你想从Hadoop分布式文件系统 (HDFS) 上读取数据,Spark Shell 提供了简单易用的操作。
首先,你需要通过 `spark.read` API 加载 HDFS 文件。如果你的数据是以文本格式存在,你可以使用 `textFile()` 或 `csv()` 函数;如果数据存储为其他二进制格式,如 Parquet、ORC 等,可以使用相应的加载函数。
例如,如果你的数据是一个CSV文件:
```scala
val data = spark.read.text("hdfs://<your-hdfs-uri>/<your-file>")
```
这里的 `<your-hdfs-uri>` 是HDFS地址,`<your-file>` 是你要读取的具体文件名。如果你想要读取Parquet文件,可以这样做:
```scala
val parquetData = spark.read.parquet("hdfs://<your-hdfs-uri>/<your-parquet-file>")
```
读取完成后,你可以对数据进行各种操作,比如转换、过滤、聚合等,然后保存回HDFS或者进一步分析。
阅读全文