使用spark-shel1读取文件/data/bigfiles/employee.json中的内容,完成以下任务 1.查询所有数据 2.查询所有数据,并去除重复的数据 3.查询所有数据,打印时去除id字段 4.筛选 age>2的记录 5.将数据按 name 分组 6.将数据按name升序排列 7.取出前 3 行数据 测试结果 8.查询所有记录的name 列,并为其取别名为username 测试集1 9.查询年龄age的平均值 10.查询年龄age的最小值
时间: 2024-02-16 12:02:56 浏览: 72
好的,以下是针对您的问题的Spark-shell代码:
1. 查询所有数据
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.show()
```
2. 查询所有数据,并去除重复的数据
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.distinct().show()
```
3. 查询所有数据,打印时去除id字段
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.drop("id").show()
```
4. 筛选 age>2 的记录
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.filter("age > 2").show()
```
5. 将数据按 name 分组
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.groupBy("name").count().show()
```
6. 将数据按 name 升序排列
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.orderBy("name").show()
```
7. 取出前 3 行数据
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.limit(3).show()
```
8. 查询所有记录的 name 列,并为其取别名为 username
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.select(col("name").as("username")).show()
```
9. 查询年龄 age 的平均值
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.agg(avg("age")).show()
```
10. 查询年龄 age 的最小值
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.agg(min("age")).show()
```
阅读全文