使用 spark-shell 读取文件 /data/bigfiles/employee.json 中的内容,完成以下任务: 查询所有数据 查询所有数据,并去除重复的数据 查询所有数据,打印时去除 id 字段 筛选 age>20 的记录 将数据按 name 分组 将数据按 name 升序排列 取出前 3 行数据 查询所有记录的 name 列,并为其取别名为 username 查询年龄 age 的平均值 查询年龄 age 的最小值
时间: 2024-02-16 21:03:01 浏览: 53
好的,我已经记录下来了。下面是每个问题的答案:
1. 查询所有数据:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.show()
```
2. 查询所有数据,并去除重复的数据:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.distinct().show()
```
3. 查询所有数据,打印时去除 id 字段:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.drop("id").show()
```
4. 筛选 age>20 的记录:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.filter("age > 20").show()
```
5. 将数据按 name 分组:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.groupBy("name").count().show()
```
6. 将数据按 name 升序排列:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.orderBy("name").show()
```
7. 取出前 3 行数据:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.limit(3).show()
```
8. 查询所有记录的 name 列,并为其取别名为 username:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.selectExpr("name as username").show()
```
9. 查询年龄 age 的平均值:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.agg(avg("age")).show()
```
10. 查询年龄 age 的最小值:
```
val employee = spark.read.json("/data/bigfiles/employee.json")
employee.agg(min("age")).show()
```
阅读全文
相关推荐


















