首页使用 spark-shell 读取文件 /data/bigfiles/employee.json 中的内容，完成以下任务：查询所有数据查询所有数据，并去除重复的数据查询所有数据，打印时去除 id 字段筛选 age>20 的记录将数据按 name 分组将数据按 name 升序排列取出前 3 行数据查询所有记录的 name 列，并为其取别名为 username 查询年龄 age 的平均值查询年龄 age 的最小值

使用 spark-shell 读取文件 /data/bigfiles/employee.json 中的内容，完成以下任务：查询所有数据查询所有数据，并去除重复的数据查询所有数据，打印时去除 id 字段筛选 age>20 的记录将数据按 name 分组将数据按 name 升序排列取出前 3 行数据查询所有记录的 name 列，并为其取别名为 username 查询年龄 age 的平均值查询年龄 age 的最小值

时间: 2024-02-16 21:03:01 浏览: 53

好的，我已经记录下来了。下面是每个问题的答案： 1. 查询所有数据： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.show() ``` 2. 查询所有数据，并去除重复的数据： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.distinct().show() ``` 3. 查询所有数据，打印时去除 id 字段： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.drop("id").show() ``` 4. 筛选 age>20 的记录： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.filter("age > 20").show() ``` 5. 将数据按 name 分组： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.groupBy("name").count().show() ``` 6. 将数据按 name 升序排列： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.orderBy("name").show() ``` 7. 取出前 3 行数据： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.limit(3).show() ``` 8. 查询所有记录的 name 列，并为其取别名为 username： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.selectExpr("name as username").show() ``` 9. 查询年龄 age 的平均值： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.agg(avg("age")).show() ``` 10. 查询年龄 age 的最小值： ``` val employee = spark.read.json("/data/bigfiles/employee.json") employee.agg(min("age")).show() ```

阅读全文