使用 spark-shell 读取文件 /data/bigfiles/employee.json 中的内容,完成以下任务: 1、 查询所有数据 2、查询所有数据,并去除重复的数据 3、查询所有数据,打印时去除 id 字段 4、筛选 age>20 的记录 5、将数据
时间: 2024-03-12 19:47:44 浏览: 195
spark-3.1.3-bin-hadoop3.2.tgz
转换为 DataFrame,并使用 SQL 查询出所有部门为 "IT" 的员工的姓名和薪资。以下是对应的代码:
1.
```
val employees = spark.read.json("/data/bigfiles/employee.json")
employees.show()
```
2.
```
val employees = spark.read.json("/data/bigfiles/employee.json")
employees.distinct().show()
```
3.
```
val employees = spark.read.json("/data/bigfiles/employee.json")
employees.drop("id").show()
```
4.
```
val employees = spark.read.json("/data/bigfiles/employee.json")
employees.filter($"age" > 20).show()
```
5.
```
val employees = spark.read.json("/data/bigfiles/employee.json")
employees.createOrReplaceTempView("employees")
spark.sql("SELECT name, salary FROM employees WHERE department = 'IT'").show()
```
阅读全文