分别使用DataFrame API和SQL语句,完成指定的数据统计分析↓"研发部"准备清理35岁以上老员工,请列出清理对象的部门名称、员工号、员工姓名、员工年龄
时间: 2024-03-20 22:42:19 浏览: 93
Python零基础速成班-第17讲-Python for Pandas Series对象,DataFrame对象和性质,统计分析
使用DataFrame API实现:
```python
from pyspark.sql.functions import col
# 假设员工信息的DataFrame为emp_df,包含部门名称、员工号、员工姓名和员工年龄等字段
# 列出部门名称、员工号、员工姓名和员工年龄,筛选年龄大于等于35岁的员工
clear_emp_df = emp_df.select("部门名称", "员工号", "员工姓名", "员工年龄") \
.filter(col("员工年龄") >= 35)
# 显示清理对象
clear_emp_df.show()
```
使用SQL语句实现:
```python
# 假设员工信息的DataFrame为emp_df,将其注册成表emp_table
emp_df.createOrReplaceTempView("emp_table")
# 列出部门名称、员工号、员工姓名和员工年龄,筛选年龄大于等于35岁的员工
clear_emp_df = spark.sql("SELECT 部门名称, 员工号, 员工姓名, 员工年龄 \
FROM emp_table \
WHERE 员工年龄 >= 35")
# 显示清理对象
clear_emp_df.show()
```
阅读全文