pyspark函数大全
时间: 2023-09-23 13:05:44 浏览: 153
hadoop配置文件夹
您好!以下是一些常用的 PySpark 函数大全:
1. 基本函数:
- `col`: 创建列对象
- `lit`: 创建常量列
- `when`, `otherwise`: 条件表达式
- `concat`: 连接字符串列
- `substring`: 提取子字符串
- `trim`: 去除字符串两端的空格
- `split`: 拆分字符串为数组
2. 聚合函数:
- `count`: 计算非空行数
- `sum`, `avg`, `min`, `max`: 计算列的总和、平均值、最小值、最大值
- `groupBy`: 分组操作
- `agg`: 聚合操作
3. 过滤和排序函数:
- `filter`: 根据条件过滤行
- `where`: 同上,别名
- `orderBy`, `sort`: 根据列排序
- `limit`: 限制结果集大小
4. 字符串函数:
- `lower`, `upper`: 字符串转换为小写或大写
- `substring`, `substr`: 提取子字符串
- `replace`: 替换字符串中的子字符串
- `regexp_extract`, `regexp_replace`: 正则表达式提取和替换
5. 时间函数:
- `current_date`, `current_timestamp`: 获取当前日期和时间
- `date_add`, `date_sub`: 添加或减去日期间隔
- `datediff`: 计算日期之间的天数差异
- `year`, `quarter`, `month`, `day`: 提取日期的年份、季度、月份和日期
这只是一小部分常用的 PySpark 函数,还有很多其他功能丰富的函数可供使用。希望对您有所帮助!如需更多详细信息,请参考 PySpark 的官方文档。
阅读全文