pyspark dataframe的describe方法
时间: 2024-05-07 07:15:43 浏览: 183
Spark dataframe使用详解
pyspark dataframe的describe方法用于生成数据框的统计摘要,包括计数、平均值、标准差、最小值、最大值的五数概括。该方法可以用于数值型数据的分析,例如查看数据的分布情况、异常值等。其语法如下:
```python
df.describe(*cols)
```
其中,cols为可选参数,表示需要统计摘要的列名,如果没有指定,则默认对所有数值型列进行统计摘要。
返回结果为一个数据框,包含以下列:
- count:非空值的数量
- mean:平均值
- stddev:标准差
- min:最小值
- max:最大值
示例:
```python
from pyspark.sql.functions import rand
# 创建一个包含两列随机数的数据框
df = spark.range(0, 10).withColumn("random", rand(seed=42)).withColumn("random2", rand(seed=52))
# 对所有数值型列进行统计摘要
df.describe().show()
# 对指定列进行统计摘要
df.describe("random", "random2").show()
```
输出结果:
```
+-------+------------------+-------------------+
|summary| id| random|
+-------+------------------+-------------------+
| count| 10| 10|
| mean| 4.5|0.5086306262038305 |
| stddev|2.8722813232690143|0.27103419599878455|
| min| 0|0.05808361216819936|
| max| 9| 0.9409341222727052|
+-------+------------------+-------------------+
+-------+-------------------+------------------+
|summary| random| random2|
+-------+-------------------+------------------+
| count| 10| 10|
| mean| 0.5086306262038305|0.5021462210411912|
| stddev|0.27103419599878455|0.2882743885638279|
| min|0.05808361216819936|0.0574040268631696|
| max| 0.9409341222727052|0.9043844707143266|
+-------+-------------------+------------------+
```
阅读全文