首页val survived_df = df2.filter(col("Survived") === 1) val pclass_survived_count = survived_df.groupBy("Pclass").count() val pclass_survived_percent = pclass_survived_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); pclass_survived_percent.show() 中sum("count").over()用其他方式替换

val survived_df = df2.filter(col("Survived") === 1) val pclass_survived_count = survived_df.groupBy("Pclass").count() val pclass_survived_percent = pclass_survived_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); pclass_survived_percent.show() 中sum("count").over()用其他方式替换

时间: 2024-03-24 12:40:47 浏览: 69

如果您想使用其他方式替换 `sum("count").over()`，可以考虑使用 `groupBy` 和 `join` 操作将每个组的 count 数量总和计算出来。具体做法如下： ``` import org.apache.spark.sql.functions.{sum, col} val total_count = survived_df.select(sum(col("count")).as("total_count")).collect()(0)(0).asInstanceOf[Long] val pclass_survived_percent = pclass_survived_count.join(broadcast(lit(total_count)).as("total_count")).withColumn("percent", format_number(col("count") / col("total_count") * 100, 5)) ``` 这里，我们首先使用 `select` 和 `collect` 操作计算出 survived_df 中所有行的 count 数量总和。然后，使用 `join` 操作将每个组的 count 数量总和与 `pclass_survived_count` DataFrame 进行连接，并将连接结果存储在 `pclass_survived_percent` DataFrame 中。最后，使用 `format_number` 函数将每个组的百分比保留小数点后 5 位，并存储在新的列 "percent" 中。需要注意的是，这种做法的优点是不需要使用窗口函数，因此性能可能会更好。但是缺点是需要进行额外的 `groupBy` 和 `join` 操作，可能会导致代码复杂度和维护成本的增加。因此，在实际应用中，需要根据具体情况进行选择。

阅读全文