解释一下以下代码,df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)
时间: 2023-06-17 11:07:07 浏览: 142
这段代码的作用是对名为 `df` 的数据框中的 `Pclass` 和 `Survived` 两列进行分组,然后计算每个不同的 `Pclass` 分组中 `Survived` 列的平均值,并按照平均值从大到小进行排序。
具体地,`df[['Pclass', 'Survived']]` 表示选取数据框 `df` 中的 `Pclass` 和 `Survived` 两列,然后 `groupby(['Pclass'], as_index=False)` 表示按照 `Pclass` 列进行分组,并且不将 `Pclass` 列作为结果的索引,最后使用 `mean()` 方法计算每个分组的平均值。
最后使用 `sort_values(by='Survived', ascending=False)` 将结果按照 `Survived` 列的值从大到小进行排序。
相关问题
val survived_df = df2.filter(col("Survived") === 1) val pclass_survived_count = survived_df.groupBy("Pclass").count() val pclass_survived_percent = pclass_survived_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); pclass_survived_percent.show() 中sum("count").over()用其他方式替换
如果您想使用其他方式替换 `sum("count").over()`,可以考虑使用 `groupBy` 和 `join` 操作将每个组的 count 数量总和计算出来。具体做法如下:
```
import org.apache.spark.sql.functions.{sum, col}
val total_count = survived_df.select(sum(col("count")).as("total_count")).collect()(0)(0).asInstanceOf[Long]
val pclass_survived_percent = pclass_survived_count.join(broadcast(lit(total_count)).as("total_count")).withColumn("percent", format_number(col("count") / col("total_count") * 100, 5))
```
这里,我们首先使用 `select` 和 `collect` 操作计算出 survived_df 中所有行的 count 数量总和。然后,使用 `join` 操作将每个组的 count 数量总和与 `pclass_survived_count` DataFrame 进行连接,并将连接结果存储在 `pclass_survived_percent` DataFrame 中。最后,使用 `format_number` 函数将每个组的百分比保留小数点后 5 位,并存储在新的列 "percent" 中。
需要注意的是,这种做法的优点是不需要使用窗口函数,因此性能可能会更好。但是缺点是需要进行额外的 `groupBy` 和 `join` 操作,可能会导致代码复杂度和维护成本的增加。因此,在实际应用中,需要根据具体情况进行选择。
代码如下: import breeze.numerics.round import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() import breeze.stats._ def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }
我发现问题可能出在 `meanAge` 函数中的 `round(mean("Age"), 0)` 这句代码上。这个代码中的 `mean` 函数是 Spark SQL 中的函数,但是在 `breeze.stats` 包中也有一个名为 `mean` 的函数,这可能导致了混淆。为了解决这个问题,你可以尝试将 `mean` 函数改名为其他的变量名,例如:
```scala
def meanAge(dataFrame: DataFrame): Double = {
val ageMean = dataFrame
.select("Age")
.na.drop()
.agg(round(mean("Age"), 0))
.first()
.getDouble(0)
ageMean
}
```
这样就将 `mean` 函数改名为了 `ageMean` 变量,并避免了与 `breeze.stats` 包中的函数重名的问题。希望对你有帮助!
阅读全文