scala spark groupby count效率高还是agg count效率高

在 Spark 中，使用 groupBy 和 agg 进行计数是两种常见的方式。实际上，它们的效率取决于具体的数据和操作。一般情况下，使用 agg 进行计数的效率更高，因为它可以在单个阶段完成计算，并且可以避免数据移动。而使用 groupBy 进行计数则需要多个阶段，因为它需要将数据进行分组，并在每个分组内进行计算。但是，如果数据量非常小，使用 groupBy 进行计数也可能会比使用 agg 更快。因此，选择哪种方式需要根据具体的情况进行评估和测试。

import breeze.numerics.round import breeze.stats.mean import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), )) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

这是一个使用Spark读取Titanic数据集并对其进行预处理的Scala代码。这个代码将CSV文件读取为一个DataFrame，然后对其中的缺失值进行处理，并计算了生还和死亡人数的统计信息，最后将结果写入CSV文件。首先，代码创建了一个SparkConf和SparkContext对象，然后创建了一个SparkSession对象，用于读取CSV文件。接下来，代码对数据集中的一些列进行转换，将它们转换为正确的数据类型。然后，代码删除了一些不需要的列。接着，代码计算了每列中缺失值的数量，并将结果存储在一个DataFrame中。接下来，代码定义了一个函数meanAge，用于计算年龄的平均值，并将缺失值替换为该平均值。最后，代码计算了生还和死亡人数的统计信息，并将结果写入CSV文件。希望这能帮到你！

代码如下： import breeze.numerics.round import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() import breeze.stats._ def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

我发现问题可能出在 `meanAge` 函数中的 `round(mean("Age"), 0)` 这句代码上。这个代码中的 `mean` 函数是 Spark SQL 中的函数，但是在 `breeze.stats` 包中也有一个名为 `mean` 的函数，这可能导致了混淆。为了解决这个问题，你可以尝试将 `mean` 函数改名为其他的变量名，例如： ```scala def meanAge(dataFrame: DataFrame): Double = { val ageMean = dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) ageMean } ``` 这样就将 `mean` 函数改名为了 `ageMean` 变量，并避免了与 `breeze.stats` 包中的函数重名的问题。希望对你有帮助！

阅读全文

scala spark groupby count效率高还是agg count效率高

相关推荐

大数据编程Cause of death-使用spark scala编程完成的实验源码

python+spark+大数据

Spark DataFrame详解.zip

Spark：利用Apache Spark操纵数据

spark2-python

Trino与Spark集成深度指南：大数据处理效率的飞跃提升

Spark基础入门教程：Spark的概念和架构解析

select substring(page_type,1,6) as page_type, count(*) as count_num, round((count(*)/411665.0)*100,4) as weights from law_part where page_type_part=101 group by substring(page_type,1,6) order by count_num desc;改成sparksql

用Scala的spark写一个医药相关项目，数据集包括购药时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额，给我具体代码并并写一个实验报告

spark有Scala统计文本中每个单词出现的次数并对统计结果进行排序操作

使用Scala语言和Spark SQL模式对MovieLens的.dat数据集进行数据分析，并分别求出男性和女性看过最多的10部电影（性别，电影名）

给我一个用Scala编写的复杂一点的和药相关的spark实例，包含代码和数据

spark用户行为分析，有本地数据user_visit_action，详细代码idea完成任务需求：热门top10品类，页面单挑转化率计算，语言为scala

spark用户行为分析，有本地数据user_visit_action.txt，详细代码idea完成任务需求：热门top10品类，页面单挑转化率计算，语言为scala

编写一个Scala代码示例,使用Spark RDD模式来分析MovieLens数据集，求最喜欢看电影（影评次数最多）的那位女性评最高分的 10 部电影的平均影评分（观影者，电影名，影评分）

spark-sql 使用groupByO)、withColumn()、count()、sum()、join()、drop()和cast()方法， 按教师工号和课程进行分组，聚合查询不同老师所教不同课程的平均分。

大家在看

微信hook(3.9.10.19)

mike21建模

840D的PLC功能块FB2和FB3读写NC系统变量

看nova-scheduler如何选择计算节点-每天5分钟玩转OpenStack

横河PLC_PC通讯命令

最新推荐

C2000，28335Matlab Simulink代码生成技术，处理器在环，里面有电力电子常用的GPIO，PWM，ADC，DMA，定时器中断等各种电力电子工程师常用的模块儿，只需要有想法剩下的全部自

降低成本的oracle11g内网安装依赖-pdksh-5.2.14-1.i386.rpm下载

管理建模和仿真的文件

云计算术语全面掌握：从1+X样卷A卷中提炼精华

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔ 平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。

Java基础实验教程Lab1解析

"互动学习：行动中的多样性与论文攻读经历"

【OPC UA基础教程】：C#实现与汇川PLC通讯的必备指南

华三路由器acl4000允许源mac地址

前端开发基础三部曲：HTML、CSS、JavaScript实例教程

select substring(page_type,1,6) as page_type, count() as count_num, round((count()/411665.0)*100,4) as weights from law_part where page_type_part=101 group by substring(page_type,1,6) order by count_num desc;改成sparksql

用Scala的spark写一个医药相关项目，数据集包括购药时间社保卡号商品编码商品名称销售数量应收金额实收金额，给我具体代码并并写一个实验报告

spark-sql 使用groupByO)、withColumn()、count()、sum()、join()、drop()和cast()方法，按教师工号和课程进行分组，聚合查询不同老师所教不同课程的平均分。

. 索读取⼀幅图像，让该图像拼接⾃身图像，分别⽤⽔平和垂直 2 种。要求运⾏结果弹窗以⾃⼰的名字全拼命名。