scala spark groupby count效率高还是agg count效率高

时间: 2023-08-01 21:07:21 浏览: 51
在 Spark 中,使用 groupBy 和 agg 进行计数是两种常见的方式。实际上,它们的效率取决于具体的数据和操作。一般情况下,使用 agg 进行计数的效率更高,因为它可以在单个阶段完成计算,并且可以避免数据移动。而使用 groupBy 进行计数则需要多个阶段,因为它需要将数据进行分组,并在每个分组内进行计算。但是,如果数据量非常小,使用 groupBy 进行计数也可能会比使用 agg 更快。因此,选择哪种方式需要根据具体的情况进行评估和测试。
相关问题

用Spark SQL分析,找出每种类型的评分最高10部电影

好的,下面是使用Spark SQL分析,找出每种类型的评分最高10部电影的示例代码: ```scala import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.Window // 读取movies、ratings和movie_genres三张表的数据 val movies = spark.read.format("csv").option("header", "true").load("movies.csv") val ratings = spark.read.format("csv").option("header", "true").load("ratings.csv") val movieGenres = spark.read.format("csv").option("header", "true").load("movie_genres.csv") // 将movie_genres表进行展开,将每个电影的每个类型都展开成一行 val explodedGenres = movieGenres.withColumn("genre", explode(split(col("genres"), "\\|"))) .drop("genres") // 将ratings和explodedGenres表与movies表进行JOIN,获得每部电影的评分和类型信息 val joinedData = ratings.join(movies, Seq("movie_id")).join(explodedGenres, Seq("movie_id")) // 计算每种类型的电影的评分,并按照类型和评分降序排列 val genreRatings = joinedData.groupBy("genre", "title") .agg(avg("rating").as("average_rating"), count("rating").as("rating_count")) .withColumn("rank", dense_rank().over(Window.partitionBy("genre").orderBy(desc("average_rating")))) .filter($"rank" <= 10) .orderBy("genre", "rank") // 打印结果 genreRatings.show() ``` 在这个代码中,我们首先读取了movies、ratings和movie_genres三张表的数据,然后将movie_genres表进行展开,将每个电影的每个类型都展开成一行。接下来,我们将ratings和explodedGenres表与movies表进行JOIN,获得每部电影的评分和类型信息。 然后,我们按照类型和评分降序排列,计算每种类型的电影的评分,并使用窗口函数dense_rank()计算每种类型的电影评分排名。最后,我们筛选出每种类型评分最高的10部电影,并按照类型和排名升序排列。 注意,在实际使用时需要根据实际数据表结构来修改代码。

select substring(page_type,1,6) as page_type, count(*) as count_num, round((count(*)/411665.0)*100,4) as weights from law_part where page_type_part=101 group by substring(page_type,1,6) order by count_num desc;改成sparksql

下面是将该SQL语句转换为Spark SQL的代码: ``` SELECT SUBSTRING(page_type,1,6) AS page_type, COUNT(*) AS count_num, ROUND((COUNT(*)/411665.0)*100,4) AS weights FROM law_part WHERE page_type_part=101 GROUP BY SUBSTRING(page_type,1,6) ORDER BY count_num DESC; ``` 转换为Spark SQL后的代码: ```scala import org.apache.spark.sql.functions._ val resultDF = law_part .filter($"page_type_part" === 101) .groupBy(substring($"page_type", 1, 6).as("page_type")) .agg(count("*").as("count_num")) .withColumn("weights", round((col("count_num")/411665.0)*100, 4)) .orderBy(desc("count_num")) ``` 其中,`law_part`是你的数据表,可以通过`spark.read.jdbc()`或其他方式加载数据。

相关推荐

代码如下: import breeze.numerics.round import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() import breeze.stats._ def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), 0)) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

最新推荐

recommend-type

计算机专业毕业设计范例845篇jsp2118基于Web停车场管理系统的设计与实现_Servlet_MySql演示录像.rar

博主给大家详细整理了计算机毕业设计最新项目,对项目有任何疑问(部署跟文档),都可以问博主哦~ 一、JavaWeb管理系统毕设项目【计算机毕设选题】计算机毕业设计选题,500个热门选题推荐,更多作品展示 计算机毕业设计|PHP毕业设计|JSP毕业程序设计|Android毕业设计|Python设计论文|微信小程序设计
recommend-type

Windows 10 平台 FFmpeg 开发环境搭建 博客资源

【FFmpeg】Windows 10 平台 FFmpeg 开发环境搭建 ④ ( FFmpeg 开发库内容说明 | 创建并配置 FFmpeg 项目 | 拷贝 DLL 动态库到 SysWOW64 目录 ) https://hanshuliang.blog.csdn.net/article/details/139172564 博客资源 一、FFmpeg 开发库 1、FFmpeg 开发库编译 2、FFmpeg 开发库内容说明 二、创建并配置 FFmpeg 项目 1、拷贝 dll 动态库到 C:\Windows\SysWOW64 目录 - 必须操作 特别关注 2、创建 Qt 项目 - C 语言程序 3、配置 FFmpeg 开发库 - C 语言项目 4、创建并配置 FFmpeg 开发库 - C++ 项目
recommend-type

基于 Spring Cloud 、Spring Boot、 OAuth2 的 RBAC 企业快速开发平台

基于 Spring Cloud 、Spring Boot、 OAuth2 的 RBAC 企业快速开发平台, 同时支持微服务架构和单体架构。提供对 Spring Authorization Server 生产级实践,支持多种安全授权模式。提供对常见容器化方案支持 Kubernetes、Rancher2 、Kubesphere、EDAS、SAE 支持
recommend-type

我赚100万的商业模式.pdf

我赚100万的商业模式
recommend-type

Python_编译器学习资源收集.zip

Python_编译器学习资源收集
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MySQL数据库性能提升秘籍:揭秘性能下降幕后真凶及解决策略

![MySQL数据库性能提升秘籍:揭秘性能下降幕后真凶及解决策略](http://xiaoyuge.work/explain-sql/index/2.png) # 1. MySQL数据库性能优化概述** MySQL数据库性能优化是一项至关重要的任务,可以显著提高应用程序的响应时间和整体用户体验。优化涉及识别和解决影响数据库性能的因素,包括硬件资源瓶颈、软件配置不当和数据库设计缺陷。通过采取适当的优化策略,可以显著提升数据库性能,满足业务需求并提高用户满意度。 # 2. MySQL数据库性能下降的幕后真凶 ### 2.1 硬件资源瓶颈 #### 2.1.1 CPU利用率过高 **症状:
recommend-type

如何在unity创建按钮

在 Unity 中创建按钮的步骤如下: 1. 在 Unity 中创建一个 UI Canvas,选择 GameObject -> UI -> Canvas。 2. 在 Canvas 中创建一个按钮,选择 GameObject -> UI -> Button。 3. 在场景视图中调整按钮的位置和大小。 4. 在 Inspector 中设置按钮的文本、颜色、字体等属性。 5. 添加按钮的响应事件,选择按钮,在 Inspector 的 On Click () 中添加相应的方法。 这样就可以创建一个按钮了,你可以在游戏中使用它来触发相应的操作。
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。