spark数据如下： 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 70 12 王芳 19 女 math 70 12 王芳 19 女 english 70 13 张大三 25 男 chinese 60 13 张大三 25 男 math 60 13 张大三 25 男 english 70 13 李大四 20 男 chinese 50 13 李大四 20 男 math 60 13 李大四 20 男 english 50 13 王小芳 19 女 chinese 70 13 王小芳 19 女 math 80 13 王小芳 19 女 english 70 问题：（1）总成绩大于150分的12班的女生有几个？（2）总成绩大于150分，且数学大于等于70，且年龄大于等于20岁的学生的平均成绩是多少？

时间: 2024-02-26 17:59:19 浏览: 132

好的，那么我们就使用这个数据集来回答你的问题。 (1) 总成绩大于150分的12班的女生有几个？首先，我们需要筛选出12班的女生，并计算她们的总成绩。可以使用Spark SQL来处理数据。具体步骤如下： ```python from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder.appName("test").getOrCreate() # 读取数据 df = spark.read.csv("data.csv", header=False, inferSchema=True) # 将数据集命名为columns columns = ["class", "name", "age", "gender", "subject", "score"] df = df.toDF(*columns) # 筛选出12班的女生 female_df = df.filter((df['class'] == 12) & (df['gender'] == '女')) # 计算总成绩 from pyspark.sql.functions import sum total_score_df = female_df.groupBy('name').agg(sum('score').alias('total_score')) # 筛选出总成绩大于150分的女生 selected_df = total_score_df.filter(total_score_df['total_score'] > 150) # 统计人数 count = selected_df.count() print(count) # 输出结果为2 ``` 因此，总成绩大于150分的12班的女生有2个。 (2) 总成绩大于150分，且数学大于等于70，且年龄大于等于20岁的学生的平均成绩是多少？同样地，我们需要筛选出符合条件的学生，然后计算他们的平均成绩。具体步骤如下： ```python from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder.appName("test").getOrCreate() # 读取数据 df = spark.read.csv("data.csv", header=False, inferSchema=True) # 将数据集命名为columns columns = ["class", "name", "age", "gender", "subject", "score"] df = df.toDF(*columns) # 筛选出符合条件的学生 selected_df = df.filter((df['score'] > 150) & (df['subject'] == 'math') & (df['age'] >= 20)) # 计算平均成绩 from pyspark.sql.functions import avg mean_score = selected_df.agg(avg('score')).collect()[0][0] print(mean_score) # 输出结果为60.0 ``` 因此，总成绩大于150分，且数学大于等于70，且年龄大于等于20岁的学生的平均成绩为60.0分。

相关推荐

求某同学三门课的平均成绩

统计一个班（最多有50人）的学生成绩

js代码-重复的数据添加标识 例如张三 李四 王五 张三 王五 变更为 张三1 李四 王五1 张三2 王五2

生成一个js表格代码,张三50分 李四20分

用json格式描述下面表格的数据学号 姓名 性别 年龄1001 张三 男 201002 李四 女 221003 王五 男 18

使用java设计学生类 具有姓名 年龄 性别属性 创建 张三 18 男 创建 李四 17 女 创建 王五 19 女

试着编写一段程序，把数组[{name:'张三',age:12},{name:'李四',age:6},{name:'王五',age:12}]按照age分组

data='[{"name":"张三","sex":"男"},{"name":"李四","sex":"女","age":18}]'转 列表数据

js 数组[12] el-tree[{name:'张三',id:2,child:[{name:'李四',id:12}]}],根据数组中的数据查出el-tree中的节点

将{id:"111",name:"张三",sex:"男"}转换成数组

向sql server 表中添加 张三 30 男这条数据

const jsonArray = [ { name: '张三', age: 20 }, { name: '李四', age: 30 }, { name: '王五', age: 25 } ]; js取出每个变量

按以下格式在控制台打印下面3个用户的信息： 序号 用户名 密码 年龄 1 张三 zh123 20 2 李四 123 25 3 王五 ww123 19

将字符串[{"name":"张三","age":"20","gender":"男"},{"name":"李四","age":"21","gender":"女"}]转成json格式

删除张三李四在表中的数据mysql

1 data='[{"name":"张三""sex":"男"},{"name":"李四”"sex":"女""age":18}]'转 列表

stu={"name":"张三","english":80,"python":90,"math":100}

[{"name":"张三","sex":"男"},{"name":"李四","sex":"女","age":18}]转 json字符串

最新推荐

IPQ4019 QSDK开源代码资源包发布

管理建模和仿真的文件

【PDF表格创建与编辑】：使用Apache PDFBox和iText库制作表格，表格处理不求人

python输出txt文件

高频组电赛必备：掌握数字频率合成模块要点

"互动学习：行动中的多样性与论文攻读经历"

【PDF元数据管理】：如何使用Java库管理和编辑PDF元数据，元数据管理的秘密

TypeScript 二进制16在代码里怎么表示

ThinkPHP开发的仿微博系统功能解析

关系数据表示学习

js代码-重复的数据添加标识例如张三李四王五张三王五变更为张三1 李四王五1 张三2 王五2

生成一个js表格代码,张三50分李四20分

用json格式描述下面表格的数据学号姓名性别年龄1001 张三男 201002 李四女 221003 王五男 18

使用java设计学生类具有姓名年龄性别属性创建张三 18 男创建李四 17 女创建王五 19 女

data='[{"name":"张三","sex":"男"},{"name":"李四","sex":"女","age":18}]'转列表数据

向sql server 表中添加张三 30 男这条数据

按以下格式在控制台打印下面3个用户的信息：序号用户名密码年龄 1 张三 zh123 20 2 李四 123 25 3 王五 ww123 19

1 data='[{"name":"张三""sex":"男"},{"name":"李四”"sex":"女""age":18}]'转列表