val survived_sex_count = df2.groupBy("Sex", "Survived").count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); survived_sex_percent.show() 中sum("count").over() 存在问题

对于`sum("count").over()`的问题，这是因为`over()`函数需要指定窗口范围，表示对哪些数据进行求和，而在这里未指定窗口范围，因此报错。如果想要对每个不同的`Sex`进行比例计算，则需要在`over()`函数中指定分区窗口，以便对每个窗口内的数据进行求和。可以尝试修改成以下代码： ``` import org.apache.spark.sql.expressions.Window val windowSpec = Window.partitionBy("Sex") val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over(windowSpec)).multiply(100), 5)); survived_sex_percent.show() ``` 在这个修改后的代码中，`Window.partitionBy("Sex")`表示按照`Sex`字段进行分区，然后在`over()`函数中指定了窗口范围，表示对每个分区内的数据进行求和。这样就可以正确计算每个分区内存活者的性别分布所占比例，并输出结果。

val survived_sex_count=df2.groupBy("Sex","Survived").count() val survived_sex_percent=survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100),5)); survived_sex_percent.show()

这是一个使用Spark SQL进行数据处理和分析的代码片段。它首先对一个名为df2的DataFrame按照“Sex”和“Survived”两列进行分组计数，然后使用Spark SQL中的窗口函数sum()计算出count列的总和。最后，使用withColumn()方法添加一个名为“percent”的列，计算每个组的占比，并使用format_number()方法将结果格式化为小数点后5位。最终结果会展示出来。

val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / col("count") * 100, 5));

这段代码是用来计算幸存者中每个性别的比例的。但是这段代码有一个错误，它的计算方式是将每个性别的幸存人数除以总的幸存人数，因此计算出来的比例都是100%。应该将第二个col("count")改为总的幸存人数，比如： ``` val total_survived_count = df.filter(col("Survived") === 1).count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / total_survived_count * 100, 5)) ``` 这样计算的比例才是正确的。

val survived_sex_count = df2.groupBy("Sex", "Survived").count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); survived_sex_percent.show() 中sum("count").over() 存在问题

val survived_sex_count=df2.groupBy("Sex","Survived").count() val survived_sex_percent=survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100),5)); survived_sex_percent.show()

val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / col("count") * 100, 5));

相关推荐

解决keras,val_categorical_accuracy:,0.0000e+00问题

val_map.txt

WIDER_val.zip

.divide(sum("count").over()) 在val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));报错 可能存在那些问题

val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));

(x, y), (x_val, y_val) = datasets.mnist.load_data() x = tf.convert_to_tensor(x, dtype=tf.float32) / 255.

loss = criterion(outputs, labels) val_sum_loss += loss.item() val_n += 1

基于改进YOLO的玉米病害识别系统（部署教程＆源码）

非系统Android图片裁剪工具

美赛：数学建模相关算法 MATLAB实现项目源码.zip（教程+源代码+附上详细代码说明）

海信电视刷机数据 LED46K16X3D（0001） 生产用软件数据 务必确认机编一致 整机USB升级程序

嵌入式stm32f103项目实例.pdf

最新推荐

解决keras,val_categorical_accuracy:,0.0000e+00问题

浅谈keras使用中val_acc和acc值不同步的思考

mysql中count(), group by, order by使用详解

基于改进YOLO的玉米病害识别系统（部署教程＆源码）

非系统Android图片裁剪工具

基于单片机的瓦斯监控系统硬件设计.doc

管理建模和仿真的文件

：Python环境变量配置从入门到精通：Win10系统下Python环境变量配置完全手册

electron桌面壁纸功能

基于单片机的流量检测系统的设计_机电一体化毕业设计.doc

.divide(sum("count").over()) 在val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));报错可能存在那些问题

海信电视刷机数据 LED46K16X3D（0001）生产用软件数据务必确认机编一致整机USB升级程序