val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / col("count") * 100, 5));

这段代码是用来计算幸存者中每个性别的比例的。但是这段代码有一个错误，它的计算方式是将每个性别的幸存人数除以总的幸存人数，因此计算出来的比例都是100%。应该将第二个col("count")改为总的幸存人数，比如： ``` val total_survived_count = df.filter(col("Survived") === 1).count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / total_survived_count * 100, 5)) ``` 这样计算的比例才是正确的。

val survived_sex_count = df2.groupBy("Sex", "Survived").count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); survived_sex_percent.show() 中sum("count").over() 存在问题

对于`sum("count").over()`的问题，这是因为`over()`函数需要指定窗口范围，表示对哪些数据进行求和，而在这里未指定窗口范围，因此报错。如果想要对每个不同的`Sex`进行比例计算，则需要在`over()`函数中指定分区窗口，以便对每个窗口内的数据进行求和。可以尝试修改成以下代码： ``` import org.apache.spark.sql.expressions.Window val windowSpec = Window.partitionBy("Sex") val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over(windowSpec)).multiply(100), 5)); survived_sex_percent.show() ``` 在这个修改后的代码中，`Window.partitionBy("Sex")`表示按照`Sex`字段进行分区，然后在`over()`函数中指定了窗口范围，表示对每个分区内的数据进行求和。这样就可以正确计算每个分区内存活者的性别分布所占比例，并输出结果。

val survived_sex_count=df2.groupBy("Sex","Survived").count() val survived_sex_percent=survived_sex_count.withColumn("percent",format_number(col("count").divide(sum("count").over()).multiply(100),5)); survived_sex_percent.show() survived_sex_percent.coalesce(1).write.option("header", "true").csv("/home/hadoop/titanic_output/survived_sex_percent.csv")

这是一个使用Spark SQL进行数据处理和分析的代码片段。它首先对一个名为df2的DataFrame按照“Sex”和“Survived”两列进行分组计数，然后使用Spark SQL中的窗口函数sum()计算出count列的总和。最后，使用withColumn()方法添加一个名为“percent”的列，计算每个组的占比，并使用format_number()方法将结果格式化为小数点后5位。最终结果会展示出来。接着，使用coalesce()方法将结果合并成一个分区，使用write()方法将结果写入指定路径下的CSV文件，文件名为“survived_sex_percent.csv”。同时，设置选项“header”为“true”，表示将列名写入CSV文件的第一行作为头部。这样可以方便地在其他工具中打开和使用这些数据。

val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") / col("count") * 100, 5));

val survived_sex_count = df2.groupBy("Sex", "Survived").count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count") .divide(sum("count").over()) .multiply(100), 5)); survived_sex_percent.show() 中sum("count").over() 存在问题

相关推荐

val_map.txt

WIDER_val.zip

request_and_set_FCKeditor_value.rar_fckeditor val_javascript

val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));

.divide(sum("count").over()) 在val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));报错 可能存在那些问题

matlab.rar_There There_comp_gauss_dens_val_environmentwev

Basler_Grab_Val.rar_Basler Grab Val_Basler grab_Basler 相机_basler

main-val.rar_forecasting_forecasting matlab

解决keras,val_categorical_accuracy:,0.0000e+00问题

VAL2.rar_Symbolic execution_execution

基于stm32+FreeRTOS+ESP8266的实时天气系统

地县级城市建设2022-2002 公厕数 公厕数-三类以上公厕数 市容环卫专用车辆设备总数 省份 城市.xlsx

Xposed Framework 是一种为 Android 系统设计的软件框架，它可以实现对 Android 系统的各种修改

YOLOv10算法直升机机场-停机坪标志检测+数据集

pillow_create_sample.py

System and process monitor for Linux.zip

最新推荐

解决keras,val_categorical_accuracy:,0.0000e+00问题

浅谈keras使用中val_acc和acc值不同步的思考

详细解析命令行的getopt_long()函数

pytorch之inception_v3的实现案例

mysql中count(), group by, order by使用详解

基于嵌入式ARMLinux的播放器的设计与实现 word格式.doc

管理建模和仿真的文件

Python字符串为空判断的动手实践：通过示例掌握技巧

box-sizing: border-box;作用是？

经典：大学答辩通过_基于ARM微处理器的嵌入式指纹识别系统设计.pdf

.divide(sum("count").over()) 在val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(sum("count").over()).multiply(100), 5));报错可能存在那些问题

地县级城市建设2022-2002 公厕数公厕数-三类以上公厕数市容环卫专用车辆设备总数省份城市.xlsx