df.select(df.col2 == df.col3).show()

这是一个 PySpark DataFrame 的操作，意思是选取 DataFrame 中 col2 和 col3 相等的行并展示出来。具体解释如下： - df 是一个 PySpark DataFrame 对象； - select() 方法用于选取满足条件的行； - df.col2 和 df.col3 分别表示 DataFrame 中的两列； - == 表示判断两个值是否相等； - show() 方法用于展示选取后的结果。

df.select(df.col2 == df.col3).show()把结果添加到新列中

可以使用 `withColumn` 方法来添加结果到新列中，例如： ```python from pyspark.sql.functions import when df = df.withColumn("new_col", when(df.col2 == df.col3, "True").otherwise("False")) df.show() ``` 这将会在 `df` 中添加一个名为 `new_col` 的新列，其中包含 `col2` 等于 `col3` 的行的值为 `True`，否则为 `False`。你可以根据需要修改 `when` 和 `otherwise` 表达式来设置新列的值。

import breeze.numerics.round import breeze.stats.mean import org.apache.spark.sql.functions.col import org.apache.spark.sql.types.{DoubleType, IntegerType} import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.DataFrame object Titanic_c { def main(args: Array[String]) = { Logger.getLogger("org").setLevel(Level.ERROR) val conf = new SparkConf().setAppName("Titanic_c").setMaster("local[2]") val sc = new SparkContext(conf) val spark = org.apache.spark.sql.SparkSession.builder .master("local") .appName("Titanic") .getOrCreate; val df = spark.read .format("csv") .option("header", "true") .option("mode", "DROPMALFORMED") .load("datasets/Titanic_s.csv") import spark.implicits._ df.withColumn("Pclass", df("Pclass").cast(IntegerType)) .withColumn("Survived", df("Survived").cast(IntegerType)) .withColumn("Age", df("Age").cast(DoubleType)) .withColumn("SibSp", df("SibSp").cast(IntegerType)) .withColumn("Parch", df("Parch").cast(IntegerType)) .withColumn("Fare", df("Fare").cast(DoubleType)) val df1 = df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin") val columns = df1.columns val missing_cnt = columns.map(x => df1.select(col(x)).where(col(x).isNull).count) val result_cnt = sc.parallelize(missing_cnt.zip(columns)).toDF("missing_cnt", "column_name") result_cnt.show() def meanAge(dataFrame: DataFrame): Double = { dataFrame .select("Age") .na.drop() .agg(round(mean("Age"), )) .first() .getDouble(0) } val df2 = df1 .na.fill(Map( "Age" -> meanAge(df1), "Embarked" -> "S")) val survived_count = df2.groupBy("Survived").count() survived_count.show() survived_count.coalesce(1).write.option("header", "true").csv("datasets/survived_count.csv") } }

这是一个使用Spark读取Titanic数据集并对其进行预处理的Scala代码。这个代码将CSV文件读取为一个DataFrame，然后对其中的缺失值进行处理，并计算了生还和死亡人数的统计信息，最后将结果写入CSV文件。首先，代码创建了一个SparkConf和SparkContext对象，然后创建了一个SparkSession对象，用于读取CSV文件。接下来，代码对数据集中的一些列进行转换，将它们转换为正确的数据类型。然后，代码删除了一些不需要的列。接着，代码计算了每列中缺失值的数量，并将结果存储在一个DataFrame中。接下来，代码定义了一个函数meanAge，用于计算年龄的平均值，并将缺失值替换为该平均值。最后，代码计算了生还和死亡人数的统计信息，并将结果写入CSV文件。希望这能帮到你！

阅读全文

df.select(df.col2 == df.col3).show()

df.select(df.col2 == df.col3).show()把结果添加到新列中

相关推荐

802.3df-2024

pandas 强制类型转换 df.astype实例

DF.exe代码比较

转化为Python操作数据库的代码 new_b_df.withColumn("score", new_b_df['stars'] * 100 + new_b_df['review_count']) \ .where(new_b_df['is_open'] == 1) \ .select(col('name'), col('score')) \ .orderBy(col('score').desc()).show(1500, truncate=False)

spark dataframe有三列col1，col2，col3，对col1和col2进行minmax归一化处理，给出代码

如何在Pyspark代码中处理df1，该df1有三个字段(A, B, C)，将df1一行数据中字段A,B,C三个字段的值 存放到新的df2的字段D中 df2字段D此时会变成3 分别对应df1中的A,B,C三个字段的三个值 需要给我一段可以直接运行的代码 要利用stack

在pyspark代码中 目前有一个df1有3个字段 如何把df1中包含全部3个字段的一行数据 在df2中只存成一个字段并且有三行

pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)在pyspark的同例

spark 中使用df语句对用户行为：用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。 行为类型：点击pv、购买buy、加购cart、fav收藏的数据中使用df语句查询收藏-加购率（比值）

大家在看

SCSI-ATA-Translation-3_(SAT-3)-Rev-01a

Surface pro 7 SD卡固定硬盘X64驱动带数字签名

实验2.Week04_通过Console线实现对交换机的配置和管理.pdf

景象匹配精确制导中匹配概率的一种估计方法

Low-cost high-gain differential integrated 60 GHz phased array antenna in PCB process

最新推荐

mozillazg_python-pinyin_1741402107.zip

Cyclone IV硬件配置详细文档解析

【WinCC与Excel集成秘籍】：轻松搭建数据交互桥梁（必读指南）

华为模拟互联地址配置

Java游戏开发简易实现与地图控制教程

【超市销售数据深度分析】：从数据库挖掘商业价值的必经之路

在ubuntu中安装ros时出现updating datebase of manual pages...怎么解决

Laravel Monobullet Monolog处理与Pushbullet API通知集成

【超市库存管理优化手册】：数据库层面的解决方案

qt，socket通信，结构体封包

如何在Pyspark代码中处理df1，该df1有三个字段(A, B, C)，将df1一行数据中字段A,B,C三个字段的值存放到新的df2的字段D中 df2字段D此时会变成3 分别对应df1中的A,B,C三个字段的三个值需要给我一段可以直接运行的代码要利用stack

在pyspark代码中目前有一个df1有3个字段如何把df1中包含全部3个字段的一行数据在df2中只存成一个字段并且有三行

spark 中使用df语句对用户行为：用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。行为类型：点击pv、购买buy、加购cart、fav收藏的数据中使用df语句查询收藏-加购率（比值）