return df.withColumn("_count", max("rank").over(merge_spec)) \ .withColumn("audit_created_tmstmp",F.when((F.col("_count") == 2) & (F.col("rank") == 1),F.lit(None).cast("timestamp")).otherwise(F.col("audit_created_tmstmp"))) \ .withColumn("audit_created_tmstmp",max("audit_created_tmstmp").over(merge_spec)) \ .drop("_count")转换为sql

以下是将给定的 PySpark 转换为 SQL 的过程： ```sql SELECT CASE WHEN (_count = 2 AND rank = 1) THEN NULL ELSE audit_created_tmstmp END AS audit_created_tmstmp FROM ( SELECT *, MAX(rank) OVER (PARTITION BY merge_spec) AS _count FROM df ) tmp WHERE audit_created_tmstmp = MAX(audit_created_tmstmp) OVER (PARTITION BY merge_spec) ```

return df.withColumn("_count", max("rank").over(merge_spec)) \ .withColumn("audit_created_tmstmp",F.when((F.col("_count") == 2) & (F.col("rank") == 1),F.lit(None).cast("timestamp")).otherwise(F.col("audit_created_tmstmp"))) \ .withColumn("audit_created_tmstmp",max("audit_created_tmstmp").over(merge_spec)) \ .drop("_count")

这段代码的作用是： 1. 使用 PySpark 的 `withColumn` 方法向 `df` 数据框添加一列 `_count`，该列的值为 `rank` 列的最大值，并使用 `over()` 方法指定窗口规范 `merge_spec`。 2. 使用 PySpark 的 `withColumn` 方法向 `df` 数据框添加一列 `audit_created_tmstmp`，该列的值根据条件判断而定。如果 `_count` 列的值为 2 并且 `rank` 列的值为 1，则将该列的值设置为 `None`（即空值），否则将该列的值设置为原来的 `audit_created_tmstmp` 值。同样，使用 `over()` 方法指定窗口规范 `merge_spec`。 3. 使用 PySpark 的 `withColumn` 方法向 `df` 数据框添加一列 `audit_created_tmstmp`，该列的值为 `audit_created_tmstmp` 列的最大值，并使用 `over()` 方法指定窗口规范 `merge_spec`。 4. 使用 PySpark 的 `drop` 方法删除 `_count` 列。其中，`over()` 方法指定了窗口规范 `merge_spec`，该规范定义了窗口的分区和排序方式。`merge_spec` 可以根据具体情况进行定义。

new_df_cols = new_df.columns old_df_cols = older_df.columns total = set(new_df_cols + old_df_cols) new_df = new_df.select(self.fill_empty_colums(new_df_cols, total)).withColumn("row_priority",F.lit(0)) older_df = older_df.select(self.fill_empty_colums(old_df_cols, total)).withColumn("row_priority",F.lit(1)) key_column = [F.col(column_name) for column_name in key_columns] merge_spec = Window.partitionBy(key_column).orderBy("row_priority") ranked_df=new_df.unionByName(older_df).withColumn("rank", F.rank().over(merge_spec)) return self.update_audit_created_column(ranked_df,key_column).where(F.col("rank") == 1).drop("rank", "row_priority")

这段代码用 PySpark 实现了对两个 DataFrame 进行合并和去重的操作，并添加了一些元数据信息。下面是使用 SQL 实现的代码： ```sql -- 选取需要合并的列名 WITH new_cols AS ( SELECT COLUMN_NAME FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'new_df' ), old_cols AS ( SELECT COLUMN_NAME FROM INFORMATION_SCHEMA.COLUMNS WHERE TABLE_NAME = 'older_df' ), cols AS ( SELECT DISTINCT COLUMN_NAME FROM ( SELECT COLUMN_NAME FROM new_cols UNION ALL SELECT COLUMN_NAME FROM old_cols ) ), -- 对 new_df 填充空缺的列，并添加 "row_priority" 列 new_df_filled AS ( SELECT COALESCE(col1, '') AS col1, COALESCE(col2, '') AS col2, ..., COALESCE(colN, '') AS colN, 0 AS row_priority FROM new_df ), new_df_selected AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY key_column ORDER BY row_priority) AS rank FROM ( -- 选取 new_df 中的列，包括填充空缺的列和 "row_priority" 列 SELECT col1, col2, ..., colN, row_priority FROM new_df_filled -- 生成 key_column 列，用于分组 CROSS JOIN (SELECT col1 AS key_column FROM new_df_filled) key_columns ) ), -- 对 older_df 填充空缺的列，并添加 "row_priority" 列 old_df_filled AS ( SELECT COALESCE(col1, '') AS col1, COALESCE(col2, '') AS col2, ..., COALESCE(colN, '') AS colN, 1 AS row_priority FROM older_df ), old_df_selected AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY key_column ORDER BY row_priority) AS rank FROM ( -- 选取 older_df 中的列，包括填充空缺的列和 "row_priority" 列 SELECT col1, col2, ..., colN, row_priority FROM old_df_filled -- 生成 key_column 列，用于分组 CROSS JOIN (SELECT col1 AS key_column FROM old_df_filled) key_columns ) ), -- 合并两个 DataFrame，并去重 merged_df AS ( SELECT * FROM new_df_selected UNION ALL SELECT * FROM old_df_selected ), -- 选取合并后的第一行 final_df AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY key_column ORDER BY rank) AS row_num FROM merged_df ) SELECT col1, col2, ..., colN FROM final_df WHERE row_num = 1 ``` 这段 SQL 代码的实现原理与 PySpark 代码相同，主要分为以下几个步骤： 1. 获取需要合并的列名。 2. 对 new_df 和 older_df 分别进行填充空缺列、添加 "row_priority" 列和选取列的操作，生成 new_df_selected 和 old_df_selected 两个数据集。 3. 将 two_df_selected 进行合并，并添加 rank 列，用于去重。 4. 选取合并后的第一行，得到最终的去重结果。

阅读全文

相关推荐

Image-merge.rar_Image.merge_image merge应用_merge image

Merge-putFilesToOneDir.zip_TCGA数据合并_mRNA merge.pl_mRNA_merge.pl_

MergeList_Sq.zip_MergeList Sq_MergeList_Sq

ranked_df=new_df.unionByName(older_df).withColumn("rank", F.rank().over(merge_spec))这句话什么意思

ws.merge_cells

arcpy.Merge_management如何使用

Python中用xlsxwriter中的sheet.merge_range，如何合并行单元格

pandas.merge_ordered

pd.merge_ordered()和pd.merge()有什么区别

bs.report_no 是 varchar

arcpy.Merge_management

pd.merge_asof

pd.merge_asof找到最相邻的合并

解释tf.summary.merge_all()

pandas.merge_

cfg.merge_from_file

使用pandas.merge_asof报错：ValueError:left keys must be sorted

大家在看

读写通达信股票软件二进制dat文件

CMOS反相器的掩膜版图-集成电路版图设计

调制解调文档

Windows系统kb2577795-kb2553549 补丁

ISO/IEC 27005:2022 英文原版

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

VBS简明教程：批处理之家论坛下载指南

【欧姆龙触摸屏：新手必读的10个操作技巧】

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集