if self.config.deduplicate_order_by_type == "asc": order_by_columns = [F.col(column_name) for column_name in self.config.deduplication_order_columns] ranking_column = "duplicates_rank" is_deleted_column = "IsDeleted"

这段代码主要是对选择的排序方式进行判断，并且选择相应的列名。如果 `self.config.deduplicate_order_by_type` 的值是 "asc"，则表示需要按照升序排序，此时 `order_by_columns` 列表中存储的是需要排序的列名对应的 F.col() 函数；如果 `self.config.deduplicate_order_by_type` 的值是 "desc"，则表示需要按照降序排序，此时需要将 `order_by_columns` 列表中的每个元素调用 F.col().desc() 方法，表示按照降序排序；`ranking_column` 和 `is_deleted_column` 分别是用于存储生成的新列名和标记是否删除的列名。

if self.config.deduplicate_order_by_type == "asc": order_by_columns = [F.col(column_name) for column_name in self.config.deduplication_order_columns]

这段代码是在根据用户配置来创建排序列的列表 `order_by_columns`。如果用户配置中指定了排序方式为升序（`self.config.deduplicate_order_by_type == "asc"`），则创建一个包含多个排序列的列表 `order_by_columns`，每个元素都是一个 PySpark 的 `Column` 对象，用于表示 DataFrame 中的每个列，并指定它们按升序排列。这个列表中的每个元素都是由 `self.config.deduplication_order_columns` 属性中提供的列名构建而成。例如，如果 `self.config.deduplication_order_columns` 属性被设置为 `['score', 'date']`，并且 `self.config.deduplicate_order_by_type` 属性被设置为 `"asc"`，那么这段代码创建的 `order_by_columns` 列表将包含两个元素，每个元素都是一个 `Column` 对象，用于表示 DataFrame 中的 'score' 和 'date' 两个列，并指定它们按升序排列。在这个例子中，`order_by_columns` 列表可以被用于对 DataFrame 进行升序排序操作，例如： ```python from pyspark.sql.functions import * df = spark.createDataFrame([(1, "John", 25, 90, "2021-01-01"), (2, "Mary", 30, 95, "2021-02-01"), (3, "John", 25, 80, "2021-03-01"), (4, "Mary", 28, 85, "2021-04-01")], ["id", "name", "age", "score", "date"]) order_by_columns = [col(column_name) for column_name in ['score', 'date']] sorted_df = df.orderBy(order_by_columns) sorted_df.show() ``` 这个例子中，我们创建了一个 DataFrame `df`，包含五列 'id'、'name'、'age'、'score' 和 'date'。然后，我们使用 `order_by_columns` 列表对 DataFrame 进行排序操作，先按 'score' 列升序排列，再按 'date' 列升序排列。最后，我们使用 `show()` 函数展示排序后的 DataFrame。

def deduplicate(self, df: DataFrame) -> DataFrame: key_columns = [F.col(column_name) for column_name in self.config.deduplication_key_columns] order_by_columns = [F.col(column_name).desc() for column_name in self.config.deduplication_order_columns] if self.config.deduplicate_order_by_type == "asc": order_by_columns = [F.col(column_name) for column_name in self.config.deduplication_order_columns] ranking_column = "duplicates_rank" is_deleted_column = "IsDeleted" if (self.config.filter_deleted_flag) & ( is_deleted_column in df.columns): # if True removes records that marked deleted filter = (F.col(ranking_column) == 1) & (F.col(is_deleted_column) == "False") else: self.logger.warning(f"Records marked as deleted will be loaded to {self.config.table_full_name} table!") filter = F.col(ranking_column) == 1 return df.withColumn(ranking_column, F.row_number().over(Window.partitionBy(key_columns).orderBy(order_by_columns))).filter( filter).drop(ranking_column)

这段代码是用来去重的，输入是一个DataFrame，输出也是一个DataFrame。该函数首先根据配置文件中的列名获取需要去重的列和排序列，然后按照排序列进行降序或升序排列。接着，该函数给每个分组内的记录打上重复排名，最后根据重复排名过滤出排名为1的记录并删除重复排名列。如果配置文件中开启了筛选标记为删除的记录的功能，并且DataFrame中有IsDeleted列，则会将标记为删除的记录过滤掉。如果没有开启该功能，则会将标记为删除的记录加载到目标表中。

阅读全文

if self.config.deduplicate_order_by_type == "asc": order_by_columns = [F.col(column_name) for column_name in self.config.deduplication_order_columns] ranking_column = "duplicates_rank" is_deleted_column = "IsDeleted"

if self.config.deduplicate_order_by_type == "asc": order_by_columns = [F.col(column_name) for column_name in self.config.deduplication_order_columns]

相关推荐

Like-and-OrderBy.rar_sql like order by

oracle-sort-order-by.rar_oracle_sort - order

mysql_proc_page_order.zip_page_proc_page_排序MYSQL

[F.col(field).desc() for field in self.config.deduplication_order_columns.split(',')]转换为sql

oracle.zip_Oracle数据库_SQL_

sql query examples.rar_Sql queries_query_random_sql

gcf2asc.gz_ASC_NOE_gcf_gcf2asc

Criteria(hibernate3.0).rar_Criteria java_criteria Hibernate_hibe

ASC.zip_ASC_active suspension_run

asc.zip_ASC_asc算法_改进蚁群算法_蚁群算法改进

EntQsPlc_ASC V34.rar_EntQsPlc_OPC采集_PLC_opc_数据采集

VB.password.TextBox.control.programming.model.rar_VB textbox

PCsend_asc_receive_hex.zip_SendASC_hex

ASC_6.1.9.214_Pro 专业版

mozillazg_python-pinyin_1741402107.zip

jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目

基于Andorid的音乐播放器项目设计（国外开源）.zip

大家在看

协同物流商务信息系统及其开发模式研究

空调室外机气动与声学特性的数值分析 (2013年)

SD Specifications Part 1 - Physical Layer Specification 4.0

泛函分析第二版课后习题参考答案孙炯

坐标提取lisp程序分享.pdf

最新推荐

mysql中count(), group by, order by使用详解

中文维修手册HL3160_3190CDW-ASC.pdf

MemTool_加密解密.pdf

sql中 order by 和 group by的区别

mozillazg_python-pinyin_1741402107.zip

Cyclone IV硬件配置详细文档解析

【WinCC与Excel集成秘籍】：轻松搭建数据交互桥梁（必读指南）

华为模拟互联地址配置

Java游戏开发简易实现与地图控制教程

【超市销售数据深度分析】：从数据库挖掘商业价值的必经之路