new_insert_df = df.join(landing_merge_df, primary_keys_list, "left_anti")

这段代码是什么意思？这段代码是将两个数据框（df和landing_merge_df）按照主键列表（primary_keys_list）进行左反连接（left_anti join），返回的是df中有但landing_merge_df中没有的数据。也就是说，返回的是df中的数据，但是在landing_merge_df中不存在的数据。

if self.config.load_type == "INC": # adhoc hist job do not need to join landing merge table try: landing_merge_df = self.spark.read.format(self.config.destination_file_type). \ load(self.config.destination_data_path) # dataframe for updated records df = df.drop("audit_batch_id", "audit_job_id", "audit_src_sys_name", "audit_created_usr", "audit_updated_usr", "audit_created_tmstmp", "audit_updated_tmstmp") # dataframe for newly inserted records new_insert_df = df.join(landing_merge_df, primary_keys_list, "left_anti") self.logger.info(f"new_insert_df count: {new_insert_df.count()}") new_insert_df = DataSink_with_audit(self.spark).add_audit_columns(new_insert_df, param_dict) update_df = df.alias('l').join(landing_merge_df.alias('lm'), on=primary_keys_list, how="inner") update_df = update_df.select("l.*", "lm.audit_batch_id", "lm.audit_job_id", "lm.audit_src_sys_name", "lm.audit_created_usr", "lm.audit_updated_usr", "lm.audit_created_tmstmp", "lm.audit_updated_tmstmp") self.logger.info(f"update_df count : {update_df.count()}") update_df = DataSink_with_audit(self.spark).update_audit_columns(update_df, param_dict) # dataframe for unchanged records unchanged_df = landing_merge_df.join(df, on=primary_keys_list, how="left_anti") self.logger.info(f"unchanged_records_df count : {unchanged_df.count()}") final_df = new_insert_df.union(update_df).union(unchanged_df) print("final_df count : ", final_df.count()) except AnalysisException as e: if e.desc.startswith('Path does not exist'): self.logger.info('landing merge table not exists. will skip join landing merge') final_df = DataSink_with_audit(self.spark).add_audit_columns(df, param_dict) else: self.logger.error(f'unknown error: {e.desc}') raise e else: final_df = DataSink_with_audit(self.spark).add_audit_columns(df, param_dict) return final_df

这是一段Python代码，其中包含一个类方法的实现。该方法根据配置参数的不同，从一个特定的数据路径中将数据加载到一个Spark DataFrame中，并对该数据进行一些操作，最终返回一个具有审计列的DataFrame。如果配置参数是"INC"，则会执行一些数据合并的操作，包括添加、更新和未更改的记录，并对这些记录添加审计列。如果配置参数是其他值，则只会添加审计列。

new_insert_df = df.join(landing_merge_df, primary_keys_list, "left_anti")转化为sql语句

这段代码可以转换为以下SQL语句： ``` SELECT df.* FROM df LEFT JOIN landing_merge_df ON df.primary_keys_list = landing_merge_df.primary_keys_list WHERE landing_merge_df.primary_keys_list IS NULL; ``` 其中，`df`和`landing_merge_df`分别代表两个数据表，`primary_keys_list`是主键列的列表。这条SQL语句的作用是查询在`df`表中存在，但在`landing_merge_df`表中不存在的记录。

阅读全文

new_insert_df = df.join(landing_merge_df, primary_keys_list, "left_anti")

new_insert_df = df.join(landing_merge_df, primary_keys_list, "left_anti")转化为sql语句

相关推荐

Landing_Page_Laron：探索JavaScript技术的前沿

探索mood_landing_bootstrap主题的HTML实现

Python库djangoldp_hubl_landing最新版本发布

update_df = df.alias('l').join(landing_merge_df.alias('lm'), on=primary_keys_list, how="inner")

update_df = df.alias('l').join(landing_merge_df.alias('lm'), on=primary_keys_list, how="inner")转为sql

ccd_landing_new_d99.ccd99.cc_softlyusq_https：//ccd85.com_https//

Vertical_Take_Off_and_Landing_Vehicles.pdf

UI_UX_India_Landing_page_design_psd素材下载.psd

Nike_Shoes_Landing_Page_动效_psd_&_ai素材下载.zip

redcraft_temporary_landing_page:RedCraft.org 的临时登陆页面

工作室Landing_Page_网页模板psd素材下载.zip

LEDX_APP下载页介绍_landing_page_sketch&psd素材下载.zip

App_Landing_page_UI界面设计_sketch素材下载.zip

Real_Estate_Responsive_Landing_PageAdobeXD源码下载设计素材UI设计.xd

Portfolio_Responsive_Landing_PageAdobeXD源码下载设计素材UI设计.xd

wedo_landing:探索JavaScript的动态降落效果

大家在看

煤矿井下图像型早期火灾探测

PDK安装及cdl文件和gds文件的导入

SAP各模块字段与表的对应关系

蓝牙室内定位服务源码！

Cadence Allegro16.6高级进阶教程

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

虚拟串口软件：实现IP信号到虚拟串口的转换

【Python进阶篇】：掌握这些高级特性，让你的编程能力飞跃提升

后端调用ragflow api

IE6下实现PNG图片背景透明的技术解决方案

【欧姆龙触摸屏故障诊断全攻略】

Educoder综合练习—C&C++选择结构

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集