def __init__(self, glueContext: GlueContext, config: argparse.Namespace): """ init function. :param glueContext: the glueContext. the spark session can get from glueContext. :param config: Obtained by parsing from the Glue Job Input parameter list. """ self.config = config self.logger = logging.getLogger(self.config.table_full_name) self.logger.info(f'job init with params: {vars(self.config)}') self.glueContext = glueContext self.spark = glueContext.spark_session self.table_schema = Custom_Schema(self.spark).get_schema(self.config.source_file_schema) self.source_df_count = 0 self.destination_df_count = 0 self.load_date = datetime.now() self.logger.info(f'job load date: {self.load_date}') self.database_name, self.table_name = self.config.table_full_name.split('.') self.set_spark_configs()
时间: 2024-02-14 20:35:24 浏览: 135
这是一个Python类的初始化函数,它接受两个参数:glueContext和config。其中,glueContext是Glue的上下文,可以从中获取Spark会话,而config则是从Glue作业的输入参数列表中解析得到的命名空间。在初始化函数中,将这两个参数分别赋值给实例变量self.glueContext和self.config,并且设置了一些其他的实例变量,比如self.logger、self.spark、self.table_schema等。最后,调用了self.set_spark_configs()方法。可以看到,这个类是用来处理一些数据加载和转换的任务的,具体实现需要看其他方法的实现。
阅读全文