df = self.spark.createDataFrame([], self.table_schema) try: df = self.spark.read.format("csv").option("header", self.config.header) \ .option("delimiter", self.config.delimiter) \ .option("multiLine", self.config.multiLine) \ .option('infer_schema', self.config.infer_schema) \ .option('escape', '"') \ .load(self.config.source_file_path) except AnalysisException as e: if e.desc.startswith('Path does not exist'): self.logger.warning(f'source file not found. will run with empty dataframe.') else: self.logger.exception(e) self.source_df_count = df.count() self.logger.info(f'success extract {self.source_df_count} records') return df

时间: 2024-02-14 19:35:21 浏览: 337

这段代码是一个ETL作业中的数据提取过程，它做了以下几个步骤： 1. 创建一个空的DataFrame对象，使用SparkSession的createDataFrame方法实现，这个空的DataFrame对象将会在出现异常的情况下返回。 2. 使用Spark的read方法读取源文件，这里的源文件是一个CSV文件，read方法可以读取多种不同格式的数据源。 3. 在读取CSV文件时，使用了多个选项来指定文件的特性，例如文件的分隔符、是否包含标题行、是否需要推断架构等等。 4. 如果读取过程中发生了分析异常（AnalysisException），会根据异常的描述来判断是否是文件不存在的问题，如果是文件不存在，则会记录一个警告信息，否则会将异常记录下来。 5. 统计提取出来的DataFrame中的记录总数，并记录日志。 6. 最后返回提取出来的DataFrame对象。总体而言，这段代码是一个通用的数据提取过程，可以用于读取各种格式的数据源，并且可以根据需要进行自定义和修改。

def init(self, glueContext: GlueContext, config: argparse.Namespace): """ init function. :param glueContext: the glueContext. the spark session can get from glueContext. :param config: Obtained by parsing from the Glue Job Input parameter list. """ self.config = config self.logger = logging.getLogger(self.config.table_full_name) self.logger.info(f'job init with params: {vars(self.config)}') self.glueContext = glueContext self.spark = glueContext.spark_session self.table_schema = Custom_Schema(self.spark).get_schema(self.config.source_file_schema) self.source_df_count = 0 self.destination_df_count = 0 self.load_date = datetime.now() self.logger.info(f'job load date: {self.load_date}') self.database_name, self.table_name = self.config.table_full_name.split('.') self.set_spark_configs()

这是一个Python类的初始化函数，它接受两个参数：glueContext和config。其中，glueContext是Glue的上下文，可以从中获取Spark会话，而config则是从Glue作业的输入参数列表中解析得到的命名空间。在初始化函数中，将这两个参数分别赋值给实例变量self.glueContext和self.config，并且设置了一些其他的实例变量，比如self.logger、self.spark、self.table_schema等。最后，调用了self.set_spark_configs()方法。可以看到，这个类是用来处理一些数据加载和转换的任务的，具体实现需要看其他方法的实现。

请将以下代码修改成可以多次输入SQL获得多段数据，并不会报错Promise already completed：def spark_sql_test(m): conf = SparkConf().setAppName("test_spark_sql").setMaster("yarn").setSparkHome("/usr/local/share/spark") sc = SparkContext(conf=conf) hc = HiveContext(sc) result = hc.sql(m) spark = SparkSession.builder.appName("test_spark_sql").getOrCreate() df = spark.createDataFrame(result.rdd, result.schema) df_pd = df.toPandas() spark.stop() return df_pd

可以将函数修改为以下形式： ``` from pyspark.sql import SparkSession def spark_sql_test(m): spark = SparkSession.builder.appName("test_spark_sql").getOrCreate() result = spark.sql(m) df = spark.createDataFrame(result.rdd, result.schema) df_pd = df.toPandas() spark.stop() return df_pd ``` 这样修改后，可以多次调用 `spark_sql_test` 函数，每次传入不同的 SQL 语句进行查询，返回多段数据。同时，将 SparkConf 和 HiveContext 替换为 SparkSession 的方式，可以更加简洁地创建 SparkSession。

阅读全文

相关推荐

JAVA spark创建DataFrame的方法

pyspark 读取csv文件创建DataFrame的两种方法

C_code_display_XML_data_schema.rar_XML SCHEMA C#_xml schema_xml

get_size_database_and_table.rar_Table_get_table_size sql

pojo_generator_using_jsonschema2pojo:该项目从json文件创建pojos。 它使用jsonschema lib

spark-schema-registry:适用于Apache Spark的架构注册表集成

rspec_json_schema_matcher:使用JSON模式验证规范中的JSON

rswag_schema_export：导出使用CI部署期间导入rswag schema.json

jsonschema-schema.org:JSON 模式中的 schema.org 词汇表

build-jsonschema-schema.org:JSON 模式中的 schema.org 词汇表

SQL-to-Graphql-Schema-Generator：:atom_symbol_selector:从SQL查询在线生成GraphQL方案-https：sql-to-graphql.now.sh

json-table-schema-validator:用于根据 JSON Table Schema http 验证表格数据的节点库

Python库 | aws_cdk.cdk_assets_schema-1.129.0-py3-none-any.whl

Python库 | aws_cdk.cdk_assets_schema-1.154.0-py3-none-any.whl

rest-schema-table:REST 服务架构的目录

Python库 | aws_cdk.cdk_assets_schema-1.86.0-py3-none-any.whl

移动机器人与头戴式摄像头RGB-D多人实时检测和跟踪系统

大家在看

PacDrive操作手册

光伏电站在线监测智能诊断系统设计与实现.pptx

RS纠错编码原理及实现方法

从库中复制模型的材料数据-网络地址聚合算法

主要的边缘智能参考架构-arm汇编语言官方手册

最新推荐

[Oracle] dbms_metadata.get_ddl 的使用方法总结

移动机器人与头戴式摄像头RGB-D多人实时检测和跟踪系统

小学低年级汉语拼音教学的问题与对策

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南

"互动学习：行动中的多样性与论文攻读经历"

【热传递模型的终极指南】：掌握分类、仿真设计、优化与故障诊断的18大秘诀

pojo_generator_using_jsonschema2pojo:该项目从json文件创建pojos。它使用jsonschema lib