首页spark-sql字段血缘

spark-sql字段血缘

时间: 2023-10-21 10:06:45 浏览: 142

spark-sql-magic:IPython使用Spark-SQL的魔力

spark-sql-magic 使用提供SQLContext通过Spark运行SQL语句。这种魔术将使用通过-s参数指定SQLContext。如果没有提供，魔术将通过SQLContext搜索用户名称空间。如果魔术找到了一个正确SQLContext，则将使用它。如果有多个SQLContext，则需要指定一个。这个魔术返回了漂亮的打印pyspark DataFrame。 -l选项用于加载json和parquet文件。该文件将被加载并注册为一个表，并从文件名中推断出表名。文件必须具有.json或.parquet扩展名。 -w选项用于将查询的输出写入JSON或Parquet文件。从文件扩展名推断输出格式。 Python变量可以通过在标识符前面加上冒号来引用。这会将变量的字符串表示形式注入查询中。例子：： %sparksql -s context SHOW TABLES

在Spark SQL中，字段血缘是通过拿到insert语句并经过SparkSqlParser、Analyzer、Optimizer、SparkPlanner等组件的处理，最终得到物理计划来实现的。Spark SQL允许用户对SQL解析、逻辑计划分析和检查、逻辑计划优化、物理计划形成等进行扩展，而且扩展的代价相对较小。通过这些组件的处理，Spark SQL可以跟踪和记录数据源之间的依赖关系，从而实现字段血缘的功能。

阅读全文