import os import sys import logging from extra.extra import extra_func from extra.extra_2 import extra_func_2 from pyspark.sql import SparkSession logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) if __name__ == '__main__': if (len(sys.argv) < 3): logging.error('Usage: pyspark_demo <schema> <table>') sys.exit(1) logging.info('Program name: {}', sys.argv[0]) # Noted: If need to access hive table, need to set .enableHiveSupport() option. spark = SparkSession.builder.appName('read_text').enableHiveSupport().getOrCreate() lines = spark.read.text(os.getenv('SPARK_YARN_STAGING_DIR') + '/data.txt') lines.show() sql = 'select * from {}.{} limit 1'.format(sys.argv[1], sys.argv[2]) table_data = spark.sql(sql) table_data.show() if (len(sys.argv) > 3): logging.info('The third program argument is {}', sys.argv[3]) extra_func() extra_func_2() spark.stop()什么意思
时间: 2024-04-03 07:34:40 浏览: 119
这是一个使用pyspark读取文本文件和Hive表数据的Python脚本。在运行脚本时需要传入两个参数,分别为schema和table,用于指定要查询的Hive表的schema和表名。如果需要传入第三个参数,该参数将被记录在日志中。脚本还使用了extra.extra和extra.extra_2中的函数,并且在读取完数据后停止了SparkSession。
阅读全文