首页import os import sys import logging from extra.extra import extra_func from extra.extra_2 import extra_func_2 from pyspark.sql import SparkSession logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) if __name__ == '__main__': if (len(sys.argv) < 3): logging.error('Usage: pyspark_demo <schema> <table>') sys.exit(1) logging.info('Program name: {}', sys.argv[0]) # Noted: If need to access hive table, need to set .enableHiveSupport() option. spark = SparkSession.builder.appName('read_text').enableHiveSupport().getOrCreate() lines = spark.read.text(os.getenv('SPARK_YARN_STAGING_DIR') + '/data.txt') lines.show() sql = 'select * from {}.{} limit 1'.format(sys.argv[1], sys.argv[2]) table_data = spark.sql(sql) table_data.show() if (len(sys.argv) > 3): logging.info('The third program argument is {}', sys.argv[3]) extra_func() extra_func_2() spark.stop()什么意思

import os import sys import logging from extra.extra import extra_func from extra.extra_2 import extra_func_2 from pyspark.sql import SparkSession logging.basicConfig(level=logging.INFO) logger = logging.getLogger(name) if name == 'main': if (len(sys.argv) < 3): logging.error('Usage: pyspark_demo <schema> <table>') sys.exit(1) logging.info('Program name: {}', sys.argv[0]) # Noted: If need to access hive table, need to set .enableHiveSupport() option. spark = SparkSession.builder.appName('read_text').enableHiveSupport().getOrCreate() lines = spark.read.text(os.getenv('SPARK_YARN_STAGING_DIR') + '/data.txt') lines.show() sql = 'select * from {}.{} limit 1'.format(sys.argv[1], sys.argv[2]) table_data = spark.sql(sql) table_data.show() if (len(sys.argv) > 3): logging.info('The third program argument is {}', sys.argv[3]) extra_func() extra_func_2() spark.stop()什么意思

时间: 2024-04-03 07:34:40 浏览: 119

这是一个使用pyspark读取文本文件和Hive表数据的Python脚本。在运行脚本时需要传入两个参数，分别为schema和table，用于指定要查询的Hive表的schema和表名。如果需要传入第三个参数，该参数将被记录在日志中。脚本还使用了extra.extra和extra.extra_2中的函数，并且在读取完数据后停止了SparkSession。

阅读全文

最新推荐

相关推荐

Simple_Key_Logging_API.zip_key logging_keylogging

logger.rar_Logger.py_sunlightek2_日志

json.zip_4 3 2 1_JSON

String_32bit_Logging_Mitsubishi_cnPLC程序.zip

logging_warnings_codes.py

String_32bit_Logging_Mitsubishi_cn.zip三菱PLC编程案例源码资料编程控制器应用通讯通信例子

Python库 | aws_lambda_logging-0.0.22.tar.gz

PyPI 官网下载 | infi.recipe.buildout_logging-0.1.6.tar.gz

vp.tar.gz_arduino_esp-07_heat_logging_temperatures

com.springsource.slf4j.org.apache.commons.logging_1.5.0.jar

Python库 | jk_logging-0.2021.4.7.tar.gz

PyPI 官网下载 | jk_logging-0.2017.10.7.tar.gz

util-logging_2.9.2-6.15.0.zip

Python库 | logging_kernel-1.13.tar.gz

PyPI 官网下载 | logging_helper-1.3.1.tar.gz

DATA_logging0.zip_Acceloremeter data_auv_gyroscope

Python库 | django_splunk_logging-1.1.0.tar.gz

DATA_logging8.zip_aceloremeter data_zip

DATA_logging4.zip_Acceloremeter data_zip

jboss_logging-spi-2.0.5.GA.jar

最新推荐

Oracle 19c DataGuard搭建以及使用dg_broker管理.docx

ssh(struts2[1].2.1+_hibernate3.6+spring3.0.5)整合配置.doc

Log4j2学习log4j2.xml配置模板

Chrome ESLint扩展：实时运行ESLint于网页脚本

管理建模和仿真的文件

精确率与召回率的黄金法则：如何在算法设计中找到最佳平衡点

在嵌入式系统中，如何确保EFS高效地管理Flash和ROM存储器，并向应用程序提供稳定可靠的接口？

基于 Webhook 的 redux 预处理器实现教程

"互动学习：行动中的多样性与论文攻读经历"

精确率的终极指南：提升机器学习模型性能的10个实战技巧