限制spark往hdfs写出数据时，生成_success文件

如何将数据从限制 Spark 向 HDFS 写出并生成 success 文件？可以使用以下命令： ``` spark-submit your_script.py \ --master yarn \ --deploy-mode client \ --conf spark.yarn.submit.waitAppCompletion=false \ --conf spark.hadoop.fs.defaultFS=hdfs://your-hdfs-name-node:8020 \ --conf spark.hadoop.fs.permissions.umask-mode=022 \ --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 \ --conf spark.speculation=false \ --name your-app-name \ --num-executors num_of_executors \ --executor-memory executor_memory \ --executor-cores num_of_cores_per_executor \ --conf spark.executor.heartbeatInterval=300s \ --conf spark.network.timeout=600s \ --conf spark.yarn.maxAppAttempts=1 \ --conf spark.dynamicAllocation.enabled=false \ --conf spark.shuffle.service.enabled=false \ --conf spark.sql.shuffle.partitions=1000 \ --py-files python_packages.zip \ --archives python_venv.zip \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./python_venv.zip/python_venv/bin/python \ --conf spark.executorEnv.PYTHON_EGG_CACHE=./ \ --conf spark.pyspark.driver.python=./python_venv.zip/python_venv/bin/python \ --conf spark.pyspark.python=./python_venv.zip/python_venv/bin/python \ --conf spark.driver.maxResultSize=4g \ --conf spark.driver.memory=4g \ --conf spark.executor.memoryOverhead=4g \ --conf spark.driver.cores=2 \ --conf spark.default.parallelism=1000 \ --conf spark.sql.files.maxPartitionBytes=134217728 \ --conf spark.hadoop.validateOutputSpecs=false \ --conf spark.hadoop.mapreduce.output.fileoutputformat.suppressoutput=true \ --conf spark.hadoop.mapreduce.output.fileoutputformat.outputdir=hdfs://your-hdfs-name-node:8020/your-output-path \ --conf spark.hadoop.mapreduce.job.outputformat.class=org.apache.hadoop.mapreduce.lib.output.TextOutputFormat \ --conf spark.hadoop.mapreduce.outputcommitter.factory.scheme=hdfs \ --conf spark.hadoop.mapreduce.lazyOutput.format=true \ && hdfs dfs -touchz hdfs://your-hdfs-name-node:8020/your-output-path/success.txt ``` 说明： - `your_script.py`: 你想要提交的 Python 脚本。 - `your-app-name`: Spark 应用程序的名称。 - `num_of_executors`: Spark 应用程序使用的执行者数。 - `executor_memory`: 每个执行者可用的内存量。 - `python_packages.zip`: 如果程序依赖其他 Python 包，该文件应该包含这些包。更多信息，请参阅 PySpark 文档。 - `python_venv.zip`: 如果程序使用虚拟环境，该文件应该包含虚拟环境。更多信息，请参阅 PySpark 文档。 - `your-hdfs-name-node`: 你的 HDFS 名称节点。 - `your-output-path`: 写出文件的路径。以上命令将指定的脚本使用 Spark 在 YARN 上运行，并将输出写入 HDFS 指定的路径。成功运行后，命令会在指定路径生成 success.txt 文件。

阅读全文

限制spark往hdfs写出数据时，生成_success文件

相关推荐

hdfs_video_jar.zip_HDFS video_Hadoop 文件_hdfs_hdfs下MP4视频播放

Spark同步Hdfs数据到Doris

Spark hadoop票据过期问题HDFS_DELEGATION_TOKEN

【HDFS终极指南】：分布式存储的12个关键秘密

【HDFS增量同步实操全攻略】：遇到问题不再怕，这里有解决方案！

Hadoop序列文件与MapReduce高级技巧：提升大数据处理效率的6大策略

使用LLM进行大规模数据分析

Django Feed Generator性能优化：调优策略与大规模数据处理

【数据仓库架构理解】：云服务背后的技术原理及优化策略

解决Hadoop序列文件难题：5个挑战及应对策略助你快速前行

【大数据时代下的DOM4J】：如何在海量数据中高效处理XML

免费的防止锁屏小软件，可用于域统一管控下的锁屏机制

Python代码实现带装饰的圣诞树控制台输出

白色大气风格的设计师作品模板下载.zip

电商平台开发需求文档.doc

白色简洁风格的办公室室内设计门户网站模板下载.zip

VB+access干部档案管理系统(源代码+系统)(20246t).7z

VB+ACCESS服装专卖店管理系统设计(源代码+系统+开题报告+答辩PPT)(2024ra).7z

(179065812)基于Android stduio的手机银行开发与设计-用于课程设计

白色大气风格的婚礼现场倒计时模板下载.zip

大家在看

递推最小二乘辨识

论文研究-8位CISC微处理器的设计与实现.pdf

设置段落格式-word教学内容的PPT课件

QRCT调试指导.docx

python中matplotlib实现最小二乘法拟合的过程详解

最新推荐

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

python读取hdfs上的parquet文件方式

HDFS文件系统基本文件命令、编程读写HDFS

实验七：Spark初级编程实践

HDFS管理工具HDFS Explorer下载地址、使用方法.docx

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅