在pyspark上运行分布式,# 保存处理后的数据集 tfidf.saveAsTextFile('hdfs://spark01:9000/project/processed_data')。有多个结点运行,会产生多个文件吗
时间: 2023-12-11 19:02:57 浏览: 78
nmf的matlab代码-hNMF:https://estasney.github.io/hNMF/
是的,如果你在 PySpark 上运行分布式任务,并使用 `saveAsTextFile` 方法将结果保存到 HDFS(Hadoop Distributed File System)中,那么每个节点都会生成一个输出文件。具体来说,每个分区的数据将被写入单独的文件。这些文件通常以多个部分组成,每个部分的名称都包含一个标识符,例如“part-00000”,“part-00001”等等。
因此,如果你有多个节点运行任务并将结果保存到 HDFS 中,则会生成多个文件。如果你想将这些文件合并成一个文件,可以使用 `coalesce` 或 `repartition` 方法来减少分区数量,然后再次使用 `saveAsTextFile` 方法将结果保存到 HDFS 中,此时所有结果都会保存在一个文件中。
阅读全文