spark读取hive表,输出csv格式
时间: 2024-02-21 16:30:34 浏览: 127
可以通过以下步骤使用Spark读取Hive表并将其输出为CSV格式:
1. 创建SparkSession对象:
```
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Read Hive Table") \
.enableHiveSupport() \
.getOrCreate()
```
2. 读取Hive表:
```
df = spark.sql("SELECT * FROM <hive_database>.<hive_table>")
```
其中,`<hive_database>`为Hive表所在的数据库名称,`<hive_table>`为Hive表名称。
3. 将DataFrame保存为CSV格式:
```
df.write \
.option("header", "true") \
.option("delimiter", ",") \
.csv("<csv_output_path>")
```
其中,`<csv_output_path>`为CSV文件输出路径。
完整代码示例:
```
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.appName("Read Hive Table") \
.enableHiveSupport() \
.getOrCreate()
df = spark.sql("SELECT * FROM <hive_database>.<hive_table>")
df.write \
.option("header", "true") \
.option("delimiter", ",") \
.csv("<csv_output_path>")
```
阅读全文