首页pyspark怎么读取本地csv写入hive

pyspark怎么读取本地csv写入hive

时间: 2023-09-13 07:04:50 浏览: 230

首先，你需要安装 PySpark 和 Hive。然后，你可以使用 PySpark 的 DataFrame API 读取本地 CSV 文件并将其写入 Hive。下面是一个示例代码： ```python from pyspark.sql import SparkSession # 创建 SparkSession 对象 spark = SparkSession.builder.appName("csv_to_hive").enableHiveSupport().getOrCreate() # 读取本地 CSV 文件 df = spark.read.format("csv").option("header", "true").load("path/to/csv/file.csv") # 将 DataFrame 写入 Hive 表中 df.write.mode("overwrite").saveAsTable("database.table_name") ``` 其中，`path/to/csv/file.csv` 是本地 CSV 文件的路径，`database.table_name` 是 Hive 表的名称，`overwrite` 表示如果表已存在，则覆盖。需要注意的是，你需要在 Hive 中创建好表结构，例如： ```sql CREATE TABLE database.table_name ( column1 STRING, column2 INT, column3 DOUBLE ) ``` 并且，你需要确保 PySpark 和 Hive 都已经正确配置。

阅读全文