scala shell交互式编程环境读入Hadoop中的csv文件创建Dataframe对象
时间: 2024-03-11 19:46:51 浏览: 73
scala 编程
可以使用Scala的Spark SQL模块来读取Hadoop中的CSV文件并创建DataFrame对象。以下是一个示例代码:
```scala
import org.apache.spark.sql.{SparkSession, DataFrame}
val spark = SparkSession.builder()
.appName("CSV to DataFrame")
.getOrCreate()
val csvPath = "hdfs://path/to/your/csv/file.csv"
val df: DataFrame = spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(csvPath)
```
在这里,我们首先创建了一个SparkSession对象,然后指定了CSV文件的路径。接下来,我们使用SparkSession对象的read方法来读取CSV文件,并使用选项指定文件头和推断模式。最后,我们将读取的DataFrame对象分配给变量df中。
阅读全文