JAVA SPARK2.0 初始化dataset<row>
时间: 2023-08-06 08:07:41 浏览: 179
Spark dataset introduction
若要初始化一个 `Dataset<Row>` 对象,可以使用 SparkSession 的 `createDataFrame()` 方法。
以下是一个示例代码:
```java
// 创建 SparkSession 对象
SparkSession spark = SparkSession.builder()
.appName("Java Spark SQL basic example")
.config("spark.some.config.option", "some-value")
.getOrCreate();
// 创建一个字符串数组
String[] data = {"hello", "world", "welcome", "to", "spark"};
// 将字符串数组转换为 JavaRDD<String> 对象
JavaRDD<String> rdd = spark.sparkContext().parallelize(Arrays.asList(data), 2).toJavaRDD();
// 将 JavaRDD<String> 转换为 Dataset<Row> 对象
Dataset<Row> ds = spark.createDataFrame(rdd.map(x -> RowFactory.create(x)), DataTypes.createStructType(new StructField[]{DataTypes.createStructField("value", DataTypes.StringType, true)}));
// 显示 Dataset<Row> 中的数据
ds.show();
```
上述代码中,首先创建了一个 `SparkSession` 对象。然后,将一个字符串数组转换为 `JavaRDD<String>` 对象,并使用 `createDataFrame()` 方法将其转换为 `Dataset<Row>` 对象。最后,使用 `show()` 方法显示 `Dataset<Row>` 中的数据。
阅读全文