val df: DataFrame = spark.createDataFrame(spark.sparkContext.parallelize(rows), schema)是什么错误

这个错误看起来像是一个编译时错误。在这行代码中，如果 `rows` 是一个 Seq 对象，那么这个错误可能是由于 `schema` 的类型不正确而导致的。 `createDataFrame` 的第一个参数需要是一个 `RDD`，而不是一个 `Seq`。因此，你需要将 `rows` 转换成一个 `RDD`，例如： ``` val rdd = spark.sparkContext.parallelize(rows) val df = spark.createDataFrame(rdd, schema) ``` 请注意，`createDataFrame` 方法的第二个参数需要是一个 `StructType` 对象，用于指定数据框的列名和数据类型。如果 `schema` 不是一个正确的 `StructType` 对象，也会导致类似的编译时错误。

解释这段代码 def dropNullAndDropDuplicates(spark: SparkSession, df: DataFrame, schema: StructType, dropKeys: Seq[String], duplicateKeys: Array[String]): (LongAccumulator, LongAccumulator, LongAccumulator, DataFrame) = { val schemaFieldNames: Array[String] = schema.fieldNames if (dropKeys.exists(!schemaFieldNames.contains(_)) || duplicateKeys.exists(!schemaFieldNames.contains(_))) { return (null, null, null, null) } val lineCount: LongAccumulator = spark.sparkContext.longAccumulator("lineCount") val trash: LongAccumulator = spark.sparkContext.longAccumulator("trash") val duplicate: LongAccumulator = spark.sparkContext.longAccumulator("duplicate") val df1: DataFrame = df.select( df.columns.map(name => col(name).as(name.trim.toLowerCase)): _* ) val df1FieldNames: Array[String] = df1.schema.fieldNames val df2: DataFrame = { var tmp: DataFrame = df1 schema.fieldNames.filterNot(df1FieldNames.contains).foreach( fieldName => tmp = tmp.withColumn(fieldName, lit(literal = null)) ) tmp.select( schema.fields .map(structField => tmp.col(structField.name).cast(structField.dataType)): _* ) }.withColumn(colName = "index", monotonically_increasing_id()) val df3: DataFrame = df2.filter(row => { lineCount.add(1) if (dropKeys.exists(key => row.get(row.fieldIndex(key)) == null)) { trash.add(1) false } else { true } }) val df4: DataFrame = df3.groupByKey(row => duplicateKeys.map(key => row.get(row.fieldIndex(key)).toString).mkString("-") )(Encoders.STRING).reduceGroups((row1, row2) => { duplicate.add(1) val defect1 = row1.toSeq.count(_ == null) val defect2 = row2.toSeq.count(_ == null) if (defect1 < defect2) row1 else if (defect1 > defect2) row2 else if (row1.getLong(row1.fieldIndex(name = "index")) > row2.getLong(row1.fieldIndex(name = "index"))) row1 else row2 }).map(_._2)(RowEncoder(df3.schema)) .toDF .drop("index") (lineCount, trash, duplicate, df4) }

这段代码是一个函数，用于去除 DataFrame 中的空值和重复值。函数接受 SparkSession、DataFrame、StructType、Seq[String] 和 Array[String] 五个参数，返回一个元组，包含三个 LongAccumulator 和一个 DataFrame。具体实现过程为：先判断传入的 dropKeys 和 duplicateKeys 是否在 StructType 中存在，如果不存在则返回 null；然后将 DataFrame 中的列名转换为小写并去除空格，再根据 StructType 中的字段补充缺失的列并转换数据类型，最后根据传入的 dropKeys 去除空值行，根据传入的 duplicateKeys 去除重复行，并记录行数、空值行数和重复行数。

完善如下代码:import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame,SparkSession} object First_Question { case class Student(name:String,age:String,sex:String) def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("First_Question") .master("local[*]") .getOrCreate() val rdd: RDD[String] = spark.sparkContext.parallelize(List("张三,20,男", "李四,22,男", "李婷,23,女","赵六,21,男")) val temp: RDD[Student] = rdd.map(s => { val split_rdd: Array[String] = s.split(",") Student(split_rdd(0), split_rdd(1), split_rdd(2)) }) import spark.implicits._ // DataFrame 源数据 val dataFrame: DataFrame = temp.toDF() spark.stop() } }

import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} object First_Question { case class Student(name: String, age: Int, sex: String) def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("First_Question") .master("local[*]") .getOrCreate() val rdd: RDD[String] = spark.sparkContext.parallelize(List("张三,20,男", "李四,22,男", "李婷,23,女", "赵六,21,男")) val temp: RDD[Student] = rdd.map(s => { val split_rdd: Array[String] = s.split(",") Student(split_rdd(0), split_rdd(1).toInt, split_rdd(2)) }) import spark.implicits._ // DataFrame 源数据 val dataFrame: DataFrame = temp.toDF() spark.stop() } }

阅读全文

val df: DataFrame = spark.createDataFrame(spark.sparkContext.parallelize(rows), schema)是什么错误

相关推荐

Spark 2.11 DataFrame创建全解析：多种方式与源码洞察

GeoMesa Spark: 在Apache Spark上利用Geomesa进行地理空间操作

Spark入门：创建SparkContext与WordCount实战

val filteredDF: DataFrame = df.filter(substr(df("name"),1,2) = "Ch")

val sc: SparkContext = spark.sparkContext

val movieDF=spark.createDataFrame(rowRDD,schema)的作用

val sc: SparkContext = session.sparkContext

error: type mismatch; found : org.apache.spark.rdd.RDD[org.apache.spark.mllib.regression.LabeledPoint] required: org.apache.spark.sql.Dataset[_] val lrModel = lr.fit(train)

理解选择结构：If...Then...Else条件语句

Spark SQL源码解析：Catalyst与DataFrame核心机制

大家在看

先栅极还是后栅极 业界争论高K技术

应用手册 - SoftMove.pdf

LQR与PD控制在柔性机械臂中的对比研究

丹麦电力电价预测 预测未来24小时的电价 pytorch + lstm + 历史特征和价格 + 时间序列

测量变频损耗L的方框图如图-所示。-微波电路实验讲义

最新推荐

解决keras,val_categorical_accuracy:,0.0000e+00问题

VB图像处理工具设计(论文+源代码)(2024uq).7z

S7-PDIAG工具使用教程及技术资料下载指南

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

python 画一个进度条

Nginx 1.19.0版本Windows服务器部署指南

"互动学习：行动中的多样性与论文攻读经历"

CC-LINK远程IO模块在环境监控中的应用：技术与案例探讨

Linux C开发中，如何判断open()函数创建的fd没有被close()

先栅极还是后栅极业界争论高K技术

丹麦电力电价预测预测未来24小时的电价 pytorch + lstm + 历史特征和价格 + 时间序列