scala指定列均值填充缺失值
时间: 2023-03-31 18:00:54 浏览: 161
sfseize:Scala中的空间填充曲线
可以使用 Spark 的 DataFrame API 中的 fill() 方法来指定列均值填充缺失值。具体实现可以参考以下代码:
val df = Seq(
(1, 2.),
(2, 3.),
(3, Double.NaN),
(4, 5.),
(5, Double.NaN)
).toDF("id", "value")
val mean = df.select(avg("value")).collect()()().asInstanceOf[Double]
val filledDf = df.na.fill(mean, Seq("value"))
其中,avg() 方法用于计算指定列的均值,collect() 方法用于将结果以数组的形式返回,asInstanceOf() 方法用于将结果转换为 Double 类型。fillna() 方法用于填充缺失值,第一个参数为填充值,第二个参数为需要填充的列名。
阅读全文