对于pyspark LinearRegressionWithSGD训练的模型,如何进行预测
时间: 2023-07-12 14:03:58 浏览: 109
对于通过Pyspark中的`LinearRegressionWithSGD`训练的线性回归模型,可以使用`predict()`方法进行预测。具体步骤如下:
1. 加载需要预测的数据集并进行数据预处理,确保数据格式与训练数据集一致。
2. 使用`LinearRegressionModel.load()`方法加载已经训练好的模型。
3. 对于每个待预测的数据样本,使用`predict()`方法进行预测,得到相应的预测结果。
下面是一个示例代码:
```python
from pyspark.ml.regression import LinearRegressionModel
from pyspark.sql.functions import col
# 加载需要预测的数据集并进行预处理
data = spark.read.format("libsvm").load("sample_linear_regression_data.txt")
data = data.select(col("features"))
# 加载已经训练好的模型
model = LinearRegressionModel.load("linear_regression_model")
# 对于每个待预测的数据样本,进行预测
predictions = model.transform(data)
predictions.show()
```
在上述代码中,我们首先使用`spark.read.format()`方法加载需要预测的数据集,并使用`select()`方法仅保留特征列。然后,我们使用`LinearRegressionModel.load()`方法加载已经训练好的模型。最后,使用`transform()`方法对数据集进行预测,得到预测结果。
阅读全文