spark机器学习代码
时间: 2023-10-27 20:17:21 浏览: 112
基于Spark的机器学习-智能客户系统项目实战
5星 · 资源好评率100%
以下是使用Spark进行机器学习的示例代码:
1. 加载数据
```scala
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName("MLExample").getOrCreate()
val data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")
```
2. 划分数据集为训练集和测试集
```scala
val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3))
```
3. 训练一个分类模型
```scala
import org.apache.spark.ml.classification.LogisticRegression
val lr = new LogisticRegression().setMaxIter(10).setRegParam(0.3).setElasticNetParam(0.8)
val model = lr.fit(trainingData)
```
4. 对测试集进行预测并计算评估指标
```scala
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
val predictions = model.transform(testData)
val evaluator = new BinaryClassificationEvaluator().setLabelCol("label").setRawPredictionCol("rawPrediction").setMetricName("areaUnderROC")
val accuracy = evaluator.evaluate(predictions)
println(s"Accuracy = $accuracy")
```
5. 训练一个聚类模型
```scala
import org.apache.spark.ml.clustering.KMeans
val kmeans = new KMeans().setK(2).setSeed(1L)
val model = kmeans.fit(data)
```
6. 对新数据进行预测
```scala
val newdata = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data_new.txt")
val predictions = model.transform(newdata)
```
以上是一些基本的Spark机器学习示例代码,具体的使用方法和参数设置可以根据不同的算法和数据集进行调整。
阅读全文