基于spark的波士顿房价预测中,构建决策树模型并进行可视化的代码

时间: 2024-03-03 17:48:33 浏览: 28
好的,以下是基于Spark的波士顿房价预测中,构建决策树模型并进行可视化的代码: ```python from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler from pyspark.ml.regression import DecisionTreeRegressor from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.feature import PCA from pyspark.ml.feature import StringIndexer from pyspark.ml.feature import IndexToString from pyspark.ml.feature import OneHotEncoder from pyspark.ml.tuning import ParamGridBuilder, CrossValidator from pyspark.ml.evaluation import RegressionEvaluator from pyspark.ml.tree import DecisionTreeModel, DecisionTreeRegressionModel from pyspark.mllib.evaluation import RegressionMetrics from pyspark.ml.evaluation import MulticlassClassificationEvaluator import numpy as np import matplotlib.pyplot as plt # 读取数据 data = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("boston.csv") # 数据预处理 categoricalCols = [] numericCols = data.columns numericCols.remove('medv') for categoricalCol in categoricalCols: stringIndexer = StringIndexer(inputCol=categoricalCol, outputCol=categoricalCol+"Index") encoder = OneHotEncoder(inputCols=[stringIndexer.getOutputCol()], outputCols=[categoricalCol+"classVec"]) stages += [stringIndexer, encoder] label_stringIdx = StringIndexer(inputCol="medv", outputCol="label") stages += [label_stringIdx] assemblerInputs = numericCols assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features") stages += [assembler] # 划分训练集和测试集 (trainingData, testData) = data.randomSplit([0.7, 0.3], seed=100) # 构建决策树模型 dt = DecisionTreeRegressor(labelCol="label", featuresCol="features") # 设置参数网格 paramGrid = (ParamGridBuilder() .addGrid(dt.maxDepth, [2, 4, 6, 8]) .addGrid(dt.minInstancesPerNode, [1, 2, 3]) .build()) # 交叉验证 cv = CrossValidator(estimator=dt, estimatorParamMaps=paramGrid, evaluator=RegressionEvaluator(), numFolds=5) # 构建Pipeline pipeline = Pipeline(stages=stages) # 训练模型 model = pipeline.fit(trainingData) # 对测试集进行预测 predictions = model.transform(testData) # 评估模型 evaluator = RegressionEvaluator(labelCol="label", predictionCol="prediction", metricName="rmse") rmse = evaluator.evaluate(predictions) print("Root Mean Squared Error (RMSE) on test data = %g" % rmse) # 可视化决策树 treeModel = model.stages[-1] treeModel.write().overwrite().save("dt_model") sameModel = DecisionTreeModel.load("dt_model") print(sameModel.toDebugString) # 绘制预测结果和实际结果的散点图 plt.scatter(np.array(predictions.select('prediction').collect()), np.array(predictions.select('medv').collect())) plt.xlabel('Predictions') plt.ylabel('Actual') plt.show() ``` 以上代码中,我们首先读取数据,并对数据进行预处理,然后划分训练集和测试集。接着,我们构建决策树模型,并设置参数网格进行交叉验证。通过Pipeline将数据预处理和模型构建整合在一起,然后训练模型并对测试集进行预测。最后,我们使用RegressionEvaluator评估模型的性能,并将决策树模型进行可视化,同时绘制预测结果和实际结果的散点图。

相关推荐

最新推荐

recommend-type

Spark随机森林实现票房预测

主要为大家详细介绍了Spark随机森林实现票房预测,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
recommend-type

大数据技术实践——Spark词频统计

本次作业要完成在Hadoop平台搭建完成的基础上,利用Spark组件完成文本词频统计的任务,目标是学习Scala语言,理解Spark编程思想,基于Spark 思想,使用IDEA编写SparkWordCount程序,并能够在spark-shell中执行代码和...
recommend-type

网络编程网络编程网络编程

网络编程网络编程网络编程网络编程
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

用 Python 画一个可以动的爱心

好的,我可以帮助您使用Python来绘制一个动态的爱心。您可以使用turtle库来实现。以下是实现代码: ```python import turtle import math # 设置画布和画笔 canvas = turtle.Screen() canvas.bgcolor("black") pencil = turtle.Turtle() pencil.speed(0) pencil.color("red", "pink") pencil.pensize(3) # 定义爱心函数 def draw_love(heart_size, x_offset=0, y_offset=0):
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

实现实时监控告警系统:Kafka与Grafana整合

![实现实时监控告警系统:Kafka与Grafana整合](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BVldpY3ladXVDbEZpY1pLWmw2bUVaWXFUcEdLT1VDdkxRSmQxZXB5R1lxaWNlUjA2c0hFek5Qc3FyRktudFF1VDMxQVl3QTRXV2lhSWFRMEFRc0I1cW1ZOGcvNjQw?x-oss-process=image/format,png) # 1.1 Kafka集群架构 Kafka集群由多个称为代理的服务器组成,这