基于spark对心脏病进行分析和预测的代码
时间: 2024-01-24 19:02:06 浏览: 92
基于spark的心脏病信息大数据分析源代码+数据zip
以下是基于Spark对心脏病进行分析和预测的代码示例。这里我们使用的是Spark MLlib库。
```python
# 导入必要的库
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import BinaryClassificationEvaluator
# 读取心脏病数据集
heart_df = spark.read.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load("heart.csv")
# 数据清洗和预处理
heart_df = heart_df.dropna()
assembler = VectorAssembler(inputCols=heart_df.columns[:-1], outputCol="features")
heart_df = assembler.transform(heart_df)
# 划分训练集和测试集
(train_df, test_df) = heart_df.randomSplit([0.7, 0.3], seed=42)
# 训练随机森林分类器
rf = RandomForestClassifier(numTrees=10, maxDepth=5, labelCol="target")
model = rf.fit(train_df)
# 在测试集上进行预测
predictions = model.transform(test_df)
# 评估模型的性能
evaluator = BinaryClassificationEvaluator(labelCol="target")
auc = evaluator.evaluate(predictions)
print("AUC: %.2f%%" % (auc * 100))
```
这段代码首先读取了心脏病数据集,并进行了数据清洗和预处理。然后使用随机森林分类器对数据进行训练,并在测试集上进行了预测。最后使用二分类评估器对模型进行了性能评估,并输出了AUC指标。
需要注意的是,以上代码仅供参考,具体实现还需要根据实际情况进行调整和优化。
阅读全文