SparkMLlib决策树详解：信息增益与回归无序度

21 浏览量更新于2024-08-28 收藏 137KB PDF 举报

Spark MLlib 的 DecisionTree 源码分析主要探讨了在 Spark MLlib 库中实现的决策树算法，这是一个常用且直观的机器学习模型。决策树算法基于贪心策略，其核心在于不断通过划分数据集来减少节点的无序性（node impurity），从而提高预测的准确性。在分类问题中，无序程度通常使用熵（Entropy）或基尼系数（Gini Index）来衡量。熵越高，表示信息越不确定，分类越困难；而基尼系数则是度量分类纯度的一种指标，它在二分类问题中表现良好，值越低代表纯度越高。对于回归问题，如 Spark MLlib 中所示，无序性则通过方差（Variance）来衡量，方差越大意味着数据点间的差异越大，预测精度受数据波动影响越大。信息增益（Information Gain）是决策树构建过程中评估划分效果的关键指标，它计算的是通过某个特征划分后，子节点的 impurity 减少程度，从而确定最佳的分割点。在 Spark MLlib 的 `DecisionTree.trainRegressor` 方法中，参数如 `impurity`（这里设置为 "variance"），`maxDepth`（最大深度），以及 `maxBins`（每个节点的最大子节点数量）都是用来控制决策树复杂度和性能的。给出的一个示例展示了如何使用 `MLUtils` 加载 LibSVM 文件，对数据进行预处理和缓存，然后训练一个决策树回归模型。模型训练时，需要指定哪些特征是连续型（通过 `categoricalFeaturesInfo`），选择 impurity 的度量方式，以及设置模型的深度和子节点数量。训练完成后，可以使用模型对训练数据进行预测，并计算训练误差。 Spark MLlib 的 DecisionTree 源码提供了一种基础但强大的机器学习工具，通过理解其工作原理和关键参数，开发者能够有效地构建和优化决策树模型以适应不同场景的需求。

SparkMLlib-DecisionTree源码分析源码分析

以决策树作为开始，因为简单，而且也比较容易用到，当前的boosting或random forest也是常以其为基础的

决策树算法本身参考之前的blog，其实就是贪婪算法，每次切分使得数据变得最为有序

那么如何来定义有序或无序？

无序，node impurity

对于分类问题，我们可以用熵entropy或Gini来表示信息的无序程度

对于回归问题，我们用方差Variance来表示无序程度，方差越大，说明数据间差异越大

information gain

用于表示，由父节点划分后得到子节点，所带来的impurity的下降，即有序性的增益

MLib决策树的例子

下面直接看个regression的例子，分类的case，差不多，

import org.apache.spark.mllib.tree.DecisionTree

import org.apache.spark.mllib.util.MLUtils

// Load and parse the data file.

// Cache the data since we will use it again to compute training error.

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt").cache()

// Train a DecisionTree model.

// Empty categoricalFeaturesInfo indicates all features are continuous.

val categoricalFeaturesInfo = Map[Int, Int]()

val impurity = "variance"

val maxDepth = 5

val maxBins = 100

val model = DecisionTree.trainRegressor(data, categoricalFeaturesInfo, impurity,

maxDepth, maxBins)

// Evaluate model on training instances and compute training error

val labelsAndPredictions = data.map { point =>

val prediction = model.predict(point.features)

(point.label, prediction)

}

val trainMSE = labelsAndPredictions.map{ case(v, p) => math.pow((v - p), 2)}.mean()

println("Training Mean Squared Error = " + trainMSE)

println("Learned regression tree model:" + model)

还是比较简单的，由于是回归，所以impurity的定义为variance

maxDepth，最大树深，设为5

maxBins，最大的划分数

先理解什么是bin，决策树的算法就是对feature的取值不断的进行划分

对于离散的feature，比较简单，如果有m个值，最多个划分，如果值是有序的，那么就最多m-1个划分

比如年龄feature，有老，中，少3个值，如果无序有个，即3种划分，老|中，少；老，中|少；老，少|中

但如果是有序的，即按老，中，少的序，那么只有m-1个，即2种划分，老|中，少；老，中|少

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38697979

粉丝: 6
资源: 947

SparkMLlib决策树详解：信息增益与回归无序度

Spark_mllib_DecisionTree.py

sparkmllib机器学习源码

spark-mllib-examples

learning-decisiontree

jupyterlab-decisiontree

Algorithm-DecisionTree.zip

MLlib--Spark提供的可扩展的机器学习库.zip

随机森林sklearn-DecisionTree.zip

Loan_Data-DecisionTree_RandomForest-Project

ID3-DecisionTree:实现ID3决策树的Java代码

最新资源