揭秘决策树核心：Gini指数的全解与实战应用技巧

发布时间: 2024-09-04 19:46:28 阅读量: 241 订阅数: 23

决策树实战1

决策树实战决策树是一种常用的机器学习算法，用于分类和回归任务。下面我们将通过一个简单的决策树代码，使用 scikit-learn 库中的 DecisionTreeClassifier，来了解决策树的工作原理。 01 What is Decision Tree 决策树是一种树结构，每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。决策树可以用于分类和回归任务，它们的优点是易于理解和解释，计算速度快，适合于处理高维数据。 02 Entropy 熵是信息论中的一个概念，代表随机变量不确定度的度量。熵越大，数据的不确定性越高。在决策树中，我们可以通过划分前后熵的变化来确定每个节点的特征和每个特征的值的选择。熵的公式为： H(Y) = - ∑ (p(y) \* log(p(y))) 其中，H(Y) 是熵，p(y) 是随机变量 Y 的概率分布。 03 Entropy Split Simulation 为了找到最大的信息熵差值，我们可以使用 ID3 算法，通过最大化节点划分前后熵的差值来确定每个节点的特征和每个特征的值的选择。 04 Gini Index 基尼系数是另一个评价决策树纯度的指标，它代表了模型的纯度，基尼系数越小，则纯度越高，特征越好。基尼系数的表达式为： Gini(Y) = 1 - ∑ (p(y) ^ 2) 其中，Gini(Y) 是基尼系数，p(y) 是随机变量 Y 的概率分布。 05 CART and Decision Tree Hyperparameters CART（Classification and Regression Trees）是决策树的一种实现，它使用基尼系数作为评价指标。DecisionTreeClassifier 是 scikit-learn 库中的一个类，它使用 CART 算法来构建决策树。DecisionTreeClassifier 有多个超参数，例如 max_depth、criterion、random_state 等，我们可以通过调整这些超参数来优化决策树的性能。在本节中，我们将使用 scikit-learn 库中的 moons 数据集，来演示决策树的作用。数据集分布如下：通过调整决策树的超参数，我们可以优化决策树的性能，提高分类准确率。决策树是一种常用的机器学习算法，用于分类和回归任务。通过熵和基尼系数，我们可以评价决策树的纯度和性能，并调整超参数来优化决策树的性能。

![揭秘决策树核心：Gini指数的全解与实战应用技巧](https://img-blog.csdnimg.cn/img_convert/4b60eec29fb4dcef4b79dc698ed8595f.png) # 1. 决策树的理论基础与Gini指数概念在机器学习领域，决策树是一种常用的分类和回归方法。它的模型结构清晰、易于理解，是许多复杂模型的基础。本章我们将重点介绍决策树的基本概念，并深入探讨Gini指数——一种衡量数据不纯度的常用指标。决策树是模拟人类决策过程的一种树形结构，通过一系列的决策规则将数据分割成不同类别。在构建决策树时，需要选择最佳的特征以及最佳的分割点，以达到提高分类准确性的目的。Gini指数，即基尼不纯度，是常用的一种评估不纯度的方法，它反映了从数据集中随机选取两个样本，其类别标签不一致的概率。Gini指数越小，数据集的纯度越高。我们将从理论角度探究Gini指数的定义及其在决策树中的重要性，并逐步深入到其在选择决策树节点时的作用。通过理解Gini指数，我们能够更好地掌握决策树的工作原理，为后续章节中对决策树的优化和实战应用打下坚实的基础。 # 2. 深入理解Gini指数的工作原理 ## 2.1 Gini指数的数学表达 ### 2.1.1 基本定义及其推导过程 Gini指数，又称基尼不纯度，是衡量数据集纯度的一个指标，用于决策树算法中作为评估一个属性划分数据集好坏的标准。基尼不纯度的值越小，表示数据集的纯度越高，反之亦然。基尼不纯度的数学表达式为： \[ Gini(p) = 1 - \sum_{i=1}^{J} p_i^2 \] 其中，\( p_i \) 是第i个类别在数据集中所占的比例，J表示类别的总数。若数据集被分成了两个子集S1和S2，那么总的基尼不纯度可以表示为： \[ Gini_{total} = \frac{|S1|}{|S|} \cdot Gini(S1) + \frac{|S2|}{|S|} \cdot Gini(S2) \] 这里，|S1|和|S2|分别表示子集S1和S2的样本数，|S|表示数据集S的样本总数。 ### 2.1.2 Gini指数与分类准确性的关系 Gini指数的值越接近0，说明数据集的纯度越高，分类准确性越好。这是因为Gini指数衡量的是从数据集中随机抽取两个样本，其类别标签不一致的概率。如果这个概率越小，意味着分类的一致性越高。在分类问题中，如果一个数据集完全被一个类别所占据，那么基尼不纯度为0。相反，如果类别标签完全均匀分布，则基尼不纯度达到最大值，这表明数据集的类别完全随机。 ## 2.2 Gini指数在决策树中的应用 ### 2.2.1 分类节点选择标准在决策树算法中，每一个非叶节点都对应于数据集的一个属性。Gini指数被用来评估哪一个属性作为节点划分数据集是最佳的。具体来说，对于给定的属性，我们会计算数据集基于这个属性划分为不同子集后的基尼不纯度。选择基尼不纯度下降最多（即纯度提升最多）的属性作为当前节点的划分标准。 ### 2.2.2 信息增益与Gini指数的比较除了Gini指数，信息增益也是一个常用的度量标准。信息增益基于熵的概念，衡量的是划分数据前后信息量的变化。Gini指数和信息增益的共同点在于，两者都是通过衡量数据纯度的变化来选择划分属性，但是它们的计算方法不同。在实践中，Gini指数通常计算更快，并且在许多情况下，Gini指数和信息增益会产生相似的决策树结构。但Gini指数由于其计算简便，在某些实现中更为常见。 ### 2.2.3 不纯度的度量对比不纯度的度量有很多，除了Gini指数和信息增益，还有其他的衡量方法，例如最小错误率、均方误差等。Gini指数在多类别分类问题中应用广泛，原因在于其简单性和高效的计算能力。不同度量方法的对比，可以在不同的问题和数据集上得出不同的结论。在选择不纯度度量方法时，需要考虑数据集的特性，以及计算资源和决策树构建的实际需求。在接下来的章节中，我们将通过实际的数据集和代码示例，深入分析Gini指数如何在构建决策树的过程中发挥关键作用，并展示如何在实际应用中优化决策树的构建。 # 3. Gini指数与决策树构建实战 ## 3.1 构建决策树前的准备 ### 3.1.1 数据集的选择与预处理在构建决策树之前，选择合适的数据集是非常关键的一步。数据集需要反映待解决问题的特征，同时要确保数据的质量。预处理步骤可能包括数据清洗、处理缺失值、异常值检测和修正、特征编码、数据标准化或归一化等。数据集的选择通常依赖于问题的性质。分类问题需要标签明确的数据集，回归问题则需要带有连续值的数据集。在数据量不是非常大的情况下，建议使用交叉验证方法来评估模型的泛化能力。在实际应用中，我们可以使用Python中的`pandas`和`numpy`库来对数据进行预处理： ```python import pandas as pd import numpy as np # 读取数据 data = pd.read_csv('data.csv') # 检查缺失值 print(data.isnull().sum()) # 处理缺失值，例如用平均值填充 data.fillna(data.mean(), inplace=True) # 将分类数据转换为数值数据 data = pd.get_dummies(data) # 数据标准化 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() data = scaler.fit_transform(data) ``` ### 3.1.2 特征选择的影响与技巧特征选择是决策树构建中的一个关键步骤，它直接影响到决策树的性能。选择好的特征能减少模型的复杂度，提升模型的准确性和泛化能力。特征选择的技巧包括： - **信息增益**：选择信息增益最大的特征。 - **卡方检验**：评估特征和标签之间的统计关联度。 - **相关系数**：选择与目标变量相关性最大的特征。 - **基于模型的特征选择**：使用模型（如随机森林）评估特征的重要性。 - **递归特征消除**：递归地选择重要特征并构建模型，去除重要性最小的特征。在Python中，我们可以使用`sklearn`库来进行特征选择： ```python from sklearn.feature_selection import SelectKBest, chi2 # 选择最佳的K个特征 select = SelectKBest(score_func=chi2, k='all') fit = select.fit(data, target) # 输出每个特征的卡方统计值 print(dict(zip(data.columns, select.scores_))) ``` ## 3.2 使用Gini指数构建决策树 ### 3.2.1 构建过程的详细步骤构建决策树通常涉及以下步骤： 1. **选择最佳特征**：基于某种准则（如Gini指数）选择最佳划分特征。 2. **划分数据集**：根据所选特征对数据集进行划分。 3. **创建节点**：创建一个决策节点，基于最佳特征的值将数据集划分。 4. **递归建立子树**：对于每一个划分后的子集，递归地重复上述过程，直至满足停止条件。 5. **结束递归**：达到某个停止条件（如节点内纯度足够高或节点内样本数量少于某个阈值）。 ### 3.2.2 算法实现与代码示例在Python中，我们可以使用`sklearn`库中的`DecisionTreeClassifier`来实现基于Gini指数的决策树： ```python from sklearn.tree import DecisionTreeClassifier # 实例化决策树分类器 clf = DecisionTreeClassifier(criterion='gini') # 训练模型 clf.fit(data_train, target_train) # 打印决策树的结构 from sklearn.tree import export_text tree_rules = export_text(clf, feature_names=list(data.columns)) print(tree_rules) ``` ### 3.2.3 分枝停止的条件与优化决策树的停止条件可以是： - **最大深度**：决策树的最大深度。 - **最小样本数**：每个节点所要求的最小样本数。 - **最小样本分割数**：进行节点分割所需的最小样本数。 - **最大叶子节点数**：决策树的最大叶子节点数。优化决策树的一个常见方法是使用剪枝。剪枝可以防止过拟合，提升模型在未见数据上的性能。剪枝技术有预剪枝和后剪枝两种。 ## 3.3 分枝停止的条件与优化 ### 3.3.1 分枝停止条件分枝停止的条件是构建决策树时防止过拟合的关键因素。这些条件限制了树的生长，使得模型更加简洁，并能更好地泛化到新的数据上。常见的停止条件有： - **最大深度（max_depth）**：当树达到预设的最大深度时停止生长。 - **最小样本数（min_samples_split/min_samples_leaf）**：如果一个节点不能分割成至少包含最小样本数的子节点，则停止生长。 - **最大叶子节点数（max_leaf_nodes）**：当树达到预设的最大叶子节点数时停止生长。使用这些参数可以控制模型的复杂度和避免过拟合。下面是如何在`sklearn`中设置这些参数的示例： ```python clf = DecisionTreeClassifier( max_depth=5, min_samples_split=2, min_samples_leaf=1, max_leaf_nodes=10, criterion='gini' ) ``` ### 3.3.2 模型优化通过调整停止条件参数对模型进行优化是提高性能的一个重要步骤。优化模型通常包括以下步骤： - **交叉验证**：使用交叉验证方法来评估不同参数组合下的模型性能。 - **网格搜索**：遍历参数空间，找到性能最优的模型配置。 - **随机搜索**：在参数空间内随机选择参数组合，并评估性能。 - **集成方法**：结合多个模型来提高预测性能。 `sklearn`提供了`GridSearchCV`和`RandomizedSearchCV`来自动化这些过程： ```python from sklearn.model_selection import GridSearchCV # 设置参数空间 param_grid = { 'max_depth': [3, 5, 10], 'min_samples_split': [2, 5, 10], 'min_samples_leaf': [1, 2, 4], 'max_leaf_nodes': [None, 10, 20] } # 实例化GridSearchCV grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5) grid_search.fit(data_train, target_train) # 输出最佳参数 print(grid_search.best_params_) ``` ### 3.3.3 代码解释与参数说明在上述代码中，我们使用`GridSearchCV`来寻找最佳的决策树参数配置。`param_grid`定义了我们希望优化的参数及其可能的值。`cv`参数指定了交叉验证的折数，这里设置为5，意味着数据集将被随机分成5部分，模型将在5个子集上训练，并在1个子集上进行验证。 `grid_search.best_params_`输出的是参数空间中，交叉验证得到的最佳结果。这个输出帮助我们了解在交叉验证中获得最佳性能时的参数配置。 # 4. 决策树剪枝技术与Gini指数在机器学习中，剪枝是一种常用的泛化策略，用以防止决策树模型过拟合，提高模型的泛化能力。决策树的剪枝技术通过简化决策树来增强模型的准确性。在本章节中，我们将详细介绍剪枝的目的和方法，并深入探讨如何运用Gini指数在剪枝过程中进行决策。此外，通过实际案例分析，我们将理解剪枝技术如何在实际应用中提升决策树模型的性能。 ## 4.1 剪枝的目的和方法剪枝技术的引入主要是为了解决决策树可能面临的过拟合问题。过拟合是指模型在训练数据上表现良好，但在未见过的数据上表现不佳的现象。这种情况下，模型学习了训练数据中的噪声和异常值，而没有抓住数据的真正分布规律。因此，剪枝技术通过减少树的复杂度，增强模型对未知数据的泛化能力。 ### 4.1.1 过拟合与剪枝的关系在构建决策树模型时，如果不进行任何剪枝操作，模型会不断地分裂直到每个叶节点都只包含一个样本或者分裂不再增加信息增益。这时，决策树会变得非常复杂，每个叶节点的样本数非常少，导致模型对训练数据的细节过于敏感，学习了数据中的噪声。通过剪枝，我们可以在保持模型预测精度的前提下，减少树的大小和复杂度。剪枝后的树将具有更少的节点和分裂，这有助于改善模型在未知数据上的表现。 ### 4.1.2 剪枝策略：预剪枝与后剪枝剪枝策略分为预剪枝和后剪枝两种。预剪枝是在构建决策树的过程中实施的，通过限制树的深度、节点中最小样本数等参数来提前停止树的生长。后剪枝则是在完整的决策树构建完成后，再回过头来剪掉一些分支。预剪枝的优点是减少了模型构建的计算成本，因为它减少了树的深度和宽度。但是，预剪枝的一个缺点是它可能过于简化模型，有时会剪掉本应继续分裂的重要分支。后剪枝更加灵活，因为它利用了完整的树结构，但其缺点是计算成本较高，因为它需要评估完整的树结构。 ## 4.2 Gini指数在剪枝中的应用 Gini指数是评估节点纯度的一个重要指标。在剪枝过程中，Gini指数能够帮助我们识别哪些节点可能需要被剪枝，以及在后剪枝策略中，确定哪些节点可以被合并。 ### 4.2.1 基于Gini指数的剪枝策略在后剪枝策略中，我们可以定义一个成本复杂度参数，表示为α。成本复杂度参数平衡了树的复杂度和预测准确性之间的关系。具体来说，对于一个叶节点，其成本复杂度定义为该叶节点的纯度与成本复杂度参数α的乘积。对于整棵树，其成本复杂度是所有叶节点成本复杂度之和。剪枝过程分为两个步骤：首先，从叶节点开始，尝试合并那些能够减少整体成本复杂度的节点对。其次，对于所有可能的剪枝结果，选择成本复杂度最小的树作为最终模型。 ### 4.2.2 实际案例分析为了更好地理解Gini指数在决策树剪枝中的应用，我们来看一个实际案例。假设我们有如下的决策树模型，其中包含多个节点和分裂条件。为了进行剪枝，我们首先需要计算每个节点的Gini指数，然后根据这些指数进行成本复杂度的计算。 ```mermaid graph TD; A((根节点)) --> B((节点1)) B --> C((节点2)) B --> D((节点3)) C --> E((叶节点4)) C --> F((叶节点5)) D --> G((叶节点6)) D --> H((叶节点7)) ``` 通过计算得到每个叶节点的成本复杂度，并结合树的整体成本复杂度，我们可以确定哪些分支应该被剪掉。在选择剪枝结果时，我们需要寻找一个平衡点，即在损失最少准确性的同时简化模型结构。例如，假设我们发现剪掉节点3将大幅减少成本复杂度，那么我们可以考虑进行剪枝。在剪掉节点3后，需要重新计算新树的成本复杂度，并与剪枝前的树进行比较，确保新树在成本复杂度上优于原树。通过这种方式，我们可以利用Gini指数和成本复杂度计算来指导决策树的剪枝过程，从而得到一个既简洁又准确的模型。 ### 代码实现下面是使用Python中`scikit-learn`库实现基于Gini指数的决策树剪枝的代码示例： ```python from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据集并划分训练集和测试集 iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42) # 创建决策树分类器实例，并设置剪枝参数 clf = DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, max_features=None, random_state=42, max_samples=None) # 训练模型 clf.fit(X_train, y_train) # 评估模型准确性 predictions = clf.predict(X_test) print('未剪枝决策树的准确性:', accuracy_score(y_test, predictions)) # 应用后剪枝技术 clf = DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_leaf_nodes=5, min_impurity_decrease=0.0, min_impurity_split=None, max_features=None, random_state=42, max_samples=None) # 训练模型 clf.fit(X_train, y_train) # 评估模型准确性 predictions = clf.predict(X_test) print('剪枝后的决策树的准确性:', accuracy_score(y_test, predictions)) ``` ### 参数说明和逻辑分析在这个代码示例中，我们首先加载了Iris数据集，并划分了训练集和测试集。然后创建了`DecisionTreeClassifier`的实例，并设置了Gini指数作为分裂标准。我们没有设置最大深度，允许树自由生长。接着，我们训练了未剪枝的决策树模型，并对其在测试集上的准确性进行了评估。在应用后剪枝技术时，我们设置了`max_leaf_nodes`参数为5，这限制了树的最大叶节点数。这种设置有助于减小树的复杂度，并可能提高模型在测试集上的性能。通过对比未剪枝和剪枝后的模型准确率，我们可以观察到剪枝是否对模型泛化能力产生了积极影响。通过这个案例和代码示例，我们已经了解了如何通过Gini指数和剪枝策略来提高决策树模型的泛化能力，并且理解了剪枝在实际问题中的应用。在下一章节中，我们将探讨决策树在处理非平衡数据集和多输出问题中的高级应用，以及如何结合其他算法改进决策树模型的性能。 # 5. 决策树与Gini指数的高级应用 ## 5.1 非平衡数据集的处理在现实世界的数据集中，往往存在一种情况，即各类别的数据量分布不均，这种情况被称为非平衡数据集。非平衡数据集对决策树模型的构建带来了挑战，因为在这种数据集上构建的模型往往会偏向于多数类，导致少数类的预测性能较差。 ### 5.1.1 类权重调整一个常见的处理非平衡数据集的方法是通过调整类别权重。在构建决策树时，为少数类别赋予更高的权重，从而使得模型在划分节点时更倾向于考虑少数类。在Scikit-learn等机器学习库中，可以通过设置`class_weight`参数为'balanced'或直接指定类别的权重值来实现这一点。 ```python from sklearn.tree import DecisionTreeClassifier # 假设数据集中类别0和类别1的数量严重不平衡 # 在决策树模型中使用类权重调整 clf = DecisionTreeClassifier(class_weight='balanced') clf.fit(X_train, y_train) ``` ### 5.1.2 采样技术在决策树中的应用采样技术是处理非平衡数据集的另一种方法。通过对数据集进行重采样，可以增加少数类的数量或者减少多数类的数量。重采样分为过采样少数类和欠采样多数类两种策略。 ```python from imblearn.over_sampling import SMOTE # 使用SMOTE算法进行过采样少数类 smote = SMOTE() X_resampled, y_resampled = smote.fit_resample(X_train, y_train) ``` ## 5.2 多输出决策树与Gini指数多输出问题，即一个输入可以对应多个输出标签的情况。在构建决策树时，如何利用Gini指数来处理这种复杂问题是一项挑战。 ### 5.2.1 多输出问题的定义在多输出问题中，我们需要构建的决策树模型能够对多个输出标签进行有效预测。这意味着决策树的每个叶节点都将输出一个标签组合，而非单一的标签值。 ### 5.2.2 使用Gini指数处理多输出问题 Gini指数可以扩展到多输出问题。在多输出问题中，Gini指数需要对每个输出标签计算其不纯度，并对所有标签的不纯度进行加权求和。 ```python # 假设已知多输出问题中的输出标签集合 output_labels = ['label1', 'label2', 'label3'] # 在构建决策树时，需要对每个输出标签分别计算Gini指数 # 最后对所有标签的Gini指数求加权和作为决策树划分的标准 ``` ## 5.3 结合其他算法的决策树改进决策树本身可能受到限制，特别是当数据具有复杂的模式和关系时。结合其他算法的改进可以提升决策树的性能。 ### 5.3.1 集成学习与决策树的结合集成学习是一种通过构建并结合多个学习器来完成学习任务的方法。它通常能显著提高模型的泛化能力。随机森林是一个结合了决策树与集成学习的典型例子，它通过构建多个决策树并将它们的预测结果进行投票或平均来提高预测准确性。 ```python from sklearn.ensemble import RandomForestClassifier # 使用随机森林作为决策树的集成学习改进 rf_clf = RandomForestClassifier(n_estimators=100) rf_clf.fit(X_train, y_train) ``` ### 5.3.2 模型调优与性能评估技巧模型调优是任何机器学习工作流程中的关键步骤。决策树模型可以通过调整诸如`max_depth`、`min_samples_split`和`min_samples_leaf`等参数来进行优化。性能评估则需要使用诸如交叉验证和混淆矩阵等工具来完成。 ```python from sklearn.model_selection import GridSearchCV from sklearn.metrics import confusion_matrix # 使用GridSearchCV进行模型参数调优 param_grid = {'max_depth': [3, 5, 10], 'min_samples_split': [2, 3]} grid_search = GridSearchCV(estimator=clf, param_grid=param_grid) grid_search.fit(X_train, y_train) # 使用混淆矩阵评估模型性能 y_pred = grid_search.predict(X_test) matrix = confusion_matrix(y_test, y_pred) ``` 在这些高级应用中，Gini指数通常作为决策树的关键组件，与不同的技术结合，提供了解决复杂问题的方案。在应用中，根据数据集的特性和业务需求，选择合适的改进策略和技术，可以帮助我们构建出更加健壮和准确的决策树模型。

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

揭秘决策树核心：Gini指数的全解与实战应用技巧

相关推荐

专栏目录

专栏目录

揭秘决策树核心：Gini指数的全解与实战应用技巧

相关推荐

决策树与集成算法讲解.pdf

1专题 精通决策树与随机森林算法通过matlab建模案例.zip

CART决策树：Gini度量与问题建模应用

CART决策树：Gini与Twoing方法的对比与应用

CART决策树：Gini与Entropy混杂度比较及其应用

【决策树优化秘籍】：Gini指数应用详解与案例分析

【自然语言处理的决策树】：文本分类案例与实战技巧

揭秘决策树构造：从工作原理到性能优化的全面解析

【分裂策略比较】：比较决策树分裂策略：gini系数 vs 信息增益

专栏目录

最新推荐

PLC系统故障预防攻略：预测性维护减少停机时间的策略

【大规模部署的智能语音挑战】：V2.X SDM在大规模部署中的经验与对策

多模手机伴侣高级功能揭秘：用户手册中的隐藏技巧

【音频同步与编辑】：为延时作品添加完美音乐与声效的终极技巧

飞腾X100+D2000启动阶段电源管理：平衡节能与性能

【脚本与宏命令增强术】：用脚本和宏命令提升PLC与打印机交互功能（交互功能强化手册）

【软件使用说明书的可读性提升】：易理解性测试与改进的全面指南

【实战技巧揭秘】：WIN10LTSC2021输入法BUG引发的CPU占用过高问题解决全记录

【提升R-Studio恢复效率】：RAID 5数据恢复的高级技巧与成功率

数据挖掘在医疗健康的应用：疾病预测与治疗效果分析（如何通过数据挖掘改善医疗决策）

专栏目录

1专题精通决策树与随机森林算法通过matlab建模案例.zip