首页python中决策树DecisionTreeClassifier的min_samples_split取值

python中决策树DecisionTreeClassifier的min_samples_split取值

时间: 2024-04-07 16:19:36 浏览: 147

用Python实现决策树分类算法

5星 · 资源好评率100%

1. 使用Python实现基本的决策树算法； 2. 主要使用pandas的DataFrame实现； 3. 为防止过度拟合，在小于20个记录时，直接选取记录中最多类别； 3. 没有画决策树图

min_samples_split是指一个节点在分裂之前必须具有的最小样本数。这个参数的取值对决策树的构建有一定的影响。当min_samples_split取值较小时，决策树会尽可能地分裂每个节点，这可能会导致过拟合。当min_samples_split取值较大时，决策树会更倾向于选择更一般的分裂点，这可能会导致欠拟合。一般情况下，我们可以通过交叉验证的方式来选择一个合适的min_samples_split的取值。一般的经验是：当样本量较大时，可以考虑选择一个较大的min_samples_split，例如100；而当样本量较小时，可以选择一个较小的min_samples_split，例如5。

阅读全文