中山大学数据与计算机科学学院：随机森林算法深度解析

需积分: 0 177 浏览量更新于2024-08-05 收藏 1.01MB PDF 举报

在中山大学数据与计算机科学学院的18308045号学生谷正阳的中期项目报告中，主要探讨了随机森林（RandomForest）算法中的重要性函数和特征选择策略。报告于2021年6月13日提交，分为四个主要部分。 **1. 重要性函数** - **定义与目标**：重要性函数用于评估数据集划分的质量，核心思想是如果一个分割后的子集被某个标签主导，那么该分割被认为是有效的。这个函数的关键在于判断标签在子集中的主导程度。 - **具体方法**： - **纯度函数**：针对二元分类，通过输入子集中单一标签的概率，计算返回值。如果概率接近0或1，表示该标签几乎完全占据子集，纯度函数值高；反之，若概率接近0.5，表示标签分布均匀，纯度较低。 - **信息增益（Information Gain）**：衡量因分裂产生的信息减少量，用于评价节点分割的好坏。信息增益越大，说明分裂后带来的不确定性降低越多。 - **信息增益比（Information Gain Ratio）**：在考虑了每个特征的熵的基础上计算，它解决了信息增益受特征数量影响的问题，提供了更准确的特征选择依据。 - **负信息增益（Negative Gini Gain）**：基于基尼不纯度，与信息增益类似，但有时在某些情况下可能更适合评估特征的重要性。 **2. 特征离散化（Discretization）** - **步骤**： - 第一步：计算所有可能的分割点，对连续特征进行离散化处理。 - 第二步：在这些分割点中选择最佳的，通常通过某种准则（如基尼不纯度或信息增益）来确定。 - **比较**：报告还涉及了Numpy和PyTorch版本在特征离散化过程中的对比，探讨了不同库在性能和效率上的差异。 **3. 实验设计** - **实验目的**：通过一系列对比实验，研究不同： - **重要性函数的影响**：探究各种定义的纯度函数在随机森林中的效果和适用性。 - **特征类型**：分析数值型、类别型或混合特征对模型性能的影响。 - **特征数量**：探索不同数量的特征如何影响随机森林的学习能力和泛化能力。 - **森林中树的数量**：测试增加决策树数量对集成学习效果的影响。 **4. 结论** - 根据实验结果，报告可能会总结出关于哪种重要性函数最适合特定数据集、哪种特征类型在随机森林中表现最佳，以及如何根据任务需求调整特征数量和森林大小等方面的发现。此外，还可能讨论了实验中观察到的任何潜在问题、优化策略或未来研究方向。谷正阳的项目深入剖析了随机森林中的核心概念，并通过实际操作展示了其在不同参数设置下的性能分析，为深入理解随机森林算法及其优化提供了有价值的研究。

7 S1 = S[:, F]

9 p1 = np.sum(S1 & label)

10 N1 = np.sum(S1)

12 p0 = np.sum(label) − p1

13 N0 = S.shape[0] − N1

15 return N1

NEG_B(p1 / N1) + N0

NEG_B(p0 / N0)

1.3 Information gain ratio

The information gain3 has a weakness, which is that if the domain of an attribute is too big, the

second term



v=1

) can be really small. Therefore, the information gain prefer those

attributes with larger dommain. The information gain ratio has the form of

Gain_ratio(A) =

Gain(A)

−



v=1

p+n

log(

p+n

)

, (5)

which is actually add a penalty on the information gain3. If the domain of an attribute is large, the

−



v=1

p+n

log(

p+n

) will be large, so its gain ratio is small.

However, since all the attributes here have binary domains, the information gain ratio is the

same as the information gain.

1.4 Negative Gini gain

This has a similar form as the information gain3, since it’s actually replace the log(p) with its

approximate substitution p − 1. This can be calculated faster than information gain since p − 1 is

easier to calculate than log(p).

1 def NEG_GINI_MINUS_1(p):

2 return p

2 + (1 − p)

4 def NEG_GINI_INDEX_MINUS_1_MUL_N(S, F):

5 label = S[:, −1:]

6 S1 = S[:, F]

8 p1 = np.sum(S1 & label)

9 N1 = np.sum(S1)

11 p0 = np.sum(label) − p1

剩余11页未读，继续阅读

宏馨

粉丝: 27
资源: 293

中山大学数据与计算机科学学院：随机森林算法深度解析

midterm-project-aagamsh1：GitHub Classroom创建的midterm-project-aagamsh1

Midterm-test-6.rar_in

HWH_2D_Midterm_0608420-QQ

adet-midterm-q1-sampedro-james

Midterm-Family-Vault

midterm-decision-maker

midterm-project

Midterm-Project

Midterm-project

Midterm_K-means_CUDA:带有CUDA的K-Means算法

最新资源