表格数据竞赛：神经网络为何不敌树模型?

版权申诉

PDF格式 | 6.58MB | 更新于2024-08-04 | 35 浏览量 | 举报

"本文探讨了2022年数据竞赛中神经网络与树模型的表现，指出在处理表格数据时，神经网络似乎并未超越树模型如XGBoost和LightGBM。文章分析了表格数据的特性以及神经网络处理此类数据时面临的挑战，包括数据的异质性、质量问题、以及现实世界的复杂性等。" 在2022年的数据竞赛中，尽管深度神经网络（DNN）在图像、文本和语音等领域的应用取得了显著成就，但在处理表格数据方面，它们似乎并未能像在其他领域那样取得压倒性的优势。Kaggle等数据挖掘竞赛平台的数据显示，提升树模型，如XGBoost和LightGBM，仍然是参赛者首选的工具。表格数据具有异质性，即每列数据含义不同且数据类型不一致，这与同质的图像或语言数据形成鲜明对比。这样的数据包含密集的数值特征和稀疏的分类特征，为模型提供了丰富的信息，但也带来了挑战。神经网络处理表格数据时面临多重难题。首先，现实世界中的数据往往是“脏”的，含有缺失值、异常值、不平衡的类别分布以及小规模的数据集。这些问题可能导致模型训练困难，且难以捕捉到数据的真实模式。例如，不一致的数据可能导致模型学习错误的关联，缺失值处理不当会影响模型的泛化能力，而异常值可能会扭曲模型的训练目标。此外，样本不均衡问题会使得模型倾向于学习占多数的类别，忽视少数类别的信息。其次，神经网络在处理稀疏特征时效率较低，尤其是在数据量不大时。相比于树模型，神经网络通常需要大量的数据进行有效训练，以避免过拟合和充分利用其复杂的结构。而树模型如XGBoost和LightGBM，由于其决策树的结构和梯度提升的优化策略，能够在小规模数据上快速收敛，同时对缺失值和异常值有较好的鲁棒性。此外，神经网络在建模非线性关系时表现出色，但面对表格数据中数值特征和分类特征的混合，其优势并不明显。相反，树模型可以灵活地处理多种类型的特征，并通过集成学习的方式捕捉复杂的交互效应。 2022年的竞赛结果表明，神经网络在处理表格数据时，可能因数据特性和现实世界的复杂性而遇到困难，而树模型则凭借其在处理异质性数据和应对现实世界挑战上的优势，继续在数据竞赛中保持领先地位。但这并不意味着神经网络无法在表格数据领域取得进步，未来的研究可能会开发出专门针对表格数据的神经网络架构，以克服当前的局限性。

2023/6/28 17:06

2022年竞赛打榜，神经网络还是干不过树模型？？

https://mp.weixin.qq.com/s/tnbw-DwMUg0uCck1VRs9ZQ

3/13

1.1 什么是表格数据?

表格数据的最大的特点是:异质性 (Heterogeneous),即数据的每一列具有不同含义且数据类型

不一致,这种异质的表格数据与图像或语言数据(同质数据) 相比，其具有密集的数值特征和稀

疏的分类特征。

1.2 NN处理表格数据的挑战

1) 低质量表格数据往往来自于真实世界的统计，而一旦数据来自真实世界，那么事情便复杂

起来。可谓是虚假的数据千篇一律，真实的数据五花八门。脏数据、离群点、样本不均衡、数

据空间小等一系列现实问题便很容易涌现出来。

inconsistent data

missing values

outliers

expensive

class-imbalanced

small size

2)缺失或拥有复杂的空间相关性当前主流的NN模型往往是在同质数据中使用归纳偏置，最典

型的如卷积神经网络。表格数据集中的变量之间往往不存在空间相关性，或者特征之间的相关

性相当复杂和不规则。当使用表格数据时，必须从头开始学习它的结构和特征之间的关系。这

也是为什么迁移学习难以在表格数据上奏效的原因。

3)强依赖预处理同质数据上的深度学习的一个关键优势是它包含一个隐式表示学习步骤，因

此只需要极少的预处理或显式特征构建。然而，当深度神经网络处理表格数据，其性能可能在

很大程度上取决于所选择的预处理策略。不当的预处理方式可能导致:

信息缺失，预测性能下降

生成非常稀疏的特征矩阵(如通过使用onehot编码类别特征)导致模型无法收敛

引入先前无序特征的虚假排序信息(如通过使用有序编码方案)

剩余12页未读，继续阅读

普通网友

粉丝: 1283

表格数据竞赛：神经网络为何不敌树模型?

最新资源