表格数据分类和回归的深度抽象网络DANET

158 浏览量更新于2023-12-01 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文DANET s：用于表格数据分类和回归的深度抽象网络陈金泰1，廖宽伦1，姚万2，张伟.Chen3，Jian Wu4，*1浙江大学计算机科学与技术学院，杭州，中国2华中科技大学计算机科学与技术学院，武汉，中国3圣母大学计算机科学与工程系，美国印第安纳州4浙江大学医学院附属第一医院和公共卫生系，中国杭州jtchen721@gmail.com，www.example.com，stevekll@zju.edu.cn，wanyao@hust.edu.cn，dchen@nd.edu，wujian2000@zju.edu.cn摘要表格数据在现实世界的应用中无处不在。尽管许多常用的神经组件（例如，卷积）和可扩展神经网络（例如，ResNet）已经由机器学习社区开发，其中很少有对表格数据有效的，并且很少有设计适合表格数据结构。在本文中，我们提出了一种新的和灵活的神经元组件的表格数据，称为抽象层（ABST LAY），学习显式分组相关的输入功能，并生成更高层次的特征语义抽象。此外，我们设计了一种结构重参数化方法来压缩ABSTLAY，从而在参考阶段明显降低了计算复杂度利用ABST-LAY构造了一个特殊的基本块，并通过叠加这些块构造了一个用于表格数据分类和回归的深度ABST-LAY网络族（DANET在DANET中，引入了一个特殊的快捷路径来从原始表格特征中获取信息，从而帮助不同级别的特征交互。在7个实际表格数据集上的综合实验表明，本文提出的ABSTLAY和DANET方法对表格数据的分类和回归是有效的，计算复杂度优于同类方法.此外，我们评估了DANET的性能增益，因为它深入，验证了我们的方法的可扩展性。我们的代码可在https://github.com/WhatAShot/DANet上获得。介绍以表格结构组织的数据，例如，医学指标（Hassan etal.2020; Mirrosandel等人2016）和银行记录（Roy et al.2018; Babaev et al. 2019; Addo et al. 2018）在日常生活中无处不在然而，与计算机视觉和自然语言处理领域的深度学习热潮不同，很少有神经网络被充分设计用于表格数据（Arik和Pfister 2020; Yang et al. 2018; Ke et al.2018; Roy et al. 2018; Babaev et al. 2019; Nair和Hinton2010; Guo，Tang et al.2017年），因此性能（例如，在分类和回归任务中），这种神经网络的性能仍然稍逊一筹（Abutbul et al. 2021）。受集成学习成功的启发（例如， XGBoost ）（ Friedman 2001; Chen and Guestrin2016;*通讯作者。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.Ke et al. 2017; Prokhorenkova et al. 2018; Ho 1995），最近的一些工作在集成学习的框架内结合了多个神经网络（ Popov et al. 2019; Abutbul et al. 2021; Ke et al.2019）。虽然集成学习可以提高神经网络在表格数据上的性能（以增加计算资源为代价），但使用此类方法，神经网络在自动表格特征工程中的能力此外，没有太多专门为表格数据设计的有效神经组件（类似于计算机视觉的卷积）。因此，已知的神经网络主要基于可扩展组件，因此扩展性不强。在本文中，我们提出了一个灵活的神经组件称为抽象层（ABST LAY）的表格特征抽象，并建立深度抽象网络（DANET）的基础上，表格数据分类和回归。由于表格特征通常是不规则的，因此在设计用于表格数据处理的神经网络（例如，分类和回归）。为此，我们假设在表格数据结构中存在一些潜在的特征组，并且组中的特征我们建议将高级表格特征提取过程解耦为两个步骤：（i）相关特征分组，(ii) 从分组特征中提取更高级别的特征。我们使用一个ABSTLAY来执行这两个步骤，并且DANET通过堆叠ABSTLAY来重复这两个步骤以表示表格数据的关键语义。图1给出了一个运行的例子来说明我们的见解。如图1（a），可行的基础特征组和潜在的特征抽象路径被组织如下。可以将身高和体重分组在一起以计算代表体格的更全面的特征。类似地，可以从原始特征中提取表示肝脏健康和肾脏健康的特征，并且可以进一步从三个高级特征中提取表示健康状况相比之下，在图1（b）中，我们的方法学习寻找和分组相关特征，然后将它们抽象为更高级别的特征。重复该过程，直到获得全局语义高级表格特征由一个神经层（ABST LAY）抽象，arXiv：2112.02962v1 [cs.LG] 2021年12+v：mala2255获取更多论文②①？②高层特征提取？？？？①特征选择(a) 通过特征选择抽象提取关键语义的可行途径（b）我们建议的DANET的过程。图1：健康评估的运行示例，用于说明我们的见解。（a）可行的面向语义的特征抽象过程。有三个基本特征组可以用来计算测量体质、肝脏健康和肾脏健康的高级特征;然后将这三个特征进一步分组以估计健康状况。（b）ABSTLAY1学习适当的特征选择偏置以将相关特征分组，然后2抽象有意义的更高级别特征，并且DANET组织ABSTLAY以重复该过程，直到最终获得用于健康评估的全局语义蓝色矩形表示计算的高级特征，灰色线条表示特征选择的候选者，黑色箭头标记最终选择的特征。分层抽象过程是利用深度学习网络来实现的。这就是为什么我们分别称它们为抽象层和深度抽象网络在设计ABST LAY时，我们考虑如何将功能分组并将其抽象为更高级别的功能。由于表格数据的异质性，很难找到度量空间来测量特征分组的特征差异，因此我们的ABSTLAY通过采用可学习的稀疏权重掩码来学习查找特征组，而不引入任何距离测量。然后，随后的特征学习器（在ABST LAY中）被用来从相应的特征组中提取更高级别的特征。此外，受结构重新参数化（Ding等人，2021）的启发，我们开发了一种特定的重新参数化方法，以将ABSTLAY的两步操作合并为推理阶段的一步，从而降低计算复杂度。我们的DANET主要通过按顺序堆叠ABSTLAY来构建，从而逐层递归地抽象表特征为了补充有用的特征并增加特征多样性，我们还引入了一个快捷路径（类似于剩余快捷路径（He et al. 2016）），它直接将原始表格特征的信息注入到更高级别的特征中。具体地，我们将ABST LAY的更高级特征抽象操作和快捷路径的特征提取操作打包到基本块中（如图2（b）中所指定的），并且我们的DANET通过堆叠这样的块来构建（参见图2（c））。请注意，各种经验证据（He et al. 2016; Qi等人（2017）已经表明，深度神经网络（DNN）的成功部分受益于模型深度。因此，我们设计了具有深度架构的DANET，并且大量的实验验证了增加模型深度确实会产生性能增益。本文的主要贡献如下。• 我们提出了一个BSTLAY，分组功能和处理，cesses他们更高层次的功能抽象。BST-LAY结构简单，通过结构重参数化方法可以降低计算复杂度。• 我们引入了一个特殊的快捷路径，它可以为更高的层次提取原始特征，促进特征的多样性寻找有意义的特征组。• 在ABSTLAY的基础上，通过递归地抽象特征，获得表特征的关键语义，建立了DANET，用于表数据的分类和回归DANET在多个公共数据集上的性能优于以前的方法。相关工作表格数据处理。各种传统的机器学习方法（He etal.2014; Breiman et al.1984; Chen and Guestrin 2016;Zhang，Kang et al. 2006; Zhang and Honavar 2003）被提出用于表格数据分类和学习排序（回归）。决策树模型（Quin-lan 1979; Breiman et al.1984）可以给出清晰的决策路径，并且在简单的表格数据集上是鲁棒的.基于决策树的嵌入模型，如 GBDT （ Friedman 2001 ），LightGBM （ Ke et al. 2017 ）， XGBoost （ Chen andGuestrin 2016 ）和 CatBoost （ Prokhorenkova et al.2018），目前是表格数据处理的首选，其性能相当（Anghel et al.2018年）。目前，旨在应用DNN的研究趋势（Guo，Tang etal.2017; Yang et al.2018年，在数据库中集成学习框架下的一些神经网络在（ Lay et al.2018; Feng et al.2018年）。最近，NODE（Popov et al. 2019）将神经遗忘决策树与密集连接相结合，并获得了与GBDTs（Friedman2001）相当的性能。Net-DNF（Abut-bul et al.2021）实现了逻辑布尔公式的软版本，以聚合大量浅全连接模型的结果NODE和Net-DNF本质上都遵循集成学习，采用许多（例如，2048），因此是计算复杂的。这些策略并没有挖掘深度模型的潜力，它们的表现主要取决于子网络的数量TabNet（Arik and Pfister 2020）顺序计算稀疏注意力，以模拟树模型的顺序特征分裂过程然而，TabNet被证实获得稍差的性能，如（Abutbul et al.2021年）。特征选择。由于表格特征是异质的和不规则的，+v：mala2255获取更多论文此外线性Sigmoid线性学习面具(a)抽象层（K=3，d=2）线性（Softmax）基本块基本块基本块此外ABST LAYK=100，d=101ABST LAYK=100，d=101ABST LAYK=100，d=100辍学ⓈF∈∈∈XFX∈F|F|吉吉$1美元(b) 第i个基本块（c）DANET图2：我们提出的表格数据处理架构。（a）示出了ABSTLAY，其执行三个步骤：特征选择、特征抽象和输出融合。在（a）的示例中，掩模的数量K被设置为3（参见等式（1））。（3）），输出特征维度d被设置为2，并且指示逐元素乘法。(b)说明基本块规范。(c)DANET的体系结构主要是通过堆叠几个基本模块来构建的。以前应用过经典的树模型通常使用信息度量来指导特征选择，例如信息增益（Quinlan 1979），信息增益比（Quinlan 2014）和基尼指数（Breiman et al. 1984），它们本质上是贪婪算法，可能需要分支修剪（Quinlan2014）或早期停止策略。决策树集成方法通常采用随机特征抽样来提高多样性。为了进一步帮助特征选择，一些装袋方法利用袋外估计（ James et al.2013 ）和gcForest（Zhou和Feng 2017）使用滑动窗口扫描和分组不同森林的原始特征。一个完全连接的神经网络（Nair和Hinton 2010）盲目地接受了所有的特征，而TabNN（Ke et al.2018）基于GBDTs学习的“数据结构知识”选择特征大多数树模型在一步中只选择一个特征，忽略了潜在的特征相关性。目前，一些神经网络引入神经操作来选择特征。NODE（Popov et al. 2019）使用具有Heaviside函数的可学习特征选择矩阵进行硬特征选择，模仿不经意决策树的处理。NODE的一个关键是在训练“树”模型时用反向传播优化代替信息度量然而，由Heaviside函数指定的参数很难通过反向传播更新，因此NODE在收敛之前可能需要多次迭代。 Net-DNF 使用了一种直接的技巧（Bengio et al.2013）来优化这个问题，但是它需要在训练特征选择掩码中使用额外的损失函数，并且对用户来说不方便。TabNet（Arik and Pfister 2020）采用了一种注意力机制来进行特征选择，但针对不同的实例选择了不同的特征;因此，很难捕获稳定的特征相关性。与此相反，本文试图找到潜在的功能组表示目标相关的语义，并开发相应的操作，是简单的和用户友好的。问题陈述假设=（，X，y）是一种特定的表格数据结构，其中指定原始特征类型空间，X是可行实例空间，y是目标空间。在一个表格数据集中，类型，实例xRn in X定义为表示（n=）中的n个标量原始特征的n元向量。值得注意的是，表格数据特征是不规则的，并且x中的特征排列是预定义的。在本文中，我们假设在表格数据结构中有一些潜在的特征组，并且组中的特征请注意，一些功能可能不属于任何组，有些属于多个组。我们感兴趣的是学习映射函数，将x X作为输入，挖掘并解决语义兴趣的底层特征组。抽象层关键功能和操作我们提出了一个抽象层（ABST LAY），它学会找到一些潜在的特征组，并通过处理分组的特征来抽象更还期望ABSTLAY作为基本层是灵活和简单的。在我们的设计中，ABSTLAY包括特征选择功能以找到特征组，随后的特征抽象功能以从组中抽象更高级别的特征，以及输出融合操作以融合从各个组中抽象的特征，如图所示。2（a）.特征选择功能。给定包含m个标量特征的输入向量fRm，可学习的稀疏掩码MRm从f中为一个组选择标量特征的子集。具体来说，这个可学习的掩码被定义为一个可学习的参数向量W掩码，后面是Entmax稀疏映射（Peters et al. 2019），并且通过与稀疏掩码M进行逐元素相乘来选择特征。Entmax是一种变分形式（Wainwright and Jordan 2008）特征选择特征提取输出融合+v：mala2255获取更多论文∈∈Ⓢ∈∈∈∈∈Σ◦◦◦Σσσ∈∈的Softmax，它引入了稀疏性的输出概率。形式上，特征选择由以下定义：抽象，并且可以放弃来自前面的ABST LAY的无用输出特征。与复杂的-M=entmaxα （W面罩）），f′=Mf，（1）TabNet中的其中，参数向量W_mask_R_m表示逐元素乘法，并且所选择的特征在f′_R_m中呈现。对于Entmax稀疏映射中的参数α，我们使用α = 1的默认设置。五、通过乘法，f ′中存在一些零值，并且向量f ′的第i个标量特征的零值意味着f中的第i个标量特征未被选择。此功能选择-操作简单，可以为不同的实例选择相同的特征。特征提取功能。鉴于所选的功能他们的合作（例如，逐层处理）。一种BSTLAY复杂度降低算法为了降低我们提出的ABSTLAY的计算复杂度，我们开发了一种重新参数化方法，如下（Ding et al. 2021年），重新制定了ABST LAY S 。注意，W1Rd×m 和 W2Rd×m为特征权抽象函数，MRm也是一个权重向量。替换Eq。(1)到EQ。(2)，我们有在f′Rm（如上所定义）中，我们使用具有简单注意力机制的全连接层来定义特征提取函数（Dauphin et al.2017年）。从形式上讲，q=sigmoid（ BN（W1（Mf），f= ReLU（q BN（W2（M f）.（四）特征提取函数的输出f_i由以下公式计算：q=sigmoid（ BN（Wf′）），f= ReLU（q<$BN（Wf′）），因此，我们可以用W c′Rd×m来代替等式中的乘法项W c M（c = 1，2）。（4）通过1其中两个可学习的参数2Rd×m（（二更）Wc′[：，j]=Wc[：，j]<$M[j]，大小相等，Wc∈c=1，2）其中j = 1，2，. . . ，m，并且m是输入特征dimen。q表示计算的注意力向量。由于表格数据通常使用大批量进行训练，因此我们使用ghostbatch normalization（Hoffer et al. 2017）来操作“BN”。通过这种方式，将向量f′∈Rm中的所选特征投影到f∈Rd，并且我们将dsion。此外，我们可以通过以下方式将批量归一化操作进一步合并到权重Wc′中W[i，：]=γ[i]W′[i，：]，b[i]=（β[i]−µ[i]γ[i]），（5）特征向量f中的值作为表示各种语义的独立标量请注意，所有d功能cσ[i]c cσ[i]从同一组中提取（由等式中的相同M① ①）。并行处理和输出融合。ABSTLAY的作用主要是通过特征选择函数和特征提取函数来实现的这两个函数按顺序工作，从较低级别的特征组中抽象出较高级别的特征。然而，我们认为在给定的特征向量f中可以找到不止一个组。此外，通常通过并行应用一些单元操作（例如，卷积层通常包含许多内核）。受此启发，我们的ABSTLAY被设计为并行查找和处理多个低级别功能组形式上，我们通过以下方式指定其计算：Kfo=pk<$sk（f），（3）k=1其中p s表示特征选择函数s和特征抽象函数p的复合函数，并且K是ABSTLAY设法获得的特征组的数量并且是超参数。我们将所有pk sk的输出特征大小设置为相同。所有复合函数pk sk的输出特征被逐元素相加以形成ABST LAY的输出特征fo（参见图2）。2（a））。类似于模型中的卷积层，几个ABST-LAY可以堆叠在一起并作为一个整体操作。因此，一个ABSTLAY的输出标量特征可进一步由其后续ABSTLAY分组以获得进一步信息其中i = 1，2，. . . ，d，d是输出特征尺寸，γ∈Rd和β∈Rd是遵循Wc的批量归一化的可学习参数（对于特征向量z，公式为z′=γz+（β−µγ）），µRd和σRd是计算的均值和标准差。然后，在A BST L AY中的操作（参见等式10）。（3）可以简化为Kfo=ReLU（sigmoid（Wk，1f+bk ，1）<$（Wk，2f+bk，2）），k=1（六）其中，Wkkk，c（c=1，2）是由等式Wc重新参数化的(5)对于A_BST_LAY中的第k个特征提取函数（参见等式（1）），(3)，A BST L AY具有K个函数），并且bk，c是等式中的bc。(5) 对于第k个特征提取函数。通过这种方式，可以通过重新参数化在推理中使用更轻的模型深度抽象网络在此基础上，我们介绍了用于表格数据处理的深度人工神经网络（DANETDANETs堆栈ABST LAY s以重复地寻找和处理一些有意义的特征组，用于更高级别的特征提取。此外，我们允许不同级别的功能组合在一起，从而增加了模型的能力。因此，我们设计了一个新的快捷路径，允许高级层获取原始特征。具体来说，我们提出了+v：mala2255获取更多论文一个基本块的基础上ABST LAY的包含捷径路径，我们的DANET的建立顺序堆叠这样的块。+v：mala2255获取更多论文GGG\基本块我们的基本块主要是使用ABST LAY s构建的，新的快捷方式可以将从原始特征组中提取的特征添加到主模型路径中。图图2（b）示出了DANET中的基本块的规范。形式上，我们通过下式定义第i个基本块fi：fi=Gi（fi−1）+gi（x），（7）其中 gi 是由 ABSTLAY 和 Dropout 层组成的捷径（Srivastava et al.2014）并采取原始功能一些关键的DANET组件的影响，包括可学习的稀疏掩码、捷径路径、模型深度和模型宽度（等式中的K（三））。此外，我们使用三个合成的数据集评估了我们提出的稀疏掩码对相关特征分组的影响。实验装置数据集。我们在七个开源表格数据集上进行了实验：Microsoft（Qin和Liu 2013），YearPrediction（Bertin-Mahieux et al. 2011）和Yahoo（Mohan et al.x作为输入。项i位于包含多个A的主路径上2011年）回归;森林覆盖类型2，点击3，第4集，和心血管疾病5分类。细节BSTLAY s，其输入是由上一个基本块（见图1）2（c））。对于第一基本块f1 ，设 f0=x. 与 ResNet 中的残差块不同（ He etal.2016）的快捷路径带来了前面层的特征，我们的快捷方式获取原始特征。在具有许多基本块的DANET中（参见图2（c）），基本块的i目标相关信息通过基本块的快捷项gi连续补充。从图2（c）可以明显看出，原始特征可以通过快捷方式直接被高级基本块使用，而一些原始特征的信息可以在逐层处理之后通过主路径被更高级别的层获取。因此，与没有这种快捷方式的模型中的层相比，层中的特征多样性增加。值得注意的是，我们在快捷路径中包含了Dropout操作，它鼓励后续的ABSTLAY专注于基本块所需的核心信息。网络架构和培训我们按顺序堆叠基本块以构建DANET架构，如图2（c）所示。在我们的设置中，我们固定了包含三个ABSTLAY的基本块规范，如图2（b）所示。也就是说，在EQ。(7)，i由两个ABSTLAY组成，并且gi包含一个。然后，在DANET结束时使用具有ReLU激活的三层MLP（多层感知器网络）进行分类（使用Softmax）或回归。我们已经测试了各种网络架构规范，并观察到一致的模式。在这里，我们提出了一些具体的体系结构，如DANET-20和DANET-32，以分析DANET的效果。与之前用于表格数据的DNN类似（Arik和Pfister 2020;Popov等人2019），我们的DANET可以处理表格数据的分类和学习排名（回归）任务。DANET使用交叉熵损失函数的规范进行训练以用于分类，并且使用均方误差（MSE）进行训练以请注意，本文中没有使用功能名称。实验在本节中，我们提出了广泛的实验来比较我们的DANET和已知的最先进的模型的效果。此外，我们提出了几个实证研究分析，1后缀数字表示 ABST LAY s堆在主干道上的数据集如表1所示大多数数据集提供列车测试拆分。对于Click，我们遵循NODE的开源6提供的训练测试分割（Popov et al. 2019）。在所有的实验中，我们都固定了训练测试的分割，以进行公平的比较。对于学习排名的任务，我们使用类似于以前的工作回归。对于Click，分类特征使用scikit-learn库的Leave-One-Out编码器进行预处理我们使用每个数据集的官方验证在没有提供官方验证集的数据集上，我们分层以抽取20%的样本从完整的训练数据集的实例进行验证。实施细节。我们在Python 3.7上使用PyTorch 1.7实现了各种DANET架构。所有实验均在NVIDIA Tesla V100上运行。在训练中，批次大小为8，192，其中在重影批次归一化层中重影批次大小为256，并且学习速率最初设置为0。008年，每20年衰变5%时代优化器是QHAdam优化器（Ma和Yarats2019），默认配置，除了重量衰减率10−5和折扣因子（0. 八，一。0）。对于其他方法，性能是通过其特定设置获得的。与需要仔细设置其超参数（例如，NODE（Popov et al.2019）），我们固定DANETs的主要设置：我们设置k0=5，d0=32，d1=64作为默认值（见图10）。2（b））。F或具有大量原始特征的数据集（例如， Yahoo具有699个特征，Epperly具有2K个特征），我们设置k0=8，d0=4 8，d1=96。我们使用辍学率0。对于除森林覆盖类型之外的所有数据集，不使用dropout。的使用Hyperopt库7对其他方法的性能进行超参数调整，以获得最佳结果，并执行树结构 Parzen Estimation（TPE）优化算法的50个步骤，类似于（Popov等人，2019 ）中的设置。我们设置了 XGBoost （ Chen andGuestrin2016 ）、 CatBoost （ Prokhorenkovaetal.2018），NODE（Popov et al.2019）和FCNN（Nair和Hinton 2010），如（Popov et al.2019），而超参数搜索设置的2https://www.kaggle.com/c/forest-cover-type-prediction/3https://www.kaggle.com/c/kddcup2012-track2/4https://www.csie.ntu.edu.tw/http：//www.example.combinary.html #5https://www.kaggle.com/sulianova/cardio vascular-disease-数据集6与原始论文中的描述不同。7https://github.com/hyperopt/hyperopt+v：mala2255获取更多论文表1：七个公共数据集的摘要。标记为“†”的数据集以8：2的比例随机分为训练集和测试集。（“森林”：“森林覆盖类型”;“心脏"：“心血管疾病”;“L2 R”：“学习排名”;“Clas."：“分类”。数据集年度预测微软雅虎Epsilon单击Cardio.†森林†#特性901366992K111154列车数据463K723K544K400K900K56K400K测试数据51.6K24万1千十六万五千100K100K14K100K任务类型L2rL2rL2r班级班级班级班级度量MSEMSEMSEAcc.Acc.Acc.Acc.表2：七个表格数据集的性能比较。最好的表现用橙色标记，第二和第三好的表现分别用蓝色和绿色标记。请注意，对于分类任务，更好的方法可以获得更高的Acc.，对于学习排序任务，更好的方法可以获得更低的MSE。方法秩学习排名森林有氧运动Epsilon单击微软YearP.雅虎XGBoost（Chen和Guestrin 2016）CatBoost（Prokhorenkova et al.gcForest（Zhou and Feng 2017）45–97.13% ±2e-4 73.97% ±2e-4 88.89%±6e-4 66.66%±2e-395.67% ±4e-4 74.02%±1e-4 88.87%±4e-4 65.99%±2e-396.29% 73.27% 88.21% 66.67%0.5544±1e-4 78.53±0.090.5420±4e-40.5565 ±2e-4 79.67±0.120.5632±3e-4–Net-DNF（Abutbul et al. 2021年）–97.21%±2e-4 73.75% ±2e-4 88.23%±3e-4 66.94%±4e-496.99% ±8e-4 73.70% ±6e-4 89.65%±8e-566.84%±2e-496.95% ±3e-4 73.93% ±7e-4 89.66%±3e-466.88%±2e-396.83% ±1e-4 73.86% ±4e-4 89.59%±2e-4 66.75%±2e-396.85% ±1e-3 73.90% ±5e-4 89.49%±2e-367.01%±2e-4–0.5707 ±3e-4 77.36±0.37 0.5925±1e-30.5570 ±2e-4 76.21±0.120.5692±2e-40.5608 ±4e-4 79.99±0.47 0.5773±1e-30.5694 ±1e-3 76.52±0.020.6016±1e-3TabNet（Arik和Pfister 2020）7NODE（Popov et al. 2019年度）3FCNN（Nair and Hinton 2010）8FCNN +套索5DANET-20（我们的）DANET-32（我们的）2197.23%±2e-4 74.04%±5e-4 89.58%±4e-467.11%±2e-497.27% ±5e-4 73.98%±2e-4 89.67%±2e-4 67.19%±5e-40.5550±7e-4 76.76±0.150.5678±4e-40.5557±3e-4 75.93±0.170.5703±6e-5Net-DNF（Abutbul et al.2021）和TabNet（Arik和Pfister2020）遵循他们的原始论文。gcForest的超参数根据（Popov et al. 2019）中的FCNN构建了具有或不具有lasso正则化的FCNN架构这些比较方法的超参数是根据验证性能来选择的。所有的模型都在训练数据和验证数据上用选定的超参数进行进一步的训练，然后在相应的测试集上进行验证。比较基线。为了评估性能，我们将我们的DANET-20和DANET-32与几种常见的传统方法进行了比较，包括XGBoost（Chen和Guestrin 2016），gcForest（Zhou和Feng 2017 ）和 Cat- Boost （ Prokhorenkova et al.2018），以及最知名的神经网络，包括TabNet（Arik和Pfister 2020），FCNN（Nair和Hinton 2010），具有和不具有套索正则化，以及NODE（Popov et al. 2019年）的报告。结果和分析性能比较。表2报告了7个表格数据集的比较性能。可以看出，我们的方法（即，DANET-20和DANET- 32）优于或相当于以前的神经网络和GBDTs。请注意，我们的DANET的参数是预先设置的，而其他方法则是专门为每个数据集调整超参数。这意味着我们的DANET不仅性能更好，而且易于使用。此外，我们根据数据集的平均性能排名对所有方法（除了gcForest（Zhou和Feng2017）和Net-DNF（Abutbul et al. 2021），因为它们只能用于分类）进行排名，我们的方法DANET- 20和DANET-32 在所有方法中获得了最佳性能。此外，DANET- 32的整体性能优于DANET-20，通过增加模型深度获得性能增益。捷径的效果。我们的DANET的一个关键设计是基本块中的特殊快捷连接。为了检查我们提出的快捷方式的效果，我们将DANET与具有传统残差快捷方式（Res-shortcut）的模型、没有任何快捷方式的模型以及具有密集连接快捷方式（Dense- shortcut）的模型进行了比较（Huang et al. 2017）。为了公平起见，我们只在DANET-8、DANET- 20和DANET-32中用其他快捷方式替换我们的快捷方式。性能如图3所示。很明显，DANET与我们的快捷方式显着优于模型与其他快捷方式在所有模型深度规格。此外，人们可能会看到，我们提出的捷径的效果是更明显的，在大多数情况下，更深的DANET。例如，在图3（b）、（d）、（e）、（f）和（g）中，DANET-32上的性能差异比DANET-8上的性能差异更明显。这可能是因为信息可以通过我们的捷径有效地补充，+v：mala2255获取更多论文{1}|}2图3：在不同数据集上使用不同类型的快捷方式的性能。对于分类（如（a）、（b）、（c）和（d）所示），准确度越高越好。对于回归（如（e）、（f）和（g）所示），MSE越低越好。很明显，我们的捷径是优越的。从而帮助提高更深层次模型的有效性模型深度的影响。我们在图4中显示了DANET模型深度对森林覆盖类型数据集的影响，我们还检查了其他数据集上的类似现象。从图4中可以看出，随着模型深度的增加，DANET产生更好的性能然而，当DANET变得非常深时（例如，比DANET-32更深），性能增益变得很小。我们认为这是因为表格数据通常比图像/文本数据具有更少的特征，可供非常深度的网络利用。我们观察到，对于DANETs，20-32的深度模型宽度的影响ABST L AY中的特征组的数量K充当DAN ET的模型宽度。为了评估宽度K的影响，我们在表4中示出了具有不同宽度的DANET-20对点击（11个特征）、森林覆盖类型（54个特征）和Epperiment（2K个DANET-20在宽度K=5的情况下产生相当大的性能。对于具有较少特征的数据集（例如，点击和森林覆盖类型），我们只看到轻微的收益，宽度K>5。对于具有更多特征的数据集（Epsilon），K = 8似乎是一个合理的选择，它比K = 5好0。百分之十三这可能是因为具有更多要素的数据集往往具有更多的要素组，因此，模型宽度在这种情况下可能会有所帮助。稀疏遮罩的效果。我们检查了在三个不同的数据集设置的三个合成数据集上的掩码。每个数据集包含具有11个标量特征的7k个输入项（x=v i i=0，. . .，10）从没有特征相关的11维高斯分布生成。在表3的第一列中，使用四个公式来计算目标y对于learn-to-rank任务，y被用作预测目标;对于分类任务，使用y的中值作为阈值将y进一步变换为我们构建了一个K=1的DANET-2，并用合成的数据集训练它该模型仅1282026322452DANET-64DANET-4图4：不同模型深度下的DANET性能森林覆盖类型。一个基本块，并且有两个掩码，其输入是原始特征（即，主模型路径中的第一个ABSTLAY的掩码和快捷方式中的ABSTLAY的掩码在这项研究中，我们只在训练收敛后检查这两个掩码，并检查掩码激活是否与公式匹配。表3显示了掩模激活以learn to rank任务为例，我们的第一个问题是：我们的掩码能否区分目标相关和目标无关的特征？对于公式1，可以看到只有特征v2、v3、v4和v5是目标相关的，并且掩码中的对应值是高度响应的给他们.在其他情况下也可以看到类似的结果。特别地，我们在公式2中引入了关于V10趋向于零的项，并且可以看到掩模不响应于它，这表明我们提出的掩模是数据驱动的和鲁棒的。我们的第二个问题是：我们的掩码可以分组相关特征吗？在公式2中，我们可以将v0和v2在一组中，V5和V6在另一组中。我们可以看到，在掩码中，代表v0和v2的值具有接近的值，v5和v6也是如此。在公式3中，有两个特征组：（v6，v7）和（v5，v8）。相应地，一个掩码对于公式4中的分段函数，v1（作为条件）和公式1和公式2中使用的所有特征都是相同的。+v：mala2255获取更多论文表3：三个合成数据集上的掩码激活。每个热图都有两行：最上面的一行是主模型路径中的蒙版，最下面的一行是快捷路径中的蒙版。0123456789100123456789101 y=105（v2）i=2i2y=|日志|v0−v2|+cos（v5+sinv6）−（10−8×v1 0）|3y=10 sin（vi+vj）+（v+v）210ij（i，j）∈{（6， 7），（5， 8）}4如果v10，y=1;如果v1>0，y=<表4：具有不同宽度的DANETK点击森林Epperiment167.03% 96.18% 89.13%567.11% 97.23% 89.45%867.12% 97.21% 89.58%1467.15% 97.22% 89.61%2067.15% 97.23% 89.63%都是由面具决定的综上所述，可以看出，我们提出的掩模不仅可以找到目标相关特征，而且还具有挖掘特征关系的能力。对于分类任务也可以得出类似的结论。计算复杂度比较。我们将DANET的推理阶段的计算复杂性与性能竞争性神经网络TabNet，NODE（Popov etal. 2019）和Net-DNF（Abutbul et al. 2021）进行了比较（见图5） 8。基于集成学习的方法的FLOPS（即，NODE和Net-DNF）通常是DANET和TabNet的几倍。此外，很明显，在一些相同的复杂性，我们的模型往往是最好的表现。从图5中的灰色曲线可以看出，TabNet在不断扩大模型大小时无法获得性能增益，与我们的模型相比，这不是很可扩展。在对A BST L AY s进行结构重新参数化的模型压缩之后，我们的DAN ET s的FLOPS减少了14。8%- 23. 0%（com-红色和绿色曲线）。至于一个单独的ABST LAY，FLOPS减少了49。02%，输入和输出特征尺寸为32。8四个比较TabNet的超参数为：[λsparse，Nd，Na，Nsteps，BV，mB]=[1 e

下载后可阅读完整内容，剩余1页未读，立即下载