没有合适的资源?快使用搜索试试~ 我知道了~
神经树:实现神经网络与决策树优势集成的新方法
5047神经树陈颖1、马峰2、宋杰1、王新潮3、王慧琼4*、宋明丽1浙江大学、阿里巴巴集团2、新加坡国立大学34浙江大学{lynesychen,sjie,huiqiang wang,brooksong}@zju.edu.cn,maofeng. alibaba-inc.com,xinchao@nus.edu.sg摘要神经树的目标是集成深度神经网络和决策树,以实现两个世界的最佳效果,包括从前者进行表示学习,从后者进行更快的推理。在本文中,我们介绍了一种新的方法,称为Self-born Wiring(SeBoW),用于从母深度神经网络中学习神经树。与采用预定义结构或以渐进方式生长分层的现有神经树方法相比,SeBoW中的任务自适应神经树通过破坏式构建过程从深度神经网络进化,从而实现全局级参数优化,进一步产生有利的结果。具体地,给定像VGG的指定网络配置,SeBoW断开所有层并导出隔离的过滤器组,基于此进行全局级布线过程以附加过滤器组的子集,最终承载轻量级神经树。大量的实验表明,由于计算成本较低,SeBoW的性能远远优于所有现有的神经树,甚至可以达到与ResNets等主要非树网络相当的结果此外,SeBoW证明了它对ImageNet等大规模数据集的可扩展性,这在以前的树网络中几乎没有探索过。1. 介绍深度神经网络(DNN)[33,11]是过去十年中最成功的机器学习模型,主导了计算机视觉和自然语言处理等大量应用。前所未有的成功在很大程度上归功于其通过非线性变换的组合进行的历史表示学习,这减轻了对特征工程的需求。然而,DNN并非完美无缺:它们通常遭受昂贵的计算成本,*通讯作者令人生畏的架构设计过程,以及缺乏解释,这阻碍了它们更广泛的应用。决策树(DT)作为机器学习模型的替代类别,也已在现实世界的应用中证明了其强大的功能[9,31]。与学习具有不同抽象的分层表示的DNN不同,DT的特征在于学习数据的分层聚类,使得在每个聚类中,线性模型足以解释数据。由于DT通过相对短的根到叶序列进行分类,因此它们通常产生更快的推理,其中决策过程也是任务自适应的。此外,在DT的决定是-十直接在原始特征空间,导致更好的模型可解释性。尽管有这些吸引人的特性,但DT通常需要手工设计的特征;由于沿着根到叶路径的简单路由功能,单个DT的容量也受到限制。不幸的是,这些属性基本上排除了DT在更复杂的现实世界场景中的应用。鉴于DNN和DT的相互排斥的好处和限制,因此希望将DNN和DT集成到称为神经树的单个模型中,希望保留两个世界的互补优点。为实现这一雄心勃勃的目标,已经进行了若干试点工作。例如,Frosst和Hinton采用软决策树来模拟神经网络的输出,以获得更好的可解释性[8]。然而,由于每个决策都是在原始输入空间中做出的,并且不执行表示学习,因此通过牺牲性能来实现Kontschieder等人提出了深度神经决策森林(DNDF)[19],一个DT的集合,其中每个DT都建立在Inception V1 [35]上。尽管有希望的准确性,cum-bersome骨干和网络参数和预测分布的单独的优化流水线呈现训练和推理都非常昂贵。预定义的模型结构也使其不适应任务。最近,Tannoet al.自适应神经网络5048|NN{}∈X ∈ YE E N ×N{N E}N我X我∈N≥∈N X →Ral Trees(ANT)[36]继承了DNN的表示学习和DT的轻量级推理。不幸的是,ANT依赖于次优的渐进方案来逐层生长树,其中每个操作都以贪婪的方式在几个预定义的操作中进行选择,使其易于局部最优并且难以扩展到像ImageNet [5]这样的大型数据集。在本文中,我们提出了一种新的方法来学习神经树从DNN,被称为自出生布线(Se-BoW),通过这两个类别的优点是自然的统一。与依赖于逐渐生长的树或限于特定树结构的现有方法相比,我们的任务定制神经树通过破坏式构造的方式从用户指定的母DNN架构(如VGG)中进化而来。这样一个自我生成的学习过程,反过来,允许在神经树搜索上的全局级参数优化。以这种方式导出的神经树不仅享有可学习的分层表示和有效的推理,而且由于全局树架构优化,产生的结果显著优于先前神经树方法的结果,甚至与基于DNN的方法相当。具体来说,SeBoW通过破坏用户指定的网络配置(如VGG [33])开始学习过程,通过删除跨层的所有连接并将网络变成隔离层的集合。每一层中的神经元或滤波器,除了作为根的第一层之外,被进一步分解成几个相等大小的滤波器组,每个滤波器组仅具有截断滤波器的子集,并且作为特征学习器。然后,我们采用路由器进行布线,这些分散的过滤器组,以便在不同的层导航的自适应决策路径在最后一层,我们在每个过滤器组的末尾安装一个求解器来进行最终预测。学习器、路由器和求解器构成了SeBoW的完整搜索空间。与之前的神经树推理和更好的解释性,由于其赋予的决策树的性质。总之,我们的贡献是一种新的神经树学习方案,称为SeBoW,它具有来自母DNN的任务定制神经树,使DNN和神经树的优点能够自然保留。通过破坏的构造学习过程允许全局级树架构搜索,其因此产生具有令人鼓舞的性能的胜任的神经树。实验表明,衍生的树产生的性能显着优于现有的树方法,甚至与流行的DNN在大规模数据集(如ImageNet)上获得的结果相当。2. 自生布线在本节中,我们描述了所提出的方法SeBoW,以制作任务自适应神经树。训练数据由下式去注释:( x1, y1),( x2, y2),...,(xN,y N),x,y。目标是学习条件分布p(yx)。我们首先介绍用于神经树的模型拓扑结构和操作。然后,我们描述了如何设计搜索空间的神经树的基础上流行的DNN架构。最后,我们描述了如何树结构和参数同时优化。2.1. 模型拓扑和操作我们将神经树的模型拓扑定义为一对(T,O),其中T定义模型拓扑,O表示其上的操作集。本文采用有向无环图(DAG)来表示模型的拓扑结构,T:=、得双曲余切值.是节点的集合,是它们之间的边的集合。内部节点由int表示,并且叶节点由叶表示。T由三个基本操作组成:学习、路由和求解。每个节点都被分配了O中的操作,这将DAG转化为决策树。这些操作由以下模块实现其中中间节点被贪婪地优化并且被分离。SeBoW运行所有可能的决策路径• 学习者:每个内部节点用学习者ψint 树的形状是--搜索空间,并采用广泛使用的负对数似然(NLL)损失来训练整个模型,使训练像训练流行的DNN一样简单。有趣的是,我们的路由器设计有效地对跨层组之间的布线施加了很强的稀疏性约束,导致只有少数活动模块,其余模块保持沉默。最后,一个轻量级的决策树可以提取安全地删除这些不活跃的模块。在包括ImageNet在内的多个数据集上进行了广泛的实验,与现有的基于树的模型相比,SeBoW以更低的计算成本获得了更高的准确性。更令人鼓舞的是,SeBoW甚至达到了与非树网络相比的同等或有时更高的性能,更不用说它的速度了li,由ψ参数化,其将数据从父变换到其子。学习器是表征学习的关键模块,它们是通过堆叠一些广泛使用的层(在第2.2节中详述)来实现,包括卷积层、ReLU层、批归一化层和池化层。• 路由器:跟随内部节点iint,附加由θ参数化的路由器模块r θ:=i[0,1]Ni,以将传入数据发送到其子节点。 这里i表示路由器rθ的输入数据空间。这里我们对子树的数量没有限制,这意味着决策树不一定是二叉树,即,N12。这放宽了以前基于树的模型中5049我|X → Y◦联系我们× ××× ××F F F◦ F◦ F∈L\LFL1Ci/CpQpQL {}j jjL {L L}j jj图1.所提出的自生布线管线的说明性示例。左:(a)VGG-13被用作母DNN以设计搜索空间。(b)将DNN分成5个部分。(c)把基础学员从各部门中分离出来。(d)为每个内部学习器安装一个路由器,为每个叶学习器安装一个求解器,然后获得完整的搜索空间。红色路径是根据节选择。2.3.2. (e)从(d)中选择一个神经树右图:路由器的两个基本组件(1)发送者探索概率分布。(2)接收机融合各种特征。 蓝色的公式代表数据,而其他的则捐赠网络模块。• 解算器:每个叶i∈ N叶被分配一个解算器模s φ:我,由φ参数化,其对变换后的数据进行运算并输出条件分布p(yx)的估计。在本文中,我们专注于分类任务,从而实现求解器的全连接层和softmax层。请注意,与ANT [36]不同,我们不向边缘分配任何操作。它们仅用于数据流。模型拓扑结构和定义的操作勾勒出神经树的广泛视图。在下面的部分中,我们将介绍SeBoW如何生成任务自适应神经树2.2. 神经树的搜索空间为了设计神经树的搜索空间,我们使用VGG [33]等母DNN的网络配置作为起点,如图1(a)所示。这适度地减轻了我们设计搜索空间的负担例如,我们不需要考虑数据应该沿着神经树中的决策路径下池多少次。设计空间的流水线如图1所示。然后,为了简单起见,我们将设计树空间的工作描述为三步过程:解包基本学习器、安装路由器和安装求解器。2.2.1解包基础学习者我们从广泛使用的DNN中解包基础学习器,这些学习器将用作神经树中的学习器。为此,我们首先将DNN切割成几个部分,每个部分内部都有一个池化层。形式上,let表示DNN下的函数,然后假设DNN被切割成S个部分。第i个片段下面的函数用符号表示为I.则可以写成=S…21,其中符号表示函数组合。每个每个部分包含多于一个卷积层,并且同一部分中的每个卷积层包含相同数量的滤波器1。设C i表示第i个部分中的滤波器的数量,则滤波器可以表示为WiH iC i−1C i张量。遵循组卷积的思想[20],对于每个i 1,2,… S,我们将第i个部分分成C i/C组,其中卷积层包含固定大小的WiH iC C滤波器。C是预定义的超参数。 我们将这些分裂的组视为基本学习者,并通过= 1,... S,其中i=11,…li是从第i部分解包的基本学习器的集合,如图1(b)和(c)所示。这些基本学习器在神经树的表示学习中起着重要的作用为了更好地说明,我们将学习器li的输入数据表示为xi,将输出表示为yi,即yi= li(xi)。2.2.2安装路由器学习器的数量决定了搜索空间中节点的数量。 我们将S视为叶学习器的集合,而将LS视为内部学习器。在这一步中,我们安装路由器,将孤立的学习器转换为连接的DAG。对于任意两个学习器li和lj,当且仅当j = i +1时,允许从li到lj的数据流。在这项工作中,我们采用两种类型的路由器,命名为发送者和接收者,以直接1在流行的设计理念中,滤波器的数量仅在池化层之后改变。Conv3-CConv3-CMaxPoolF1L1学习路由器求解器Conv3-2CConv3-2CMaxPoolF2L2- -路由器Conv3-4CConv3-4CMaxPoolF3L3- -(1)发送概率Conv3-8CConv3-8CMaxPoolF4L4----- -一种--- -一种-Conv3-8CConv3-8CMaxPoolF5L5-------- -一种- -(a)VGG-13(b)切入部分(c)打开基本学习程序(d)安装路由器求解器(e)神经树(2)接收数据MaxPoolConv3-CConv3-C接收器发送者Conv 3-C/2 Conv3-C/2平均池线性Softmax5050pJ={wJj,kJj,kKJJJJJj,kJp(z i= 1|x,Θi)=p(zi−1|x,Θi−1)·ri−1(zi=1|x,θ),pΣpK|Σj||j使数据流经网络。发送者在-Yi−1 =[yi−1,yi−1,. 。。 ,yi−1]且Xi捐赠出-在每个内部学习者之后停止,以便为1个2个把Ci−1/Cj输出数据。理想情况下,对于来自特定学习器的输出,发送方在下一节中仅选择学习器的子集具体来说,发送器由两个卷积层实现,一个是用于提取特征向量的自适应平均池化层,一个是全连接层,后面是softmax层。 对于初学者li,已安装的发送者由ri表示。它实际上是一个Ci+1路分类器第j个接收器。2.2.3安装解算器叶学习器之后,数据特征变得低维。最后,我们将求解器s附加到每个叶学习器ls以进行最终任务预测。求解器由全连接层和softmax实现pC层。在下面的学习器中进行选择以传递数据,如图1(1)所示。在发送者的帮助下,路由数据以使其流过网络似乎就足够了。 然而,不同部分中的学习器以这种方式交错,这使得模型仍然是神经网络而不是神经树,并且难以解释。DT的一个重要特征是DT中的每个节点仅从一个父节点接收数据,这带来了更好的可解释性。为了强制当前学习器仅从上一节中的一个学习器接收数据,我们在每个学习器之前放置接收器以决定学习器接收哪些输入数据。接收器从连续采样分布中采样分类值。为了实现采样操作的可微性,我们利用Gumbel-Softmax [15]来实现接收器。形式上,对于第i部分中的第j个学习者,我们构造一个向量2.3. 优化如图1(d)所示,整个搜索空间可以被视为深森林或专家的分层混合(HME)[17],其中的每一个由以下实现:多层网络和根到叶决策路径。每个专家学习一些专门的特征,这些特征可能对不同的子任务有用。优化的目标是训练整个模型的最终目标与隐含的稀疏性约束的路由器,这使得模型适应任务,并产生一个轻量级的神经树。2.3.1概率模型与推理输入X基于路由器的决定随机地遍历树,并且经历一系列的变换。我我jj,1ij,2、...、wij,Ci−1/C 表示连接-直到它到达对应的叶子节点为止。从前一节中的学习者到学习者ii的积极性。每个元素wi存储表示学习器li-1的输出被接收器采样以传递给学习器li的可能性有多大。在前向传播期间,接收器基于以下分布做出从分类分布得出的离散决策:hi= one hot {arg max(log w i)+k}。(一)求解器预测标签y。回想一下ψ、θ和φ分别表示学习器、路由器和求解器的参数我们使用Θ来表示所涉及的参数,即Θ={ψ,φ,θ}。预测分布为CS/Cp( yx,Θ)=p( z=1x,ψ,θ)p( yx,z=1,φ,ψ),jL`eaf-reachingprobabilitxy`solvev erprdictionx(三)这里hi是一个独热向量,维数与其中,第一项p(z,j|x,ψ,θ)表示概率J上一节中的学习者人数∈RCi/C到达第j片叶子的概率。 第二项p(y|x,z j=是一个向量,其中元素是从Gumbel分布(0,1)中提取的i.i.d样本,以添加少量噪声,以避免argmax操作总是选择具有最高概率值的元素。为了实现离散采样函数的可微性,我们使用Gumbel-Softmax技巧来在表示由第j个求解器产生的预测分布。通过将路由概率从根传播到节点具有以下传播规则的叶节点:CiΣC反向传播为exp((logwi+ε)/τ)jjk=1jkj(四)Ij(二)其中p(z)是=1|x,Θ)表示达到hj=K exp((logwi、+k)/τ)J第i个部分中的第j个节点。 ri-1表示路由其中τ是控制近似后分布的尖锐程度的温度最终,我们将采样操作公式化为:xi=hi·Yi−1,其中发送方在第(i-1)段的第k个学习者之后产生的概率Θi表示用于计算到达学习者Ii的路径概率的所有涉及的参数。W,wK5051+ GAP +LC+ GAP +LC+ GAP +LC×个×个×个×个×个×个×个--------ΣΣ×个2.3.2损失函数与树的选择模型发送者学习者求解器所提出的模型的训练分两个阶段进行:搜索阶段和再训练阶段。 在搜索阶段,整个模型被优化以在大搜索空间中搜索轻量级神经树,如图1(e)所示我们采用负对数似然(NLL)SeBoW-A2×Conv3-48SeBoW-B2×Conv3-72SeBoW-C2×Conv3-1282Conv3-96+ BN + ReLU+ MaxPool2Conv3-144+ BN + ReLU+ MaxPool2Conv3-256+ BN + ReLU+ MaxPoolGAP+LCGAP+LCGAP+LC损失作为优化模型的目标函数:表1.原始模块的详细信息。“Conv3-48” represents the “GAP”,“LC”, “BN”NCs/CJ=−logp(Y|X,Θ)=−lo g()p(yy(n)|x(n),Θ),“MaxPool”n=1i=1(五)哪里X=x(1),x(2),…,x(N)和Y=y(1),y(2),…,y(N)分别表示训练输入和目标在路由器中使用Gumbel-Softmax技巧,所有模块都可以相对于其参数进行微分,因此我们采用随机梯度下降来以端到端的方式优化模型。在搜索阶段之后,如果从先前发送者获得的条件概率大于阈值C/(2Ci),则我们保留第i部分中的节点。之后,再训练阶段从头开始重新训练导出的神经树[23]。3. 实验3.1. 实验设置数据集。采用四个具有不同复杂度的分类基准数据集,包括CIFAR 10 [2],CIFAR 100 [2],tiny-ImageNet[21]和ImageNet [5],以全面评估所提出的方法SeBoW的通用性和有效性。这些数据集跨越一系列大小和输入分辨率。CIFAR10 [5]和CIFAR100 [5]各自包含60k32 32像素图像。Tiny-ImageNet [21]由分辨率为64 64的11万张图像组成,ImageNet [5]数据集包含来自1000个不同类别的133万张图像,分辨率为224 224。网络架构。对于ImageNet,我们基于截断的VGG-13[33]的网络配置构建了一个搜索空间,其中删除了所有完全连接的层。将输入数据向下合并5倍通过VGG-13,所以我们把模型切成5个部分,如第2.2节所述。每节的学习人数分别为1、2、4、8、8。对于CIFAR-10、CIFAR-100和tiny-ImageNet,由于图像分辨率比ImageNet小得多,需要四倍的下池足以提取低维特征。我们构造的搜索空间只有前四个部分,与学习者的数量为1,2,4,8。为了全面评估所提出的方法,我们设计了三个变体的SeBoW,由SeBoW-A,SeBoW-B和SeBoW-C,具有不同的能力。表1总结了这些模型的详细信息培训详情。 我们使用初始学习率为0的SGD。1.一、在30个时期之后,学习率每20个时期衰减一半,直到达到100个时期,在那里训练停止。我们将批量大小设置为128,权重衰减为10−4,Nesterov动量为0。9 .第九条。在网络搜索阶段,我们初始化的连接向量,在所有接收机均匀分布,以鼓励在早期阶段的自由探索。温度τ被设置为10并且衰减时期的数量以在后期利用收敛的拓扑分布。我们在搜索阶段使用相同的训练集,但将权重衰减设置为5 10-4,从头开始在训练集上重新训练选定的最终架构。详情请参阅补充资料。推理模式。由于SeBoW的决策树性质,推理可以以两种方式执行:多路径推理和单路径推理。多路径推理通过在导出的神经树中的所有可能路径上运行来计算加权预测分布,使得树中的所有求解器将有助于最终预测。然而,在单路径推理,只有最可能的路径被执行的基础上的路由器的路由概率,这享有较少的推理成本与一些准确性下降。3.2. 基准比较我们比较了SeBow与三组现有模型的性能:(1)典型的人类工程DNN,包括VGG [33],ResNet [11],GoogleNet [35]和MobileNet [12];(2)神经决策树,包括自适应神经树(ANT)[36],面向神经图的神经决策树(NDT)[37],深度神经决策森林(DNDF)[19] , 条 件 CNN [13] 和 可 解 释 的 观 察 者 分 类 器(XOC)[1];(3)由于所提出的神经树可以看作是一个多分支网络,我们还将其与一些广泛应用于多任务学习的多分支模型进行了比较。这些模型包括路由网络[29],学习分支[10]和十字绣[24]网络。我们实现了一些这些竞争对手与所提出的方法相同的训练设置。实验结果的准确性和模型COM-5052随机-1随机-1随机-3随机-392.51(±0.15)ResNet-18[11]11.7M 69.76 89.08ResNet-18 [11] 11.2M 92.98(±0.17)最大切割DT [4]N/A34.90紧凑型BT [25]N/A48.56gcForest [42]N/A61.78/61.78条件CNN [13]>0.5M90.00<条件CNN[13] ≈ 30 M-86.20SeBow-C(单路)14.78M 69.86 89.17ANT-CIFAR10-C[36]0.7M/0.5M90.69/90.66ANT-CIFAR10-B[36]0.9M/0.6M90.85/90.82ANT-CIFAR10-A[36]1.4M/1.0M91.69/91.68ANT-CIFAR 10-A(合奏)[36]8.7M/7.4M92.29/92.21XOC [1]+ ResNet-18> 11.2M93.12(±0.32)LearnToBranch-Deep-Wide [10] 3.5M 91.98(±0.57)SeBoW-A 1.0M/0.7M93.45(±0.12)/93.41SeBoW-B 2.7M/1.6M94.00(±0.18)/93.93SeBoW-C 5.8M/4.6M94.33(±0.14)/94.24表2.CIFAR-10的性能比较带下划线的数字表示单路径推断的结果。斜体字体意味着结果是从原始论文中复制的。“N/A”means not方法参数准确度(%)MobileNet [12] 2.4M 53.91(±0.32)VGG-13 [33] 28.7M 72.70(±0.42)ResNet-18 [11] 11.2M 72.28(±0.28)最大切割DT[4] N/A12.40无损检测[37]14.1M 15.48DNDF [19]+ ResNet-18> 11.2M 67.18ANT-Extend [36] 4.2M/4.2M65.81(±0.12)/65.71[24,29]-53.0表5. ImageNet上的性能比较。提供前1和前5精度例如,在CIFAR-10上,SeBoW达到94. 24%的准确率,只有4。6M参数。然而,ResNet-18仅达到92。98%,11。2M参数。(2)在ImageNet上,以前的树模型很少探索,与其搜索空间VGG-13相比,SeBoW(3)可以看出,精度比较结果为SeBoW-A SeBoW-B SeBoW-C。<<随着基本学习器中过滤器的增加,模型容量变得更大。更大的容量带来了显著的性能提升。(4)对于所有的实验,单路径推理产生的多路径推理相比,只有轻微的准确性下降。它证明了SeBoW的有效性在搜索稀疏连接的树在密集的有线搜索空间。路由网络[29]-60.50(±0.75)LearnToBranch-Deep-Wide [10] 6.7M 72.04(±0.23)SeBoW-B 1.9M/1.5M71.79(±0.23)/71.59SeBoW-C 4.2M/4.2M74.59(±0.33)/74.59表3.CIFAR-100数据集上的性能比较方法参数准确度(%)MobileNet [12] 2.5M 46.12(±0.73)GoogleNet [35] 6.8M 48.85(±0.52)VGG-13 [33] 28.7M 56.10(±0.57)ResNet-18 [11] 11.2M 55.32(±0.75)DNDF [19]+ ResNet-18>11.2M 44.56SeBoW-C 8.4M/4.8M58.77(±0.39)/58.43(±0.45)1009590851009896949290五六十五六十、、、70 80 90历元、、、70 80 90历元100100,在CIFAR-10072717069686750 60 70 80 90 100历元,在CIFAR-10075747372717050 60 70 80 90 100历元表4.tiny-ImageNet数据集上的性能比较表2、3、4和5分别提供了四个基准数据集的复杂性(参数的数量)。所有这些结果通过对三次单独运行求平均值来计算。请注意,我们提供了一些基于树的模型的多路径和单路径(以下划线字体显示)推理的结果,以更全面地了解所提出的方法。根据这些结果,我们可以得出以下结论:(1)在CIFAR-10、CIFAR-100和tiny-ImageNet上,SeBoW的性能始终优于模型尺寸较小的几乎所有类型的竞争对手。对于前-图2. SeBoW和随机布线模型的精度曲线。最好用彩色观看。3.3. 消融研究自生布线与随机布线。为了验证所提出的自生布线(SeBoW)的有效性,我们将其与随机布线进行比较,其中不同基础学习者之间的连接是随机确定的。实验结果见表6,一些准确度曲线见图2。我们可以看到,SeBoW在不同的实验集下产生一致更高的最终精度,与随机布线SeBoW-BSeBoW-C随机-2列车接入(%)随机-2列车接入(%)确认累积(%)方法参数。准确度(%)方法参数。Top-1 Acc.前5名Acc.[第12话]VGG-13 [33]2.2M28.3M85.90(±0.23)VGG-13[33]133.0M69.9389.25确认累积(%)XOC[1]+ ResNet-152>60.2M60.77-SeBow-C(多路径)16.90M70.1389.985053--------数据集方法体系结构参数。准确度(%)SeBoW-A{ 1,1,1,3}1.0M/0.7M93.45/93.41方法触发速度(批次/毫秒)准确度(%)VGG-13 248.3M 64.85 92.51CIFAR10随机随机生成2.9M/0.9M91.71 /91.230.6M/0.6M92.55 /92.551.4M/0.7M92.18 /92.071.0M/0.7M83.32 /83.21ANT-B 163M/149M87.51/90.4390.85 /90.82ANT-A 254M/243M40.00/41.5091.69 /91.68SeBoW-A151M/146M 89.23/90.91 93.45/93.41SeBoW-B 1,1,2,3 2.7M/1.6M94.00/93.936.4M/1.9M93.41 /93.09随机生成1.3M/1.3M93.63 /93.633.2M/1.7M93.57 /93.492.7M/1.6M84.04 /84.01表8.触发器,CIFAR-10上的推理速度。带下划线的数字表示单路径推断的结果。SeBoW-B 1,1,1,2 1.9M/1.5M71.79 /71.596.5M/1.9M70.40 /70.08数据集模型阶段1阶段2CIFAR100随机生成1.3M/1.3M71.12 /71.123.3M/1.6M70.63 /70.401.8M/1.5M63.42 /63.38时间段时间段SeBoW-C{ 1,1,1,1}4.2M/4.2M74.59/74.5920.5M/6.2M72.52 /72.22随机CIFAR100SeBoW-C1.5(hr)1000.8(hr)100随机生成7.0M/4.6M73.71 /73.5910.3M/5.4M73.58 /73.336.9M/4.6M67.04 /67.02表6.网络体系结构的消融研究。“Architecture” represents thenumber of learners in each东西。这些结果验证了所提出的神经树布线方法的有效性。发送者和接收者。在表7中,我们提出了SeBoW的另外两个变体来验证路由器的必要性,一个没有发送器,另一个没有接收器。无接收机的模型发送的数据加权的路径概率,而不是采样向量,但由此产生的结构总是退化成一个单一的分支,次优的结果,即。1,1,1,1-架构。没有发送方的模型使用等式1给出的分布选择最终的网络架构,但没有噪声ε。值得注意的是,该模型不能计算路径概率,因此单路径推断不适用。我们发现使用发送者和接收者的模型总是产生数据集方法S.R.参数。准确度(%)表9. ANT和SeBoW的训练时间。这两个阶段是ANT [36]中的增长和细化阶段,SeBoW中的架构搜索和再训练阶段。最佳top-1精度。我们推测,采样分布融合了各种特征,以获得更鲁棒的架构选择,多路径下的概率分布有助于网络获得最优结果。推理速度。为了验证轻量级的SeBoW,我们调查了各种模型的触发器和推理速度。我们选择CIFAR-10作为实验数据集,并在表8中显示结果。实验运行在一个单一的GeForce GTX 1080钛与批量大小为256。可以看出,我们的SeBoW实现了比神经树和母DNN更高的测试精度和推理速度,这表明了自生成布线的价值。训练时间。为了证明SeBoW在训练效率方面的优越性 ,我 们 在类 似 数 量的 参 数下 比 较了 ANT [36]和SeBoW。表9总结了在配备16GB内存的单个QuadroP5000 GPU上运行三次所需的平均时间这表明SeBoW由于其全局性而比ANT时间效率更高CIFAR10JSeBoW-AJ0.6M/0.6M92.55 /92.551.1M 91.33在可微体系结构空间中进行优化,而不是为了体系结构增长而进行贪婪进化。J1.3M/1.3M93.63/93.63SeBoW-BJ2.5M 92.72J J 2.7M/1.6M94.00/93.933.4. 解释性J1.3M/1.3M71.12/71.12在这里,我们证明了SeBoW表现出更好的内部-CIFAR100SeBoW-BSeBoW-CJ3.9M 52.89J J 1.9M/1.5M71.79/71.59J4.2M/4.2M74.59/74.59J10.3M 58.12由于其固有的决策树性质,DNN具有更好的适应性SeBoW的培训分为两个阶段。我们在图3中可视化CIFAR 10上SeBoW-C结果表明关于ImageNetJSeBoW-CJ4.2M/4.2M54.42 /54.4218.0M 42.01SeBoW能够将类别划分为具有相似语义或视觉线索的几个组。该模型首先对JImageNet SeBoW-CJ5.6M/5.6M68.12 /68.1219.80M 62.29将所有类别分为两组,分别为{汽车,卡车}和J J 16.90M/14.78M70.13/69.86表7.架构模块的消融研究。列“S”。和R表示发送者和接收者。动物船飞机汽车和卡车都是有轮子的交通工具,它们在外观上是相似的。在另一个分支中,由于飞机设计原理来源于与鸟类特性有关的仿生学,如飞机机翼随机随机JJ1.0M /0.7M93.45/93.41JJ4.2M /4.2M74.59/74.59JJ8.4M /4.8M58.77/58.43[36]第三十六话1.7(小时)2651.5(小时)200SeBoW-B1.3(小时)1000.5(小时)1005054- -- ----------一种联系我们(a) 搜索空间(b)搜索结构图3.决策路径上类分布的可视化(a)示出了该模型从完整的搜索空间捕获层次结构(b) 展示了所搜索的架构进一步极化不同类别中的样本的路径概率和鸟的翅膀,这些文物和动物之间有一定的形态相似性。这一类别组又按模型进一步分为船舶、飞机和动物,这可能是由于金属材料和动物皮毛的特性不同所致。然而,需要指出的是,人类对类别关系的直觉并不一定等于最优网络架构。SeBoW可以从模型本身的角度探索类别之间的关系,从而支持我们模型的可解释性。补充材料中提供了所有学习过的网络架构4. 相关作品神经决策树结合了决策树和神经网络的特征,以探索具有两种方法互补优势的网络结构,从而产生一个用于分离推理的轻量级模型[39,38]。早些时候,基于树的神经网络[17,8]仅对给定样本执行从上到下的路径选择,而没有任何表示学习,因此限制了它们的性能。现代基于树的神经网络[19,16]通过将特征的非线性变换集成到树中来增强性能。Xiao [37]提出了一种使用根Transformer MLP的方法,并优化了网络以最小化信息增益损失。Kontschieder等人[19]和Ji等人。[16]采用传统的手工制作的网络[33,11,35]作为根Transformer,从而产生令人惊讶的性能。上述所有模型都是预先指定的和固定的,表现出有限的灵活性与任务。软决策树[34,14]基于验证集错误贪婪地生长具有终止标准的新节点自适应神经树[36]通过具有水平限制的渐进式增长来优化架构,以避免过度拟合。决策丛林[32]认为多个子树的输入空间是可合并的,从而避免“分裂”算法可能陷入的局部最优神经架构搜索(NAS),出现在迷你通过允许自动设计网络体系结构来最大化人为干预。现有的NAS研究工作可以分为模块化搜索策略和连续搜索空间[28]。基于小区的搜索空间[22,7,40]被广泛用于各种NAS任务,因为它可以通过堆叠小区来迁移到不同的任务,与全局搜索相比,这有效地降低了NAS的成本。早期的作品将网络架构搜索视为基于贝叶斯优化的离散搜索空间中的黑箱优化问题[6,18,41],进化算法[27,26]和强化学习[3,43]。为此,DAS [30]致力于将离散的网络架构空间转换为连续可微分的形式,并使用梯度优化技术来搜索最佳网络架构。5. 结论在本文中,我们介绍了一种新的方法,称为Self-born Wiring,从预定义的深度神经网络自动构建神经树。与现有的神经树方法不同,这些神经树方法要么将自身限制于预定义的结构,要么依赖于贪婪算法来生长分层,SeBoW执行通过破坏的构造过程,该过程使得全局级布线优化能够学习树架构。实验结果表明,衍生的神经树产生的结果甚至与大规模数据集上的DNN相当。在我们未来的工作中,我们将探索SeBoW在分类问题之外的其他视觉任务。致谢。本课题得到了浙江省重点研究发展计划(2020C 01024)、中央高校基础研究基金(2021 FZZX 001 -23)、阿里巴巴-浙江大学前沿技术联合研究院、新加坡国立大学创业基金的资助。飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗蛙马船箱飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车飞机汽车鸟猫鹿狗青蛙马轮船卡车5055引用[1] 斯蒂芬·阿拉尼兹和泽尼普·阿卡塔。XOC:可解释二元决策的可解释观察者分类器。CoRR,abs/1902.01780,2019。[2] 杰弗里·辛顿亚历克斯·克里热夫斯基。从微小图像中学习多层特征,2009年。[3] Bowen Baker 、 Otkrist Gupta 、 Nikhil Naik 和 RameshRaskar。使用强化学习设计神经网络架构。在ICLR,2017。[4] Jonathan Bodine和Dorit S.霍克鲍姆最大割决策树:提高决策树的准确性和运行时间。CoRR,abs/2006.14118,2020。[5] J. Deng,W.东河,巴西-地索赫尔湖李凯李飞飞。Imagenet:一个大规模的分层图像数据库。 CVPR,第248-255页[6] Tobias Domhan , Jost Tobias Springenberg , and FrankHutter.通过学习曲线的外推来加速深度神经网络的自动超参数优化。在IJCAI,第3460-3468页[7] Jin-Dong Dong,An-Jieh Cheng,Da-Cheng Juan,WeiWei,and Min Sun.Dpp-net:设备感知渐进式搜索帕累托最优神经架构。在ECCV,第540- 555页[8] Nicholas Frosst和Geoffrey E.辛顿将神经网络提炼成软决策树。In(AI*IA),2017.[9] J. Gall和V. Lempit
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功