没有合适的资源?快使用搜索试试~ 我知道了~
1反馈网络阿米尔河Zamir1,3分钟 吴德林1孙林1,2威廉B.Shen1Bertram E.希滕德拉·马利克3 SilvioSavarese11斯坦福大学2香港科技大学3加州大学伯克利分校http://feedbacknet.stanford.edu/摘要目前,计算机视觉中最成功的学习模型是基于学习连续表示,然后是决策层。这通常通过前馈多层神经网络来实现,例如。ConvNets,其中每一层都形成这样的连续表示之一。然而,可以实现相同目标的替代方案是基于反馈的方法,其中基于从先前迭代的输出接收的反馈以迭代方式形成表示我们确定基于反馈的方法与前馈相比具有几个核心优势:它使得能够在查询时进行早期预测,其输出自然符合标签空间中的分层结构(例如,一个分类单元-公路自行车展开对象T/4车辆...2T/4轮式车辆船3T/4自行车4T/4时间公路自行车双人自行车时间omy),为课程学习提供了新的依据我们观察到,反馈开发了一个相当不同的- ent表示相比,前馈同行,符合上述优点。我们提供了一个通用的基于反馈的学习架构,使用现有的RNN实例化,端点结果与现有的前馈网络相当或更好,并增加了上述优点。1. 介绍反馈被定义为当系统的(全部或部分)输出作为迭代因果过程的一部分被路由回输入时发生[13]。在从控制理论到心理学的各个领域,利用反馈是一种强大的预测方法[34,44,2]。采用反馈连接也是大脑的重要工作[22,47,47,8,35],这表明它在复杂认知中发挥着核心作用在本文中,我们建立了一个基于反馈的学习方法有几个核心优势,通常采用的前馈范式,使其成为一个值得的选择。这些优点(详细说明如下)主要归因于这样一个事实,即最终预测是以迭代的方式进行的,而不是一次性的方式,以及每次迭代到目前为止的输出的明确概念。早期预测:一个优点是提供早期*作者贡献均等。目标函数1个目标函数2目标函数。3目标函数。4图1. 基于反馈的学习模式。其基本思想是基于如此遥远的未来的概念以迭代的方式进行预测。这提供了几个核心优势:实现早期预测(给定总推理时间T,以T的分数进行早期预测);二.自然符合输出空间中的分类;和三.更好的课程学习基础。预测,这意味着对输出的估计可以在总推理时间的一小部分中提供。这在图1中示意性地示出。1.一、该属性是迭代推理的结果,并且与前馈相反,前馈仅在信号到达网络末端时提供一次性输出。这在实际场景中特别重要,例如机器人或自动驾驶;例如,设想自动驾驶汽车接收到关于可能接近高速公路上的行人的提示,而不需要等待最终的确定输出。此类场景在实践中非常丰富,因为通常时间至关重要,并且可以基于早期预测实时重新分配有限的计算资源,给定适当的不确定性度量,例如最小贝叶斯风险[33]。Taxonomy Compliance:另一个优点是做出自然符合输出空间中的分层结构的预测,例如,分类法,即使没有使用分类法进行训练。反馈模型的早期预测符合粗略分类,而1308分类预测课程学习早期预测1309后面的迭代进一步将粗类分解成更细的类。这示于图1.一、这也是因为预测是以迭代的方式发生的,并结合了从粗到细的表示。从粗到细的表示是自然发展的,因为网络被迫早在第一次迭代时就做出预测,并在所有后续迭代中迭代地改进它。情景课程学习:之前的优势与课程学习的概念密切相关[4],逐渐增加任务的复杂性会导致更好的培训[12,4,32]。对于非凸训练标准(例如ConvNets),已知课程可以帮助找到更好的最小值;在凸情况下,它可以提高收敛速度[4]。由于前馈网络中的预测以一次性方式发生,因此必须通过以基于复杂性的顺序(即,第一个时代形成的简单的例子,后来的困难)。相反,反馈模型中的预测是以迭代形式进行的;这使得能够通过针对一个查询的预测片段来实施课程。我们称之为情景课程学习。换句话说,可以针对一个数据点(例如,训练早期片段以预测物种,训练后期片段以预测特定品种)。因此,任何分类法都可以用作课程策略。在我们的模型中,我们将基于反馈的预测定义为一个递归(权重)共享操作,在每次迭代中然后,下一次迭代使用共享操作和接收到的隐藏状态进行更新的预测。隐藏状态必须带有输出的方向概念,否则整个系统将是通过循环操作实现的前馈传递[37]。因此,我们训练网络在每次迭代时通过反向传播所有迭代中的损失来进行预测我们为这种网络采用了一种通用架构,使用现有的RNN进行实例化,并在各种数据集上实证证明了上述优势虽然我们证明了反馈方法可以获得合格的最终结果,但本文的主要目标是建立上述概念属性,而不是在任何基准上优化端点性能。解压缩的架构和预训练的模型可在http://feedbacknet.stanford.edu/上获得。2. 相关工作在机器学习方面有大量的研究[58,45,56,43,59,16,17,61,51,15,5,50]。和神经科学[14,25,64],与基于反馈的学习有共同之处。我们提供了一些最相关的作品的分类概述。传统的前馈网络,例如AlexNet [31],不采用递归或反馈机制。一许多最近成功的方法在前馈模型中使用了递归启发机制。一个例子是ResNet [19],引入了并行剩余连接,以及超网络[18],高速公路网络[53],随机深度[24],RCNN [37],GoogLeNet [55]。这些方法仍然是前馈的,因此将输出逐步注入系统对于形成适当的反馈是必不可少我们的经验表明,反馈机制,除了复发,确实是至关重要的(表4)。最近的几种方法明确采用了反馈连接[7,3,66,36,38,27],并对其感兴趣的任务产生了有希望的结果。这些方法中的大多数是特定于任务和/或模型时间问题。在这里,我们提出和调查的核心优势,一般的反馈为基础的推理。我们还应该强调,我们模型中的反馈总是在隐藏空间中。这使我们能够开发通用的基于反馈的架构,而不需要特定于任务的错误输入功能[7](参见补充材料(第(2)更多的堆叠推理方法也是另一组相关的作品[63,62,58,57,46]。与这里研究的方法不同,他们中的许多人孤立地对待他们的输出和/或不采用权重共享。另一种方法使用反馈机制,如空间注意力[67,6,41,41,60,54]。这通常用于更好地建模长期依赖性,计算效率和空间定位。最后,值得注意的是,课程学习[12,32,4]和对分类法的预测[23,52,9,11,28]在文献中得到了很好的研究,尽管没有提供基于反馈的方法,这是我们的重点。3. 反馈网络基于反馈的预测有两个要求:(1)迭代性和(2)在每次迭代中将后验(输出)的概念重新路由回系统。我们通过采用卷积递归神经网络模型并将损失连接到每次迭代来实例化这一点。整个过程可概括为:图像重复地经历共享卷积运算,并且每次都进行预测;训练循环卷积运算,以在每次迭代时产生最佳输出,给定携带至此输出的方向符号的隐藏状态。这在图中被描绘。二、3.1. 卷积LSTM公式化在本节中,我们分享了我们的反馈模型的细节,该模型基于堆叠Con- vLSTM [66]模块的灵活变体,基本上用卷积结构1替换了LSTM [21]单元中的操作。LSTM单元使用隐藏状态来传递信息1参见补充材料(第二节)。7)讨论LSTM的替代方案,包括GRU,vanilla RNN和消融LSTM。1310γ tL,其中L=−log ett−1不t t t−1ttConvLSTM模块输出的过程(池化、全连接层等)为了简单起见而忽略。 Lt是时间t处的交叉熵损失,而C表示正确的目标类别编号,L是总损失:[C]L=ttHD[j] et.(四)图2. 我们的核心反馈模型和跳跃连接(以红色显示)的图示。“ConvLSTM”和“L”框分别表示卷积运算和迭代损失。迭代我们简要描述堆叠ConvLSTM和其中的门之间的连接:我们将时间顺序参数化(即,迭代),时间t=0,1,...,T和ConvLSTM模块在深度d=0,1,.,D.在深度d和时间t处,ConvLSTM模块的输出基于spa。t=1jγ是确定早期预测值与后期预测值的常数贴现因子;在我们的实验中,我们设置γ = 1,这使得所有迭代都具有相等的价值。2将损失与所有迭代连接起来,迫使网络在每次迭代时尝试整个任务,并通过隐藏状态的代理传递输出(等式2)。(4)未来发展。因此,网络不能采用像前馈网络那样的表示方案,从低级(例如,高层次的表现,只是低层次的表现。时间输入(Xd−1),时间隐藏状态输入(Hd),以及不时间单元门控输入(Cd )的情况。t−1水平代表性不足以适应-在早期迭代中完成整个分类任务要计算ConvLSTM模块的输出,放置门ID和遗忘门FD用于控制信息。相反,网络以粗到细的方式形成跨迭代的表示(在第10节中进一步讨论t t隐藏状态之间的信息传递第4.2.2、4.2.3节和补充材料(3)第三章。我们将所有X0初始化为inout图像inp,d d−1ddtit=σ(Wd,xi(Xt)+Wd,hi(Ht−1)),H为0,即,t∈{1,2,· · ·,T}:X0:=inp和(1)0dtd d−1dd∈{1,2,···,D}:H:=0。该公司的运作ft=σ(Wd,xf(Xt)+Wd,hf(H))的情况下,0上面的vLSTM模块可以使用简单的F(Xd−1,Hd).其中σ是sigmoid函数。W是一组前馈卷积运算,应用于X和H. 这里,W由d而不是t参数化,因为卷积滤波器的权重在时间维度中共享。W的架构是一种设计选择,也是我们的ConvLSTM模块与Xianjian等人之间的主要区别。[66]因为我们对W使用多层卷积运算,具有包括剩余连接的灵活性。W的深度(即ConvLSTM模块的物理深度)在第2节中讨论。3.2.单元门Cd计算如下:t t−13.2. 反馈模块长度我们可以堆叠多个ConvLSTM模块,每个模块都有不同数量的前馈层。我们根据一个ConvLSTM模块中前馈层的数量(Conv + BN)对反馈网络进行分类,即反馈的局部长度。如图所示。其中模型被命名为Stack-1、Stack-2和Stack-All。对于Stack-i,i个前馈层堆叠在一个ConvL-STM模块中.这本质上决定了隐藏状态在整个网络中的传播应该如何分布(例如,对于物理深度D,Stack-All architec-Cd=tanh(Wd,xc(Xd−1)+Wd,hc(Hd))的情况下,ture有一个隐藏状态,而Stack-1有t tCd=f d<$Cd+id<$Cd。t−1(1)D隐藏状态)。参见补充材料(第二节)。2)更多的讨论。选择哪一个长度i是一个设计选择;我们在第二节中对此进行了实证研究。第4.2.1条。最后,隐藏状态Hd和输出Xd被更新ac.ConvLSTM展开转换转换转换LSTM LSTM LSTM…转换转换转换LSTM LSTM LSTMLL1L2L3Lt-2Lt-1Ltt−11311不不不t t根据输出状态0t和单元状态Cd:3.3. 临时跳过连接od=σ(Wd,xo(Xd−1)+Wd,hoHDt−1))的情况下,为了调节信号在网络中的流动,我们引入了身份跳跃连接.这是在-Hd=odtanh(Cd),(1)t t tXd= Hd,2预测“绝对输出”与"调整“值:在此公式中,在每次迭代时预测绝对输出。另一个-t t这样做的目的是在每次迭代时预测一个其中,“X”表示Hadamard乘积。此外,我们对每个卷积运算应用批量归一化[26]。对于每一次迭代,损失都连接到物理深度上最后一个ConvLSTM模块的输出给你,邮件与前一次迭代的输出相加这种方法的缺点是只适用于具有数值结构的输出空间,例如:回归问题没有数字的问题,例如分类或结构化空间不能使用这种方法来解决。(1312ReLUReLUReLU损失FC池化图像/预转换…X13X22我t tt−nKtt前馈反馈ConvBatchNormConvBatchNormX1…XDXnm图3. 具有不同反馈模块长度的反馈网络(ConvL-STM)。左、中、右分别显示Stack-1、Stack-2和Stack- All受到概念上类似机制的启发,例如ResNet的残差连接[19]和[69]中的递归跳跃系数。反馈模型中采用的跳跃连接可以表示为:在时间t为Xd=Xd+Hd 时,则最终表示为F(X_d,H_d,Hd),其中n是跳过长度。图4. 反馈与前馈的计算图。表示时间迭代i和物理深度j处的表示。为简单起见,未示出跳过连接。类分布这也给出了粗略预测的损失L_Coarse,因此,通过精细预测p_f获得粗略预测p_c。节中 4.2.3,它将表明,反馈网络的输出符合分类,特别是在早期预测。3.5. 情景式课程学习如第1,反馈网络提供了一种新的方式来执行学习课程,并使使用分类作为课程策略。我们采用跳过连接如图所示图2由红色虚线表示我们在实验中设定n=2除了调节流量外,表1还量化了最终流量。通过在CIFAR 100 [30]上使用具有物理深度4和8次迭代的堆栈-2架构的迭代变化的损失,以执行课程。我们利用一个在我们的k-迭代反馈网络的每个时间步长处的退火损失函数由时间t参数化的粗类损失L_Coarse和细类损失L_Fine的关系被公式化为:L(t)=10LCoarset+(1 −10LFine, (6)t t表1.跳过连接对CIFAR100的影响[30]3.4.分类预测它是特别实用的价值,如果预测的一个模型符合分类法。也就是说,如果不能进行正确的精细预测,则进行关于查询的正确的粗略预测。给出标签上的分类(例如,ImageNet或CIFAR100分类法),我们可以检查一个网络在基于细类的Softmax分布进行分类预测方面的能力。查询属于精细类yi的概率在Softmax中定义efyi其中,R2是平衡粗损失和细损失的贡献的权重。我们采用线性衰减,其中t=0,1,.,k,k是衰减的结束迭代。对于对象分类,时变损失函数鼓励网络以先粗后细的方式识别对象,即,该网络从分类树的根学习节中4.2.4,它将是empir- ically表明,基于反馈的方法很好地利用这一课程战略。3.6. 计算图分析在适当的硬件条件下,反馈模型在速度上也优于前馈模型.这是因为饲料-作为P(y i|x;W)=Σf对于权重为W的网络。jej后向网络更适合并行性,查询属于由{y1,y2,.,因此,y n}是查询在每个精细类中的概率之和:前馈由于具有较浅的计算图(如图所示)。4).从空间的角度出发,我们对超空间中的计算图进行了充分的讨论和推导P(Y k|x;W)=Σ P(y i|x;W)=Σi∈1:nefyi .(五)补充材料(Sec. 4)只在这里比较它们的前馈模型i∈1:njefj具有深度D的反馈模型和具有相同虚拟深度的反馈模型(由m个时间迭代和物理迭代组成)因此,我们使用映射矩阵M,其中M(i,k)=1如果yi∈Yk,则将细类分布转化为粗类分布,cal深度n,D=m×n,堆栈-1配置)是dff=D −1=mn−1和dfb=m+n−1。图像/预转换合并FC损失BatchNormConvBatchNormConvBatchNormConv…图像/预转换合并FC损失BatchNormConvReLUBatchNormConvReLUBatchNormConv…X11X21X12X31X2X3反馈连接:在每个时间步输出损失的反向传播ConvBatchNormConvBatchNormConvBatchNormConvBatchNorm反馈网络Top1Top5无跳过连接67.3789.97带跳过连接67.8390.121313在可以进行足够程度的并行计算的适当硬件场景下,推理时间可以通过从根到目标的最长距离(即,图的深度)。因此,前馈网络的总预测时间大于反馈网络dff=mn −1>m+n−1=dfb. 请参见柔软材料(第4)对于早期预测、Stack-i配置和训练时间的深度比较4. 实验结果本节提供了我们对CIFAR100 [30]、Stanford Cars[29]和MPII Human Pose [14.1. 基线和术语下面我们定义我们的术语和基线:物理深度:卷积层从输入层到输出层的深度。对于反馈网络,这表示所有ConvLSTM模块中堆叠的物理层的数量,忽略时间维度。虚拟深度:物理深度×迭代次数。这是考虑空间和时间尺寸. (not适用于前馈模型)。基线模型:我们将ResNet[19]和VGG[48]作为两个最常用的前馈模型进行比较,并且具有与我们的卷积层最接近的架构。除了剩余连接之外,这两个基线具有相同的架构。我们的方法和基线使用相同的物理我们还与ResNet原作者的架构进行了比较核的大小和滤波器数的转换保持与原始论文的相同节中4.4,我们通过制作反馈沙漏与前馈沙漏[42]进行了比较辅助预测层(辅助损失):前馈基线不进行情景或中间网络预测。在为了具有用于这样的预测的基于前馈的基线,我们针对前馈基线的不同深度训练新的池化→FC→损失层(针对每个期望深度训练一个专用辅助这使我们能够使用中间网络表示进行预测。我们训练这些通过采用完全训练的前馈网络并从最浅层到最深层训练辅助层,同时冻结卷积权重,4.2. CIFAR 100和分析CIFAR100包括100个类,每个类包含600个图像。100个类(精细级)被分类为20个类(粗略级),形成2级分类法。所有报告的定量和定性结果均使用仅细损失(即,CIFAR 100的典型100路分类),除非特别提到曲线学习或粗+细损失(公式10)。(6)使用。(1)反馈模块长度表2提供了根据第2.2节中的讨论进行3.2. 对于所有模型,物理深度当局部反馈长度既不太短也不太长时,可以实现最佳性能。我们发现这种观察在不同的测试和架构中都是有效的,尽管最佳长度可能不总是2。在针对不同物理深度的其余实验中,我们根据经验优化该超参数的值(通常最终为2或3)。参见参考资料6对物理深度和迭代次数之间的权衡以及最佳迭代次数进行了实验讨论反馈类型Top1Top5堆栈-166.2989.58堆栈-267.8390.12全部堆叠65.8589.04表2. 比较不同的反馈模块长度,所有型号都具有相同的物理深度4和虚拟深度16。(2)早期预测我们在本节中评估了各种网络的早期预测。我们使用虚拟深度为32的反馈网络(与其他深度实现的趋势类似)进行这项研究,并将其与各种前馈网络进行比较。如图如图5所示,在虚拟深度8、12和16处,反馈网络已经实现了令人满意的和不断增加的精度。蓝色和绿色实线表示32层的基本前馈网络;他们最右边性能是其端点结果,而其早期预测是使用其最终池化→FC→损耗层进行的蓝色和绿色虚线曲线显示了相同的情况,不同的是训练的池化→FC→损失层(辅助损失,去在Sec. 4.1)用于进行早期预测-选项。该图显示,前馈网络在使用其前几层的表示时表现不佳这与反馈模型以不同的从粗到细的方式形成其 表 示 的 假 设 一 致 ( 在 第 2 节 中 进 一 步 讨 论 ) 。4.2.3)。我们也尝试了用辅助损耗对前馈网络进行全面的训练和微调,但这从未导致比图1中报告的曲线更好的性能。5通过牺牲早期或终点性能。最好的结果是(与图1中的曲线5):对于深度8、12、16,6.8%、10.2%、13.1%、13.0%、59.8%、66.3%、68.5%分别为20、24、28和32与Feedforward Ensemination比较:虽然它在训练中是内存低效和浪费的,但是也可以通过并行的前馈模型的集合(即,每一个想要预测的深度,都有一个专用的饲料,1314早期预测7060504030201008 12 16 20 24 28 32物理/虚拟深度分类预测4540353025201510508 16 24 32物理/虚拟深度图5. 评估早期预测。反馈(FB)模型和前馈(FF)基线的精度比较(ResNet VGG,有或没有辅助损耗层)该深度的转发网络由于并行运行ResNets的集合具有相似的最佳硬件需求, 3.6,我们在相同的分析下进行比较:将计算图深度分析应用于48层虚拟深度反馈模型(物理深度12,Stack-3,4次迭代),如果我们将完成一层卷积的时间表示为T,则我们在:t i=(12+3i)T.然后,在12 T、15 T、18 T和21T时,第一次到最后一次迭代为了同时得到ResNet结果,我们需要一个深度为12、15、18、21的ResNet集合。反馈网络和集成之间的性能比较在表3中提供,显示了反馈网络的优势时间步长模型12T15T18T21T反馈网络67.9470.5771.0971.12ResNet Ensemble66.3567.5267.8768.2表3. Feedback Net和一系列ResNet之间的Top1精度比较,这些ResNet在相同的计算图深度时间步长下产生早期预测。反馈vs无反馈:审查是否-图6. 评估基于分类的预测反馈(FB)和前馈(FF)网络训练有或没有辅助层。 我们只使用罚款损失的培训,除了课程学习之一。查询反馈Feedforrward(ResNet)VD=32 VD=24 VD=16D=32D=24D=16D=8兔兔兔兔仓鼠兔豪猪射线射线火箭蛇火箭蛇火箭蛇火箭蜥蜴瓶椅子火箭蛇海密封平原蜗牛平原云猩猩时钟猩猩时钟猩猩碗女孩碗熊割草机女孩云板云板云骆驼云泼妇福克斯鼠标袋鼠鼠标袋鼠鼠标狮子蜜蜂火车海豚福克斯蜜蜂蜥蜴熊蜗牛云甲虫图7. CIFAR100分类的定性结果。每行显示一个查询以及不同深度的反馈和前馈网络的最近邻居。橙色、蓝色和灰色分别表示“正确的精细分类”、“正确的粗略分类但错误的精细分类”和“两者都不正确”。两个底部查询是代表性的失败案例。观察结果是由反馈引起的,或者仅仅是参考,在当前机制中,我们通过从除了最后一次迭代之外的所有迭代中断开损失来执行测试,从而使模型递归前馈。如表4所示,使模型递归前馈会使我们无法进行早期预测和分类预测(下面将讨论)。虚拟深度模型12243648反馈67.9470.5771.0971.12反馈断开(循环前馈)36.2362.1467.9971.34表4. 对于具有虚拟深度48和四次迭代的模型,反馈对CIFAR100的影响。(3)分类预测我们测量网络N在进行分类学预测(分类学符合性)时的容量F(N)为:做出正确粗略预测的概率对于查询,如果它对它进行了错误的精细预测;换句话说,它可以将其错误的精细类别预测校正为正 确 的粗略类别的有效性: F(N)=P(c)rect(pc)|!c〇rrect(pf);N)。如Sec.3.4,pc和PF分别代表粗略和精细预测定量和定性结果见图6、7和8。请注意,所有这些结果都是自然实现的,即。使用仅罚款损失和没有分类-68.7569.57FF(ResNet w/o auxloss)FF(VGG w/ aux5.670.91.0112.36ux损失)1.19VGG,不含a1.6301 -02 -2013(1.7嗯训练有素ux损失)Net CurriculNetResNet w/aFBFBFF(36.438.0537.0533.9752.0647.3340.5936.713756.8659.3753.3257.469.3668.2163.2764.2168.2366.92.486763.2345.0139.0236.2736.5628.6837.8436.5733.4531.9838.1137.1136.1234.4127.4425.0527.87FB Net课程培训FB NetFF(ResNet w/ auxloss)FF(ResNet w/oaux loss)FF(VGG w/aux loss)FF(VGGw/o aux loss)5.7215.065.954.333.655.3前1位准确度Taxonomy Compliance:F(N)1315反馈前馈图8. 定时tSNE图显示了表示如何通过深度/迭代(即,数据点如何在表示空间中移动)。箭头的色调越浅,深度/迭代越早。反馈的表示在整个过程中是相对解开的,而前馈的表示只在接近尾声时才解开。(最好在屏幕上看矢量长度显示为一半,以避免混乱。)在培训期间使用omy或课程学习(除了使用课程学习进行培训的红色虚线曲线;秒4.2.4)。图6示出了反馈网络这再次与基于反馈的方法定义从粗到细的表示的假设一致,并且在图7和图8中观察到。在图7中,提供了反馈和前馈网络的早期预测类和最近邻图像(使用网络表示),显示了反馈的更相关和Timed-tSNE:在图8中,我们提供了tSNE [40]图的变体,我们称之为timed-tSNE。它说明了当通过类标签窗口查看时,网络的表示如何在深度/迭代中演变。对于每个数据点,我们通过连接一组2D tSNE嵌入位置来形成时间调节的轨迹对于反馈网络,一个数据点的嵌入来自不同迭代的表示(即,对于具有i次迭代的网络的i个嵌入)。对于前馈,嵌入来自不同的层。补充材料中提供了更多详细信息(第(五)。图8表明,前馈表示在早期层交织,并且仅在最后几层中解开类,而反馈这再次支持了反馈开发了由粗到细的表示的假设。我们还在补充材料中提供了反馈与前馈模型的激活图(第二节)。5.2)显示出明显不同的模式,因此,不同的代表性,课程损失(Sec. 3.5)。我们对反馈网络和基线“w/ Auxloss”采用相同的情景课程训练当使用课程学习时,通过反馈网络实现最佳性能和最高此外,使用情景课程训练改善了分类预测结果,如图1中的曲线所示。六、模型CL前1名(%)-良好前1名(%)-粗反馈网络N68.2179.7Y69.57(+1.34%)80.81(+1.11%)前馈ResNet w/ Aux lossN69.3680.29Y69.24(-0.12%)80.20(-0.09%)前馈ResNet(无辅助损耗)N69.3680.29Y65.69(-3.67%)76.94(-3.35%)前馈VGG(带辅助损耗)N63.5675.32Y64.62(+1.06%)77.18(+1.86%)前馈VGG(无辅助损耗)N63.5675.32Y63.2(-0.36%)74.97(-0.35%)表5. 课程学习(CL)对CIFAR100的影响评估。CL列表示是否使用了课程学习括号中显示了每种方法的课程差异4.2.5端点性能比较表6比较了CIFAR100上各种前馈和反馈模型的端点性能每个模型的详细体系结构在本节的最后提供。反馈网络的性能远远优于具有相同物理深度的基线,并且比具有相同虚拟深度或更深的基线更好或部分更好这确保了在早期和分类学预测中所讨论的优势不会以牺牲终点性能为代价来实现。表6的底部显示了几种与我们的方法不可比的最新方法,因为它们采用了额外的机制(例如,深度随机性[24]),我们在模型中没有实现。这种机制是独立的反馈,并可以同时使用它,在未来。然而,我们为了完整性而将它们包括在内。架构:反馈和前馈网络的详细结构如下:3• 复发阻滞:Iterate(fi,fo,k,s,n,t)表示我们的con-vLSTM递归模块(在第二节中定义)。3.1),其迭代t次并且具有门函数,即,W,关于饲料-前向架构:→C(fi,fo,k,s)→BR→ {C(fo,fo,k,1)→BR}n−1。我们用{... }n表示该模块虽然它们的端点数值结果很接近。3使用以下命名约定:C(fi,fo,k,s):fi in-4.2.4课程学习表5比较了在使用仅精细损失与情节性粗到粗损失进行训练时网络的性能。put和fo输出卷积滤波器,核大小k×k,步长s。ReLU:整流线性单元。BN:批量归一化。BR=BN+ReLU。 Avg(k,s):平均池化,空间大小为k × k,步长为s。FC(fi,fo):具有fi输入和fo输出的全连接层。1316模型CL罚款粗反馈网络N50.3374.15Y53.37(+3.04%)80.7(+6.55%)前馈ResNet-24N49.0972.60Y50.86(+1.77%)77.25(+4.65%)前馈VGG-24N41.0467.65Y41.87(+0.83%)70.23(+2.58%)表6. CIFAR-100上的端点性能比较。用 * 表示的基线是原始ResNet论文中使用的架构。在括号中是堆叠n次。我们对所有门使用与上述相同的架构,并在其中包括剩余连接• 预处理和后处理:在所有模型中,我们应用以下预处理:输入→C(3,16,3,1)→BR和后处理:→平均值(8,1)→FC(64,100)• 反馈网络,物理深度= 8:→Iterate(16,32,3,2,2,4) →Iterate(32,32,3,1,2,4)→Iterate(32,64,3,2,2,4) →Iterate(64,64,3,1,2,4)• 反馈网络,物理深度= 12:→Iterate(16,16,3,1,3,4) →Iterate(16,32,3,2,3,4)→Iterate(32,64,3,2,3,4) →Iterate(64,64,3,1,3,4)• 具有物理深度=D的基线前馈模型:D−1→C(16,32,3,2) →BR → {C(32,32,3,1)→BR}2D−1→C(32,64,3,2) →BR → {C(64,64,3,1)→BR}24.3. 斯坦福汽车数据集为了验证CIFAR100在其他数据集上的观察结果,我们在斯坦福汽车数据集上进行了相同的实验[29]。表7中提供了对终点绩效和课程学习的评价。早期预测和分类学预测曲线见补充资料(第8.1和8.2节)。实验显示出与CIFAR100相似的趋势,所有网络都是从头开始训练的,没有微调预训练的ImageNet [10]模型[39]或使用额外的图像来增强数据集[65]。为了适应这个数据集中相对较少的训练数据量,我们使用较浅的模型进行前馈和反馈:模型物理深度虚拟深度Top1(%)Top5(%)反馈网络128448321671.1269.5767.8391.5191.0190.12前馈(ResNet[19])4832128----70.0469.3666.3564.2390.9691.0790.0288.95128*110*64岁*48岁*32岁*-----70.9272.0671.0170.5669.5891.2892.1291.4891.6091.55前馈(VGG[48])4832128----55.0863.5664.6563.9182.188.4189.2688.90[20]第24话:我的[49]第四十九话19-67.76-1317表7. 斯坦福汽车数据集的评估。 CL列说明是否采用了课程学习。所有方法都有(虚拟或物理深度24。前馈基线的深度为24,反馈网络的物理深度为6,迭代次数为4,遵循4.1和4.2.5节中的相同设计。完整的实验设置见补充材料(第(八)。4.4. 人体姿态估计我们对MPII人体姿势估计[1]基准的回归任务进行了评估就像我们为CIFAR100分类和执行比较的前馈模型添加反馈一样,我们将反馈应用于最先进的MPII模型沙漏[42]。我们用ConvLSTM替换了一个堆栈Hourglass中的ResNet类卷积层序列,它基本上用虚拟深度代替了物理3.1(补充材料中提供了关于该架构的更多细节)。表8中的性能比较显示反馈模型优于更深的前馈基线。我们提供了更多的结果,并与其他基于反馈的方法[7,3]进行了比较。第9段)。方法物理深度虚拟深度PCKh前馈沙漏24-77.6反馈-沙漏41282.3表8. MPII人体姿势数据集的评估。PCKh是测量人体关节定位精度的标准度量[1]。5. 结论我们提供了一项关于基于反馈的学习的研究,认为它是一种有价值的替代常用前馈范式的方法,具有以下几个基本优点:早期预测、分类依从性和情景课程学习。我们还观察到,基于反馈的方法开发了一种从粗到细的表示,这与前馈表示有很大的不同。这项研究表明,在不久的将来,在基于反馈的方法中找到计算机视觉的有用实践并不牵强。鸣 谢 : 我 们 衷 心 感 谢 ICME/NVIDIA Award( 1196793-1-GWMUE ) 、 ONR ( 1165419-10-TDAUZ)、MURI(1186514-1-TBCJE)、丰田中心(1186781-31-UDARO)和ONR MURI(N00014 -14-1-0671)。1318引用[1] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。2014年IEEE计算机视觉和模式识别会议,第3686-3693页。IEEE,2014。[2] S. Ashford和L. L.卡明斯反馈作为个人资源:创造信息的个人策略组织行为与人类绩效,32(3):370[3] V. Belagiannis和A.齐瑟曼。循环人体姿态估计。arXiv预印本arXiv:1605.02914,2016。[4] Y. Bengio,J. Collobert和J.韦斯顿当前学习。第26届国际机器学习年会论文集。ACM,2009年。[5] W. Byeon,T. M. Breuel,F. Raue和M.利维基基于lstm递归神经网络的场景标注。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中,第3547-3555页[6] C. Cao,X.Liu,Y.Yang,Y.Yu,J.Wang,Z.Wang,Y.黄先生,L. Wang,C.黄,W.xu等人再看再思考:用反馈卷积神经网络捕获自上而下的视觉注意力在IEEE计算机视觉国际会议论文集,第2956-2964页[7] J. 卡雷拉山口Agrawal,K.Fragkiadaki和J.马利克迭代误差 反 馈 人 体 位 姿 估 计 。 arXiv 预 印 本 arXiv :1507.06550,2015年。[8] R. M. Cichy,D. Pantazis和A.奥利瓦解决空间和时间上的人类对象识别。Nature Neuroscience,17(3):455[9] J. Deng,N.丁氏Y.Jia,中国茶条A.Frome,K.Murphy,S.本吉奥Y. Li,H.Neven和H.Adam. 使用标签关系图的大规模对象欧洲计算机视觉会议,第48-64页。Springer,2014.[10] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。IEEE,2009年。[11] N. Ding,J.Deng,K.P. Murphy和H.没有基于ising模型的概率标号关系图在IEEE计算机视觉国际会议论文集,第1161[12] J. L.埃尔曼神经网络的学习和开发:从小事做起的重要性。Cognition,48(1):71[13] F. A.福特环境建模:介绍环境系统的系统动力学模型。Island Press,1999.[14] C. D. Gilbert和M.西格曼大脑状态:自上而下的影响在感觉处理。Neuron,54(5):677[15] G. Gkioxari,A. Toshev和N.贾特利使用卷积神经网络的链式预测。arXiv预印本arXiv:1605.02346,2016。[16] K. 格雷夫河K. Srivastava和J.施密特胡博高速公路和残差网络学习展开的迭代估计。arXiv预印本arXiv:1612.07771,2016年。[17] K. Gregor和Y.乐存。学习稀疏编码的快速近似。在Proceedings of the 27 th International Conference onMachine Learning(ICML-10),第399-406页[18] D.哈A Dai,和Q. V. Le.超网络arXiv预印本arXiv:1609.09106,2016。[19] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[20] K.他,X。Zhang,S. Ren和J.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功