基于交替方向神经网络的深度组件分析技术及其在图像预测中的应用

15 浏览量更新于2023-10-13 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于交替方向神经网络的卡尔文·默多克，张明芳，西蒙·路西卡内基梅隆大学{cmurdock,mingfanc,slucey}@cs.cmu.edu抽象。尽管缺乏理论理解，但深度神经网络在广泛的应用中取得了无与伦比的性能。另一方面，具有成分分析的浅表示学习与丰富的直觉和理论相关联，但是较小的容量通常限制了其有用性。为了弥合这一差距，我们引入了深度组件分析（DeepCA），这是一种表达性的多层模型公式，通过对每层中的潜在变量的约束来强制执行分层结构。对于推理，我们提出了一个diferentiable opti- mization算法实现使用循环交替方向神经网络（ADNNs），使参数学习使用标准的反向传播。通过将前馈网络解释为我们模型中推理的单次迭代近似，我们提供了两个一个新的角度来理解他们和一个实用的技术约束预测与先验知识。在实验中，我们展示了各种任务的性能改进，包括具有稀疏输出约束的单图像深度预测关键词：分量分析·深度学习·约束1介绍深度卷积神经网络在计算机视觉领域取得了显著的虽然远不是新的[24]，但随着超大型标记数据集的日益可用性以及专用硬件计算的现代进步，导致许多问题的最新性能，包括基本上所有的视觉学习任务。示例包括图像分类[19]，对象检测[20]和语义分割[10]。尽管关于这些问题的实践和理论见解有着丰富的历史，但现代深度学习技术通常依赖于任务不可知的模型和理解不足的数学。然而，最近的工作[6，28，43]表明，结合经典领域知识的专用架构可以提高参数效率，放宽训练数据要求，并提高性能。在现代深度学习出现之前，基于优化的方法（如分量分析和稀疏编码）主导了表示学习领域。这些技术使用结构化矩阵分解将数据分解为共享组件的线性组合。潜在的表示是2C. Murdock，M.F. Chang和S.Lucey0.350.30.250.20.15（c）第（1）款...............0.20.150.10.10.05x.336.122.083.039.024.0010.05002004006008001000特征索引002004006008001000特征索引（d）其他事项=+(a) 前馈(b) 优化194.164.141.066.026.009图1：基于优化的推理提供的“解释掉”条件依赖的示例。通过前馈非负软阈值化（a）构建的稀疏表示由于冗余和虚假激活（c）而具有更多的非零元素。另一方面，通过1惩罚的非负最小二乘优化（b）找到的稀疏表示产生了一组更简约的分量（d），它们最佳地重建了数据的近似值。通过最小化受到约束的重构误差来推断，所述约束强制执行诸如唯一性和可解释性的属性。重要的是，与经由独立特征检测器以封闭形式构建表示的前馈替代方案不同，这种基于迭代优化的方法自然地引入了特征之间的条件依赖性，以便最好地解释数据，这是一种在图形模型的上下文中通常被称为“解释”的有用现象[4]。这种效应的一个例子如图所示。1，其将使用前馈软阈值构造的稀疏表示与通过具有1惩罚的基于优化的推理给出的稀疏表示进行比较。虽然特征的过完备集合中的许多分量可能与图像具有，从而导致更简约的表示。组件分析方法还常常由将先验知识并入到学习的表示中的直观目标来指导。例如，统计独立性允许将信号分离为不同的生成源[22]，非负性导致对象的基于部分的分解[25]，稀疏性引起局部性和频率选择性[35]。由于很难通过前馈计算来强制执行这些直观约束，因此深度学习架构通常受到远距离相关的生物逻辑系统[39]或难以理解的内部机制（如协变量移位[21]和梯度流[17]）的激励此外，虽然从根本上缺乏对深度学习的理论理解[47]，但即使是矩阵分解的非凸公式也经常与收敛性[2]，泛化[29]，唯一性[13]甚至全局最优性[16]的保证相关联。为了将组件分析的直观和理论见解与通过深度学习实现的实际进步相统一，我们引入了深度组件分析（DeepCA）的框架这种新的模型公式可以被解释为传统的组件分析，其中多个层次的学习与直观的约束，倾向于编码结构和先验知识的多层扩展。DeepCA也可以被激励正相关系数值基于交替方向神经网络的3Xz[]1z[2]1zh[1]1J（3，y）（w3，y）z3 ∈3w3（z3，y）（z[]，y）3≈≈x x1 w1(a) 前馈(b) DeepCA(c) ADNN(d) 展开的ADNN图2：前馈神经网络与所提出的深度成分分析（DeepCA）模型之间的比较。标准深度网络将学习的表示构建为非线性函数的前馈组合（a）。DeepCA将它们视为由约束优化推断的未知潜在变量（b）。为了实现这一点，我们提出了一种可区分的推理算法，该算法可以表示为交替方向神经网络（ADNN）（c），这是前馈网络的递归生成，可以展开到固定数量的迭代，以通过反向传播进行学习（d）。从深度神经网络的角度来看，通过放松隐含的假设，即层的输入被约束为前一层的输出，如等式2所1下面。在前馈网络（左）中，层j的输出，记为aj，以封闭形式给出为aj−1的非线性函数。 DeepCA（右）采用生成方法，其中推断与层j相关联的潜在变量wj，以最佳地将wj-1重建为线性组合的学习的components服从一些约束Cj。前馈：aj=（BTaj−1）=⇒DeepCA：Bjwj≈wj−1 S.T.WJ∈Cj（一）从这个角度来看，中间网络虽然可以使用各种不同的技术来执行此推断，但我们提出了交替方向乘法器（ADMM）[5]。重要的是，我们证明，经过适当的初始化，该算法的单次迭代相当于通过一个相关的前馈神经网络与非线性激活函数解释为近端运营商对应的罚款或约束的系数因此，可以使用交替方向神经网络（ADNN）来实现完整的推理过程，交替方向神经网络是允许使用反向传播进行参数学习标准神经网络和DeepCA之间的比较如图所示二、在实验中，我们证明了通过卷积神经网络的循环传递能够实现更好的稀疏控制，从而在监督和无监督任务中实现一致的性能改善，而无需引入任何额外的参数。更重要的是，DeepCA还允许其他限制不可能有效地执行通过网络的单个前馈传递1（Tx）11X22（T1）2Xz1 ∈1w1w1∈12周2次z[]2z[2]2zh[1]2z2 ∈2w2w2∈23W3z[]3z[2]3zh[1]3w3 = argmin（w，x）w3∈33分3秒（T2）34C. Murdock，M.F. Chang和S.Lucey图片提供基线T= 2T = 3T = 5T = 10 T = 20真相图3：DeepCA应用于单图像深度预测的演示，使用与已知深度值的稀疏集连接的图像作为输入。基线前馈网络不能保证产生与给定深度值一致的输出。相比之下，具有增加的迭代次数（T >1）的ADNN学习满足稀疏输出约束，解决模糊度以获得更准确的预测，而没有不切实际的不连续性。工作作为一个例子，我们考虑的任务，单图像的深度预测，一个困难的问题，由于缺乏三维信息，如规模和角度。然而，在许多实际场景中，已知深度输出的稀疏集合可用于解决这些模糊性以提高准确度。该先验知识可以来自像LIDAR的附加传感器模态或来自在纹理图像区域周围提供稀疏深度的其他3D重建算法已经针对该问题提出了前馈网络，其通过将已知深度值级联作为附加输入通道[30]。然而，虽然这提供了有用的上下文，但不能保证预测与给定的输出一致，从而导致不切实际的不连续性。相比之下，DeepCA通过将预测视为未知潜在变量来实施约束。这种行为如何解决歧义的一些例子如图所示。其中具有附加迭代的ADNN学习从给定深度值传播信息以产生更准确的预测。除了实际优势外，我们的模型还为概念化深度学习技术提供了一个新的视角。具体地，整流线性单元（ReLU）激活函数[14]，其在各种应用中的许多现有技术模型中普遍存在，相当于非负约束上的稀疏投影除了解释前馈网络作为重建目标函数的单次迭代近似，这提出了从稀疏近似理论的角度更好地理解深度神经网络的。基于交替方向神经网络的5ll22111 2l2背景及相关工作为了激励我们的方法，我们首先提供一些矩阵分解，分量分析和深度神经网络的背景分量分析是一种常用的浅层表示学习方法，它将数据x∈Rd近似分解为B∈Rd×k中学习分量的线性组合。这通常通过最小化经受对系数的约束C的重构误差来实现，所述约束C用于解决模糊性或结合诸如低秩结构或低秩结构的先验知识。稀疏性一些示例包括用于降维的主成分分析（PCA）[44]和稀疏字典学习[2]，其通过强制稀疏来适应过完备表示。虽然学习分量和系数的问题通常是非凸的，但其结构自然表明通常保证收敛的简单交替最小化策略[45]。然而，这些技术通常需要仔细的初始化，以避免不良的局部最小图像。这不同于具有随机梯度下降的反向传播，其中随机初始化通常是足够的。或者，我们考虑将学习与推理分离的嵌套优化问题：∑nargmin1x（i）−Bf（x（i））2s.t. f（x）=argmin1x−Bw2（2）B2i=1222w∈C这里，推理函数f：Rd→ Rk是一个潜在的非线性变换，它通过求解固定参数优化问题对于具有正交分量的无约束PCA，该推断问题具有由线性变换fPCA（x）=BTx给出的简单封闭形式的解。将其代入Eq。2导致具有一个隐藏层和绑定权重的线性自动编码器，其具有相同的唯一全局最小值，但可以通过反向传播进行训练[1]。在一般约束的情况下，推理通常不能以封闭形式完成，而是必须依赖于迭代优化算法。然而，如果该算法被组成为可微分变换的有限序列，则模型参数仍然可以以相同的方式通过反向传播梯度通过推理算法的步骤我们通过将DeepCA模型中的推理算法表示为展开到固定迭代次数的递归神经网络来扩展这一最近，深度神经网络已经成为视觉数据表示学习的组件分析它们联合学习多个抽象层的能力已被证明可以编码越来越复杂的特征，如纹理和对象部分[26]。与组件分析不同具体地，通过使图像x通过具有参数Bj和bj的交替线性变换以及层j =1，…，的固定非线性激活函数j的组合来构造表示。. .，l如下：fDNN（x）=<$（BT·· ·<$（BT（<$（ BTx−b）−b）···−b）（三）6C. Murdock，M.F. Chang和S.Lucey22我们没有将神经网络的前向传递视为任意的非线性函数，而是将其解释为无监督生成模型中的近似推理方法。这是从先前的工作中得出的，该工作已经表明它等同于概率图模型[38]中的自下而上推理或多层卷积稀疏编码模型[36，40]中的近似推理。然而，这些方法由于依赖于仔细的超参数选择和专门的优化算法而具有有限的实际适用性。虽然ADMM已被提出作为参数学习的反向传播的无梯度替代方案[42]，但我们仅将其用于推理，这允许使用具有任意损失函数的反向传播进行更简单的学习。除了ADNN之外，在其他模型中还提出了经常性反馈，以通过迭代细化预测来提高性能，特别是对于输出具有复杂相关模式的人类姿势估计或图像分割等应用[3，7，27]。虽然一些方法也通过直接展开迭代算法来实现反馈，但它们通常面向特定应用，例如图形模型推理[11，18]，解决欠定逆问题[12，15，41]或图像对齐[28]。与[46]类似，DeepCA为任意神经网络中的低级反馈提供了一种更通用的机制，但它的动机是更可解释的目标，即最小化受网络激活约束的重构误差。3深度成分分析深度分量分析概括了等式中的浅层推理目标函数。2通过引入附加层j=1，. . .，l，其中参数B j∈Rpj−1×pj。最佳DeepCA推断然后可以通过求解来完成：∑lf*（x）= argmin联系我们1wj−1−Bjwj2+Φj（wj）S.T. w0=x（4）j=1我们使用有限函数Φj：Rpj代替约束集Cj →R以启用更一般的先验。注意，硬约束仍然可以由指示函数I（wj∈Cj）表示，如果w j ∈ C j，则该指示函数I等于零，否则为无穷大。虽然我们使用与权重矩阵Bj的预乘法来简化符号，但我们的方法还通过用其对应的伴随算子替换转置权重矩阵乘法来支持任何线性变换。例如，卷积的伴随是转置卷积，这是一种流行的方法。卷积网络中的上采样[34]。如果惩罚函数是凸的，则该问题也是凸的，并且可以使用标准优化方法来求解。虽然这看起来与深度神经网络中的推理有很大不同，但我们后来证明，它可以被视为等式中前馈推理函数的推广3.第三章。在本节的其余部分，我们通过绘制非负1正则化和ReLU激活函数之间的联系来证明使用惩罚函数代替然后我们提出一个基于交替方向神经网络的7B求解Eq.4的未知系数，并形式化DeepCA和传统深度神经网络之间的关系，从而通过反向传播实现参数学习。3.1从激活函数到约束在介绍我们的推理算法之前，我们首先讨论了惩罚与其非线性近似算子之间的联系，这构成了DeepCA与传统神经网络之间密切关系的基础。在凸优化领域中无处不在，近似算法[37]是用于解决非光滑优化问题的方法。从本质上讲，这些技术的工作原理是将问题分解为一系列较小的问题，这些问题通常可以通过近似算子以封闭形式解决：R d→ R dasso。与罚函数Φ相关联：Rd→ R由以下的解给出优化问题，其将投影推广到约束集：（w）=arg min1w′22在DeepCA的框架内，我们将深度网络中的非线性激活函数解释为与每一层中的潜在系数上的凸惩罚相关联的邻近算子。虽然这种连接不能用于概括所有的非线性，但许多可以自然地解释为近端操作者。例如，sparsemax激活函数是概率单形的投影[31]。类似地，ReLU激活函数是到非负正形词上的投影。当与负偏压b一起使用时，它等于-对于非负的软阈值S+，与非负1正则化：+∑++Φ1（w）=I（w≥0）+pbp|WP|=⇒1（w）=Sb（w）=ReLU（w−b）（6）虽然这种等价性之前已经被指出是理论上分析卷积神经网络的一种手段[36]，但DeepCA支持通过反向传播将偏差b优化为自适应正则化的101惩罚超参数，从而更好地控制表示稀疏性。除了标准的激活函数之外，DeepCA还允许实施对先验知识进行编码的附加约束，如果可以有效地计算它们对应的邻近算子的话。对于我们的具有作为先验知识提供的已知输出y的稀疏集合的单图像深度预测的示例，最终输出w1上的惩罚函数是Φ1（w1）= I（S w1= y），其中选择器矩阵S提取对应于y中的已知输出的索引。关联的邻近算子φl通过简单地校正与已知约束不一致的输出来投射到该约束集合注意，这将不是前馈网络中的有效输出非线性，因为虽然约束将在技术上得到满足，但没有强制它们与相邻预测一致，从而导致不真实的不连续性。相比之下，DeepCA推理通过在网络中进行多次迭代，最大限度地减少了受这些约束的每一层的重建误差。8C. Murdock，M.F. Chang和S.LuceyW3.2乘子交替方向法的推理在模型参数固定的情况下，我们使用交替方向乘法（ADMM）解决了我们的DeepCA推理问题，ADMM是一种通用优化技术，已成功用于各种应用[5]。为了推导出应用于我们的问题的算法，我们首先通过引入辅助变量zj来修改我们的目标函数，我们将其约束为等于未知系数wj，如等式（1）所示。见下文第7段。∑larg min1zj−1−Bjwj2+Φj（zj）S.T. w0=x，j：wj=zj（7）{w，z}2 2JJ j=1由此，我们构造了具有对偶变量λ的增广拉格朗日量Lρ和二次惩罚超参数ρ=1：∑lL=1z-Bw2+Φ（z）+λT（w-z）+ρw-z2（八）ρ2j=1j−1jj2jjjjj2jj2然后ADMM算法通过迭代地最小化Lρ来进行，相对于每组变量，其他变量固定，打破了我们的完整推断问题分解成更小的部分，每个部分都可以以封闭的形式解决由于我们的DeepCA模型中的层的解耦，潜在激活可以通过连续步进每个层来递增地更新，从而导致更快的收敛和反映深度神经网络的计算结构的计算。由于只有一层，我们的目标函数是可分离的，因此该算法简化为经典的两块ADMM，它具有广泛的收敛保证[5]。然而，对于多个层，我们的问题变得不可分离，因此该算法可以被看作是一个实例的循环的多块ADMM与二次耦合项。虽然我们的实验表明这种方法在我们的应用中是有效的其收敛性的理论分析仍然是一个活跃的研究领域[9]。我们的算法的单次迭代通过对所有层j = 1，. . . ，l连续：1.）的人。首先，在固定来自前一次迭代的关联辅助变量zj以及来自当前迭代的前一层zj−1的关联辅助变量之后，通过最小化拉格朗日量来更新wjw[t+1]：= arg minLp（w，j，z[t+1]，z[t]，λ[t]）（9）j j−1j j（j ）−1=BT B +ρI（BTz[t+1]+ρz[t]−λ[t]）jjjj−1j j这是一个无约束的线性最小二乘问题，所以它基于交替方向神经网络的9Jρ+1+（wρJ2.）的情况。接下来，通过固定新更新的w，j连同来自先前迭代的下一层的系数w，j +1来更新z，jz[t+1]：= arg minLp（w[t+1]，w[t]，zj，λ[t]）（10）jzj（[t]j+1J[t+1][t]）=j1Bj+1wj+1ρρ+1j+1λj）z[t+1]：（[t+1]1[t]）l=jwj+ρλj这是来自Eq.5，所以它的解通过与罚函数Φj相关联的邻近算子φj以封闭形式给出。注意，对于j=l，它的自变量是当前系数W，j和强制与下一层一致的3.）第三章最后，用由惩罚参数ρ缩放的约束违反来更新对偶变量λj。λ[t+1]：=λ[t]+ρ（w[t+1]−z[t+1]）（11）j j j j然后重复该过程直到收敛。虽然不能作为一个封闭形式的表达式，在下一节中，我们将演示如何将该算法作为前馈神经网络的递归泛化4交替方向神经网络我们的推理算法基本上遵循与深度神经网络相同的模式：对于每一层，将学习的线性变换应用于先前的输出，然后是固定的非线性函数。基于这一观察结果，我们使用具有标准层的递归网络来实现它，从而允许使用反向传播来学习模型参数。回想一下，等式中的wj更新 9需要求解线性方程组。虽然是可区分的，但这引入了标准神经网络中不存在的为了克服这一点，我们隐含地假设过完备层中的参数是Parseval紧框架，即使得Bj BT=I。该属性在稀疏近似[8]领域中理论上是有利的，并且已被用作约束以鼓励深度神经网络中的鲁棒性[32]。然而，在我们的实验中，我们发现它是不-在训练过程中明确执行此假设是必要的;在适当的学习率下，通过我们的推理算法的反向传播足以确保重复迭代不会导致变量更新的发散序列因此，在此假设下，我们可以简化等式（1）中的更新 9使用Woodbury矩阵恒等式，如下所示：w[t+1]：=z~[t]+1BT（z[t+1]-Bz~[t]），z~[t]：=z[t]−1λ[t]（十二）j jρ+1jj−1jjjjρ J由于这只涉及简单的线性变换，因此我们用于解决推理函数f*中的优化问题的ADMM算法可以表示为10C. Murdock，M.F. Chang和S.Lucey算法一：前馈算法2：交替方向神经网络输入：x，{Bj，bj}输出：{wj}，{zj}初始化：z0=xfor j= 1，. . . 我知道预激活：w：=BT zjjj−1激活：zj：=j（ wj−bj）端输入：x，{Bj，bj}输出：{w[T]}，{z[T]}J J初始化：来自Alg的{λ[0]}=0，{w[1]，z[1]}1j j j对于t = 1，. . . ，T − 1do对于j = 1，. . . 我知道Dual：更新λ[t]（等式1）第十一章J预激活：更新日期w[t+1]（等式2）12）J计算：Up日期z[t+1]（等式2）10）J结束结束作为一个循环神经网络，它反复迭代直到收敛。然而，在实践中，我们将网络展开到固定次数的迭代T，以近似最优推理，使得f[T]（x）≈ f *（x）。我们的完整算法在Algs中进行了总结。1和2.4.1前馈网络给定变量的适当初始化，该算法的单次迭代与通过前馈网络的单次通过相同具体来说，如果我们设λ[0]=0且z[0]=BTz[1]，其中我们再次表示z[1]=x，则w[1]为j j j j−1 0j相当于神经网络层的预激活w[1]：=BTz[1]+1BT（z[1]-B（ BTz[1]）T[1]jjj−1ρ+1jj−1jjj−1）=Bjzj−1（13）类似地，如果我们初始化w[0]=BTw[1]，然后z[1]等同于j+1j+1j j使用邻近算子j的对应非线性激活：z[1]：=（1B（BTw[1]）+ρw[1]）=（w[1]）（14）jjρ+1j+1j+1jρ+1jjj因此，我们的推理算法的一次迭代相当于等式中给出的标准前馈神经网络3即f[1]（x）=fDNN（x），其中非线性激活函数被解释为与我们的DeepCA模型的惩罚相通过网络的额外迭代导致更准确的推理近似，同时明确地满足对潜变量的约束。4.2反向传播学习通过可区分的ADNN近似DeepCA推理，可以以与标准前馈网络相同的方式学习模型参数扩展嵌套组件分析优化问题从方程。月2基于交替方向神经网络的11L0.070.060.050.0410.80.610.80.610.80.60.030.40.40.40.020.010.20.20.200.001 0.003 0.010.03固定偏置（稀疏正则化权重）00.001 0.003 0.010.03固定偏置（稀疏正则化权重）00.001 0.003 0.010.03固定偏置（稀疏正则化权重）00.001 0.003 0.01 0.03固定偏置（稀疏正则化权重）(a) 解码器错误（b）层1稀疏性（c）层2稀疏性（d）层3稀疏性图4：固定（实线）和可学习（虚线）偏置参数对重建误差（a）和激活稀疏性（b-d）的影响的演示，比较前馈网络（蓝色）与DeepCA（红色）。所有模型由三层组成由于循环反馈提供的条件依赖性，DeepCA学习更好地控制稀疏水平，以改善重构错误。当<1正则化权重时，偏差收敛到零，从而导致更密集的激活和更高的网络重构容量。推断函数f[T]可以用作前馈网络推断f[1]的推广，用于具有任意损失函数L的反向传播，其鼓励输出与所提供的监督y（i）一致，如等式（1）所示地下15层。这里，在损失函数中仅示出了来自最后一层的潜在系数f[T]（x（i）），但是也可以包括其他中间输出f[T]=l∑narg min（[T]㈠）Lfl （x）、y（十五）{Bj，bj}i=1从不可知的角度来看，ADNN因此可以被视为具有特定序列的线性和非线性变换以及绑定权重的端到端深度网络架构。更多的迭代（T> 1）导致网络具有更大的有效深度，潜在地允许表示更复杂的非线性。然而，由于网络架构是从我们的DeepCA模型中的推理算法而不是参数化变换的任意组合中导出的，因此更大的深度不需要额外的参数，并且用于满足对潜在变量的约束同时强制执行与模型参数的一致性的非常特定的目的。5实验结果在本节中，我们展示了在我们的DeepCA模型中使用递归ADNN在前馈网络上进行更准确的推理近似的一些实际优势。即使没有额外的先验知识，具有ReLU激活函数的标准卷积网络仍然受益于额外的循环迭代，正如CIFAR-10数据集上的监督和无监督任务的一致改进所证明的那样[23]。具体地，对于具有102重建损失的无监督自动编码器，图12示出了一个无监督自动编码器。图4示出了ADNN的附加迭代允许更好的稀疏性控制，从而得到基线DeepCA学习偏倚基线DeepCA学习偏倚基线DeepCA学习偏倚重构误差基线DeepCA学习偏倚稀疏比例稀疏比例稀疏比例12C. Murdock，M.F. Chang和S.Lucey0.60.50.50.40.350.40.30.20.10.40.30.20.30.250.201 2 3 4 56模型大小乘数1 2 3 4 5 6模型大小乘数0.150 50 100 150200训练时期(a) 训练误差(b) 测试误差(c) 优化图5：增加模型大小对训练（a）和测试（b）分类错误的影响，证明ADNN在前馈网络上的性能持续改善，特别是在较大的模型中。基本模型由两个3×3，2-strided卷积层组成，然后是一个分别具有4，8和16个组件的全连接层。还示出了整个训练过程中的分类误差（c）。0.070.060.050.070.060.050.070.060.050.070.060.050.040.040.040.040.030.030.030.030.020.020.020.020.010 50 100 150200训练时期0.010 50 100 150200训练时期0.0112 35 1020迭代次数0.0112 35 10 20迭代次数(a) 培训(b) 测试(c) 列车错误(d) 测试误差图6：展示ADNN推理的改进的泛化性能的定量结果。整个优化过程中的训练（a）和测试（b）重建误差表明，更多的迭代（T >1）大大减少了收敛时间，并且在保持的测试数据上给出了低得多的误差。通过足够大数量的迭代，即使具有由较少残差块组成的编码器的较低容量模型也都实现了几乎相同的性能水平，其中训练（c）和测试（d）误差之间的差异很小。通过更密集的激活和更低的重构误差来实现更高的网络容量这表明，经常性反馈允许ADNN通过显式惩罚激活稀疏性来学习更丰富的表示空间。对于具有交叉熵损失的监督分类，ADNN也可以看到改进的准确性，如图1B所示。5，特别是对于每层具有更多参数的较大模型因为我们将层偏差视为调节1激活惩罚的相对权重的学习超参数，所以这种改进可以再次归因于这种自适应稀疏性，从而鼓励跨语义类别的更具区分性的表示。虽然这些实验强调了稀疏性在深度网络中的重要性，并证明了我们的DeepCA模型公式，但前馈软阈值作为显式正则化近似的有效性限制了可以通过更多迭代实现的额外容量。因此，当先验知识以约束的形式可用时，ADNN提供大得多的性能增益，所述约束不能通过前馈非线性有效地近似。这通过我们的输出受约束的单图像深度预测的应用来例证，其中简单的前馈校正1次迭代（前馈）5次迭代10次迭代1次迭代（前馈）5次迭代10次迭代1次迭代（前馈）5次迭代10次迭代1 迭代2 迭代3 迭代5次迭代10次迭代20次迭代1 迭代2 迭代3 迭代5次迭代10次迭代20次迭代1个残留块5个残留块18个残留块1个残留块5个残留块18个残留块分类错误训练误差分类错误测试误差分类错误训练误差测试误差基于交替方向神经网络的13地面ADNN基线输入真值（T= 20）（T = 1）图像（一）（b）第（1）款（c）第（1）款（d）其他事项(i)(ii)㈢㈣㈤㈥㈦㈧㈨图7：给定单个图像（a）和作为输入的已知深度值的稀疏集合的定性深度预测结果。基线前馈模型（b）的输出与约束不一致，如不切实际的不连续性所证明的具有T=20次迭代的ADNN（c）学习强制约束，解决模糊性以获得更详细的预测，从而更好地与地面实况深度图（d）一致。根据难度的不同，额外的迭代可能对输出几乎没有影响（viii）或不足以一致地积分已知约束值（ix）。已知深度值的不一致性导致不一致的不连续性。我们使用NYU-Depth V2数据集[33]证明了这一点，从中我们从保持的场景中采样了60 k个训练图像和500个测试图像。启用更清晰为了实现可视化，我们将图像大小调整为28 × 28，然后随机抽取10%的地面真实深度值来模拟已知的测量值。在[30]之后，我们的模型架构使用ResNet编码器进行im的特征提取，与已知深度值级联的年龄作为附加输入通道。接下来是一个ADNN解码器，由三个转置卷积上采样层组成，前两层中有偏ReLU非线性，最后一层中有约束校正邻近算子图图6示出了随着迭代次数的增加和不同编码器大小的该模型的平均绝对预测误差。虽然所有模型在训练数据上具有相似的预测误差，但具有更多迭代的ADNN实现了显着改善的泛化性能，即使使用低容量编码器，也可以通过20次迭代将前馈基线的测试误差从0.054降低到0.015，降低超过72%。图中的定性可视化图7示出了这些改进来自用于解决深度模糊的一致约束满足。在图8中，我们还示出了全尺寸图像上的定性和定量结果，由于更高分辨率的细节提供了减少的模糊性，这是一个更容易的问题。虽然前馈模型在给定足够的模型容量的情况下实现了良好的性能[30]，但由于全局偏置预测误差导致与已知测量值不一致，因此它们的泛化能力较差由前-14C. Murdock，M.F. Chang和S.Lucey表1：定量结果方法ResNet # Params RMSE Relδ1δ 2δ 3基线181 .一、5×1070.540.16 79.2 94.7 99.4ADNN181 .一、2×1070.280.06 95.5 99.4 99.9基线108. 8 ×1060.560.16 79.8 94.6 99.4图像基线ADNN图8：来自NYU-Depth V2数据集的全尺寸图像的结果，比较了顶部所示的前馈基线和ADNN（具有10次迭代）架构。在左侧，示例绝对误差图被可视化，其中较浅的颜色对应于较高的误差，并且灰色点指示200个随机采样的测量的位置。在右边，定量指标（以下[30]）展示了改变ResNet编码器大小对预测性能的影响。尽管具有少得多的可学习参数，但由于稀疏输出约束的明确实施，ADNN的性能与最先进的前馈模型ADNN通过明确执行与稀疏输出约束的一致性，减少了离群值，并提供了与需要显著更多可学习参数的前馈网络相当的改进的测试性能。6结论DeepCA是一种新的深度模型公式，它扩展了浅层成分分析技术，以增加代表性能力。与前馈网络不同，中间网络激活被解释为使用作为经常性ADNN实现的迭代约束优化算法来推断的潜在变量这允许使用任意损失函数进行学习，并且提供了用于以约束或正则化惩罚的形式一致地集成先验知识的工具。由于它与前馈网络的密切关系，相当于用近似算子代替非线性激活函数的算法的一次迭代，DeepCA还提供了一个解释深度学习的新视角，从稀疏近似理论的角度为网络架构的分析和设计提出了可能的新方向。ADNN基线ADNN10六、5×1060.240.0597.3 99.6 99.9[30个]503 .第三章。4×1070.230.0497.1 99.4 99.8基于交替方向神经网络的15引用1. Baldi，P. Hornik，K.：神经网络和主成分分析：从没有局部最小值的例子神经网络2（1），532. 鲍角Ji，H.，Quan，Y.，Shen，Z.：用于稀疏编码的字典学习：算法及收敛性分析。Pattern Analysis and Machine Intelligence（PAMI）38（7），13563. Belagiannis，V.，齐瑟曼，A.：循环人体姿态估计。在：自动人脸手势识别（FG）国际会议（2017）4. Bengio，Y.，Courville，A. Vincent，P.：表征学习：回顾与新的视角。PatternAnalysis and Machine Intelligence（PAMI）35（8），1798-1828（2013）5. 博伊德，S.，Parikh，N. Chu，E.，Peleato，B.，Eckstein，J.：通过乘子交替方向法的分布式优化和统计学习机器学习的基础和趋势3（1）（2011）6. Brachmann ， E. ， Krull ， A. ，诺沃津， S. ， Shotton ， J. ， Michel ， F. ，Gumhold，S.，Rother，C.：用于相机定位的DSAC可区分RANSAC计算机视觉和模式识别会议（CVPR）（2017）7. 卡雷拉，J.，阿格拉瓦尔，P.，Fragkiadaki，K.，Malik，J.：迭代误差反馈人体位姿估计计算机视觉和模式识别会议（CVPR）（2016）8. Casazza，P.G.，Kutyniok，G.：有限帧：理论与应用。03 The Dog（2012）9. 陈春，Li，M.，Liu，X.，中国科学院院士，叶Y：具有二次耦合项的不可分凸最小化模型的扩展ADMM和BCD：融合分析和见解。数学规划（2017）10. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。Pattern Analysisand Machine Intelligence（PAMI）PP（99）（2017）11. Chen，L.C.，Schwing，A.，Yuille，A.，乌尔塔松河：学习深度结构化模型。国际机器学习会议（ICML）（2015）12. Diamond，S.Sitzmann，V.，Heide，F.，Wetzstein，G.：具有深度先验的展开优化arXiv预印本arXiv：1705.08041（2017）13. Gillis，N.：通过数据预处理实现稀疏唯一的非负矩阵分解Journal of MachineLearning Research（JMLR）13（November），3349-3386（2012）14. Glorot，X.，Bordes，A.，Bengio，Y.：深度稀疏整流神经网络。国际人工智能和统计会议（AISTATS）（2011年）15. Gregor ， K. ， LeCun ， Y. ：学习稀疏编码的快速近似。国际机器学习会议（ICML）（2010）16. Haefele，B.，Young，E.，维达尔，R.：结构化低秩矩阵分解：图像处理中的最优性、算法及应用。国际机器学习会议（ICML）（2014）17. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射在：欧洲计算机视觉会议（ECCV）（2016）18. Hu，P.，Ramanan，D.：自下而上和自上而下的层次重构高斯推理。计算机视觉和模式识别会议（CVPR）（2016）16C. Murdock，M.F. Chang和S.Lucey19. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。计算机视觉和模式识别会议（CVPR）（2017）20. 黄，J.，Rathod，V.，孙角，澳-地Zhu，M.，Korattikara，A.，Fathi，A.，费希尔岛Wojna，Z.，Song，Y.，Guadarrama，S.，Murphy，K.：现代卷积对象检测器的速度/精度权衡计算机视觉和模式识别会议（CVPR）（2017）21. Iofe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议pp. 44822. 朱滕角，Herault，J.：盲源分离，第一部分：基于神经模拟结构的自适应SignalProcessing24（1），123. Krizhevsky，A.，Hinton，G.：从微小的图像中学习多层特征。Tech. 代表，多伦多大学（2009）24. LeCun，Y.，博图湖Bengio，Y.，Hafner，P.：基于梯度的学习应用于文档识别。Proceedings of the IEEE86（11），227825. 李D.D. Seung，H.S.：通过非负矩阵分解学习对象的部分。Nature401（6755），78826. 李，H.，格罗斯河Ranganath河Ng，A.Y.：用于分层表示的可扩展无监督学习的卷积深度信念网络。机器学习国际会议（ICML）（2009）27. Li，K.，Hariharan，B.，Malik，J.：迭代实例分割。计算机视觉和模式识别会议（CVPR）（2016）28. Lin，C.H.，Lucey，S.：逆合成空间Transformer网络。计算机视觉与模式识别会议（CVPR）（2017）29. Liu，T.，Tao，D.，徐德：k维编码方案的维数相关的推广界神经计算（2016）30. Ma，F.，Karaman，S.：稀疏到密集：从稀疏深度样本和单个图像进行深度预测。机器人与自动化国际会议（ICRA）（2018）31. Martins，A.，Astudillo，R.：从softmax到sparsemax：注意力与

下载后可阅读完整内容，剩余1页未读，立即下载