没有合适的资源?快使用搜索试试~ 我知道了~
高斯近似深度集成模型的稀疏结构及空间相关性提取
366学习结构化高斯近似深度集成Ivor J.A.英国苏塞克斯大学辛普森分校i. sussex.ac.ukSaraVicenteNiantic,英国svicente@nianticlabs.com尼尔英国巴斯坎贝尔大学n. bath.ac.uk摘要本文提出使用稀疏结构的多元高斯提供一个封闭形式的近似用于密集图像预测任务的概率集成模型的输出。这是通过预测分布的均值和协方差的卷积神经网络实现的,其中逆协方差由稀疏结构的Cholesky矩阵参数化。与蒸馏方法类似,我们的单个网络经过训练,以最大化来自预训练概率模型的样本的概率,在这项工作中,我们使用固定的网络集合。一旦训练好,我们的紧凑表示可以用来有效地从近似输出分布中提取空间相关的样本。重要的是,这种方法在正式分布中明确地捕捉预测中的不确定性和结构相关性,而不是仅通过采样隐含地捕捉这允许模型的直接内省,使学习的结构可视化。此外,该配方提供了两个另外的益处:样本概率的估计,以及在测试时引入任意空间条件。我们证明了我们的ap-proach单目深度估计的优点,并表明,我们的方法的优点是获得可比的定量性能。1. 介绍单预测神经网络在计算机视觉中是普遍存在的,并且已经展示了用于各种任务的广泛能力然而,研究人员越来越有兴趣捕捉估计任务中的不确定性,以对抗过度自信和模糊性;当构建将计算机视觉方法连接到下游应用的鲁棒系统时,这种关注是重要的。将神经网络部署到安全关键任务中,例如自动驾驶,需要准确测量不确定性。虽然贝叶斯神经网络[17]通常是不确定性估计的首选模型,但已提出了集合[14]作为一种简单的替代方案。嗯...合奏CNN样品1CNN样品2输入图像...CNN样本N我们是说SUPN输入图像协方差无限制的结构化样本模型自省调节图1. 我们的方法被训练为近似输出 一个集合,通过使用结构化不确定性预测网络(SUPN)来预测多变量高斯分布的均值和协方差这种显式分发支持各种任务,包括:采样、调节和模型内省。实际上,集合已经被示出为产生视觉任务的不确定性的良好测量[15,19],并且允许实践者直接利用相关的应用特定的感应偏差,例如已建立的体系结构。隐式方法的局限性尽管它们很流行,但合奏有许多缺点,我们将其分为三个主题。首先,与确定性网络相比,它们的成本增加。在训练时,它们需要训练多个深度模型,而在测试时,需要多个推理通道。MC-dropout [5]在训练时节省了计算,但在推理时仍然需要多次通过。其次,这些方法只提供了一个隐式分布的概率模型输出。任何捕获的不确定性只能通过祖先采样获得。因此,不能367OO|||计算条件样本,或评估给定学习模型的新样本的可能性。最后,对社区越来越重要的是,训练模型的内省非常困难。当将计算机视觉与更大的系统相结合时,以正式和紧凑的形式总结后验分布是有好处的,这种形式可以可视化并适当地用于通知下游任务。计算上的挑战促使人们致力于产生一个单一的模型来近似一个集合的输出;这就是所谓的“整体蒸馏”[ 2,15,18,21 ]。在蒸馏方法中缺乏结构先前的方法集中于:分类问题[15,18],仅近似集合的平均值[2],或建模独立的每像素方差[21]。相比之下,虽然我们也采用单一模型来降低计算成本,但我们建议通过形式上捕获输出空间中的结构来学习近似系综的模型;这更适合于密集预测任务。当进行每像素预测时,通常使用捕获输出空间中的空间相关性特别是,马尔可夫或条件随机场[20]等模型捕捉相邻像素之间的然而,捕获的输出空间的结构是较少探索的建模不确定性的背景下。以前的工作集中在每个像素的异方差不确定性,通过使用高斯[11,21]或拉普拉斯[13]似然模型与对角协方差。由于这些模型不捕获像素之间的相关性,样本遭受盐和胡椒(独立)噪声。明确地捕获结构以前,采用每像素不确定性表示通常是由于预期全协方差结构的直接估计在存储(像素2)和计算(像素3)中都是难以处理的.然而,最近,Dortaet al. [4]介绍了用于生成模型的结构化不确定性预测网络(SUPN)。该论文扩展了一个可变自动编码器(VAE)[12],其中似然模型是具有完整协方差矩阵的高斯模型。作者展示了如何通过使用精度矩阵的Cholesky分解的稀疏近似来有效地预测这一点在精度域中工作允许获得密集的协方差结构,同时还考虑到我们的先验,即从局部图像统计的传播通过对全协方差矩阵进行编码,从这样的模型获得的样本捕获图像域中的这些长程相关性,并且不受盐和胡椒(独立)噪声的影响。在这项工作中,我们建立在SUPN [4]的基础上,并证明了可以在回归设置中训练深度网络来预测结构化高斯分布,近似捕获模型不确定性的方法的输出分布,例如集成[14]和MC- dropout [5]。 我们介绍了一种新的有效的方法来绘制条件或无条件的样本从结构化的多元高斯分布与稀疏结构的精度矩阵。通过充分利用高斯分布的封闭形式的性质,我们的方法允许内省,并使条件在测试时,这证明了繁琐的其他方法。重要的是,我们的方法并不局限于预测空间上的高斯似然(见3.4节)。评价我们证明了我们的方法的深度估计的任务的有效性。实验结果表明,新算法在不牺牲量化性能的前提下,获得了与原算法相当的性能优势;我们考虑准确性和不确定性捕获的度量。样本被发现遵循合奏,而不受限制的数量,可以绘制。紧凑的表示是能够encode-ing丰富的分布,只有一个单一的确定性网络的计算适度增加。此外,我们演示了使用我们的显式表示来执行条件采样,并说明了检查模型和可视化学习到的相关性结构的能力。2. 背景我们的目标是对p(dx)建模,其中x是观察到的图像,d是每个像素的预测,例如,语义标记或深度图。虽然大多数确定性深度模型可以被视为捕获该分布的平均值μ(x),但我们对也捕获方差μ(x)的模型感兴趣。2.1. 深度模型以前使用神经网络进行概率建模的工作可以大致分为三类:(1)对网络参数的不确定性进行建模的贝叶斯方法,(2)通过预测多个假设来经验地近似贝叶斯方法的方法,以及(3)通过预测参数分布直接逼近模型p(dx)。关于神经网络中的不确定性建模的文献是大量的,我们引导感兴趣的读者阅读最近的综述[1]。对参数中的不确定性建模贝叶斯神经网络[17]通过对网络的学习权重w的概率分布建模来建模不确定性然后通过对权重进行边缘化来获得所得后验p(dx)p(d |x,D)=xp(d |x,w)p(w |D)dw,(1)其中w是模型参数,我们明确了对数据集D的依赖性。368||D|.Σ虽然这种方法能够对任意分布p(dx)建模,并生成在输出空间中相关的样本,但它也受到一些限制。大多数方法依赖于平均场近似的权重,以保持易处理性。此外,由于在后验上缺乏参数分布,因此难以MC-dropout [5]通过在训练和测试时使用dropout来近似贝叶斯网络Dropout最初是为了减少深度神经网络中的过度拟合而提出的[22],它通过将网络的一些权重随机设置为零来进行。已经证明,[5],在测试时间的这种随机重量下降类似于从分布p(w)中采样,并且可以用于近似求(1)中的积分。多假设包络方法利用多个模型,并将它们组合起来得到一个单一的预测。深度集成可以使用Bootstrap [14]进行训练,即。将所述训练集分割成多个随机子集,并独立地训练所述集合中的每个模型。或者,为了节省计算,可以通过从相同的训练过程中获取多个快照来训练深度集成[9],这需要循环学习率。已证明集合可提供良好的不确定性度量[14]。它们可以被视为近似贝叶斯网络,通过将(1)中的积分替换为离散数量模型的总和。如第1节所述,在维护越来越多的网络方面,训练和推理过程可能变得昂贵;实际方法通常受限于不同模型的数量,这又限制了测试时间样本的数量。通过参数分布的预测不确定性建模不确定性的另一种方法是使用前馈神经网络来预测参数分布的参数[11]。对于回归任务,p(dx)通常由高斯似然描述,其中均值和方差是神经网络的输出:p(d|(x)100 N d |µ(x),(x),(2)其中,通常用对角矩阵来近似,其中对角元素由网络预测。Kendall和Gal [11]讨论了如何将预测方差视为损失衰减因子,从而减少离群值的损失;该预测的每像素方差被示出为与预测中的误差相关。评估预测的不确定性是更有效的,因为在测试时网络的一次通过足以完全确定不确定性的测量。然而,独立的每像素不确定性估计无法捕获已知存在于图像中的空间相关性;来自这些模型的样本注定是不现实的,并且遭受椒盐噪声。最近,人们越来越感兴趣的是近似一个函数的概率输出,由一个单一的模型集成[2,15,18,21]。这个过程通常被称为“蒸馏”。大部分的焦点都集中在分类上[15,18],其目标是预测图像的类别。虽然这些方法在检测分布外图像方面显示出令人印象深刻的结果,但它们不容易扩展到密集预测任务。其他方法集中于仅近似总体分布的平均值[2],或建模独立的每像素变化[21]。相比之下,我们的模型也做系综蒸馏,但可以捕捉输出空间中的结构。深度预测模型的不确定性自我监督深度估计的目标是训练一个网络来预测单个图像的深度图,而无需显式的深度监督[7,8]。相反,自监督方法使用两个校准的立体相机之间的几何约束来学习深度预测。在测试时,这些方法不需要立体对,只需要单个图像。考虑到从单个图像预测深度的继承模糊性,深度预测是密集预测任务中不确定性估计的自然用例。在[19]中,作者回顾并比较了用于自我监督深度预测的不确定性预测的不同方法他们专注于预测多个假设的方法,例如dropout [5]和ensembles [14],预测每个像素独立异方差不确定性的方法[13],以及两者的组合。在实验中,我们使用[19]提供的预训练网络来评估我们的方法在近似集合中的效率。特别是,我们使用他们最成功的模型,它结合了合奏与预测的不确定性。他们的合奏使用引导训练[14],他们使用不相关的拉普拉斯分布,预测参数不确定性的分布Xia等人[25]示出了深度预测的概率模型如何可以通过下游任务来探索,例如利用附加信息进行推理。他们在一个类似于马尔可夫随机场的模型中,在补丁级别与我们的方法相比,该方法需要在推理时解决一个复杂的优化问题。2.2. 预测结构化高斯分布为了近似一个系综,我们训练一个网络来预测高斯分布的参数。给定一个输入图像x,网络输出高斯分布的参数μ(x)和μ(x)。我们专注于密集的预测任务。对于这些任务,如果N是输入图像中的像素数,则µ的大小也是N,而完整的矩阵具有N2个参数。协方差矩阵的参数数量的二次缩放导致对角矩阵的常见补救措施,其仅需要N个参数。然而,这种简化的假设pro-hibits像素之间的相关性的捕获。结构化不确定性预测网络我们的方法建立在工作的基础上,[4,24],其中参数-369我{|}{|}×我我|.ΣN|nnn1ΣΣΣ所使用的分解是精度矩阵的Cholesky分解,即,网络直接预测LΛ,其中LΛL<$Λ=-并且LΛ是下三角矩阵。对于完备性,我们回顾了PA的一些性质-在[4]中提出的rameterisation,我们在工作中使用。在选择参数化时,有几个关键点-这是一个很容易的问题,因为它是一个很容易的问题。计算训练所需的似然函数,在推断时从分布中采样的容易程度以及施加协方差矩阵(或等效地)的容易程度在§2.2中讨论的稀疏表示。3.1. 培训给定I个训练图像xii[1,I],对整个训练集运行预训练的集合,以获得每个图像的S个不同的预测dss[1,S],其中S是集合的大小或MC-丢弃样本的数量对数似然损失我们的网络经过训练,以最小化训练集的负对数似然:精度矩阵)是对称和正定的?DirectISCholesky因子的预测保证了精度矩阵是对称的。为了保证它是正定的,要求Cholesky分解的对角值是正的;这是一个在实践中很容易实施的约束。参数化的这种选择允许容易地计算多变量高斯分布的对数似然然而,采样更难以执行,因为需要访问协方差我们在§3.3中讨论了一种新的有效抽样方法。稀疏性尽管使用该参数化的优点以及Cholesky是下三角矩阵的事实,但元素的数量仍然相对于像素的数量N以二次方式增长,使得直接估计大图像是不可行的。我们遵循SUPN [4]在Cholesky矩阵LΛ中施加稀疏性。对于每个像素,我们只为小邻域中的像素填充Cholesky矩阵,同时保持矩阵的下三角形。我们在补充材料中包括一个插图这种稀疏的Cholesky矩阵可以通过仅预测非零值来压缩表示;对于3 × 3邻域,这对应于预测对角映射加上4个非对角映射。重要的是,这种表示可以使用标准卷积运算有效地编码到流行的API中,如Tensorflow和PyTorch。深度高斯MRF我们的模型可以被视为高斯马尔可夫随机场,因为精度矩阵上的稀疏模式直接暗示了马尔可夫属性:一个变量是条件独立的所有其他变量给定其邻居。与我们的方法类似,[3,10,23]使用回归模型来预测高斯条件随机场的参数,该随机场捕获输出空间中的结构。它们显示了语义分割的改进结果。然而,他们专注于预测MAP解决方案,并没有利用全概率分布。3. 方法L= −logN ds|µ(xi),(xi),(3)i=1s=1其中dsµ(xi),n(xi)是多元高斯分布的概率密度函数。3.2. 推理与集成和MC-退出一样,我们可以使用我们的模型从预测分布p(dx)中获得样本。与集成相比,我们的模型不受样本数量的限制;我们在§ 3.3中讨论了一种有效的抽样程序。更重要的是,由于我们的模型预测了一个封闭形式的概率函数,它允许额外的推理任务,这是不可能与合奏或MC-辍学。我们的模型允许评估给定密集预测的对数似然性。这对于模型比较很有用。条件分布输出的高斯分布可用于计算某些像素标签的条件分布绘制条件样本的能力具有实际应用,例如:对于深度完成,其中少量像素的深度由外部传感器(诸如LIDAR扫描仪)提供;或者用于交互式图像分割,其中由用户提供几个像素的标记。3.3. 有效采样从具有对角协方差矩阵的多变量高斯分布中采样,. . ..d(s)=µn+σnε(s),ε(s)<$N(0,1).(四)然而,如果高斯分布具有一般协方差,则不能针对每个像素独立地计算样本,并且必须通过协方差的平方根矩阵绘制,例如Cholesky因子:我们的目标是训练一个单一的网络,它近似于一个集合的多个输出我们假设这是-d(s)=µ+Lε(s),ε(s)<$N(0,IN),(5)网络是一个预先训练好的网络,例如:[14]或[9]。我们预测一个结构化的多元高斯使用其中L L =Σ。 从稀疏精度计算密集方差370l=1ΣΛΛΛKKKKUUKKΛΛΛΛ<$UK<$UU简体中文0I0,n∈ U,mU=1 −mK。(对角项 ←Shuffle(洗牌)提供类似−⊙⊙Cholesky操作将涉及O(N3)和O(N2)存储的计算复杂性,使其不可行。通过Jacobi方法进行高效计算幸运的是,在Cholesky精度矩阵上采用稀疏结构意味着我们可以有效地执行矩阵乘法。我们可以利用这一点来使用Jacobi迭代求解器的截断(至J次迭代)版本来取近似样本以反转LΛ。这导致在一个易于处理的算法,以获得足够的质量近似样本我们可以从同一个分布同时采取多个样本,同时保持效率。我们从一组S个标准高斯样本开始,算法一:多变量Jacobi抽样高斯分布结果:从相关的多元高斯(稀疏精度)样本:S(0)N(0,IN),N:=W×H;本地连接筛选器:F={fl}L;对数对角项:f ∈ RN;非对角项:<$∈RL×N;对于j←0到J−1,V←Conv2D(S(j),F);v<$L[V<$L]n,l;Eε=[ε(1),. -是的-是的,ε(S)],ε(s)<$N(0,IN).(六)l=1S(j+1)经验值Σ−1 (E然后,我们注意到,转置的,精度Cholesky矩阵的逆可以用作采样矩阵,因为=Λ−1=(LΛL端输出:S(J)L−<$E<$$><$N(0,Λ−1);ΛΛ Λ表示L-Λε是平方根矩阵的LHS,Σ。因此,我们绘制低方差蒙特卡罗样本,D=[d(1),. -是的-是的 ,d(S)]=µ+L−E。(八)为了有效地验证L∈k,我们使用JJacobi迭代;这些对于应用于已经低于三角形r的稀疏矩阵特别有效。We初始化S(0)=Ee,然后在每次迭代时,用S(j+1)←D−1。E−UΛS(j),(9)其中下标指示协方差矩阵的平均向量或块的适当分区以矩阵形式直接评估这一点,将再次昂贵得令人望而却步,特别是考虑到矩阵求逆(从精度到协方差矩阵)。感谢地,我们可以使用Jacobi抽样方法的修改形式结合Matheron取样. Matheron其中DΛ:=diag(L)且UΛ:=L<$DΛ,严格上三角矩阵。最后的样本是通过平均值相加得到的,使得D=µ+S。高效的条件采样由于我们有输出分布的封闭形式表示:d<$N(µ,),=L− <$L−1,(10)我们可以找到结果条件分布的表达式,其中我们为像素的子集指定值,并从剩余像素上的结果分布中采样。让我们将像素划分为一组已知值dK和未知值dU;像素(任意)在像素掩码下属于一组或另一组:. 1,n∈K在a=α的条件下,表b可以通过下式找到(b)|a = α)<$b +<$UK<$−1(α −a).(十五)我们可以使用直接的恒等式将Matheron规则转换<$KK<$KUΛUK⇒ΣUKΣ−1= −Λ−1ΛUK.(十八)我们已经准备好获得有效的评估稀疏LΛ,如在雅可比方法中所讨论的。有了适当的簿记,我们就能生产出适当洗牌的当地产品。连接过滤器Fshuff←Shuffle(F) and permuted off-因此,稍微滥用一下符号,我们就可以把全部值恢复为d=mKdK+mUdU。假设已知值dK= α,未知值的条件分布是高斯条件密度:p (dU|dK=α ) <$N ( b, B ),[mK]n=371( 12)b:=μU+<$UK<$KK( α−μK ) , ( 13 ) B :=<$UU−<$UK<$−1<$KU,(14)稀疏LΛ的评估。该乘积导致精度矩阵Λ中的稀疏带状对角结构。该稀疏矩阵的适当块可以被访问并用于使用更新(18)的精确形式来求解(15)的条件更新3.4. 非高斯似然的对于许多密集预测任务,多变量高斯分布不是一个合适的可能性,372×≈−OO直接观察然而,SUPN仍然适用于这种用例,通过将多元高斯分布拟合到logit空间,即。到最后一个非线性层之前的层。这之后是适当的激活函数。例如,对于深度预测,网络的输出应该是非负的,并且使用的激活函数是缩放的sigmoid,遵循monodepth 2 [8]。类似地,对于分割任务,SUPN的拟合可以在logit空间中完成,并且soft-max将用作激活函数。3.5. 实现细节架构我们建立在Monodepth 2 [8]使用的U-Net架构之上,即。编码器-解码器架构,其中编码器是ResNet18,并且在编码器和解码器之间存在跳过连接。我们增加了一个额外的解码器来预测Cholesky参数。该解码器将来自平均值解码器的跳过连接作为输入。附加解码器连接卷积块中的坐标映射[16]以提供附加空间信息。我们设计了一种非对角预测方法,其中值的规模最初非常小,exp(4),但在训练期间进行调整。我们发现,这种归纳偏差,代替正式的先验,需要预测高质量的协方差。我们使用55邻域的Cholesky分解;请参阅补充质询详细的结构细节和烧蚀实验。模型大小我们的模型将一系列大型模型的蒸馏编码为单个框架;我们只使用比单个网络多24%的参数(在集合中为8个)。对于深度预测,我们使用类似于Monodepth 2 [8]的多尺度损失,其中(5)中的损失应用于不同尺度。固定稀疏性确保所有操作对于计算和存储都是(N)。 采样是(J)(我们使用J=1000);根据经验,Jacobi样本为0.6s。4. 实验对于实验,我们展示了我们的方法适用于单目深度估计。我们使用KITTI数据集[6],并基于Monodepth2存储库[8]和[19]的存储库实现。我们使用[19]提供的预训练模型特别是,通过自举与预测的不确定性一起两种不同的方法用于预测不确定性。两者都使用对角多变量拉普拉斯分布,但它们的训练方式不同:通过直接优化自监督深度模型的对数似然来训练LOG;而SELF使用预先训练的网络进行深度预测,而没有不确定性估计,作为教师模型。为了评估估计深度图的准确性,我们使用了Kitti数据集常用的度量的子集:绝对相对误差、均方根误差(RMSE)和A1度量。为了评估不确定性估计,我们使用[19]中使用的度量:稀疏化误差下的面积(AUSE)和随机增益下的面积(AURG)。这两个指标都依赖于使用每像素的不确定性估计来将像素从较不自信到较自信进行排名。对于AUSE,将此排名与Oracle排名进行比较,该Oracle排名使用不同的地面实况指标进行排名,将像素从较高的误差到较低的误差进行排序。小的AUSE意味着不确定性估计提供的排名AURG将基于估计的不确定性的排名与随机排名进行比较,大值是该度量的首选。由于这两个已建立的度量仅考虑每像素估计,因此我们还评估了来自我们模型下的集合的测试样本的后验对数似然。为了提供一个基线,我们还训练了一个模型版本,它只具有对角协方差结构(每像素),而不能建模结构。与此基线进行比较可以确定模型是否正确地捕获了测试样本的分布并避免了过度拟合。我们还测量了其他集合的对数似然性,以确保SUPN变体估计的分布能够很好地概括以支持其他合理样本。4.1. 定量结果在表1中,我们显示了两种不同的集合和我们的模型的相应版本之间的定量比较,经过训练以近似它们。我们比较使用的深度估计度量的方法。虽然合奏的平均性能略优于我们的近似模型,结果是可比的误差范围内。表1中的箱形图突出显示了集合和SUPN模型的误差分布的强烈重叠,表明尽管参数数量显著减少,但SUPN能够近似集合的性能。我们的模型与仅对角模型相比毫不逊色。这在最佳样本的度量中尤其明显。从我们的模型中得到的样本始终优于仅从高斯对角线中得到的样本。不确定性估计表2提供了不确定性度量方面的定量比较。SUPN的一致性优于教师集成模型的LOG和SELF。对数似然值表明,SUPN的相关结构捕获能够更好地解释系综的测试输出,而基线373表1. 准确性比较:对常用深度度量的质量进行定量比较(参见[8]中的其余度量的补充)。“最佳”指标为我们的模型抽样40个不同的预测,并从基线的8个集合中标准偏差在括号中给出箱形图说明了分布的大量重叠合奏RMSE平均值SUPN(我们的)0 5 10 15箱 形 图 显 示 了 原 始 集 合 与Boot+Log RMSE 均 值 的 训 练SUPN 模 型 之 间 的 强 烈 差 异 重叠。表2.像素不确定性度量:AUSE(稀疏化误差下的面积),越低越好。AURG(随机增益下的面积),越高越好。根据10份样本的标准差估计SUPN的不确定度标有 * 的结果与[19]发表的工作不同,为了使其具有可比性,我们没有使用Monodepth 1后处理。LL(Log-Likewise)列提供了对角(基线)和SUPN模型下来自相应集合的样本的对数似然标准偏差在括号中给出型号名称AbsRel AUSE ↓AbsRel AURGRMSE AUSE ↓RMSE AURG ↑A1 AUSE ↓A1 AURG ↑LL Boot+Log ×105↑LL Boot+Self ×105↑MD2引导+日志0.038(0.020)0.021(0.019)2.449(0.877)0.820(0.929)0.046(0.048)0.037(0.040)MD2引导+自0.029(0.018)0.028(0.019)1.924(1.006)1.316(1.000)0.028(0.041)0.049(0.037)MD2启动+日志 *0.041(0.019)0.018(0.020)2.927(1.327)0.324(1.019)0.050(0.049)0.032(0.037)MD2引导+自 *0.040(0.021)0.017(0.018)2.906(1.458)0.331(1.08)0.045(0.045)0.031(0.035)对角0.085(0.050)-0.020(0.030)5.075(1.924)-1.697(0.799)0.138(0.083)-0.440(0.053)1.77(11.48)1.15(12.78)SUPN引导+日志0.037(0.027)0.030(0.025)1.555(1.307)1.856(1.355)0.040(0.063)0.058(0.047)40.60(1.35)38.18(2.93)SUPN Boot+Self0.050(0.037)0.017(0.028)2.786(1.796)0.674(1.544)0.062(0.074)0.034(0.055)36.51(2.31)38.87(1.63)图2. SUPN BOOT +LOG的示例像素(红色十字)和其他像素位置之间的学习协方差的可视化。红色表示高度正相关,蓝色表示强负相关。为清楚起见,这些图被缩放到标准差范围内(通过带符号的平方根运算),并在范围[-0.05,0.05]上绘制。这些示例说明了可以从精度矩阵中的非常局部的结构(5×5像素区域)捕获有关更多示例,请参阅补充视频。对角模型样本通常在SUPN模型下具有较高的支持度,这表明一些其他测量不能准确测量模型后验预测中存在的结构质量正如预期的那样,SUPN方法在相应样本的测试集上的性能略好,但我们注意到,总体而言,两种方法之间的值相似,这表明捕获的相关性对特定集合没有过拟合。4.2. 定性结果图3显示了来自BOOT +LOG环境和SUPN近似的样本;这些样本在视觉上相似,并表现出相当大的长程结构。正如第1节所讨论的,显式分发的优点之一是它允许内省。图2说明了如何显式计算指定像素与任何其他像素之间的协方差。这些可视化是使用(9)的采样过程两次(具有LΛ,然后LΛΛ)获得的协方差矩阵的对应行,以编码在RHS上感兴趣的pixel(而不是Emax),并且没有平均值。条件分布图4说明了我们的模型在本例中,我们使用了一些来自地面实况深度的样本作为预测分布的附加条件,并显示了条件均值。型号名称AbsRel平均值↓AbsRel Best ↓RMSE平均值↓RMSE最佳值↓A1平均值↑A1最佳↑MD2启动+日志0.092(0.035)0.084(0.031)3.850(1.370)3.600(1.260)0.911(0.064)0.923(0.055)MD2引导+自0.088(0.034)0.083(0.031)3.795(1.397)3.574(1.323)0.918(0.060)0.929(0.051)对角0.101(0.044)0.103(0.043)4.000(1.457)4.020(1.444)0.896(0.076)0.894(0.074)SUPN引导+日志0.104(0.047)0.095(0.039)4.071(1.489)3.577(1.191)0.892(0.080)0.909(0.069)374(a) 输入图像(b)平均视差(c)BOOT +LOG差异(d)SUPN BOOT +LOG差异图3.深度样本示例(更多信息请参见补充视频(b)由集合模型预测的平均归一化差异平均值与(c)BOOT +LOG集合或(d)SUPN BOOT +LOG之一之间的差异;样品在定性上相似。型号名称AbsRel ↓ RMSE ↓ A1↑膨胀0.088(0.034)3.795(1.397)0.918(0.060)SUPN 0.104(0.047)4.071(1.489)0.892(0.080)SUPN25 0.086(0.036)3.893(1.541)0.922(0.053)SUPN500.076(0.031)3.607(1.433)0.936(0.041)SUPN 100毫米0.064(0.028)3.251(1.290)0.949(0.033)SUPN 200毫米0.054(0.022)2.873(1.100)0.960(0.028)(a)图像+调节位置(b)平均视差(c)条件平均视差(d)定量调节准确度图4.使用稀疏地面实况深度信息的条件预测。(a)示出了具有有效深度的25个随机采样的调节位置,(b)示出了原始平均视差,而(c)示出了条件平均视差。d)量化我们的SUPN Boot+Log模型在以N个随机地面真实深度像素为条件时的准确性改进,每个图像重复10次5. 讨论和限制类似于其他蒸馏方法,我们的方法的性能是上界的原始系综模型的性能。当集合很小时,这可能成为一个问题我们样本可能具有高的对数似然性,而看起来不可信,这可能是由于在增强预测中缺乏变化。这可以通过使用预测高斯分布的先验知识来克服,未来的工作将考虑使用绘制的样本在指定任务上训练模型。作为对集合输出的确定性近似,我们试图捕获集合捕获的所有形式的不确定性(例如,任意论和认识论)。 我们承认,我们不单独考虑近似中的认识不确定性,但是我们的工作可以被认为是正交的工作在这一领域,例如。BNN,并且可以容易地组合。潜在的负面影响我们认为,不确定性估计是改进深度模型的一项有价值的努力,我们使用显式分布的方法是朝着正确方向迈出的一然而,预测的分布还有待评估分发外的数据。与大多数机器学习模型一样,我们不能期望我们的SUPN预测网络能够推广到非常不同的数据。显然,这种方法在部署到安全关键应用(如自动驾驶)之前需要进行广泛的验证。结论提出了一种基于系综模型蒸馏我们证明了我们的结构化高斯模型可以通过卷积神经网络的单次通过来预测,我们提出了一种有效的采样方法。我们的方法进行了验证的任务的深度预测,从一个单一的图像。我们的蒸馏模型能够在不确定性度量上与原始集合类似地执行,同时需要更少的参数并允许抽取任意数量的样本。我们已经illustrated,样本捕获的图像域中的长程相关性,这是在鲜明的对比,使用对角协方差矩阵的先前作品。我们证明了我们的预测分布在实现任意测试时间调节和允许直接引入推断分布方面的好处我们希望我们的论文能够激发人们对预测不确定性模型的兴趣,这些模型能够在输出空间中建模相关性,在计算机视觉中具有许多实际应用,并与后续下游任务集成。375引用[1] Moloud Abdar , Farhad Pourpanah , Sadiq Hussain ,Dana Rezazadegan,Li Liu,Mohammad Ghavamzadeh,Paul Fieguth,Abbas Khosravi,U Rajendra Acharya ,Vladimir Makarenkov,et al.深度学习中的不确定性量化综 述 : 技 术 、 应 用 和 挑 战 。 arXiv 预 印 本 arXiv :2011.06225,2020。2[2] SamuelRotaBu lo` ,Loren z oPorzi,andPeterKontakede r.滴液蒸馏。《国际机器学习会议》,第99-107页。PMLR,2016. 二、三[3] Siddhartha Chandra和Iasonas Kokkinos基于深度高斯crfs的语义图像分割的快速、精确和多尺度推理。欧洲计算机视觉会议,第402-418页。施普林格,2016年。4[4] Garoe Dorta,Sara Vicente,Lourdes Agapito,Neill DFCampbell和Ivor Simpson。结构化不确定性预测网络。在IEEE计算机视觉和模式识别会议论文集,第5477-5485页,2018年。二、三、四[5] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似:在深度学习中表示模型的不确定性。在机器学习国际会议上,第1050-1059页。PMLR,2016. 一、二、三[6] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。The InternationalJournal of Robotics Research ,32(11):1231-1237,2013. 6[7] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别集,第2703[8] Cle' mentGodard , OisinMacAodha , MichaelFirman ,andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE/CVF国际计算机视觉会议集,第3828三六七[9] Gao Huang , Yixuan Li , Geoff Pleiss , Zhuang Liu ,John E Hopcroft,and Kilian Q Weinberger.快照集合:一号列车,免费送米。在ICLR,2017。三、四[10] Jeremy Jancsary,Sebastian Nowozin,Toby Sharp,andCarsten Rother.回归树字段:一个有效的,非参数的方法来解决图像标记问题.在2012年IEEE计算机视觉和模式识别会议上。4[11] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性?神经信息处理系统的进展,第5574-5584页,2017年二、三[12] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。2[13] Maria Klodt和Andrea Vedaldi监督新与旧:从SFM学习SFM。在欧洲计算机视觉会议(ECCV)的会议中,第698二、三[14] Balaji Lakshminarayanan,Alexander Pritzel,and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。NeurIPS,2017。一、二、三、四[15] 李志忠和Derek Hoiem。提高对不熟悉例子的信心估计。在CVPR,2020年。一、二、三[16] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。arXiv预印本arXiv:1807.03247,2018。6[17] 大卫·JC·麦凯。概率网络与合理预测--监督神经网络的实用预测方法述评。网络:神经系统中的计算,1995。一、二[18] Andrey Malinin,Bruno Mlodozeniec,and Mark Gales.能量分配蒸馏. ICLR,2020年。二、三[19] 马特奥·波吉,菲利波·阿莱奥蒂,法比奥·托西,和斯特凡诺·马特托西亚.自我监督单目深度估计的不确定性。在IEEE/CVF计算机视觉和模式识别会议论文集,第3227-3237页一、三、六、七[20] 西蒙·JD·普林斯计算机视觉:模型、学习和推理。剑桥大学出版社,2012年。2[21] Yichen Shen,Zhilu Zhang,Mert R Sabuncu,and LinSun.通过不确定性感知分布蒸馏的计算机视觉中的实时不确定性估计。在IEEE/CVF计算机视觉应用冬季会议论文集,第707-716页二、三[22] Nitish Srivastava,Geoffrey Hinton,Alex Krizhevsky,Ilya Sutskever,and Ruslan Salakhutdinov.Dropout:防止神经网络过拟合的简单机器学习研究杂志,2014年。3[23] Raviteja Vemulapalli,Oncel Tuzel,Ming-Yu Liu,andRama Chellapa.用于语义分割的高斯条件随机场网络。在Proceedings of the IEEE confe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功