基于泛函变分推理的计算机视觉不确定性量化

162 浏览量更新于2023-10-23 1 收藏 643KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12003i=1基于泛函变分推理的计算机视觉可扩展不确定性爱德华多·D·C·卡瓦略（Eduardo D C Carvalho）、罗纳德·克拉克（RonaldClark）、安德烈·尼卡斯特罗（Andrea Nicastro）、保罗·H·J·凯利（Paul H JKelly）摘要随着深度学习在计算机视觉领域的成功应用，量化所有形式的不确定性的能力是其在现实世界中安全可靠部署的首要要求。在这项工作中，我们利用函数空间中变分推理的公式，其中我们将高斯过程（GP）与贝叶斯CNN先验和变分族相关联。由于GP完全由其均值和协方差函数确定，因此我们能够以通过任何chosen CNN架构和任何监督学习任务的单次前向传递为代价获得预测不确定性估计通过利用诱导协方差矩阵的结构，我们提出了数值上有效的算法，该算法此外，我们还提供了构造回归损失函数的充分条件，其概率对应函数与任意不确定性量化相容。1. 介绍在其确定性公式中，监督学习涉及学习给定观测数据DN={xi，yi}N={XD，yD}的映射f：X → Y。在深度学习的背景下，f由神经网络参数化，其结构是：结构表示感兴趣的任务的方便的归纳偏差，并且其训练包括通过使用随机优化技术相对于其参数优化损失函数。尽管深度学习方法在经验上取得了广泛的成功，但它几乎从来都不是跨领域的，因此在某些领域，如医疗诊断或自动驾驶汽车，如何将对看不见的输入的预测映射到非灾难性的决策变得不清楚。因此，许多研究都集中在从常见计算机视觉任务的深度模型中获得不确定性，例如语义分割[18，16，33]，深度深度监督学习的概率公式，也称为贝叶斯深度学习[32，34]，以便可以量化所有形式的预测不确定性。人们可能会遇到两种类型的不确定性：认识论和任意论[20]，两者都自然地在贝叶斯框架中得到了解释。认知不确定性与模型无法找到从输入到输出的有意义的映射有关当训练模型必须对输入样本进行预测时，认知不确定性变得特别相关，在某种意义上，输入样本与训练数据有很大差异：[13 ]第13话，随机不确定性与观测数据中包含的噪声相关联，并且不能随着观测到更多数据而减少，也不会随着OOD输入而增加，因此它本身不能检测到这些因此，对认知和任意不确定性的组合进行建模是构建基于深度学习的系统的关键，这些系统对其预测能力是透明的。1.1. 一般背景将神经网络的所有参数表示为W，贝叶斯深度学习从设定先验分布π（W）开始，通常是多变量正态分布，等等。lihood p（y|T（x; W）），其中T（. ;W）是神经网络重量W。这个贝叶斯推断问题的解决方案是权重p（W）上的后验|DN），由于边缘似然p（D N）的难以计算而未知。随机变分推理（SVI）[12，15]允许执行可扩展的近似正态分布。因此，它是贝叶斯深度学习的主要范式。将q（W）表示为变分分布并且将DB表示为大小为B的小批量，考虑以下训练目标NB估计[20，24]，视觉里程计[2，46，7，6]，SLAM [8]学而优则仕[10]。一种更可靠的方法是考虑贝叶斯Bi=1Eq（W）[log p（yi|T（xi; W））]−KL（q（W）||π（W））（一）作者来自伦敦帝国理工学院计算系。电子邮件：ic.ac.uk或ronald. ic.ac.uk这个量被表示为证据下限（ELBO），假设它由logp（DN）上界。通过为q（W）选择一个方便的分布族，12004q（f（x））i ip（f）（3）i适当地用神经网络映射将其参数化，近似的贝叶斯推断相当于在多个小批量DB上关于其参数最大化ELBO。变分推理的成功（VI）取决于q（W）的表达能力，理想情况下，q（W）应足以近似p（W| DN）。尽管在设计各种不同的系统方面已经做了大量的工作对于BNN后验推理[4，29，30，42]，这些不容易适用于需要大型网络架构的计算机视觉任务。或者，概率监督学习的非参数公式是通过引入随机变量来获得的在一个选定的函数空间上的tic过程。一个指标集为X的F值随机过程是随机变量{f（x）}x∈X的集合，其分布完全由其有限个n维边际分布p（fX）确定，对任意X =（x1，.， xn）∈Xn，n ∈ N，其中fX=（f（x1），.，f（xn））。一个重要的类别是高斯过程（GP）[39]，它由平均函数定义m（. ）和协方差核k（.，- 是的p（fX）=N（m（X），k（X，X）），其中m（X）是均值向量，k（X，X）是协方差矩阵.贝叶斯神经网络（BNN）也可以被视为作为函数的先验分布。首先，抽取一个先验样本W<$π（W），然后通过设置f（. ）=T（. ;W）。BNN是隐式随机过程的一个例子[31]，其中对于任何有限的输入集合X，其分布可以写为：与任意的不确定性量化，并提供了一个实际相关的例子的基础上，反向胡伯损失[26，25]。2. 利用[44]中的函数VI框架，我们提出了一个计算可扩展的变体，该变体使用适当参数化的GP作为变分族。在[11]之后，我们能够将某些贝叶斯CNN先验与封闭形式的协方差核相关联，然后我们使用它来定义GP先验。假设先验在其输出维度上是独立的，我们提出了一种有效的方法来获得其逆协方差矩阵和行列式，从而允许函数VI扩展到高维超监督学习任务。在训练之后，这构成了以通过网络架构的单次前向传递为代价获得预测不确定性（认识性和任意性两者）的实际有用的手段，因此为将不确定性量化纳入实时预测任务开辟了新的方向[20]。3. 我们将这种方法应用于语义分割和深度估计的背景下，在那里我们显示它显示了校准良好的不确定性估计和误差度量，这些估计和误差度量与基于权重空间VI目标的其他方法相当。2. 函数变分推理2.1. 背景尽管全科医生提供了一种原则性的处理方式，.XΣpf∈A=∫{T（X;W）=fX∈A}π（W）dW（2）由于监督学习中的不确定性，执行精确推理需要花费大量的数据点，因此无法适用于大规模和高维的学习。其中p（？）是概率测度，A是任意可测集。即使从p（. ），由于T（.）的不可逆性，通常不可能精确计算其值。;W）。注意，在该公式中，BNN先验的维数不依赖于在权重空间的维度上，这意味着仅具有数百万权重的BNN上的后向推理取决于输入的数量n和F的维数，F的维数要小得多。此外，当p（W| DN）可能具有复杂的结构，这是由于许多不同的W的不同值产生相同的输出值，如果直接在函数空间中执行VI，则可以在很大程度上避免这种情况[31]。1.2.的捐款数据集。稀疏变分方法[45，14]通过允许使用训练数据的子集计算变分后验近似来克服这个问题，但是在基于图像的数据集的背景下难以选择适当的诱导点集合[41]。函数变分贝叶斯神经网络（FVBNNs）[44]使用BNN来近似有限输入集的函数这是通过定义一般随机过程的KL发散而实现的（参见[44]定义和证明）。在这种发散的基础上，定义X′∈Xn′，其中n′是固定的，并设置X=XD<$X′，可以在函数空间中获得ELBO的实际有用的类似物我们的贡献如下：1. 给定回归的ΣNi=1E[logp（y|f（x））]−KL.q（fX）||XΣ任务，我们提供了充分的条件，为建设，ING定义良好的可能性，这是兼容的我们将此方程称为功能VI目标，其结构将在本文中讨论和简化。12005KKZ为了产生一个计算上更可行的版本，它不使用BNN作为变分族，也不显式地用于其先验。这个目标是有效的，因为对于X′的任何选择，它都以logp（DN）为上界[44]。在实践中，DN被小批量DB上的期望所替代，使得相应的ELBO仅是logp（DB）而不是logp（DN）的下界。在训练期间，可以随机地对X′进行采样，以便覆盖输入域，例如，高斯噪声到现有的训练输入。当X′远离训练输入时，q（. ）将被鼓励以适应先前的过程，而数据驱动项将在更接近训练数据的输入位置上占优势。通过这种方式，在OOD输入上获得可靠的预测不确定性估计的问题被简化为在函数上选择有意义的先验分布在本工作中，我们将选择p（。）是贝叶斯CNN，它构成了一个双-3. 具有一般回归损失函数的函数VI通常情况下，计算机视觉任务中性能最好的非概率方法不仅具有精心制作的网络架构，而且还具有特定于任务的损失函数，该函数允许对相关诱导进行编码积极的偏见最标准的例子是高斯似然和L2损失之间的对应，以及拉普拉斯似然和L1之间的对应。然而，各种利息损失函数并不立即确认为-这是由已知的概率分布引起的，因此从设定损失函数开始，然后导出其相应的似然模型将具有实际意义。给定任何加性损失函数f：Y × F →R≥0，我们定义其相关似然如下：象空间上函数先验的verse类exp（−f（x））p（y|f（x））= Z（五）2.2. 功能VI分类的Logit衰减我们现在考虑功能VI目标（3）下的分类任务，其中我们假设Y ={0，1}K，K是不同类的数量，F= RK。这一目标的局限性之一是，它不是训练数据集的对数边际似然。当真函数posterior与q（. ），不能保证该程序将提供合理的结果[41]。我们在分割实验中第一次尝试时就观察到了这一点，这导致模型训练收敛得非常慢。为了缓解这一问题，我们在功能VI框架下考虑这就是吉布斯分布温度控制功能设定为1，温度参数设定为1。 Z=Yexp（−N（y，f（x）dy是其归一化常数，可能取决于f（x），可以计算分析或使用数值积分。任何损失函数（.，. ）的一个类似模型，从而与贝叶斯推理相一致。此外，任何严格的正概率密度可以对于某些适当的选择，可以表示为（5），这是从Hammersley-Clifford定理[1]得出的。在计算机视觉的背景下，通常涉及大量标记和噪声破坏的数据，任意不确定性往往是预测不确定性的主要组成部分[20]。这意味着，对于每个感兴趣的任务，exp′fk（x）需要限制选择任意的可能性，那些与模拟这种类型的p（yk|f（x））= Kk=1exp .′fk（x）中国（4）不确定性在下面的小节中，我们提供了一种方法来完成回归的任务′其中fk（x）=fk（x）/σ2（x），使得p（yk|f（x）是a玻尔兹曼分布与重新标度logits，其中规模参数σ2（x）对其相应的logitfk（x）加权。当被包括在函数VI目标（3）中时，该参数化使得模型能够对训练数据中包含的错误类别标签变得鲁棒，同时还避免了可能导致欠拟合的函数先验的过度正则化。logit衰减的这种效应nat-3.1. 回归随机不确定度不失一般性，我们假设Y = F = R，使得p（y|f（x）是一个单变量条件密度。这涵盖了大多数感兴趣的实际情况，包括每像素回归任务，如深度估计，并大大简化了符号在回归任务中，我们通常是感兴趣的。dinwrit-urally产生任意不确定性的变化，如测量的在熵中。此外，我们注意到，每个σ2（x）不容易形式为f（y，f（x））=f（x）的损失函数y−f（x）σ（x）K可以解释为诱导更高或更小的任意性不确定性根据其各自的大小，因此必须依赖于测量总的预测不确定性其中f（x）和σ（x）是位置和尺度参数，分别将k（y）写为标准化损失，我们定义其吉布斯分布族的标准成员假设p0（y）=1exp（−x（y））。则p（y|f（x））=在预测熵方面。此外，当被纳入确定性模型或权重空间时，.1exp−1.y−f（x）σ（x）联系我们，其中Z=σ（x）Z0，定义了一个有效的.Σ、12006ELBO在（1）中，重新缩放logits不会带来额外的灵活性。位置-规模的可能性家族。此外，我们要求12007.. -是的 .它的第一和第二时刻是有限的，因此我们可以计算或近似的平均值和方差的预测分布。例如，这排除了使用柯西分布作为可能性。代入方程3并忽略附加常数，我们得到以下结果：.Σf（xi）Nf（xj）.. Σ00，.ΣΣK（xi，xi）K（xi，xj）K（xi，xj）K（xj，xj）.（七）培训目标：写出a的联合多元高斯分布一批B >2图像很简单：它是具有零均值向量的BP维，其BP × BP协方差Σn−i=1.（f（xi））Σ。阿吉岛ΣΣ-f（xi）σ（xi）Σ+ log（σ（xi））阶矩阵包含B2个P×P矩阵块，每个块是K（.，- 是的）在相应的一对图像。块中对角线上的矩阵-KL.q（f十）、||p（fX）（六）描述每个图像的像素位置之间的协方差，而非对角的描述了像素位置之间的协方差。类似于[20，21]，我们将每个σ（xi）解释为可以在训练期间学习的损失衰减因子，并将log（σ（xi））解释为其正则化分量。为了展示这种基于损失的在构造中，我们考虑来自[26]的反向Huber（berHu）损失，其先前已在[25]中被考虑用于改进单目深度估计，并且导出其概率对应物，我们将其表示为berHu似然（参见补充材料）。4. 将功能VI扩展到高维任务计算机视觉应用中感兴趣的各种先验，包括贝叶斯CNN，都是由概率度量隐含定义的，其值不可直接计算。[44]将BNN视为先验和变分族，其中ELBO梯度已使用Stein谱梯度估计[43]进行估计然而，由于它依赖于从样本中估计难以处理的量，这种方法对于计算机视觉任务（例如深度估计、语义分割或具有大量类别的对象分类）是不可行的，所有这些任务在其输入和输出中都显示高维结构。为了克服这个问题，我们建议首先将隐式先验与再生核希尔伯特空间（RKHS）相关联，然后定义多输出GP先验。我们考虑X <$Rd，其中d=CHW涉及具有C通道和H×W分辨率的输入图像，以及F<$RP，其中P是取决于任务的输出维度。例如，对于单眼深度估计，P=HW在不失一般性的情况下，我们定义不同图像的像素位置之间的关系。在密集的情况下，获得逆的全协方差矩阵的复杂度为O（B3P3），并进行了一个复杂的成本为O（B2P2）。即使人们能够在函数VI框架下选择小B，这种情况对于大P仍然是难以处理的。克服这一点的一个有前途的方法是构建具有跨P个输出维度的特殊结构的先验协方差函数最近在[11，35，48，49]中所做的工作强调了贝叶斯CNN确实收敛到高斯过程，因为隐藏层的通道数量趋于无穷大。在考虑诸如relu和tanh等激活函数的情况下，并且该架构不包含池化层，[11]表明可以精确计算模拟与贝叶斯CNN相同行为的协方差核，该协方差核被表示为等效核。换句话说，给定任何这种形式的贝叶斯CNN，在大量通道的限制下，它们生成的函数样本来自这个协方差函数给出的零均值高斯过程（参见[11]图2的示例）。该协方差核可以以与通过每层仅具有一个通道的等效CNN架构的单次前向传递成比例的成本被非常有效地计算，这是由于所得到的GP在输出通道上是独立的且相同地分布此外，在没有池化层[35]的情况下，所得内核仅包含其对角中的方差项，并且所有像素-像素协方差为0。因此，给定一小批B个输入图像，对应的先验核矩阵K仅具有O（B2P）个非零条目，并且可以如下以块结构写成K1，1···KB，1p（f（. ））作为零均值多输出随机过程，L2（F），其指标集为X.给定两个图像x和。..（八）xj，K（xi，xj）：=∫f（xi）T我f（xj）dp（f（xi），f（xj））是KB，1··· KB，B过程的协方差函数，它是一个P×Psym。度量半正定矩阵（xi，xj）。然后，我们将GP先验p∈（f（. 具有零均值和协方差函数K（.，- 是的），并将其成对联合分布p（f（xi），f（xj））写为如下：每个子矩阵Ki，j=K（xi，xj）是对角的，因此易于求逆和存储。设K：n，：n表示通过从K，其中n = 1，...， B，并且考虑以下块子矩阵K：n+1，：n+1：12008：n，：n在叱：n，：n+1：n+1，：n+1.ΣK：n，：nK：n，n+1（九）不：n，：n+1Kn+1，n+1利用分块矩阵求逆公式，我们可以写出：−1：n+1，：n+1如下所示.ΣA：n，：n B：n，n、不：n，n−1在叱A=K−1（I+K）S−1KTK−1），图1.我们的功能VI方法概述。 XB是一个批次：n，：n：n，：n：n，n+1在叱：n，n+1：n，：nrgb输入，xn是新生成的，D0是平均函数。B：n，n=K−1K：n，n+1S−1，GP优先级。Sn，n=Kn+1，n+1−KTK：n，：nK：n，n+1（十）对于输入（xi，xj），我们将协方差核参数化如下：其中Sn，n是K：n+1，n+1的Schur-补.这是因为K-1可逆如果1ΣL且仅当K：n，：n和Sn，n可逆。日起n（xi，xj）gk（xi）=gk（xj）+D（xi，xj）δ（xi，xj）−1：n+1，：n+1可以递归计算，L k=1−1：n，：n所以我们在最后一次迭代中得到K −1。这（十二）算法的复杂度为O（B2P），其中B比P小得多，因为它是一个批量大小，因此使函数在密集的预测任务，如深度估计和语义分割的上下文中适用的功能VI此外，K的行列式也可以通过注意以下递归关系有效地获得[38]：det（K：n+1，：n+1）= det（K：n，：n）det（Sn，n）（11）通过有效和稳定地计算具有与K及其相应行列式相同的块结构的逆协方差矩阵，我们能够用更一致的多输出GPsurrog atep（f X）代替（3）中的 p （ fX ）。在这项工作中，我们将只考虑贝叶斯CNN先验，而不考虑池化层，这在密集预测任务中最方便，以便产生上面讨论的结构优势并利用[11，35]的方法。然而，给定任何平方可积的随机过程，可以使用Monte Carlo（MC）采样来估计K（xi，xj）这已经在[35]中完成，以便处理贝叶斯CNN先验确实包含池化层的情况。注意，在计算p*（fX）中所涉及的任何成本仅在训练期间发生类似地，通过选择q（fX）为具有均值函数h（. ）和协方差函数f（. ）通过CNN映射参数化，我们能够计算相应的高斯KL发散项的封闭形式。期望的对数似然项可以用MC抽样近似，但在高斯似然的情况下，它也可以以封闭形式计算。对于每对KKBSn=1，KK12009其中每个gk（xi），gk（xi）是P维特征映射，k表示逐元素乘积和L P，使得左项是秩-Lpa的对角部分分瓣化例如，在深度估计中，这些可以通过定义g（. ）作为具有与P个像素和L个输出通道相关联的输出分辨率的CNN。 D（xi，xj）是一个包含每像素方差的对角P × P矩阵，仅当xi= xj时才考虑该矩阵.该参数化产生P×P对角矩阵，每对输入，因此完整的BP×BP协方差矩阵具有与（8）中相同的块结构以这种方式q（fX）能够说明不同图像之间的后验相关性，同时对于用小批量训练是实用的。此外，如果考虑回归任务，其似然属于位置-尺度族，则可以在没有额外采样成本的情况下以封闭形式计算预测方差（参见补充材料中berHu似然下的示例）。在包括语义分割的离散相似性的情况下，计算预测分布的熵或互信息也可以用单个前向传递加上少量高斯样本来完成，这增加了可忽略的计算成本并且是可平凡化的。在实践中，对于每个输入图像x，我们可以通过分割任何合适的CNN架构的输出通道来获得所有感兴趣的量作为R×（LC+3C）张量，其中R是期望的输出分辨率，对于诸如单目深度估计的任务，C=1，或者对于诸如语义分割的任务，C等于在图1中，我们显示了形成我们建议的功能VI应用程序的不同组件的接近120105. 相关工作蒙特卡罗丢弃（MCDropout）[9]将丢弃解释为在权重空间中设定一个变分族，并在测试时使用它来计算认知不确定性估计。从那时起，MCDropout在语义分割任务[19，18，20，16，33]，单深度估计[20]，视觉里程计 [2] 和主动学习 [10] 中产生了应用。尽管MCDropout在训练过程中很容易实现，但在测试时需要多次前向传递，这使得MCDropout对于大型网络架构（具有许多丢弃层）和需要高吞吐量的任务（如实时计算机视觉）都不切实际另外，我们提出的方法允许一个人获得预测的认知不确定性与一个单一的向前通过，并考虑广泛的损失函数的概率对应物是一致的任意不确定性量化。在ML文献中，考虑BNN的函数空间视图的各种方法已经在[13，47，31，36，22]中讨论过。高斯过程推理网络（GPNet）[41]构成了GP上诱导点方法的替代方案，并分享了我们工作的一些动机，因为它还利用了[44]中的函数VI目标，并选择变分族和先验作为GP。与这些不同的是，我们的工作重点是在密集预测任务的背景下实现训练和推理，这是通过适当地参数化变分GP近似和利用协方差矩阵中的特殊结构实现的。最近[37]提出了一种可扩展的方法，该方法以单次向前传递为代价产生预测的认知不确定性与之相反，我们的系统能够自然地处理各种形式的不确定性，无论是在训练还是测试时。6. 结果为了参数化变分GP近似，我们使用没有dropout层的FCDenseNet 103架构[17]。我们还将此架构用于所有其他基线和实验，使用0的丢弃率。二、尽管我们最初的目标是密切模仿[20]中的设置，但我们无法重现他们的RMSprop结果。因此，为了进行清晰的比较，我们决定比较具有完全相同的优化器配置的所有方法对于MCDropout，我们在测试时使用S=50次我们选择L=20用于协方差参数化，（12）并在训练过程中为其对角线添加一个常数10−3，以确保数值稳定性。为了-为了补充与第3节中讨论的密集连接的贝叶斯CNN等效的先验协方差核，我们使用作者在 [11] 中提供的PyTorch实现。对于分割和深度在估计实验中，我们计算密集连接的CNN架构的等效内核，由各种卷积和上卷积组成（参见补充材料），并添加方差为0的白噪声分量。1.一、对于深度实验，我们假设先验均值为0。5，而对于分割，我们将其设置为1。0的情况。为了在训练期间从等式（3）生成包含在KL发散项中的诱导输入X '，我们在小批量中随机挑选一个图像，并添加方差为0的每像素高斯噪声。1.一、6.1. 语义分割在本节中，我们考虑CamVid数据集上的语义分割[5]。所有模型都已使用SGD优化器进行训练，动量为0。9和重量衰减10−4的1000个时期与大小为4的批次含有范围-分辨率为224 × 224的domly裁剪图像，初始学习率为10−3，每个epoch退火因子为0。九九八然后，我们在批量大小为1的全尺寸图像上完成了一个epoch的训练。我们已经考虑了这个设置，因为在执行我们的初始通过对验证集进行监控的实验，我们已经观察到，尽管我们的方法在其准确性测量方面始终受益于对全尺寸图像的微调，但其不确定性估计的质量（在校准分数[23]方面）已经显著下降对于我们提出的方法，我们使用了具有如等式（4）中给出的重新缩放的logits的玻尔兹曼似然，我们将其表示为Ours-Boltzmann。尽管重新缩放logits不会增加非功能VI方法的灵活性，但为了具有相同的COM设置，我们选择以相同的方式对确定性基线和MCDropout 进行参数化： Deterministic-Boltzmann 和MCDropout-Boltzmann，respectively。从表1中，我们观察到我们的方法在IoU得分（所有类的平均值）和准确性方面表现最好。在图2中，我们显示了 MCDropout-Boltzmann （上）和 Ours-Boltzmann（下）的测试示例，其中我们将void类标签屏蔽为yel-low。我们可以看到，不确定性估计是合理的，在分割边缘和未知对象上更高我们还包括校准曲线，如[20]中计算的，其中绿色虚线对应于完美校准。为了评估不确定性估计的整体质量，通常会计算测试集中所有像素的校准图[20，23]。不幸的是，这对于我们的函数VI方法来说是不可行的，因为它捕获了多个图像之间的相关性，因此近似预测性差异将需要从高维非对角高斯采样。因此，为了能够进行适用于Ours-Boltzmann和120112.01.51.00.80.61.00.40.50.20.00.01.00.00.20.40.60.81.02.01.50.80.61.00.40.50.20.00.00.00.20.40.60.81.0图2. CamVid上的语义分割。MCDropout-Boltzmann（上）和Ours-Boltzmann（下）。从左至右：rgb输入，地面实况，预测，熵，校准图（如[20]所示）MCDropout-Boltzmann，我们计算测试集中每个图像的校准分数（见[23]），然后取平均值，如表2所示。表1.CamVid的培训和测试结果IOU精度确定性玻尔兹曼0.5680.895MCDropout-Boltzmann0.5560.893乌尔玻尔兹曼0.6230.905表2.平均校准分数，用10个等间距间隔计算越低越好。平均校准MCDropout-Boltzmann0.058乌尔玻尔兹曼0.0536.2. 像素深度回归在本节中，我们考虑Make3d数据集上的深度估计[40]。所有模型都是用AdamW优化器训练的[28]，具有恒定的学习率和权重。设置为10- 4。我们已经将所有图像的大小调整为168×224的分辨率，并使用批量大小为4的3000epochs进行训练。我们认为我们的方法使用3个不同的，如-lihoods ： Ours-Laplace 、 Ours-Gaussian 和 Ours-berHu（如第 3.1.1 节中导出的）。我们比较 MCDropout-Laplace和两个确定性基线：使用反向Huber损失的确定性-L1和确定性-berHu [25]。测试结果如表3所示，其中MCDropout在所有准确性指标上表现最佳。在一定程度上，这是因为我们提出的方法对批量大小的选择更敏感，因为函数VI目标不是数据集的对数边际似然的下限，因此它比MCDropout-Laplace和确定性方法略欠拟合。此外，我们必须使用10−4的学习率，因为更高的值会导致我们所有功能VI方法的训练更不稳定。在图7中，我们绘制了MCDropout-Laplace（顶部）和Ours-Laplace（底部）的一个测试预测。在这种情况下，我们观察到我们的方法的好处之一：对于图像中的天空区域，MCDropout-Laplace对其预测的深度图过于自信，而我们正确地输出了高预测不确定性。请注意，这并没有反映在校准曲线中，因为由于数据集中的长期不准确性，深度大于70 m的所有像素都被掩盖了[25]。在表4中，我们显示了概率方法的校准分数（见[23]），在所有测试图像上取平均值，其中 Ours-Laplace的表现略好于MCDropout-Laplace，尽管在准确性指标方面表现不那么好。表3.在Make3d数据集上进行训练和测试的结果rellog10RMS确定性-L10.2120.0855.29确定性-berHu0.2220.0845.08MCDropout-Laplace0.2100.0815.05乌尔拉普拉斯0.2640.0925.74乌尔贝尔胡0.2370.0885.68我们的高斯0.2540.0895.65表4.平均校准分数，用10个等间距间隔计算越低越好。平均校准MCDropout-Laplace0.427乌尔拉普拉斯0.409乌尔贝尔胡0.631我们的高斯0.4916.3. 推理时间比较令F是神经网络在RGB输入上的一个前向传递的推理时间。我们的方法的推断时间（用于获得预测均值和不确定性）则为F+c1，而对于MCDropout为SF+c2，其中c1，c2是获得预测不确定性所需的额外时间成本。在计算机视觉中，F通常是主导术语，因为它通常涉及大型网络架构，其中FCDenseNet 103架构就是一个例子。我们已经通过在NVIDIA RTX6000 GPU上执行多次运行来测试这些声明，所有模型都在同一设备上进行了训练和测试。显示深度估计和语义分割的推理时间1201230 3020 2010 1030 3020 2010 101.0100.880.660.4420.20.01.0400.8300.6200.4100.20.00.000.250.500.75一元0.000.250.500.75一元图3. Make3d上的深度估计。MCDropout-Laplace（上）和Ours-Laplace（下）。从左至右：RGB输入、地面实况、预测平均值、预测标准差、校准图（如[23]所示）分别见表5和表6。在深度估计上，我们的方法和确定性方法具有等效的推理时间。在分割上，c1取决于所取的高斯样本的数量，但比F便宜得多，并且易于并行化，因此我们的方法仍然显示出与确定性模型相同阶的成本在这两种情况下，MCDropout比其确定性对应物慢大约S=50倍表5.Make3D上的深度估计100次独立运行的推理时间平均值±标准差（ms）确定性-L151.29 ±1.88确定性-berHu51.28 ±1.62MCDropout-Laplace2615.65 ±13.75乌尔拉普拉斯50.98 ±1.74乌尔贝尔胡51.43 ±2.12我们的高斯51.13 ±2.20表6. CamVid上的语义分割。推理时间可比100独立运行。平均值±标准差（ms）确定性玻尔兹曼111.64 ±0.27MCDropout-Boltzmann5763.63 ±1.95乌尔玻尔兹曼128.59 ±1.867. 结论我们提出了一种方法，通过利用[44]中的功能VI目标，可以有效训练贝叶斯深度学习模型，并且对于任何超监督学习任务和网络架构，其预测推理仅需要一次前向传递。这是通过将难以处理的BNN先验替换为如在[11]中导出的具有协方差核的GP，将变分族参数化为具有适当结构的协方差核的GP，并且通过利用用于矩阵求逆和行列式计算。此外，我们还讨论了如何从一个定义良好的损失函数回归，然后推导出它的概率对应的方式是一致的任意不确定性量化，提供了推导的berHu似然作为一个例子。我们的框架可以很容易地应用到其他像素监督学习任务。扩展到受益于池化层的任务（如对象分类）也是可能的，但需要谨慎。这是因为包含池化层的贝叶斯CNN先验不再诱导具有（8）中显示的特殊协方差结构的GP，因为池化诱导不同像素位置之间的局部相关性 [35]。作为未来工作的一个方向，将我们提出的方法扩展到解释时间信息将是相关的。这在单目深度估计中特别重要，单目深度估计自然倾向于显示高任意不确定性，并且将受益于连续时间帧上的精确不确定性估计[27]。未来工作的另一个方向是克服像素级回归任务中出现的任何潜在的欠拟合，正如我们在Make3D深度回归实验中所观察到的那样，选择更有意义的函数先验和更好的变分分布确认Eduardo得到了与Arup合作的EPSRC工业案例计划的支持。Paul得到EPSRC资助参考EP/P010040/1的支持。我们要感谢Jan Czarnowski、Sajad Saeedi、TristanLaidlow和所有评论者提供的有用见解和评论。12013引用[1] 朱利安·贝萨格格点系统的空间相互作用与统计分析皇家统计学会杂志： SeriesB（Methodological），36（2）：192- 225，1974. 3[2] Apratim Bhattacharyya ， Mario Fritz ， and BerntSchiele.不确定交通场景中人的长期车载预测。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。1、6[3] Michael Bloesch、Jan Czarnowski、Ronald Clark、StefanLeutenegger 和 AndrewJDavison 。Codeslam-learning一个紧凑，可优化的表示密集的视觉冲击。在IEEE计算机视觉和模式识别会议论文集，第2560-2568页[4] CharlesBlundell ， JulienCornebise ， KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重arXiv预印本arXiv：1505.05424，2015。2[5] Gabriel J Brostow，Julien Fauqueur，and RobertoCipolla.视频中的语义对象类：一个高清晰度的真实数据库。 Pattern Recognition Letters ， 30（2）：88-97，2009. 6[6] Ronald Clark ， Sen Wang ， Andrew Markham ，Niki Trigoni，and Hongkai Wen. Vidloc：一个用于6-dof视频剪辑重新定位的深时空模型。在IEEE计算机视觉和模式识别会议论文集，第6856-6864页，2017年。1[7] Ronald Clark，Sen Wang，Hongkai Wen，AndrewMarkham，and Niki Trigoni. Vinet：Visual-inertialodometryasasequence-to-sequencelearningproblem. 在2017年第31届AAAI人工智能会议1[8] Jan Czarnowski，Tristan Laidlow，Ronald Clark，and Andrew J Davison.深层因素：实时概率密集单目猛击。IEEE Robotics and Automation Letters，2020。1[9] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型不确定性。在机器学习国际会议上，第1050-1059页6[10] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。第34届机器学习国际会议论文集-第70卷，第1183-1192页。JMLR。org，2017. 1、62019年学习代表会议。二四五六八[12] 亚历克斯·格雷夫斯神经网络的实用变分推理神经信息处理系统，第2348-2356页，2011年。1[13] Danijar Hafner ， Dustin Tran ， Alex Irpan ，Timothy Lil-licrap，and James Davidson.使用噪声对比先验在深度神经网络中进行可靠的不确定性arXiv预印本arXiv：1807.09289，2018。1、6[14] James Hensman，Nicolo Fusi和Neil D Lawrence。大数据的高斯过程。 arXiv 预印本 arXiv ：1309.6835，2013年。2[15] Matthew D Hoffman ， David M Blei ， ChongWang，and John Paisley.随机变分推理The Journalof Machine Learning Research，14（1）：1303-1347，2013。1[16] 黄柏宇、徐婉婷、邱春月、吴廷凡、孙敏。视频语义分割的有效不确定性估计。在欧洲计算机视觉会议（ECCV）中，第520-535页，2018年1、6[17] 西蒙·杰古，米哈尔·德罗兹扎尔，达维德·瓦兹奎兹，阿德里安娜·罗梅罗和约瑟芬·本吉奥。百层提拉米苏：用于语义分割的全卷积密集网。在IEEE计算机视觉和模式识别研讨会会议论文集，第11-19页，2017年。6[18] Michael Kampffmeyer 、 Arnt-Borre Salberg 和Robert Jenssen。基于深度卷积神经网络的城市遥感图像小目标语义分割及不确定性建模。在IEEE计算机视觉和模式识别研讨会会议论文集，第1-9页1、6[19] Alex Kendall，Vijay Badrinarayanan，and RobertoCipolla.贝叶斯分段：用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。arXiv预印本arXiv：1511.02680，2015。6[20] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性神经信息处理系统的进展，第557

下载后可阅读完整内容，剩余1页未读，立即下载