近似方差传播的无采样认知不确定性估计

92 浏览量更新于2023-10-12 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2931基于近似方差传播的无采样认知不确定性估计Janis Postels1，2Francesco Ferroni2Huseyin Coskun1Nassir Navab1Federico Tombari1，31慕尼黑工业大学2自主智能驾驶股份有限公司3谷歌{janis.postels，huseyin.coskun，nassir.navab}@ tum.defrancesco. aid-driving.eutombari@in.tum.de摘要我们提出了一个无采样的方法来计算神经网络的认知不确定性认知不确定性是在安全关键型应用中部署深度神经网络的重要数量，因为它代表了人们可以在多大程度上信任对新数据的预测。最近提出了有前途的工作，使用噪声注入结合蒙特卡罗（MC）采样在参考时间估计这个量（例如，MC脱落）。我们的主要贡献是这些方法估计的认知不确定性的近似，不需要采样，从而显着我们将我们的方法应用于大规模的视觉任务（即，语义分割和深度回归）来证明我们的方法与基于采样的方法相比在不确定性估计的质量以及计算开销方面的优点。1. 介绍量化与神经网络预测相关的不确定性是其在安全关键应用中部署和使用的先决条件。无论是用于检测道路使用者并在自动驾驶车辆中做出驾驶决策，还是用于手术机器人内的医疗环境中，神经网络都必须不仅能够准确预测，而且还能够量化它们对预测的确定性此外，重要的是，在实时推理期间提供不确定性，使得不确定性可以被实时安全关键系统利用可以估计机器学习模型的两种类型的不确定性[8]：任意性和认识性。偶然的不确定性是数据本身所固有的，例如。由噪声传感器引起的不确定性。这种类型的不确定性可以通过应用例如混合密度网络[2]。认知不确定性是所选模型参数的不确定性。为了检测给定机器图像预测我们的：0.14s0.13秒0.54秒2.39秒2个样品10个样品50个样品蒙地卡罗辍学[9]图1.贝叶斯不确定性估计的定性结果SegNet（白色：小，黑色：大）。上图：原始图像（左）、使用蒙特卡罗（MC）采样的预测（中）和提议的不确定性预测（右，每个预测的平均运行时间）。较低：使用MCdropout [9]使用2（左）、10（中）和50（右）样本的不确定性，每个样本具有每个预测的平均运行时间。我们缓存的结果之前的第一dropout层，以优化性能MC dropout。学习模型，并因此量化人们可以在多大程度上信任给定数据的预测，人们必须确定两种类型的不确定性中的后者。最近已经提出了许多方法，使得有可能估计大规模神经网络架构的认知不确定性[9，27，20，23]。一个有前途的研究方向是使用噪声注入[9，27]，例如，随机正则化技术其基本思想是训练神经网络，同时在某些层注入噪声在训练期间，网络学习如何补偿训练数据分布上的噪声，从而最小化预测的方差。在推理时，可以使用由不同噪声样本生成的预测方差作为认知不确定性估计，因为神经网络只学习补偿训练数据分布上的噪声。不幸的是，虽然这些方法在概念上是2932简单，并且已经成功地为神经网络提供了认知不确定性的度量（即使是大型架构，例如，[18，10，1]），它们依赖于在推断时的MC采样，以便确定预测的方差作为不确定性估计。这意味着计算时间与样本数量成线性比例，因此，对于性能关键或计算有限的应用（例如自动驾驶车辆、机器人和移动设备）来说，计算时间可能变得过于昂贵在这种情况下，获得认知不确定性作为模型预测的一部分可能是功能安全要求，但需要从传感器数据执行实时推理，使MC退出一个困难的命题。在这项工作中，我们避开了这些问题，并产生了神经网络预测的epistemic不确定性估计，这些估计同时是准确的和计算上昂贵的我们的贡献具体包括：• 一种无采样的方法来近似不确定性估计，依赖于在训练时注入噪声。• 使用ReLU激活函数对卷积神经网络进行进一步简化。随后，我们将首先概述相关工作，其次介绍我们的无采样框架，最后展示实验结果。具体来说，我们在CamVid数据集[4]上比较了我们的近似与贝叶斯SegNet[18]的质量，并通过仅在类的子集上训练贝叶斯SegNet来显示我们的近似检测分布外样本的能力。我们进一步应用我们的近似在一个常见的回归任务的计算机视觉，即。单目深度估计[12]。我们发布了用于这项工作的所有代码1。2. 相关工作最近有大量关于大规模神经网络的认知不确定性估计的建议[3，14，23，20，9，27，31，22，24]。共同的目标是近似神经网络的参数的完全后验分布。一些工作旨在直接学习反向传播中的分布族的参数[31，3，14]。另一种研究方法是通过训练设置中的随机变化训练神经网络的集合来近似后验[23，20]，通过样本分布的集合来估计目标分布[6]。一种不同的研究途径利用随机正则化方法来估计推断时的认知不确定性[9，27，31]。最突出的例子是MC dropout [9]-训练一个dropout正则化神经网络，然后在推理时，保持dropout打开以估计1https://github.com/janisgp/Sampling-free-Epistemic-Uncertainty通过预测的方差来确定认知的不确定性这些方法已经获得了普及，由于简单，与他们集成到当前的培训方法。因此，它们已被应用于各种任务[10，1，18，7，17]。尽管它们取得了成就，但由于采样，它们在推理时仍然遭受巨大的计算开销，这使得它们在需要从大型神经网络进行实时推理的应用中过于昂贵。[15]优化了MC dropout在视频中的应用因此，作者将在时间上接近的图像视为常数，并且因此将相同场景的样本视为常数。因此，每个图像只需要处理一次，同时执行近似MC采样。认知不确定性的无抽样估计在文献中仅部分涉及。[5]将无采样的认知不确定性并入混合密度网络，其遵循[21]，对于高维问题具有不收敛性。自然参数网络[28，16]可以被认为与我们的工作有关。作者没有通过神经网络处理点估计，而是调整每层的变换以传播预定义分布的自然参数，例如，高斯分布的均值和标准差。我们的方法与[28]的主要区别在于以下两点。首先，[28]要求所有的操作都保持（近似）指数分布族。这限制了架构（例如由于逆分布，不能应用批量归一化/softmax）。相反，我们明确地不改变训练过程，并且不确定性的基于雅可比的传播实际上允许每一个变换。第二、[28]假设独立的激活，而我们的一般方法不这样做。因此，我们不会与这项工作进行比较，因为我们对适用于任意神经网络而不改变训练过程的方法感兴趣。[30]同时提出了无抽样变分干涉。我们的工作不同之处在于保持训练不变，只在测试时传播不确定性。因此，与[30]相比，它可以应用于在训练时使用随机过程的任何损失函数的任何网络，而[30]迄今为止仅实现了简单的回归设置。我们强调，我们在UCI回归数据集上的结果与[30]不具有可比性，因为我们只是在测试时近似采样。因此，我们的性能由相应的MC方法（例如，MC脱落）。3. 方法我们的目标是估计在推理时用注入的噪声训练的神经网络的认知不确定性，以一次性量化预测中的信任水平。注意，我们的方法（OUR）保持训练不变. 在其核心，OUR使用错误传播[26]，com-2933一σ我我BtheX→i0nf1（A，B）f2（A，B）f3（C，D）通过缩放激活的方案。我们使用误差传播来探索方差传播，并将均值传播的调整留给未来的工作。OUR产生的不确定性估计的性质继承自MC图2.用于说明错误传播的计算图。一般用于物理学中，误差等于方差。我们将注入神经网络的噪声视为激活值的错误。通过使用噪声注入进行训练，网络隐式地学习最小化训练数据分布上的累积误差，因为较大的误差对应于较大的损失信号。为了直观地说明这一点，我们考虑一个简单的计算图（见图2）。设A和B是独立的随机变量，C=f1（A，B）和D=f2（A，B）是A和B的可能非线性函数。知道均值和方差辍学生因此，它主要模拟认识的不确定性（尽管部分也是任意的不确定性）[19]。在下文中，X和Z表示随机变量，X→和Z→表示随机向量。上标对应于层，因此X-i是表示层i处的活动的随机向量。进一步地，X→/Var[X→]表示X →的协方差矩阵/方差（X→的主对角线）。3.1. 噪声层我们推导出噪声层的激活值的协方差矩阵。以下内容与噪声层的我们假设独立噪声2A/B 我们要计算C的方差在噪声层的节点上，和D.我们应用误差传播，其中：但这是惯例在下文中，上标对应-2C/D.Σ21/ 2=Aσ2+.Σ21/22B.B.B（一）spond到层，下标到层内的节点。考虑一个具有l层和N个噪声层的神经网络，噪声层在位置i∈[0，l]，其中l=0表示输入。让到噪声层的输入是随机向量X→i-1，其中注意，偏导数仅近似于非线性函数f1/2。现在我们假设有另一个函数E=f3（C，D）.我们不能使用Eq。1直接确定E的方差，因为C和D与A和B不同，在统计上不独立。因此，我们必须考虑C和D的完整协方差矩阵，我们可以通过应用误差传播再次获得。我们从A和B的协方差矩阵ΣA，B开始这是一个元素为σ2的对角矩阵在i-1层上的协方差矩阵<$X→i-1。进一步，设表示噪声的随机向量为Z→∈Rn，其对角矩阵为Z→，其中Z→的元素独立，X→i−1的元素一般独立.通常有两种方式注入噪声：X→i−1和Z→的加法和元素乘法。当通过添加随机向量来注入噪声层i处的所得协方差简单地由下式给出：σ2在主对角线上。然后我们可以近似A通过计算C和D上的协方差矩阵：<$X→i=<$X→i−1+<$Z→（三）当噪声注入类似于元素时，C，D=JT随机向量X→i−1和Z→（例如：J是向量值函数f→=的雅可比矩阵。（f1（A，B），f2（A，B））T.得到了E的方差σ2dropout），层i处的协方差矩阵由[13]i=EZ X通过应用Eq.2考虑到f3不是向量值的功能可以将雅可比矩阵与广义矩阵互换，+E[Z→]E[Z→]TX→i−1 +E[X→i−1]E[X→i−1]T（四）分量J=ψC，Df3（C，D）=（ψ，ψ）Tf3（C，D）.其中◦是Hadamard乘积。我们指的是柔软的-C这个最小的例子已经说明了我们使用的所有工具需要在给定一些噪声层的情况下近似神经网络输出层的方差，例如通过应用误差传播的dropout或batch-norm [27]。在下文中，我们将解释神经网络特定部分的协方差传播：噪声层、仿射层和非线性。之后，我们简化了卷积和ReLU激活的常见设置由于协方差矩阵的大小（其与激活的数量成二次方地缩放），这对于高维特征空间是必要的请注意，平均值的传播未发生变化。因此，给定例如dropout，我们应用通常的推论详细推导这个公式的参考资料。对于网络中第一个噪声层的特殊情况，我们可以从先验知识（即，传感器噪声）或通过假设零噪声来简化它。在后一种情况下，所得到的协方差矩阵在给定独立噪声的情况下将是对角的，从而得到：Σ=diag（σ2，...，其中，n是激活向量的维数，并且是激活i的方差。由遵循伯努利分布的规则丢弃引入的方差由p（1−p）a2给出，其中p定义丢弃率，ai是节点i的平均激活。一BCDEσσZ→29343.2. 仿射层和非线性在获得噪声层的协方差矩阵之后，我们将其传播到输出层。这意味着应用一系列仿射层和非线性。在这里，我们详细介绍了全连接和卷积层的情况。直接应用Eq. 2，假设对于仿射层的变换，雅可比矩阵J等于权重矩阵W。因此协方差矩阵为→i=W0.5，方差值下降。这导致使用ReLU激活函数的卷积层数量的平均方差的观察到的减少观察到这种结构设置不会将显著的质量传输到协方差矩阵的宽区域，这促使我们假设对角协方差矩阵。结果，传播方差的计算复杂度降低到与正常前向传播相同的水平，因为仅需要传播协方差矩阵的主对角线的向量。根据本X X假设Eq. 4简化为：这是一个不依赖于底层分布。对于神经网络中的非线性，我们用一阶泰勒展开近似变换。然后，非线性处的协方差变换由下式给出：Var[X→i]=E[X→i−1]2<$Var[Z→]+E[Z→]2<$Var[X→i−1]+Var[X→i−1]<$Var[Z→] （八）X→i JiangJiangX→i−1 T（7）这里Var[X→i]表示随机向量X→i的方差，从而表示其协方差矩阵的主对角线。一我们实验中使用的激活函数的特定雅可比行列式（ReLU，sigmoid和softmax）可以在补充材料中找到，其中我们还提供了对softmax激活函数的一阶泰勒展开引入的误差的分析。3.3. 特殊情况：卷积层结合ReLU激活虽然所提出的方法不需要采样，传播完整的协方差矩阵可能会变得非常昂贵的非常高维的问题，如图像。这可以通过考虑我们的方法需要完整的协方差矩阵在每层有N个节点的情况下，n ∈ RN × N。这导致了O（N2）的内存复杂度。由于许多神经网络架构包含迭代应用的con-neural-network，为了提高计算效率，我们简化了上述公式对于全连接层，由于其输出节点中的每一个是所有输入节点的线性组合，所以建模全协方差是必要的。然而，这不是卷积层的情况，卷积层的强度来自于在整个输入空间上共享权重，因此仅将线性变换应用于每个像素的局部邻域。对于以下近似，我们假设在补充材料中可以找到推导。为了使用上述简化来确定在权重矩阵和非线性雅可比矩阵的变换下的方差，我们需要对相应的矩阵元素进行平方，并将其与表示协方差矩阵的主对角线的向量相乘：Var[X→i]=（W2）Var[X→i−1]（9）和Var[X→i]<$（J 2）Var[X→i−1]（10）假设独立激活，通过显式计算将ReLU应用于高斯的方差，可以直接改进ReLU的雅可比近似。因此，我们假设在ReLU之前激活的高斯分布。相应的公式可参见补充材料。通过假设高斯分布激活，我们遵循[29]。作者认为，具有权重的仿射层的输出，单峰分布并以0为中心，以及单峰或固定间隔的传入激活，近似为高斯。[30]得出同样的结论，同时明确地将其扩展到弱′ ′ ′具有核K∈RW×H×C的卷积层，以及卷积层的输入I∈RW×H ×C，相关激活根据[29]，当单个被加数在′′WH.W.和H你好给定对角协方差仿射运算（例如，一维的非归一化数据矩阵，通过应用例如一dropout层，输出协方差将是稀疏矩阵，对于输入空间中的局部邻域，主对角线上有几个非零项。这示于图3使用CIFAR10上的卷积架构。此外，给定近似对称分布的权重，ReLU激活导致近似比其余的大得多）。4. 实验在本节中，我们提供了实验证据，OUR可以在分类和回归设置中产生快速准确的不确定性估计。2935层：D C + R C + R C + R D C + R C + R C + R图3.我们在CIFAR 10上训练神经网络（卷积- DropoutBlock -全连接层，其中DropoutBlock对应于上述dropout（D）、卷积（C）和ReLU（R）的序列）。DropoutBlock中的特征图具有10x10x3的维度，卷积滤波器具有3x3x3的维度。上半部分显示了相对于第一个丢弃层（蓝色）归一化的激活值的平均方差。下半部分显示了相应图层（蓝色：最小绝对值，黄色：绝对值较大）。我们提出两点意见。首先，dropout加强了主对角线。其次，方差在没有额外的丢失层的情况下衰减。因此，协方差矩阵的大区域保持近似为零。4.1. 合成数据通过将OUR应用于一个合成数据集，并与MC抽样进行比较，直观地证明了OUR的有效性。我们创建了一个回归数据集，该数据集由单个输入和单个输出组成，其中输入在区间[0，20]内均匀分布，目标是输入的正弦加上均值μ=0和sigmaσ=0。3 .第三章。我们将一个完全连接的神经网络与三个隐藏层，每个隐藏层包含 100 个隐藏单元的数据。我们应用 dropout（p=0）。1）在最后一个隐藏层之前。由于我们的主要目标是近似认识的不确定性，我们用分布外（OOD）样本（即，样本小于0或大于20）与来自训练数据分布[0，20]的样本一起。我们以两种方式近似方差，从而近似预测的标准偏差-MC采样（100个样本）和用OUR传播方差。图4可视化了两种方法的结果。对于认知不确定性，训练数据之外的预测的标准偏差典型地增加。对于这个例子，我们的近似实际上是精确的。在补充材料中，我们凭经验证明了基于采样的方差估计在大量样本的情况下收敛于我们的分析估计。4.2. 预测性能在估计认知不确定性的先前工作[14，9，27]之后，我们分析了10个UCI回归数据集中9个的预测性能。与[27]中一样，我们省略了年份预测MSD数据集。我们只比较OUR和MC dropout，因为我们近似后者。我们评估两个指标-根均方误差（RMSE）的测试集和测试对数似然（TLL）。我们希望我们的RMSE高于MC dropout，因为dropout采样比缩放激活图4.合成数据。神经网络有三个隐藏层，每层有100个隐藏单元。我们以概率p = 0在最后一层之前丢弃单元。1.一、我们绘制了来自训练数据分布的样本（蓝色），训练数据分布之外的样本（橙色），预测（红色）和预测加/减标准差（黑色）。上：标准差近似于我们的方法。下限：使用100个样本的MC dropout [9]确定标准偏差。[9]的文件。TLL代表了我们实验中感兴趣的值，因为它量化了预测分布的质量。它测量目标的概率质量，而不对基础分布进行假设。我们遵循[14]2中的原始设置。我们将训练数据随机分为训练集和验证集20次，除了数据集蛋白质结构，我们使用五次分割，并对超级参数的丢失率和τ进行单独的网格搜索。在[14，9]之后，我们使用一个具有50个隐藏单元的隐藏层，除了蛋白质结构，我们使用100个隐藏单元。Dropout应用于-2我们使用网格搜索代替贝叶斯优化[25]进行超参数优化2936数据集测试RMSE检验对数似然比[s]MC[9]我们MC[9]我们MC[9]我们波士顿住房3 .第三章。06 ±0. 183 .第三章。13 ±0。22-2。55 ±0。07-2。65 ±0。123.470.06混凝土强度五、42 ±0。10五、42±0。11-3。11 ±0。02-3。13 ±0。023.630.06能效1 .一、60±0。051 .一、59±0。05-1。91 ±0。03-1。96 ±0。033.270.06Kin8nm0的情况。08±0. 000的情况。08 ±0. 001 .一、10±0。011 .一、11±0。014.750.06舰船推进0的情况。00±0。000的情况。00 ±0。004.第一章36±0。013 .第三章。64±0。025.100.06电站4.第一章04±0. 044.第一章05±0. 04-2。82 ±0。01-2。85 ±0。014.460.06蛋白质结构4.第一章42±0。034.第一章42±0。03-2。90 ±0。01-2。90 ±0。004.380.06葡萄酒品质红0的情况。63±0。010的情况。63 ±0。01-0。95 ±0。02-0。95 ±0。013.490.06游艇水动力学二、89 ±0。253 .第三章。14 ±0。31-2。32 ±0。10-2。10 ±0。073.420.06表1. 表RMSE，测试对数似然和MC退出（MC）[9]和我们的近似（OUR）的运行时间用±表示的误差是标准误差。对于RMSE，值越小越好，对于TLL，值越大越好。我们遵循[9]中的原始设置，并使用T=10000个样本（MC脱落）。我们的运行时间是0.06在每一行由于小数精度。在隐藏层之后，我们训练网络400个epoch。我们使用完整的协方差矩阵来传播不确定性，定义在等式4、6、7中。原始实验中的TLL需要从输出的分布中采样。由于我们的方法自然只是返回输出上的单峰分布的参数，因此我们假设高斯分布并从中采样以计算TLL（与第3.3章比较）。我们执行与MC dropout相同的网格搜索。对于MC丢弃和我们提出的近似，我们采样10000个预测来计算TLL。表1示出了该实验的结果对于大多数回归数据集，OUR的TLL它只适用于海军推进数据集，比原始抽样方法。如果RMSE为0。00±0。00，我们完美地拟合了这个数据集。在这种情况下，非常自信和准确的预测可能会导致高斯假设失去有效性或MC采样的更高准确性对的TLL。考虑到其他方法与MC dropout的偏差（参见[9]），OUR表现良好。4.3. 分类任务：贝叶斯SegNet最近应用MC dropout的大规模架构是用于语义分割的贝叶斯SegNet [18]。最初的工作检查几个架构不同的放置在网络内的辍学。根据作者的说法，对于不确定性估计的质量，架构内的丢弃位置是无关紧要的。我们在CamVid数据集上训练贝叶斯SegNet [4]。我们主要是in-vestigate的最佳性能的架构，其中辍学后，中央四个编码器/解码器块放置。我们将贝叶斯SegNet的使用实现3的性能与表2中的原始工作进行了比较。性能下降不是由OUR引起的，因为我们只参考3https://github.com/Kautenja/semantic-segmentation-baselines网站方法GCI/U原始贝叶斯SegNet[18]86.976.363.1我们的实现86.176.454.12937表2. 表我们将贝叶斯SegNet [18]与原始工作中的结果进行比较我们比较了全局精度（G），平均类精度（C）和平均交集。我们强调，由于我们的方法没有应用于此比较，因此不会发生性能下降。与不应用方差传播的原始工作相比，实现的性能。我们使用批量大小为8和随机梯度下降进行训练，初始学习率为0。1和指数学习率以0为底衰减。200个时期95个我们使用提前停止ping（观察验证丢失），耐心为50。CamVid中的原始图像分辨率为720x960和32类。在[18]之后，我们只使用11个广义类，并将图像降采样到360x480。由于语义分割是分类任务，因此在每个像素处获得每个类别的方差。有几种策略将这些方差聚合成标量（关于选择性列表，参见[10]）。随后，我们遵循原始工作[18]，并在每个像素处使用softmax分数的平均标准偏差。我们应用我们的近似根据等式。八九十图5和图1显示了我们的近似和基于采样的估计的定性结果（可以在补充材料中找到视频对于所有定性结果，我们显示图像，MC预测，MC不确定性估计和我们的近似，因为我们专注于产生无采样的不确定性估计。对于定性的例子，包括我们的预测和地面真理，我们参考补充材料。这两种方法预测相似的高不确定性区域。这些主要是由人的标签引起的噪声产生的对象边界。考虑到预测的不确定性的定性相似性，我们惊讶地发现，2938图5.我们近似的定性结果。第一行：输入图像.第二行：使用MC dropout的[9] 50个样本。第三行：使用MC dropout的不确定性估计。第四行：我们的近似。对于不确定性，我们使用不同比例的彩色图来强调它们的相似性。a) 误分类率b）重复比较图6.a）：像素误分类率的比较取决于MC dropout（MC）[9]与50个样本（蓝色，MC）和我们的近似值（橙色，OUR）之间的标准差分位数（例如，50%意味着50%的像素具有较小的标准差）。b）：MC（蓝色）和OUR（橙色）之间的运行时间比较OUR为常数（无采样），MC随采样数线性增加.我们缓存的结果之前的第一dropout层，以优化性能MCdropout。近似不确定度远低于基于抽样的不确定度（平均绝对差是MC抽样得到的平均方差的93.7%我们理解，差异源于最后一个dropout层远离输出层的事实。考虑到预测不确定性的定性相似性，我们推导出位于协方差矩阵主对角线之外的混合项主要充当方差偏差。图6比较了基于采样的不确定性估计与我们的近似的运行时间。我们缓存的结果之前的第一个dropout层的架构，只重复传播的网络，包含dropout层的一部分，以优化MC采样。正如预期的那样，我们观察到对样本其中斜率取决于第一个dropout层的位置我们清楚地看到我们的近似计算的优势。为了证明不确定性在数据分布上的一致性，我们研究了不确定性与测试集上错误分类率的相关性由于我们对认知不确定性非常感兴趣，我们进一步证明了我们的不确定性估计对于OOD样本是增加的。我们绘制了像素误分类率对不确定性值（见图1）。（六）。显然，我们希望观察到一个更大的不确定性估计增加像素误分类率。由于我们的不确定性估计的大小的规模是不同的基于采样的方法，我们不绘制它直接对不确定性值。为了能够直接比较它们的行为，我们绘制了错误分类率对不确定性估计的分两条曲线表现相似，这意味着不确定度的相似校准。此外，我们调查我们的近似是否能够检测OOD样本4。很难设计出足够的实验来验证这一特性。在这里，我们在训练期间保留某些课程，并在测试时将其呈现给网络。因此，我们排除了数据分布的相应区域行人和骑自行车的人除外我们选择它们是基于这样一个事实，即它们在外观上与其他类不同，彼此相似，并且不构成足够大的图像区域以危及收敛。这一培训的定性结果图7示出了具有和不具有扣留类别的每个类别的平均不确定性值。平均相对增加的不确定性是最大的保留类。图7.使用所有类别（蓝色）并保留行人和骑自行车者的类别（红色）的CLASS架构的每个类别的平均不确定性（使用我们的近似值）。将不确定性归一化为使用所有类别观察到的不确定性值，以突出其相对变化。绝对值强烈地依赖于每个类别的边界面积比，因为高不确定性大多发生在边界处。4.4. 回归任务：深度回归我们在回归任务中评估OUR。如果没有软最大值，我们预计OUR不仅会表现出类似的行为，4仅在最后一层2939而且必须非常接近基于采样的方法。我们将OUR应用于单眼深度回归 [12]。该架构的最终激活是一个sigmoid函数。因此，预期OUR将不精确地匹配基于采样的结果。在原始工作之后，我们在KITTI数据集[11]上进行训练，并保持设置不变，除了在最终卷积之前插入dropout层以估计不确定性。作为不确定性估计，我们选择回归输出的方差，8、9和10来传播方差。请注意，此设置不需要对完整协方差矩阵进行建模，因为sigmoid是逐元素操作。图8.深度回归网络的定性结果第一行：输入图像。第二行：使用MC dropout的深度回归[9]。第三行：方差对数（白色：低，黑色：高），使用MC dropout，具有50个样本。我们使用对数，因为来自图像左侧和右侧的非重叠立体图像的高不确定性主导了色图。第四行：使用我们的近似的方差的对数。a) 误分类率b）重复比较图9. a）：深度预测的标准偏差，其取决于预测深度与地面实况之间的绝对差。50个样本（蓝色）和OUR（橙色）的MC dropout [9]的标准差表现相似。b）：我们的方法的验证（橙色）和MC dropout [9]，50个样本（蓝色）取决于样本数量我们将方差近似与基于MC dropout的方差计算之间的平均相对差异可视化（红色）。图8示出了该实验的定性结果。我们将不确定性值的对数可视化，因为左边界和右边界处的高不确定性主导色图。这是一个不确定的训练方法的产物。给定立体图像对，网络学习以预测将一个图像变换成另一个图像的视差图。由于不重叠的边界，在这些区域中重建失败，因此不确定性很高。此外，我们始终观察到在一定深度的不确定性极小。这是立体相机设置的最佳深度分辨率的区域。空间中的点的深度分辨率随着其距相机的距离成二次方地增加。相反，深度分辨率与视差误差成比例，视差误差由于较大的视差而对于较近的对象增加我们分析了如何相对于平均方差和运行时间的平均绝对方差差取决于MC样本的数量。结果如图所示。9b）。如预期的，基于采样的方法的运行时间随着样本的数量线性另一方面，平均绝对差随样本数的增加而这表明OUR不仅在运行时间方面更优越，而且在不确定性估计方面也相对差不收敛到零的事实源于在最后一层之后使用S形激活函数。最后，我们通过绘制不确定性预测和基于采样的结果与预测深度和地面真实值之间的绝对差的相关性来展示它们的意义（见图1）。9 a））。MC丢失和OUR的标准偏差随绝对误差线性增加。因此，我们的不确定性估计可以识别可能具有较大回归误差的区域，同时增加最小的计算开销。5. 结论我们已经表明，误差传播的框架可以用来近似的epistemic不确定性估计，依赖于噪声注入在训练时间的采样过程我们将所提出的近似应用于两个大规模的计算机视觉任务，说明了计算效率和所产生的不确定性地图的一致性。对于更靠近输出层的噪声层，该近似在数值上更好。有- 使用基于随机正则化的分析近似不确定性估计的方法，在未来的研究中，我们的目标是通过损失函数来表示噪声注入，这将使我们能够学习噪声参数（例如，辍学率）。这有可能提供一个估计任意和认识的不确定性。6. 确认我们感谢陈努丹和金成泰的宝贵讨论和建设性反馈。这项工作得到了 Autonomous Intelligent DrivingGmbH的支持。2940引用[1] Apratim Bhattacharyya，Mario Fritz，and Bernt Schiele.不确定交通场景中人的长期车载预测。在IEEE计算机视觉和模式识别会议论文集，第4194- 4202页[2] 克里斯托弗·M·毕晓普。混合密度网络技术报告，Citeseer，1994年。[3] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。国际机器学习会议，第1613-1622页，2015年[4] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。Pattern Recognition Letters，30（2）：88-97，2009.[5] Sungjoon Choi ， Kyungjae Lee ， Sungbin Lim ， andSonghwai Oh.不确定性感知学习从示范使用混合密度网络与采样自由方差建模。2018年IEEE机器人与自动化国际会议（ICRA），第6915-6922页。IEEE，2018年。[6] Bradley Efron 和 Robert J Tibshirani 。介绍 bootstrap 。CRC Press，1994.[7] Di Feng，Lars Rosenbaum，and Klaus Dietmayer.实现安全自动驾驶：在激光雷达3d车辆检测的深度神经网络中捕获不确定性。2018年第21届智能交通系统国际会议（ITSC），第3266-3273页。IEEE，2018年。[8] 亚林·加尔深度学习的不确定性博士论文，博士论文，剑桥大学，2016年。[9] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在机器学习国际会议上，第1050-1059页[10] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。第34届国际机器学习会议论文集-第70卷，第1183-1192页。JMLR。org，2017.[11] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。The InternationalJournal of Robotics Research ，32（11）：1231-1237，2013.[12] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[13] 利奥·古德曼。关于乘积的正合方差美国统计协会杂志，55（292）：708-713，1960。[14] 乔·米格尔·赫尔和洛巴托和瑞安·亚当斯。概率反向传播用于贝叶斯神经网络的可扩展学习。国际机器学习会议，第1861-1869页，2015年[15] 黄博宇，徐婉婷，邱春月，吴廷凡，孙敏。有效的不确定性估计，视频中的 Mantic 分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第520- 535页[16] Seong Jae Hwang，Ronak Mehta，and Vikas Singh.指数族门控递归单元中的无抽样不确定性估计arXiv预印本arXiv：1804.07351，2018。[17] Michael Kampffmeyer 、 Arnt-Borre Salberg 和 RobertJenssen。基于深度卷积神经网络的城市遥感图像小目标语义分割和不确定性建模。在IEEE计算机视觉和模式识别研讨会会议，第1-9页[18] Alex Kendall ， Vijay Badrinarayanan ， and RobertoCipolla.贝叶斯分段：用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。 CoRR ，abs/1511.02680，2015年。[19] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年[20] Balaji Lakshminarayanan，Alexander Pritzel，and CharlesBlundell.使用深度集成的简单和可扩展的预测不确定性估计。神经信息处理系统进展，第6402-6413页，2017年[21] Michael Truong Le，Frederik Diehl，Thomas Brunner，and Alois Knol.安全关键应用中深度神经对象检测器的不确定性估计。2018年第21届国际智能交通系统会议（ITSC），第3873-3878页。IEEE，2018年。[22] Mar c inMo zstecej k o，MateuszSusik，andRa f añoKarcze wski. 神经网络中不确定性估计的抑制softmax。arXiv预印本arXiv：1810.01861，2018。[23] 伊恩·奥斯班，查尔斯·布伦德尔，亚历山大·普里策尔，还有本·范·罗伊.通过自举dqn进行深度探索。神经信息处理系统的进展，第4026-4034页，2016年[24] Christian Rupprecht 、 Iro Laina 、 Robert DiPietro 、Maximilian Baust、 Federico Tombari 、 Nassir Navab 和Gregory D Hager。在不确定的世界里学习：通过多个假设来表示模糊性。在IEEE计算机视觉国际会议论文集，第3591-3600页[25] Jasper Snoek，Hugo Larochelle，and Ryan P Adams.机器学习算法的实用贝叶斯优化。神经信息处理系统的进展，第2951-2959页，2012年[26] 约翰·泰勒。介绍误差分析，研究物理测量中的不确定性。一九九七年。[27] Mattias Teye、Hossein Azizpour和Kevin Smith。批量归一化深度网络的贝叶斯不确定性估计。在国际机器学习会议上，第4914-4923页[28] 王浩，石行健，杨迪燕。自然参数网络：一类概率神经网络。神经信息处理系统的进展，第118-126页2941[29] Sida Wang和Christopher Manning。快速辍学培训。机器学习国际会议，第118- 126页，2013年[30] 吴安琪，塞巴斯蒂安·诺沃津，爱德华·米兹，理查德·E·图尔内，乔斯·米格尔·赫恩·洛巴托和艾尔·亚历山大·L·冈特。鲁棒贝叶斯神经网络的确定性变分推理。2018年。[31] Guodong Zhang，Shengy

下载后可阅读完整内容，剩余1页未读，立即下载