视觉中的不确定性图的统计测试及其在深度神经网络中的应用

199 浏览量更新于2023-10-25 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

406通过统计测试理解视觉中的不确定性图Jurijs Nazarovs1nazarovs@wisc.edu黄志春2zhichunh@cs.cmu.eduSongwong Tasneeyapant1tasneeyapant@wisc.eduRudrasis Chakraborty3rudrasischa@gmail.comVikas Singh1vsingh@biostat.wisc.edu1威斯康星大学麦迪逊分校2卡内基梅隆大学https://github.com/vsingh-group/uncertainty_with_rf摘要在视觉和机器学习的许多应用中，需要对模型的置信区间和预测结果进行定量描述为深度神经网络（DNN）模型实现这一点的机制正在慢慢变得可用，偶尔也会集成到生产系统中。但是，在如何对这些过度参数化模型产生对于两个具有相似准确性特征的模型，与第二个模型相比，前一个模型的不确定性行为在统计学意义上是否对于高分辨率图像，执行假设检验以生成有意义的可操作信息（例如，在用户指定的显著性水平α=0。05）是困难的，但在任务关键设置和其他地方都是需要的。在本文中，特别是对图像上定义的不确定性，我们展示了如何重新审视随机场理论（RFT）的结果，当与DNN工具（以绕过计算hur-dles）配对时，导致有效的框架，可以为许多视觉任务中使用的模型的不确定性地图提供假设测试功能。我们通过许多不同的实验表明，这个框架的可行性。1. 介绍随着深度神经网络模型在视觉任务的生产系统中的采用，越来越多的人认为我们必须意识到我们的模型不知道什么。这不仅与用于自动驾驶或医学成像的系统相关，而且与不太关键的情况相关，其中这种模型通常通知决策和/或负责生成用于用户干预的触发。例如，不准确但过度配置-图1. 顶部显示深度估计过程的原始不确定性。底部显示了我们的方法选择的重要区域，保证限制家族错误率。此区域可用于校准、模型比较或其他用例。凹痕预测可能导致装配线制造和物流中的不希望的结果这种需求已经引起了对模型校准机制设计的兴趣，以及对用于视觉任务的深度神经网络（DNN）模型估计不确定性的兴趣，这些任务包括但不限于预测[38，45]，分割[3，41，47]，深度估计[14，20]和视觉里程计[4，32]。不确定性可以大致分为任意性（统计）和认识性（系统）。随机不确定性可以帮助捕获固有的和不可减少的数据噪声，即使收集更多的数据也不能减少这些噪声。它可以用异方差模型[26，40]表示，因为它们假设观测噪声（不确定性）可以随输入而变化。认知不确定性解释了模型参数的不确定性，可以通过观察更多的数据来改善。在DNN中捕获认知不确定性可以涉及在潜在空间上放置先验（例如，变分自动编码器（VAE）[46]）或模型参数（例如，贝叶斯神经网络（BNN）[7，33，42]），并采用任何可用的方案来估计后验概率。有几种策略使用混合方法来捕获任意或认知（或两者）407×≈×|≤≥||≤|−−通过组合异方差NN和BNN，例如，[30 ]第30段。示例场景。虽然捕获不同类型的不确定性是有用的，但在实际的科学/工业环境中，不确定性估计仅仅是我们必须了解这些估计能促成什么样的行动，不管它是任意的还是认识的。方案1. 不确定度估计值可用于校准，例如，由医生评估医学图像。如果一个专家可以看到模型在某些特定区域是不确定的，他/她可以评估是否要获取更多的数据，如果模型不确定的区域是解剖学上重要的。在其他情况下，这些信息可以指导是否要求活检。然而，为了做出决定，我们需要一个统计上合理的方案来生成否则，对原始不确定性的解释完全是主观的。类似的应用出现在自动驾驶汽车的深度估计[27]，图。1.一、设想2. 不确定性可以用来比较模型的置信度。假设用户对两个模型ModelA和ModelB的准确性配置文件感到满意，但第二个具有更高的延迟。只有在99%的置信度下，模型B的升级才是合理的，因为它在统计学上显著降低了测试数据集的不确定性这需要一个类似地，考虑使用分割的肿瘤体积动力学的两个系统，这将驱动治疗选项（例如，RECIST标准[13]）。这两种系统都提供了类似的准确性，并获得了FDA的批准，但其中一种更昂贵。如果不确定性的降低在99. 9%的水平。或者，考虑小型设备上的模型。在低精度和高精度操作之间进行选择，后者将需要更大的电池。如果两个模型都能满足客户的准确性需求，那么预测不确定性的降低是否具有统计学意义？尽管关于不确定性的工作越来越多，但能够提供可操作信息的框架却很有限.这项工作的目标是缩小这一差距。统计学中的经典技术。上述问题可以用经典的统计检验来解决。在这里，我们可以将其设置为像素统计测试（尽管不是严格必要的;我们将很快讨论替代形式）。场景1将是一个单样本测试，而场景2将是一个双样本测试：我们询问像素处的不确定性在两个模型中是否不同。瓶颈基于逐像素统计测试得出图像的科学有效结论将需要进行许多测试，等于像素数。例如，大小为2828的图像导致784个测试。对于一个普通的0。05临界值（1型错误的概率），我们期望选择40（784 0。05）像素作为重要的，纯粹是偶然的（假阳性的数量）。对于更高分辨率的图像，例如3D医学图像，该问题升级。为了控制家庭错误率并避免夸大假阳性的数量，多重测试校正（例如，Bonferroni，Benjamini-Hochberg）[52]。然而，对于视觉中常见的高分辨率图像，这往往会过度校正，使所有测试都不重要[2，56]，使分析意义不大。许多测试设置保守地假设像素是独立的。避免这种限制性假设的经典策略利用了随机场理论（RFT），如Adler和Worsley [1，2，57]的开创性论文中所研究的然而，许多基于RFT的理论结果仍然局限于高斯随机场（GRF）和一些特定的推广。这些假设在多大程度上适用于从视觉中流行的深度神经网络获得的不确定性地图，这一点并不明显。捐款. 我们展示了现有的DNN工具在使用随机场理论的适当结果进行实例化时，如何提供一种机制来对视觉中常见的不同概率DNN模型生成的不确定性地图具体来说，我们开发了一个prob-推理框架，基于神经ODE和Wasserstein距离，它可以学习不确定性映射和GRF之间的同构我们称之为扭曲神经ODE。粗略地说，这允许对所得到的GRF执行假设检验，并将结果映射回不确定性图的主区域。2. 背景In this section, we review several concepts we will usethroughout the paper, starting with hypothesis tests.假设检验是一种统计程序，包括四个主要部分：（1）假设H0和备择假设HA，（2）检验统计量F，（3）临界值α，它控制第1类错误的概率，即，P（reject H0H0is true）α和（4）阈值u：=u（α），它定义了拒绝区域。当一个测试统计量、假设和临界值是设计选择，必须导出阈值u，使得p值P（FuH0）= α。通过假设检验，我们可以评估是否存在在一定的置信度α下拒绝零H0的证据。通常，H0表示没有差异（例如，从零开始或在两个组之间），而HA表示存在差异。该决定是基于检查所观察到的测试统计量Fobs是否落入由阈值u定义的拒绝区域。家庭错误率（FWER）。回想一下，拒绝区域是基于α选择的，其控制单个测试的P（1类错误），即， P（拒绝H0H0）α。然而，假设我们进行N = 100次测试，例如，的对不同像素进行相同测试，α=0。05. 则P（拒绝至少一个H0H0为真）=1（1α）N=0。994，平均5个测试将被拒绝纯粹由机会因此，在多重比较测试中，408|--联系我们≥|≥|∈≥|≥|联系我们}{∈≥·−联系我们测试HF，我们需要找到阈值uF，使得Dj=1JOBSuFΣ我们不想控制P（类型1错误），但FWER：P（拒绝至少一个H0H0）。注意，1的FWER测试等于P（类型1错误）。两个模型的差异（场景2）。这导致假设设置，表示为HF：高斯随机场（GRF）。GRF是函数族Z：S→R，其中对所有有限k≥1H0：m∈S，Mx（s）=0HA：Mx（s）0（一）和 s1，. . .，skS，随机变量Z（s1），. - 是的- 是的，Z（sk）具有多元高斯分布. GRF由均值函数μ（s）=E{f（s）}和协方差函数C（s，t）=E{（f（s）-μ（s））（f（t）−μ（t））}。 UGRF是。一个特定的高斯RF，均值为零，方差为1，V为=I. 各向同性Zstec（s）为了进行假设检验，有必要建立一个检验统计量，它理想地描述了数据的性质，是一个很好的指标，是否重新排除零假设对于RF，HF的常见检验统计量为Fmax=maxs∈SMx（s）[57]。最后针对GRF是协方差函数C（s，t）P（Fmax≥uF|H0）=α. 然后，如果观察到的统计量为s1，只取决于欧几里得距离εs−tε2。OBSMax>uF，我们可以拒绝H0而选择HA。然而，在这方面，高斯相关RF[2]或GRRF是另一类广泛的随机场F=f（Z），作为GRF的函数获得例如，具有d个自由度的卡方RFχ2（t）=dZ2 （t）是一个GRR F.计算P（FmaxuFH0）通常是不平凡的。通常，为了获得P（FmaxuFH0），我们需要知道检验统计量的理论分布，记作PFmax，它在将军然而，RF理论提供了一种方法来估计-3. 视觉不确定度图的检验我们从输入图像x开始，并处理§1中的场景1。暂时将特定任务（深度估计、分割）放在一边，我们假设一个经过训练的概率模型M提供关于输入x的不确定性图，表示为Mx，其中Mx（s）是像素s的不确定性S. 我们的模型将对这些不确定性进行操作地图/图像（而不是x）。为了推断不确定性图的哪些像素（如果有的话）是显著的（与0显著不同），我们必须进行假设检验。标准方法是对每个像素s进行测试，其中H0：Mx（s）= 0HA：Mx（s）0F（s）间接地匹配P（FmaxuFH0），即通过Eu-ler特征启发式（ECH）[53]，这是最重要的方法之一。重要的（和迷人的）结果在RF理论。给予u，我们定义一个偏移集Au=SS：F（s）联合 ECH 表明，对于足够大的值 u ， P（FmaxuFH0）E<$（AuF），其中<$（Au）是欧拉特征线（EC），这是拓扑学中研究得很好的量。描述拓扑空间形状的几何请注意，此后，EEC代表E{（AuF）}。如何计算E{（AuF）}？的标准方法计算E{ε（AuF）}是使用Monte Carlo（MC）近似givenEmpiricalECsε（Aobs）overerobservedexcur。解集AuF.然而，除了MC近似-例如，可以是学生统计数据，F（s）=（Mx（s））/σ（Mx（s）），其中σ是标准偏差的估计值，（）表示样本平均值。对于§1中的情景2，为了检查模型A和B的不确定性之间是否存在差异，我们用不确定性Ax（s）Bx（s）代替Mx（s）。在下一小节中，我们将描述如何解决多重比较问题。更具体地说，我们需要一种程序，它导出拒绝区域F（s）u的阈值u，使得它（a）控制FWER和（b）计算图像的空间相关性。3.1. 随机场理论的拯救我们将逐像素（或3D体积的逐体素）不确定性映射Mx视为具有协方差C的S上的RF。注意，像素方面的不确定性可能不被确定。彼此独立。我们想从统计学上评估F是否不同于0。我们甚至会F和.检验统计量、409≥|ΣX误差，[1]表明，经验EC在非常高的水平通常噪声太大而不能直接估计阈值 uF ，使得 P（FmaxuFH0）=0。05.在实际设置中，它可能导致不正确的假设检验。另一一种自然的方法是推导出理论上的封闭形式，E{（AuF）}，基于Thm。下面3.1。定理3.1（GKF：高斯运动公式[54]）。如果F是GRRF（各向同性或非各向同性），EEC给出为，DP （ Fmax≥u|H0 ） E{ （ Au ） }=Ld （ S ， Λ（S））ρd（u），d=0（二）其中 D 是域 S 的维度， ρd （ uF ）是欧几里得密度（ED），Ld（S，Λ（S））是Lipschitz-Killing曲率（LKC）[58]，并且Λ（s）=Var（Zstec（s））是基础UGRFZ（s）的空间导数的变化。使用（2）的问题：即使（2）适用于广泛的RF，但它仅限于最终使用该策略来找到具有显著不确定性的像素（1）检查与不确定性之间的差异1表示观察到的不确定性图Mobs（s）的统计Fmax410∼D∼→→D→−D不DD联系我们向前GKF落后翘曲定理翘曲基础RF生殖毒性不确定对应高斯射频有效像素关于GRF域有效像素在源域图2. 为了理解不确定性映射的重要区域，我们学习了从一般非各向同性RF到各向同性GRF的同构翘曲。然后，给定GRF的结果，我们应用Thm。3.1以确定显著区域，并将其弯曲回源域。相应的Ld（S）和ρd（uF）的情况。对于大多数RF，这些是图3. 神经扭曲ODE：我们将RHS建模为ODE（3）的解，其中RHS由NN建模。结果transform-未知（a）虽然曲率Ld（S）可用于在处理各向同性RF时，通常很难计算Ld（S）[1]。（b）与此同时，ρd（uF）的封闭形式解只适用于少数分布[8]。观察到，表示逐像素不确定性的统计F（s）实际上可以在几种情况下被认为是GRRF。这是因为它是VAE中高斯潜在空间或BNN中权重的函数如果是这样的话，我们就可以使用Thm。第3.1条然而，（a）RFF在区域S上是各向同性的假设是不现实的，这使得为各向同性RF定义的封闭形式解Ld（S）不适用。（b）F的确切分布是未知的，因此ρd是也是未知的。那么，有没有一种方法可以应用到Thm。3.1在观察到的不确定性地图上，由DNN生成？3.2. 让我们跃迁到GRF！为了发展我们的建议，我们首先（非正式地）陈述以下简单的结果，它描述了域（坐标系）的扭曲如何帮助，证明在补充中。定理3.2.GRRF F的域S可以通过一对一的光滑变换Γ弯曲到域 S′ ，而不从根本上改变问题，即： P（ maxs′∈S′F （ s′ ） ≥t ） =P （ maxs∈SF （ s ）≥t）。定理3.3. 考虑域上的GRRF F（S）S与欧拉密度{ρF（u）}，以及GRFZ（SZ）在将mationΦtM应用于输入图像的坐标系以生成翘曲域。区域（Fig.2，第二个箭头），并翘曲的显着区域- gion回来（图。2，第3箭头）。该方法类似于[55]，其扭曲非各向同性GRF的域以实现局部各向同性。但与[55]相比，我们试图找到非各向同性GRRF到各向同性GRRF的翘曲。为了实现这一点，我们应该满足两个性质：（a）学习的翘曲必须是一个同构，（b）GRRF的翘曲版本应该是一个各向同性的GRF。也就是说，给定源域S 中的一般（各向同性或非各向同性）GRRFF（S）和GRF域SZ上的各向同性GRFZ（SZ），我们必须找到变换（翘曲）Φ（S），使得F（Φ（S））Z（SZ），即，平等分配。在这里，我们可以使用机器学习的最新发展3.2.1学习同构将经线Φ（S）学习为一个自同构保证了变换的可逆性，这保留了拓扑特征[49]。对我们来说，这意味着我们可以从高斯域SZ恢复重要区域，但回到源域S，图2（第三个箭头）。一个特定的类的同构，它定义了一个子群结构的基础李群[28]，可以参数化的一个常微分方程（ODE）[6，49]：dΦt=V（Φ），（3）结构域SZD欧拉密度{ρZ（u）}。假设dtt欧拉密度{ρF（u）}和{ρZ（u）}都定义在其中Φ是时间t处的自同构，V是sta-t。使用相同域U和maxdρF（u）/ρZ（u）1 .一、然后，通过找到一个一对一的变换Γ，使得S=ΓSZ且SZ=Γ−1S，并选择一个阈值u∈，使得P（maxs∈SZ Z（s）≥u（s）=0。05、保证P（maxs∈SF（s）≥ u∈）≤ 0. 05.注1. 对于各向同性GRF Z（s），Thm. Ld和ρd以封闭形式已知，因此可以计算相应的阈值 u ： P（Fmax≥u|H0）≤0。05.基于Thm。3.3，我们可以将不确定性映射扭曲到各向同性GRF（图3.3）。2，第1箭头）。然后基于注释1，我们应用Thm。3.1并推导出横向速度矢量场向前翘曲：通过从初始点（恒等变换）Φ0开始，我们能够在时间（t：0 1）上积分（3）以获得Φ1，使得F（Φ1（S））Z（SZ）。Backwar dwarping：一般来说，对于学习warping变换，在时间上向后积分（t：10）不会导致反向warping [6]。然而，（3）定义了李群的一个成员，它提供了指数算子的定义因此，定义一个返回值Φ−1的正确方法是通过对时间（t：0 1）积分（3为了解释变换的丰富性，我们将速度V作为神经网络进行参数化，这给出了一个Warping Neural ODE，见图2。3 .第三章。恒等变换神经网络轨迹参数化矢量场411不S不不3.2.2GRF生成机制给定翘曲Φ（S），我们需要确保F（Φ（S））是各向同性的 GRF 。虽然可以使用各种分歧，例如，Jensen-Shannon [15]或KL [25]，我们简单地最小化扭曲图像F（Φ（S））和GRF的分布之间的Wasserstein（EM）距离[50]W（P，P）= infE[x-y]，（4）图4.顶部：理论统计PZmax和R gγ∈φ（P，P）（x，y）γ在相应的零假设H0和阈值uZ和uRGF ，使得P（Zmax≥uZ|H0)= αandP(Fmax≥ uF|H0)= α.其中，ψ（Pr，Pg）表示所有联合分布的集合γ（x，y），它们的边分别为Pr和Pg. 为了实现这一点，我们最小化了一个有效的近似，Wasserstein距离类似于[5，21]。然而，与GAN相反，在我们的设置中，生成器（神经ODE组件）不会基于随机样本生成图像，而只是用于创建没有随机性的扭曲Φ3.3. 程序概要（包括最后损失）坐标系从0到图像大小F的大小。然后，“grid（s）”中的像素OG项防止学习向量场Φt，其映射到网格的外部Alg.图2描述了框架的第二部分，以在给定学习的扭曲Φt的情况下选择源域上的重要像素。备注2. 虽然理论上，可以保证系统（3）在给定Φ 0的情况下存在唯一解，参见[43]（pp. 8），为了加速收敛，我们在Alg中对ODE损失添加了约束（惩罚）。1 、 JD 和 OG 。 Namely, we require (a) the JacobianDeterminant of each Φt to be non-negative [34], to avoidcollapsing several pix- els into one, and (b) preventgenerating warping Φt, with vectors going outside thegrid (image frame).JD= 10000|JD （ Φ （ s ）） |−JD （ Φ（s）），3.4. 应用到目前为止，我们已经讨论了如何得到一般RF F的有效区域，该区域对应于GRF的拒绝区域，见图2。4.第一章我们讨论的是一般情况，没有说明如何获得RFF。取决于如何获得RFF，该思想可以用于§1中的两种场景：（1）理解对于所生成的图像的哪些部分，模型是最不确定的，以及（2）比较具有不同架构的两个模型之间的不确定性。虽然（1）在科学/医疗保健环境中很重要，但我们希望检查我们是否可以信任感兴趣区域中的模型，（2）有助于评估用户是否需要在部署新模型方面投入更多资金以降低其预测的不确定性。模型中的不确定性。为了理解输出图像的哪个部分是最不确定的，我们生成F，给定模型的N个因此，我们有F，F（s）表示每个像素的不确定性。由于我们的目标是确定哪些像素是最不确定的，因此我们应用Alg。（1）在F和Z上，在HA下生成。也就是说，所有生成的RFZi具有一些不确定性。像素，并在图。4我们只映射F和OG= ΣΣ∫（grid（s）+Φt（s）−Fsize）+（grid（s）+Φt（s）），Z. 然后，我们发现MF在Alg中二、可能会出现推导它类似于强/弱类激活映射方法[60]。请注意，OG项的计算是由我们将扭曲Φt实现为向量场（常见于视觉[6，29]）并将“网格”视为微分同胚算法1学习同构Φ：F→Z输入：通用RFF={F}和GRFZ={Z}NF我我输出量：仿射Φ（S）i=1NZi=1要求：由神经网络参数化：（3）中的V，评论家D（最小化Wasserstein距离），评论家更新的数量1：当V没有收敛时，2：将Φ0设置为恒等变换（矢量场）。3：使用神经ODE（V，Φ0）找到解Φ1。4：G iv enΦ1，从F到F5：运行MinW asDist（F，Z）以最小化Wasserstein距离第六章： end while7：p r eMINWASDIST（F_i，Z）8：对于i = 0，. - 是的- 是的，nDdo9：通过最小化批评者的损失来更新D−D（Z）+D（F）+λGP（D）其中GP（D）是Critic D的梯度惩罚[21]十：十端通过最小化ODE损失来更新V：−D（F）+ JD + OG以下定义的JD、OG12：结束程序算法2选择显著区域输入： RFF={F}，学习到的同构ΦNF我不输出：重要区域i=11、申请W。将Φ1转化为F，从GR F生成F。2：根据Thm选择F的有效像素MF。第3.1条3：应用r ev. 将Φ−1转化为MF，从而在F的整环上生成MF。412然而，我们的方法是互补的-413i=1MM--≥|图5. 数据库：1st - ResNet-18，2nd - ResNet-34，3d -ResNet 50。列（3列）：1）不确定性图，由VAE模型生成，ResNet基础对应于行，2）显著不确定性，由我们的方法导出，3）前5%的不确定性，通常用作视觉中的显著不确定性。图6.使用我们的Warping NODE连续变形'3'到'4'模型之间的不确定性。给定两组图像，我们计算前面提到的测试统计量Fobs。然后，我们使用自举技术来构造一组统计量FiN（见补充）。我们跟着阿尔。1来将分布F完全映射到Z，即，而不仅仅是情景1中的α最后，我们得到了显著区域Fobs 关于Fobs如果Fobs包含至少1，则我们拒绝零假设，即模型的不确定性没有改善，而有利于HA。虽然我们提供了一种方法来测试模型之间的不确定性，在这里，我们将将我们的陈述限制在模型中的不确定性。局限性：在目前的形式中，我们的方法不能直接用于优先考虑深度不确定性量化方法，例如，BNN[42]，深度合奏[35]，等等。与假设检验类似，我们不获得模型排名。但是如果我们知道，比如模型/软件成本，那么如果H0不被拒绝，那么更便宜的模型更好。4. 实验我们试图证明我们的模型提供不同概率模型产生的不确定性的统计显著性估计的能力，例如，变分自动编码器[31]，MC丢弃的神经网络[18]和贝叶斯神经网络[22，30，42]。在我们的实验中，我们使用了广泛的常见视觉数据集，e.g. CelebA [37] 、 AFHQ [11] 、 KITTY [19] 、 MS-COCO [36] 和来自阿尔茨海默病神经成像倡议（ADNI）的MR图像数据我们根据以下内容构建重要区域：P（Fmax uFH0）=0。05，一种常用的阈值[51]。对于基线，我们考虑通常使用的5%分位数[30]。附录提供了DNN架构的描述以及一个简单的实验，不同的RF与地面真理的重要地区。概念证明：我们通过引入Warping Neural ODE作为生成模型来开始实验部分，我们训练我们的模型将样本从手写数字“3”的形状分布扭曲到数字“4”。由于我们可以在任意时间t评估（3）中的常微分方程的解，因此在图6中，我们可视化了Φt的演化。很明显，我们的模型确实可以学习一个光滑的同构。VAE：鉴于VAE的产生机制[48，59]，对认知不确定性的估计，即，模型的不确定性是直接的。对于每个输入图像x，我们运行推理M次，生成M个样本x1，. . . ...，xM，在其上我们计算逐像素和逐通道方差。由于VAE的潜在空间遵循高斯分布，因此所得的不确定性F满足我们的假设（关于GRRF），因此，我们可以直接应用我们的方法来理解重要区域。对于这些实验，我们考虑VAE模型的不同变体（基于ResNet-18，ResNet-34和ResNet- 50 [24]）和四个不同的数据集：CelebA [37]，AFHQ [11]：3种动物的特写：猫，狗和野生动物。(a) CelebA 在图5中，我们显示了不确定性图，并将从我们的方法中获得的重要像素与通常的5%分位数进行了比较。首先，我们看到我们的方法选择了聚集的不确定性区域，这表明我们的模型知道不确定性的空间相关性图7. 猫，狗，野生的。色谱柱：显著不确定性，由我们的方法针对不同样品得出。414×图8. 对于沿着行的每一种树类型的不确定性（随机的，认知的和预测的），我们展示了（左）深度估计的不确定性，（中）由我们的方法得出的显著不确定性区域，以及（右）通常用作显著的5%分位数。但是，标准的5%分位数会拾取边界点和离散点。对于最具表现力的网络ResNet-50，第三行尤其明显，其中整个区域的不确定性很小。我们的方法只选取最大和可感知的区域（如牙齿），而5%分位数选取生成对象的边界-对于校准来说不是一个非常有意义的区域。其次，使用更具表现力的模型（从上到下），我们的方法选择了不太重要的不确定区域。相比之下，5%分位数拾取大约相同数量的像素，而不管模型置信度如何。观察结果：虽然我们预计随着模型复杂性的增加，显著不确定区域会变小，但我们并不认为模型在相同的精确区域中是最不确定的。此外，我们预计，随着模型复杂性的增加，具有显著不确定性的区域将首先被删除。这可以通过比较图1中的不确定性图和我们的方法的重要像素来看出。五是模型。使用5%分位数很难观察到这种行为。我们发现，我们观察到的消除过程类似于统计学中的计算/存储复杂度：对于CelebA，我们的模型（14M参数）占用约1934 MiB。运行时间为0.3s，批量大小为1。在具有四个2080 TI的标准系统上，10000张图像的1个epoch需要120 s，完整的训练（用于变形）需要7个小时。在测试时，假设检验（在PyTorch上）可忽略不计（≤1ms）。(b) 空军总部由于我们显示了我们的方法与5%分位数相比在选择VAE生成的显著不确定区域方面的优势，因此对于AFHQ数据集，图9. 预测不确定性的放大区域，以显示与5%的quunatile（右）相比，我们的方法（左）没有在树的边缘上拾取很少（和无意义）的我们只提供了我们的方法在图1中的7 .第一次会议。其目的是要表明，显著的不确定性区域是可感知的.我们看到最不确定的区域是眼睛和耳朵周围的区域。MC dropout：在[18]中，作者表明，当在每个层上应用dropout时，dropout目标最小化了近似分布与深度高斯过程后验之间的因此，从MC辍学获得的不确定性满足我们的假设GRRF。给定一个经过训练的确定性网络，我们可以注入MC丢弃层来估计不确定性。我们评估我们的方法对来自MCdropout的不确定性，该方法应用于不同任务的两个大规模数据集：深度估计和分割。(a) 虚拟KITTI数据集上的深度估计：虚拟KITTI数据集[16]是一个照片级真实感合成视频数据集，由高分辨率场景组成，通常用于视觉任务，如对象检测、多对象跟踪、场景级和实例级语义分割以及深度估计。我们评估了我们的模型在高分辨率不确定性地图中拾取显著不确定像素的能力。我们遵循[22]的实验设置来评估图像中对象的深度。Using MC-dropout, wegenerate uncertainty maps of size 320 1216 [18] andevaluateourmodelonthreedifferenttypesofuncertainties: epistemic, aleastoric and predictive (sum ofboth: epistemic and aleastoric).结果示于图 1 中。8.显然，对于所有类型的不确定性（行），我们的方法（中间列）拾取了聚集的不确定性区域，使显著性掩模更加平滑，这表明我们的模型与通常的5%分位数（右列）相比能够感知图像中的空间相关性。这对于认识的不确定性来说- 模型的不确定性（中间行）。此外，图。9显示了放大区域的预测不确定性，对于具有强边缘的对象，如灯杆或树。我们的方法不会将边缘提取为重要的，从而使重要区域更有意义并避免噪声。(b) MS-COCO 上的分割：上下文中的公共对象（COCO）[36]是一个大规模的视觉数据集，提供了一组丰富的视觉描述符，并广泛用于语义分割的基线评估。415≥图10. 对于沿着行（0.01，0.03，0.04）的每个丢弃概率p值，我们通过三元组来证明：（左）像素级分割的不确定性，（中）由我们的方法导出的显著不确定性区域，以及（右）通常用作显著的5%分位数。租ms [9，23]。为了评估我们的方法的有效性，我们通过将MC Dropout应用于DeepLab V3 [10]的每一层，并在PyTorch [44]中预先训练检查点来生成分割不确定性。我们通过对每个分割类和像素的softmax归一化分数中模型为了评估丢失概率p对生成的不确定性的影响，我们考虑3种变化：p=0。01，p=0。03，p=0。04.我们注意到使用概率为p 0的dropout。05导致非常高的不确定性并且没有有意义的分割。根据图中的结果。对于所有3个丢弃概率p值，有2个有趣的观察结果。（1）如前所述，5%分位数表明一张图像上的显著不确定性位于许多不同的类别中相比之下，我们的方法是一致的，当类内提供显着的不确定性（2）虽然5%分位数显著区域通过不同的p值而变化（在图1中的行10），基于我们的方法的显著区域是一致的p.这意味着p的范围不会改变显著的不确定区域，这让人放心。贝叶斯神经网络：我们使用的最后一种方法是贝叶斯神经网络（BNN）[17，39，42]。我们将时间BNN应用于从阿尔茨海默病神经成像启动（ADNI）获得的纵向（3个时间点）脑成像数据我们的目标是预测第三个时间点的大脑图像，假设观察到前两个步骤。为了生成不确定性图，我们从训练的BNN的100个前馈运行中收集预测，并计算体素标准差。然后我们取一个2d切片作为最终的不确定性图。我们注意到，将5%分位数作为显著性阈值的应用不会产生非常有意义的结果，完全覆盖大脑的两大区域：胼胝体和尾状核周围还有一些杂散像素相反，我们的方法突出了小的聚类区域。由于数据包含两个临床上完全不同的组，因此我们应该预期来自不同组的样本具有由预测模型生成的不同的显著不确定区域。5%分位数阈值显示相同的显著像素，与患病或对照受试者无关（组差异检验）。相比之下，我们的方法很好地区分CON和AD组。总之，我们发现，识别统计学上显著的像素表明，AD中的纵向进展与使用我们的方法捕获的CON完全不同（见补充）。5. 结论本文提供了一种使用现有深度神经网络工具结合随机场理论（RFT）中的已知结果对DNN模型的不确定性图进行假设检验这种能力允许从对不确定性的主观解释或对十分位数/分位数的评估转变为以严格的方式回答精确陈述的假设我们认为，这种能力是必不可少的，但目前还没有，可以进一步使DNN模型在关键任务应用程序中的视觉使用，并为业务/政策决策提供信息。社会影响。我们提供了一个有意义的步骤来解释/理解视觉中的深度模型的不确定性结果，从值得信赖的AI模型的角度来看，这是一个积极的发展。致谢这项工作得到了 NIH 基金 RF1AG059312 、RF1AG062336和RF1AG059869的支持，NSF奖CCF1918211以及来自威斯康星大学麦迪逊分校美国家庭保险数据科学研究所的资金。416引用[1] 罗伯特·J·阿德勒，凯文·巴茨，萨姆·C·寇，安西娅·莫诺。通过Ehrman特性估计随机场的阈值水平。arXiv预印本arXiv：1704.08562，2017。二、三、四[2] Robert J Adler，Jonathan E Taylor，Keith J Worsley，and Keith Worsley.随机场和几何的应用在准备中，可在R.阿德勒回家了Citeseer，2007. 二、三[3] Zeynettin Akkus，Alfiia Galimzianova，Assaf Hoogi，Daniel L Rubin，and Bradley J Erickson.深度学习用于大脑mri分割：最新技术和未来方向。Journal of Digital Imaging，30（4）：449-459，2017。1[4] Yasin Almalioglu、Adriad Risqi U Saputra、Pedro PB deGusmao、Andrew Markham和Niki Trigoni。Ganvo：无监督的深度单眼视觉里程计和深度估计与生成对抗网络。2019年国际机器人和自动化会议（ICRA），第5474-5480页。IEEE，2019。1[5] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在机器学习国际会议上，第214PMLR，2017年。5[6] 约翰·阿什伯恩一种快速的同构图像配准算法。神经影像，38（1）：95-113，2007年。四、五[7] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。国际机器学习会议，第 1613-1622 页。PMLR，2015. 1[8] 作者声明：J.Cao，K.J.随机场在人脑地形图中的应用。在空间统计中：方法学方面和应用，第169-182页。Springer，2001. 4[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：834-848，2018。8[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 8[11] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页，2020年。6[12] 谢莉·德克森和哈维·J·凯瑟曼。向后、向前和逐步自动子集选择算法：获得真实和噪声变量的频率BritishJournal of Mathematical and Statistical Psychology ， 45（2）：265-282，1992. 7[13] ElizabethAEisenhauer ， PatrickTherasse ， JanBogaerts ， Lawrence H Schwartz ， Danielle Sargent ，Robert Ford，Janet Dancey，S Arbuck，Steve Gwyther，Margaret Mooney，et al.实体瘤新缓解评价标准：修订

下载后可阅读完整内容，剩余1页未读，立即下载