不确定性估计及其应用：模型解释与注意力引导

57 浏览量更新于2023-12-01 收藏 6.84MB PDF 举报

概率模型

特定领域

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文∇∇L|||H∇不确定性估计Dan Ley1岁，Umang Bhatt1， 2岁，AdrianWeller1， 2岁1英国剑桥大学，2英国艾伦图灵研究所dwl36@cantab.ac.uk，{usb 20，aw 665} @ cam.ac.uk摘要为了解释来自可微概率模型的不确定性估计，最近的工作提出了针对模型不确定的给定数据点生成单个反事实潜在不确定性解释（CLUE），识别输入的单个流形上变化，使得模型在其预测中变得更加确定我们将探索扩展到研究δ-CLUE，即在潜在空间中原始输入的δ球内的潜在CLUE的集合我们研究了这些集合的多样性，发现许多CLUE是冗余的;因此，我们提出了DIVerse CLUE（-CLUE），一组CLUE，每个CLUE都提出了一个不同的解释，说明如何减少与输入相关的不确定性。然后，我们进一步提出了 GLOBAL 摊销 CLUE （ GLAM-CLUE），这是一种独特而新颖的方法，它可以学习特定组不确定输入的摊销映射，将它们有效地转换为单个函数调用中的输入，模型将是确定的。我们的实验表明，δ-CLUE，-CLUE和GLAM-CLUE都解决了CLUE的缺点，并提供了有益的解释不确定性估计从业者。介绍对于在预测的同时提供不确定性估计的模型，解释这种不确定性的来源可以揭示重要的信息。例如，确定负责预测不确定性的特征可以帮助识别哪些区域的训练数据是稀疏的，这反过来可能涉及代表性不足的子组（按年龄，性别，种族等）。在敏感环境中，领域专家可以使用不确定性解释来适当地将他们的注意力引导到模型发现异常的特定特征上。在之前的工作中，Adebayo等人（2020）触及了显着性图对不确定输入的不可靠性，Tsirtsis，De和Gomez-Rodriguez（2021）观察到高度不确定性可能导致反事实的巨大可能性此外，当模型不确定时，它们的预测可能是不正确的。因此，我们认为不确定性解释是模型解释的一个重要先例;只有当不确定性得到解释后，才能部署最先进的方法然而，在解释预测不确定性方面的工作很少。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.Depeweg等人（2017）介绍了不确定性估计的分解，尽管最近的工作（Anto ra'net al. 2021）已经展示了进一步的飞跃，提出通过在辅助深度生成模型（DGM）的潜在空间中搜索来找到模型对于给定输入的预测不确定性的解释：它们识别输入的单个可能变化，使得模型在其预测中变得更加确定。该方法被称为 CLUE（Counterfactual Latent Uncertainty Declarations），其目的是在流形上生成反事实解释（CE），以减少不确定输入x0的不确定性。这些变化是截然不同的从对抗性的例子中，找到附近的点，改变标签（Goodfellow，Shlens，and Szegedy 2015）。CLUE通过解码器μ θ（x z）和编码器μ φ（z x）引入潜在变量DGM。是指预测y的任何可预测的不确定性估计。成对距离度量采用d（x，x0）= λ xdx（x，x0）+λ ydy（f（x），f（x0））的形式，其中f（x）= y是模型从输入x到标签的映射，因此鼓励输入空间和/或预测空间中的相似性。CLUE最小化：L（z）= H（y|µ θ（x|z））+d（μ θ（x|z），x0），（1）得出x线索=µ θ（xzCLUE），其中z线索=argminz（z）。然而，CLUE也有局限性，包括缺乏一个框架来处理各种可能的解释，以及缺乏计算效率。虽然找到多种解释是sug-gested，我们发现所提出的技术是不完整的。我们首先讨论CLUE的多样性亲-向从业者提供许多解释，解释为什么他们的输入是不确定的，这可能是有帮助的，例如，如果他们不能控制算法提出的求助建议;建议某人改变他们的年龄比建议他们改变一个可变的特征更不可行（Poyiadziet al.2020年）。具体地说，我们开发了一种方法来生成一组可能的CLUE内的原始点在潜在的空间中的DGM使用的δ球：我们称之为δ-CLUE。然后，我们引入指标来测量生成的CLUE集合中的多样性，以便我们可以直接对其进行优化：我们称之为-CLUE。在处理了CLUE的多重性问题之后因此，我们提出了一种独特的方法，GLAM-CLUE（全球摊销的CLUE），它作为从业人员审计其arXiv：2112.02646v1 [cs.LG] 2021年12+v：mala2255获取更多论文L|ǁ −ǁLǁ −ǁH∈ ∈∈图1：目标函数（z）的概念色彩图，z0位于高成本区域。白色圆圈表示找到的解释。左：梯度下降到低成本区域（原始CLUE）。训练数据以彩色显示左中：梯度下降约束到δ球。不同的起点产生不同的局部极小值，尽管有许多冗余解（δ-CLUE）。正确的中心：直接优化多样性（B-CLUE）。右：高效，无约束映射，无梯度下降（GLAM-CLUE），允许计算加速。模型对不确定输入的行为。它通过以计算有效的方式在某些和不确定的组之间找到翻译来做到这一点。除了其他因素之外，这种效率是数据集、模型和所需CE的数量的函数;因此存在最适合于EST-CLUE或GLAM-CLUE的应用反事实中的多重性约束线索：δ-线索我们提出了δ-CLUE（Ley，Bhatt和Weller 2021），它生成一组解，这些解都在潜在空间中的z0= µ φ（zx0）的指定距离δ内：z0是被解释的不确定输入x0的潜在表示。我们通过随机初始化搜索来实现多重性，不同的潜在空间。虽然CLUE提出了这一点，但其随机生成方法和缺乏约束容易a）在空间的有限区域中找到最小值或b）远离该区域而不控制CE的接近度（附录B）。图1对比了原始目标和拟议目标（分别为左和左中）。原始的 CLUE 目标分别使用 VAE （ Kingma 和Welling2013）和BNN（MacKay1992）作为DGM和分类器。BNN的预测不确定性由后验概率的熵给出。类标签;我们使用相同的度量。超参数（λx，λy）控制产生低不确定性CLUE和接近原始输入的CLUE之间的权衡。为了鼓励稀疏的解释，我们采取d x（x，x0）=xx01. 我们发现这对我们的数据集来说是足够的，尽管其他指标，如FID分数（Heuseletal. 2018）可以用于更复杂的视觉任务，用于两种评估（如Singla等人，（2020年）和优化-CE认证（见附录B）。在我们提出的δ-CLUE方法中，损失函数与公式 1 匹配，附加 δ 要求为xδ−CLUE=µθ（x|zδ−CLU E），其中zδ−CLUE=arg minz：ρ（z，z0）≤δL（z）且z0= µ φ（z|x0）。本文中我们选择ρ（z，z0）= zz02（l2范数），如图1所示. 我们首先设置λ x= λ y= 0来单独探索不确定性景观，因为δ球的大小消除了对距离分量的严格需求，(z) 并且在尝试λ x=0之前，授予对解的局部性的控制。03.我们在每个阶段应用δ约束图1中左中所示的最优化方法，如投影梯度下降法（Boyd，Boyd，and Vandenberghe2004）。对于每个不确定的输入，我们利用CLUE目标的非凸性，通过在潜在空间的不同区域进行初始化来生成不同的δ -CLUE（图1）。虽然先前的工作已经考虑对输入周围的潜在空间进行采样（ P awelczyk ， Broelemann 和Kasneci2020 a），但我们发现随后的梯度下降会产生改进。示例结果见图2。 δ-CLUE是算法1的一个特例，或者是算法3的显式特例（附录B）。(a) 不确定2→9，2，4。（b）不确定Y → Y，V，X。图2：不确定性和距离d之间的权衡的可视化。左：MNIST。右：同步。反事实陈述的多样性分析一旦我们生成了一组可行的CLUE，我们希望测量集合内的多样性;因此，我们需要点之间的候选凸相似性函数，可以成对或在所有反事实上应用。我们考虑这些在反事实标签（预测空间）之间或在反事实本身（输入或潜在空间）之间.给定的分集函数D可以是应用于一组k>0的反事实在一个适当的空间，即。D（x1，.， xk），D（z1，.， zk）或D（y1，.，yk）其中xiRd'，ziRm和yiRc'（我们定义硬预测y i= max（yi）j）。表1总结了这些指标。J利用决定点过程：我们在Mothilal，Sharma和Tan（ 2020 ）的基础上利用决定点过程，称为 DPP（Kulesza2012），+v：mala2255获取更多论文SLH||H|L≤ ≤≤≤≤≤≤ ≤∈L←∪|H|H≤ ≤∇≤≤S--1KD1KK i=1我i=1iK=算法1：同步-线索（同时）输入：δ、k、S、r、x0、d、ρ、H、µθ、µφ、D、λD1 初始化CLUE的索引：XCLUE={};2 设置z0的δ-球心3 对于1≤i≤k，=µφ （z|x0）;4设置初始值zi=（z0，r，i，k）;5 端6 虽然损失没有收敛，7对于1 i kdo8Decode：xi=µθ（x zi）;9使用预测器得到（y xi）;10（zi）= （y xi）+d（xi，x0）;11结束K1ΣL（z，...，z）=−λ D（z，...， z）+L（z）;表1：多样性度量，D. 在必要时，我们定义D = 0对于k=1，取d为任意距离度量。如表1中的det（K）。DPP隐式归一化为0D1.一、这个指标总体上是有效的，并通过将注意力从最受欢迎（或突出）的点转移到不同的点组来实现多样性。然而，矩阵行列式是计算昂贵的大k。多样性作为平均成对距离：我们可以计算多样性作为所有不同的反事实对之间的平均距离（如Bhattet al.（2021））。虽然我们可以调整对的数量（实现不变性到k），该度量不满足0D1，而是用数据集表征的成对距离进行缩放。覆盖率作为多样性指标：以前的工作，pretability利用了覆盖率的概念作为衡量标准，13更新z1，.，zk与z1，.，zK （z1，.， zk）;14对于1 i kdo15使用ρ（zi，z0）将zi约束到δball;16端17 end while18 对于1 i kdo19解码说明：xi=µθ（x zi）;20如果（y xi）阈值，则21XCLUEXCLUExi;22end if23 端输出：XCLUE，一组n≤k个不同的CLUE任务后验概率定义为yRc'，yi=arg maxiyi。我们将类j的概率定义为克1[y = j]类中的反事实数反事实数CE的质量里贝罗、辛格和格斯特林（2016）将覆盖率定义为集合中包含的不同特征的总和Plumb et al.（2020）将覆盖率作为衡量全球CE质量的指标。在这里，我们将覆盖率解释为多样性的度量，直接用于CE的优化和评估。如表1所示，该指标分别奖励正向和负向的变化（尽管惩罚正向/负向缺乏变化参见附录C。预测覆盖率：由于在y空间中奖励负变化是冗余的（最大化一个标签的预测隐含地最小化其他标签），我们将y空间中的覆盖率度量调整为在一组CE中找到的特定标签的最大预测，在所有预因此，我们建议通过不同数量的找到的标签以及标签分布的熵。一旦找到所有标签，前一个度量就失去了效果，而后者则不会。前者满足0D1，并且给定c ′的最大熵维分布是log（c′），后者也是如此。优化多样性：提示-线索表1中定义的多样性度量在优化一组k个反事实中找到了效用。我们通过在我们的目标中为找到的CLUE提供一个明确的多样性项来优化我们生成的CLUE的多样性。我们称之为DIVerse CLUE或-CLUE。我们承认，虽然上述一些指标在优化过程中可能表现不佳，但我们保留它们进行评估。一旦选择了分集度量，字典。这满足1≤D≤1，其中我们要求在'可以同时k个反事实（Algo-最小k=c′CCE实现D=1，相当于Rithm1）在潜在空间中（Mothilal，Sharma和Tan2020），每个标签至少有一个完全置信预测。针对类标签的多样性：虽然最近的工作重点是为二进制分类问题产生不同的解释（Russell2019），其他人总结了其中的当前方法（Pawelczyk，Broelemann和Kasneci2020 b），但这些指标在类标签丰富的应用程序中表现良好，相反，在二进制中可能无效或按顺序（附录D），其中方法是分析-贪婪算法是前一种方法。符号XCLUE= x1，...，采用xk来表示k个计数器factual的集合（类似于Z_CLUE和Y_CLUE_E）。我们表示一个半径为r的初始化方案，以生成梯度下降的起始点。注意，δ约束的去除或初始化可以是12pj（k）=DIVERSITYMETRIC功能（D）DEJEANTALP点P处理平均P空气距离C超额P预测C超额DISTINCT拉贝尔ENTROPY OF拉贝尔1det（K），其中Ki，j=1+d（xi，xj）1 k−1K，kn（xi，xj）2i=1j =i+11天d'（maxj（xj−x0）i+maxj（x0−xj）i）i=11c'c'maxj[（yj）i]i=11c'c'1[i：yi=j]j=11C'-logc'pj（k）logpj（k）j=1. 使用+v：mala2255获取更多论文∞∇∞H→L|→→→|L|L∇→K2i=1|θ1z∈Z不确定θx∈X确定Σ2分别在δ=和r=0处实现（尽管由于对称性，后者产生相同的反事实k次）。因此，当λ D = 0时，-CLUE算法等价于δ-CLUE，当δ=，r=0和k=1时，δ-CLUE算法本身等价于原始CLUE算法。示例结果见图3。图3：我们生成了一组不同的候选解释，展示了如何在输入和潜在空间中保持接近x 0的同时降低预测不确定性（是不确定性，d是输入距离，ρ是潜在距离）。我们看到，左边的图像可能最容易被解析为置信度7或9。结果取自更大的一组CLUE，并且不是设置k= 5的示例。同时分集优化（算法1）：通过同时优化潜在空间中的k个反事实，可以避免分集度量D如何随k缩放的问题。我们有同步-最小化L（z1，...，zk）=算法2：GLAM-CLUE（训练步骤）输入：输入X不确定，X确定，组Y不确定，Y确定，DGM编码器μφ，损耗L，可训练参数θ1 对于（Y不确定，Y确定）中的所有群（i j），2从X不确定，Y不确定中选择Xi;3从X确定，Y确定中选择Xj;4编码：Zi=μφ（Z Xi）;5虽然损失没有收敛，6更新θij，θiJ （θijZi，Xj）;7end while8 端输出：giv en映射器Gi→j的映射参数θi→ j的集合，这些映射器G i→j从组i获取不确定输入，并在组j被视为全球性的CLUE。最初，从训练数据中获取输入来学习这种映射，但我们证明了我们可以通过使用从训练数据中的不确定点生成的CLUE来进行改进。算法2定义了潜空间中从不确定群到确定群的任意复杂度的映射：z确定=G（z不确定）。这些映射器具有参数θ。为了得到全面的解释，我们限制了每张地图-−λ D D（z1，.，zk）+1kL（zi）其中L（zi）=H（y|µ（x|=在我们的实验中，per是一个单一的潜在翻译，一个不确定的类i到一个确定的类j：z=G（z）=θzi））+d（μθ（xzi），x0）线索θji→jiµ θ（XZCLUE）其中ZCLUE= arg minz1，.，zk=（z1，.，zk）。注意，我们在潜在空间中应用多样性函数;它同样可以应用于输入空间。顺序多样性优化（附录D）：给定一组反事实ZCLUE （最初是空集），我们可以顺序地应用 -CLUE，将每个新的反事实添加到集合中。在每次迭代中，我们最小化L（z）=λ D D（ZCLUE<$z）+H（y|µ θ（x|z））+d（µ θ（x|z），x0）以产生zCLUE，我们将其附加到集合中。全球和摊销反事实线索主要侧重于不确定性估计的本地解释，如Anto ra'n等人。（2021）提出一种方法zi+θij。在测试数据上运行时，映射器应减少点的不确定性，同时保持它们接近原始. 为了训练平移θ的参数，我们使用公式2中详细描述的损失函数，类似于VanLoov-eren和Klaise（2021），他们检查k个最近的数据点（我们的最小运算意味着k=1）。我们从图7中推断，潜在空间中的正则化意味着输入空间中的我们为从业者定义的每对组学习单独的映射器（图6）;算法2循环这些组，相应地划分数据，并为每种情况返回不同的参数θi→j。L（θ|Z不确定，X确定）=寻找一个不确定输入的单一的微小变化，对于一个分类器来说，它把它从不确定变成了确定这样的局部解释可能在计算上是昂贵的，1λθ+min µ（z+θ）−x适用于大量的输入。大量的反事实是也很难解释。因此，当我们使用它们来总结全局不确定性行为时，我们面临着挑战，这对于识别模型未按预期执行或训练数据稀疏的区域非常重要我们期望一种计算高效的方法，该方法需要数据集的有限部分（或CE的有限集合），从该数据集可以学习不确定性的全局特性并以高可靠性应用于看不见的测试数据。我们提出了 GLAM-CLUE （ GLOBALAMORTISTED CLUE），它实现了相当大的加速比这样的可靠性。拟定方法：GLAM-CLUEGLAM-CLUE采用高/低确定性点的组，并在潜在空间中学习它们之间的任意复杂度的映射（训练步骤）。然后应用映射器从不确定输入生成CE（推理步骤）。它可以在反事实文献中，很少有作品涉及不确定性解释;出于引言中讨论的原因，我们避免与最先进的反事实方法进行比较。然而，存在多个标准基线，我们可以根据这些基线来测试性能。首先，我们可以在输入空间或潜在空间中对确定数据进行不确定数据的均值差（DBM）这可以添加到不确定的测试数据中，并在输入空间的情况下进行重构，或者在潜在空间的情况下进行解码。另一个基线是输入空间或潜在空间中高确定性训练数据的最近邻（NN）。图5显示了潜在空间中的这些基线。我们的实验表明，GLAM-CLUE显著优于这些Pawelczyk等人（2021）创建了一个基准测试工具，该工具显示CLUE的性能与当前最先进的技术相当。通过扩展，我们的方案也是如此，但速度快了200倍。，以产生X|Zuncertain|+v：mala2255获取更多论文HH∇→图4：基线、GLAM-CLUE和CLUE对不确定输入（最左边）的解释的比较。是不确定性，d是输入距离，c =+ λxd是成本。一些基线计划中的低不确定性因不切实际的距离而无效GLAM 1/2/3在实验/GLAM-CLUE部分中描述 CLUE 1/2由λx = 0和λx = 0生成。03分别图5：MNIST数字4在2D潜在空间中的DBM和NN基线的可视化。左：测试数据中的不确定点及其各自的潜在DBM映射。右：测试数据中的不确定点及其各自的NN映射。高确定性训练数据在整个过程中以绿色显示。当不确定测试数据的类别未知时，可以对每个类别组合应用映射，从而挑选性能最佳的CE。从不确定性到确定性的一般映射不需要这种选择，但总体上会更难训练（简单的转换对于图6的最右边的情况可能是无效的）。我们认为，更复杂的模型，如神经网络，可以提高映射的性能，在失去整体意义的解释的风险。不确定性大多数反事实解释技术都围绕着确定改变预测的类标签的方法;例如，传递性全局翻译（TGT）考虑了类的每种可能组合以及它们之间的映射（ Plumb etal.2020）。我们在这里选择将数据划分为类，但也根据所使用的分类器划分为某些和不确定的组。通过使用这些划分，我们学习从不确定点到某些点的映射，无论是在特定的类内还是在一般情况下。而TGT将从组i到j是对称的（Gi→j=G−1）和传递的（Gi→k=多对一映射。我们还放弃了传递性约束：定义从不确定点到特定的确定点的直接映射就足够了。图6：在群A到X中从不确定性到确定性的示例映射，不一定满足对称性或传递性。星号表示属于任何组的成员。我们的方法对图中的所有方案（以及更多方案）都是通用的。6. 我们的实验认为这些群体是类标签，测试对最左边的计划，考虑从不确定的点映射到特定的点在一个给定的类。未来的工作可能会考虑类内的模式，以及更一般的极右计划的学习映射从任意不确定的输入到他们的某些类似物。原始的CLUE方法类似于最右边的方案，它对它映射到和映射到的特定类是不可知的（尽管要处理不同的映射）。实验我们在3个数据集上进行实验以验证我们的方法：UCI信用分类（ Dua 和 Graff 2017 ）， MNIST 图像分类（ LeCun1998 ）和 Syntax 图像分类（ Lacoste 等人2020）。在Credit和MNIST中，我们训练VAE作为我们的DGMs（Kingma and Welling2013）和BNN用于分类（MacKay1992）。对于Syntax，我们训练分层VAE（Zhao，Song和Ermon2017）和resnet深度集成，因为数据集复杂性更高（旋转，大小和形状模糊）。我们证明了我们的约束允许从业者更好地控制CE的不确定性-距离权衡（δ-CLUE）和CE的多样性（-CLUE）。然后，我们表明，我们可以有效地生成解释，适用于全球的输入组与我们的摊销计划（GLAM-CLUE）。δ-线索我们从δ-CLUE实验中了解到，δ值控制了生成的CLUE的不确定性与其距原点的距离之间的权衡（图1）。Gj→kJ I◦ Gi→j），我们认为没有直接需要对称性约束。图2）。重要的是，通过调整λx 在距离项d中，紧张。存在无限大的不确定点域，与某些点的有界域不同，这意味着-等式1，我们实现了较低的距离，只有很小的不确定性增加（图7，右）。我们进一步观察，+v：mala2255获取更多论文H∇∇∇∇×图7：左：MNIST中的多样性分析。类标签（实线）和模式（虚线）的分布熵标签从0到9不等，而每个标签中存在多个模式。当我们收敛到δ球内的所有最小值时，右：δ-CLUE的性能输入空间距离d）。批量大小：8个最不确定的MNIST数字。学习率：0.1。迭代次数：30。图7，左，多样性随着δ增加，尽管在这样的水平饱和之前可能需要大量的CLUE（左）。模式被定义为特定类中的点组完整分析见附录B。结论：δ-CLUE产生了一组高性能的不同解释。然而，我们需要多次迭代来实现这种多样性（EST-CLUE解决了这个问题）。- 线索我们执行烧蚀研究，增加多样性权重λD并优化z空间中的DPP多样性度量，测量这对彼此度量的影响。对于固定数量的k=10个CLUE和参数，我们使用算法1对于MNIST，δ=r=4;对于UCI Credit，δ=r=1任务-最佳δ值可通过实验确定（图7，右），尽管附录B讨论了替代方法，例如检查数据中的最近邻。图8：λD对多样性的影响。第1行：MNIST。第二行：UCI信贷。列1至3：应用于k=10-CLUE的集合的DPP、APD和覆盖多样性度量。λD=0是δ-CLUE。批量：8个最不确定的输入。学习率：0.1。迭代次数：30。要点：当优化一个多样性度量时，增加λD单调地提高了几乎所有其他度量的多样性平均的不确定性只受到很小的影响，相对于我们在多样性中实现的增益，- CLUE需要更少的反事实来实现与δ-CLUE相同的多样性水平。魅力线索在推理步骤（CE的生成）处的梯度下降在计算上是昂贵的。不确定性估计，距离度量和多样性度量（特别是DPP，它对k k矩阵进行操作）都需要在许多迭代中进行评估，以产生一个单一的反事实的本地不确定性输入。虽然局部解释在某些设置中具有实用性，但GLAM-CLUE在单个摊销函数调用中计算所有不确定测试点的CE，从而允许可观的加速。我们证明了这些反事实节拍的表现意味着所有讨论的基线的表现，也实现了较低的方差。我们训练3个映射器：GLAM 1从MNIST训练数据中的所有确定和不确定的4s学习; GLAM 2/3从训练数据中的所有不确定的4s及其对应的某些CLUE（λ x=0和λx=0）学习。03分别。图9显示了使用GLAM 2和3，证明了CLUE比训练数据更可靠地捕获不确定性的属性，以额外的计算时间为代价来生成所使用的CLUE。我们观察到，虽然基线方案实现了较低的不确定性，但它们是以远离输入为代价的（图4），这意味着不可操作性。GLAM-CLUE的一个优点是，不确定性-距离权衡可以通过等式2中的λθ进行调整：较大的λθ限制了潜在空间中的平移，从而降低了输入空间中的距离，但增加了不确定性。对于给定的λx，GLAM-CLUE此外，98%的不确定性4到确定性4 GLAM-CLUE映射导致分类为4（对于CLUE，87%，其简单地最小化不确定性并且不是类别特定的）。摘要：反事实的摊销是有效的。一个简单的全球翻译类特定的点，以产生反事实的质量相当的线索。值得注意的是，当在CLUE而不是训练数据上训练时，GLAM-CLUE的性能得到了改善，当我们使用λ x = 0生成CLUE时，GLAM-CLUE的性能最佳。03、用于评价。计算加速在推理步骤中，GLAM-CLUE在平均CPU时间方面的执行速度明显快于CLUE，详见表2。对于MNIST测试集中的不确定4s，CLUE平均需要220秒才能收敛; GLAM-CLUE需要大约1秒才能计算。在这些瓶颈输入DBM潜在DBM输入神经网络0.03060.02620.0236潜在NN魅力线索线索0.02450.02384.68表2：平均值1 MNIST CE的时间（以秒为单位）（推断步骤）。我们为UCI Credit实现了类似的加速（快186倍+v：mala2255获取更多论文HH∇∇图9：在MNIST中将不确定的4s映射到确定的4s时，GLAM-CLUE方案与基线。左：不确定性分布（原始不确定性超过1.5）。中心：输入距离的分布，d。右：总成本的分布，+λxd，其中λx=0。如Antor a'net al. （2021年）。所有类别的结果相似（附录E）。 CLUE1/CLUE2由λx=0和λx=0生成。03分别批量大小：6000（训练集中的所有4个学习率：0.1。迭代次数：30。多次随机种子运行产生的差异可以忽略不计过程是BNN的不确定性评估，因此这些时间不一定代表所有模型。GLAM-CLUE的一个缺点是，优化平均需要17.6秒来训练。如果在培训期间包括CLUE（即GLAM 2和3），则需要额外的时间来获得这些。从基本的映射器到更高级的模型，我们期望性能的提高是以增加训练步骤时间为代价的。摘要：GLAM-CLUE比CLUE快200倍左右。这种加速，以及基线，意味着我们可以选择从GLAM-CLUE和基线中取出最佳表现的反事实，而不需要大量的计算。相关和未来的工作本文的大部分内容致力于提高Antor a ′ n等人提出的作为线索的不确定性解释的实用性。（二零二一年），我们亦考虑了CLUE的多重性及效率问题。很少有工程地址解释概率模型的不确定性。Booth等人（2020年）采取用户指定的不确定性水平，辅助判别模型中的样本，并使用深度生成模型（DGM）生成对应的采样。Joshi等人（2018）提出了使用DGM来寻找CE的xGEM（就像我们所做的那样），但不是为了不确定性。Mothilal，Sharma和Tan（2020）和Russell（2019）使用线性规划来找到一组不同的CE，尽管也不是为了不确定性。这篇论文既没有考虑计算的进步，也没有像我们一样冒险考虑全局CE。Plumb等人（2020）定义将点从一个低维组变换到另一个低维组的映射器Mahajan，Tan和Sharma（2020）和Yang等人。（2021）重新设计DGMs以快速生成CE，类似于GLAM-CLUE。本着这种工作的精神，我们建议摊销CLUE，以找到一个转换，使模型将A组中的转换后的不确定点视为B组中的某些点。这种方法可以扩展到CLUE以外的其他类别的CE。未来的探索包括更高维的数据集，如CIFAR10（Krizhevsky2012）和CelebA（Liuet al. 2015年），这将充分测试线索和扩展亲-在本文中提出，可能需要使用FID分数（Heusel et al.2018），以取代两个评估中的简单距离度量（Singla etal. 2020 年，优化。 DGM 替代方案，如 GAN（Goodfellow et al. 2014年，可以在此进行探索。此外，由于Anto ra'net al. （2021）证明了在人类受试者中使用DGM进行反事实的成功，我们的理由是，我们可以希望通过我们的CLUE扩展来保留这种功效，尽管理想情况下，额外的人体实验将进一步验证我们的方法在各种随机种子处的多次运行也将揭示B-CLUE算法的灵敏度结论来自机器学习系统的解释越来越受到从业者和行业的关注（Bhattet al.2020）。由于这些系统部署在高风险环境中，因此对校准良好的不确定性估计的需求很高（Spiegelhalter2017）。对于从可微概率模型中解释不确定性估计的方法，Antor a'net al. （2021）建议为模型不确定的给定数据点生成一个实际潜在不确定性解释（CLUE）。在本文中，我们研究了如何使CLUE在实践中更有用在提出DIVerse CLUE（-CLUE）之前，我们设计了δ-CLUE，一种在潜在空间中原始输入的δ球内生成一组潜在 CLUE 的方法， DIVerse CLUE （ -CLUE）是一种找到一组CLUE的方法，其中每个CLUE都提出了如何减少与输入相关的不确定性的不同解释（以解决δ-CLUE中的冗余）。然而，这些方法被证明是潜在的计算效率低下的大量数据。为此，我们提出了全局摊销的CLUE（GLAM-CLUE），它学习一个摊销的映射，适用于特定组的不确定输入。GLAM-CLUE有效地将单个函数调用中的不确定输入转换为模型将确定的输入。实验结果表明，δ-CLUE、-CLUE和GLAM-CLUE弥补了CLUE的不足。我们希望我们提出的方法证明对那些试图向利益相关者提供不确定性估计解释的从业者有益+v：mala2255获取更多论文致谢UB感谢DeepMind和Lever-hulme Trust通过Leverhulme未来智能中心（CFI）以及Mozilla基金会提供的支持。AW感谢来自图灵人工智能奖学金EP/V025379/1、艾伦图灵研究所EP- SRC EP/N510129/1和TU/B/000074以及Lev-erhulmeTrust通过CFI的支持。作者感谢Ja vierAntora'n的有益评论和指点。引用Adebayo，J.; Muelly，M.; Liccardi，I.;和Kim，B. 2020.模型验证的测试。神经信息处理系统。Antor a'n ， J.; Bhatt ， U.; Adel ， T.;Welle r ， A.; 和Herna'ndez-Lobato，J.M. 2021年获取线索：一种解释不确定性估计的方法在国际学习代表上。Bhatt，U.;简岛;扎法尔，M。B.人;和Weller，A. 2021.DI-VINE：数据可视化和模型细化的多种影响训练点.arXiv：2107.05978。Bhatt，U.; Xiang，A.;夏尔马，S.; Weller，A.; Taly，A.;贾，Y.; Ghosh，J.;Puri，R.;J. M.; 和Eckersley，P.2020年。部署中的机器学习。2020年公平、问责和透明度会议记录，648Booth，S.;周，Y.; Shah，A.; Shah，J. 2020.贝叶斯-TrEx：模型透明度的例子。第35届AAAI人工智能Boyd，S.; Boyd，S. P的;和Vandenberghe，L. 2004. 凸优化。剑桥大学出版社.Dep e w e g，S.; Hern a'nesthes-Lobato ，J. M.; Doshi-Velez，F.; 和Udluft，S.2017.具有潜在变量的贝叶斯神经网络的不确定性分解。arXiv：1706.08495。Dosovitskiy，A.;和Djolonga，J. 2020。你只训练一次：深度网络的损失条件训练。国际学习表征.Dua，D.;Graff，C.2017年。UCI机器学习库。古德费洛岛J.道：Pouget-Abadie，J.; Mirza，M.;徐，B.;Warde-Farley，D.; Ozair，S.; Courville，A.;和Bengio，Y. 2014.生成性对抗网络。神经信息处理系统。古德费洛岛J.道：Shlens，J.;和Szegedy，C.2015年。解释和利用敌对的例子。在国际学习代表上。Grover，D.;和Toghi，B. 2019. MNIST数据集分类，利用改进的滑动窗口度量的k-NN分类器。科学与信息会议，583-591。斯普林格。Heusel，M.; Ramsauer，H.; Unterthiner，T.; Nessler，B.;和Hochreiter，S. 2018.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。神经信息处理系统的。Joshi ， S.; Koyejo ， O.;Kim ， B.;Ghosh ， J.2018 年xGEM ：生成示例来解释黑盒模型。 arXiv 预印本arXiv：1806.08867。Kingma，D.P的; 和Welling，M.2013年。自动编码变分贝叶斯。在国际学习代表会议上。Krizhevsky，A. 2012.从微小图像中学习多层特征。University of Toronto.Kulesza ， A. 2012. 机器学习的行列式点过程。Foundations and Trends® in Machine Learning，5（2-3）：123Lacoste ， A.;Rodr 'ıguez ， P.;Branchaud-Charron ，F.;Atighe- hchian，P.;Caccia，M.;H. 拉腊吉岛;Drouin，A.;Craddock，M.; Charlin ，L.; 和V a′ zquez，D. 2020年。Syntax：ProbingLearning Algorithms with SyntheticDatasets.神经信息处理系统。莱昆湾，巴西-地1998年MNIST手写体数据库http：//yann. lecun。com/exdb/mnist/.Ley，D.; Bhatt，U.;和Weller，A. 2021. δ-CLUE：用于不确定性估计的各种解释集。ICLR机器学习系统。刘志;罗，P.;王，X.;和Tang，X.2015年。在野外深度在国际计算机视觉会议（ICCV）。MacKay，D. J. 1992.一个用于反向传播网络的实用贝叶斯框架。神经计算，4（3）：448472.Mahajan，D.;谭，C.; 和Sharma，A. 2020. 在机器学习分类器的反事实解释中保持因果约束。在NeurIPS研讨会上，Causal ML：机器学习和因果推理改进决策。莫蒂拉尔河K.的; Sharma，A.;和Tan，C. 2020.通过不同的反事实解释来解释机器学习分类器。2020年公平、问责和透明度。Pawelczyk，M.; Bielawski，S.; van den Heuvel，J.;里克特，T.;和Kasneci，G. 2021. CARLA：一个Python库，用于基准测试原始追索权和反事实解释算法。神经信息处理系统进展（基准数据集跟踪）。Pawelczyk，M.; Broelemann，K.;和Kasneci，G. 2020年a。学习表格数据的模型不可知的反事实解

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

不确定性估计及其应用：模型解释与注意力引导

深度学习模型不确定性估计

模型不确定性和数据不确定性的常用估计方法有哪些

怎么使用不确定性估计的结果指导损失函数的设计，以提高模型的预测准确性

不确定模型的分类及其关系

以下关于注意力机制说法正确的是： A 注意力机制可以提高模型的可解释性 B 层次注意力网络仅使用了自注意力机制 C Transformer的解码器中没有使用注意力机制 D Bert没有使用注意力机制

贝叶斯不确定性估计量

基于注意力机制的模型有那些应用

深度学习不确定性量化代码

贝叶斯神经网络真能得出不确定性估计么

请问对机器视觉可视化不确定性的研究有哪些建议？

请写出deepar时间序列概率预测的matlab代码，同时估计预测的不确定性

风光不确定性模型matlab

模型中怎么添加注意力机制效果最好

什么是注意力机制?注意力机制在模型中是如何实现的

建立风电功率预测不确定性模型

自注意力机制的应用及与多头自注意力机制的区别

深度学习不确定性预测

从提升精度、准确性、模型收敛速度、控制参数和计算开销方面，说ConResNet的解码阶段使用上下文残差映射和反向的注意力引导实现了什么功能

如何评价注意力机制模型的好坏

滑板开关端子折弯机_三维3D设计图纸.zip

最新资源