基于不确定性的深度学习模型解释与改进

189 浏览量更新于2023-10-12 收藏 1.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1U-CAM：使用基于不确定性的类激活图的巴德里·NPatro Mayank Lunayach Shivansh Patel Vinay P.坎普尔南布迪里印度理工学院{badri，mayankl，shivp，vinaypn}@ iitk.ac.in摘要理解和解释深度学习模型是一项紧迫的任务。为此，我们提出了一种方法，获得基于梯度的确定性估计，也提供了视觉注意力地图。特别是，我们解决了视觉问题回答任务。我们结合了现代概率深度学习方法，通过使用这些估计的梯度来进一步改进。这有两方面的好处：a）在获得与错误分类的样本更好地相关的确定性估计方面的改进，以及b）改进的注意力图，其提供了与人类注意力区域相关的最新改进后的注意力地图对各种视觉问答方法都有一致的改进。因此，所提出的技术可以被认为是获得改进的确定性估计和深度学习模型解释的方法。我们提供了详细的实证分析的视觉问答任务的所有标准的基准和比较与国家的最先进的方法。1. 介绍为了解释和解释深度学习模型，已经提出了许多方法。其中一种方法使用概率技术来获得不确定性估计，[15，16]。其他方法旨在通过Grad-CAM [9]等方法或通过使用硬/软注意力关注特定区域来获得视觉解释。利用Gal和Ghahramani [15]最近的概率深度学习技术，以计算高效的方式获得不确定性估计变得可行。这进一步扩展到数据不确定性和基于模型不确定性的估计[23]。通过这项工作，我们专注于使用梯度不确定性损失来改善注意力地图，同时利用我们方法的贝叶斯性质来增强可解释性我们使用的不确定性是任意的和预测的[24]。对于估计的不确定性，我们使用类似于基于梯度的类激活图的方法计算梯度[9]。这提供了图1.该图显示了基线（MCB [13]）和我们的模型（A-GCA和P-GCA）的激活图。在第一个例子中，基线模型预测了错误的答案，并且预测的不确定性很高。（σu表示不确定度，见第3节）。我们的模型给出了正确的答案，同时也最大限度地减少了不确定性（从而改进了视觉解释）。专注于注意力地图的某些区域。通过这样做，我们报告了注意力地图的改进。这在图1中示出。我们的方法结合了解释[9]和不确定性[23]估计技术，以获得改进的结果。我们提供了广泛的评估。我们发现，不确定性估计得到的结果显示出与误分类的强相关性，即，当分类器错误时，模型通常是不确定的。此外，注意力图提供了与人类注释的注意力图的相关性的现有技术。我们还表明，在各种VQA数据集上，我们的模型提供了与最先进技术相当的结果，同时显着提高了我们采用我们的方法的基线方法的性能。我们的方法可以被看作是一种通用的方法来获得贝叶斯不确定性估计，视觉解释，并因此，提高准确性的视觉问答（VQA）任务。因此，我们的贡献在于：a）使用不确定性估计和解释来统一理解深度学习方法的方法; b）获得与人类注意力区域最相关的视觉注意力图; c）显示改进的注意力图区域74447445我一一结果是结果的持续改善。这特别适合于我们对理解视觉基础感兴趣的基于视觉和语言的任务，即，例如，如果问题的答案是“狗”（对应的问题：“谁在船上？'），重要的是要理解模型是否确定以及它是否聚焦于包含狗的正确区域。所提出的方法满足了这一重要要求。多模态环境中的数据不确定性，VQA任务中的不确定性是双重的。在下面的例子中，问题，“它是哪种动物？”（1）可能无法具体回答。此外，在给定的设置中，单独看到图像，动物（特别是后面的动物）很容易被错误地归类为狗或其他动物。当我们考虑融合输入（图像+问题）的不确定性时，这些类型的数据不确定性被挖掘，在图2中，我们显示了当我们分别尝试最小化仅图像和仅问题融合不确定性时，基线（未最小化不确定性）的结果注意力图图2.第一列是原始图像。第2、3、4和5列分别代表基线注意力、仅图像不确定性最小化时的注意力、仅问题不确定性最小化时的注意力、图像和问题不确定性均最小化时的注意力（建议模型）。2. 相关工作视觉问答任务[34，2，39，17，35]在视觉和语言交流中得到了很好的研究，但为答案预测提供解释的探索相对较少[40]。近年来，许多研究工作都集中在解释模型上，其中之一就是为图像提供基本解释的图像字幕[5，11，27，44，47，21，50，10，7，19，51]。 [37]他是一个提出了一种基于范例的解释方法来生成基于图像的问题。类似地，[38]提出了一种基于语义的方法来获得文本中释义生成的解释。在VQA中，[54][49]提出了一些有趣的方法来提高问题中的注意力。共同探索图像和问题的工作是基于分层共同注意的[32]。[41，52，31，36]提出了基于注意力的方法，用于VQA中的解释，该方法使用问题来关注”[8]示。其他方法[28，30]探索数据集分布之间的相关性。这些深度学习模型的计算效率可以通过[42]来提高。近年来，许多研究者都在致力于估计深层模型中的不确定性。[6]首先提出了一种学习神经网络权重不确定性的Kendall等人 [22]提出了一种方法来测量图像分割任务的模型不确定性。他们观察到softmax概率函数近似于类别标签之间的相对概率，但没有提供有关模型不确定性的信息[15，12]的工作在dropout的帮助下估计了深度网络（CNN，RNN）的模型不确定性[45]。[46]估计了批量归一化深度网络的不确定性。[23，24，43]主要将预测不确定性分解为两种主要类型，即任意和认知不确定性，其捕获关于预测模型的不确定性和数据本身中存在的不确定性[33]提出了一种借助模型和数据不确定性来衡量预测不确定性的方法。最近，[29]提出了一种确定性方法，使两个数据分布接近域自适应任务。在这里，我们的目标是分析和最小化注意面具的不确定性，以预测VQA的在我们的方法中，我们提出了一种基于梯度的确定性解释模板，它最大限度地减少了注意区域的不确定性，以提高VQA中正确答案我们的方法还提供了基于不确定性类激活图的可视化解释，捕获并可视化VQA中注意力图中存在的不确定性3. 建模不确定性我们考虑了深度网络中存在的两种类型的不确定性，一种是由于数据中存在的不确定性（ Aleatoric ），另一种是由于模型（ Epistemicuncertainty）。3.1. 随机不确定性建模给定输入xi，模型（G）预测logit输出yi，然后将其输入到不确定性网络（U），以获得方差σ2，如图3所示。为了捕获随机不确定性[23]，我们学习每个输入点xi的观测噪声参数σ i。然后，通过对输出logit方差应用softplus函数来估计任意不确定性（σ2）i这是由给出的，（σ2）i=Softplus（σ2）=log（1 +exp（σ2））（一）图像中的特定区域 [13，26，25]我建议令人兴奋的作品，倡导多模式池化，并获得接近VQA最新技术水平的成果。 [36]建议一种基于范例的解释方法，以提高注意在VQA。我们可以系统地比较基于图像的注意力，同时与人类注意力地图相关联，为了计算随机不确定性损失，我们在softmax层之前用方差（σ2）i的高斯噪声（具有对应于每个logits值的一个元素的对角矩阵）扰动logit值（yi Logits再分析技巧[2 4]和[1 4]将y∈i，c和σi合并为give7446我我一i，ti，tpN（y∈i，c，σ2）。然后，我们获得了关于地面真相的损失它表示为：y∈i，c，t=yi，c+yt∈σ2，其中（0，I）（2）La= Σ1Σ日志不Itexp（y=i，c，t−logΣexpy=i，cC其中L是任意不确定性损失（AUL），T是′Monte Carlo模拟。 c是一个类索引logit向量yi，t的值，它是为所有类定义3.2. 预测不确定性建模为了获得模型的不确定性，我们测量epistemic不确定性。然而，估计认知不确定性[33]在计算上是昂贵的，因此我们测量了预测不确定性，其中存在任意和认知不确定性为了估计它，我们在贝叶斯网络G中采样权重，然后在模型上执行Monte Carlo模拟，以获得预测的类概率p（yi，t）。也就是说，保持VQA模型的其他方面不变。在一个典型的开放式VQA任务中，我们有一个多类分类任务。将组合的（图像和问题）输入嵌入馈送到模型。然后，输出logit被馈送到softmax函数，给出多项选择答案空间中也就是说，A=argmaxP（A|I，Q，θ），其中θ是所有可能的A∈C答案，I是图像，Q是相应的问题，θ表示网络的参数。O（y∈i，t）=Gt（xi）va1ΣTp（y）i，c|xi，xi）=（T=Softplus（Ut（yi，t））时间复杂度为O（y∈i，t）c4.1. U CAM方法我们的方法的三个主要部分是注意力代表-t=1其中c是答案类，G t<$G，U t<$U，v a是第t次MC模拟中每个logit的随机方差。采样的logit概率的熵表示、不确定性估计和计算Gra-不确定性损失。在下面的部分中，我们将详细解释它们。4.1.1注意力表征我们得到一个嵌入，gi∈Ru×v×C，其中u是宽度，H（yi）=−ΣCc=1p（yi，c）和p（yi，c）（4）v是图像的高度，C表示图像的数量。在卷积神经网络（CNN）中对图像XiCNN由函数参数化预测不确定性包含熵和任意方差，当它1ΣTG i（Xi，θ i），其中θ i表示权重。类似地，对于查询问题XQ，我们使用LSTM网络获得问题特征嵌入gq。该网络由函数Gq（Xq，θq）参数化，其中θq表示重量。 gi和gq都被输入到一个注意力网络σ2=H（yi）+不 t=1ai，t（五）它使用加权softmax函数将图像和问题嵌入组合在一起，并产生加权输出其中H（yi）是概率p（yi）的entro p y，它取决于类概率的分布，而方差（上述等式中的第二项）捕获logit输出yi，t的分布和幅度。在等式2中，我们可以用预测不确定性σ2代替σ2如图4所示，注意力矢量r，gf。各种类型的注意力网络已经在文献中提出。在本文中，我们尝试了SAN[52]和MCB [13]。最后，利用注意提取网络Gf得到注意特征fi：fi=Gf（gi，gq）.参加的功能f i一个p（上面在等式5中提到的），以得到预测的非-确定性损失（PUL）。4. 方法任务：我们解决VQA [2]任务。与现有的VQA模型相比，我们架构的关键区别在于引入了基于梯度的确定性地图。该模型的详细图如图4所示。我们通过分类器，并使用交叉熵损失很多时候，模型并不确定输入的答案所属的类别，这有时会导致准确性下降为了解决这个问题，我们提出了一种通过增加注意力掩码的确定性来减少类不确定性的技术此外，我们还根据下面描述的不确定性纳入损失图3.不确定性损失v7447LSTMLSTM什么模式照片查询问题交叉分录损失注意网络∂∂不确定性损失CNN输入图像2[，̂̂] = [（（））的情况下，（（）]交叉熵损失梯度输出Logit值高斯样本、−∂∂′=−+=∂ ∂∂∂分类器扭曲Logit地面实况实际Logit预测不确定性中国（0，1）2、、、、、、=+⊙^2̂方差不确定性损失一ffffi什么交通方式是在照片的中心？图4.基于模型的不确定性注意力掩码（GCA）及其确定性掩码的说明。我们分别使用CNN和LSTM获得图像特征和问题特征。然后，我们使用这些特征获得注意掩码，并根据注意特征对答案进行分类。4.1.2估计不确定性：从&前一步骤获得的注意力特征f i被馈送到分类器G c。类的输出-fier被馈送到G y，其产生类概率y i。Gc的输出还被馈送到方差预测器网络Gv，其输出如等式1中所述的logits方差σi.为了计算任意不确定性损失，我们在softmax层之前用方差（σ2）i的高斯噪声扰动logit值（yi分类的高斯似然由下式给出：p （ yi|fi ， w ） =N （ yi;Gy （ Gc （ fi;w ））， τ−1（fi;w）），其中w为模型参与融合输入，和Gy（Gc（. ）是图4所示的输出logit生产网络。上述设置表示模型输出随观测噪声方差τ−1的扰动。我们确保τ（. ）是一个正的或正定的矩阵（在多变量的情况下）通过使用logit重新参数化技巧[24，14]。最后，我们获得了一个任意损失，La相对于地面真值，如公式3所述。我们的亲-将这种损失作为其不确定性损失的一个组成部分的一种假设模型称为随机一般CA（A-GCA）。与任意损失La一起，我们分别如等式10和11中所述组合L VE和LUDL以得到总不确定性损失Lu。通过联合最小化分类损失Ly和不确定性来训练分类器损失，L。在等式2中，我们可以将σ2替换为获得描述对答案预测负责的重要区域的可视化，如定性分析部分所述（第5.6节）。4.1.3注意力的梯度解释注意力地图中存在的不确定性通常导致预测中的不确定性，并且可以归因于数据中的在这些情况下，我们通过将确定性梯度添加到现有的标准交叉熵（SCE）损失梯度来提高确定性，以便在反向传播期间训练模型。我们的目标是提高模型在分类器更确定的区域中的注意力。分类器将通过更多地关注某些注意力区域来执行更好，因为这些区域更适合于分类任务。我们可以得到分类器输出的解释，在现有的Grad-CAM方法中完成。但这我解释不采取模型和数据的不确定性到账户里我们使用确定性梯度（−Lu）改进了这一解释如果我们能把不确定性降到最低我VQA的解释，然后在图像中的不确定性，问题特征，并且因此注意区域中的不确定性将随后减少。如图1所示，不确定区域是预测误差的主要来源。在我们提出的方法中，我们计算标准分类（交叉熵）损失Ly2年预测不确定性σ p（上面在等式5中提到的）到注意力特征，即fi 以及预测不确定性损失（ Predictive Uncertainty Loss ，PUL）因此，委员会认为，使用这种损失作为其不确定性损失的组成部分之一的模型被称为预测GCA（P-GCA）。接下来，我们计算标准分类不确定性损失Lu，即把你绑起来。获得的不确定度gra-通过梯度反转层，给我们确定的梯度，即，-u.我损失和不确定性损失相对于关注的图像特征，除了训练，我们还使用这些梯度来∇′ =−λLuLyyf if i（六）分类器7448W′′fi我一′梯度的正符号表示注意力确定性在这些区域被激活，反之亦然。它可以表示为：′′ ′ ′γy=ReLU（γy）+γReLU（− γy）（7）算法1基于梯度的注意力（GCA）1：程序GCA（I，Q）2：输入：图像XI，问题XQ3：输出：答案yc4：while循环5：注意力特征Gf（Gi（XI），Gq（XQ））←fi6：答案LogitGy（Gc（fi））←7：数据不确定性G（G（f））←σ2我们将ReLU激活函数应用于gra的乘积注意力地图和确定性的梯度8：如果A-GCA，则：9：σ2=σ2vc iA10：否则，如果P-GCA，则：因为我们只对具有11：σ2=σ2+H（y=1）），（参考：等式-5）对兴趣答题课的积极影响，即关注W A12：如果结束i，t这些区域的强度应该增加，以便-13：Anscr ossentropy Ly←loss（y，y）Σσ2I14：方差分解器LVE：=ReLU（expw-exp），增加答案类概率yc，而负值乘以γ（大负数）作为负数15：当t=1时：#MC−样本16：样本σwσN（0，σ2）十七：tWw+y注意区域可能属于其他类别，扭曲的Lo gits：yi，t=ti18：高斯交叉熵L p= −ylogp（y d|F（. ））形象正如预期的那样，如果没有这个ReLU，本地化地图有时突出显示的不仅仅是所需的类，19：失真损失：LUDL= exp（Ly−Lp）220：随机不确定性损失Lu=Lp+LVE+LUDL21：结束while∂Ly ∂L定位性能较低。我们正常-′′22：计算G r adientsw. r.tfi，y=fi′，u=ufi使大脑的注意力区域高度活跃，23：最小的单位数u=−λuy′′ ′ ′并给予某些地区更多的权重，24：非线性激活ΔReLU=ReLU（Δ ReLU）+γReLU（−Δ ReLU）′′′ ′′如：′′′伊 =Σu′′（y）u，vΣv（γ）uv（八）第25章：你是我的女人=softmax（u）′′′26：最终注意力梯度=10y+10u27：更新θf←θf−ηy第28章：结束二十九：结束程序具有较高不确定性的图像相当于具有较低的确定性，因此这些图像的某些区域应该具有较低的关注值。我们使用残余梯度连接来获得最终梯度，其为签署人： .的梯度掩模（关于注意力功能）′′′LUDL=α（exp[Lp−Ly]−1），如果[Lp−Ly]<0.（十一）以及梯度确定性掩模并且由下式给出：Ly=fi（九）[Lp− Ly]，否则。通过设置这个约束，我们确保预测的不确定性损失不会偏离实际的交叉熵损失太多。总的不确定性损失是其中，当相对于注意力特征采取梯度时，Ly是Ly在算法1中给出了更多细节。4.2. 成本函数我们估计任意的不确定性在logits空间的per-turbing每个logit使用从数据中获得的方差。如等式3所示，可以使用高斯失真logits上的交叉熵损失来最小化logits值中存在的不确定性。使用具有正对角的高斯多变量函数获得失真logit随机（或预测不确定性损失），不确定性失真损失和方差均衡器损失。Lu=Lp+LVE+LUDL（12）网络的最终成本函数将通过注意力网络的不确定性（任意或预测）损失Lu获得的损失与交叉熵相结合。用于获得参数θf的成本函数注意力网络的θc、分类网络的θ c、预测网络的θy和不确定性网络的θu如下：1Σn最终方差为了稳定训练过程[14]，我们添加C（θf，θc，θy，θu）=Lj（θf，θc，θy）+ηLj（θf，θc，θu）不确定性损失的附加项，称为方差估计器（VE）损失，LVE。LVE= exp（σ2）−exp（σ02）（10）其中σ0是常数。不确定性失真损失（UDL）是典型的交叉熵损失和等式中估计的任意/预测损失之间的差异。7449新友j=1其中n是示例的数量，并且η是使用验证集微调的超参数，Ly是标准交叉熵损失，并且Lu是不确定性损失。我们用这个代价函数训练模型，直到它收敛，这样参数。（θf，θc，θy，θu）deli va鞍点函数第三种情况。标量差被传递到激活函数，（θ，θ）= arg max（C（θ，θ））以增强在任一方向上的差异，并给出FCyuθ，θFCyu（十三）FC尤尤74501−p5. 实验我们评估了所提出的GCA方法，并提供了定量分析和定性分析。前者包括：i）对提出的模型进行消融分析（第5.2节），ii）分析不确定性对答案预测的影响（图5（a，b）），iii）一些代表性问题答案的前2名softmax得分的差异（图5（c，d））和iv）使用秩相关将我们提出的不确定性模型的注意力图与其他变体进行比较（RC）和地球移动器距离（EMD）[3]，如表3所示，用于VQA-HAT [8]，表2中用于VQA-X [18]。最后，我们将PGCA与第5.4节中提到的最新方法进行了比较。定性分析包括当我们从基本模型移动到P-GCA模型时，一些代表性图像的确定性激活图的可视化（第5.6节）5.1. 数据集VQA-v1 [2]：我们在VQA基准VQA-v1 [2]数据集上进行实验，该数据集包含基于MS-COCO数据集上的图像的人类注释问题和答案。该数据集总共包括2，04，721张图像，其中82，783张图像用于训练，40，504张图像用于验证，81，434张图像用于测试。每个图像与三个问题相关联，每个问题有十个可能的答案。有248349个用于训练的应答对，121512个用于验证的应答对，244302个用于测试的应答对。VQA-v2 [17]：我们提供了VQA-v2 [17]数据集的基准测试结果。该数据集通过添加共轭图像对来消除VQA-v1中存在的偏差。它在训练集上包含443，757个图像-问题对，在验证集上包含214，354个图像-问题对，在测试集上包含447，793个图像-问题对，模型所有是/否Number别人基线63.882.237.354.2VE64.182.337.254.3UDL64.482.637.254.5AUL64.782.937.454.6PUL64.983.037.554.6UDL+VE64.882.837.454.5AUL+VE65.083.337.854.7PUL+ VE65.383.337.954.9AUL +UDL65.683.337.655.0PUL + UDL65.983.737.855.2A-GCA（我们的）66.384.238.055.5P-GCA（我们的）66.584.738.455.9表1.测试开发中开放式VQA 1.0准确度的消融分析模型RC（↑）EMD（↓）基线0.30170.3825Deconv ReLU0.31980.3801引导式GradCAM0.32750.3781随机面具0.35710.3763预测掩模0.37180.3714表2. VQA-X [18]数据中解释掩码与我们使用Grad-Cam的解释掩码的秩相关性。损失和不确定性失真损失（UDL）。在表-1的第一部分中，我们报告了单独使用这些损失时的结果。(OnlySCE损失在基线中）。我们使用MCB [13]模型的变体作为我们的基线方法。如图所示，PUL在单独使用时优于其他4种。这可归因于PUL引导模型最小化数据和模型不确定性。表1的第二块描述了当我们尝试组合两种不同的单独损失时的结果。该模型的变体，这是指导使用的PUL和UDL损失的组合表现最好是第一版的两倍多。所有的问题和-SWER对由人类注释者注释VQA-v2数据集的基准结果见表5。VQA-HAT [8]：为了将我们的注意力地图与人类注释的注意力地图进行比较，我们使用VQA-HAT [8]数据集。该数据集是为回答视觉问题而开发的图像去模糊。它包含248349个训练示例中的58475个人类注释的注意力图，并且包括验证数据集中的问题图像对的121512个验证示例中的三组1374个人类注释的注意力图。该数据集仅针对VQA-v15.2. 消融不确定性分析我们提出的GCA模型的损失包括未失真和失真的损失。未失真损失是标准交叉熵（SCE）损失。失真损失包括不确定性损失（任意不确定性损失（AUL）或预测不确定性损失（PUL）），方差估计器（VE）在五种变体中。最后，在组合（AUL+UDL+VE+SCE）之后，表示为A-GCA模型，并且组合（ PUL+UDL+VE+SCE ）之后，表示为 P-GCA模型，我们报告分别提高了约2.5%和2.7%的准确度分数。此外，我们绘制了一些随机选择的样本的预测不确定性（图5（a，b））与分类误差（误差=log1，其中p是错误分类的概率）。可以看出，当样本正确时，它们也是确定的，并且具有较小的分类误差（CE）。为了直观地显示不确定性降低的直接影响，我们绘制了图（图 5 （ c ， d ））。可以看出，像（ glasses ，sunglasses）和（black，gray）等类似的类是多么的相似，从而导致不确定性，在所提出的模型中在logit空间中分离得更多。5.3. 注意力地图我们比较了我们提出的GCA模型产生的注意力地图，它7451(a) 分类错误（b）分类错误（c）光盘-其他（d）光盘-是/否图5. (a)我们网络的不确定性与分类误差图，包含20，000张随机采样的图像。我们使用Monte-Carlo抽样从分布中抽取每个图像的25个样本。(b)分别显示样本频率与不确定性以及样本频率与分类错误的图（c）除是/否之外（d）一些是/否类型问题的前2个Softmax分数之间的距离（对应于（c）和（d）的问题可以在补充材料中找到）。模型所有Y/NNumOthDPPnet [35]57.280.737.241.7[第49话]58.080.937.343.1SAN [52]58.779.336.646.1[第四十八话]60.380.536.848.3[31]第三十一话60.782.337.047.7[32]第三十二话61.879.738.951.7MCB [13]64.282.237.754.8美国职业棒球大联盟[26]65.084.037.954.7DVQA[36]65.483.838.155.2P-GCA + SAN（我们的）60.480.736.647.9A-GCA + MCB（我们的）66.384.238.055.5P-GCA + MCB（我们的）66.584.638.455.9表3. HAT[8]注意力和生成的注意力掩码表3中的端口。对产生的注意力图计算等级相关和EMD得分表4.SOTA：测试开发中的开放式VQA 1.0精度表-5分别。此外，我们将我们的梯度确定性解释与VQA-v2数据集中存在的人类解释进行了比较，用于表2中提到的各种模型。此人工解释掩码仅适用于VQA-v2数据集。我们观察到，我们的注意力（P-GCA）面具也比其他面具表现得更好评价注意力地图（HAT）[8]。在表中，当我们接近最佳建议的GCA模型时，等级相关性（RC）正在增加。EMD也在减少（降低赌注），因为我们走向GCA。为了验证我们的直觉，即我们可以通过最小化注意力掩模中存在的不确定性来学习更好的注意力掩模，我们从VE开始，并观察到等级相关性和答案准确性分别从基线增加了0.42%和0.3%。我们还观察到，使用基于UDL、AUL和PUL的损耗最小化技术，RC和EMD均得到改善，如表3所示。A-GCA在RC方面提高了5.21%，在准确性方面提高了2.5%。最后，如表3和表1所示，所提出的预测性GCA（P-GCA）（其建模考虑了数据和模型不确定性）将RC提高了5.51%，准确度提高了2.7%。由于HAT标测图仅适用于VQA-v1数据集，因此，仅对VQA-v1进行了消融分析。我们还提供了VQA-v1和VQA-v2数据集的SOTA结果，如表4所示VQA数据集和HAT数据集的方法见花絮5.4. 与基线和最新技术我们获得了与人类注意力（HAT）数据集[8]的等级相关性的基线的初始比较，该数据集在求解VQA时提供了人类注意力。人类之间的等级相关为62.3%。各种最新方法和基线的比较见表3。我们使用MCB [13]模型的变体作为我们的基线方法。在与注意力的等级相关方面，A-GCA模型和P-GCA模型分别提高了5.2%和5.51%。由此，我们证明我们的注意力地图更类似于人类的注意力地图。我们还比较了VQA-v1[2]数据集上的答案准确性基线，如表4所示。我们获得了比可比MCB基线约2.7%的改善。我们基于MCB的模型A-GCA和P-GCA提高了0.9%和1.1% ac-模型RC（↑）EMD（↓）CD（↑）SAN [8]0.24320.4013–[32]第三十二话0.246––[32]第三十二话0.256––[32]第三十二话0.264––DVQA（K=1）[36]0.328––基线（MCB）0.27900.3931–VE（我们的）0.28320.39310.1013UDL（我们的）0.28500.39140.1229AUL（我们的）0.29370.38670.1502PUL（我们的）0.30120.38050.1585PUL + VE（我们的）0.31390.38510.1631PUL + UDL（我们的）0.32430.38240.16307452模型所有Y/NNumOthSAN-2[52]56.974.135.544.5MCB [13]64.078.838.353.3下[1]]65.381.844.256.0DVQA[36]65.982.443.256.8美国职业棒球大联盟[26]66.383.644.956.3DA-NTN [4]67.584.347.157.9柜台[53]68.083.151.658.9BAN[25]69.585.350.960.2P-GCA + SAN（我们的）59.275.736.646.8P-GCA + MCB（我们的）65.779.640.154.7P-GCA +计数器（我们的）69.285.450.159.4表5.SOTA：测试开发中的开放式VQA 2.0精度与VQA-v1上的现有技术模型DVQA [36]相比，精确度。然而，使用基于显着性的方法[20]，该方法在眼动跟踪数据上进行训练，以获得人们以独立于任务的方式观看的度量，导致与人类注意力的相关性更高（0.49），如[8]所述。然而，这是使用人类注意力明确训练的，并且不依赖于任务。在我们的方法中，我们的目标是获得一种方法，可以模拟人类的认知能力，解决任务。我们在表5中提供了VQA-v2的最新技术水平结果。该表表明，使用GCA方法，VQA结果得到改善。我们已经为这两种类型的不确定性方法提供了更多的注意力地图可视化结果。5.5. 培训和模型配置我们以端到端的方式使用分类损失和不确定性损失训练P-GCA模型。我们使用ADAM优化器更新分类模型参数，并使用val配置超参数值验证数据集如下：{学习率= 0.0001，批量大小= 200，beta = 0.95，alpha = 0.99，alpha = 1 e-8}来训练分类模型。我们使用SGD优化器使用验证数据集更新不确定性模型参数和配置的超参数值，如下所示：{学习率= 0.004，批量大小= 200，且k = 1 e- 8}来训练不确定性模型。5.6. 定性结果我们为5个示例图像提供了所有模型的注意力地图可视化，如图6所示。第一个原始的基线模型由于高不确定性值而对答案进行错误分类，这通过我们的方法（P-GCA）得到解决我们可以看到注意力是如何从我们的基线模型（MCB）到建议的梯度相似性模型（P-GCA）得到改善的。例如，在第一行中，MCB无法聚焦在图像的任何特定部分，但当我们向右移动时，它会聚焦在杯底（由地图中强烈的橙色表示）。其他图像也可以看到。我们已经可视化了Grad-CAM地图1https://delta-lab-iitk.github.io/U-CAM/图6.在每一列中使用自我监督方式的解释来提高注意力第一列表示给定的目标图像及其问题和答案。从第二列开始，其分别示出了基于基线（MCB）注意力网络、基于辅助（AUL）、基于预测（PUL）、基于A-GCA、基于P-GCA的方法的激活图为了支持我们的假设，Grad-CAM是一种非常好的可视化网络学习的方法，因为它可以专注于图像的正确部分，即使在基线模型（MCB）中，因此，可以用作导师来改善注意力地图。例如，在MCB中，它试图专注于正确的部分，但也关注其他点。然而，在我们提出的模型中，可视化得到了改善，因为模型只关注所需的部分。6. 结论在本文中，我们提供了一种方法，使用基于梯度的确定性注意区域，以获得改进的视觉问答。所提出的方法产生改进的不确定性估计，相应地更确定或不确定，显示出与误分类的一致相关性，并且与其他现有技术方法相比，定量地集中在更好的关注区域。所提出的架构可以很容易地合并到各种现有的VQA方法中，正如我们通过将该方法合并到SAN [52]和MCB[13]模型中所示。所提出的技术可以被用来作为一种通用的手段，为各种视觉和语言的任务，并在未来，我们的目标是evalu- ate这进一步为其他任务，如“视觉对话”和图像字幕任务的不确定性和解释区域7. 确认我们感谢Delta实验室的同事和我们的家人在这项研究活动中对我们的支持。7453引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，第6077-6086页8[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。2015年，国际计算机视觉会议（ICCV）。二三六七[3] 马丁·阿乔对ky，苏米特·钦塔拉和Le'onBottou。Wasserstein gan 统计，1050：26，2017。6[4] 白亚龙，付建龙，赵铁军，梅涛。用于视觉问答的深度在欧洲计算机视觉会议（ECCV）的会议记录中，第20-35页8[5] K Barnard，P Duygulu和D Forsyth。N.德弗雷塔斯湾Blei，and MI Jordan，2[6] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。国际机器学习会议，第1613-1622页，2015年。2[7] 陈新蕾和C劳伦斯Zitnick。心灵之眼：一种用于图像标题生成的重现视觉表示.在IEEE计算机视觉和模式识别会议论文集，第2422-2431页，2015年。2[8] Abhishek Das，Harsh Agrawal，C.劳伦斯·齐特尼克，德维·帕里克和德鲁夫·巴特拉。视觉问题处理中的人类注意力：人类和深度网络看的是同一个区域吗？自然语言处理经验方法会议（EMNLP），2016年。二、六、七、八[9] Abhishek Das，Satwik Kottur，Jose 'M.F.Moura，StefanLee，and Dhruv Batra.用深度强化学习学习协作视觉对话代理。 IEEEInternational Conference on ComputerVision（ICCV），2017年。1[10] Hao Fang ， Saurabh Gupta ， Forrest Iandola ， RupeshSrivas-t av a ， LiDeng ， PiotrDoll a'r ， JianfengGao ，XiaodongHe，Margaret Mitchell，John Platt，et al.从标题到视觉概念再到后面。IEEE计算机视觉与模式识别会议论文集，2015年。2[11] AliFarhadi 、 MohsenHejrati 、 MohammadAminSadeghi 、 Pe ter Young 、 Cyrus Rashtchian 、 JuliaHockenmaier和David Forsyth。每张照片都在讲述一个故事：从图像生成句子。欧洲计算机视觉会议，第15-29页。施普林格，2010年。2[12] Meire Mesquito，Charles Blundell，and Oriol Vinyals.贝叶斯递归神经网络arXiv预印本arXiv：1704.02798，2017。2[13] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847，2016。一二三六七八[14] 亚林·加尔深度学习中的不确定性博士论文，剑桥大学，2016年。二、四、五[15] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在国际机器学习会议（ICML），第1050-1059页，2016年。一、二[16] 亚林·加尔和祖宾·加赫拉马尼。在递归神经网络中的一个理论上神经信息处理系统的进展，第1019-1027页，2016年。1[17] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要：提升图像理解在视觉问答中的作用。在IEEE计算机视觉和模式识别会议论文集，第1-9页，2017年。二、六[18] Dong Huk Park，Lisa Anne H

下载后可阅读完整内容，剩余1页未读，立即下载