没有合适的资源?快使用搜索试试~ 我知道了~
分类解释是朱红色的因为翅膀的颜色和和原色不和1学习用补充的例子Atsushi Kanehira1和Tatsuya Harada2,31Preferred Networks、2东京大学、3理研摘要本文讨论了生成的解释与视觉的例子。给定一个输入样本,我们建立了一个系统,不仅将其分类到一个特定的类别,而且还输出语言解释和一组可视化的例子,使决策可解释。特别侧重于多模式信息的互补性,即,语言和视觉的例子,我们试图通过最大化的互动信息,这提供了一个自然的互补性的定义,从信息理论的观点来实现它。我们提出了一个新的框架来生成补充解释,在这个框架上,要解释的变量和要解释的变量的联合分布由三个不同的神经网络参数化:预测器,语言解释器和示例选择器。解释模型被协同训练以最大化交互信息,以确保生成的解释对于目标是彼此互补的。在多个数据集上的实验结果表明了该方法的有效性。1. 介绍当我们向别人解释某件事时,我们经常提供支持的例子。这主要是因为例子能够使抽象的解释得到具体的理解。关于机器,经常需要证明他们的决定,例子也有助于解释吗?本文讨论了用可视化实例生成可视化解释。更具体地说,给定一个输入样本,我们建立了一个系统,不仅将其分类到一个特定的类别,而且还输出语言解释和一组示例,使决策可解释。图1中示出了示例输出。1.一、针对这个问题提出的第一个问题是:“例子如何帮助解释?或者,“为什么解释时需要举例?“这项工作是在东京大学完成的语言解释图1:我们的系统不仅将给定的样本分类到特定的类别(在红色虚线框中),而且还输出语言解释和一组示例(在蓝色虚线框中)。为了回答这些问题,我们考虑与这项工作有关的两种解释的特点:语言解释和基于实例的解释。• 通过使用语言,人们可以通过将事件转换为人类之间的共享概念来有效地传递信息。从本质上讲,转换过程是在-因此,整个事件不一定只能用语言来表达。• 使用例子,人们可以比语言更具体地传递信息,正如俗话所说,胜过千言万语“然而,对于给定的例子的解释的方式不是唯一确定的。因此,仅用例子来解释是不合适的。这些具有不同特征的解释可以预期是相互补充的,也就是说,从一个词汇中,一个事物以这样一种方式为另一事物提供额外的特征,以改善或强调其质量[1]。接下来的重要问题如下:“如何实现互补性?““哪一种解释是补充的,哪一种不是补充的?”.我们从信息中回答前一个问题8603…8604理论观点,即交互信息最大化[20]。交互信息是定义在多于三个随机变量上的互信息的一般化之一,并且提供互补性的自然定义:当第三个变量是有条件的时,两个变量的依赖性增加。在这项工作中,我们提出了一个新的框架,建立一个系统,产生补充解释。首先,我们引入了一个语言解释器和一个由不同神经网络参数化的示例选择器,以及作为解释目标的预测器。这两个辅助模型分别负责生成语言解释和实例解释,并同时进行训练,以最大化解释变量与预测器输出之间由于直接优化的相互作用信息的选择器是棘手的,由于组合的例子的数量,我们最大化的变分下界代替。另一个额外的分类器,称为reasoner,出现在计算下限。将语言学和基于实例的解释作为输入,推理器试图预测预测器的输出。为了使选择器的优化与反向传播,我们利用了一个重新参数化的技巧,取代了采样过程的例子与微分函数。在我们的框架下,互补性是由信息论定义的,我们可以更好地理解与后一个问题有关的可以提到的是,语言解释的补充例子是一组有区别的例子,通过这些例子,人们可以用给定的语言解释推理出正确的结论,但不能用不同的可能解释来实现。对例证的补充性语言解释也被认为是能够构成这样一组例证的解释。更多细节将在随后的章节中讨论。我们在多个数据集上进行了实验,并证明了所提出的方法的有效性。本工作的贡献如下:• 提出一个新的视觉解释任务,使用语言和一组例子,• 提出了一个新的框架,以实现多模态解释的互补性。• 通过定量和定性实验验证了该方法的有效性。本文的其余部分组织如下。第二节讨论了视觉解释任务的相关研究。此外,我们在第3节中解释了所提出的框架以实现补充解释,并在第4节中描述和讨论了我们对其进行的实验。最后,我们在第5节结束了我们的论文。2. 相关工作机器的视觉认知能力显著提高,主要是因为深度学习技术的最新发展由于其高度复杂性,决策过程本质上是一个黑箱;因此,许多研究人员试图让机器解释决定的原因,以验证其可信度。主流是可视化的,其中分类器通过为输入空间中的每个元素分配重要性来对其预测进行加权,通过将预测传播到输入空间[24,3,29,23,30,8,31],或者通过使用辅助模型学习元素的实例重要性[4,5,15]。作为一个不同的流,一些作品训练了生成模型,该模型以事后的方式用自然语言输出解释[12,21]。虽然大多数研究都集中在单一的模态,我们的工作利用多模态信息的解释。原型选择[25,7,13,16,25,10]或机器示教[18]可视为基于示例的解释。这些方法的基本思想是提取具有代表性和判别性的(部分)例子。换句话说,他们试图获得代表p(x|c),这是样本x在类别c条件下的分布。我们的工作是不同的,因为我们试图解释黑箱后验分布p(c|x)例如由深度CNN表示的。此外,我们利用语言信息也是如此,因为对基于示例的解释的解释不是唯一确定的。很少有作品将多模态用于解释[21,2],这是视觉和语言的。虽然他们提供了视觉信息,参考了一部分的目标样本,我们探索的方法,利用其他的例子来解释。3. 方法本研究的目标是建立一个模型,生成语言和基于实例的解释,这是相辅相成的。在本节中,我们描述了拟议的框架。首先,在3.1小节中,我们用本文中使用的符号来定义我们的新任务。随后,在3.2小节中说明了要优化的目标函数。从3.3小节到3.6小节,我们解释实际优化过程的细节。在3.7小节中定性地讨论了所提出的方法。最后,它与其他解释方法的关系在3.8小节中提到。3.1. 问题公式化我们用x和y表示样本和类别,它们是解释的目标,其中y是一个独热向量。s是表示离散属性的向量,其8605XySCNNDX={x 1,x 2,...,xN}参考数据选择器推理器解释者损失预测器i=1y解释器p(s|x,y)是在给定目标样本x和类别y的情 况 下 选 择 语 言 解 释 s 的 概 率 。We 极 限||S||0=1,并且与非零元素相对应的维度和值被用作解释冻结模型可训练的模型选择器p(D|x,y,s)是在给定x,y和s作为输入的情况下,从所有候选示例中选择基于示例的解释D的概率。3.2. 目标函数图2:我们的解释系统的管道。 它持有两个辅助模型,分别负责生成语言解释和实例解释。此外,它还包含一个推理器,可以根据3.3小节中描述的给定解释预测预测器的输出。每个索引对应于属性的类型(例如,dim1→颜色,dim2→形状..),并且向量的值对应于属性的值(例如,1→红色,2 →蓝色..). 属性值也被视为im上的独热向量实施我们假设属性被分配给用于训练解释模型的所有样本。在这项研究中,我们使用一个属性作为语言解释的一个元素。 更具体地说,语言解释仅包含一个非零值(即, ||S||0=1),则输出相应的类型值(例如,“because是红色的”)。为了明确区分代表语言解释的变量和代表样本属性的变量,我们用s表示前者,用s表示后者。用于explana的候选e示例的集合我们在本小节中说明了为训练解释模型而所报语言学解释S和基于实例的解释D被认为是相辅相成的。直觉上,一种类型的解释应该包含目标y的信息,这与另一种解释所包含的信息不同。因此,我们利用交互信息[20]作为目标函数。交互信息是定义在三个以上随机变量上的互信息的一般化,它度量当第三个变量是有条件的,这为互补性提供了一个自然的定义。根据定义,以输入x为条件的y、s、D的交互信息被写为两个交互信息的差:I(y,s,D|x)= I(y,s|x,D)− I(y,s|x)(2)问题由X={(xi,xi,yi)}N表示,及其子集哪里D X,|D|k被用作。示例的示例I(y,s|x,D)根据解释。 我们假设N,而这个数字Σp(y,s|x,D)D的组合是足够大的。我们的系统生成器-选择多个元素(s 1,D1),(s 2,D2),. . .,(sM,DM),并通过简单地将它们应用于=xy,s,Dp(y,s,D,x)logp(s |x,D)p(y |x,D)dx,模板如图。1.一、我们建立了一个模型,不仅将输入x分类到特定的类y,而且还提供了语言学和基于示例的解释s和D。我们=Ep(x)(s,D)|x,y)p(y|x)log p(s|x,y,D)x(3)p(s|x,D)y, s,D(一)分解一个联合分布p(y,s,D|(三)三个 问题-产品型号:预测器,解释器,选择器,所有这些被不同的神经网络参数化:并且类似地,I(y,s |x)Σ Σp(y,s,D| x)= p(y |x)p(s)|x,y)p(D| x,y,s)(一)=Ep(x)p(s|x,y)p(y,s |x)log log(四)预测器 解释者选择器y,syp(s)|x,y)p(y|x)预测因子p(y|x)是解释的目标模型,它将样本x分类为y。特别地,我们研究了为分类任务预训练的模型。在整个在本文中,预测器的权重被冻结,而剩余的两个辅助模型,即解释器和选择器,被训练来解释预测器的输出。(B)直观地说,它衡量了当给定一组基于实例的解释D时,有多少语言解释s成为识别类别y的有用信息。池化K∫8606直接估计(3)是困难的,因为计算所有可能D上的期望是棘手的。我们处理8607Xsy|uXM、S、FCD)第一,第二,...,斯堪的纳维亚x1 x2 xkN、、...、y1,y2,...y kCNNFCFCFCGijy1 y2 ... yk图3:代表三个概率模型的三个神经网络的结构如3.4小节所述,选择器的网络预测分类分布的参数,与其他两个模型不同,以便于优化。通过(a)引入变分下界和(b)利用类似于[4]的重新参数化技巧来解决这个问题,这分别在3.3和3.4小节中描述3.3. 最大变分界在这一小节中,我们考虑(3)中(A)的变分下界 。 从 KL 散 度 的 定 义 出 发 , 对 任 意 分 布 p和 q ,plogp≥plogq都适用。利用这个关系式,(A)在(3)可以是如下的下界:氏盐在这种情况下,网络参数的优化仍然存在困难.由于涉及期望的分布进行优化,采样过程禁止计算参数的梯度,从而不可能应用反向传播。为了克服这一问题,我们采用了重新参数化的方法,将非差分采样过程替换为对分布参数的确定性估计,然后加入随机噪声。特别是,Gumbel-softmax[19,14]函数的使用类似于(A) ≥ Σy,s,Dp(s,D|x,y)p(y|x)日志q(s|x,y,D)(五)p(s|x,D)[4],它将表示为从分类分布中采样的独热向量的随机变量近似为使用连续值的向量。具体来说,我们估计q(s|x,y,D)可以是任何分布,只要它不是-证明了猫分布p∈RN的参数满足的期望,以及KL之间的分歧。Ni=1 pi=1,其中N=| X|是坎迪-q(s|x,y,D)和真实分布p(s|x,y,D)是(A)和下界之间的差。与[9]中的方法类似,我们使用以下方法:q(s|x,y,D)= q(s,y|x,D)= q(y|x,s,D)p(s|X,D),日期的例子。一个N维向量C,一个连续的近似的分类一热向量,在取对数并添加从Gumbel分布采样的噪声G之后,通过将softmax应用于估计的参数来采样,如下所示:q(y|x,D)s′q(y|x,s′,D)p(s′|x,D)C[i]=0{(logpi+Gi)/τ}(七)并将其替换为(5)。当考虑参数化时-如(1)中那样,计算上难以计算p(s|X,D)。考虑到采样顺序,我们近似哪里Nj=1 exp{(logpj+Gj)/τ}它到p(s|x,y),而不是为了简单。的第一项用于优化的目标函数如下:Gi=−log(−logui),ui<$Uniform(0,1),(8)(5)n∈ P(y,s,D|x)ΣlogEΣq(y |x,s,D)p(s|x,y)[q(y|x,s,D)] .(六)FCFCCN8608解释程序选择推理程序Gij= Gumbel(0,1)ScFXXNCFNM我aDxCXIN(S|X多夫Mw1,w2,. 焕光不不一ffCc、y)yycFSs参数共享i={1,2,… k}j={1,2,...,N}Cg( x,s)、、、、函数(带参数)函数(无参数)概率预训练的CNNdim:Nτ 是 softmax 的温度,控制离散向量近似的硬度为了对表示基于示例的解释D的k个热向量进行采样,具体q(y|x,s,D)在下文中被称为推理器,其在给定一对对此的解释3.4. 子集抽样的连续松弛上述(6)需要用采样随机优化,以避免计算大量可能组合的向量C被独立地采样k次,并且元素-明智的最大值取为C1,C2,. . .,Ck来构造对应于D的向量。3.5. 网络结构我们用不同的神经网络对解释器、选择器和推理器三种概率分布进行参数化.我们阐明了它们的详细结构。FCsoftmaxGumbelsoftmaxFCQ(所α(s,εsi)FCNCNNpC8609解释程序p(s|x,y)由神经网络表示,该神经网络预测每种类型(维度)的属性被选择的概率。该模型由三个完全连接的层,如图的左边。二、以目标样本x和类别标签y作为输入,模型哪里w(x,s,xi, si)=exp(g(x,s)<$g(xi,<$si))Σexp(g(x,s)<$g(xi,<$si))(xi,xi,yi)∈D(十一)将它们投影到公共空间和元素求和mation应用。在一次以上的投影之后,它们由softmax函数归一化。网络f(x,y)的输出维度与属性向量的输出维度相同,每个维度表示每种类型的属性被选择作为解释的概率。训练时,分配给样本的属性值用作值。形式上,对于语言解释向量的所有第i维,.α表示验证直线重合的功能直觉解释和属性分配到每个样本。在我们的设置中,我们设置为α(s,s)=其中,如果满足brac_k_et内 的 条 件 , 则 [[·]]是1的指示函数,否则为0。注α(s,εs)∈{0,1}作为||S||0=1。w衡量每一个重-用于预测的样本的概率被分配给每个类的样本被确定为利用D中的样本,其与(9)中的语言解释相匹配。引入了一个额外的p(s |x,y)=f(x,y)[i]如果s[i]=s[i]0否则为了方便起见,这表明无法从输入解释。剩余的权重被分配给“未知”类的概率在(11)中,g(x,s)是由神经网络对于推断,将最大化选择要解释的类的推理器(稍后描述)。D|x,y,s)将语言解释s以及x和y作为输入;在将它们投影到公共空间之后计算它们的元素求和。作为如前一小节所述,由于组合D的数量巨大,我们利用重新参数化技巧来使优化易于处理。 网络估计分类分布的参数p当从分布中采样,噪声变量是inde-将悬垂生成的k次添加到参数,并且在应用Gumbelsoftmax之后计算逐元素最大值。推理者q(y|x,s,D)推断样本x所属的类别,给出一对生成的解释(s,D)。我们通过修改匹配网络[26]来设计它,这是一个标准的基于示例的分类模型。推理者的预测必须建立在所给出的解释的基础上。这种推理过程是通过考虑(1)与语言解释的一致性和(2)与目标样本x的相似性,对于D中的每个示例。推理机根据一定的理由,决定每个例子是否值得考虑,并预测只利用选定的例子的类别。每个被引用的样本xi的权重由与目标x的视觉和语义相似性确定。更正式地说Σ网络如图中最右边的。3,相似度由softmax函数归一化后的空间中的点积计算。当推理机试图根据给定的解释做出决策时,其他两个模型被协同训练以生成解释,使得推理机可以得出适当的结论。3.6. 训练和推理我们如(1)中那样参数化联合分布,并且关于表示p(s)的神经网络模型的参数来优化由(4)和(6)计算的目标(2)的下限|x,y),p(D|x,y,s),以及q(y|x,s,D)。 假设计算的费用-在S上的选择是可行的,而在D上的选择是不可行的,我们通过采样优化了选择器的模型,的解释器直接优化。每次迭代的处理流程如下:1. x是从训练数据集中随机采样的2. y从预测器p(y)中随机采样|X),3. p(s|x,y)被计算用于可能的s,4. D是从选择器p(D)随机采样的|x,y,s)对于每个s,5. 对于每个采样(x,y,s,D),目标由(6)和(4)计算,并且其梯度相对于计算所有参数模型的权重6. 所有权值都通过随机梯度下降(SGD)进行更新。推理是通过顺序抽样进行的给定输入x的分布中的变量。 当Gen-q(y |x,s,D)=(xi,xi,yi)∈DΣα(s,si)w(x,s,xi,si)yi (九)生成语言解释,选择预测器输出值最大的M个q(y<$|x,s,D)=1−(xi,xi,yi)∈Dα(s,si)w(x,s,xi,si)(10)其中M是属性-示例对的数量使用以作解释 为了估计属性值,8610百万元aRit yIm伊勒阿雷Di SsImIlaR与x相同的类的例子图4:对补充解释的直观理解。推理器通过基于对应于每个语言解释s1、s2的相似性空间(橙色和蓝色)参考其他样本来预测目标样本x(写为灰色圆圈)。 考虑到两对正-合理的解释(s1,D1)和(s2,D2),预期的D1(写为绿色圆圈)是推理者可以用s1得出正确的结论;然而,这不能用s2实现。这最能解释预测,最好的将被选择。换句话说,s1,s2,. 具有相同的属性类型,最大化q(y)的值|x,s,D)在相应的回应D1D2... 从选择器中采样。3.7. 哪种解释是补充性的?通过分析所提出的方法,它提供了一个直观的理解补充解释,从最大限度地提高互动信息的观点。为了理解哪一个集合D是优选的,我们考虑(6)D的关系。在这个等式的期望值中,分子是推理器的输出,而分母是tor是对s′的平均。给定x,y和s,当推理机对给定的语言表达式s用D可以得出正确的结论y,但当D与其他s′一起使用时不能得出正确的结论y时,比率变大。换句话说,基于实例的解释是复杂的-当它是一组不仅对目标而且对语言解释都有区别的例子时,在我们的框架中,“一个集合是可判别的”的概念这一点可以通过图2直观地理解。4.第一章一个推理机包含一个不同的相似性空间为每个语言解释。在这里,我们考虑两种可能的解释s1,s2,和d1,它是s1的对应物。在这个地方-对于语言学解释s,所期望的D是:对于给定的s,正确的类被预测,但是对于不同的s′,错误的类被预测。因此,该集合应包含来自预测的相同/不同类数据集acc(预测器)推理机一致性AADB0.6470.6460.738幼崽0.6940.4340.598表1:预测器(目标)和推理器(解释)识别目标类别的准确性,以及它们之间的一个.如图所示,一个简单的例子选择方法,例如只选择一个离目标最近的样本,不适合选择补充解释。考虑s,它与(2)中的两个项有关。对于(6),可以应用与上面提到的相同的权利要求:对例子D的补充语言解释s是可以导出特定集合D的语言解释,而不是另一个,参见D′。至于(4),它可以被认为是正则化器,以避免对可以识别目标类,而不考虑选择s的示例。3.8. 与其他方法的关系现有的视觉解释解释工作(例如,[12])训练分类器以及解释生成器,以保证生成的解释对于目标类是有区别的。在这项工作中,我们还训练了辅助分类器(即,推理机)类似于现有方法;然而,它自然地出现在交互信息(互信息)最大化的背景中。相反,我们发现这些作品中的这种直觉思想从信息论的观点来看是合理的。类似地,我们的方法与用于生成引用表达式的方法(例如,[28]因为它们使用辅助模型。4. 实验我们进行了实验,以验证所提出的方法可以产生适当的解释。给定一个目标样本x,我们的系统生成一个预测y从预测器,和解释(s 1,D1),(s 2,D2),. 、(sM,DM)的解释模型。我们评估了提出的方法,通过量化的属性,一般-成熟的解释应满足:(a)忠实性和(b)完整性。与(a)有关,我们考虑两种类型的保真度如下。(a1)应当从说明中获得要说明的目标值y此外,(a2)外部语言的解释应该是正确的。此外,对于(b),我们想评估输出解释(s,D)是否相互补充在下面的小节中,我们描述了评价方法,并在阐明第4.1小节中的实验设置后讨论了所得结果。4.1. 实验环境数据集在我们的实验中,我们利用Caltech-UCSDBirds-200-2011数据集(CUB)[27]和美学,测试目标样本x不同类的示例Xs1:原色是红色s2:翅膀颜色是黑色的D1中的示例8611数据集基线(随机)基线(预测)我们AADB0.2000.5720.582幼崽0.1250.4280.436我们不含x无不含S精度0.6460.6270.5690.613一致性0.7380.6890.6000.620表2:识别模型属性值和基线属性值的准确性:随机选取属性值(random),用预测器预测属性(predict)。属性数据库(AADB)[17],两者都为所有包含的图像分配了属性。CUB是一个用于细粒度图像识别的标准数据集,它包含11,788幅图像和200种鸟类。它包含27种属性,如“翅膀图案”或“喉咙颜色”。AADB是为自动图像美学评级而创建的数据集。它总共包含10,000个图像,并且为每个图像指定[-1.0,1.0]中的美学分数。我们将具有非负分数的图像视为正类的样本,并且将剩余样本视为负类来对待二进制分类。属性也被指定为[-1.0,1.0]中的连续值,我们根据它所属的范围将它们离散化:[-1.0,-0.4),[-0.4,-0.2),[-0.2,0.2)、[0.2,0.4)或[0.4,1.0]。它包含十一种属性,包括不像标准的分割,我们使用60%的测试集用于CUB,30%的训练集用于AADB作为候选实例X。虽然CUB数据集是用于细粒度任务的,其中外观的类内方差被认为是小的,但由于任务的主观性质,AADB的类内方差很大。我们选择这两个数据集来评估类内样本变化的影响为了准备一个预测器,我们微调了一个深度残差网络[11],每个数据集有18层,它是在ImageNet数据集上预先训练的[6]。用SGD进行优化 学习率、权重衰减、动量和批量大小分别设置为0.01、10−4、0.9和64。 在训练学习模型时,所有网络都使用SGD进行了优化,没有动量,学习率为10−3,权重衰减为10−3,AADB的批量大小为64,CUB为20。 我们设置k,用于解释的例子的数量,在所有实验中为10。根据经验,我们发现语言解释器p(s|x,y)倾向于仅对一种类型的属性分配高概率(几乎1),而对其他类型的属性分配小概率(几乎0)。为了避免它,我们添加了一个额外的入口项H(s|x,y)= s-p(s|x,y)log p(s|x,y)到max-最小化的目标函数,因为我们的目标是生成多个输出。该实现是在Pytorch框架上执行的[22]。我们不含x无不含S精度0.4340.3540.020.153一致性0.5980.4920.020.201表3:AADB数据集(上图)和CUB数据集(下图)上识别目标类别准确性的消融研究。4.2. 保真度解释模式的一个重要因素是对被解释对象的忠实性。我们进行了一个实验,以研究是否可以从它的解释获得的目标。有趣的是,我们的框架包含两种类型的决策路径一个是目标前-指示器p(y|(x)解释。另一种是通过人类可解释的解释,即, y → s,D → y′通过解释者p(s|x,y),选择器p(D|x,y,s)和推理机q(y′|x,s,D)。我们通过可解释的决策之间的一致性来从后一个过程和从目标预测器的选择。在桌子上。1,我们报告的一致性,以及每个模型的平均精度。如图所示,解释模型(写为推理器)实现了与目标模型(写为预测器)相似的性能,并且在两个数据集上具有相当高的一致性。我们还进行了消融研究,以澄清三个变量x,y,s对解释质量的影响我们以与上述相同的方式测量准确度,只是在生成解释时,我们通过替换填充为0表3中的结果表明,我们的模型在三个类别标签中对类别标签的重要性最高。这些结果是合理的,因为它包含的信息,解释应该是有区别的。在我们的任务中,另一个重要的方面是语言解释的正确性。具体地,属性值(例如,属性类型“颜色”的“红色”或“蓝色”)也在推断期间被估计。通过在测试集上比较预测属性与真值属性,对模型的有效性进行了评价。最好地解释预测器y的输出的属性值将如第3.6小节中所写的那样被选择。作为基线,我们使用了三层感知器,隐藏层为512维(预测)。使用SGD对每种类型的属性进行单独训练此外,我们还报告了随机选择属性(随机)时的性能。我们测量了准确度,结果如表2所示。结果表明,该方法通过选取实例来产生语言解释,其预测精度与直接估计相当,且远优于随机选取。86120.60.50.40.30.20.10.0AADB基线我们2 4 6 8101.00.80.60.40.20.0幼崽基线我们2 46 8 101214161820222426AADBCUB图6:从AADB(左)和CUB(右)数据集的示例中识别属性类型的混淆矩阵。解释数量(M)解释数量(M)图5:从AADB(左)和CUB(右)数据集的示例中识别语言解释的平均准确度。y轴和x轴表示精度和生成的解释数量。4.3. 互补性为了量化解释的互补性,我们研究了基于实例的解释D如何使语言解释S可识别。具体地,利用推理器q(y|x,s,D),通过训练它从解释中推理出目标,验证了它是否能正确地推理出目标.儿子的正确结论,只有从所产生的解释对讨论在3.7小节。 对于生成的解释对(s 1,D1),(s 2,D2),. ,(sM,DM),其属性类型相同,我们计算 推理器的 输 出 为 qij=q ( y|si , Dj ) ( 1≤i ,j≤M),对于y从预测器中获得。选择具有当i∈=argmaxiqij时,我们证明了i∈= j。 将平均精度与输出所有si的相同示例的基线进行比较,结果如图所示。五、该图的x轴指示所生成的解释的数量M)。在这两个数据集上,我们模型的准确性都优于基线。此外,如图6,我们观察到对角元素在混淆矩阵上具有高值。这些结果证明了我们的方法产生补充解释的在AADB上,所提出的方法与基线之间的性能差异小于在CUB上。我们推测原因之一是外表和天赋之间的差异AADB数据集包含高度语义属性(例如,“颜色和谐”)与CUB中的那些(例如,“颜色”或“形状”)。这样的语义鸿沟可能会阻碍构建区分集,使属性可识别。4.4. 输出示例当解释数量为2时,我们的系统在CUB数据集上的输出如图所示。7.第一次会议。在本例中,语言解释和基于示例的解释的结合似乎是兼容的,但在此情况下,这是没有意义的图7:我们的系统在CUB数据集上的示例输出。如果这两对被调换的话。例如,下面的语言学解释虽然不是这项工作的主要范围,但所提出的任务可以扩展到机器教学任务,其中机器通过迭代地展示示例来向人类教学5. 结论在这项工作中,我们完成了一个新的任务,即生成视觉解释与语言和视觉的例子是相辅相成的。我们提出用参数化变量的联合概率来解释,并由三个神经网络来解释。为了明确地处理互补性,同时训练负责解释的辅助模型,通过在两个视觉识别数据集上进行的实验,我们实证性地证明了该方法的有效性。6. 确认这项工作得到了日本 JST CREST基金号JPMJCR1403的部分支持作者要感谢Hiroharu Kato和Toshi- hikoMatsuura的有益讨论。)*,0&'$' 1%0,0&2$$0。,'1,#-我知道,#&!%)('$($#as)*/(-,不是作为!“#$ %!&'$($#)*&+“)!、作为不是作为精度精度8613引用[1] 牛 津 生 活 字 典 。 北 京 : 清 华 大 学 出 版 社 . com-plementhttps://en.oxforddictionaries.com/定义/补充。1[2] L. 安妮·亨德里克斯河Hu,T.Darrell和Z.赤田地面视觉解释。在ECCV,2018。2[3] S. Bach 、 黑 腹 滨 藜 A. Binder , G. Montavon , F.Klauschen,K.- R. Müller和W. 萨梅克关于通过逐层相关传播对非PloS one,10(7):e0130140,2015。2[4] 陈杰湖,澳-地宋,M。J. Wainwright和M. I.约旦.学习解释:模型解释的信息理论视角在ICML,2018。二、四[5] P. Dabkowski和Y.加黑盒分类器的实时图像显著性在NIPS,2017年。2[6] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞 。 Imagenet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。CVPR,2009。7[7] C. Doersch,S.辛格A.Gupta,J.Sivic和A.埃夫罗斯是什么 让 巴 黎 看 起 来 像 巴 黎 ? ACM Transactions onGraphics,31(4),2012。2[8] R. C. Fong和A.维达尔迪通过有意义的扰动对黑匣子的可解释。InICCV,2017. 2[9] S. Gao,G. Ver Steeg和A. Galstyan特征选择的变分信息最大化。 在NIPS,2016年。4[10] Y. 戈亚尔 T. 霍特 D. 萨默斯-留下来 D. 巴特拉 和D.帕里克让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在CVPR,2017年。2[11] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。7[12] L. A. 亨德里克斯 Z. 赤田 M. 罗尔巴赫 J. 多纳休B. Schiele和T.达雷尔。 生成视觉解释。在ECCV,2016年。二、六[13] A. 贾恩A.古普塔,M。Rodriguez和L.S. 戴维斯使用中级判别补丁表示视频CVPR,2013。2[14] E. 张,S.Gu和B.浦耳使用gumbel-softmax进行分类arXiv预印本arXiv:1611.01144,2016。4[15] A. Kanehira,K.塔克莫托,S。Inayoshi和T.原田。通过预测视频中的反事实性进行多模态解释。在CVPR,2019年。2[16] A. 金希拉湖 Van Gool,Y. Ushiku和T. 原田。视点感知视频摘要。在CVPR,2018年。2[17] S.孔,X.沈,Z.林河,巴西-地Mech和C.福克斯具有属性和内容自适应的照片美学排名网络。在ECCV,2016年。7[18] O. Mac Aodha,S.Su,Y.Chen,P.Perona和Y.岳用视觉解释向人类学习者教授类别在CVPR,2018年。2[19] C. J.麦迪逊,A. Mnih和Y. W.茶具体说明:离散随机变量 的 连 续 松 弛 。 arXiv 预 印 本 arXiv : 1611.00712 ,2016。4[20] W.麦吉尔多元信息传递。信息理论专业组的论文集,4(4):93-111,1954。二、三[21] D. H. 朴 L. A. 亨德里克斯 Z. 赤田 A. 罗尔巴赫B. Schiele,T. Darrell和M.罗尔巴赫多模态解释:证明决策和指向证据。在CVPR,2018年。2[22] A. Paszke,S.格罗斯,S。钦塔拉湾Chanan、E.杨,Z.De Vito,Z. Lin,L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。2017. 7[23] R. R. 塞尔瓦拉朱 M. 科格斯韦尔 A. 达斯 R. 韦丹坦D. Parikh和D.巴特拉Grad-cam:通过基于梯度的定位从深度网络进行视觉解释InICCV,2017. 2[24] K. Simonyan、A. Vedaldi和A.齐瑟曼。卷积网络内部:可视化图像分类模型和显着图。arXiv预印本arXiv:1312.6034,2013。2[25] S. 辛格A.Gupta和A.A. 埃夫罗斯无监督发现中级判别补丁。在ECCV。2012. 2[26] O.维尼亚尔斯角Blundell,T. Lillicrap、D. Wierstra等人匹配网络进行一次性学习。 在NIPS,2016年。 5[27] C. Wah,S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告,2011年。6[28] L. Yu,H.谭,M。Bansal和T. L.伯格。一种用于指称表达的说话人-发话人-发话人联合模型在CVPR,2017年。6[29] J. Zhang,Z.张军,等. Lin,J. Brandt,X. Shen和S.Scaroff自上而下的神经注意通过激励反向传播。在ECCV,2016年。2[30] B. Zhou,中国古柏A.科斯拉A.拉佩德里萨A. Oliva和A.托拉尔巴。用于区分定位的深度特征学习在CVPR,2016年。2[31] B. Zhou,Y.Sun,D.Bau和A.托拉尔巴用于可视化解释的可解释在ECCV,2018。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功