没有合适的资源?快使用搜索试试~ 我知道了~
多模态交互式可视化提问系统研究Kamran Alipour,1岁,Jurgen P.舒尔茨,1姚明,2齐斯金德,2布拉卡斯,21UC San Diego,La Jolla,CA2SRI International,Princeton,NJ摘要人工智能模型的可解释性和可解释性是影响人工智能安全性的重要因素。虽然各种可解释的AI(XAI)方法旨在缓解深度网络中缺乏跨亲性的问题,但我们评估多模态解释的设置中的视觉问题回答(VQA)任务,通过要求用户预测的响应准确性的VQA代理的解释和不解释。我们使用科目间和科目内的实验,以探讨解释的有效性,提高用户预测的准确性,信心和可靠性,以及其他因素。结果表明,这些解释有助于提高人类预测的准确性,特别是在VQA系统此外,我们介绍了主动注意,一种新的方法,通过编辑注意力地图的干预来评估用户解释评级与人类预测准确性密切相关,并表明这些解释在人机AI协作任务中的有效性。1介绍随着深度学习模型的最新发展和对所有领域不断增加的数据的访问,我们见证了在过去几年中在各种应用中使用神经网络的兴趣越来越大许多需要人工努力的复杂任务现在被分配给这些人工智能系统。为了有效地利用人工智能系统,用户需要对系统有基本的了解,即,他们需要建立一个系统运行的心理模型,以防止成功和失败模式,并对该系统建立一定程度的信任。然而,深度学习模型是出了名的不透明和难以解释,并且十有八九会有意想不到的失败模式,这使得它很难建立信任。用户不理解和信任的AI系统对于大多数应用程序来说是不切实际的,特别是在基于AI结果做出重要决策的情况下。以前解决这个问题并解释深度学习模型内部工作原理的努力包括可视化重要的中间特征(Zeiler和Fergus 2014; Zhou et al.二〇一四年电子邮件:kalipour@eng.ucsd.eduSelvaraju et al. 2017),并提供文本理由(Huk Park etal. 2018),但这些研究没有评估这些解释是否有助于人类用户更好地理解系统推理,或者是否有助于建立信任。之前的工作通过收集用户评分(Lu et al.2016 a; Mr. Rasekaran et al. 2017)或检查其与人类注意力的一致性(Das et al. 2017)来量化其解释的有效性,但没有发现该研究中使用的解释类型的实质性益处。为了促进对系统的理解和信任,我们提出了一种方法,该方法提供了关于模型操作的中间阶段的透明度,例如注意力掩模和场景中的检测/关注对象。此外,我们生成文本解释,旨在解释为什么生成特定的答案。我们的解释属于局部解释的范畴,因为它们旨在解决VQA系统特定运行的推断,并且对该运行有效。我们在VQA系统的设置中对这些解释进行了广泛的评估。这些评估由人类主体在执行正确性预测任务时进行。在看到一幅图像、一个问题和一些解释后,被试被要求预测可解释VQA(XVQA)系统是否准确。我们在每次预测运行期间和之后收集受试者预测性能和解释评级的数据。我们还介绍了主动注意-一种交互式的方法来解释答案从VQA系统。我们提供了一个交互式框架来部署这种新的部署模式。该界面用于进行用户研究解释的有效性和有用性,提高用户使用下述几个指标测量解释的有效性我们发现,解释提高了VQA正确性预测性能运行不正确的答案,从而指示,解释是非常有效的预测VQA失败。被评为更有帮助的解释更有可能帮助正确预测VQA结果。有趣的是,用户在预测中的信心与VQA系统的信心(最高答案概率)有很大的相关性。这一发现进一步支持了以下观点:版权所有© 2020本文由其作者。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用。什么涵盖了LSTM地面?问题特征ResNet图像功能14 x 14 x 2048受试者发展出一个XQA系统的心理模型,帮助他们判断何时信任该系统,何时不信任。2相关工作视觉提问。在VQA任务中,系统tem提供了一个问题和一个图像,任务是使用图像正确地回答问题。问题的多模态方面,结合自然语言和视觉特征,使得这是一项具有挑战性的任务。VQA问题最初是在(Antol等人,2015)中引入的,从那时起,提出并测试了多种变体。一种常见的方法是使用attentionalmasks来突出显示图像的特定区域,以问题为条件(Kazemi和Elqursh 2017; Lu等人2016 b; Teney等人2017; Xu和Saenko 2015; Jiang等人2018 b; Fukui等人2016; Xu 和 Saenko 2016; Teney 等 人 2017 ) 。 2018年)。可解释的人工智能产生自动化推理和解释的努力可以追溯到人工智能领域的早期工作,这些工作直接应用于医学(Short- liffe和Buchanan 1984)、教育( Lane et al. 2005; Van Lent , Fisher , and Mancuso2004)和机器人(Lo- mas et al. 2012)。对于基于视觉的人工智能应用程序,一些解释系统将重点放在发现决策过程中重要的视觉特征上(Zeiler和Fergus2014; Hendricks et al. 2016; Jiang et al. 2017; Selvaraju etal. 2017; Jiang et al. 2018 a)。对于视觉问题回答任务,解释通常涉及图像或语言注意力(Lu et al. 2016a; Kazemi and Elqursh 2017)。除了显着性/注意力地图,其他工作已经研究了不同的解释模式,包括分层注意力(Yang et al.2016),重要区域周围的边界框(AnneHendricks et al.2018)或文本的理由(短liffe和布坎南1984;胡克公园等。2018年)。用户还参与生成解释并从AI机器接收在线反馈。3VQA模型VQA深度学习模型经过训练,可以获取图像和关于其内容的问题,并生成问题的答案。核心模型从自然语言问题以及图像中提取特征,将其组合,并生成自然语言答案。在训练VQA系统来完成这一任务的各种方法中,基于注意力的方法是我们特别感兴趣的。我们使用2017 SOTA VQA模型和ResNet(Szegedy etal. 2017)图像编码器(图1)作为我们的VQA代理。该模型在VQA 2数据集上进行训练,并使用注意力机制来选择由图像编码器和答案分类器生成的视觉特征,该答案分类器从3000个候选人中预测答案。此 外 , 我 们 用 Mask-RCNN 替 换 了 Resnet ( He etal.2017)编码器产生对象注意力解释(类似于(Rayet al.2019年))。如图1所示,我们的VQA模型将224×224RGB图像和最多15个单词的问题作为输入使用ResNet,该模型对图像进行编码,以达到14×14×2048的特征表示。该模型使用基于单词的GloVe(Pennington,Socher和Manning 2014)嵌入的LSTM模型将输入问题编码为512维的特征向量。关注层接收问题和图像特征表示,并输出一组权重来关注图像特征。加权的图像特征,与问题的表示,是用来预测一组3000个答案的选择,最终的答案。在本文中,我们提出了一个多模态解释系统,其中包括在视觉,1 x 512注意层1 x 2560FC1 x 2048回答1 x 3000文本和语义格式。与以前的工作不同,这些工作表明解释主要依赖于人工智能机器产生的信息,我们的方法受益于将人工智能生成的解释和人类注释相结合,以获得更好的可解释性。人类研究。为了评估解释系统在为其人类用户构建更好的人工智能系统心理模型中的作用,以前的几项努力-图1:2017 SOTA VQA架构。雪通过用户研究量化解释的有效性。其中一些研究是围绕测量用户的信任(Cosley et al. 2003; Ribeiro,Singh,and Guestrin 2016)或解释在实现目标中的作用(Kulesza et al. 2012; Narayanan et al. 2018; Ray et al.2019)开发的。其他工作基于提高VQA模型的可预测性来测量解释的质量(Escherasekaran et al. 2018年)。尽管他们对各种解释模式的有效性有很好的见解,但以前的研究并没有互动地将人类受试者纳入这些解释。在我们的研究中,我们设计了一个互动的环境,让用户评估我们的多模态解释系统,帮助用户预测的VQA模型的正确性此外,委员会认为,4说明模式我们的XVQA系统的目的是解释VQA代理的行为相结合的注意力功能产生的VQA模型与有意义的注释,把数据。这些注释包括场景中实体的标签、描述和边界框以及它们之间的连接。我们的XVQA模型要么从VQA模型的内层可视化信息,要么将该信息与注释结合起来,以解释模型这些解释以不同的组合提供给研究参与者的亚组,以评估其准确预测的有效性。4.1空间注意正如前面的工作所介绍的,空间注意力的主要目的是在准备答案时显示模型关注的图像部分。这里的注意力图是问题引导的,并且在图像的区域中权重更大,这些区域对模型生成的响应有更高的贡献该模型基于ResNet中的图像特征计算注意力(Szegedyet al.2017)层和问题输入。注意力地图中的最终值是图像和问题特征通道的非线性函数(图2)在反馈循环中,模型直接将用户生成的注意力图乘以图像特征图(图4)。此操作突出显示突出显示区域中的图像特征,并减轻图像的不相关部分中的特征。该操作的目的是允许主体参与推理过程,并以交互方式向模型提供反馈。在模型回答错误的情况下,受试者试图通过引起注意来纠正模型的反应。否则,对于那些模型已经准确的情况,子系统会尝试通过改变注意力地图来创建不同的答案图2:基于输入fea生成的注意力地图什么覆盖了地面?ResNetLSTM图像问题特征1 x 512注意层1x 2560......这是什么?在XVQA模型中。用户试图通过查看这些注意力图(图3中提供的示例)来理解模型基于问题分析图像的方式。注意力地图绘制在用户的图像功能14 x 14 x2048乘以图像特征图4:XVQA模型中的主动注意力循环架构图3:空间注意力解释生成的问题:4.2积极关注我们的模型为用户提供了一个反馈循环中的解释模式。用户可以利用此功能来改变模型在这个反馈循环中,用户首先看到基于原始注意力地图的模型主动注意试验有两个步骤要完成。第一步非常类似于空间注意力试验,用户根据VQA模型生成的注意力地图进行预测。然后观察预测结果,判断系统是否准确。在第二步,受试者被要求绘制一个新的注意力地图。使用手动绘制的注意力地图,模型再次处理图像和问题,并产生第二个答案。4.3边界框该模型中的边界框是基于Visual Genome数据集中的注释生成的由模型创建的注意力地图和这些注释的组合可以在概念层面上产生对系统行为的解释。我们根据空间注意力图计算图像中边界框的平均注意力权重,并将顶部K(在我们的研究中K= 5)框作为场景中与系统答案最相关的对象的指示器4.4场景图边界框标注由场景图形信息完成,场景图形信息说明了场景中不同对象之间的关系。这些联系是以主谓宾短语的形式出现的,可以指示宾语的属性或相互作用。在视觉基因组(VG)数据集中,对象标签,它们的边界框和连接它们的场景图提供了每个图 像 中 组 件 的 结 构 化 , 形 式 化 表 示 ( Krishna etal.2017年)。对于每个问题,我们根据边界框的注意力权重过滤场景图中的对象用户可以交互式地定位场景图的活动对象,并在输入图像中看到它们的边界框什么涵盖了LSTM地面?问题关注功能14x14x256014 x 14 x 2048特征512注意力地图14x 1414 x 14 x图像功能14x14x2048ResNet图5:基于空间注意力对“这个人在做什么"这个问题的权重。图6:左:输入场景图。右图:基于模型响应问题生成的注意力图权重过滤的场景图4.5客体注意受先前工作(Ray et al. 2019)的启发,我们在模型中添加了一个MASK-RCNN图像编码器,以生成对象级的解释。这个编码器专门用于XVQA模型,因为VQA模型仍然使用Resnet编码器来生成答案。模型基于注意力模块创建对象注意力掩码,以突出对推理过程有较大贡献的对象。与空间注意力解释相反,对象注意力有能力分割场景中的某些实体,以说明对系统答案的更有意义的解释(图7)。关于该技术的实现的更多细节,请参考(Ray etal.2019年)。4.6文本解释除了视觉解释,我们还在XVQA系统中集成了自然语言 ( NL ) 解 释 我 们 的 技 术 来 源 于 ( Ghosh et al.2019)所做的工作,该工作使用图像中实体的注释(从场景图中提取),以及VQA模型在回答问题时生成的注意力图。对于给定的问题-图像对,我们的文本解释模块使用视觉注意力图来识别最(a) 空间注意力(b)物体注意力图7:(b)物体层面的注意力与(a)空间注意力的比较图像的相关部分。然后,模型检索与这些区域高度重叠的实体的边界框该模型最终确定这些实体最相关的答案的基础上,他们的空间相关性的图像和他们的NL表示。最相关实体的区域描述形成文本解释。图8显示了这种技术生成的示例输出图8:NL模块的示例结果为模型的答案生成了文本解释5实验设计为了仔细评估所有提到的解释模式,我们实现了一个交互式界面,用户可以参加用户-机器预测任务。测试从介绍部分开始,并以一系列试验的形式继续,其中每次试验的任务是估计VQA系统在介绍部分中,受试者还被告知他们与AI系统的交互,而不会对其准确性产生任何影响,以避免他们对系统的心理模型中的任何先前偏见。还向受试者提供了一组指令,以有效地执行任务和使用界面5.1用户任务在每次试验中,用户输入他们对系统是否会正确回答系统的预测,然后在李克特量表上声明他们对答案的信心水平之后,受试者按顺序查看地面实况、系统系统还基于答案概率分布的归一化香农熵提供其总体置信度/确定性。为了防止疲劳对试验时间较长的组的表现的影响,每个受试者的测试限于一个小时的会议。要求参与者在这段时间内尽可能多地进行试验。5.2试验实验中有两种类型的试验:无解释试验和解释试验.在无解释试验中,受试者仅根据输入图像和问题来估计系统在解释实验中,被试首先看到输入和系统在评估系统答案的正确性在每次解释试验结束时,受试者评估他们对解释的依赖程度,以预测系统的准确性。图9描述了我们的评估系统中试验中的操作顺序。每个测试阶段从一个由两个试验组成的练习块开始模拟试验的目的只是让受试者熟悉测试流程,不会在任何最终结果中考虑。其余的测试是在块中进行的,其中每个块包括五次试验。5.3研究组这项研究涉及六组参与者。控制组(NE)没有看到任何解释模式,因此其任务被简化为预测系统解释组在对系统的答案进行预测控制组在整个测试中只看到一组无解释的试验。对于具有解释模式的组,块在解释和无解释模式之间切换解释组中的无解释块充当控制测试,以评估预测质量和心理模型的进展,因为用户看到更多的测试。(图10)解释块在用户做出预测之前查看模型生成的解释,并在之后显示来自系统的答案以及系统的置信度。无解释块只要求用户SA组有一个交互式的工作流程,其中子任务首先通过空间注意解释,然后在反馈回路中修改注意。每个解释组专用于特定的解释模式,但SE组除外,它结合了边界框、场景图是什么我画这张画的时候有什么特别之处吗答:斑马。置信度:87%积极关注?是的没图9:预测评估任务的流程图。The ”Explanation 条件式将试验类型定义为解释或控制。 在主动注意解释的情况下,条件激活反馈回路。和文本解释。该研究共有90名参与者,试验总数超过10,000次。表1显示了每组中的参与者人数和每组中的试验次数。从VG数据集(Krishna et al. 2017)和VQA数据集(Goyal et al. 2017)的重叠中随机选择了总共3969个图像-问题对用于试验。在每个试验中提出的问题是从VQA数据集中选择的,并且用于生成解释的注释是从VG数据集中提取的。在选择中,排除了所有是非和计数问题,以将测试的重点吸引到非琐碎问题和解释细节水平较高的不太明显的答案上6结果在将不同组的参与者分配到特定的解释组合(包括没有收到解释的对照组)并让他们执行VQA预测任务后,我们评估了关于解释根据某些组内所有试验的平均值或根据整个试验的进展对结果进行比较。由于任务在对照组(NE)解释组(SP、SA、OA、AL)图10:控制组(NE)和解释组的测试会话结构。表1:用户研究设计和统计。组科目试验NE对照组154124SP空间注意151826SA积极关注151021SE语义151261OA客体注意151435AL所有解释15846总9010,513每个组和试验可以与其他组和试验不同,受试者完成的试验数量在组之间甚至组内都不同6.1对用户-机器任务性能的影响我们用来评估用户-机器任务性能的第一个指标是用户预测机器任务性能的准确性。正确性,以及这是否受到解释的影响。我们使用卡方检验测试了准确性和解释存在之间的任何影响(积极或消极)来自不同组的结果显示,与对照组相比,所有解释组的总体准确性都有所提高,但这仅在系统图11:不同组之间比较的用户预测准确度(用户表现)的平均值<预测准确性的进展也是量化受试者理解和预测进展的另一个(a)(b)第(1)款图12:(a)对照组和所有解释组之间比较的用户预测准确性的进展。根据系统的准确度对结果进行分离。(b)主动注意解释组的预测准确性有所提高。基于模型的原始注意力图进行初级预测,并且基于对象提供的修改的注意力图进行系统行为。当受试者在不同的组中进行试验时,我们根据他们的预测准确性来比较他们的心理模型的改善(图12a)。如图12a所示,无论系统是对还是错,解释组的受试者在预测准确性方面都表现出更稳定的改善。6.2用户解释有用性评级在对VQA模型的答案做出预测之前,用户会根据每个解释模式在预测任务中对他们的帮助程度对每个解释模式进行将这些有用性评级与用户图14 b表明,当用户发现解释有帮助时,他们在预测任务中做得更好。另一方面,当系统出错时,较高的解释评级这一观察结果表明,解释在用户决策过程中的有效作用。6.3主动注意解释在SA组中,受试者在做出预测之前查看主动注意解释并与之互动。与空间注意力相似,用户首先根据VQA模型生成的注意力地图第二步,受试者为模型绘制新的注意力地图,以改变网络答案。受试者可以将自己的注意力与模型的注意力进行比较,并根据每个注意力产生答案。图12b示出了当受试者与主动注意力交互时预测准确性进展的趋势。虽然解释有助于提高他们的主要预测系统的正确性练习区控制块无经验无经验试验审判审判审判审判审判审判实践块Exp无失效审判审判解释块控制块无失效试验审判审判审判审判解释块控制块5 x试验失5 x无失效审判5 x试验失5 x无失效审判(a)(b)第(1)款图13:(a)主动注意组和其他组之间的用户置信度进展比较。(b)用户对预测的信心与系统对答案的信心。6.4主动注意力对用户信心主动注意力解释为用户提供了一个反馈回路,以修改系统在主动注意力解释的试验中,用户做出两个预测:一个是基于用户提供的原始空间注意力,另一个是在他们修改注意力地图后做出的二次预测。我们认为主要预测的准确性作为用户的心理模型状态的指标。二次预测更具体地依赖于用户的注意力地图的一般心理模型。将不同解释组的结果与主动注意组的结果进行比较,结果表明,与其他解释组相比,主动注意组的用户对他们的初级预测具有更高的平均置信度(见图13 a)。虽然用户信心的增加指出了由主动注意解释建立的信心和信任,但该组参与者的平均预测准确度低于其他组。这些结果表明,如果在多个反馈回路而不是一个反馈回路中使用,6.5对信任和依赖的解释系统的另一个重要目的是建立用户对AI机器的信任,以便他们可以依赖系统的结果。在我们的用户研究中,我们询问用户在预测系统性能时对解释部分的依赖程度将用户的依赖性与其性能进行比较,表明在系统出错的情况下,依赖性与用户准确性之间存在相关性(图15a)。此外,用户还可以在Likert量表上声明其预测的置信度。一般来说,我们可以假设用户在无解释的对照组中,置信水平主要来源于先前试验中的系统认知(心理模型);而在其他组中,解释对置信水平有直接影响。图13b示出了与系统置信度(在用户做出其选择之后提供给用户)相比的平均用户置信度。(a)(b)第(1)款图14:对于(a)系统是正确的和(b)系统是错误的情况,用户对每个解释模式的预测准确度的平均值与用户对解释的有用性的评级。(p 0.0001)<(a)(b)第(1)款图15:(a)用户预测准确性与他们对解释的依赖除以系统的准确性。(b)解释组的预测准确率增长与实验组相比块和无经验个街区.在用户的预测是正确的情况结果表明,与没有解释的对照组相比,当暴露于解释时,用户信心的6.6解释优度如前所述,在解释组中,用户会经历一系列的试验。为了评估解释在帮助用户预测系统答案方面的好处,每个三重块都是一个简单的解释。有解释的ALS之后是没有解释的块。比较这些块之间的用户预测准确性说明了在存在解释的情况下用户心理模型的进展结果表明,在解释块中,用户建立了一个更好的心理模型来预测系统,并在理解系统答案方面取得了进展。7讨论对用户表现的总体评估显示,当系统不正确时,在存在解释的情况下,预测准确性有了实质性的提高。当用户表现得更好时,他们也会对解释给出更高的评分,反之亦然。所有解释模式中的这种直接相关性强烈表明了这些解释在预测任务中的有效性。在AL组中,尽管受试者查看了所有的显示模式,但与其他组相比,我们没有看到更高水平的准确性。研究后的反馈访谈指出了两个可能的原因:1)群体中压倒性的信息量降低了被试的表现水平; 2)解释模式相互冲突的情况使一些被试感到困惑。用户表现出更高的信心水平时,暴露在解释组的主动注意,虽然,主动注意组(SA)的整体表现还没有超过空间注意组(SP)。这个缺点背后的原因可能是主动注意力可能的是,多个反馈循环也可以帮助用户更好地理解图像特征的作用,因为它只是最终答案中的贡献者之一(而不是全部)在系统出错的情况下,用户的准确性与用户的依赖性之间无论是在极度依赖解释的时候,还是在完全忽略解释的时候,对于那些用户忽略解释的情况,研究后的访谈表明,受试者是根据他们对系统的心理模型和以前的类似试验做出决定的。8结论我们设计了一个交互式实验,以探讨解释的有效性,提高用户预测的准确性,信心和可靠性方面的VQA任务。研究结果表明,解释有助于提高VQA的准确性,解释等级也证实了解释在人机协作任务中的有效性。为了评估各种解释模式,我们进行了一项有90名参与者的用户研究。用户交互式地评价不同的解释模式,并使用它们来预测AI系统的行为。用户-机器任务性能结果表明,当用户接触到解释时,性能有所改善当用户查看解释时,他们对预测的信心也有所提高,这显示了我们的多模态解释系统在建立用户信任方面的潜力。用户对解释有用性的评价与其在预测任务中的表现之间的强相关性表明了解释在人机任务中的有效性。在系统准确的情况下,这些被认为更有帮助的解释帮助了用户另一方面,在系统不准确的情况下,那些被认为更有帮助的解释变得更有帮助。更具误导性。我 们 还 引 入 了 一 种 交 互 式 解 释 模 式 ( 主 动 注意),用户可以直接改变系统作为未来的发展方向,我们可能会研究其他交互式解释模式,以最大限度地提高人机任务的性能。另一方面,用户的反馈和评分,在这项研究中探索的不同模式可以引导我们走向更有效的解释模型在XAI系统。9致谢这项研究是在美国国防高级研究计划局(DARPA)的可解释人工智能(XAI)计划下开发的所表达的观点,意见和/或调查结果是作者的观点,不应被解释为代表国防部或美国的官方观点或政策。政府的引用Anne Hendricks , L.; 胡 , R.;Darrell , T.; 和 Akata ,Z.2018年基础视觉解释。在欧洲计算机视觉会议(ECCV)的会议记录中,264Antol , S.; 阿 格 拉 瓦 尔 , A.; 卢 , J.; Mitchell , M.;Batra , D.; Lawrence Zitnick, C.; 和 Parikh , D. 2015.VQA:可视化问答。在IEEE国际计算机视觉会议集,2425A.A.; Yadav , D.; Chattopadhyay , P.; Prabhu , V.; 和Parikh,D. 2017.探戈需要两个人:走向人工智能的思想理论。arXiv预印本arXiv:1704.00717。A.A.; Prabhu,V.; Yadav,D.; Chattopad- hyay,P.;和Parikh,D. 2018. 解释会让VQA模型对人类来说更可预测?arXiv预印本arXiv:1810.12366。Cosley,D.;拉姆,S。K.的; 阿尔伯特岛Konstan,J.一、和里德尔,J. 2003.眼见为实吗?:推荐系统界面如何影响用户的意见。在SIGCHI计算机系统中人的因素会议记录中,585-592。ACM。Das , A.; Agrawal , H.; Zitnick , L.; Parikh , D.; 和Batra,D. 2017.视觉问题回答中的人类注意力:人类和深层网络是否会看到相同的区域?计算机视觉和图像理解163:90-100。Fukui , A.; 帕 克 D 。 H. 的 ; 杨 , D.; Rohrbach , A.;Darrell,T.;和Rohrbach,M. 2016.用于视觉问答和视觉基础的多模态紧凑双线性池。arXiv预印本arXiv:1606.01847。Ghosh,S.; Burachas,G.; Ray,A.;和Ziskind,A. 2019.使用场景图和视觉注意力为视觉问题回答生成自然语言解释。arXiv预印本arXiv:1902.05715。Goyal,Y.; Khot,T.;萨默斯-斯泰,D.; Batra,D.;和Parikh,D.2017年。使VQA中的V重要:提升图像理解在视觉问题解决中的作用。计算机视觉和模式识别会议(CVPR)他,K。Gkioxari,G.; Dollar,P.;和Girshick,R. 2017.面 具 R-CNN 。 IEEEInternationalConferenceonComputer Vision(ICCV).亨 德 里 克 斯 湖 一 、 Akata , Z.; Rohrbach , M.;Donahue,J.; Schiele,B.; Darrell,T. 2016.产生视觉解释。在欧洲计算机视觉上,3-19。斯普林格。HukPark, D.;AnneHendricks , L.;Akata,Z.;Rohrbach,A.;Schiele,B.; Darrell,T.;和Rohrbach,M. 2018.多模态解释:证明决策和指向证据IEEE计算机视觉与模式识别会议论文集,8779蒋 志 ; 王 玉 ;Davis , L.;Andrews , W.; 和 Rozgic ,V.2017。通过标签一致性神经网络学习区分特征。2017年IEEE计算机视觉应用冬季会议(WACV),207美国电气与电子工程师协会。江,Y.;Natarajan,V.;陈X.;Rohrbach,M.;Batra,D.;和Parikh,D. 2018年a. Pythia v0. 1:2018年VQA挑战赛arXiv预印本arXiv:1807.09956。江,Y.;Natarajan,V.;陈X.;Rohrbach,M.;Batra,D.;和Parikh,D. 2018年b月。Pythia v0.1:2018年VQA挑战赛的获奖作品。CoRRabs/1807.09956。Kazemi,V.,和Elqursh,A.2017年。显示、询问、出席和回答:一个强大的视觉问题回答基线CoRR绝对值/1704.03162。Krishna,R.; Zhu,Y.; Groth,O.; 约翰逊,J.; Hata,K.;Kravitz,J.;Chen,S.;Kalantidis,Y.;李湖,澳-地J.道:莎玛D.一、 伯恩斯坦,M。 S.的; 和Fei-Fei,L. 2017.视觉基因组:使用众包密集图像注释连接语言和视觉 .InternationalJournalofComputerVision123(1):32-73.Kulesza,T.;Stumpf,S.;Burnett,M.;和Kwan,I.2012年。告诉我更多?:心理模型健全性对智能代理人化的影响在SIGCHI计算机系统人为因素会议论文集,1-10。ACM。Lane , H. C. 的 ; 核 心 , M. G. 地 ; Van Lent , M.;Solomon,S.;和Gomboc,D. 2005.用于培训和辅导的可解释人工智能。技术报告,南加州大学马里纳德雷伊加州创意学院。. . .Lomas,M.; Chevalier,R.; Cross II,E.五、加勒特河C.的; Hoare,J.;和Kopack,M. 2012. 解释机器人的动作。在第七届ACM/IEEE人机交互国际会议论文集,187-188。ACM。卢,J.;杨,J.; Batra,D.;和Parikh,D. 2016年a。视觉问题回答的层次问题-图像共同注意。 神经信息处理系统的进展,289-297。卢,J.;杨,J.; Batra,D.;和Parikh,D. 2016年b。视觉问 题 回 答 的 层 次 问 题 - 图 像 共 同 注 意 。CoRRabs/1606.00061。Narayanan , M.; Chen , E.; 他 , J.; Kim , B.;Gershman,S.;和Doshi-Velez,F. 2018.人类如何理解机器学习系统的解释?对解释的人类可解释性的评估。arXiv预印本arXiv:1802.00682。Pennington,J.; Socher,R.; Manning,C. 2014. Glove:单词表示的全局向量。在2014年自然语言处理经验方法会议(EMNLP)的会议中,1532Ray,A.; Burachas,G.; Yao,Y.;和Divakaran,A. 2019.清晰的解释有助于:使用人工智能图像猜测游戏来评 估 机 器 解 释 的 有 用 性 。 arXiv 预 印 本 arXiv :1904.03285。里贝罗,M。T.;辛格,S.;和Guestrin,C. 2016. 我为什么要相信你?:解释任何分类器的预测。第22届ACMSIGKDD 知 识 发 现 和 数 据 挖 掘 国 际 会 议 论 文 集 ,1135ACM。塞 尔 瓦 拉 茹 河 的 R.; Cogswell , M.; Das , A.;Vedantam , R.; Parikh , D.; 和 Batra , D. 2017. Grad-cam:通过基于梯度的定位从深度网络中获得视觉效果。在IEEE计算机视觉国际会议论文集,618Shortliffe,E. H、和Buchanan,B. G. 1984.医学中不精确推理的模型。第233-262章.Szegedy,C.; Ioffe,S.; Vanhoucke,V.;和Alemi,A. A.2017. 起始-v4,起始-resnet和剩余连接对学习的影响在第三十一届AAAI人工智能上。Teney,D.;安德森,P.;他,X。和van den Hengel,A.2017.视觉问题回答的提示和技巧:从2017年挑战中学习。CoRRabs/1708.02711。Teney,D.;安德森,P.;他,X。和van den Hengel,A.2018.视觉问题回答的提示和技巧:从2017年挑战中学习。IEEE计算机视觉与模式识别集,4223-4232。Van Lent,M.; Fisher,W.; Mancuso,M. 2004.一个可解释的小单位战术行为的人工智能系统。《人工智能 国 家 会 议 论 文 集 》 , 900Menlo Park , CA;Cambridge,MA; London; AAAI Press; MIT Press; 1999.徐,H.,Saenko,K. 2015.问、听、答:探索视觉问答 中 问 题 引 导 的 空 间 注 意 。 CoRR 绝 对 值/1511.05234。徐,H.,Saenko,K. 2016.问、听、答:探索视觉问答中问题引导的空间注意。In Leibe,B.; Matas,J.;Sebe,N.;和Welling,M.,编辑,计算机视觉陈:施普林格国际出版社.杨志;他,X。高,J.;登湖;和Smola,A. 2016.图像问答的堆叠注意力网络。在IEEE计算机视觉和模式识别会议论文集,21Zeiler,M. D、和Fergus,R. 2014.可视化和理解卷积网络。在欧洲计算机视觉会议上,818-833。斯普林格。周,B.;Khosla,A.;Lapedriza,A.;Oliva,A.;还有托拉尔巴A. 2014.目标检测器出现在深场景cnn中。arXiv预印本arXiv:1412.6856。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功