没有合适的资源?快使用搜索试试~ 我知道了~
基于中间奖励的面向目标的可视化问题生成
基于中间奖励的面向目标的可视化问题生成张俊杰1,3 [0000−0002−0033−0494],吴奇2 [0000−0003−3631−256X],沈春华2[0000−0002−8648−8718],张健1[0000−0002−7240−3541],Jianfeng Lu3[0000−0002−9190−507X]和Antonvan den Hengel2[0000−0003−3027−8364]1澳大利亚悉尼科技大学电气数据工程学院2澳大利亚阿德莱德大学澳大利亚机器学习学院3南京理工大学计算机科学工程学院{俊杰.张@学生。zhang @} uts.edu.aulujf@njust.edu.cn{qi.wu01,chunhua.shen,anton.vandenhengel}@ adelaide.edu.au抽象。尽管在各种视觉和语言问题上取得了重大进展,但开发一种能够提出关于图像的智能,目标导向问题的方法被证明是一个难以理解的挑战。为此,我们提出了一个基于三个新的中间奖励的深度强化学习框架,即目标实现,渐进和信息性,鼓励生成简洁的问题,这反过来又揭示了实现总体目标的有价值的信息。通过直接优化的问题,工作迅速实现整体目标,我们避免了现有的方法生成一长串的空洞的查询,增加很少的价值的趋势。 我们在GuessWhat上评估我们的模型。!数据集,并表明所产生的问题可以帮助测试和开发人员在一个更高的成功率下确定一个特定的目标。关键词:目标导向·VQG·中级奖励1介绍虽然视觉问答(VQA)[2,23,24]已经吸引了更多的关注,但视觉问题生成(VQG)是一项更加困难的任务。显然,生成简单、重复的问题根本不代表什么挑战,但是生成一系列问题,这些问题引出了针对总体目标的有用信息,然而,需要考虑图像内容、目标和迄今为止的对话。一般来说,这也可以被视为需要考虑对话中其他参与者的能力和动机一个恰当的问题可以提取出最能帮助实现特定目标的答案,从而反映出提问者的知识以及他们的能力。⋆这项工作是在访问阿德莱德大学时完成的。⋆⋆ 前两位作者对这项工作的贡献是相等的。2Junjie Zhang Qi Wu et al.嗨,罗比,你能帮我从碗橱里拿个杯子来吗?是粉色的上面有艾尔莎的照片是没太棒是高个子是短的吗?是宜家的吗?是粉色的有把手吗?没是没是我图1:人与人之间的潜在对话的两个说明性示例。机器人上面的对话显然让人沮丧,而下面的对话让人高兴,因为机器人通过较少但信息丰富的问题更快地实现了目标。对回答者能力的估计。尽管这些信息在识别图像中的特定对象时是有益的,但是智能体向人类询问特定像素的确切值、其梯度的统计数据或对应边界框的纵横比几乎没有价值回答者不能提供所要求的信息这一事实使得这样的问题毫无意义。选择一个有很大可能性生成有助于实现特定目标的答案的问题是一个复杂的问题。提问是人类交流的重要组成部分。因此,任何寻求与人类灵活有效互动的智能代理都需要能够提出问题。提出明智的问题的能力甚至比获得明智的、可操作的答案更重要。机器人,例如在图1中。1、被赋予一项任务,并意识到缺少执行任务所需的关键信息,需要提出问题。在人类感到沮丧并自己执行任务之前,它将有有限的尝试次数。这种情况同样适用于任何寻求与人类交互的智能代理,因为我们对代理的容忍度非常低。不能通过提问来学习,对于那些问得太多的人来说由于上述原因,VQG已经开始受到关注,但主要是作为一个视觉到语言的问题[10,13,25]。以这种方式处理问题的方法往往会生成与图像[14]有些相关的任意问题序列,但与目标没有关系。这反映了这样一个事实,即这些方法没有办法衡量所产生的答案是否有助于朝着目标取得进展。相反,在本文中,我们将VQG问题作为游戏- 猜猜什么?在[22]中介绍。[22]中提出的玩GuessWhat游戏的方法由三个部分组成:怀疑者向神谕提出问题,而猜测者则试图根据神谕的回答来确定神谕所指的对象。因此,生成的问题的质量直接关系到最终任务的成功率。使用游戏设置的目标导向训练已经在之前的视觉对话生成中使用[4]。但是,它的重点是生成更像人类的对话,而不是通过更好的问题生成来帮助智能体实现目标。而且,以前的工作[18]只使用最终目标作为奖励通过中级奖励实现目标导向的VQG3训练可能适合于对话生成的对话生成器而是相当弱的和无方向的信号,通过该信号来控制面向目标的任务中所生成的问题的质量、有效性和信息量。换句话说,在某些情况下,我们想与机器人交谈,因为我们希望它完成特定的任务,而不是进行毫无意义的无聊聊天。因此,在本文中,我们使用中间奖励来鼓励代理提出简短但信息丰富的问题,以实现目标。此外,在以往的作品,只考虑整体目标作为奖励,我们分配不同的中间奖励,每个提出的问题,以控制质量。这是通过将面向目标的VQG拟合到强化学习(RL)范式中并设计三种不同的中间奖励来实现的,这是我们在本文中的主要贡献,以显式优化问题生成。第一个目标实现奖励被设计为通过询问多个问题来鼓励智能体实现最终目标(通过询问Oracle的“目标”来完成任务)。然而,与只考虑目标是否实现不同,如果智能体可以使用更少的问题来实现目标,则会获得额外的奖励。这是一个合理的设置,因为你不需要一个可以完成任务但必须问你数百个问题的机器人。我们提出的第二个奖励是累进奖励,它的建立是为了鼓励智能体产生的问题能够逐步增加概率正确的答案这是针对单个问题的中间奖励,奖励由地面真实答案概率的变化决定。如果概率降低,则会给出负奖励。最后的奖励是信息性奖励,用于限制Agent不向候选对象询问“用户”问题,以便对所有候选对象进行查询(该问题不能消除任何二义性)。我们在图中显示了整个框架。二、我们在GuessWhat上评估我们的模型数据集[22],使用预训练的标准Oracle和Guesser,我们证明了我们的新型怀疑者模型在很大程度上超越了基线和最先进的模型。我们还分别评估每个奖励,以衡量个人的贡献。定性结果表明,我们可以产生更多的信息问题。2相关作品视觉问题生成问题最近被引入计算机视觉领域,旨在生成与视觉相关的问题。大多数作品将VQG视为一个独立的问题,并遵循图像字幕风格框架,即。,将图像翻译成句子,在这种情况下,是一个问题。例如,在[13]中,Mora等人使用CNN-LSTM模型直接从图像视觉内容生成问题和答案。 Zhang等人[25]专注于生成接地图像的问题。他们使用Densecap [8] 作 为 区 域 字 幕 生 成 器 来 指 导 问 题 生 成 。 在 [14] 中 ,Mostafazadeh et al. 提出一个数据集来生成关于图像的自然问题,这些问题超出了图像内容的字面描述。Li等人[10个国家]4Junjie Zhang Qi Wu et al.轮对话…Oracle…Oracle………Oracle:耶101…10*:否j0:否20:否1…j0:没有1…0*:Ye问1:我是一个亿?Q:是家具吗?Q:是饮料吗?猜测者(q1:j−1,1:j−1,0*)猜测者(q1:,1:,0*)猜测者CNN[第10页1,[pj01,[p01,图像特征VQGr进展r信息性VQG提问生成部中级奖励rgol−cGieed成功VQG图2:所提出的VQG代理在整个游戏环境中的框架。目标对象o*被分配给Oracle,但VQG和Guesser不知道它。然后VQG生成一系列问题,由Oracle回答。在训练过程中,我们让Oracle基于每一轮的所有对象回答问题,并测量信息性奖励,我们还让Guesser生成概率分布来测量渐进奖励。最后,我们考虑回合数J,并根据成功状态设置目标实现奖励。REINFORCE采用这些中间奖励来优化VQG代理将VQA和VQG视为双重学习过程,在端到端框架中对其进行联合培训虽然这些作品可以产生与图像相关的有意义的问题,但提出这些问题的动机相当弱,因为它们与任何目标都无关以往研究的另一个问题相反,在我们的工作中,我们的目标是开发一个可以学习提出现实问题的代理,这有助于实现特定目标。面向目标的可视对话生成技术是近年来研究的热点。在[5]中,Das等人介绍了一种用于视觉对话生成的强化学习机制。他们建立两个RL代理分别对应的问题和答案的生成,最终找到一个看不见的图像从一组图像。问题代理预测图像的特征表示,并且通过测量表示与真实特征相比有多接近来给出奖励函数然而,我们专注于鼓励代理产生的问题,针对最终目标,我们采用了不同的中间奖励,以实现在问题生成过程中此外,他们模型中的问题生成代理只根据对话历史提出问题,而不涉及视觉信息。在[18]中,Florian等人提出采用强化学习来解决GuessWhat游戏的问题生成,通过引入成功的最终状态作为唯一奖励。我们共享类似的主干思想,但存在一些技术差异。其中一个最显著的区别是,以前的工作只考虑是否实现最终目标作为奖励,而我们分配不同的通过中级奖励实现目标导向的VQG5针对每个提出的问题提供中间奖励,以推动VQG代理提出简短但信息丰富的问题,以实现目标。第四节的实验结果和分析表明,我们的模型不仅优于现有的最新技术,而且具有更高的智能,即。,用尽可能少的问题来完成任务。V2L的强化学习强化学习[9,20]已被用于几个视觉到语言(V2L)问题,包括图像字幕[11,16,17],VQA [1,7,26]和上述视觉对话系统[5,12]等。 在[16]中,Ren等人使用策略网络和价值网络来协作生成图像字幕,而在[11]和[17]中探索了图像字幕中RL的不同优化方法,称为SPIDER和自关键序列训练。Zhu等人。 [26]将知识源引入到迭代VQA中,并采用RL来学习查询策略。在[1]中,作者使用RL来学习图像和结构化知识库的QA模型。这些工作解决了V2L相关的问题,采用RL作为优化方法,而我们专注于使用RL精心设计的中间奖励,以训练VQG代理面向目标的任务。奖励整形我们的工作也与奖励整形有点相关,其重点是解决强化学习中奖励函数的稀疏性 在[19]中,Su et al. 研究三种基于RNN的方法作为口语对话系统中奖励塑造的潜在功能。 在[6]中,El Asri et al. 提出了两个扩散奖励函数,分别通过评估状态和转换来应用于口语对话系统。不同于这些先前的作品,这些作品将他们的模型条件化为纯语言(而不是视觉语言)数据集的基于话语的约束。我们的目标任务、我们的架构差异以及我们采用的数据集和指标都是不同的。3面向目标的VQG我们地面上的一个猜猜什么游戏,具体地说,在GuessWhat我们的目标为导向的VQG问题?!数据集[22]。猜猜什么是一个三角色互动游戏,其中所有角色观察包含多个对象的丰富视觉场景的相同图像我们将这个游戏分为三个部分:先知怀疑者和猜测者在每个游戏中,场景中的一个随机对象被分配给先知,而这个过程对怀疑者来说是隐藏的。然后,怀疑者可以问一系列是或否的问题来定位这个物体。在问答环节中,这些物品的清单对怀疑者来说也是隐藏的一旦怀疑者收集了足够的信息,猜测者就可以开始猜测了。如果玩家选择了正确的对象,则游戏被认为是成功的。游戏的提问者部分是面向目标的VQG问题,每个问题都是基于图像的视觉信息和前几轮问答对生成的。VQG的目标是成功地完成游戏,在这种情况下,定位正确的对象。在本文中,我们适合面向目标的VQG到强化学习范式,并提出了三个不同的6Junjie Zhang Qi Wu et al.j=1n=1m m=11:mMm−1Mm−1M中间奖励,即目标实现奖励、渐进奖励和信息量奖励,以明确地优化问题生成。建立目标达成奖励引导对话达到最终目标,用累进奖励推动中间生成过程向最优方向发展,用信息度奖励保证生成问题的 为了更好地表达生成过程中,我们首先介绍的符号猜测什么?!游戏.每个游戏被定义为一个元组(I,D,O,o*),其中I是观察到的图像,D它是一个包含了约j个quuestion-anwer对s(qj,aj)J的循环图,O=(on)Nis图像I中的N个对象的列表,其中o*是目标对象。每个问题qj=(wj)Mj是M个令牌的序列,其是从预处理中采样的定义词汇V. V是由单词标记,一个问题停止标记<?>andadialoguestoopto ken. 其中aj∈{Yes>,No>,NA>}设置为是、否或不适用。对于每个对象o,它都有一个对象类别c〇∈ {1. . . C}和段掩码。3.1学习环境我们建立的学习环境,以产生视觉对话的基础上GuessWhat?!数据集。由于我们关注的是面向目标的VQG,为了进行公平的比较,Oracle和Guesser是通过参考GuessWhat?![22]第20段。我们还介绍了VQG监督学习模型,该模型被称为本文其余部分的基线。Oracle需要生成关于图像场景中任何对象的各种问题的答案。对象o的边界框(从分段掩码获得)被编码以表示空间特征,其中ospa=[xmin,ymin,xmax,ymax,xcenter,ycenter,w,h]指示框坐标、宽度和高度。类别c。使用学习的查找表嵌入,而当前问题由LSTM编码。所有三个特征被连接到单个向量中,并被馈送到一个隐藏层MLP中,随后是softmax层,以产生答案概率p(α|ospa,co,q)。给定一个图像I和一系列问题-答案对,猜测者需要从一个对象列表中预测正确的对象o*我们将生成的对话视为一个平坦的令牌序列,并用LSTM对其进行编码。最后一个隐藏状态被提取作为特征来表示对话。我们还通过MLP实现了所有对象的P atialf e atures和C ategorie。 我们使用softmax操作在对话和对象特征之间形成点积,以产生最终预测。在等式(q,a)1:j-1的给定的映射I和Hi s t or y下,VQ G r等式在新的等式qj上生 成。我们将VQGb构建为基于一个RNN生成器或。RNN接收到一系列序列向量,通过从预存状态j中进行传输并且该结果不被输入到wj中。我们使用LSTM作为传输函数f,thatis,sj=f(s)j,w,j)。我不是我们在这种情况下,状态向量s以整个图像和所有先前的问答令牌为条件。我们添加一个softmax操作来生成概率-通过中级奖励实现目标导向的VQG7spam+1m+1i tydit|I,(q,a)1:j−1,wj). 这m1:m−1基线是通过采用监督训练进行的。我们训练VQG通过最小化以下负对数损失函数:L= −logp(q1:J|I,a1:J)JMjΣ Σj j(一)=−logp(wm|I,w1:m−1,(q,a)1:j−1)j=1m=1在测试阶段,问题可以通过以下方式从模型中采样:从现在开始从概率分布中采样,则1m嵌入并反馈给LSTM。我们重复这个操作直到遇到问题令牌3.2VQG的强化学习我们使用我们建立的Oracle,Guesser和VQG基线模型来模拟一个复杂的GuessWhat?! 加姆河 考虑到图像I,通过从VQG基线采样直到停止问题令牌被捕获来生成关于q1的独立问题。Oracle资源将按指定的顺序提供问题1对象类别o*及其空间信息o*,并输出答案a1,q_s_i_an_w_r_p_r(q_i,a_i)被应用于该微分方程组。我们在这里循环,直到对话令牌的末尾被采样,或者问题的数量达到最大值。最后,猜测者将整个对话D和对象列表0作为输入来预测对象。如果选择o*,否则,它失败了。为了更有效地优化VQG以实现最终目标并生成信息丰富的问题,我们在RL框架中采用了三个中间奖励(将在以下部分中介绍)。&我们将VQG视为马尔可夫决策过程(MDP),怀疑者被视为代理人。对于基于时间步t处的图像I生成的对话,主体的状态被定义为图像视觉控制。与查询的历史记录一起进行测试-一个软件对和Σcuret查询的日志f(q,a)1:j−1,(w,j,. . . ,wj)),其中t=k= j− 1 Mk + m。1mk=1年龄的影响是为了从视频中提取要输出的内容。乌拉里湾根据代理采取的操作,两个状态之间的转换属于以下情况之一:Jm+1 =?>:当前问题已完成,来自en的OracleV ir on mettweraj,其被应用到该日志。Teeexts tateSt+1=(I,(q,a)1:j).Jm+1 = End>:对话结束了,来自周围的猜测者元素将从列表O中选择对象。3)其他版本中,新版本将记录在wj中不断追加到当前q uesti on qj,tene x tstateSt+1=(I,(q,a)1:j−1,(wj,. . . ,wj,wj)).1m m +1qj上的q的最大值为Mmax,并且对话是Jmax。因此,任何对话的时间步长T的数量为T≤ Mmax* Jmax. 我们在随机策略πθ(A)下建立了VQG模型|S),1)w2)w8Junjie Zhang Qi Wu et al.其中θ表示我们在VQG基线中使用的深度神经网络的参数,该参数为每个状态生成概率分布。策略学习的目标是估计参数θ。在我们建立了MDP的组件之后,RL的最重要的方面是为每个状态-动作对(St,At)定义适当的奖励函数正如我们之前强调的,面向目标的VQG旨在生成导致实现最终目标的问题因此,我们建立了三种中间奖励,以推动VQG代理向最优方向优化。整个框架如图所示。二、适当的奖励函数的一个基本规则是它不能与最终的最优策略冲突[15]。VQG代理的主要目的是尽快收集足够的信息,以帮助Guesser定位对象。因此,我们定义第一个奖励,以反映最终目标是否实现。但更重要的是,我们考虑了回合数来加速提问部分,并在游戏成功时让奖励不为零。给定状态St,其中End> token被采样或达到最大回合J_max,状态-动作对的奖励被定义为:rg(St,At)=、1+λ·Jmax/J,IfGuesser(St)=o*0,否则(二)如果对话成功,我们将奖励设置为1加上当前对话的实际回合J的加权最大回合数Jmax这是基于我们希望最终目标是激励代理生成有用的问题。将中间过程作为问答对J的轮次考虑到奖励中,保证了生成过程的效率;生成的问题越少,VQG代理在游戏结束时可以获得的奖励越多(当且仅当游戏成功时)。这在现实中是一个非常有用的设置,因为我们确实希望使用更少的命令来引导机器人完成更多的任务。λ是在成功奖励和对话回合奖励的贡献渐进式奖励基于对人类交互对话的观察,我们发现成功游戏的问题是渐进地实现最终目标的问题,即,只要问题被提出和回答,提及目标对象的置信度变得越来越高。因此,在每一轮,我们定义一个中间奖励的状态-动作对的目标概率的改善,猜测输出。更具体地说,我们在每一轮与猜测者交互,以获得预测目标对象的概率。如果概率增加,则意味着qj上的一般需求是导致当前和当前的数据表的最佳需求正确的方向。我们设置了一个称为渐进式奖励的中间奖励,以鼓励VQG代理逐步生成这些积极的问题。在每一轮j中,我们rec或d该probabiliypj(o*|I,(q,a)1:j)由Guesser重新生成,并与最后一轮j-1进行比较。使用两个概率之间的差值通过中级奖励实现目标导向的VQG9作为中间奖励。即:∗ ∗rp(St,At)=pj(o|I,(q,a)1:j)−pj−1(o|I,(q,a)1:j−1)(3)尽管由于中间项的取消,所有时间步长上的总奖励是初始和最终状态,但在REINFORCE优化期间,返回每个步骤的累积奖励的状态-动作值函数是不同的。通过这种方式,如果问题导致猜测正确对象的概率更高,则该问题被认为是高质量的并且具有正奖励否则,奖励为负数。信息奖励当我们人类提出问题时(尤其是在猜猜游戏中),我们期望一个可以帮助我们消除混淆并区分候选对象的答案。因此,想象一下,如果一个提出的问题导致所有候选对象的答案相同,这个问题将被使用。为了进行备份,是否已记录所有可执行和不可执行的操作,并在记录的这些操作中解决问题?我们会得到我们的答案。但是,这个问答对并不能帮助我们确定目标。我们要避免这类问题,因为它们没有信息。在这种情况下,我们需要根据Oracle的答案来评估问题。如果给定查询qj ,我们将与Oracle进行交互以查看该查询。 由于Oracle将存储器I、存储器查询qj和要将数据库 * 作为输入,并将数据库输出,因此Oracle将为存储器中的所有数据库查询qj。如果单扫描与其他扫描存在差异,则我们会将确定的问题充分利用,以便在要执行的操作中进行查找。 否则,它不会有助于最终目标。因此,我们为这些有用的问题设置了积极的奖励,我们称之为信息性形式上,在每一轮期间,Oracle接收图像I、当前请求qj和对象列表O,并且所述新输出输出图像jO={ajo1,. . . ,ajoN},其中,一个缓存请求被存储到缓存中。信息性奖励定义为:、ri(St,At)=η,如果所有作业不相同0,否则(四)通过给一个积极的奖励的状态-动作对,我们提高了对话的质量,鼓励代理产生更多的信息问题。使用策略梯度进行现在我们有三种不同的奖励,它们考虑了中间过程,对于每个状态-动作对(St,At),我们将三种奖励加在一起作为最终的奖励函数:r(St,At)=rg(St,At)+rp(St,At)+ri(St,At)(5)考虑到游戏设置中的大动作空间,我们采用策略梯度方法[21]来训练VQG代理,并提出中间奖励。策略梯度的目标是通过梯度下降来更新关于期望收益的由于我们处于情景环境中,给定策略πθ,其是VQG代理的生成网络,在这种情况下,策略目标函数采用以下形式:ΣTJ(θ)=Eπθ[t=1r(St,At)](6)10Junjie Zhang Qi Wu et al.H1:jjoJJ1:jH1:j1:m−1M算法1 VQG代理的训练过程。输入:Oracle(Ora),Guesser(Gus),VQG,batchsizeH1:对于每次更新2:#生成情节τ3:对于h=1至H,do4:选择图像Ih和一个目标对象o*∈Oh5:#生成问答对(q,a)h6:对于j=l至Jmax,do7:qh=VQG(Ih,(q,a)h)j1:j−18:#N是对象9:对于n=l至N,做10:ahhn11:如果所有ah=Ora(Ih,qh,ohn)就不一样了赵恩12:ri(St,At)=η13:elseri(St,At)=014:r(St,At)=ri(St,At)15:pj(o)|·)=Gus(Ih,(q,a)h,Oh)H16:如果j >1,则1:j17:rp(St,At)=pj(o*|·)−pj−1(o|·)H H18:r(St,At)=r(St,At)+rp(St,At)19:如果End>∈qh,则20:断裂;21:p(oh|·)=Gus(Ih,(q,a)h,Oh)h*22:ifargmaxohp(o |·)=oThen23:rg(St,At)=1+λ·Jmax/j24:elserg(St,At)=025:r(St,At)=r(St,At)+rg(St,At)26: 定义τ=(I,h,(q,a)hH,rh)1:H27:Evaluate▽J(θ)asEq. 9和更新日期VQGagent28: 将▽L()求值为等式10并更新b基线然后可以通过遵循梯度更新规则来优化参数θ。在REINFORCE算法[9]中,J(θ)的梯度可以由下式估计:从策略πθ采样的一批情节τ:.ΣTJ(θ)ΣΣ<$θlogπθ(St,At)(Qπθ(St,At)−b<$)(七)t=1At∈Vτ其中Qπθ(St,At)是返回在(St,At)处的累积奖励的期望的状态-动作值函数:ΣTQπθ(St,At)=Eπ[r(S′,A′)](8)θt tt′=t通过用VQG代理替换符号,我们具有以下策略梯度:.JMjJ(θ)Σ Σologπ(wj|I,(q,a)、w、j )θθMj=1m=11:j−11:m−1Σ(九)(Qπθ(I,(q,a)1:j−1,wj,wj)−b)τb是一个基线函数,可以任意选择,以帮助减少梯度方差。我们在VQG中使用一个单层MLP,它将状态St作为输入通过中级奖励实现目标导向的VQG11代理并输出期望的奖励。使用平均值训练基线算法平方误差为:minL()=ϕ.[b(St)−ΣTt′=tΣ2r(St′,At′)]τ(十)整个训练过程如图1所示。4实验在本节中,我们将展示VQG结果,并对每个中间奖励进行全面的如上所述,所提出的方法进行评估的GuessWhat?!游戏数据集[22]与预训练的标准Oracle和Guesser。通过与基线和最先进的模型进行比较,我们表明,该模型可以有效地生成信息性问题,这服务于最终目标。4.1数据集评估指标猜猜什么?!数据集[22]由155,281个对话组成,这些对话基于66,537张图像,其中包含134,074个独特的对象。在词汇量为4900的对话中有821,955个问题-答案对。我们在[22,18]中使用训练,验证和测试的标准划分。在[18]之后,我们报告了游戏的准确性作为评估指标。给定J轮对话,如果目标对象o*被Guesser定位,则游戏被记录为成功,这表明VQG代理已经生成了合格的问题以服务于最终目标。在训练 集 和 测 试 集 上 分 别 运 行 两 种 测 试 , 分 别 命 名 为 NewObject 和NewImage。NewObject是从训练图像中随机采样目标对象(但我们仅限于使用以前未见过的新对象),而NewImage是从测试图像中采样对象我们报告三种推理方法,即采样,贪婪和波束搜索(波束大小为5),这两个测试运行。4.2实现细节参考[18]复制标准Oracle、Guesser和VQG基线。训练后的Oracle、Guesser在测试集上的误差分别为21.1%和35.8%。VQG基线在表1中称为基线。1我们用标准的Oracle、Guesser和VQG基线初始化训练环境,然后用建议的奖励函数开始训练VQG代理。我们用随机梯度下降(SGD)训练我们的模型100个时期[3]。学习率和批量大小分别为0.001和64。同时用SGD训练基线函数b在每个时期,每个训练图像被采样一次,并且其中的一个对象被随机分配为目标。我们设置最大轮数Jmax= 5和最大1这些结果由原作者在https://github.com/GuessWhatGame上报道12Junjie Zhang Qi Wu et al.表1:训练图像(NewObject)和测试图像(NewImage)的结果。方法NewObject NewImage抽样贪婪波束搜索抽样贪婪波束搜索基线[22]41.643.547.139.240.844.6Sole-r[18]58.560.360.256.558.458.4VQG-rg60.661.761.458.259.359.4VQG-rg+rp62.162.963.159.360.660.5VQG-rg+ri61.362.462.758.559.760.1VQG-rg+rp+ri63岁263岁663岁9五十九8六十岁。7六十岁。8问题长度Mmax= 12。对话回合奖励的权重设置为λ = 0。1.累进奖励设置为η = 0。12个。4.3消融结果分析在本节中,我们对所提出的中间奖励函数进行了全面分析。为了更好地显示每种奖励的有效性,我们进行了全面的消融研究。此外,我们还进行了人类可解释性研究,以评估人类受试者是否可以理解生成的问题,以及人类可以如何使用这些问题-答案对来实现最终目标。我们注意到,VQG代理训练与目标实现的奖励为VQG-rg,训练与目标实现和渐进的奖励为VQG-rg+rp,训练与目标实现和信息的奖励为VQG-rg+ri。用所有三个奖励训练的最终智能体记为VQG-rg+rp+ri。总体分析选项卡。图1示出了通过提出的中间奖励优化的VQG代理与[18]中提出的最先进模型之间的比较,该模型被标记为Sole-r,其使用是否达到最终目标的指示符作为唯一的奖励函数。正如我们所看到的,通过建议的中间奖励及其组合,我们的VQG代理在所有评估指标上都优于两个比较模型。更具体地,我们的最终VQG-rg +rp+ri代理在NewObject采样、贪婪和波束搜索上分别超过Sole-r4.7%、3.3%和3.7%的准确度,而在NewImage采样、贪婪和波束搜索上分别获得3.3%、2.3%和2.4%的更高准确度此外,我们所有的代理都以显著的优势超过了监督基线。为了充分显示我们提出的中间奖励的有效性,我们分别使用rg,rg+ rp和rg + ri奖励训练三个VQG代理,并进行消融分析。正如我们所看到的,VQG-rg已经优于基线和最先进的模型,这意味着控制对话轮可以推动智能体提出更明智的问题。分别结合rp和ri奖励,进一步提高了VQG agent的性能我们发现,从rp奖励获得的改善高于ri奖励,这表明在我们的实验中,中间渐进奖励的贡献更大我们的最终代理将所有奖励结合起来,并获得最佳结果。图3显示了一些定性结果。更多的结果可以在补充材料中找到,包括一些失败的案例。2我们使用网格搜索来选择超参数λ和η,我们发现0.1产生最佳结果。通过中级奖励实现目标导向的VQG131350011500950075000.60.50.40.30.2BaselineSole-r我们的VQG是甜甜圈吗?是的是个人吗没有是食物吗?是的在左边吗?不,这是食物吗?是的它是对的吗?是的在左边吗?没有是前面的吗?是的是在中间吗?没有155150500013500我们的Sole-r基线我们的Sole-r基线0.70.70.6[0.19,0.28][0.13,0.13,0.26,0.22][0.11,0.56,0.72]失败(错误的甜甜圈)失败(错误的甜甜圈)成功(右侧甜甜圈)115000.5是电话吗? 没有是遥控器吗? 没有是遥控器吗?没有是一本书吗?没有在左边吗?没有是笔记本电脑吗是的是在中间吗? 没有它是对的吗?是的在前面吗?是的950075000.40.3[0.10,0.20]失效(表)[0.07,0.03,0.02]故障(键盘)【0.20、0.48、0.99、1.00】成功(笔记本电脑)5505500012 340.25图3:左图:我们的代理(绿色)的一些定性结果,以及与基线(蓝色)和Sole-r模型(棕色)的中间数组中的元素表示每轮之后的成功概率右图:我们的代理和Sole-r之间的成功率比较,以及基线模型,在不同的对话回合。左y轴和右y轴分别指示成功对话的数量和比率对话回合我们进行了一个实验,以调查对话回合和游戏成功率之间的关系。更具体地说,我们让Guesser在每一轮选择对象,并计算给定轮的成功率,不同模型的比较如图所示3.第三章。正如我们所看到的,与其他模型相比,我们的智能体可以在更少的回合中实现目标,特别是在第三轮。为了证明我们的VQG代理可以在生成的问题上学习渐进趋势,我们通过观察Guesser在每一轮生成的概率分布来计算在目标对象上具有渐进(上升)趋势的成功游戏的百分比 我们的智能体达到60.7%,而基线和Sole-r分别为50.8%和57.3%,这表明我们的智能体更善于以渐进的趋势生成问题,考虑到我们正在进行progre ss errrrp。图中所示的一些常规测试结果。3,i. e. 的概率会显著增加。此外,我们还计算初始轮和最终轮之间的目标概率差,然后除以轮数J,i。e. ,(pJ(o*)−p1(o*))/J. 其价值在于程序的失败,这将影响我们的模型平均达到0.10,优于基线0.05和Sole-r0.08。这表明,在采取预防措施的情况下,我们能够以较高的目标概率“jump”实现最终目标通过将渐进式奖励与其他两种奖励相结合,智能体被设计为在有限轮内以渐进的方式达到最终目标,从而消除了无限小增加的情况。问题的信息性我们调查的信息性的问题,由不同的模型产生。我们让Oracle在每一轮回答所有对象的问题,并计算成功游戏中高质量问题的百分比。我们定义一个高质量的问题是一个不会导致所有候选对象的相同答案。实验结果表明14Junjie Zhang Qi Wu et al.我们的VQG代理具有87.7%的高质量问题,高于基线84.7%和Sole-r86.3%。这证实了ri奖励的贡献4.4人体研究我们进行人体研究,以了解人类如何从这些模型产生的问题中受益我们展示了100幅图像,其中包含来自不同代理人的问题-答案对。对于目标实现的奖励,我们让人类受试者猜测目标对象,即,把猜测者换成了人类八个受试者被要求在同一个分裂上进行游戏,如果超过一半的受试者给出正确答案,游戏就成功了。基于我们的药剂,受试者实现了最高的成功率75%,而在基线和Sole-r上分别实现了53%和69%。人类研究以及消融研究验证了我们提出的目标实现奖励的重要性对于渐进式奖励,由不同代理生成的每个游戏由人类受试者在1到5的尺度上进行评级,如果所生成的问题逐渐提高从人类角度猜测目标对象的概率,即,它可以帮助人类逐步达到最终目标,受试者给出的分数越高。然后我们计算八个科目的平均分数。基于实验结果,我们的代理平均达到3.24,高于基线2.02和Sole-r2.76.这表明我们的代理生成的问题可以以更渐进的方式导致目标。对于信息性奖励,我们通过要求人类受试者在1到5的范围内对其进行评分来评估每个生成的问题的信息性,如果这个问题对于从人类角度猜测目标对象是有用的,即,它可以消除混淆,区分候选对象的人,更高的分数将给予主体。然后,我们对每个问题的八个科目的分数进行平均。根据实验结果,我们的代理平均达到3.08,而基线和Sole-r分别达到2.45和2.76先进的结果表明,我们的代理可以产生更多的信息问题的人。5结论设计简洁的问题,导致双方的对话,满足一个共同的目标,尽可能有效的能力,具有重要的实际应用和理论意义。通过将适当制作的中间奖励引入深度强化学习框架,我们已经证明,至少对于特定类别的目标,可以实现这一结果我们设计的方法不仅实现了最终的目标,可靠和简洁,但也优于最先进的。我们在这里提出的中间奖励技术也可以应用于相关的目标导向任务,例如,在机器人导航中,我们希望机器人花费尽可能少的动作到达目的地,或者在棋盘游戏中,我们设计AI以快速获胜。我们的中间奖励可以在这些场景中使用,以开发高效的AI代理。通过中级奖励实现目标导向的VQG15引用1. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:学习构建神经网络进行问答。在:NAACL HLT 2016,2016年计算语言学协会北美分会会议:Human Language Technologies,San Diego California,USA,2016年6月12日至17日。pp. 15452. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M.Batra,D.,LawrenceZitnick,C.Parikh,D.:Vqa:可视化问答。In:Proceedings of the IEEEInternational ConferenceonComputerVision. pp. 242 53. Bottou,L.:随机梯度下降的大规模机器学习。见:《公司章程》,2010年,第100页。 177-186 02TheDog(2010)4. Das,A.,Kottur,S.,古普塔,K.,Singh,A.,Yadav,D.,J.M.F.,Parikh,D. Batra,D.:可视化对话框。CoRR abs/1611.08669(2016)5. Das,A.,Kottur,S.,J.M.F.,Lee,S.,Batra,D.:用深度强化学习学习协作视觉对话代理。In:美国电气与电子工程师学会国际规程配置文件Vis. pp. 29706. 埃尔阿斯里湖拉罗什河Pietquin,O.:对对话管理进行统计优化的奖励塑造。在:统计语言和统计过程国际会议. pp. 93比101 02TheDog(2013)7. 胡河Andreas,J.,Rohrbach,M.,Darrell,T.,Saenko,K.:学习推理:用于可视问答的端到端模块网络。In:美国电气与电子工程师学会国际规程Co n f. Comp. Vis. pp. 8048. Johnson,J.,Karpathy,A.,李菲菲:Densecap:用于密集字幕的全卷积
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功