面向目标的视觉语言推理策略分布的信信息获取

150 浏览量更新于2023-10-25 收藏 746KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1淘金者：面向目标的视觉语言推理策略分布的信息获取Ehsan Abbasnejad1，Iman Abbasnejad2，Qi Wu1，Javen Shi1，Anton van denHengel11{ehsan. abbasnejad，qi.wu01，javen. shi，anton. vandenhengel}@adelaide.edu.au2i.fugro.com1澳大利亚机器学习研究所澳大利亚阿德莱德大学2Fugro Australia Marine摘要随着计算机视觉从被动的像素分析转向主动的语义分析，需要进行推理的信息算法的广度显著扩大。这方面的关键挑战之一是识别做出决策所需的信息并选择将恢复该信息的操作的能力。我们提出了一种重复学习方法，该方法在其内部信息上保持分布，从而明确地表示其所知道的和需要知道的内容的模糊性，以实现其目标。然后，根据该分布生成潜在的动作。对于每个潜在的行动，计算预期结果的分布，并评估潜在信息增益的价值。所采取的行动是使潜在的信息增益最大化的行动.我们证明了这种方法适用于两个视觉和语言的问题，吸引了显着的最近的兴趣，视觉对话和视觉查询生成。在这两种情况下，该方法积极选择最能减少其内部不确定性的行动，并在实现挑战目标方面优于其竞争对手1. 介绍计算机视觉可能应用的大多数问题都可以从能够主动寻找所需信息的代理中受益匪浅。这可能是因为所需的信息在训练时不可用，或者因为它太广泛而无法体现在算法的代码或权重中。寻求完成任务所需信息的能力能够实现一定程度的灵活性和鲁棒性，这是通过其他方式无法实现的。一些位于视觉和语言交叉点的应用程序具有此属性，包括视觉对话[12，11]，视觉问答[13，23，40]，以及常规RL拟议RL图1：在许多传统的基于RL的代理中，SEEKER的作用是根据当前（单个）策略选择操作。在面向目标的视觉对话中，这意味着根据图像和对话选择下一个查询。我们提出的SEEKER，而不是利用分布的政策，以产生多- tiple查询假设。然后选择使潜在信息增益最大化的一个。从这个意义上说，智能体能够识别它所掌握的信息中的空白，并提出将填补这些空白的问题视觉和语言导航[6]。这些问题需要智能体（模型）即时获取信息以帮助决策，因为所有可能的问题（或对话）的空间包含的信息比训练集中编码的信息更多。此外，最近已经提出了一系列任务，这些任务这些任务提供了一个特殊的挑战，因为可能涉及的所有信息的集合不可避免地非常广泛，这使得具体的表示难以实际使用。在可视化对话中，特别是面向目标的可视化问题生成中，代理需要理解用户请求并通过询问有限数量的问题来完成任务。类似地，组成VQA（例如，[21]）是一个可视化查询生成问题，它需要一个模型首先将自然语言问题转换为一系列动作（13450查询1查询2策略分发政策查询1选择查询选择查询…对话历史对话历史13451引擎上的程序问题到程序模型表示信息“搜索者”，而更广泛的目标是根据所适用于这些任务的代理通常由四个部分组成：一个上下文编码器，一个信息搜索器，一个respon- der和一个目标执行器，如图2所示上下文编码器负责将图像、问题或对话历史等信息编码为特征向量。信息搜索者是一个模型，能够根据给定任务的目标及其策略生成新的查询（如自然语言问题和程序）。响应者返回的信息被添加到上下文和内部信息中，并发送到目标执行器模型以实现目标。探索者模型在目标导向的视觉和语言任务中起着至关重要的作用，因为更好的寻找策略可以恢复更多的信息，从而提高目标实现的机会。此外，搜索者在本文中，我们专注于探索的搜索者和响应者模型。这些任务中的常规通过监督学习来生成程序序列。这需要大量的地面实况训练对。因此，在这种目标导向的视觉语言任务中采用再激励学习（RL）来调解这个问题，因为RL能够通过定向试验和错误专注于实现目标[13]。RL模型中的策略指定了搜索者如何请求额外信息。然而，这些方法通常具有两个主要缺点：(1)它们保持将输入序列转换为输出的单一策略，而不考虑所需的战略多样性。直观地说，单一的策略是不够的，在查询不同的信息内容为各种目标，我们需要多种策略。此外，（2）在这些方法中采用的RL可能是非常低效的，因为问题生成过程（或查询生成）不考虑其在引导代理朝向目标方面的效果事实上，智能体并不知道它需要什么信息，也不知道它如何在实现目标的过程中获益。为此，与使用单个策略来建模视觉和语言任务的传统方法相反，我们保持了策略的分布。通过采用贝叶斯强化学习框架来学习搜索者策略的这种分布，我们的模型将从查询中获得的预期收益纳入其中，以实现其目标。我们的框架，总结在图。1，使用最近提出的Stein变分梯度下降[26]来执行后验策略的有效更新。在寻求策略上有一个分布，我们的代理能够考虑各种策略来获得进一步的信息，图2：信息搜索者维护策略的分布。来自分布的每个样本（粒子）可以生成不同的查询。对于每个查询，响应器评估其增益，并选择最好的一个在EXECUTOR中执行。根据查询导致实现其目标的程度，更新策略分布信息，类似于人类思考提出问题的各种来自搜索者的策略帖子的每个样本这允许代理在寻求额外信息之前进一步考虑各种策略的结果，并考虑目标的后果。然后，我们正式的代理评估的结果，以实现其目标的接收额外的信息的方法。这个结果是策略分发接收到的更新其问题生成策略的内在奖励我们将所提出的方法应用于两个复杂的视觉和语言任务，即GuessWhat [13]和CLEVR [21]，并表明它优于比较基线，并实现了最先进的结果。2. 相关工作目标导向的可视化对话框Daset al. [12]提出了一个视觉对话任务，需要一个代理人参与与人类的交谈，集中在一个给定的图像的内容。他们进一步（在[11]中）提出在视觉对话的两个任务中使用强化学习。de Vries等人在[13]中提出了一个Guess-What游戏数据集，其中一个人询问有关图像的问题以猜测已选择哪个对象，第二个人回答。这是发展目标导向的视觉对话的关键一步，因为那里的目标不仅仅是继续对话，而是实现一个次要目标（赢得比赛）。Lee等[24]然后开发了一种信息理论的方法，允许提问者在GuessWhat中提出适当的连续问题。强化学习（RL）[22，44，30]已被采用在几个策略分配等式（六）上下文编码器是个人吗有多少立方？信息寻求者目标执行者答案响应者响应1响应2回应3当量（二）更新参数等式（七）计算新的奖励等式。（四）增益3增益2增益1查询2查询1查询3政策3策略2政策1选查询…………13452t=1t=10 0视觉和语言问题，包括图像标题[27，35，36]，VQA[17，4，10]和视觉对话[11，29]。最近，一些作品[8，41，5，3]已经集成了响应者生成响应a（t）。RE-SPONDER模拟查询的潜在响应并评估其值。经过T轮的Seq2Seq模型和RL. RL也被广泛用于进程，元组（I，C，{q（t）}T，{a（t）}T）发送到改进对话管理器，它管理转换，对话状态之间[34]。然而，几乎所有的方法都使用一个将输入序列转换为输出的策略。相反，在我们的工作中，我们维护策略的分布。内在奖励内在奖励是指在强化学习中从环境中获得的奖励。这些奖励的动机是物质奖励的稀疏性和激励更好探索的需要。例如，好奇心[32]就是这样一种内在奖励机制，它鼓励代理人访问新的状态。这个想法已经扩展到使用贝叶斯方法来学习采取行动的策略的预期改进[16，19]。我们使用视觉和语言任务中的预期增益作为内在奖励来改进我们的模型。3. 目标导向的视觉语言任务我们将面向目标的视觉和语言解决方案表示为具有四个组成部分。SEEKER将由ENCODER产生的编码图像和上下文特征作为输入，以生成查询，从而从RESPONDER寻求更多信息，该RESPONDER将生成响应。RESPONDER的作用是对环境进行建模，以便允许代理确定最好询问哪个查询。它接受一个问题来产生一个答案和它的预测分数。我们的RESPONDER是[11]中“A-BOT”的扩展这是一个关键的区别，代表了一种在统计上更合理的方法。为了实现我们的方法，我们开发了一个合成的RESPONDER，灵感来自神经科学的代理公式，计算意图转化为行动，并根据预测和实际经验评估其后果[9]。通常，SEEKER学习策略以基于图像和上下文特征生成查询。在我们提出的方法的主要新颖性是，搜索者，而不是保持一个分布的政策，使多个查询假设进行采样。然后，响应者计算每个假设的信息增益上限最后的查询是对应于最大信息增益（上界）的查询。形式上，对于第t轮的每个游戏，我们有一个元组（I，C，q（t）），其中I是观察到的图像，C是当前第1轮的上下文信息，q（t）是查询由SEEKER代理生成。随后，发送q（t）从候选列表中选择目标的EXECUTORO={o1，o2，...，oN}。地面实况目标被表示为o，并且如果o被EXECUTOR成功选择，则游戏成功。更具体地说，在Guesswhat（可视对话）设置中，C是对话历史，q（t）是自然语言问题。然后，O是候选对象边界框。答案a（t）由oracle提供为是/否或N/A（不适用于问题不相关的情况在CLEVR（VQA）中，C是用户提出的单个问题，q（t）是函数程序，而O是候选答案词汇表。这个问题的答案与目标候选人相同。3.1. 强化学习强化学习考虑代理通过采取一系列动作并通过标量奖励评估其效果来与环境进行交互。智能体考虑一个视觉和语言任务，其中智能体在给定状态s（t）的每个时间步t生成查询q（t）∈ Q。每个s（t）包含对话的历史（包括过去的问答对）和输入图像。在接收到查询的答案a（t）∈ A时，代理然后观察新的状态s（t+1）并接收标量奖励r（s（t），q（t））∈R。在这个任务中，强化学习的目标是找到一个查询策略π（q（t））。|s（t），θ）给定状态s（t），以最大化预期收益：Σ∞J（π）=Es，q，. nπ[γtr（s（t），q（t））]，t=0其中0≤γt≤1是贴现因子。状态变量s（t）通常被定义为包含所有的输入，代理采取行动所需的形式（在我们的应用程序中，生成查询）。期望收益J因为q（t）<$π（q（t））|s（t），θ）从策略（分布）π（即π（θ|C、I、C）。状态s（t+1）<$P（s（t+1））|s（t），q（t））是由未知的导引头的环境动力学产生的。在政策上，梯度算法[45]，如众所周知的REINFORCE [46]，梯度由来自策略π（q）的样本估计|s，θ）。具体而言，REINFORCE使用以下策略梯度的近似器：Σ∞θ logπ（q（t）|s（t），θ）r（s（t），q（t）），t=0此梯度是基于单个卷展栏轨迹计算的，[1]为了清晰起见，去掉了对ttory，其中r（s（t），q（t））=∞i=0时γir（s（t+i），q（t+i））是13453我我从时间步长t开始的累积返回。4. 信息服务器和响应器如前所述，我们的方法维护了策略分布π，并使用RESPONDER和EX-ECUTOR对其进行更新。简而言之，我们的方法采取以下步骤来训练信息寻求代理：1. 根据历史和上下文，查询的分布为：∫其中u 是答案的评分函数，ω是响应器的参数集。这里，p（a|s（t），q（t），C，I; ω）是RESPONDER中给定查询的答案的概率。这是一种有效的评估--评估答案的得分。特别地，我们发现ω使得该策略下的期望目标最大化。实际上，只有当代理相信它接收到的答案a（t）最终最大化了在状态s（t）实现其目标的增益时，代理才在时间t查询q（ t ）。例如，在Guess- What游戏中，RESPONDER会在历史数据和当前问题中进行分析，并评估其效果π（q（t）|s（t），C，I）=π（q（t）|s（t），θ）π（θ|C，I）dθ，为了实现目标（即，正确的对象）。为了将此措施集成到RL框架中在这里我们可以采样以生成查询，即，q（t）<$π（q（t）|s（t），θi），θi<$π（θ|（1）第一条对于i = 1，. - 是的- 是的，n;其中n是模拟可进行的备选查询的查询样本的数量2. 我们的RESPONDER对潜在答案的信念进行建模，并计算每个查询q（t）的增益。以来我们用这个收益作为奖励。该奖励是通过根据其在等式中的增益选择最佳查询来收集的。(2)，即，maxq（t）Gω（s（t），q（t））（尽管在实践中，我们以概率ω从SEEKER鼓励探索）。此外，受好奇心驱动和信息最大化探索的启发[16，32]，我们将这种收益作为考虑收益的内在动机，即rnew（s（t），q（t））=r（s（t），q（t））+ηGω（s（t），q（t））（3）Σ∞最终我们需要选择一个查询，我们选择一个具有最高增益，并将其纳入RL的奖励（见第4.1节）;J（θ）=Eπ（s，q|θ）[t=0γtrnew（s（t），q（t））]，⑷3. SEEKER对策略空间上的信念进行建模，而不是仅维护单个策略（因此，我们可以从其分布中采样多个参数，当量① ①）。后π（θ|{q（t）}T，{a（t）}T，o，C，I）当η≥0时，它控制着内在奖励。在新的策略中，在更新策略时考虑了Agent当探索者知道答案和它的增益很小，参数不变t t显著。换句话说，没有必要进一步考虑执行查询的结果（P0-可能在多轮），并且先验被公式化为RL框架的一部分。这里，a（t）是从环境中获得的正确答案。例如，在GuessWhat游戏的情况下，它是从Oracle获得的答案。(see第4.2节）;4. SEEKER通过合并来自环境的反馈来更新其对策略分布的该更新必须确保SEEKER参数的后验保持有效（参见第4.3节）。4.1. 查询增益和RESPONDER在我们的方法中，代理保持一个环境模型（RESPONDER），以便能够预测最有价值的问题。代理使用此模型来模仿目标EXECUTOR的行为，并预测其潜在的响应。利用这个模型，代理生成带有答案的查询，使其更接近实现其目标。特别地，我们定义从状态s（t）的增益为，Gω（s（t），q（t））= Ea[u（p（a|s（t），q（t），C，I; ω））]（2）13454对已知答案的问题进行修改。另一方面，当代理预期从答案中获得很大的收益并获得很大的奖励时，必须通过参数的较大变化来调整策略类似地，如果代理期望获得很大的收益而没有得到奖励，则必须对策略进行重大更新。此外，对于SEEKER的每个参数和每个对应的查询q（t），我们有不同的增益。因此，当该增益Vq（t）[G（s（t），q（t））]的方差小时，所有查询被期望具有相似的答案，因此几乎相同。这种方法的优点是双重的：（1）它有助于处理稀疏的奖励，（2）如果查询的响应通过提供更好的增益来承载更多的信息，我们会鼓励它的正强化。这允许代理学习模仿目标执行器的行为，并推广到看不见的情况。4.2. InfSEEKER如在Eq. (1)，每个查询都是从搜索者参数θ的每个样本都会产生不同的查询策略，13455i=1不J不来模拟策略分发。这种分布允许代理考虑替代方案，或考虑各种查询策略，以提高整体对话性能。因此，在这里，我们将策略参数θ视为随机变量（导致随机策略，我们可以对其分布进行建模），并寻求优化预期回报的分布。例如，我们在策略参数上引入了先验分布π0，用于当我们没有查询-响应对的答案时，或者用于引入参数的先验知识。传统定义中的后验是π（θ|C+，I）π（o|{q（t）}T，{a（t）}T，C，I，θ）π0（θ）.图3：SEEKER策略的多模态分布的说明。与传统的只探索最近模式的策略梯度方法不同，我们的新方法总是使用一些初始点（即，政策参数），共同探索多种模式，t t多种策略。我们只显示了两个初始点，一个红色的矩形-其中，我们将C+=C<${{q（t）}T，{a（t）}T，o}表示为角和黑色星号，以便于可视化。一个探索者的回合的推出增强了上下文(for在GuessWhat中实例化一个对话轮）。由于我们需要为目标定义一个额外的可能性，即使这样，这个后验也是难以处理的（除非进行了主要的近似和简化假设），我们也可以使用这个后验的RL框架。具体来说，我们将问题公式化，以找到策略分布π，在该分布下，期望的累积奖励在额外的先验正则化下最大化：类似的熵正则化思想已经在其他强化学习方法中进行了研究[28，38]。然而，在我们的方法中，我们使用正则化来获得信息寻求框架中的政策参数的后验，其中来自BLON-DER的增益细化了政策分布。4.3. SEEKER的Maxπ.ΣE π（θ|C+，I）[J（θ）] −αKL（π <$π0）、（五）一种传统的方法，利用后在方程。（6）是马尔可夫链蒙特卡罗（MCMC）抽样。怎么-其中KL（π<$π0）=Eπ[log π（θ|C+，I）−log π0（θ）]。有效地，我们寻求一个参数分布，产生最大化期望报酬而又接近先验的策略很容易看出，如果我们使用无信息先验，如均匀分布，第二个KL项被简化为π的熵。然后优化，n在方程。（5）须─来maxπEπ（θ|C+，I）[J（θ）]+αH（π）其中，它鼓励在参数空间中进行探索这种探索产生了不同的政策，导致不同的查询。通过对方程中的目标函数求导，(5)并将其设为零，则得到策略参数θ的最优分布为π（θ|C+，I）<$exp（J（θ）/α）π0（θ）.（六）在此公式中，π（θ|C+，I）是常规贝叶斯方法中参数θ的“后验”。因此，exp（J（θ）/α）实际上是“似然”函数。系数α是控制参数空间中的探索以及后验距先验多远。当α→0时，从π（θ）中抽取样本，|C+，I）将集中在一个单一的政策，并导致较少的不同寻求者。记住Eq。(4)这里的如果它的回报是但由于J（θ）估计的随机性，MCMC方法计算量大，收敛速度慢，方差大。由于估计J（θ）本身是一项计算要求很高的任务，并且对于每个策略可能会有因此，我们不使用J（θ），而是使用梯度-利用Stein变分梯度下降法确定导引头策略变化方向的队形θJ（θ）（SVGD）用于贝叶斯推断[25，26，2，1]。SVGD是一种非参数变分推理算法，利用有效的确定性动力学来传输一组粒子{θi}n来近似给定的目标后验分布π（θ|C+，I）。与传统的变分推理方法不同，SVGD不限制近似在参数族中，这意味着搜索者此外，SVGD比MCMC收敛得更快，这是由于确定性更新有效地利用了SEEKER该推断通过迭代地更新多个“par”来有效地执行当θ i = θ i +<$θ <$<$（θ i）时，其中<在这里，选择了一种解决方案，这有助于最小化粒子与目标分布之间的KL发散结果表明，该函数具有封闭形式的经验估计[26]：1Σn更高，则需要对参数进行更大的改变，以允许利用关于当前策略对目标的影响的新知识θi=nj=1[θlogπ（θj|C+，I）k（θj，θi）+<$θjk（θj，θi）]。（七）13456算法1搜索器输入：学习率kθ，kω，内核k（θ，θ′），初始策略粒子{θi}，上下文历史C，图像I。对于迭代t = 0，1，..，对于粒子i = 1，. - 是的- 是的，n do样本q <$π（q|s（t），C，I; θi）根据等式2计算G（s（t），q）。（二）、端选择具有最大增益的q（t）a（t）= arg maxap（a |s（t），q（t），C，I;ω）5. 实验为了评估SEEKER的性能，我们在两个不同的面向目标的视觉和语言数据集上进行了实验：[13]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎。前者是一个视觉对话任务，后者是一个组合视觉问答任务。在这两个实验中，我们使用监督模型对网络进行预训练，并使用强化学习进行优化，这是该领域的常见做法[11，13]。策略通过抽样生成从政策后验θ <$π（θ|C+，I）并生成ω← ω+<$ω <$ωlog.Σp（o |a（t），s（t）; ω）斯诺克具有响应者测量的最高增益的查询。计算公式中的θiJ（θi）（四）、从Eq。（三）对于粒子i = 0，1，.，n是否Jnew（θj）=1J（θj）+ logπ0（θj）我们的方法在这两个方面都例请注意，我们的方法是与架构无关的，因此我们希望使用更好的表示，第一αΣΣn<$θJnew（θj）k（θj，θi）+<$θk（θj，θi）性能进一步。nj=1j jθi←θi+θi更新策略首尾相接其中k是与RKHS空间相关联的正定核。在此更新规则中，第一项包含梯度<$θlog π（θ|C+，I），其将搜索者的策略粒子θ i移向高概率re-1。通过在相似的粒子间共享信息第二项<$θjk（θj，θi）利用参数空间的曲率将粒子推离，从而使搜索者的策略多样化图1显示了政策前景的一个例子。3.来自策略分布的每个初始样本可以朝向高度多模态分布的模态之一这些行动是由政策的梯度，在我们的情况下，包括代理人此外，核k控制参数之间的距离，以防止在多模态分布中塌陷到单个点。从图中可以直观地看出，通过结合答案并考虑策略的分布，来自奖励的更好的梯度通过引导参数更新来提高值得一提的是，即使我们只从一个q（t）样本中得到一个样本的奖励，5.1. GuessWhatGuessWhat [13]是一个经典的目标导向的视觉对话游戏。在每个游戏中，场景中的一个随机对象被分配给回答者，但对提问者（我们的SEEKER）隐藏。提问者可以问一系列是/否问题来定位对象。在问答环节中，对象列表也是隐藏的一旦提问者收集了足够的信息，猜测者（我们的执行者）就可以开始猜测了。如果猜对了，游戏就成功结束。外部奖励是对话结束时的“一”（即，一系列的问题-答案）当预测的对象与预言者选择的真实对象相匹配时。Implementation Details In our model, the informationseeker is a set of 10 recurrent neural networks (RNNs) thatrepresent the particles from the likelihood in Eq. （六）、我们在这些RNN中使用LSTM [15]单元，其参数根据等式更新。(7)来模拟臀部这些LSTM网络的隐藏表示（大小为1024）对应于奖励函数中的状态。使用VGG[39]获得图像表示。图像和历史特征的串联被赋予SEEKER中的每个粒子以用于问题生成，其中每个单词都以其前一个单词为条件进行采样我们使用u（·）=e×p（·）作为公式中计算增益的得分函数(2)，并在Eq中奖励。（四）、粒子（来自Eq.2）由于我们的正式化，邮政-我们设η= 0的情况。1×epochmax−epoch最大历元鼓励针对所有粒子调整Rior，从而允许传播反馈。值得注意的是，参数空间的多样化允许对高度多模态的政策空间进行准确建模否则，政策分布崩溃到一个单一的点，这是相同的传统的最大后验概率（MAP）估计。这MAP估计只考虑一个单一的政策，在视觉语言的高度复杂的任务是不够的。在初期阶段探索更多的政策此外，本发明还提供了一种方法，α= 0。001。我们使用[26]中的中值技巧来计算RBF核的r型参数，确保jk（θi，θj）<$1.总体结果我们比较了两种情况下，标记为新对象和新图像。在前者中，所寻找的对象是新的，但图像是以前见过在后者中，意象也是先前看不见的。我们报告的预测精度为猜测对象。很明显，Σ13457模型新对象新形象[13]第十三话41岁639岁2[13]第十三话四十三5四十8RL-S[40]五十六5五十八5[40]第四十话六十岁。3五十八4[47]第四十七话62. 6-[47]第四十七话63岁5-[47]第四十七话68岁3-我们的（没有内在奖励）63岁3-我们六十四262. 1Ours+MemoryNet（单）七十167岁9我们的+MemoryNet74岁4七十二1表1：在Guess- What数据集中识别目标对象的准确性（越高越好）。“S”指示器用于对单词方法进行采样，而“G”是贪婪的。我们的+MemoryNet是使用Memory网络和Attention的修改RESPONDER的方法。此外，（Single）表示使用单个粒子训练我们的方法。对于新对象，通常更高，因为它们是从已经看到的图像中获得的。结果总结于表1中。如图所示，与监督基线相比，使用传统的REINFORCE [40]通过对每个单词进行采样（RL-S）或随机选择一个单词（RL-G）来显著提高由于我们的方法更好地探索和利用了问题生成的策略空间，因此它获得了更好的性能。此外，当采用更好的目标搜索器或响应器模型时，这种性能会得到改善。更好的RESPONDER导致更现实的内在奖励，对应于真实收益，并将策略分布引导到更好的后验。例如，在RESPONDER中使用记忆网络[43]可以提高其性能，这反过来又反映在问题的质量上，从而使Agent请注意，即使在这种情况下，单粒子实验也得到了改进，因为奖励更准确地评估了问答关系。5.2. ClevrCLEVR [21]是一个综合生成的数据集，包含700K（图像，问题，答案，程序）元组。图像是各种形状、材料、颜色和大小的3D渲染对象。问题本质上是组成性的，范围从计数问题到比较问题，可以是40多个单词。答案是一组28个选项中的一个单词。对于每一个图像和问题，一个程序包括一步一步的指导，如何回答这个问题。在测试过程中，没有给出程序，这些程序需要根据输入问题生成。当生成的程序产生正确答案时，模型总体计数比较存在查询比较数字属性属性NMN [7]72.152.572.779.379.078.0N2NMN [17]88.868.584.985.790.088.8人类[21]92.686.786.496.695.096.0LSTM+RN [37]95.590.193.697.897.197.9PG+EE（9K）[20]88.679.779.789.792.696.0[20]第20届中国国际电影节95.490.196.295.397.397.9[20]第二十届中国国际汽车工业展览会96.992.798.697.198.198.9电影[33]97.694.593.899.299.299.0DDRprog [42]98.396.598.498.899.199.0MAC [18]98.997.299.499.599.399.5TbD-net [31]98.796.899.198.999.499.2TbD-net++[31]99.197.699.499.299.599.6我们的+G+熵（9k）91.486.493.689.893.296.2我们的+G+熵（18k）95.693.396.895.497.898.1我们的+G+熵（700k）97.496.898.198.296.298.1Ours+D+entropy（9k）94.792.295.693.295.197.7Ours+D+entropy（18k） 96.694.696.195.698.198.6我们的+D+熵（700k）98.398.199.197.198.698.8我们的+G+exp（9k）91.887.593.790.293.196.5我们的+G+exp（18k）96.393.396.895.497.898.1我们的+G+exp（700k） 98.096.298.698.098.099.0我们的+D+exp（9k）95.291.596.793.895.798.7我们的+D+exp（18k）97.194.598.296.198.398.6我们的+D+exp（700k） 98.997.899.298.999.599.3我们的+D+exp++（700k）99.297.899.599.499.699.6表2：CLEVR数据集上最当与通用架构和熵增益一起使用时， “Ours+G+entropy” 是我们的搜索器;“Ours+D+entropy”是相同的，除了使用设计的体系结构。类似地，“Ours+G+exp”是具有uexp的通用架构;并且，“Ours+D+exp”是其设计的对应物。我们实现了最先进的性能，特别是使用更小的地面实况节目“++”指示符表示模型是使用更高分辨率的28 × 28特征图而不是14 × 14特征图训练的实现细节我们遵循[20，21]的实验设置，其中使用ResNet [14]对给定图像进行编码，并使用标准LSTM[15]在上下文编码器中生成程序。我们在Al-出租m 1中使用10个粒子来使用来自预训练模型的样本对策略分布进行建模，其中添加了噪声，以便它们对应于不同的初始策略。为了更有效地实现，我们在底层Seq2Seq模型中为编码器使用两组共享参数，并为LSTM解码器使用这种参数共享还确保了粒子学习的共同潜在表示。我们在第4节中使用我们的信息搜索者模型为每个问题生成样本或程序，并考虑使用响应者内部选择一个程序的结果。一旦程序生成，它就由目标执行器执行，以获得反馈并计算相应的奖励。然后使用计算的奖励来更新所讨论的策略分布。我们使用Adam优化方法，将学习率设置为10−5来更新13458图4：一个问题的例子和使用CLEVR中的后验样本生成的程序。来自策略分发的样本获取输入图像和问题，并生成其对应的程序。如所观察到的，这两个样本产生不同的程序序列，这使得能够探索在云中顶部显示的目标（最终答案）上的多个分布每个问题的期望得分Gω（s（t），q（t））为我们提供了一个指示，表明哪一个问题更好。搜索者和响应者测试过程因此采取图像和问题对，产生程序，然后目标执行器产生答案。然后目标EXECUTOR评估生成程序的质量。我们设置α= 0。01和η类似于GuessWhat实验。对于响应者和执行者，我们考虑两个备选基线：（G）与[20]类似的通用模型，其中每个模块遵循通用架构;以及（D）类似于[31]设计，其中每个模块基于期望的操作而专门设计。1.50一个不同的程序。此外，我们能够利用模型中的注意力机制来推理信息搜索者关注的图像位置图5绘制了每次迭代的平均奖励，以及策略中粒子之间的平均距离如果问题确实是单峰的（如传统的方法，如-numerous），所有的粒子将崩溃到一个单一的点，指示的一个零平均距离。然而，正如所观察到的，虽然粒子之间的距离在早期阶段减小，但它们很快增加，表明收敛到独立模式。与[23]不同，我们的上下文编码器是一个像素级模型，它不会从给定图像中显式提取对象公平地说，我们只考虑那些1.01.451.40直接可比。0.50.00.502505007501000125015001750 2000迭代1.351.301.251.201.15025050075010001250150017502000迭代6. 结论如果代理人要超越执行，识别支持结论所需的信息以及获得结论所需的行动的能力是一种关键能力图5：每次迭代时智能体的平均奖励;以及CLEVR后验中粒子之间的平均距离。我们报告目标执行器的准确性。由于后一种情况在每个模块上提供了更好的表示，因此我们希望它的性能更好。此外，我们使用两个函数-等式u_entropy（·）=10g（·）（对应于期望中的增益的信息论概念）和u_e_xp（·）=e_xp（·），以在响应R的分数的输出上操作，（二）（4）. Tab中的结果2表明，我们的方法几乎在最大程度上超过了基线。特别是，我们的方法几乎实现了与[20]相同的性能，其中一半的程序用于使用相同的神经架构进行训练此外，u的选择会影响找到的策略，例如使用u熵通常会导致在“count”函数中表现出色。因此，由于uexp具有较小的范围并且更平滑，因此它在训练期间为所有模块中的错误提供了更均匀的惩罚，从而导致通常更好的性能。如图4所示，策略中的每个示例都生成低层次的规定任务，以实现灵活的高语义层次的目标。我们所描述的方法能够推理它所拥有的信息，以及实现目标所需的信息，以确定最能填补两者之间空白因此，我们的方法积极寻求它需要的信息，以实现其目标的基础上，在自己的理解的不确定性模型如果我们要使代理能够积极地朝着一个高层次的目标工作，我们的方法所展示的能力将是至关重要的。特别是，智能体需要能够考虑实现目标的替代政策及其相应的不确定性，评估执行这些政策的结果及其获得的信息。鸣谢：本材料基于空军研究实验室和DARPA根据协议编号FA 8750 -19-2-0501赞助的研究。美国政府获授权为政府目的复制和分发重印本，尽管其上有任何版权注释。…问：前面的金属立方体是什么颜色？颜色独特形状立方权前形状立方金属颜色独特形状立方金属权形状立方前奖励n1n我J||2||青色绿色i、j13459引用[1] Ehsan Abbasnejad，Anthony R.迪克和安东·范登亨格尔。用于半监督学习的无限变分自动编码器见CVPR，第781IEEE计算机学会，2017年。[2] Ehsan Abbasnejad，Justin Domke，and Scott Sanner.损失校准蒙特卡罗行动选择。2015年第29届AAAI人工智能会议[3] Ehsan Abbasnejad ， Qinfeng Shi ， Anton van denHengel，and Lingqiao Liu.生成对抗密度估计器。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。[4] Ehsan Abbasnejad ， Damien Teney ， Amin Parvaneh ，Qinfeng Shi，Anton van den Hengel，and Lingqiao Liu.反事实视觉与语言学习。在IEEE计算机视觉和模式识别会议（CVPR），2020年6月。[5] Ehsan Abbasnejad，Qi Wu，Qinfeng Shi，and Anton vanden Hengel.有什么好知道的？不确定性作为提出目标导向问题的指导。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月[6] Peter Anderson，Qi Wu，Damien Teney，Jake Bruce，Mark Johnson ， Niko Sünderhauf ， Ian Reid ， StephenGould，and Anton van den Hengel.视觉和语言导航：在真实环境中解释视觉基础的导航指令。在CVPR，2018年。[7] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。CVPR，第39-48页[8] Nabiha Asghar，Pascal Poupart，Jiang Xin，and Hang Li.开放域会话代理的在线序列到序列强化学习。arXiv预印本arXiv：1612.03929，2016。[9] Valérian Chambon Nura Sidarus和Patrick Haggard从行动意图到行动效果：这种能动性是如何产生的？Frontiersin Human Neuroscience，8：320，2014.[10] 安东·范登·亨格尔达米安·泰尼，伊桑·阿巴斯内贾德。整理数据以改进泛化。 arXiv 预印本 arXiv ：2002.11894，2020。[11] A.达斯，S。Kottur，J. M F. Chelsea，S. Lee和D.巴特拉学习合作的视觉对话代理与深度 rein-learning 。在ICCV，第2970-2979页[12] Abhishek Das 、 Satwik Kottur 、 Khushi Gupta 、 AviSingh、Deshraj Yadav、José MF Mrsana、Devi Parikh和Dhruv Ba- tra。可视化对话框。InICCV，2017.[13] Harm de Vries ， Florian Strub ， Sarath Pastar ， OlivierPietquin，Hugo Larochelle，and Aaron C.考维尔你猜怎么着？！通过多模态对话的视觉对象发现。在CVPR，2017年。[1

下载后可阅读完整内容，剩余1页未读，立即下载