新型基于注意力的自适应计算算法在视觉推理中的应用

43 浏览量更新于2023-10-25 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1视觉推理Cristo' bal Eyzaguirre andA' lv aroSotoPontificia Univ ersidad Cato' licadeChile网址：ceyzaguirre4@uc.cl，asoto@ing.puc.cl摘要本文提出了一种新的基于注意力的自适应计算算法DACT，与现有的算法不同，它是端到端可微的。我们的方法可以与许多网络结合使用;特别地，我们研究了它在广为人知的MAC结构中的应用，获得了实现类似精度所需的递归步骤的数量的显著减少，从而提高了其性能计算比。此外，我们表明，通过增加所使用的最大步骤数，我们甚至超过了CLEVR数据集中最好的非自适应MAC的准确性，我们的方法提供的其他优点包括通过丢弃无用的步骤大大提高了可解释性，并提供了对底层推理过程的更多见解。最后，我们提出了自适应计算作为一个等价的合奏模型，类似于混合的expert制定。我们实验的代码和配置文件都可以用来支持这一领域的进一步研究。1. 介绍在过去的几年里，深度学习（DL）技术在大多数（如果不是全部）计算机视觉任务中取得了最先进的性能[17，21，8，10]。虽然这些方法在表示能力方面很强大，但它们缺乏合适的机制来根据每个特定推理的复杂性实际上，计算机视觉应用中使用的最流行的基于DL的模型，如CNN [18]，RNN [18]，Transformer[24]和MAC [10]具有固定的处理流水线，其深度与当前输入/输出关系的复杂性无关。与使用固定处理流水线相关联的缺点可以通过考虑需要复杂顺序推理的任务来说明。这是新的可视问题查询（VQA）场景的情况，图1. CLEVR [15]数据集中的问题示例显示，正确回答这些问题所需的推理步骤数量存在显著差异。最近被提出来支持视觉推理领域的研究，例如CLEVR和GQA数据集[15，11]。这些数据集提出了关于图像的具有挑战性的自然语言问题，其解决方案需要使用感知能力，如识别物体或属性，识别空间关系，或实现高级能力，如计数。作为示例，图1显示了CLEVR数据集的两个实例[15]。在这种情况下，每个视觉问题都需要不同程度的复杂性来发现正确的答案。具体而言，第一个问题仅涉及从特定对象中识别特定属性，而第二个问题则需要从多个对象中识别和比较分析多个属性。尽管存在这种显著差异，但当前的视觉推理模型使用相同的处理管道来回答这两个问题。从前面的例子中，可以预见，在训练和推理时的计算效率是使用固定处理流水线的相关缺点。实际上，DL模型的通常目标是最大化准确性，因此，模型被迫根据最符合的标准校准其处理结构1281712818复杂的情况下，高估了计算负荷需要解决更容易的。这种计算效率的缺乏不仅导致更长的处理时间，而且还对人工智能技术的环境影响产生了重大影响，这是一个受到相当关注的问题[23，22]。作为一个例子，[23]提供了几个NLP模型的碳足迹估计，得出的结论是，目前的AI模型正在变得对环境不友好。这就强调需要为当前的DL模型提供一个合适的自适应机制，以控制生成每个推理所需的计算工作此外，除了计算效率之外，正如我们在这项工作中所展示的那样，自适应处理管道的使用也可能在提高模型的整体准确性和提高其可解释性方面发挥重要作用。前面的论证强调了需要合适的机制来控制DL模型中的计算复杂性;但迄今为止，这方面的研究还很有限。软注意[2]和跳过连接机制[9]似乎是提高当前DL架构效率的可能选项。然而，这些策略不允许节省计算，因为它们仍然需要执行完整的处理流水线以选择注意区域或跳过连接。模块化方法也是一种选择[1，16]。在这种情况下，从专用处理模块的集合中，控制器或程序生成器在运行中自适应地选择合适的配置来处理每个查询。不幸的是，这种策略不能随着解决任务所需的模块的数量和多样性而适当地缩放，这些模块通常限于固定的预定义集合。作为一种替代方案，最近的方法不是使用专用模块，而是使用顺序应用于输入的通用神经模块[10，12]。在这种情况下，序列中的每个步骤都需要执行一个获得正确答案所需的操作。然而，回答每个问题所需的步骤数量的规范是不平凡的，因此这些模型通常使用整个模型的超参数来固定这个值在一篇开创性的论文[7]中，Graves介绍了自适应计算时间（ACT），这是一种自适应控制递归神经网络（RNN）计算复杂度的算法。ACT背后的关键思想是在RNN中添加一个S形作为一个额外的角色，暂停单元的激活值也被用来集成模型的最终输出作为中间状态的加权和[7]通过显示ACT对提高RNN模型在几个合成任务上的计算效率的影响，证明了ACT的后来的工作也显示了ACT在语言建模[5，19]和图像理解[19]的背景下应用于现实世界场景时的优势。尽管取得了成功，但正如我们在这项工作中所展示的那样，ACT在找到合适的步骤来停止处理时存在不稳定性问题我们认为这是由于其不可微的性质，因为ACT通过使用不可微的分段函数迫使用于集成最终输出的权重之和等于1来实现停止受ACT等机制可能为现代模块网络提供的明显优势的启发，我们提出了一种新的基于注意力的自适应计算方法。作为关键的见解，这种机制解决了ACT的两个主要问题：i）它的不可微性和ii）递归架构的隐藏状态可以线性组合的假设我们的方法克服了ACT中的不可微操作，通过使用停止单元来计算，在每一步，运行的最终输出的模型的近似。这种近似导致在所有输出上的单调递减概率分布，其隐含地包括继续处理步骤的益处的残差估计。这使我们能够计算模型后续输出提供的未来增益的上限。结果是完全可微的模型，其可以使用梯度下降来训练，其计算可以通过数学地确定处理流水线的中断何时不损害其最终性能来减少。最后，在我们的公式中，我们还将自适应计算形式化为模型的门控桶，类似于专家模型的混合操作[13]。作为我们公式的测试平台，我们选择MAC网络[10]，这是一种在解决需要视觉推理的任务方面获得相当多关注的架构。然而，我们强调，我们的数学公式是高度通用的，它也可以应用于其他学习架构。我们的主要结果表明，使用-ing的自适应计算的方法，实现了更好的性能比相同的架构，具有可比的固定计算成本。值得注意的是，由此产生的模型学习数据中的主题模式，如在推理上执行的步骤数量与用于生成它的模板之间的强相关性所示，然后我们利用这些相关性来提高模型的可解释性。所有这些都与使用ACT获得的结果形成鲜明对比，ACT未能改善结果，甚至无法有意义地调整步骤数量。总之，这项工作的主要贡献是：（i）一种新的自适应计算机制，它是完全可微的，并且可以并入到当前基于DL的模型中，例如MAC网络;(ii)对本文提出的方法和ACT的性能进行了比较分析，证明了前者的优越性;（三）一个广泛的实验evalu-ation表明，使用我们的自适应计算-12819在MAC网络之上的一个新机制不仅可以提高计算效率，而且可以提高模型的性能2. 相关工作最近的工作已经指出需要提高DL模型的计算效率[23，22]。例如，[23]显示了与当前DL技术的高碳足迹相关的令人惊讶的估计类似地，[22]讨论了将计算效率作为与人工智能相关的研究和应用的评估标准的相关性。尽管这种需求不断增加，但提高DL模型计算效率的研究仍然有限。在深度卷积模型方面，已经有尝试控制这些模型的深度的工作，然而，主要关注的是提高准确性而不是计算效率。例如，诸如跳过连接[9]之类的方法仍然需要计算完整的模型。紧凑的CNN模型也在视觉识别的背景下进行了探索[26，25，4]。作为一个例子，稀疏性约束已被用于控制网络中活动参数的总数[4]。这是降低模型计算复杂度的有效策略，然而，它由不能动态适应每个输入的全局约束组成。注意力机制似乎是将计算集中在输入的相关信息区域中的有吸引力的选择，然而，当前的注意力技术，例如软注意力[2]或自注意力[24]，也关注性能，需要执行完整的处理流水线。在递归网络的背景下，Graves提出了ACT [7]，这是一种旨在为RNN提供动态适应计算复杂度的机制的算法。具体地说，ACT试图为每个特定的输入样本动态分配适当的计算量。主要的挑战是，在尝试构建合适的输出之前，每个输入的复杂性是未知的。ACT通过添加一个停止单元来处理这个问题，该单元的激活决定RNN是否应该停止或继续另一个处理步骤。然后，这些激活值用于构建模型的最终输出，作为所有先前循环步骤的中间状态的加权和。这是通过一系列不可微的操作，erations主要用于强制执行硬限制，使没有子迭代改变模型输出。正如我们在这项工作中所展示的那样，这会导致噪声梯度无法正确处理有关所使用的处理步骤数量的信息。尽管ACT存在局限性，但它已被应用于原始工作中报告的综合案例之外的多项任务[7]。它已被用于改进LAMBADA语言建模数据集的结果，Transformer架构[5]，实现新的最先进性能。此外，在字符级语言建模的挑战性任务中，它已被用于动态增加Transformer模型的注意力范围，在text8和enwiki8数据集上实现了最先进的性能。此外，在自然语言推理语料库SNLI数据集上，据报道，它可以提高性能和可解释性[19]。在视觉识别方面，[6]提出了一种基于残差网络的DL架构，该架构使用ACT为输入图像中的不同预定义区域动态选择执行层的数量。[6]将这种策略应用于视觉分类的情况，报告在计算效率和模型可解释性方面提高了性能Our approach to adaptive computation has substantialdifferences with respect to ACT. ACT通过强制用于将每个步骤的输出组合到最终答案中的为了实现这一目标，使用不可微的分段函数，即：如果权重的总和大于1，则改变最后一个权重，使得总和正好为1。相比之下，我们的方法仅在评估期间（而不是在训练期间）停止，以保持完整的梯度。用于组合所有步骤输出的权重由单调递减的概率分布描述，该概率分布隐含地包括尚未计算的未来步骤。结果是一种完全可微的模型，用于利用梯度下降进行训练，其计算可以在推理期间通过数学地确定何时中断不能改变输出来减少。在模块化网络方面，现有方法可以分为组合多个专用模块的方法[1，16]和使用单个通用目的模块的方法[10，12]。在专门模块的情况下，序列的生成需要昂贵的监督或精心设计的强化学习训练计划。在通用模块的情况下，要执行的模块的选择在这项工作中，我们建立在这些网络的基础上，通过自适应方法来选择计算管道的范围来替换这个固定的超参数3. 可微自适应计算时间在本节中，我们将介绍实现可微分自适应计算时间策略（DACT）的方法。我们的公式可以应用于任何模型或可以分解为一系列模块或子模型m n，n∈[1，. . .，N]，可以按复杂度排序。例如，递归网络由迭代步骤组成，CNN由残差块组成，而集成由较小的模型组成。我们把这篇作文称为期末考试12820图2.通过将an-1与第n个模型的输出进行线性组合来构建累积输出an（遵循等式2）。每一步都可以通过保持或减少用于线性组合的标量pn−1的值（用虚线表示）来限制未来步骤的贡献。任何近似为零的hn都会迫使pn达到这个值，有效地禁止未来模型的输出改变当前的累积输出，并有效地迫使这个ann成为最终输出Y。模型或系综M，并将其输出作为Y。在VQA的上下文中，mn接收问题Q和图像I以及来自先前子模型mr，r n的任何相关表示作为输入。每个子模型mi都应该产生自己的关于以下问题的正确答案的预测yn：Q.此外，每个子模型mn还应产生S形输出hn∈[0，1]，表示mn对其输出yn的正确性的不确定性，其中我们定义初始值h0=1。标量hn的使用是提供M具有自适应计算机制。关键思想是限制具有较高指数s > n的模型，一旦当前关于正确答案的不确定性低于目标水平，则不改变M的最终答案。考虑到这一目标，让我们定义：Ynpn=hi=hn pn−1（1）i=1pn的值可以解释为后续子模型ms，s> n可能改变系综M的最终答案Y的值的概率。因此，我们定义初始值p0=1。根据前面的公式，hn表示子模型mn的不确定性，而pn表示考虑前n个模型的完整集合的不确定性。从等式(1)，很容易看出pn的值相对于指数n单调递减。还有，从这个定义可以得出，Y总是可以重写为中间输出yn的加权和。此外，权重的总和总是等于1，因此描述了中间输出yn上的有效概率分布。这两种证明都包括在补充材料中。因此，通过描述什么是有效的成对线性插值，我们得到了一种方法，用于隐式地处理集合中每个模型的输出，包括后续的输出。通过这种方式，我们提出的基本上是专家类型集合的混合[14]，其中我们去除控制器并替换上述隐式分布的选通模型。作为主要结果，通过添加概率而不是ACT中的隐藏值，我们删除了ACT的假设，即底层RNN的隐藏状态近似为线性。对系综中的两个模型是否可以通信没有限制，只要交换的起源总是在有序模型序列中的前面，就像经常性架构的情况一样。3.1. 惩罚复杂性遵循奥卡姆剃刀原理，我们希望在不需要复杂性时，通过选择更简单的模型来代替更复杂的模型，当两者都提供类似的结果时，来降低复杂性。为了实现这一点，我们将思考成本ρ定义为：注意，hn pn的小值接近于0。未来的价值观ΣNρ=n=1（3）我们仍然需要描述如何将所有中间体输出yn（n ∈ [1，. - 是的- 是的，N]）以形成Y。我们通过定义辅助累加器变量an来实现这一点，集合通过使用Eq.1，我们可以这样构造一个n，对于具有低关联pn的某个步骤n，则n≠Y：. →−通过将思考成本添加到损失函数L，我们鼓励网络最小化更复杂模型的贡献。这将在下一节3.2中使用，以减少计算。L（x，y）=L（x，y）+τp（x）（4）an=0如果n= 0yn pn−1+an−1（1−pn−1）否则（二）其中τ是时间惩罚，用于调节复杂度和误差之间的权衡的超参数12821n我我n3.2. 减少计算时间前面的公式使我们能够训练一个模型，结合DACT方法。换句话说，我们修改了模型的训练过程，类cru的概率可以取的值：n+Yd−1max（cru，N）≤P（cru，n）（1−p）I=n所有后续模型（公式1和2）。因此，我们可以避免运行更复杂的模型，当它们不能显著改变最终输出Y时。在本节中，我们将说明，n+d−1+piI=nn+Yd−1j=i+1（1−pj）（七）′测试时，我们可以使用停止标准来确保然后，由于0≤pn≤1且pn≥pn′（n≥n），我们序列的后续步骤不改变电流得到类CRU的最大值为：预测.选择停止的标准（因此重新-max（cru，N）≤P（cru，n）+pd（8）引入计算）在很大程度上取决于任务以及需要近似的接近程度。在这项工作中，我们的目标是在使用和不使用DACT的情况下实现相同的top-1精度这相当于建立一个停止准则，使得在n中具有最高概率的类，即使用n个子模型，将与Y中的类相同。我们知道yn（第n个分类模型的中间输出）被限制为0≤yn≤1，这是使用Softmax或Sigmoid函数的结果。由于剩余d=N-n次迭代中累积答案an的最大变化受pn限制，因此我们可以计算预测概率之间的最大差异最高班和亚军。因此，我们可以通过在这种差异无法克服时停止来减少计算不失一般性地考虑这样的情况，其中，对于某个步骤n，在累积的答案中具有最高概率的类an对应于具有概率的类cn能力P（c，n），亚军（第二好）类是cru的概率为P（cru，n）。当所有未来步骤都为该类分配最小概率（0）时，获得d个剩余步骤后该类c的概率的最小值我们可以使用这个结果来获得概率的下限n+Yd−1min（c，N）≥P（c，n）（1 −p）（5）I=n我们证明pn≥pn′（对于大于n的nyn′），结合等式（1），2，我们可以确定，在另一个d步之后，类在c处的最小值总是：我们说，一旦我们证明min（c，N）≥max（cru，N），顶级和亚军之间的差异是不可逾越的，因此我们可以减少计算，因为剩下的步骤不能改变最终结果。模型的答案。从数学上讲，这意味着在以下情况下达到停止条件P（ cru，n）（1−p） d≥P（ cru，n）+p d（9），这是本工作中用于停止处理的标准。4. 实验MAC网络是一个国家的最先进的经常性架构，分解成推理步骤的问题。该网络迭代固定次数（通常为12次），其中每一步首先处理问题，然后处理图像，最后更新内部存储器表示。当应用于CLEVR [15]数据集时，MAC以98.9%的准确度设置了最先进的性能。我们从在线3上可用的MAC的PyTorch [20]端口开始，我们在没有自我注意的情况下进行训练，以在CLEVR上实现98.6%的最大准确率。为了帮助收敛和加速训练，我们首先在CLEVR上预训练模型的一个变体，而没有门控或自我关注十个epoch（所有超参数都设置为默认值）。然后，我们重置所有优化器，并从保存的权重开始训练三个主要变量首先，我们将门添加到MAC，稍微改善了结果。其次，我们使用不同的思考成本训练几个ACT版本。最后，我们对DACT做同样的事情。所有变量都被训练另外30个epoch，将具有最高相关准确度的权重保存在验证集上。min（c，N）≥P（c，n）（1−p（6）自适应计算的主要目标之一是为了以较低的计算成本最大限度地提高性能，我们评估每个模型同样地，当最大概率（1）在剩余的每一步都被分配到这个类。将该值代入Eq.2产生了一个上限，nn12822达到最佳分数所采取的步骤数如图4所示，应用DACT产生的模型2该ACT变体是精心挑选的，因为它实现了最高的准确性，同时也完成了ACT观察到的最大步骤量3https://github.com/ceyzaguirre4/mac-network-pytorch网站12823图3. CLEVR中的问题是根据模板合成生成的，例如，通过在模板“有多少个C> M>的东西？”中用颜色和材料替换和<<。”.因此，向模型添加适应性并不会提高性能，而是增加了类似的求解复杂度。该图显示了三个模型对每个问题系列使用的平均计算量，按相应模型使用的平均步骤数排序。第一幅图（a）说明了ACT如何无法在不到三个步骤中学习如何回答最简单的问题，或者在超过五个步骤中学习如何回答最困难的问题。下面，b）显示了DACT变体的结果，该变体平均近似相同的步数，但使用更多的可用频谱，显着提高了模型性能。最后一张图显示了DACT的一个变体，它平均使用了50%以上的推理步骤，从而实现了更好的性能。图4.散点图显示了每个模型的计算（以平均步长测量，水平）和精度（以准确度测量，垂直）之间的关系，其中每个实验重复三次。用DACT获得的结果以颜色显示，单个运行表示为小循环，而每个罚分的平均值显示为较大的循环。ACT的平均结果显示为灰色X。不使用颜色，因为思考成本的值不影响步骤数。菱形表示MAC在不同网络长度下获得的平均精度，而虚线表示性能最佳的12步MAC的精度。在CLEVR数据集中，MAC的性能大大优于具有类似计算成本的MAC的非自适应版本（通过用固定的步数训练MAC来图5.具有不同思考成本的启用DACT的 MAC的学习曲线作为参考，我们将任何非自适应MAC实现的最大精度包括为虚线。黑色标记显示了该模型从上到下分别限制为12、9、5、3和2步时获得的平均精度。回想一下，这些模型首先在没有任何门控或自适应算法的情况下进行了10个epoch的预训练最接近的整数）。此外，在我们的实验中，使用λ=1×10−3的思考成本重复训练的DACT获得了与任何MAC所达到的最佳精度相当的精度，并且平均而言，超过了所有测试的替代品。这一明显的矛盾（获得更好的重新-计算量较少）可以通过考虑-12824DACT增强MAC具有与常规MAC相同的表示能力，但是可以在需要时选择相同的结果还表明，当提供足够的资源时，MAC提高了其性能，减小了其相对于DACT版本的差距然而，这种趋势在12次迭代之后不会保持，如[10]所示。我们使用相同的训练方案训练了一个15步的MAC，结果比12步的MAC差，揭示了门控机制的不足。相比之下，最大步数设置为15的DACT启用的MAC可以从现有的12步模型中进行微调，以获得98.72%准确度下测试的任何模型的最佳结果。除了提高性能外，这些结果还证明了在MAC上使用我们的算法可以使它们更鲁棒地增加最大步数的值。另一方面，用现有的al-出租m（ACT）训练的模型在超过计算上等效的MAC的准确性方面是不成功的。特别是，DACT响应预期的变化，在思考成本，调整其计算相应地，然而，ACT证明是不敏感的思考成本。作为示例，没有思考成本的ACT的变体（λ=0. 0）执行3. 平均2步，准确度为95。百分之八我们还评估了模型如何适应问题复杂性的变化，因为调整步骤数量的基本原理是使模型能够将更多的计算分配给更复杂的问题。正如预期的那样，DACT对简单问题的迭代次数更少，而当输入问题更复杂时，迭代次数更多，从而在不增加计算成本的情况下提高了在图3中，问题按家族类型聚类，这些家族类型转换为需要相似步骤序列来解决的组，因此具有相似的复杂性（该图在补充材料中进一步解释，其中我们包括每个家族的示例）。该图显示了计算和问题复杂性之间的显着相关性，尽管没有包括对这些因素的任何类型的监督。最后，为了评估所建议的方法对真实数据的通用性，我们在GQA数据集中更多样化的图像和问题上评估了组合DACT-MAC架构[11]。我们通过再次预训练非门控MAC（4步，5个时期）开始，然后针对另外15个时期微调ACT、DACT和门控MAC变体表1所示的实验材料的结果表明，DACT在减少所需的步骤数量方面是有效的，同时保持了总是迭代最大次数（四个步骤）的架构的大部分性能。然而，我们在实验中发现，对于GQA，所选择的架构（MAC）图6.注意力地图、中间答案和从DACT捕获的针对所示图像和问题的停机需要三个步骤才能得出答案。前两步骤输出具有高不确定性的错误答案（pn1）。然而，最后一步已经确定了相关对象，因此可以回答正确并充满信心。并且即使这样，相对于其非重复的单步版本所获得的优势也是微不足道的。因此，向模型添加适应性并不增加准确性，而是导致性能的小但可测量的降低。不管上述情况如何，实验结果突出了我们的算法相对于ACT的优势，表明DACT再次获得了相同步骤数的更好结果。此外，虽然我们的方法继续以连贯的方式使计算适应时间惩罚，但ACT仍然对这些值没有反应此外，如补充材料的图2所示，计算和问题类型之间的高度相关性也存在于GQA数据集中，再次揭示了DACT学会了有意义地适应没有监督的复杂性。5. 讨论与以前的作品[16，10]一样，我们还分析了模型提供的注意力图特别是，我们研究了在每一步产生的语言和视觉注意。此外，我们提出的问题，是否建议的架构确实可以提高可解释性。图7显示了由12个12825图7.标准MAC架构（左）和我们使用τ= 5×10−3训练的DACT变体（右）的语言和视觉注意力图。除了用于回答的步骤数量的明显和实质性的减少之外，我们的模型还有助于推理的整体可解释性这是通过向损失函数添加步骤数量的代理来实现的，有效地强制模型只使用更少的步骤（因此更可能是语义上强的）上述问题的关注表明最后两个步骤对于两个模型是相似的，但是MAC使用的其他十个步骤中只有一个是必要的。步骤MAC。由于MAC体系结构只考虑存储器中的最后状态用于最终分类，因此最终控制往往是重要的。事实上，我们的测试表明，最后几个执行步骤生成的注意力地图与我们的自适应变体生成然而，如图3所示，很少有查询需要所有12个计算步骤，因此大多数步骤要么重复执行其他操作，要么只是填充（例如，注意标点符号）。上述情况与我们的DACT使能变量形成对比，后者在实践中通过保持性能同时增加可解释性而提供免费午餐，而无需（在MAC的情况下）添加额外参数。我们通过将可微近似值添加到所采取的步骤的数量、思考成本（等式2）来实现这一点。（3）损失函数。因此，由于模型被迫只使用重要的步骤，我们发现这些步骤更有可能是语义上有意义的。此外，从子输出形成模型的最终输出当结合停止概率进行分析时，两者都对模型的内部表示产生了有价值的见解。例如，在图6中，第一步具有来自问题和图像的最小信息，因此对给定答案非常不确定。然而，这种有限的信息足以让模型识别出问题涉及某个物体的颜色，因此答案是它所看到的唯一物体的颜色。我们期望模型透明度的提高将有助于未来对数据集可解释性和偏差检测的研究。不同查询的步骤差异允许我们获得每个编码问题的复杂性估计，如图3所示。然后可以将这些组合以获得数据集子集的估计量估计例如问题的平均复杂度可以用于课程学习[3]，提供了一种不需要监督的分离数据的新方法。最后，由于其不可微的步骤数，ACT有效地为每个步骤提供了相同的惩罚。另一方面，DACT在这方面不受限制，因为概率pn是完全不同的。这允许在损失中包括步骤数量的函数，为未来的工作开辟另一行。我们希望包含思考成本的非线性函数（例如其值的平方）也可以成为未来研究的一个有趣途径。6. 结论本文介绍了一种新的自适应计算算法DACT，它不同于现有的算法，是端到端可微的。通过将我们的方法与MAC架构相结合，我们设法通过减少达到一定精度阈值所需的递归步骤的数量来显着提高其性能和计算率。此外，我们表明，包括DACT提高了所得到的模型的鲁棒性，增加了处理步骤的数量，提高了每一个相对于以前的国家的最先进的结果在CLEVR。此外，我们的研究结果还表明，DACT通过提供对MAC架构内部操作的额外见解，显示其预测和不确定性如何在估计的不同步骤中变化，从而提高了可解释性。作为未来的工作，我们相信，我们制定的自适应计算作为一个整体的模型可以激励在这一领域的进一步研究。致谢：这项工作得到了FONDECYT第1181739号赠款和千年数据基础研究所的部分资助。12826引用[1] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。2016年IEEE计算机视觉和模式识别会议（CVPR），2016年6月二、三[2] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器 2015. 二、 3[3] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。第26届机器学习国际年会集，ICML'09，第41-48页，美国纽约州纽约市，2009年ACM。8[4] S.昌平约湾Sandler和A. Zhmoginov 卷积神经网络中稀疏性的力量。arXiv：1702.06257，2017年。3[5] Mostafa Dehghani ， Stephan Gouws ， Oriol Vinyals ，Jakob Uszkoreit，and Lukasz Kaiser.通用变压器。CoRR，abs/1807.03819，2018。二、三[6] Michael Figurnov，Maxwell D. Collins，Yukun Zhu，LiZhang ， Jonathan Huang ， Dmitry P. 维特罗夫和鲁斯兰·萨拉胡迪诺夫残差网络的空间自适应计算时间。CoRR，abs/1612.02297，2016。3[7] 亚历克斯·格雷夫斯递归神经网络的自适应计算时间CoRR，abs/1603.08983，2016。二、三[8] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页1[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2015. 二、三[10] D.哈德森和C.D.曼宁用于机器推理的组合注意网络。在ICLR，2018年。一、二、三、七[11] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。计算机视觉与模式识别会议（CVPR），2019年。1、7[12] 德鲁Hudson和Christopher D.曼宁抽象学习：神经状态机，2019年。二、三[13] 罗伯特·雅各布斯，迈克尔·乔丹，史蒂芬·J。Nowlan和Geoffrey E. 辛顿本地专家的自适应混合。 NeuralComputation，3：78-88，02 1991. 2[14] R.A. Jacobs，M. I. Jordan，S.J. Nowlan和G.E.辛顿当地专家的适应性混合。Neural Computation，3（1）：79-87，1991. 4[15] 李飞飞，李文 Lawrence Zitnick 和 Ross B. 娘娘腔。CLEVR：用于合成语言和基本视觉推理的诊断数据集。CoRR，abs/1612.06890，2016。一、五[16] J. Johnson，B.哈里哈兰湖van der Maaten，J.霍夫曼湖，澳-地菲菲，C.L. Zitnick和R.娘娘腔。推理和执行视觉推理程序。2017. 二、三、七[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。1[18] Y. LeCun，Y.Bengio和G.辛顿深度学习Nature，521：436-444，2015。1[19] 马克·诺依曼，庞图斯·斯特内托普，塞巴斯蒂安·里德尔。学习用自适应计算推理，2016年。二、三[20] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 5[21] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页，2016年。1[22] R. Schwartz，J.道奇，N. A. Smith和O. Etzioni绿色人工智能CoRR，abs/1907.10597，2019。二、三[23] 艾玛·斯特鲁贝尔，安娜雅·甘内什，安德鲁·麦卡勒姆.自然语言处理中深度学习的能源和政策考虑。arXiv预印本arXiv：1906.02243，2019。二、三[24] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A.N.戈麦斯湖，澳-地凯泽和我。波洛苏欣注意力是你所需要的。在NIPS，2017年。第1、3条[25] W.温角Wu，Y. Wang，Y. Chen和H.李在深度神经网络中学习结构化稀疏性神经信息处理系统（NIPS）会议，2016年。3[26] H.周建民<英>来华传教士。Alvarez和F.波里克利少即是多：向紧凑的 CNN 。欧洲计算机视觉会议（ECCV），2016年。3

下载后可阅读完整内容，剩余1页未读，立即下载