少镜头学习中基于熵增强的图像分类方法的研究

88 浏览量更新于2023-10-17 收藏 808KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6251发现并学习：一种用于少镜头图像分类的1米2，32,32,3朱文轩，李玉哲张景成王玉强1卡内基梅隆大学，美国宾夕法尼亚州匹兹堡2国立台湾大学，台北，台湾3MOST人工智能技术与全Vista医疗联合研究中心1chuwenhsuan@cmu.edu，2{yujheli，b04901138，ycwang}@ ntu.edu.tw摘要少镜头学习（FSL）要求从具有少量训练数据的对象类别（作为新类别）中学习，而其余类别（作为基类）包含足够量的数据用于训练。通常希望从基本类转移知识并为新样本有效地导出主导特征。在这项工作中，我们提出了一种采样方法，去相关的图像的最大熵增强学习的基础上，并提取不同序列的补丁在每一个前向通过与歧视性的信息观察。这可以被看作是一种形式的“学习”数据增强，在这个意义上，我们搜索图像内的不同序列的补丁，并执行分类与提取的特征的聚合，从而提高FSL性能。此外，我们的积极和消极的抽样政策以及新定义的奖励函数将有利于提高我们的模型的有效性。我们在两个基准数据集上的实验证实了我们的框架的有效性及其优于最近的FSL方法。1. 介绍近年来，深度神经网络在监督视觉学习任务中取得了非凡的成就[13，23，10然而，这些监督学习方法通常需要大量的训练数据和注释来实现这样的性能。这显著地限制了它们可以应用于的问题，因为获取用于训练数据的足够注释可能是昂贵的，或者更糟的是，训练数据可能难以自己获取。相比之下，人类在学习新概念方面出奇的好，在国立台湾大学期间完成的工作图1：我们提出的FSL补丁采样策略的说明。如果可以在每个前向传递上获得变化的一瞥轨迹，则可以从相同的输入图像创建用于训练的各种输入信息.例如，人类（包括成年人和儿童）可以仅仅从书中的几张图片或在线资源中学习识别一种新动物。另一方面，神经网络会遭受严重的数据过拟合问题，导致推理过程中泛化效果不佳。这促使研究人员提出不同的方法来进行少量学习[12，27，20，1，21，24，5，9，25，6，29，7，19，28]。少样本学习的目的是从非常少的标记样本中分类新的视觉类别当代方法通常使用元学习方法[5，20]或度量学习方法[27，24]来应对这一挑战算法的另一个分支专注于数据幻觉以生成更多的训练样本[9，29，32]。也有一些关于使用软注意力进行少镜头学习的工作，使用从语义信息生成的注意力[28，3]。当前的因此，我们通过聚合信息来建立对场景的理解6252随着时间的推移，根据需要从场景的不同区域获取信息。据信，这种行为使我们能够忽略感兴趣的突出区域之外的受上述概念的启发，我们提出了另一种观点来解释为什么人类会表现出这种行为：除了能够在推断期间忽略“杂波”之外，将图像或场景分解或去相关为一系列小块（patch）可以允许我们在训练期间增加任何给定图像的输入种类。例如，当我们盯着同一个图像或场景两次时，我们的目光可能会遵循任何可能的轨迹，使我们能够理解图像或场景。这促使我们做出一个重要的观察：如果我们使用整个图像或场景作为输入，我们只会得到一个可能的输入变量进行训练;相反，如果我们可以模拟更像人类的行为，并从任何可能的感兴趣区域随机采样进行训练，我们将增加输入变量，这可能会导致更好的泛化结果（见图10）。①的人。在本文中，我们提出了一个端到端的可训练框架来模拟这种对人类视觉系统的新解释。我们的模型旨在通过应用最大熵强化学习目标从输入中产生可能的补丁序列，从而导致正确的分类[26]。此外，我们利用负轨迹采样器的非感兴趣的区域。结合所提出的正轨迹采样器执行正确的分类，这种正/负采样策略将进一步帮助正则化网络。最后，在两个开放数据集上的实验验证了该模型的有效性.我们注意到，据我们所知，我们是第一批将强化学习作为“学习”数据增强的一种形式来推进少数学习的人之当代的少拍学习方法。本文的贡献突出如下：• 我们提出了一种新的基于深度强化学习的方法来进行少量学习。• 在训练过程中，我们的模型从输入图像中采样不同的候选补丁序列，这将满足FSL并提高性能。• 我们提出的采样机制联合利用积极和消极的采样政策，这是能够确定地”。• 在两个开放数据集上的实验结果证实了我们的方法与其他现有的少次学习方法相比表现良好。2. 相关作品少样本学习给定来自一些“基本”类的大量标记训练样本学习仅使用来自新类的少量标记样本来对来自“新”类的样本进行一类算法使用元学习方法通过学习来解决这个问题，例如学习初始化[5]或优化[20]以进行少量学习设置。另一类算法探索基于度量学习的方法，这可以被视为学习比较。例如，暹罗网络[12]，余弦相似性[27]，欧氏距离均值[24]，基于CNN的关系模块[25]或图形神经网络[6]都在文献中进行了探索。最近还探索了学习“hal-lucinate”或为新类生成新数据样本的方法我们注意到这与我们的工作不同，因为我们最后，也有直接预测权重[1]或新类别分类器[7]的工作，或者使用新类别特征作为权重[19]。注意模型视觉注意的研究已经非常广泛，大致可分为两大类.第一类被称为硬注意力，其中返回原始图像的裁剪补丁[17，30]。第二类被称为软注意力，其中返回对应于整个图像的软注意力模型具有完全可区分的优势，这使得训练更容易，而硬注意力模型具有某种形式的随机性，并且由于裁剪中的不可区分性而必须使用强化学习方法（如策略梯度）进行训练。空间Transformer网络[11]虽然是为一般图像变换而设计的，但也可以用于与我们的动机最接近的工作是[31]，其中他们采用了一种软注意力模型，旨在通过最小化多个注意力地图之间的相关性来提取图像的所有重要区域，虽然他们的方法也希望在图像中找到所有感兴趣的区域，但他们施加了很强的约束，并且在不同的向前传递之间没有随机性。相比之下，我们显式地最大化在不同的前向传递中从给定的输入图像中提取的补丁的多样性，使我们能够处理FSL设置中的数据稀缺性。虽然软注意力方案最近也被应用于少量学习[28，3]，但它们通常需要语义信息，缺乏随机性将是一个问题。3. 预赛为了使我们的论文更加独立，我们简要回顾了与我们的工作相关的强化学习（RL）算法。这一部分将作为我们下一部分框架的理论基础。6253j=1我i=1αj=1强化学习。为了通过RL顺利地对图像的一系列补丁进行采样，我们希望找到一系列动作（a1，a2，...，aN）给定图像x.这些动作指示将从图像中提取的补丁的位置，具体地说，它们对应于采用定点迭代法：Qsoft（st，at）←rt+E[Vsoft（st+1）]（3）∫V（s）←αlog1′ ′spond到图像x中的归一化2D坐标。这些软不（Qsoft（st，a））da，（4）一采取行动，以最大限度地提高总金额的RL dis.其中Q（s，a）是Q函数，V（s）代表计数奖励N γ t−1r t，其中贴现因子软软t=1γ≤1是一个常数。在分类任务中，如果在第N个时间步长和第0个时间步长之后分类是正确的，则奖励函数的常见选择通常被设置为rN=1。[17].此外，这些动作通常从学习的策略π中采样，即a i<$π θ（a|s），其中策略由θ参数化，其可以被建模为神经网络。我们在强化学习中的目标可以写为：ΣN价值函数，衡量一个州的价值有多高然后，最大熵策略可以计算为优势函数上的softmax，这是一个衡量一个动作相对于其他动作有多好的指标1MaxEnt（at|st）exp（αQsoft（st，at）−Vsoft（st））。（五）因此，我们能够得到一个多模态的政策，而不预先定义其形式，从特定的分布，最大-最大参数πt=1E[γ t−1r t]。（一）使总奖励最大化（即，正确的分类），同时在采样期间表现出不同的行为。请看[8]解决策略π的标准方法包括策略梯度[22]和Q学习[18]方法。基于策略梯度的方法旨在直接学习期望的策略，并且已经在注意力模型中进行了探索[17]，其中对于如何使用深度神经网络来近似算法的彻底推导。4. 拟议框架对于策略π考虑分布族（例如，一高斯策略）。另一方面，Q-Learning方法给定一组K个输入图像X={xj}K其核心，在给定一些状态s的情况下，学习与动作的“值”（Q值）相对应的Q函数然而，策略梯度方法需要预先定义策略的形式（例如，高斯），这意味着最佳行为是单峰的。至于Q学习，人们只采取具有最大Q值的行动，从而产生单一的这将导致采样策略崩溃为单一模式，即，高斯峰或最高Q值附近的位置，这两者在FSL设置中都不令人满意。最大熵强化学习到为了解决上述问题，可以采用最大熵约束学习目标，该最大熵约束学习目标使得动作分布H（π（·））的熵最大化。|s））g iv en我们所处的状态。从直觉上讲，我们希望最大限度地提高我们的行动的多样性，同时也获得高回报（即，做正确的分类，fication）。最大熵强化的目标响应标签集Y={yj}K，其中xj∈RH×W×3和yj∈R分别是第j个图像及其标签，我们的目标是在给定这些输入im的情况下正确预测标签年龄，尤其是在少数拍摄场景。为了实现这一点，我们提出了一个基于最大熵RL的框架，该框架学习从输入图像xj 中采样补丁序列，表示为P j={pj}N。在本节中，我们首先描述我们的模型架构，并提供每个架构的详细信息成分然后，我们进一步解释了由设计的奖励函数控制的采样机制，这有助于增强和调节我们的模型。最后，详细介绍了模型的训练目标和推理过程.4.1. 体系结构概述如图所示2，我们的模型由五个组件组成：特征提取器、动作上下文编码器、状态编码器、最大熵采样器和最终分类器。我们现在描述每个组件的细节。特征提取器f.为了对图像的块p1进行学习可以写成：eiΣN最大参数E [γt−1rt+αH（π（·|）]、（2）输入图像x，我们将特征提取器fe引入到ex。使用CNN在每个时间步跟踪补丁pi的特征嵌入ei。特征提取器只能访问πMaxEntt t=1其中α是平衡熵项相对于奖励的重要性的常数。最近提出了软Q学习[8]来解决这个目标函数由最大熵采样器给出的局部补丁（在后面的小节中描述）以原始图像X的裁剪后的插图的形式。π62541为了简单起见，我们省略下标j，并将其对应的输入图像表示为x，并将标签表示为y6255伊1最大熵采样器输入图像我Qℒ��塞吉ℒ��加1加1加1伊萨动作上下文编码器中国分类器布拉softmaxℒ��^吉吉q值伊吉吉塞吉状态编码器小行星-1��-特征提取器埃莱埃莱图2：我们的框架主要由五个组件组成：特征提取器，动作上下文编码器，状态编码器，最大熵采样器和最终分类器。特征提取器f e采用输入补丁p i以导出特征e i，其由状态编码器fs使用以产生当前状态s i。接下来，最大熵采样器（具有Q函数f Q和实际策略π θ）采用具有si的输入图像x来采样动作ai，其产生下一个补丁p i+1。然后，动作上下文编码器f a使用a i和图像g的特征（由π θ提取）对当前动作的上下文c i进行编码。最后，状态编码器fs采用新提取的特征ei+1（由fe从pi+1中提取）和动作上下文ci，以产生下一个状态si+1（图中未示出最终状态s N被馈送到分类器中以确定其输出向量l和预测标签yN。我们注意到，N被选择为超参数r。StateEncoder f s. 为了聚合输入图像x的先前前向补丁的特征，使用递归神经网络（RNN）作为状态编码器f s，以对来自先前状态s i-1和采样补丁p i的状态s i进行编码。状态编码器f s还获取当前动作上下文c i-1（由图中的模块f a产生）。2并且稍后将在引入fa）时详细描述，并且导出当前状态si。更具体地说，我们用GRU实现了这个RNN [2]。在每次向前传递时，我们使用从随机补丁中提取的特征初始化GRU，并将初始动作上下文c0设置为零向量。最大熵采样器f Q&π θ。由于我们的目标是从输入图像x中生成不同的补丁轨迹，因此我们采用最大熵采样器对下一个候选补丁pi+1进行采样。最大熵采样器基于[8]中的软Q学习算法构建。通常，采样器获取整个图像x，并利用当前状态si（来自所有先前块的聚合信息）来产生2D动作向量ai，其对应于下一个块的中心的坐标pi+1。更具体地说，采样器本身包含两个组件：Q函数fQ和实际采样策略π θ，它们由（5）联系起来。这两个组件的架构是相同的，包含一个具有全连接层的小型CNN。Q-函数fQ评估“好”动作的程度将实际的2D动作ai和图像x的特征（由g表示）放在一起。我们注意到，在推断期间仅使用采样策略πθ。有关采样机制的更多细节，请参见第103节。四点二。Action Context Encoderf a. 图1中的动作上下文编码器fa2从上述策略πθ中的卷积层和采样的2D动作αi获取图像x的输出特征g，以产生上下文αi。直观地说，动作上下文编码器旨在考虑由πθ产生的全局信息，该全局信息由fs使用。分类器f c. 由于我们的目标是正确地将输入图像x分类为其对应的标签y，因此我们引入分类器f c，其采用最终状态s N并产生输出向量l和标签预测yn。4.2. 采样机制在本节中，我们介绍了我们的最大熵采样器（f Q和π θ）的采样机制，它是基于第二节中的最大熵RL算法。3.第三章。虽然单独的最大熵采样器将对有利于分类的补丁进行采样，但我们选择进一步调整最大熵采样器和特征提取器以保证性能。为了实现这一点，我们将负采样的概念引入我们的模型。例如，负序列样本可以是落在对象或区域6256JJJ图3：Q函数Q soft（蓝色）、正策略π+（绿色）和负策略π−（红色）之间的关系分别满足（5）和（6）。期望Q函数对于感兴趣区域内的块输出较高的值，并且对于像背景这样的不相关区域输出较低的如果应用传统的RL目标，则将仅从其中一个峰进行采样请注意，这两个重叠的策略以不同的比例显示。感兴趣的，比如背景。更精确地说，我们将负抽样策略π−定义为：π−（a|s）=exp（−1 Q （s，a）+V （s））（6）ttα软t t软不这使我们能够推导出一种策略，该策略从给定Q函数的不期望点进行采样（见图11）。（3）第三章。直观地说，我们训练正策略π+来匹配Q函数Qsoft（st，at），它在感兴趣的区域中具有更高的值，并训练负策略来匹配Q函数−Qsoft（st，at）的负，它现在在非相关区域中输出更高的值。注意，这两个策略都以相同的Q函数为条件，并且随后是导致错误标签的动作序列，以及导致预测标签为“背景”类的动作序列，对于负策略π−（对应于倒Q-函数−fQ），该排名是倒的，并且最佳动作π−的序列将导致“background”值得注意的是，这种联合抽样政策的好处是双重的。首先，它允许编码器“看到”并学习编码选择不佳的其次，这有助于将不同动作的值分开，这避免了极端情况，例如当所有动作得分大致相同时，这可能发生在模型过度拟合并正确分类所有内容时，而不管采样补丁的质量如何。4.3. 培训目标与评估训练在训练阶段，我们首先随机选择网络的策略“ 模式” ：正策略π + ，回归到基本事实标签 y ，或负策略 π − ，回归到人工 “ 背景 ” 类 y b。然后，我们获得预测的标签y，并使用（7）中的reward函数来更新最大熵采样器。这是通过基于等式（3）和（4）以及两个策略（π+和π-）更新Q函数f Q来完成的，使得它们通过应用具有重放缓冲器的软Q学习[8]来遵循（5）和（6）中的公式。为了更好地优化框架，我们引入了分类损失，即负对数似然，以及基于RL的训练[17]。计算分类损失L类以联合更新特征提取器fe、动作上下文编码器fa、状态编码器fs和分类器fc：可以被看作是另一个政策的为了联合应用这两种策略，我们创建了一个人工的积极政策π+或消极政策L类=1|M1|Σj2001年1月yTlog yj +α1|M2|ΣjM2yTlogy（八）政策π−。我们鼓励分类器在选择积极策略的情况下回归到基本事实y，并且在选择消极策略的情况下回归到背景类。如果预测的标签对应于背景类，这促使我们分配-1的奖励值。所以，报酬函数定义为：其中，yT和yj表示（转置的）地面真实值标签（用在最后一个时间步长N处，分别为采样批次中的第j个图像指定标签M1和M2表示由两个“模式”选择的批中即积极政策π+或消极政策π−。在同一个等式中，α是一个缩放常数，用于平衡IM。如果i=N且Ri=1，如果i=N，0，否则y=yy=背景（七）两种损失的重要性。我们在算法1的伪代码中总结了我们的训练算法。奖励函数Ri可以被解释为三种可能结果的排序：对于正策略π+（对应于正常Q函数fQ），导致正确标签的动作序列将是优选的，推理在推理过程中，我们只选择正策略π+来提取给定测试图像的补丁，因为我们的目标是为输入图像生成正确的标签，而不是背景标签。6257算法1训练算法输入：数据，标签元组{（xj，yj）};重放缓冲区D;参数β输出：网络模块fe，fs，fa，fc，fQ，π+，π−对于训练迭代的次数样本k来自[0，1]如果k β，则示例动作序列（a1，a2，，aN）us-使用正策略π+，提取补丁（p1，p2，，pN）并计算预测的labelyj其他示例动作序列（a1，a2，，aN）us-使用负策略π−，提取补丁（p1，p2，，pN）并计算预测的labelyjend if在重放中存储所有转换（xj，si，si+1，ai，ri，i缓冲液D用yj计算分类损失L类，根据（8），使用L类更新fe，fs，fa，fc来自重放缓冲器D的样本转换批次（xj，si，si+1，ai，ri，i使用软Q学习更新fs，fQ，π+，π−[8]端5. 实验我们首先强调实验数据集，并在前两节中提供我们的实验设置。之后，在第三小节中给出了评估结果，然后在第四小节中给出了关于不同投票策略的消融研究最后，我们给出了我们训练的抽样策略的抽样轨迹分析。在补充材料中提供了更多的实验5.1. 数据集我们在两个广泛采用的数据集上测试了我们的模型，用于少量学习： Omniglot [14] 和 miniImagenet[27]。我们在下面描述两个数据集。OmniglotOmniglot [14]包含来自50个不同字母表的1623个不同字符。每个角色都包含20个不同人物的手绘人物图像。我们遵循[27，24，5，21]中相同的评估策略，其中1200个随机字符类被采样（与字母表无关）作为图像的大小都调整为28×28，我们使用旋转来执行90 度、 180 度和 270 度的随机性，这导致总共1200+3600个基本类和423+1269个新类。miniImagenetminiImagenet最初由[27]提出，具有从原始Imagenet数据集[4]中采样的80个基类和20个新类，但最近的工作使用了[20]提出的拆分，其中有64个基类，16个验证类和20个新类。我们遵循这种划分，以便我们的结果可以与其他工作进行比较。每个类包含600个图像。图像的大小调整为84×84，我们执行标准的数据增强技术：彩色抖动、随机左右翻转和随机裁剪。只有64个基类用于训练，16个验证类用于建模泛化性能和选择超参数（例如，微调迭代次数）。5.2. 实验环境实现少拍设置。为了确保与其他提出的方法进行公平比较，我们为我们的特征提取器fe采用了Conv-4骨干结构，这与[24]所使用的结构相同。对于基线，我们使用遵循相同Conv-4主干的两种不同类型的分类器进行实验。第一个，我们将其命名为Baseline-FC ，使用标准的全连接层，然后使用softmax激活来输出标签预测。第二个，我们表示为基线-CS，应用余弦相似性度量，而不是标准全连接层中的点积。我们想澄清的是，使用余弦相似性作为少数学习的替代分类器不是我们的贡献。余弦相似性层最近在[16]中进行了探索，并在[7，19]中应用于少数镜头学习我们将提取的补丁的数量设置为4（即， N = 4），具有独立于采样策略π+和π-随机采样的附加补丁，以初始化所有实验的状态编码器GRU（f s）。推理。在推理过程中，我们应用N次最佳投票方法来获得最终的预测标签ynway。我们注意到，由于策略π+的随机属性，它有可能（尽管很小）在任何时间步选择一个一个简单的解决方法是重复分类多次，即。N次，并在输出具有最高预测概率/得分的类之前聚合预测结果。我们首先解释执行此聚合的两种方式：硬投票和软投票如下，而投票行为的研究可参见第5.4节的消融研究。对于硬投票，我们在聚合它们之前获取N个预测标签的argmax，并查看哪个标签拥有最多的投票。这可以被看作是一种“离散”的形式6258表1：Omniglot的结果FC表示全连接分类器，CS表示余弦相似性分类器。粗体数字表示最佳结果。5向表2：miniImagenet上的结果。FC表示全连接分类器，CS表示余弦相似性分类器。ProtoNet#表示原始论文中的训练方法（30路用于1次射击，20路用于5次射击）Pro-toNet表示5路训练策略（与其他方法一样）。匹配网络的结果引自[24]（用星号表示）。粗体和带下划线的数字分别表示最高的两个分数。并且它丢弃了预测标签中的例如，如果我们有一个二进制标签，预测（0.6，0.4）和（0.99，0.01）都将减少到（1，0）。对于软投票，我们在不执行argmax的情况下聚合N个预测标签，并查看哪个标签具有最高的累积概率。评估方案。我们使用K-Shot 5-Way评估协议和Best-of-7 Soft Voting进行评估，其中K是我们每个新类的标记样本数。对于每个测试集，我们从所有新类中随机选择5个类，在这5个类中，我们抽取了5K个标记样本和15个测试样本。首先使用5K个标记样本来微调我们的模型，然后我们通过基于查询图像的输出向量l到5K个标记样本的输出向量ls的距离来计算预测的标记ynway来执行推理。这类似于最近邻方法。5向1次注射5次注射基线-FC 42.02±0.7361.54±0.68基线-CS 46.84±0.77 64.13±0.69匹配网络 *[27] 46.61±0.78 60.97±0.67ProtoNet [24] 46.14±0.77 65.77±0.70ProtoNet#[24] 49.42±0.7868.20±0.66MAML [5] 48.07±1.75 63.15±0.91净利润[25]50.44±0.82 65.32±0.70我们的-FC 47.18±0.83 66.41±0.67我们-CS51.03±0.7867.96±0.71“local” feature in patches simply reduces to oriented lines,whichminiImagenet与Omniglot相比，miniImagenet是更真实的数据集。我们选择的补丁大小为24×24，其中输入大小为64×64（在执行数据增强后）。我们将我们提出的模型与现有的模型进行仁和义 =exp（−dist（l−ls））s∈5Kexp（−dist（l−ls））（九）方法[27，24，5，25]，其也公平地应用具有相同Conv-4主干的类似设置。比较结果见表2。类似于re-我们进行600次测试，并报告平均值和95%所有评估设置的置信区间5.3. 评价结果和比较Omniglot对于Omniglot，我们在实验期间选择采样块大小为16×16。我们对新的类进行1次和5次5路实验，然后与两种基线方法进行比较：基线FC和基线CS。Omniglot的结果见表1。对于单次发射，性能增益超过基线FC为5. 5%，而超过基线CS的增益为4。百分之二。对于5-拍摄时，相对于基线FC的性能增益为0。5%，而超过基线CS的增益为0。百分之三。在这里，我们观察到，我们的模型在少数镜头设置中显示出有效性，即使与基线方法相比，它为每个类（单次设置）提供了一个图像。我们还发现，简单地用基于余弦相似性的分类器替换完全连接的分类器会产生明显的改善。我们注意到，Omniglot中的图像由一个占据图像大部分的单个字符组成，根据Omniglot中报告的结果，我们看到余弦相似性分类器与完全连接的层相比提供了更好的结果。对于单次拍摄，相对于基线FC的性能增益为5.1 %，而超过基线CS的增益为4。百分之二。对于5发，相对于基线FC的性能增益为4。9%，而超过基线CS的增益为3. 百分之八我们所提出的方法表现良好，对国家的最先进的方法在1杆学习。对于5次拍摄，在公平比较下，我们提出的模型优于最佳竞争对手ProtoNet[24]（平等培训和评估计划）。我们注意到ProtoNet# [24]使用了一个稍微不同的训练方案，他们使用30路情节（即，30个培训班），用于1次拍摄和20次拍摄（即20个训练类）进行5次元训练，他们报告说，这比仅仅从5个类的样本进行训练有更好的性能。与此相比，我们稍微落后0.28%，但置信区间重叠很高。因此，为了完整性，我们将他们的模型在5路元训练集下的性能包括在内。1次注射5次射击基线-FC91.95±0.4898.97±0.10基线-CS93.30±0.4499.33±0.09乌尔斯足球俱乐部97.43±0.2899.51±0.07Ours-CS97.56±0.3199.65±0.066259(a) 一次性（b）五次图4：硬投票和软投票以及miniImagenet上的投票数N对（a）1次和（b）5次分类的影响。FC表示全连接分类器，CS表示余弦相似性分类器。基地小说图5：miniImagenet上的采样轨迹。上面两行来自基类，下面一行来自新类。采样面片的顺序为：蓝色绿色红色和白色请注意，采样的补丁轨迹不同，在每个前馈通过。我们的性能增益可以归因于将最大熵采样器和我们独特的设计模型，从补丁聚合功能。5.4. 消融研究为了探索投票策略的影响，我们实验了硬和软投票策略在推理过程中N为1，3，5和7，使用全连接分类器和余弦相似性分类器。我们在mini-Imagenet上进行了评估，并将结果与图1进行了比较。4.第一章对于软扫描，性能的提高来自于增加投票（N=1至N=3），5次设置的精度提高了3%至4%，1次设置的精度提高了2%至3%。我们观察到相同的趋势，硬投票与1杆设置。然而，对于具有硬投票的5次拍摄设置，从3票到5票的准确性提高最高，提高了2%。保留的不确定性信息似乎也是优选的，因为软投票方案优于硬投票方案（对于5次设置为1%至2%，对于1次设置为约1%）。5.5. 采样轨迹分析在这里，我们绘制了来自miniImagenet的基类和新类数据集在图中。五、请注意，采样策略没有在新类上进行微调，因此策略必须能够泛化到可见类之外。乍一看，我们可以看到采样策略学习在感兴趣的区域上采样，有时也可能我们要澄清的是，这实际上是预期的行为，是我们在（2）中的主要目标函数的结果，我们的目标是最大化抽样策略的行动多样性。考虑这样的场景，在看到前几个补丁之后，我们已经确定图像中存在的对象。在这种情况下，我们可以在图像上的任何地方进行采样，以最大化目标函数（2）中的熵项。6. 结论我们提出了一个采用最大熵强化学习目标的深度学习框架。我们的模型的新颖之处在于将最大熵强化学习和软Q学习结合起来用于采样策略，并应用于少数学习。我们利用积极和消极的抽样政策，以确定有利的地区在图像和正规化的学习过程。因此，我们的方法能够在训练期间增加特征提取器（CNN）的输入多样性，这可以被视为一种“学习”数据增强的形式。此外，在推理过程中，采样策略将能够“关注”测试图像的相关区域，这使得我们能够优雅地处理测试图像中的任何潜在混乱。在两个FSL数据集上的实验表明，我们的模型能够提高FSL的性能，并表现出良好的国家的最先进的方法。鸣谢。这项工作是由台湾科学技术部在基金MOST108-2634-F-002-018下支持的。6260引用[1] LucaBertinetto，Jo aoF. 亨里克斯，杰克V阿尔马德雷，菲利普H. S. Torr和Andrea Vedaldi.学习前馈一次性学习器。神经信息处理系统进展，2016年。一、二[2] Kyunghyun Cho ， Bart van Merrienboer ， DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。在SSST@EMNLP 2014会议录中，第八届统计翻译中的语义，语义和结构研讨会，2014年。4[3] 朱文轩，王玉强。学习语义引导的视觉注意力用于少数镜头图像分类。IEEE International Conference on ImageProcessing（ICIP），2018。一、二[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2009年。6[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在2017年国际机器学习会议（ICML）上。一、二、六、七[6] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习Proceedings of the International Conference on LearningRepresentations（ICLR），2018. 一、二[7] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。 IEEE 计算机视觉与模式识别会议（CVPR），2018年。一、二、六[8] Tuomas Haarnoja ， Haoran Tang ， Pieter Abbeel ， andSergey Levine.基于深度能量策略的强化学习。在2017年国际机器学习会议（ICML）上。三、四、五、六[9] Bharath Hariharan和Ross B.娘娘腔。通过缩小和幻觉特征进行低镜头视觉识别。在2017年IEEE国际计算机视觉会议（ICCV）上。一、二、三[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。1[11] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。神经信息处理系统（NIPS）的优势，2015年。2[12] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，2015年。一、二[13] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统进展（NIPS），2012。1[14] 布伦登M. Lake，Ruslan Salakhutdinov，Jason Gross，and Joshua B.特南鲍姆一次学习简单的视觉概念。在第33届认知科学学会年会上，CogSci，2011年。6[15] 林龙基。使用神经网络的机器人强化学习。技术报告，Pitts-burgh PA计算机科学学院，1993年。5[16] Chunjie Luo，Jianfeng Zhan，Xiaohe Xue，Lei Wang，Rui Ren，and Qiang Yang.余弦归一化：在神经网络中用余弦相似性代替点积。在2018年国际人工神经网络会议上6[17] Volodymyr Mnih ， Nicolas Heess ， Alex Graves ， andKoray Kavukcuoglu.视觉注意的循环模型。神经信息处理系统（NIPS）的优势，2014年。二三五[18] 作者：David Silver，Koray Kavukcuoglu，Andrei A.放大图片创作者： John W. 放大图片创作者： AlexA.Riedmiller ， Andreas Fidjeland ， Georg Ostro-vski ，Stig Petersen ， Charles Beattie ， Amir Sadik ， IoannisAntonoglou ， Helen King ， Dharshan Kumaran ， DaanWier-stra，Shane Legg，and Demis Hassabis.通过深度强化学习实现人级Nature，2015. 3[19] Hang Qi，Matthew Brown，and David G Lowe.使用印记权重的低射击学习在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、二、六[20] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在2017年国际学习表征会议（ICLR）一、二、六[21] Adam Santoro，Sergey Bartunov，Matthew Botvinick，Daan Wierstra，and Timothy P. Lillicrap使用记忆增强神经网络的元学习。在 2016 年国际机器学习会议（ICML）。1、6[22] 放大图片作者：John Schulman，Sergey Levine，PieterAbbeel，Michael I.乔丹和菲利普·莫里茨信任区域策略优化。在2015年国际机器学习会议（ICML）上。3[23] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。arXiv预印本，2014年。1[24] Jake Snell，Kevin Swersky，and Richard S.泽梅尔用于少量学习的原型网络。神经信息处理系统进展（NIPS），2017年。一、二、六、七[25] 宋洪，杨永新，张立，陶翔，菲利普H. S. Torr和Timothy M.医院学习比较：关系网络用于少镜头学习。 IEEE 计算机视觉与模式识别会议（CVPR），2018年。一、二、七[26] 马克·杜桑机器人轨迹优化使用近似推理。在国际机器学习会议（ICML）上，2009年。2[27] Oriol Vinyals、Charles Blundell、Tim Lillicrap、KorayKavukcuoglu和Daan Wierstra。匹配网络进行一次性学习。神经信息处理系统进展（NIPS），2016年。一、二、六、七[28] 王鹏，刘灵桥，沈春华，黄子，安东·范登亨格尔，沈衡涛.多注意力网络的一次学习。在Proceedings of theIEEE6261计算机视觉与模式识别会议（CVPR），2017年。一、二[29] 作者：王宇雄 Girshick ，Martial Hebert ，and BharathHariharan.从假想数据中进行低拍摄学习。IEEE计算机视觉与模式识别会议（CVPR），2018年。一、二[30] Kelvin Xu，Jimmy Ba，Ryan Kiros，Kyunhyun Cho，Aaron C. 放大图片作者： Richard S. Zemel 和 YoshuaBengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。在2015年国际机器学习会议（ICML）上。2[31] 赵波，小舞，贾士风，彭强，燕水城。用于细粒度对象分类的多样化视觉注意力网络。 IEEE Trans.Multimedia，2017. 2[32] Yizhe Zhu ， Mohamed Elhoseiny ， Bingchen Liu ， XiPeng，and Ahmed Elgammal.

下载后可阅读完整内容，剩余1页未读，立即下载