少样本终身主动识别框架FLAR

191 浏览量更新于2023-10-15 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15394LAR终身活跃识别FLAR学习FLAR：一个面向少样本终身主动识别的西北大学，2145 Sheridan Road，Evanston，IL，USA{leifan，peixixiong2018，weiwei2022} @ u.northwestern.edu，yingwu@northwestern.edu摘要允许具有视觉传感器的智能代理主动探索其观察结果，以获得更好的识别性能。该任务被称为主动识别（AR）。目前，大多数AR方法都是在固定类别设置下实现的，这限制了它们的应用。旋转“什么事啊？“- 香蕉旋转“我在哪里？“- 海滩在现实场景中的可折叠性，需要增量学习新的类，而无需从头开始重新训练此外，收集用于新颖类别的大量数据是昂贵的。为了满足这一需求，在本文中，我们提出了一个统一的框架，对少样本终身主动识别（FLAR），其目的是进行主动识别逐步出现的新类别，只有很少的FLAR出现了三个困难：终身识别策略学习、旧类别的知识保存和训练样本的缺乏。为此，我们的方法集成了原型，一个强大的代表有限的训练样本，到一个强化学习的解决方案，这激励代理移动到视图，从而产生更多的歧视性功能。终身学习过程中的灾难性遗忘与知识的升华相结合。在两个数据集上分别针对对象和场景识别进行的大量实验表明，即使没有大量的训练样本，所提出的方法也可以学习以类增量行为主动识别新类别。1. 介绍近几十年来，视觉识别得到了广泛的研究并取得了显著的与从静止图像被动识别相反，在机器人学习系统中，允许智能代理探索不同的观点，并配备有能力做出关于观察什么的这个问题被称为主动识别（AR），图1（a）中示出了两个具体任务。多年来，已经提出了许多AR方法[4，18，12，6，23，13，7]，具有基于学习的模型。(a) 两个AR任务的示意图：主动3D对象识别和全景场景识别。系统可以智能地选择动作以获得更好的视图。时间（机器人探索）探索中遇到的新奇阶层...(b) 机器人探索过程中的终身学习示范。系统需要将其知识扩展到不断发现的新类别。(c) 描述与其他任务关系的图表。术语LAR和FLAR是终身主动识别和少样本终身主动识别的缩写。图1.FLAR是一个具有挑战性的任务，需要动态扩展同时，任务设置适合需要探索以前看不见的环境的机器人应用的实际需求。尽管获得了有希望的结果，但是这些方法被限制在经典的学习设置中，即，只能对来自训练类别的样本进行识别当涉及到新类别不断出现的更实际的设置时，更臭名昭著的是，只有少数样本可用于新兴类别，不清楚这些模型是否仍然有效。基类15395令人惊讶的是，这个问题在文献中未被充分探讨，但在现实的自主代理应用程序中是必不可少的在许多场景中，在后端训练以主动识别固定类别的代理将被要求在运行中增加其针对新类别的AR我们称这个问题为终身主动识别（LAR），如图1（b）所示。此外，为新类别收集许多训练样本通常是昂贵的，更不用说新类别的样本本身是稀缺的可能性了。这促使我们研究一个新的问题，少拍终身主动识别（FLAR），这是必要的和具有挑战性的。在图1（c）中，描述了FLAR与封闭问题从形式上讲，FLAR对代理提出了三个要求(1) 智能体应该能够根据当前阶段做出决策，以探索信息量最大的观点，从而引导感官更好地理解环境。这符合AR的领域[32，6，4，20，41]。(2) 代理应该将从旧类中学习到的探索和识别能力适应新概念，同时避免从头开始训练。它与渐进式学习有关[31，30，36]。(3)智能体应该从有限的训练样本中学习新的概念。它与少数镜头学习有关[37，33，15]。这些要求组成了我们的FLAR问题，它提供了一个智能代理，可以逐步学习探索和识别新的类别，只有几个训练样本。与这些需求相对应，FLAR提出了三个主要挑战。(1)以前的AR方法通常从具有大量训练数据的类别中学习识别策略。增量分类的训练样本少的限制必然会阻碍策略训练的成功。(2)在增量学习的设置，代理评估的识别性能，不仅在飞行中的类别，但也旧的类别。因此，当新的类别不断出现时，灾难性的遗忘问题[30]需要解决（3）对于少样本学习，过拟合的风险始终存在。在我们的环境中，需要从少数样本中进行概括。总之，FLAR在复杂的观看条件、不断增长的识别类别和有限的训练样本下是高度不受约束的。在本文中，我们提出了一种新的方法对FLAR，一个具有挑战性的，但实际的任务，是根据探索。尽管Flar的挑战分散到不同的研究领域，我们在一个统一的框架内解决它们。主要的想法是我们假设存在嵌入空间中的原型，用于通过对每个样本的预算探索性观察的聚合进行平均来表示每个类别。这有助于灵活的策略学习，同时简化了类增量学习期间的知识保存。然后对于新奇的新兴品类，代理商只需要拿移动，以便将新获得的特征与训练类别的原型区分开。请注意，最佳估计原型的样本被精心选择并存储在代理存储器中，这将在新类别学习期间灌输。具体而言，针对FLAR的挑战提出的方法的见解是三方面的：（1）智能体基于新设计的奖励来学习主动识别策略，该奖励有利于聚集的特征与嵌入空间中的正确类原型之间的更近距离。(2)为了处理遗忘问题，只有有限的样本被存储在代理存储器中的优先顺序。通过利用知识蒸馏机制为样本再现一致的输出，我们在学习新概念的过程中结合了旧类的分布(3)每个类别的原型，这是强大的表示，潜在地使我们的方法自适应的少数训练样本的挑战。2. 相关工作主动视觉。主动视觉在文献中有着悠久的历史，最早由[2，1，8]提出。这些工作背后的共同动机是将智能控制策略引入不同的视觉任务，即，代理应该主动地获得具有其自身目的观察结果。按照这个想法，主动视觉已经在几条线上被利用，涵盖了识别等任务[34，4，18，26，24，38]，导航[39，11，5]，定位[3]和场景完成-[19，29]。作为主动视觉的一个重要分支，现有的增强现实方法主要可以根据是否明确地测量不同视图之间的信息增益来分为两组。对于明确描述增益的方法，[32]提出了一个3D显着性模型来指导动作选择。其他人[6，4]通过将问题表示为部分可观察马尔可夫决策过程（POMDP）来执行信息增益最大化。这些方法倾向于在具有视图特定利润的候选标签之间消除歧义。另一方面，存在利用深度强化学习方法进行AR的方法，其中通过收集与环境的交互经验来学习策略。例如，在[18]中，包括控制、单视图识别和证据融合的三个模块组成了端到端可训练系统。预测未来观察的辅助任务有助于建立视图和运动之间的相关性[12]考虑通过从图像估计深度和自我运动来该策略循环地聚合潜在映射以预测动作。与FLAR任务形成鲜明对比的是，大多数现有的AR方法都是用预定的类别执行的，并且不支持扩展到新的类别。然而，代理探索本质上是增量的：新颖类15396一×个∈ A--∈∈P ··P需要由代理持续地加入。终身学习。终身学习[27，9，30，31，36，17，35，16，21]，也称为持续学习，仍然是这是机器学习的一个长期挑战，因为灾难性遗忘总是发生在非平稳数据分布中。类增量学习需要渐进地添加新的类，而无需从头开始训练在[30]中首次提出了一种针对类增量学习标准的训练策略，其中利用知识蒸馏来维护来自先前时间点的信息。[31]通过在注意力模块上引入元学习来关注少量图像分类的增量学习。其他当前的作品[36，16]也打算在各种困难条件下实施持续学习。我们的方法，另一方面，侧重于FLAR，其中包括终身学习的序列为基础的决策和识别过程。最近的自适应代理方法[39，25，28，14]采用动态环境的持续学习技术。[ 28 ]中提出的机器人运动策略可以随着运动学变化而演变，例如在爆破过程中丢失一个轮子。这些前瞻性工作[39，25]与我们的工作有着相似的动机，即解决非平稳环境引起的困难。然而，他们的方法是不适合的FLAR，因为知识保存是不是在这些作品的先例关注。很少有机会学习。有大量的作品表现出对少镜头图像分类的兴趣[33，15，37，22，42]。他们的少训练样本设置与FLAR任务密切相关。已经提供了各种方法，并且可以大致分类为基于模型的方法、基于度量的方法和基于优化的方法。在[33]中，他们通过构建深度网络作为可以将同类输入映射到嵌入空间中的相邻区域的函数，在度量学习的意义上解决了相反，MAML[15]旨在通过梯度反向传播来学习基础学习器的良好参数初始化。我们的工作与[33]有相似的假设，即，分类器应该具有简单的感应偏置，以防止用很少的样本进行过拟合根据这一假设，我们的工作对FLAR在政策学习，这促使一个有效的政策，以获得更多的信息的意见，介绍了原型型的代表。3. 方法为了便于演示，我们首先定义FLAR的设置和符号。然后，我们描述了三个显着的组成部分，ponents所提出的方法，并解释如何组合允许执行FLAR。我们的方法概述如图2所示。图2.对拟议的FLAR方法的概述。每个任务都用一个彩色点表示。智能体可以通过获得观察结果和做出动作来与环境交互，这有利于识别。随着智能体在环境中的探索，该方法将其识别能力扩展到新的类别。3.1. 问题设置和标注我们描述了我们的设置，将其应用到一个活跃的对象识别的情况。主动对象识别代理被给予具有未知标签y的对象实例x。总的T时间步长是允许的代理预测的对象的类别。在时间步长t=1、2、.。。，T1，代理可以另外选择动作a，例如向上旋转对象30度，其中表示动作空间。作为采取移动的结果，安装在代理上的视觉传感器可以获得目标实例x的新观察结果。我们假设视觉传感器保持在相同的位置，同时仅旋转对象。更具体地，在时间t处的视觉观察是2D视图，如Vt=（x，pt），其中（x，pt）是投影函数，并且pt是相应的视点。我们均匀地将所有视点的空间离散成具有M个方位角N个仰角的大小的视图网格。然后，每个视点可以被指定为pt=（m，n），其中m为M，n为N。因此，在识别过程中，Agent的目标是三重的，包括进行有效的探索，在时间步长之间聚合观察，并根据融合的信息进行分类在介绍了识别设置之后，我们然后描述了增量学习的详细设置。由于Agent在环境中的探索，新类随时可能出现。识别任务X指示学习对指定类别的主动识别。然后，代理探索可以被描述为类增量任务流Xbase，X1，X2，.。。，X，y，X的基础是初始-在Agent探索之前，它是来自C基本类别。以下每个任务，作为训练样本示例内存i-1 级 i-2级i-3级...时间t剂I-3级I-2级I-1级i类I+1级I+2级环境视觉编码器聚合器（LSTM）行动政策分类器行动15397P转||∈X xX--Σ·|X不1T−1Ky12|Qy|q∈Qy联系我们我我ΣΣ小说类C小说，是xy=xy，.。。，xy，y C小说。由于为新发现的类别y收集训练样本的高成本是新颖的，我们通过使Xy=k来限制Xy中的样本，其中k在我们的设置中被限制为3、5、10为了评估，系统在其类别预测y（的准确性上进行测试，并且y（属于可见和日期类别，即：例如，y∈C见Cseen=Cbase∪Cnovel。3.2. 原型引导主动识别我们将AR理解为通过到达不同视图来实现更多区分特征的过程。让我们回想一下AR的基本动机，它是基于观察到单个静态图像可能不包括用于分类的足够信息，特别是在不受约束的环境中。换句话说，静态图像可能不够有区别。代理的动作选择然后可以被看作是特征空间上的策略，如果其表示变得更容易区分候选类别，则应该奖励该在这一部分中，我们将分四个步骤介绍我们的AR系统。首先，我们描述的表示，我们要学习的政策培训。然后，我们介绍了我们的识别系统架构，以实现客观的代表性。新颖的奖励设计在我们的代表，激励实现更好的意见，描述。最后，提供了用于训练我们的AR系统的其他损失。原型表示学习利用3D对象实例x，我们的识别系统可以在时间t获得2D视图投影，其表示为vt=（x，pt）。当前视图vt连同其他本体感受，在-包括相对位置pt−1，t和时间步长t本身，被视为表示为Xt=h（vt，pt−1，t，t）的观测，其中h（·）是融合操作。我们将我们的表示模块表示为fRd，一个净-在时间步长中聚合观察结果。在主动地进行T1次移动之后，对象x的表示是qx=f（1，2，.。。，T）。由于训练样本是有限的，我们假设一个原型表示周围的聚合功能为同一类。由于特征qx是从多视图及其相对姿态中提取的，因此可以在训练期间获得视图和视点之间的相关性，换句话说，其描述了对象形状。与少镜头图像分类方法[33]相比，通过吸收形状信息，可以在一定程度上缓解仅一个原型的限制性描述能力对于每个类别y，原型来自一个col-在我们对表示进行归一化之后，标签分配等于oy=argmaxµyqx因此，我们可以将每个类别的原型视为来自最终线性层的权重向量，该权重向量乘以qx以获得类别概率。在训练我们的AR系统期间，我们形成具有损失项的原型表示学习，该损失项定义为：Lcategory=−Fsoftmax（y，y），（2）我其中Fsoftmax是softmax函数，上标i表示相应的训练样本。主动识别系统我们的AR系统是在[18]中提出的架构上建模的，其主要由三个模块组成。第一模块作为非线性映射函数执行，其先前被定义为f（）。在我们的方法中，我们利用视觉编码器和LSTM网络的组合来循环地融合观察结果。第二模块，即，该策略可以是被视为部分可观察马尔可夫决策过程（POMDP），其pdf定义为π（att−1，θ）。θ是我们希望通过策略梯度获得这模块表示为线性层的组合，在我们的方法中，预测与聚合功能的动作分布。第三个模块是分类器，即，具有每个类别的原型权重的线性层。在每个时间步长t，所提出的AR系统选择具有最高概率的动作。然后将分类应用于获得的时间聚合特征。奖励歧视我们设计了一个新的奖励，以激励代理选择的意见，导致更多的歧视性的功能。根据我们在等式1中的分类，特征和原型之间的区分能力直观地，正确类别上的概率的增加表示新特征变得更接近所有候选者中的正确原型。然后，我们定义re-wardR（yt，yt+1）=1作为正确类别的预测概率的增长与当类别预测正确时R（y）t=1的简单回报相比，我们提出的奖励总是集中在逐步实现更好的视图上。奖励用于通过强化来训练策略分段学习技术，即，REINFORCE，可以反向传播到非随机单元。我们将策略学习的损失定义为：L策略=logπ （ α i） |Xt−1 ， θ ） R （ yt ，yt+1）i.（三）i t=1选择的集合Q y={q y，q y，.。。}为μ y=1Σq。其他损失两个其他术语，即L熵与L预测在训练我们的AR系统时包括在内。促进然后，对于具有表示qx的对象实例x，我们的代理的更多探索行为和防止策略其标签被指定为：崩溃，熵损失L熵计算在AC-y=argminy||qx−µy||。（一）行动分布，倾向于选择多样化的行动。15398LD∪我--L∈D←∪L×个不×个不t−1不∈D∈另一项预报与[18]有相同的想法，即引入了预报观测的辅助任务。形式上，我们将该术语定义如下：Lfo recast=ΣΣD（Xi，Xi| Xi，at−1），（4）我 t=2算法1：对任务Xi进行训练输入：Xi：来自流的当前任务要求：f：递归嵌入模块要求：Agent：具有策略π的AR系统需要：Mi−1={My，y∈C已知}：内存其中D是作为余弦距离的相似性度量。3.3. 终身学习的新课程在这一点上，所提出的方法只能在固定类别上执行AR。它的分类器不能容纳在探索过程中出现的新类。在这一部分，我们提出了进一步的细节，我们的方法在处理终身学习。特工记忆灾难性的遗忘发生在我们的环境中。处理这一挑战的一种方法是将分类器中的权重与表示学习过程纠缠在一起。如果不是，最终输出将改变管理[30]。我们的分类器中的权重被设置为随着我们的表示学习而变化的原型。因此，应将先前类的数据分布引入到当前训练过程中以跟踪原型变化。我们建立一个存储器来存储样本，即对象实例，最好地描述当前类别。对于每个类别，仅存储有限的m个范例选择以优先方式进行[30]。如果通过将样本添加到存储器中，则选择样本，平均特征向量将最好地近似原型整体训练数据。这样的选择过程可以针对每个类别进行一次。类别y的已保存样本集为M y=x1，x2，.。。，x m。具体而言，范例是以视图网格的形式保存，因为它们是直接的视觉输入。蒸馏损失通过鼓励复制保存的样本的相同输出来维护先前类的知识我们在样本上实现识别集，以在新类上训练之前实现其分类器输出z采用知识蒸馏机制作为损失项L蒸馏：=XiMi−1：训练集//存储蒸馏损失对于y C已知的do对所有xi执行AR以得到zy端//网络培训当epoch达到最大do时对所有xi执行AR等式6中定义的反向传播端更新C已知C已知yi将代理内存更新为Mi除了策略模块。我们在算法1中示出了所提出的方法的训练过程，其中任务流中有一个任务训练完成后，我们的识别系统的类可以成功地扩展。4. 实验为了验证我们的方法FLAR，我们检查两个具有挑战性的数据集上的性能。我们首先介绍所使用的数据集和我们的实验设置。然后，我们在4.3节中评估我们在类增量设置中的方法。我们的方法与其他基线的比较在第4.4节中展示，这表明了我们的政策在AR中的有效性。在第4.5节中，我们对训练样本量和保存的样本量进行了消融研究。4.1. 数据集和实验设置我们评估我们的方法在两个广泛使用的场景和对象识别数据集，分别。SUN360场景数据集[40]包含L蒸馏= −ΣΣFBCE（zy，f（xy）），（5）26个不同场景类别的球形全景图的我我iy∈C已知其中C已知是当前具有样本的类别并且FBCE表示二进制交叉熵函数。综上所述，我们的FLAR方法可以在端到端趋势中进行训练，损失如下：数据集分为6174个训练样本、1013个验证样本和1805个测试样本。我们在这个数据集上测试我们的代理，以进行主动场景识别。我们探员的视野被限制在60度。代理可以旋转以移动到新的观察结果（如图3所示）。智能体需要一个有效的策略来获得良好的场景识别精度的限制L= L类别+ L策略+ L熵+L预测+L蒸馏。（六）步骤，其被设置为T=5。我们将全景图离散成一个有32个视图的网格，即高度M=4，方位角N = 8，这与[29]中的设置相同。每个视图每一项都用一个常量来平衡，这里忽略这个常量。注意，策略的梯度只对策略模块起作用，而其他损失项对所有模块15399是32像素32像素2D图像。我们将代理的动作空间设置为以当前位置为中心的3 - 5视图网格。换句话说，代理移动被限制为15400×个t = 1热门猜测：山，海岸，废墟（错误）t = 3热门猜测：海岸，废墟，森林（错）t = 5热门猜测：森林，废墟，公园（正确）地面实况：森林t = 1热门猜测：海岸、商店、地铁站（错）t = 3热门猜测：码头，海岸，街道（正确）t = 5热门猜测：码头，街道，海岸（正确）地面真相：码头t = 1热门猜测：酒店房间、客厅、博物馆（错）t = 3热门猜测：酒店房间、客厅、博物馆（错）t = 5最有可能的是：客厅，酒店房间，church（correct）地面真相：客厅图3.主动场景识别过程中所提出的方法。每一行包含3个步骤，即，t=1，3，5，来自识别事件。起始位置被设置为相同以在三个样本上示出不同的轨迹我们标记当前视图（绿色框）和下一个移动网格（浅黄色区域）。如第一行所示，所提出的方法在5个步骤内纠正其合理但错误的猜测。ShapeNet数据集的更多可视化结果包含在补充材料中。每个时间步的3×5网格我们将SUN360数据集安排到一个任务流中，以适应FLAR。我们随机选择16个类别作为初始任务，所有训练样本，这形成了基础类别C库。在初始任务之后，智能体以类增量的方式在有限样本的情况下在以下10个类别上每个类别代表一个新的任务。的perfor-曼斯评估测试样本的数据集，考虑- ING所有类已经被训练。新类别训练样本的数量k是有限的，如果没有指定，则将其设置为5。此外，仅m=3个样本被保存到存储器而没有指定。ShapeNet数据集我们在ShapeNet数据集上进行的实验[10]考虑了代理可以操纵对象实例进行识别的场景。代理需要基于先前的观察来预测其下一个最佳运动。每个训练样本是计算机辅助设计（CAD）模型。分辨率为32的视图32是从M=6个相机仰角和N=12个方位角采样的。对于每一步，智能体能够在当前位置的5个高度乘7个方位角邻域在给出最终类别预测之前，可以实现总共5个我们从ShapeNet数据集中随机选择20个对象类别进行实验。每个类别包含35个用于训练的样本、10个用于验证的样本和10个用于评估的样本。在20个类别中，我们选择了10个类别作为基本类别，并将其他10个类别形成序列任务。的ShapeNet数据集比SUN360场景数据集更具挑战性，原因有二首先，它包含比我们的SUN360数据集设置更多的其次，合成3D模型可能包含比真实对象更少的纹理信息。我们还评估了我们的方法与所有看到的类别的性能。4.2. 实施方式我们的方法是用PyTorch实现的。我们的方法的视觉编码器是一个简单的3层网络，具有ReLU激活。我们利用递归神经网络（LSTM）从观察中聚合时间知识。在强化学习的轨迹收集过程中，我们随机提供起始视点。样本在训练期间被保存到存储器。目前，我们还没有考虑总存储器大小的限制，这将在我们未来的工作中考虑。我们附加一个分类器，即一个没有偏置的线性层，在每一步的LSTM输出。最终分类结果被报告为所达到的步骤的类似然的平均值。我们使用current表示仅基于当前估计的结果，并将平均值作为最终结果。4.3. 终身学习成果在这一部分的实验中，我们研究了所提出的方法在全FLAR条件下的性能。在这一部分，我们打算展示我们的方法在处理学习的有效性15401(a) 所提出的方法在SUN360数据集上的结果[40]。(b) ShapeNet数据集上所提出方法的结果[10]。图4.两个数据集的识别精度。TFS方法是Training From Scratch的缩写，它可以访问所有类别的足够数据。随机猜测方法定义了我们的性能下限。小说分类由于所提出的方法，据我们所知，是第一个解决FLAR，我们试图定义的范围内，我们的表现，大大减轻了任务。我们介绍我们命名的培训设置从零开始训练（Train From Scratch，TFS）TFS可以同时访问所有训练数据，换句话说，这不受遗忘或少样本挑战的约束。因此，我们的表现与百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比t = 5不平衡（当前）我们的（当前）10十一个十二个十三个十四个十五个十六个十七个十八个十九个二十个班数TFS的结果表明所提出的方法的更高的有效性，因为我们可以通过用很少的样本逐步学习新的类来获得类似的结果。图4显示了两个数据集的结果。所使用的度量是分类准确度。注意，TFS是用每个类别设置上的所有数据重新训练的，而所提出的方法在不访问先前数据的情况下递增地学习新的类对于每个数据集，我们显示时间步长t=1，2，.。。、5。所提出的方法的性能是相同的TFS的基础类别，因为没有类增量学习。人们可以看到我们的方法在学习新类方面的有效性，特别是对于ShapeNet数据集[10]。优势来自两个方面。首先，奖励dur- ing我们的政策学习激励代理采取行动区分与其他已知的类别。其次，通过对Agent样本存储器的知识提取，维护先前类的概念。正如预期的那样，所提出的方法在SUN360数据集上的整体性能优于ShapeNet数据集，因为ShapeNet数据集的搜索空间明显更大。图4中揭示的另一个发现是，性能随着采取更多步骤而提高。我们将在第4.4节中展示对我们的政策的评价，以说明改进不仅带来了图5.准确度与不同学习策略的班级数量。我们的研究结果表明，从不平衡设置的结果，面临着数据不平衡的问题的改进。通过获得更多的观察结果，以及政策。图4中一个有趣的观察结果是，所提出的方法偶尔会超过TFS在ShapeNet数据集上的性能[10]。它首先积极地表明，原型表示是有效的，在处理少样本的挑战。它还表明，大样本的类别可能不会带来直接的好处，原型表示，因为原型，即特征的平均值将被几个“硬”训练样本分散注意力训练数据的不平衡我们从数据平衡的角度展示了类增量学习的优势。我们结合了基础类别和新类别的样本。与可以具有用于新类别的足够训练样本的TFS相比，在不平衡设置中仅提供有限的k个在不平衡设置下的直接训练可以被视为长尾/数据不平衡问题。在图5中，我们展示了使用增量学习策略的不平衡结果我们在t=5时的结果稳定地优于来自不平衡设置的结果，这显示了我们的增量学习策略的有效性。精度15402百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十不同训练样本百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十不同的训练范例表1. SUN360数据集上的识别精度[40]。Curr. 表示当前估计值的结果，而avg. 是到当前步骤的类可能性的平均值。百分之二十百分之十0%的百分比我们的（k =3）我们的（k= 5）我们的（k = 10）16十七个十八个十九个二十个二十一个二十二个二十三个二十四个二十五个二十六个班数(a) 训练样本量百分之二十百分之十0%的百分比我们的（m =1）我们的（m= 3 ）我们的（m = 5）16十七个十八个十九个二十个二十一个二十二个二十三个二十四个二十五个二十六个班数(b) 示例尺寸4.4. AR比较在这一部分，我们只想展示我们的AR政策的有效性。我们阻止我们的机制类增量学习只留下一个AR代理固定categories。我们首先介绍基线。单视图：输入只是我们方法的随机起始视图。在此方法中不需要策略。我们将这种方法包括在我们的比较中，以显示单视图识别的性能。随机视图：该方法与所提出的方法共享类似的架构，该方法用随机动作选择替换我们的策略模块。运动的次数和我们的一样。最大的一步：政策是采取与当前观点最遥远这里的前瞻：该方法[18]也基于递归网络架构。奖励被定义为当前运动得到正确的预测，这与我们的方法不同。它和我们的楼梯一样通向固定的台阶。SUN360数据集[40]与所有26个类别的比较如表1所示。所提出的方法已经可以在基本AR任务上优于其他方法。我们的结果与其他被动基线（包括单视图、随机视图和最大步长）之间的较大改进表示在识别期间包括有效策略的优势我们的方法也优于[18]，这是两个属性的结果首先是我们的原型表示学习，促进获得不同对象实例之间的结构一致性。第二个原因是我们新颖的奖励总是激励代理实现更多的信息形成的观点。请注意，智能体可以通过重新定义动作空间来智能地4.5. 消融研究为了提供我们方法的更多细节，在这一部分中，我们在SUN360数据集[40]上执行我们的方法，其中我们隔离了它的各个方面。样本量首先，我们分析了样本量对我们的方法的影响。我们设置样本大小k=3，5，10，同时保持其他参数相同。保存到存储器的样本的数量为m=3。然后，我们的方法在这三种不同的设置中进行训练图6（a）图6. SUN360数据集上的消融研究[40]。将结果总结为类增量学习的所有步骤的准确度。结果表明，样本的数量实际上有助于性能。特别地，通过比较k=5和k=10的结果，可以看出性能增长并不显著。我们认为，这表明所提出的方法可以获得足够的原型表示与5个训练样本。另一个观察结果是，在学习了26级之后，表现有所提高。原因可能是我们的网络在26类的训练过程中使用保存的样本实现了先前类别的更好原型，或者26类引入了有益的可转移知识。样本量我们研究样本的数量对我们的表现有何影响。在对当前类别进行训练之后，以优先顺序选择样本图6（b）中的结果是用m=l、3、5和k=5训练的。注意，m=l意味着仅一个最近似的样本与原型匹配的数据存储在代理存储器中。的实验结果表明，当存储器容量非常有限时，所提出的方法是有效的，换句话说，这验证了我们的样本选择过程。5. 结论在本文中，我们提出了一种新的方法对FLAR的增量学习主动识别新的类别。挑战，包括训练样本少和遗忘，解决了三个主要组成部分。我们推导出的原型表示为每个类别，这是强大的处理有限的训练样本。新设计的奖励激励代理通过测量嵌入空间中的距离来实现更多的判别特征。为了减轻灾难性的遗忘，知识蒸馏与存储在代理存储器中的样本实验结果，以及消融研究，表明所提出的方法的有效性的FLAR任务。然而，尽管取得了可喜的成果，但FLAR仍然是一项处于起步阶段的挑战性任务。我们计划在未来的工作中研究范畴关系对AR的影响确认这项工作得到了国家科学基金会资助IIS-1619078、IIS-1815561和IIS- 2007613的部分支持。精度精度方法t = 2加速t = 3加速t = 5加速Curr.avg.Curr.avg.Curr.avg.单一视图51.651.651.651.651.651.6随机视图55.656.557.759.159.862.3最大步长54.755.753.656.652.455.8[第18话]59.860.267.866.369.470.6我们61.561.068.467.069.971.115403引用[1] 约翰·阿洛蒙诺斯目的性和定性的主动视觉。 1990年国际模式识别会议论文集。二个[2] John Aloimonos，Isaac Weiss，and Amit Bandyopadhyay.主动视觉。国际计算机视觉杂志，1988年。二个[3] 亚历山大·安德烈奥普洛斯和约翰·K·措措索斯。主动目标定位理论。IEEEInternational Conference on ComputerVision，2009。二个[4] 亚历山大·安德烈奥普洛斯和约翰·K·措措索斯。不确定条件下主动物体识别的计算学习理论。国际计算机视觉杂志，2013年。一、二[5] Nikolay Atanasov，Jerome Le Ny，Kostas Daniilidis，and George J Pappas.分散式主动信息采集：多机器人灌篮理论与应用。2015年IEEE机器人与自动化国际会议（ICRA），第4775-4782页。IEEE，2015年。二个[6] Nikolay Atanasov，Bharath Sankaran，Jerome Le Ny，George J Pappas，and Kostas Daniilidis.用于活动对象分类和姿态估计的非近视视图规划IEEE Transactions on Robotics，2014。一、二[7] Ruzena Bajcsy、Yiannis Aloimonos和John K Tsotsos。再访主动感知。 Autonomous Robots ， 42 （ 2 ）： 177-196，2018。一个[8] 达纳·H·巴拉德。动画视觉。人工智能，1991年。二个[9] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在IEEE计算机视觉和模式识别会议论文集，第1893-1902页，2015年。三个[10] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。六、七[11] Devendra Singh Chaplot ， Dhiraj Gandhi ， AbhinavGupta，and Ruslan Salakhutdinov. 使用面向目标的语义探索的对象目标导航。 arXiv 预印本 arXiv ：2007.00643，2020。二个[12] Ricson Cheng，Ziyan Wang，and Katerina Fragkiadaki.用于主动视觉识别的几何感知递归神经网络。arXiv预印本arXiv：1811.01292，2018。一、二[13] Joachim Denzler和Christopher M Brown。主动目标识别和状态估计的信息论传感器数据选择。 IEEETransactionsonpatternanalysisandmachineintelligence，24（2）：145-157，2002。一个[14] Yan Duan，John Schulman，Xi Chen，Peter L Bartlett，Ilya Sutskever，and Pieter Abbeel. Rl？2：通过慢速强化学习实现快速强化学习。 arXiv 预印本 arXiv ：1611.02779，2016。三个[15] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。2017年国际机器学习会议。二、三[16] Jiangpeng He，Runyu Mao，Zeman Shao，and FengqingZhu.在线场景中的增量学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第13926-13935页，2020年。三个[17] Khurram Javed和Martha White用于持续学习的元学习表示。arXiv预印本arXiv：1905.12588，2019。三个[18] Dinesh Jayaraman和Kristen Grauman在你跳跃之前要向前看：通过预测运动的影响进行端到端的主动识别。2016年欧洲计算机视觉会议。一、二、四、五、八[19] Dinesh Jayaraman和Kristen Grauman学习环顾四周：智能地探索未知的环境，完成未知的任务.在IEEE计算机视觉和模式识别会议论文集，2018。二个[20] Edward Johns ， Stefan Leutenegger ， and Andrew JDavison.用于主动多视识别的图像序列成对分解在IEEE计算机视觉和模式识别会议论文集，第3813- 3822页，2016年。二个[21] 我是卡杜，斯坦德或赛蒙松，和马克·彼得·戴森罗斯概率主动元学习。arXiv预印本arXiv：2007.08949，2020。三个[22] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在IEEE计算机视觉国际会议集，2019年。三个[23] SKasaei、JuilSock、LuisSeabraLopes、AnaMariaTome'和Tae-Kyun Kim。感知、学习和识别3D对象：认知服务机器人的研究方法。2018年AAAI人工智能会议的论文集。一个[24] Sena Kiciroglu 、 Helge Rhodin 、 Sudipta N Sinha 、Mathieu Salzmann和Pascal Fua。Activemocap：优化的视点选择，用于主动人体运动捕捉。在IEEE/CVF计算机视觉和模式识别会议论文集，第103-112页，2020年二个[25] VincenzoLomonaco，KaranDesai，EugenioCulurciello，and Davide Maltoni.三维非平稳环境中的连续强化学习在IEEE计算机视觉和模式识别研讨会论文集，2020年。三个[26] Mohsen Malmir 、 Karan Sikka 、 Deborah Forster 、 IanFasel、Javier R Movellan和Garrison W Cottrell。通过联合标记和动作预测的深度活动对象识别计算机视觉和图像理解，156：1282[27] Thomas Mensink，Jakob Verbeek，Florent Perronnin，and Gabriela Csurka.

下载后可阅读完整内容，剩余1页未读，立即下载