没有合适的资源?快使用搜索试试~ 我知道了~
4612对抗性干扰下主动识别学习中的延迟问题范磊和吴英西北大学2145 Sheridan Road,埃文斯顿,IL 60208网址:leifan@u.northwestern.edu,yingwu@northwestern.edu摘要本文认为,主动识别的情况下,代理被授权以智能地获取观测,以更好地识别。代理通常包括两个模块,即,策略和识别器来选择动作和预测类别。当使用地面实况类标签来监督识别器时,通常使用由当前训练中识别器确定的奖励来更新策略,例如是否实现正确的预测。然而,这种联合学习过程可能会导致意想不到的解决方案,比如一个崩溃的策略,它只考虑识别器已经经过充分训练以获得奖励的观点,这会损害泛化能力。我们称这种现象为挥之不去,描述代理在训练期间不愿意探索具有挑战性的观点。解决探索-开发权衡的现有方法可能是无效的,因为它们通常假设在探索期间有可靠的反馈来更新很少访问的状态的估计。这个假设在这里是无效的,因为来自识别器的奖励可能没有得到充分的训练。为此,我们的方法集成了另一个adversar- ial政策,不断干扰识别代理在训练过程中,形成一个竞争的游戏,以促进积极的探索,避免逗留。当识别失败时,强化的对手得到奖励,通过将摄像机转向具有挑战性的观察结果来与识别代理进行竞争。在两个数据集上的大量实验验证了该方法在识别性能、学习效率以及对环境噪声的鲁棒性等方面的有效性。1. 介绍被动视觉识别是一种基于人拍摄的图像或视频的识别技术,在近几十年来取得了巨大的成功。相反,在机器人场景中,期望主动主动识别背后的主要动机是规避不希望的观察条件,同时获得明确和区分的信息。多年来,已经提出了几种基于学习的主动识别方法[4,23,18,17,6,25,7,33]通常,这些方法循环地提供两个输出,即,策略中要执行的动作和识别器中的分类概率。由于两个模块协作,存在多种可能的组合以实现相同的最终类别预测。一个直观的解释是,如果不同的识别器精通不同的视图,则存在各种相机轨迹来对同一对象进行分类。然而,我们观察到,由于识别器的不正确奖励,主动识别代理的策略然而,政策的崩溃进一步加剧了识别器的过度拟合。这种现象在本文中被命名为徘徊(如图1所示),包括不愿意探索和无意义的推广经验收集。在图2中,我们通过显示训练过程中特定于视图的访问频率及其相应的测试精度来可视化延迟我们观察到,挥之不去的危害的泛化能力的代理过拟合,只有有限的意见。由于逃避拖延是现实的代理人的就业,这个问题仍然是探讨不足在积极的承认文学。在几种可用的补救措施中,解决勘探-开采权衡的方法[33,3,13]是相关的,但不适用于主动识别方案。考虑到经典的方法(贪婪,汤普森采样,等)为了解决该折衷,这些方法在探索期间假设可靠的回报以更新很少访问的状态的估计不幸的是,这个假设并不适用于训练主动识别代理,因为奖励取决于识别器换句话说,反馈可能是负的,不是因为这个观点不具有信息性,而是因为识别器的训练还不够。分阶段训练和使用预先训练的识别器[43,13,12,46]是另一种策略。人为干预,4613环境采取行动政策识别器剂{左,上,右,.}预测类别{苹果,香蕉,.}时间t图1.主动识别系统中的延迟问题的概念概述智能体可以通过获得观察结果和移动(左)与环境进行交互这两个模块,即,策略和识别器可能收敛到不期望的解决方案,因为识别器仅向其已经可以正确分类的视图提供奖励,从而导致崩溃的策略。我们称这种现象为徘徊。如果不能解决这个挥之不去的问题,右派就给出了一个直截了当的例子查看访问热图(火车)和准确性(测试)与挥之不去的问题。我们的观点访问热图(火车)和准确性(测试)没有逗留。最终的主动识别性能比较。图2.在训练过程中,我们与基线的视图访问频率和测试过程中相应的准确性进行了比较每个热图中最高和最低访问频率之间的比值为193。80比2 31,分别。如缺乏离线数据收集,成为必然。总的来说,从相互作用中学习[19,14]被认为与在环境中主动执行一样值得注意,特别是对于主动识别代理。在本文中,我们首先解释了固有的多个解决方案的性质,主动识别制定成一个乘法形式。然后,通过对其迭代训练过程建模,解释了延迟的原因,即,收敛到缺乏泛化能力的特定解为了解决延迟问题,我们建议在训练过程中用对手干扰主动识别策略。对抗性策略被奖励为提供导致识别失败的动作干扰。因此,认知策略和对抗策略建立了一个零和竞争游戏。通过迭代求解最小-最大均衡,得到两种策略的最终最优解总之,贡献和见解是关于检查活跃识别代理的挥之不去的问题,并通过涉及对抗策略的干扰来解决它我们在主动对象[10]和场景识别场景[42]中验证了所提出的方法。从三个方面论证了该方法的优越性。(1)在存在对手的情况下,该方法获得了更好的主动识别性能,为了避免这个挥之不去的问题。(2)通过引入额外的环境噪声(包括视图遮挡和运动失败)进行实验,证明了该方法的鲁棒性。(3)与均匀和高斯分布的探索性行为相比,所提出的对抗性策略可以更有效地挖掘具有挑战性的观点,以提高整体性能。2. 相关工作主动视觉。主动视觉作为一个长期的领域,由[2,1,8,38]提出,已经在几个领域进行了探索。分支,如识别[5,6],探索[33,14,24,34,12],定位[3]和导航[15,13,16,11,41]。共同的动机是允许智能体从自己的意图进行观察,即,让智能体主动选择观测来完成不同的任务。具体而言,积极认可的动机一般从三个方向阐述:减少模糊度[23,34,24],避免不希望的观看条件,最大化信息增益[36,6,4]。这些动机在更好的识别性能的最终目标下是内在联系的。根据它们的实现,现有的工作可以根据它们是否代表马尔可夫决策而主要分为训练样本测试样本苹果#1苹果#2全红半红半黄苹果#3半红半绿苹果所有绿色汇聚成特定的解决方案绿色的一面是把摄像头转到红色的那一边。未及充分训练识别器。红色的一面是苹果。方位方位方位高程图像高程高程一个来自Table类的示例4614→−×∈ APP·基于MDP的强化学习模型。[5,6]提出了一种平衡移动成本和正确识别机会的主动对象假设验证在[36]中,将指示潜在信息利润的显着性模块插入部分可观察MDP的观察模块[26]。这些方法侧重于不同的方式来定义视图特定的好处,然后规划轨迹。在本文中,我们比较了所提出的方法主要是与其他并行学习方法。在[23,34]中,作者提出了一个主动识别代理,它是端到端可训练的,具有增强的策略下降。针对视图证据聚合、分类和下一视图预测的三个模块合作指导动作选择。[18]旨在将主动识别置于一个更有挑战性但更实用的场景中,该场景考虑不断出现的新类别。然而,大多数现有的主动识别工程直接从头开始训练他们的代理,并提供足够的关注挥之不去的问题。在与缓解延迟相关的其他一般方法中,离线方法,如预训练和分阶段训练,被用于不同的主动视觉任务[43,35,37]。为了避免不稳定的联合训练,在[43]中,他们重新排序为迭代训练策略来训练感知和策略模块,其中需要从具有预定义轨迹的环境中收集视觉观察。[13 12]将预先训练的视觉编码器包括到它们的主动探索代理中,以减轻由联合训练引起的负担对于主动识别,收集- ING静态图像数据集和离线训练识别器是费力的,并且可能是不可行的,特别是对于在现实世界中操作的实体代理。考虑到奖励的可靠性,避免策略利用的在线方法(如随机探索性策略[23])是有益的,但效率低下另一方面,我们的方法专注于解决由对抗性干扰引起的挥之不去的问题,允许更多样化的在线探索。对抗性学习。对抗学习[29,28,39]通过在机器学习模型中产生错误功能来尝试更强大的训练,已广泛应用于生成模型[21,32],迁移学习[9,44]和主动学习[45]。最近,有一堆作品[31,30,20,27]显示出对通过对抗攻击构建鲁棒增强代理的兴趣在[31]中,他们将环境视为对手,模仿潜在的噪音,导致泛化失败。[20]选择通过额外的对抗代理向代理的观察结果引入扰动,这可以发现比常规对手更多的意外失败情况。我们的工作与对抗强化学习有着相似的动机,即,由拮抗剂产生的对抗性干扰可以防止策略学习期间的过拟合。3. 方法我们的目标是在主动识别中识别和解决挥之不去的问题。我们首先介绍了本文中使用的设置和符号。然后,我们将代理分为两部分,即识别器和识别策略,以在相同的评估度量下传达其多个组合的性质从迭代训练过程的角度,我们解释了组合如何导致延迟。提出的方法,增加不利的干扰,以防止拖延,以及模型结构,在最后描述。3.1. 任务设置和符号通过将代理应用于对象识别场景来描述任务设置。用于主动识别的代理通常可以被表示为单个函数fR,其被提供有对象实例x,并且然后预测其类别标签为yR=f(x)。 在每个识别事件中,代理被允许采取总共T个时间步来实现最终的类预测。一个附加动作是识别的接收,例如。在每个时间步长t= 1,2,..,t处取向上旋转对象的时间步长。. . T1. 通过采取行动,智能体然后能够获得目标实例x的另一个观察结果。为了更好地比较识别性能,本文固定了总的运动步数。请注意,在训练过程中,通过向动作空间添加“停止”动作,允许提前终止。更具体地说,我们均匀地将目标物体周围球体上的潜在摄像机位置离散成具有M个方位角N个仰角大小的视图网格。因此,该动作被定义为通过采取移动而围绕目标对象的即,at=ct−1,t,其中ct是时间t处的对应相机视点。利用从3D到2D的投影函数(),在时间t处观察到的视觉输入是vt=x(ct)。除了类别预测,主动识别代理还需要在探索过程中选择动作。因此,目标有三个方面,包括勘探期间的证据积累、有效的运动和基于收集到的信息的分类。3.2. 主动识别公式我们理解主动识别的过程中,代理不断达到更多的信息视图,并执行分类。回顾主动识别背后的动机,代理移动作为单一的静态图像不包含足够的信息,一个明确的分类。另一方面,如果识别器是完美的,那么做动作的欲望就会大大减少,因为它可以从每个角度识别物体,这是不可能的,特别是在不受约束的情况4615|||ϕ×|所有训练目标为Lf=||得双曲余切值.|, where环境我们还讨论了策略退化时,一个强识别器在SEC。四点六分。我们的基本主动识别系统用两组参数建模,即,θ和θ表示识别器模块和识别策略模块。识别器模块,定义为q θ,是一个非线性映射函数,它接受聚合信息ht,并将标签预测为yt=argmaxqθ (yht)。在该方法中,我们结合了视觉编码器和递归神经网络由于策略学习包含不可微的最大选择操作,纯粹通过推出体验的奖励进行更新。相反,识别器是通过训练信号直接反向传播的,就像带有地面真值标签的类预测之间的测量一样。具体来说,在训练步骤τ,我们有:• 识别器更新:θ τε= arg maxθlog IP(θ| Dτ−1),其中Dτ−1 是以将观测值递归地融合到隐藏向量h。持续时间在训练中,识别器被授权预测一个附加的火车按政策收集的意见πτ−1火车从古至今,函数输出,第二个隐藏向量h电话+1,对视图我们的训练步骤。相关性和对象结构知识。训练期间的识别器然后被公式化为:qθ(yθ,hθt+1ht).第二模块,即,识别策略被视为部分可观察的MDP,它试图最大化累积折扣奖励。随机策略的概率密度函数被定义为π<$(at+1ht)。换句话说,策略迭代地预测具有先前聚合信息的动作分布,即,隐藏的向量给定第i个对象实例xi,主动识别代理对时间步t的类别预测公式化为:y∈i=fθ,n(xi)=argmaxqθ(yv0,. . . ,vt),(1)y其中vt=Pxi(ct−1+argma x<$aπ<$(at|ht−1))。我们的任务是-|·|θ,我• 认可政策更新:τ也就是说,奖励R反映了识别器相应地,识别器倾向于正确地预测在前面的步骤中训练的视图,然后提供奖励,以驱动警察收敛到相同的观点。不幸的是,由于更新奖励函数,识别器也需要数据。我们把这种在训练过程中的主动再认现象称为延迟再认。3.4.对抗性政策让我们把主动识别系统简化为一个对称的两个模的双曲乘法表示符合×是距离测量。不失一般性,我们考虑两步主动在对象实例上的识别过程xi.具体损失如下:Ii= |yi−fθ,(xi)|为|yi−argmaxqθ(y|v0,v1)|根据方程2,即f θ, π π我们的直觉为了避免在训练中逗留,将条款纳入政策部分,即,fθ,θ=qθ(πθ+θ)。由于在训练过程中干扰是变化的,我们防止主动识别剂落入特定的组合,即,通过更多的y为|yi−argmaxqθ(y,v<$a1|v0)|、(二)训练中的各种情况干扰可能也被认为是一种动力,逐步推动-yπ(a1|v0)其中,我们使用v0来表示隐藏向量h0,因为它是获得的唯一观测。详细推导过程见补充资料。注意,损失项不能直接优化,因为动作选择过程是不可微的。由于识别器和策略部分形成等式2中的乘法,因此存在多然而,在训练过程中应始终避免对特定解决方案的过拟合,这会损害智能体处理意外环境变化的鲁棒性。3.3.留连学习主动识别在介绍了主动识别的多解性质之后,我们将训练公式化为一个迭代更新过程来解释延迟的发生。允许代理探索其他信息视图。我们不是用预定义的噪声分布(如高斯噪声)对干扰进行建模,而是用对抗策略π来表示干扰, 一个竞争性的零和游戏的主角,即,承认政策ππ。虽然识别策略在训练期间找到熟悉的视图以提高识别性能,但对手倾向于将相机引导到更具挑战性或分布外的视图,从而导致失败。图3展示了这两种策略之间的能力。通过在训练期间不断挖掘活动识别代理中的缺陷,代理将大大提高其在相同训练对象集合上的鲁棒性,换句话说,这避免了延迟。形式上,对抗策略被定义为另一个部分可观测的MDP,其中π=(πt+1gt),其中gt是另一个时间聚集的隐藏向量。识别4616i=0时←∗∈A关于我们←--T−1我不不E{}原文:找到并识别红色的一面。旋转对抗性干扰烦恼:尝试不熟悉的另一面。培训图3.概述了所提出的解决拖延问题的方法。左图显示了对抗性政策的一个例子,它干扰了原始政策,以达到具有挑战性的同时提供信息的观点。在右边,我们展示了所提出的方法的体系结构,它主要由三个模块组成,即,识别器、识别策略和对抗策略。polycy的隐藏向量ht和识别器预测yt,连同包括时间步长t和相对位置变化t-1,t的其它本体感知一起被视为对手的观测。换句话说,特征gt包含承认政策的条件,预测随着时间的推移,使对手能够跟踪识别代理中的不一致性和不确定性。对手的动作空间表示为Aadv,算法1:使用对抗策略训练代理输入:=(x i,y i)n包含n个3D对象的环境初始化:当训练迭代次数i = 1,. . . 达到最大剂量i对于j = 1,. . . ,Nrec do产生积极的认可体验{(a,n,rrec,radv,yn)}a=a+,可能是αi−1或a=a它被设置为一个较小或相同大小的空间,θ i←argmi nθ i|yi−yi|ϕ ←∗代理人的行动和干扰在时间步t作为一个t+1我端用{(a,rrec)}增强π π(a t+1|h t)和t+1<$π <$(t+1|g t)。AC-i←代理人采取的实际干扰行动是a+1=对于j = 1,. . . ,N advdo产生积极的认可体验at+1+t+1。我们通过掩盖对抗性策略更新中不令人满意的干扰,确保受干扰的行为仍然满足一个约束我们设计了两种动机完全相反的策略的奖励根据主动识别的动机,即选择更具鉴别力的视图,我们定义了识别策略的检索条件r_rec,t(y_t)=1端端(a,b,rrec,radv,yd)REINFORCE with(动词,副词)αi实际奖励与最大奖励敌方当类别预测正确时,会出现结冰反之,当预测错误时,则对预测值的要求为radv ,t(y≠t)=1也就是说,对抗策略的重点是发现代理的失败案例。3.5.建筑和培训我们的主动识别系统是在[23]中提出的基线架构上建模的,具有额外的对抗策略来提供干扰。图3展示了我们方法的概述。如图3所示,我们选择视觉编码器的组合,即,多卷积层,以及递归神经网络(LSTM),其执行从视觉观察序列到隐藏向量h的非线性映射。相反,对抗策略循环地接受隐藏向量h和类别预测,它们在对抗策略的训练中不会更新。我们选择输入类别激活而不是一个-对抗政策的热门标签通过纳入-形成时,由奖励R ADV监督的对手被期望理解当前识别代理的缺陷。在每个时间步t,代理应该选择一个动作和一个干扰,两者都具有最高的概率。识别器中的分类器,作为线性层的组合,然后应用于产生类预测。识别策略和对抗策略在交替过程中得到优化[31]。在每次轮换中,我们交替地持有一个策略,同时更新另一个训练过程被终止,直到主动识别代理的收敛。我们在算法1中概述了所提出的方法。在批量策略更新算法中利用回报rrec和radv,即,REINFORCE[40],允许反向传播到非随机单元。我们把损失定义为我们的认可政策-冰冷的学习:Lrec=logπ(at|hi−1)rre c(yi),(3)我 t=1视觉观察识别器类别预测干扰动作确认政策对抗性政策时间t聚合器和干扰选择器证据聚合器(经常性)分类器动作选择器视觉编码器剂环境in our approach方法.在训练过程中,我们对4617t−1不L- -A A×我不t=2不hi是由识别器中的一个单独模块阿斯图里岛Σ其中上标i表示相应的训练样本。同样,对抗性策略的损失为:T−1Ladv=logπ(et|g)rad v(y).(四)我t =1为了稳定主动识别策略的训练,我们在对手不能造成失败后,减少干扰的影响。干扰机会由α控制,α是优化对手时实际获得的奖励与最大奖励的比值。类别预测损失被定义为L类别=−L4.1. 数据集和实验设置我们在两个数据集上评估了所提出的方法,用于主动对象[10]和场景[42]识别。ShapeNet我们的活动对象识别实验是在ShapeNet [10]数据集上进行的,其中包含55个类别。智能体在每一集都被赋予一个3D对象实例,然后用预测的运动操纵对象类标签也预测在每个时间步长,直到达到最大的步骤。我们将目标物体周围的观察球体离散30度,从而产生具有M= 12个方位角和N= 12个仰角的观察网格我们将智能体的动作空间设置为一个5×5的网格,包括在培训期间。计算熵都对动作和扰动分布,这也促进生产更多样化的产品。另一个术语预测的作用是将视图相关性编码到我们的识别器中[23]。该术语的正式定义为在当前的摄像机位置。 我们随机抽取了8340个样本,来自ShapeNetCore的1075和1012个实例[10],培训、验证和测试。SUN 360SUN 360 [42]被指定用于我们的主动场景识别实验,其中有26个不同的-L预测=100TD(hi,hi),其中,门和室外场景类别。数据集包含6174培训,1013确认,1805测试球形不阿吉什全景。 每张全景图覆盖360×180度和前一个动作at1。D表示余弦距离,它用作相似性度量。总之,所提出的方法是用损失来训练的L=Lcategory+Lrec+Ladv+Lentropy+Lforecast,(5)其中,每个损失项都伴随有平衡权重,这里忽略该平衡权重。反向传播到每个部分的梯度可以在图3中跟踪,其中我们使用双斜线表示变量的分离。在测试阶段,智能体仅使用识别策略ππ执行主动识别。4. 实验我们的实验有三个主要目标• 主动识别结果。我们将所提出的方法与被动识别、基于朴素我们证明,在对抗策略的存在下,我们的方法可以有效地避免训练过程中的遗留问题,并实现显着的改进,特别是在其他端到端的可训练方法中[23,18]。• 代理的鲁棒性。由于现实世界的环境基本上是嘈杂的,鲁棒性是至关重要的主动识别代理。因此,我们将环境噪声引入到两个群体的主动识别中,即,视觉观察和动作执行。• 敌对政策。我们通过进一步的消融研究和与其他预定义扰动分布的比较来检验所提出的对抗策略。然后将视场均匀地分成32个网格,其中M= 8个方位角和N= 4个仰角。 对于这个数据集,我们使用相同的预训练的1024-dim特征来替换我们的视觉编码器,以便与[23,18]进行公平比较。请注意,对于两个数据集,代理可能需要多达T= 5个步骤4.2. 实现细节视觉编码器是一个简单的3层卷积网络。对于识别策略,我们使用LSTM来融合时间视觉观察和其他本体感受。我们将对抗策略实现为单层门控递归单元(GRU)。在再学习的经验积累 训练时期Nrec和Nadv被设置为20和10在我们的实验中。此外,我们使用相同大小的副词与rec,即,5个5.等式5中的平衡权重被设置为1、1、1、0。01和1。5,在所有数据集上。我们报告的每一步的性能,考虑所有可能的开始位置在测试过程中。4.3. 主动识别结果我们针对其他5个基线对所提出的方法进行了广泛的评估,以显示在视觉识别中包括智能策略的改进以及对抗策略在避免延迟中的有效性。我们首先介绍每个基线。单视图:对于这个基线,它由与我们的方法相同的视觉编码器和分类器组成,它只接受随机视图作为输入。我们选择这种方法来展示单视图被动识别的性能随机视图:该方法共享相同的视觉编码器和分类器,同时用随机动作选择代替识别iFsoftmax(y∈i,yi).此外,还有两个其他的损失4618表1. ShapeNet数据集[10]和SUN360数据集[42]的主动识别准确性。 结果是平均超过5运行不同的初始化。ct表示相机视点。t = 1热门猜测:草坪、老建筑、广场庭院(错)t = 3热门猜测:森林,山,草坪(错误)t = 5热门猜测:海岸,森林,草坪(正确)地面实况:海岸t = 1热门猜测:餐厅、博物馆、商店(错误)t = 3热门猜测:世博展厅、商店、博物馆(正确)t = 5热门猜测:世博展厅,商店,餐馆(正确)地面真相:博览会陈列室图4.我们的方法进行主动场景识别。每一行包含3个步骤的结果,即,t=1,3,5。当前视图用绿色框标记,而下一个可用移动是浅黄色区域。在真实世界的场景中可用,我们都通过是否将其包括作为propri- oception输入来显示有或没有它的结果。所有基于强化学习的策略,表2.SUN360 [42]在不同干扰下的结果方法t=1 acc.t=3加速t=5加速单一视图- 培训99.8--随机视图67.678.680.9我们67.6±.278.6±.280.9±.3表3. ShapeNet [10]数据集上的结果,用ResNet-18 [22]替换视觉编码器。最大步长:基于相邻视图通常共享相似信息的假设,从当前视点进行最远的移动前瞻性:该基线[23]与我们的基线共享最多的结构,在培训期间没有对抗性政策。因此,对这种方法的改进可以被认为是所提出的对手带来的好处FLAR:该方法[18]专注于少数样本和终身学习的挑战。我们阻断了它的内隐学习机制,让智能体对固定的类别进行主动识别。除了没有对手之外,与我们的另一个显著区别是利用了一个渐进的奖励函数,该函数测量嵌入空间中每个视图的区分能力。ShapeNet [10]和SUN360 [42]数据集的比较报告见表1。我们demonstrate识别精度的时间步长t= 1,3,5。由于在每一步的相机视点ct可以是非-即,[23,18]和我们的,已经可以优于被动和天真的基于策略的方法,包括随机视图和最大的步骤,表示在识别过程中涉及智能控制策略的优势。特别是,与其他增强的基于策略的方法相比,包括Look-Ahead[23]和FLAR[18],它们共享类似的网络架构,而没有提出的对手,我们在两个数据集上的识别准确性的显着改善归因于避免学习期间的延迟换句话说,比较的方法[23,18]重复访问有限的视图,然后为其政策提供积极的奖励,这些政策在训练期间进一步收敛于这些有限的视图。考虑到图2中的热图,如果没有提出的相反,该方法中的对抗策略会不断地通过挖掘失败来干扰识别策略,从而避免了链接,在策略和识别器上都取得了显著的改进。在SUN360数据集上,由于使用预训练的特征而不是直接的视觉输入,过度拟合问题得到了缓解,这也证明了延迟的危险。我们的方法的识别过程也在图4中展示。所示方法shapenet数据集SUN360数据集t=1 acc.t=3加速t=5加速t=1 acc.t=3加速t=5加速w/ct不含ctw/ct不含ctw/ct不含ctw/ct不含ctw/ct不含ctw/ct不含ct单一视图-37.9-----51.6----随机视图-37.9-38.6-39.5-52.1-62.8-65.9最大步长-37.9-38.2-39.0-51.1-57.0-58.3[23]第二十三话46.1±.244.9±.260.9±.358.0±.263.4±.360.3±.351.9±.251.8±.166.8±.166.4±.170.0±.269.5±.2[第18话]45.9±.245.6±.259.7±.356.8±.258.9±.259.3±.252.15±.151.7±.165.6±.164.6±.268.3±.267.6±.2我们61.9±.162.0±.274.8±.174.0±.276.9±.376.4±.353.6±.154.6±.168.0±.267.4±.271.5±.269.6±.2方法t=1 acc.t=3加速t=5加速我们的+制服51.9±.167.3±.170.1±.2我们的+高斯51.9±.167.2±.170.0±.2我们的+Advertisement53.6±.168.0±.271.5±.24619×(a) 电机不能总是成功地执行随机停止和不受控制的运动的动作(b) 对象的视图被随机遮挡。图5.我们通过修改两组环境设置来展示ShapeNet数据集[10]的鲁棒性比较在第二行,我们的方法可以通过移动到更多信息的观察来消除其从另一个角度来看,我们的方法的优点一般来说,学习的政策和执行的政策应该是不同的。智能体不仅要学习提高识别的技能(识别策略),还要弥补其不足(对抗策略)。4.4. 代理的稳健性我们通过在测试过程中引入各种环境噪声来我们与没有解决延迟机制的Look-Ahead[23]之间的比较如图5所示,具有两组不同的噪声。由于我们的见解之一是通过不断干扰的政策,使代理人可以面对不同的情况,结果证实了我们的代理人是更强大的比其他基于政策的方法。图5(b)中另一个有趣的发现是,当视图严重遮挡时,[23]的性能甚至下降,有30%到50%的机会,而我们的仍然在增加。 原因可能是[23]的策略在观察结果不像预期的那样出现时是脆弱的,这导致了更差的时间证据融合。4.5. 对抗性政策我们研究了对抗性干扰的不同建模如何影响性能。我们选择另外两个具有预定义分布的扰动:均匀分布和高斯分布以无扰动为中心。对于训练片段的每个动作,动作相应地添加有从这两个分布中采样的干扰。bitions。我们将干扰限制在5 × 5视图网格内。结果如表2所示。通过对抗性策略模拟干扰,可以更有效地发现训练中的不足。4.6. 讨论和未来的工作在我们的实验中,我们发现通过用具有更高学习能力的ResNet-18 [22]替换我们的视觉编码器(3个卷积层),主动识别的智能策略消失了我们在表3中示出了结果。 正如我们所观察到的,ResNet-18在训练过程中过度拟合了所有可能的视图,换句话说,无论智能体采取什么行动,都会始终如一地也就是说,只有当识别器是不完美的,代理人有动机观察其他意见,这导致我们未来的工作,研究主动识别的必要性5. 结论在本文中,我们研究并提出了一种新的方法与对抗性干扰,以解决在训练主动识别中发生的链接问题。通过建立主动识别系统和对训练过程进行建模,解释了延迟的条件,包括Agent两个模块联合训练的多解性。为了缓解这个问题,我们通过不断挖掘未发现的缺陷来引入来自增强剂的扰动。换句话说,对手智能地改变识别经验,以防止代理遭受过拟合和单调的政策。在两个数据集上的实验,以及鲁棒性评估和消融研究,证实了所提出的方法的有效性4620引用[1] 约翰·阿洛蒙诺斯目的性和定性的主动视觉。在[1990年]会议记录中。第10届专利识别国际会议,第1卷,第346-360页。IEEE,1990年。[2] John Aloimonos,Isaac Weiss,and Amit Bandyopadhyay.主动视觉。国际计算机视觉杂志,1(4):333[3] 亚历山大·安德烈奥普洛斯和约翰·K·措措索斯。主动目标定位理论。IEEEInternational Conference on ComputerVision,2009。[4] 亚历山大·安德烈奥普洛斯和约翰·K·措措索斯。不确定条件下主动物体识别的计算学习理论。国际计算机视觉杂志,2013年。[5] Nikolay Atanasov,Bharath Sankaran,Jerome Le Ny,Thomas Koletschka , George J Pappas , and KostasDaniilovsky.主动目标检测的假设检验框架。在2013年IEEE机器人和自动化国际会议上,第4216-4222页。IEEE,2013。[6] Nikolay Atanasov,Bharath Sankaran,Jerome Le Ny,George J Pappas,and Kostas Daniilidis.用于活动对象分类和姿态估计的非近视视图规划IEEE Transactions onRobotics,2014。[7] Ruzena Bajcsy、Yiannis Aloimonos和John K Tsotsos。再访主动感知。Autonomous Robots,42(2):177[8] 达纳·H·巴拉德。动画视觉。人工智能,1991年。[9] Zhangjie Cao , Mingsheng Long , Jianmin Wang , andMichael I Jordan.选择性对抗网络的部分迁移学习。在IEEE计算机视觉和模式识别会议论文集,第2724- 2732页[10] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[11] Matthew Chang,Arjun Gupta,and Saurabh Gupta.通过观看youtube视频进行语义视觉导航。神经信息处理系统的进展,33:4283-4294,2020。[12] Devendra Singh Chaplot , Dhiraj Gandhi , SaurabhGupta,Abhinav Gupta,和鲁斯兰·萨拉胡迪诺夫学习使用主动式神经撞击进行探索。arXiv预印本arXiv:2004.05155,2020。[13] Devendra Singh Chaplot,Dhiraj Prakashchand Gandhi,Ab-hinav Gupta,and Russ R Salakhutdinov.使用面向目标的语义探索的对象目标导航。神经信息处理系统的进展,33:4247-4258,2020。[14] Devendra Singh Chaplot,Helen Jiang,Saurabh Gupta,and Abhinav Gupta.主动视觉学习的语义好奇心。欧洲计算机视觉会议,第309-326页。Springer,2020年。[15] Devendra SinghChaplot , RuslanSalakhutdinov ,Abhinav Gupta,and Saurabh Gupta.视觉导航的神经拓扑系统。IEEE/CVF会议论文集计算机视觉和模式识别,第12875- 12884页,2020年。[16] Changan Chen,Ziad Al-Halah,and Kristen Grauman.视听导航。在IEEE/CVF计算机视觉和模式识别会议论文集,第15516-15525页[17] Ricson Cheng,Ziyan Wang,and Katerina Fragkiadaki.用于主动视觉识别的几何感知递归神经网络。arXiv预印本arXiv:1811.01292,2018。[18] 雷凡、沛西熊、薇薇、英武。Flar:一个用于少样本终身主动识别的统一原型框架在IEEE/CVF计算机视觉国际会议集,第15394-15403页[19] 孟芳,袁力,特雷弗.科恩。如何主动学习:深度强化学习方法。arXiv预印本arXiv:1708.02383,2017。[20] Adam Gleave , Michael Dennis , Cody Wild , NeelKant,Sergey Levine,and Stuart Russell.敌对政策:攻击深度强化学习。arXiv预印本arXiv:1905.10615,2019。[21] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》,2014年第27期。[22] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[23] Dinesh Jayaraman和Kristen Grauman在你跳跃之前要向前看:通过预测运动的影响进行端到端的主动识别。2016年欧洲计算机视觉会议[24] Dinesh Jayaraman和Kristen Grauman学习环顾四周:智能地探索未知的环境,完成未知的任务.在IEEE计算机视觉和模式识别会议论文集,2018。[25] SKasaei、JuilSock、LuisSeabraLopes、AnaMariaTome'和Tae-Kyun Kim。感知、学习和识别3D对象:认知服务机器人的研究方法。2018年AAAI人工智能会议的论文集。[26] Hanna Kurniawati,David Hsu,Wee Sun Lee。Sarsop:通过近似最优可达的信念空间进行有效的基于点的pomdp规划。机器人:科学与系统,2008年。Citeseer,2008年。[27] Shihui Li,Yi Wu,Xinyue Cui,Honghua Dong,FeiFang,and Stuart Russell.通过极大极小深度确定性策略梯度的鲁棒多智能体强化学习。在AAAI人工智能会议上,第33卷,第4213-4220页[28] Shaohui Lin , Rongrong Ji , Chenqian Yan , BaochangZhang,Liujuan Cao,Qixiang Ye,Feiyue Huang,andDavid Doer-mann.通过生成对抗学习实现最优结构化cnn剪枝。在IEEE/CVF计算机视觉和模式识别会议论文集,第2790-2799页[29] Xiaofeng Liu,Zhenhua Guo,Site Li,Fangxu Xing,Jane You , C-C Jay Kuo , Georges El Fakhri , andJonghye Woo.4621具有条件和标签移位的对抗性无监督域自适应:推断,对齐和调整。在IEEE/CVF计算机视觉国际会议论文集,第10367-10376页[30] Xue Bin Peng , Marcin Andrychowicz , WojciechZaremba,and Pieter Abbeel.动态随机化机器人控制的Sim-to-Real转移。2018年IEEE机器人与自动化国际会议(ICRA),第3803IEEE,2018
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功