没有合适的资源?快使用搜索试试~ 我知道了~
视觉网络产生任务集中注意机器人移动(更新状态)主延迟t编码z=z(o,g)电机网络生成机器人命令联合指挥部a目视任务规范g观测o“Pick目视检查/物理检查扰动RGB相机视觉1注意!- 通过以任务为中心的视觉注意Poo yaAbolghasemi,AmirMazaheri,MubarakShah和LadislauBo?lo? ni佛罗里达州中部大学,奥兰多,FL 32816pooya.abolghasemi,amirmazaheri@knights.ucf.edu,shah@crcv.ucf.edu,lboloni@cs.ucf.eduhttps://pouyaab.github.io/pay-attention/摘要最近的几项研究已经证明了机器人操纵器控制的深度可视化策略的前景。尽管取得了令人印象深刻的进展,但已知这些系统易受物理干扰的影响,例如意外或对抗性碰撞,这些碰撞使它们掉落操纵对象。他们也倾向于被视觉干扰分散注意力,例如在机器人视野中移动的物体在本文中,我们提出了一种方法,用于增强通过任务集中视觉注意力(TFA)演示训练的深度视觉策略。操纵任务用自然语言文本指定,诸如“将红色碗向左移动”。这允许视觉注意力组件集中在机器人需要操纵的当前对象我们表明,即使在良性的环境中,TFA允许的政策,以一贯的执行没有注意机制的变体。更重要的是,新策略明显更稳健:它通常从严重的物理干扰(例如导致其掉落对象的碰撞)中恢复,基线策略,即,几乎无法恢复此外,我们表明,所提出的政策执行correctly在广泛的视觉干扰的存在下,表现出的行为让人想起人类的选择性视觉注意实验。1. 介绍最近的许多研究表明,端到端的深度视觉策略培训的可能性,执行对象操作任务,如拾取和放置,推到位置,堆叠和倾倒。这些系统执行任务的所有组成部分(视觉处理,抓取和*同等贡献。图1.机器人执行给定的命令。 我们提出的网络出席的图像区域最重要的,是强大的物理和视觉干扰。轨迹规划和机器人控制),使用通过深度强化学习和从演示中学习(监督学习)的变体训练的神经网络。用于操纵器控制的深度可视化策略是神经网络架构,其具有作为输入的由图像或视频帧和可能的其他传感器数据ot、任务(或目标)规范g和输出机器人命令at=π(ot,g)组成的观测。机器人执行这些命令,在外部环境中实施变化,这创建了t+1的新观测值,并且重复该过程在架构上,大多数当前提出的系统遵循图1的通用模型的变体,其假定存在主要潜在编码z,其是由专门的视觉网络对输入进行视觉处理的结果。这种编码的维度数量级小于输入,然后由电机网络使用以生成下一状态关节角度命令α。虽然大多数演示(监督数据)是在非结构化但相对温和的环境中进行的4254物理4255此外,我们自己的实验和与其他研究人员的个人交流表明,用于视觉策略的任务独立视觉网络非常容易受到物理和视觉干扰的影响。物理干扰的一个例子是机器人手臂被碰撞,使得它掉落被操纵的物体。期望的行为将是机器人立即注意到这一点,改变其轨迹,捡起掉落的物体并继续进行操纵任务。相反,在其他可靠执行的策略下,我们注意到机器人手臂在丢失物体后继续空手通过操纵的整个轨迹的情况,或者很晚才恢复,或者根本不恢复。视觉干扰可能涉及分散出现在机器人视野中的移动物体显然,如果视觉干扰阻止了任务的执行,例如,通过阻挡被操纵物体的视野,则机器人停止或甚至取消操纵是可接受的但是,视觉障碍不应妨碍任务的执行:例如,手在机器人的视野中挥动,但不覆盖被操纵的物体或机器人手臂。我们发现,在任务独立的视觉网络的情况下,即使这样的视觉干扰导致机器人的行为不稳定-可能是由于机器人解释的情况下,作为一个从未遇到过的在工程机器人体系结构中,可以通过开发可能的干扰的显式模型来处理这些问题,这可以允许机器人围绕情况进行推理在深度学习系统中,一种可能的暴力解决方案是收集更多包含物理和视觉干扰事件的训练数据;然而,用于机器人任务的数据收集是耗时的。此外,有无限的视觉和物理干扰的情况下,一个单一的任务。对示威活动的记录不可能涵盖所有可能的身体和视觉障碍情况。注意!任务依赖视觉网络:本文的主要思想是,性能的好处,可以得到,如果我们使视觉系统关注的相关区域的每一帧关于当前的任务或用户命令。已知人类表现出选择性注意力-当观察场景时,考虑到特定的任务,与任务相关的场景特征被给予特别的注意,而其他特征被不强调或甚至被忽略。这在沙布里和西蒙斯的著名实验中得到了说明[1]。在本文中,我们提出了任务集中(视觉)注意力(TFA)作为一个辅助网络,以增加机器人操纵器网络的鲁棒性,以物理和视觉干扰,而不需要任何额外的训练数据。因此,我们的目标是创建一个系统,实现一个选择性的视觉注意力类似于人类的感知正在做什么:我们希望机器人专注于对象的场景是相对的,当前的操作任务。我们推测,使用TFA,z将更好地表示作为注意力主题的对象和颜色,从而在抓取和操作中实现更精确(见图2)。我们的贡献:本文的贡献如下:1-我们描述了一种新的架构,用于从演示中端到端训练的视觉运动员策略,其特征在于以任务为中心的视觉注意系统。视觉注意系统由任务的自然语言描述引导,并专注于当前操作的对象。2-我们表明,在良好的条件下,新的政策优于密切相关的基线政策,没有注意力模型在拾取和推任务使用各种对象。3-我们表明,在一个严重的物理干扰的情况下,当外部干预导致机器人错过把握或下降已经抓住的对象,新的政策恢复在大多数情况下,而基线政策几乎从来没有恢复。4-我们表明,任务集中的视觉注意力允许该政策忽略一大类视觉干扰,干扰基线政策的任务。我们的实验表明,该系统表现出“看不见的大猩猩”现象[1]从经典的选择性注意力测试。5-教师网络针对任务集中的视觉注意力可以进行离线训练,不需要额外的训练数据或对象的像素2. 相关工作用于机器人操作的深度可视化策略通过单个深度神经网络将输入视频流(可能与其他感官输入组合)转换为机器人命令。这样的系统在[2]中首次使用引导策略搜索进行了演示,这是一种将策略搜索转换为监督学习的方法,由以自动化为中心的强化学习方法提供监督。近年来,已经提出了几种替代方法,使用深度强化学习和深度学习的变体(以及这些的组合)。深度强化学习是一种强大的范例,在可以在模拟环境中进行探索的应用中,允许数百万次试运行,可以训练出以超人水平执行的系统[3],即使没有人类知识用于自举[4]。不幸的是,为了训练控制真实机器人的视觉策略,很难在这些尺度上执行强化 即使是最广泛的项目也只能收集几个数量级的较低数量级的实验:例如,在[5]中,在两个月的时间里使用了14个机器人操纵器,收集了80万次抓取尝试。在许多实际环境中,即使是这样多的实验性尝试也是不现实的。4256图2. 建议的可视化架构。 给定从场景捕获的图像和由用户,编码器(E)产生主潜在编码(z)。 z是电机网络的输入,它决定电机的下一个状态。机器人关节角度。此外,z是生成器(G)的输入,生成器(G)产生“假”帧和掩码帧。预先训练的视觉注意力教师模块通过采用文本输入计算的空间注意力来掩蔽原始帧。鉴别器(D)必须区分真/假帧和掩蔽帧,并且还对被操纵的对象和对象的颜色进行因此,许多努力集中在减少训练端到端可视化控制器所必需的实验运行一个明显的方向是学习输入数据的更好编码,这可以提高学习率。在[6]中,从图像中提取了一组视觉特征,用作强化学习算法的状态表示。另一个方向涉及使用从示范中学习,而不是(或结合)再学习。演示可以在真实[7]或模拟[8,9]环境中进行。Meta- learning [10]和相关方法有望大幅降低从一类相关任务中学习特定任务所需的训练数据量(可能会降低到单个任务特定的演示)。然而,它们仍然需要一个昂贵的元学习阶段。在[11]中描述了一种在目标上与我们相似但在实现上不同的方法。考虑到操作任务,作者实现了两层注意力。第一,任务独立的视觉注意语义识别标签和定位场景中的对象。这种标记依赖于在外部标记数据集上的训练,因此在这方面,该方法不是“端到端”的。第二,通过任务独立注意从分割的对象中选择对演示轨迹的正确预测贡献最大的对象来另一点涉及任务被指定给机器人的方式以人类可读的句子的形式描述任务是一个自然的选择[12],因为创建这样的命令对人类用户来说非常容易在一般情况下,然而,对于端到端学习控制器来说,将命令转换成任务还不可行。在本文中,我们假设存在的命令,但只是作为一个额外的输入,有助于创建的任务集中的注意力。指定任务的替代方法是可能的。在[13]中提出了一种纯视觉规范,其中用户识别图像中的像素并指定它应该移动的位置。在[14]中还演示了基于视觉图像的控制技术我们工作的一个组成部分源于最近对视觉注意力网络的研究。这些网络通常作为更大网络的组件出现,解决图像字幕[15,16],视觉问题回答[17,18,19]或视觉表达本地化[20]等问题。尽管应用不同,注意力网络的作用,即,集中于视觉输入的信息丰富的部分保持不变。我们提出的注意力机制与[17]最相似。然而,在我们的模型中,我们以单词选择为目标训练注意力网络。目标是在视频帧上选择与文本输入相关的一些区域,使得能够仅基于所选图像区域的视觉特征来重新生成输入句子中的单词3. 方法如图2所示,我们的架构包含一个运动网络和一个视觉网络。运动网络通常(但不总是)包含一个递归神经网络,并在有利于执行指定任务g的损失上进行训练。这种培训可以采取几种形式。在RL的情况下,我们需要一个奖励来源。如果任务由输入:可视网络真实()最后一层特征:fD(x)文本编码视觉注意力教师模块(预先培训)鉴别器(D)RGB摄像机框架:真实的面具������“Real”混合密度���“Real” Frame“假”面具“Fake” Frame机器人下一状态关节角度(一)主要潜在编码(z)Fake(假)���LSTM的堆叠层(带跳过连接)αμ采样σ编码器(E发电机(G)编码(z)电机网络命令语句:“Push对象数量+1颜色数+1LSTMLSTMLSTM4257从左到右拿起蓝戒指输入文本视频帧图3.任务集中视觉注意力的例子。我们在每一列的顶部提供命令句第一行显示来自RGB相机的帧,第二行是由教师网络产生的注意力掩蔽的同一图像。在我们的方程中,我们用x/m来示范(我们的情况),训练可以使用行为克隆丢失以监督的方式执行。视觉网络包含一个编码器模块,它将输入帧编码为主要潜在变量z。为了得到更丰富的表示z,我们合并了另外两个模块。首先,一个教师网络计算一个atten-对输入帧进行贴图和遮罩。我们单独训练教师网络(第3.1节)。第二,GAN网络将z作为输入并生成两个重建帧,输入帧和掩码输入帧。3.1. TFA教师网络我们考虑用自然语言表达的机器人操作命令,TFA的目标是识别视觉输入的部分,即与任务相关的对象出现的部分,也就是说,将注意力分别集中在红板,蓝框和蓝环上(见图3)。如果我们能够创建足够数量的训练数据,那么TFA系统可以被训练为监督学习模型然而,这将需要我们在不切实际的大量输入视频帧上标记注意力我们的方法是通过实现为控制器提供训练数据的教师网络来生成我们自己的我们的方法适合于学生-教师网络训练模型的既定技术[21,22,23],条件是注意力教师只教授最终控制器的一个特定方面。在本节的剩余部分中,我们将描述教师网络的实现,该网络计算TFA,如图4所示。所提出的方法允许我们训练TFA与像素级注释。主要的想法是,注意力应该放在那些区域上,这些区域允许我们仅基于这些区域重建输入文本。整体图4.视觉注意力网络。该网络使用预训练的VGG19 [24]网络注意力模块结合空间和文本特征,并为每个空间区域分配一个概率。为了训练注意力网络,首先我们通过注意力概率(加权平均)池化视觉特征,其次,我们使用辅助分类器基于池化视觉特征重建输入文本架构如图4所示。我们将视野(视频帧)x划分为k个区域。我们的目标是获得的视觉注意力是一个向量的概率,pTFA∈(0,1)k,与概率的k个区域。概率越高,对特定区域的关注度越高。总的来说,我们的目标是注意力集中在少数地区。第一步是对文本和图像输入进行文本输入:让{v1,v2,. . . ,vn}是具有n个单词的文本输入,具有独热指示符vi∈ {0,1}|V|其中V是我们数据集中单词的字典。一句话,采用矢量编码wi=vi×Wω,(1)其中Wω∈ R|V|×dv,dv是编码字向量的长度。为了对整个句子进行编码,我们将一系列单词向量馈送给LSTM。为了获得文本编码,我们提取LSTM的最后一个隐藏状态,u∈ Rdh,其中dh是LSTM的单元大小。我们观察到更好的-通过将LSTM输出与指示对象的形状和颜色的二进制向量连接起来来实现视觉输入:我们使用预训练的VGG19 [24]网络的最后一个卷积层来获得k个空间视觉特征向量。得到的空间视觉特征具有φf∈Rk×dφ的形式,其中k是空间区域的数目,dφ是每个区域的特征向量的长度。我们通过类似于[17]的技术将文本和视觉编码结合起来。我们学习了视觉和文本数据的映射,并通过元素求和将它们组合在一起:n=tanh(φf×Wfu×Wu),(2)其中Wu∈Rdh×dφ和Wf∈Rdφ×dφ是映射矩阵,φ是逐元素求和。 R k×dk是文本和视觉输入的组合矩阵。请注意,u是向量r,而φf是矩阵。我们增加了紫外线[高x[高x宽x高][d]空间特征池化VGG19空间特征空间注意文本编码器注意力输出Aux. 注意力训练分类器词选择输入文字拿起红碗4258重复k次。为了计算最终的注意概率,模型必须为少数空间区域分配更高的分数。pTFA= softmax(m×Wp),(3)其中Wp∈ Rd×1是可训练权重向量,用于为每个区域分配分数。最终的pTFA∈(0,1)k是包含所有k个区域我们使用softmax非线性来强制网络关注少数区域。我们的方法不需要任何空间像素级注释来计算注意力。我们公式中的注意力是一个依赖于输入文本和框架的潜在变量(见图4)。允许我们训练注意力网络的主要思想是,从由潜在变量注意力pTFA加权的池化空间特征,我们应该能够重建输入文本(用户内容)。mand sentence)words V ∈ {0,1}|V|.这里,我们定义加权池化特征u∈ Rdφ: Σ目前的任务。一个正在进行的问题是编码需要在一定的有限维度内工作。从图像中提取的直观的通用视觉特征将通过编码与任务不相关的图像方面来浪费空间。另一方面,只关注注意力区域可能会忽略图像中对任务重要的例如,在图3-右下角被遮蔽的帧中,机器人臂本身不可见。我们提出的视觉网络架构(如图2所示)结合了几种技术,使其能够学习一种表示,有效地编码与当前任务相关的输入部分。整体架构遵循VAE-GAN的思想[25]:它由编码器,生成器和解码器组成。从视觉编码器(E)的输出中提取主潜在编码(z)视觉网络接收原始帧x和一个-用户命令(输入句子)的热表示,由Ic∈ {0,1}表示|V|. 实际上,Icis表示u=i∈kpT FAiφfi.(四)词典的单词出现在文本输入命令我们假设z<$N(µz,σz),并且:基本上,给定一个视频帧和句子,我们迫使网络选择输入帧的一些区域,并仅基于所选区域重建输入文本因此,网络重建原始输入文本的唯一方法是选择帧的相关区域V=σ(τ(u)),(5)其中τ(. )是一个多层感知器。 V∈(0,1)|V|包含预测的 单 词 集 。 我 们 优 化 熵 损 失 函 数 Latt=−Vlog(V)。在图3中,我们显示了RGB帧和掩码帧使用计算的注意力pTFA。为了屏蔽RGB帧,我们将pTFA(使用双线性插值)重新整形和调整大小为与输入帧(x)相同的大小;然后通过在其上应用高斯滤波器来平滑掩模。我们用m来表示具有注意力p TFA的掩蔽RGB输入帧。3.2. 视觉和运动网络我们的体系结构遵循图1中可视策略的通用体系结构。它由一个视觉网络子模块和一个运动网络组成,视觉网络子模块提取一个主要的潜在编码z,运动网络将z转换为动作,在我们的例子中,动作是关节角度命令(机器人手臂的下一个状态然而,我们的架构作出了几个具体的决定,cisions的目的是利用现有的文本描述的当前任务和TFA。3.2.1可视网络视觉网络的目标是创建一个紧凑的主要潜在编码,捕捉重要方面[µz|σz]= E(x,Ic),(6)其中μz,σz∈ Rdz,dz是主潜在编码(z)的长度。事实上,E是一个多层卷积神经网络,具有一个2dz维向量,该向量分为µz和σz。生成器(G)将主潜在编码z作为输入,并产生两个图像,一个重建帧和一个用注意力掩蔽的重建帧(图2中的请注意,我们提出的架构的一个新颖方面是,生成器不仅创建输入x′的重建,而且还创建伪掩码帧m′的近似。与传统的GAN鉴别器不同,我们的架构中采用的鉴别器D执行更复杂的分类[26]。掩蔽帧和未掩蔽帧(m/m′,x/x′)都是对对象的输入,它对感兴趣对象的对象(s)和颜色(c)以及输入是假的还是真的进行分类。该传感器有两个输出,长度为|S|+1和|+1。|+1. |S|和|C|分别是词汇表中颜色和物体的数量|V|而“+1“表示“假”类。我们通过解析所有的在训练中输入句子(用户3.2.2电机网络我们架构中的运动网络(见图2)包含循环和随机组件。 它将主要潜在编码z作为输入,该编码通过具有跳过连接的3层LSTM网络进行处理。4259N伪X ′-GD.[27].请注意,LSTM的存储单元通过执行任务(逐帧)来更新。最终LSTM层的输出被馈送到混合密度网络(MDN)[28]。MDN提供了一组高斯-正确的对象在它的两个输出。因此,它必须欺骗试图区分假帧和不同物体和颜色的机器人:.sian核参数,即μi,σi和混合概率,LGD=−EX′,spG[logpD(s. X′)].能力αi(x),都∈ R|J|,且1≤i≤NG.在这里,|J|是机器人关节的数量(特定于机器人),NG是-EX′,cpG [logpD(c. X′)]。(十)高斯分量的个数。的|J|描述下一个关节角度的三维矢量从此采样高斯混合我们在补充材料中提供了D、G、E和运动子网络的详细3.3. 损失函数与训练在本节中,我们将描述发电机损失函数LD和发电机损失函数LG。对判别器中的所有参数进行了优化,以最小化LD,并以GAN训练方式通过损失值LG对视觉编码器、发生器和电机网络的参数进行了优化为了避免重复,对于方程组,我们使用统一元组X′=(x′,m′)和X=(x,m)分别作为伪数据和实数据。为了澄清,(x′,m′)=G(z<$E(x,Ic)),而x是来自RGB相机的真实帧,并且m是由教师掩蔽的真实帧网络(第3.1节)。3.3.1鉴别器损失如果CNOD正在接收真实数据X,则它需要对用户的文本命令输入中包含的对象和颜色进行分类.L real= − EX,spdata[log(PD(s. (X))].-EX,cp数据[log(PD(c. (X))]、(7)GAN的训练是出了名的不稳定。一种可能提高稳定性的技术是特征匹配[29]这里,我们使用由D的最后一个卷积层提取的特征用于此目的,并且我们将其称为fD(x)。生成器必须产生具有与真实数据相似的f-D我们将损失项Lfea定义为真实输入x/m和生成输入x′/m′特征[26]:L fea=||fD(x)−fD(x′)||2个以上||fD(m)−fD(m′)||二、(十一)为了正则化初级潜在编码(z),我们最小化z和N(0,1)之间的KL发散:Lprior=DKL(E(x,Ic)||N(0,1))。(十二)另外,由G生成的“假”帧/掩码的重建误差Lrec=||x′−x||2个以上||m′−m||二、(十三)电机网络损耗:根据MDN负对数似然损失公式,基于以下证明(克隆损失)对监督数据计算运动损失:其中,PD是由判别器针对颜色和对象两者产生的类别概率同样,如果D接收到.ΣGL电机= −logαi(x)·P<$N (μ,σ)(J)Σ.(十四)X′,它应该将它们归类为假的:L= − E[log(P)(|S|+1。X′)]我我i=1最后,我们将发电机损耗写为L=L+. ′G DG-EX′G[log(PD)(|C|+1。(X))]。(八)最后,如果D接收到原始和掩蔽的伪造帧,由G生成,具有潜在表示z= N(0,1):.L noise=−Eznoise[log(PD(|S|+1。G(z))].-Ez噪声[log(PD)(|C|+1。G(z))]。(九)因此,总损耗为LD=L真+L假+L噪音。3.3.2发电机失生成器(G)必须重建一个真实的框架和屏蔽框架的注意,包含感兴趣的对象事实上,G不仅试图看起来真实,4260Lrec+Lprior+Lmotor.4. 实验我们收集了使用廉价的Lynxmotion-AL 5D机器人拾取和推动物体的任务的演示。我们使用PlayStation控制器控制机器人。对于每个任务和对象组合,我们收集了150个演示。训练数据包括关节角度命令以及安装在工作区域上方的PlayStation Eye摄像头以10 fps速率由此收集的训练数据用于训练视觉和运动网络。请注意,该机器人没有本体感觉-4261图5.执行带有句子“从右向左推红碗”的推任务 顶行:原始输入图像,中间行:由发生器(G)生成的假帧,底行:用G.你可以将图中呈现的假掩码帧与图3中教师网络生成的注意力地图进行比较。请注意,诸如手和大猩猩之类的视觉干扰不会出现在重建图像中。语篇命令句接...推...从左到右红碗白毛巾蓝环黑色哑铃白盘红色气泡平均拾取红碗白盘蓝盒子黑白QR盒平均推送是说方法良性病变仅编码器(%)202004001015.040100012.514.0传统VAE(%)60602020503040.05060303042.541.0(w/o TFA)(%)70503040601043.38060102042.543.0含TFA(%)80806050804065.010060306062.564.0具有扰动(w/o TFA)(%)101000003.3030007.55.0含TFA(%)70806060404058.39050305055.057.0表1.表的上半部分显示了使用不同句子命令成功执行所需操作的比率使用TFA的模型的结果优于不使用TFA的模型[7]。我们还训练了一个没有判别器的模型版本,称为传统VAE。在没有D的情况下训练的模型不能有效地执行操作,因为对抗性损失有助于学习丰富的主潜变量(z)。此外,在Just Encoder实验中,我们只使用Encoder作为视觉网络。表的下半部分显示了在受到外部代理干扰时成功执行所需命令的比率在所有情况下,使用TFA的模型都4.1. 良性条件下的性能第一组实验研究的性能的visualizationcontrol器在良性条件下,也就是说,在机器人被赋予一个文本命令的情况下,我在秒C。3.2.1,并在不受干扰的环境中单独执行任务。为了将我们的方法与基线进行比较,我们重新实现并训练了[7]中描述的网络,该网络可以用于相同的实验设置,但它不具有任务聚焦的视觉注意力。请注意,成功率与[7]不直接可比,因为这里使用的物体更复杂,以及我们机器人的摄像机位置和环境不同我们在我们自己的数据集上训练[7]模型,调整其超参数,并试图通过添加第2节中解释的所有损失项来获得最佳结果。3.2.表1比较了所有任务的四种方法的性能,平均每次尝试10次。我们注意到,使用“TFA”的建议架构在所有任务上都优于“w/o TFA”。作为消融研究,我们移除了VAE并将系统训练为trans-VAE(与VAE-GAN相比)。此外,在另一个实验中,我们只使用运动网络损失来训练E,而不使用任何GAN。我们确认了对抗损失和GAN网络的贡献,以产生一个4262丰富的主要潜在变量z。我们观察到,没有对抗性损失将降低重建图像的清晰度并淡出细节。请注意,没有对抗性损失的模型无法操纵需要精确定位的对象,如黑色哑铃或蓝色环,然而,它可以更好地推动白色板,因为板是一个大的对称对象。对比有无对抗性损失的重建图像,请参考补充资料。4.2. 扰动后恢复在第二个系列的实验中,我们调查控制器的能力,从物理和视觉干扰恢复。我们正在比较基线模型和我们使用TFA的模型。物理干扰是指通过(a)在机器人即将拾取物体时推动物体或(b)在成功抓取后强行将物体从机器人上拿走来对于推任务,我们将一只或两只手带入场景(图5)。我们通过将手放在随机位置,挥动它,有时覆盖场景的整个顶部,来制造不同的视觉干扰在某些情况下,我们甚至把其他随机对象,如纸大猩猩。在所描述的情况下,如果机器人注意到干扰并通过成功地重做任务来恢复,则我们将其视为成功我们提醒读者,由于Lynxmotion-AL 5D机器人的局限性,机器人检测干扰的唯一方法是通过其视觉系统。表1显示了物理/视觉障碍情景的实验结果我们注意到这里的结果比基线好得多。在不存在TFA的情况下,回收率接近于零。在大多数情况下,在松开物体后,机器人试图执行操纵,而没有注意到它没有抓住物体。然而,在TFA的帮助下,机器人几乎总是注意到干扰,转身并试图重新抓取。在我们的补充材料视频中说明了这种现象。对所有对象进行平均,在拾取和推送任务中,基线策略的恢复率仅为5%而对于具有TFA的政策,这一比例为57%(见表1)。请注意,物理干扰机器人在有和没有物理干扰的情况下的成功率是不可比较的。换句话说,机器人开始做任务,人类法官决定机器人是否做得很好,如果是,人类法官开始打扰机器人。我们放弃任何尝试,机器人可能会失败,即使没有干扰。将该架构与没有TFA的架构进行比较的实验研究该策略是否忽略视觉干扰的另一种方法是在测试时间期间重新连接发生器,并研究重构的视频帧(其是主要潜在编码的信息内容的良好表示)。图5示出了输入视频帧(第一行)、重构视频帧(第二行)和生成的掩码帧(第三行)。在机器人执行向左推红碗的任务时,我们在机器人的视野中加入了一些干扰,如挥手或插入一个剪切的大猩猩图形。 请注意,在重建的帧中,手和大猩猩消失了,而主题被准确地重建。由于这些干扰的视觉对象被编码忽略,任务执行在没有干扰的情况下进行虽然我们必须小心地对我们的架构细节的生物可接受性做出声明,但我们注意到,整体效果实现了类似于Chabris和Simmons [1]的选择性注意实验1的行为,纯粹是为了完全不同的目标而实现的架构的副作用。5. 结论在本文中,我们提出了一种方法,用于增强从演示中学习的深度视觉策略与任务聚焦视觉注意模型。注意力由任务的自然语言描述引导-它有效地告诉策略“注意!“手头的任务和目标我们的实验表明,在良性的情况下,所产生的政策始终优于相关的基线政策。更重要的是,关注具有显著的鲁棒性益处。在严重的对抗性情况下,碰撞或人为干预迫使机器人错过抓住或放下物体,我们通过实验证明,在大多数情况下,所提出的策略可以快速恢复,而基线策略几乎从未重新覆盖。在视觉干扰的情况下,例如在机器人的视野中移动异物,新策略能够忽略这些干扰,这些干扰在基线策略中经常触发不稳定的行为。未来的工作包括注意力系统,可以同时关注多个对象,根据任务的要求从对象转移到对象,并在严重的混乱中工作。致谢:这项工作得到了美国国家科学基金会的部分支持,资助号为IIS-1409823和IIS-1741431。任何意见、发现、结论或建议,这些材料是作者的,并不一定反映国家科学基金会的观点。消失的大猩猩:所提出的架构是-使我们忽略了许多可能的视觉干扰。1https://youtu.be/vJG698U2Mvo4263引用[1] C. Chabris和D.西蒙斯《看不见的大猩猩》我们的直觉欺骗了我们。和谐,2010年。二、八[2] S. 莱 文 角 Finn , T. Darrell 和 P. Abbeel , “End-to-endtraining of deep visualization policies , ”Journal ofMachine Learning Research,vol. 17,no.第1页。1334-1373,2016. 2[3]D. Silver,黑胫拟天蛾A.黄角J. Maddison,A.盖兹湖,澳-地西弗G. 范登·德里斯切 J. Schrittwieser I. 安东诺格鲁V. Panneershelvam , M. Lanctot 等 人 , “Mastering thegameofGowithdeepneuralnetworksandtreesearch,”Nature,vol. 529,no. 7587,第484页,2016年。2[4] D. 放大图片作者:J. Schrittwieser,K. 西蒙尼扬岛安东诺格鲁A. Huang,黄背天蛾A. Guez,T.休伯特湖Baker,M.Lai,A. Bolton等人,“在没有人类知识的情况下掌握围棋游戏”,《自然》,第550卷,第100页。7676,第354页,2017年。2[5] S.Levine , P.Pastor , A.Krizhevsky , J.Ibarz 和D.Quillen,37号不行第4-5页。421-436,2018。2[6] C. Finn,X.Y. 谭,Y。Duan,T.Darrell,S.莱文和P. Abbeel,3[7] R. Rahmatizadeh,P. 阿博尔加塞米湖 Bo?l o?ni和S. Levine,3758 - 3765。三、七[8] S. James,A. J. Davison和E. Johns,3[9] Y. Zhu,Z.Wang,J.Merel,A.Rusu,T.埃雷兹S.Cabi,S.Tun-yasuvuna k ool , J.克 拉 马 河 Hadsell , N.deFreitas 等 人 , “ 强 化 和 模 仿 学 习 不 同 的 视 觉 技能,”arXiv预印本arXiv:1802.09564,2018。3[10] Y. Duan,M.安德里乔维奇湾斯塔迪岛J. Ho,J. Schnei-der,I.Sutskever,P.Abbeel和W.Zaremba,1087-1098. 3[11] C.作者声明:A. Darrell和S. Levine,3[12] S. Tellex,T.Kollar,S.Dickerson,M.R. Walter,A.G.Baner-jee , S. Teller 和 N. Roy , "Understanding naturallanguage commands for robotic navigation and mobilemanipulation" , in Proc. of the Nat'l Conf. 人 工 智 能(AAAI-2011),旧金山,加利福尼亚州,2011年8月,pp.1507-1514. 3[13] C. Finn 和 S. Levine , “Deep visual foresight for planningrobot motion”,IEEE Int'l Conf. 机器人和自动化(ICRA-2017),2017年,pp. 2786-2793. 3[14] M. Watter,J.Springenberg,J.Boedecker和M.Riedmiller,“嵌入控制:A localized linear latent dynamics model forcontrol from raw images , ”in Advances in neuralinformation processing systems,2015,pp. 2746-2754. 3[15] K. Xu,J. Ba,R. Kiros、K. Cho,A.库维尔河萨拉胡迪诺夫河Zemel和Y. Bengio,“显示,参加并告诉:具有视觉注意力的神经图像标题生成”,在Proc. of Int 'l Conf.关于机器学习(ICML-2015),2015年,pp. 2048-2057.3[16] Q. 你 H 金 , Z. Wang , C. Fang 和 J. Luo , “Imagecaptioning with semantic attention,”in Proc. of IEEE Conf.计算机视觉和模式识别(CVPR-2016),2016年,pp。4651-4659. 3[17] Z. Yang,X. He,J. Gao,L. Deng和A. Smola,“Stackedattention networks for image question answering”,in Proc.of IEEE Conf.计算机视觉和模式识别(CVPR-2016),2016年,pp。21-29.三、四[18] A. Mazaheri,D.Zhang和M.Shah,“Video fill in the blankusing LR/RL LSTM with spatial-temporal attention”,Procof IEEE Int'l Conf.计算机视觉(ICCV-2017),2017年10月。3[19] D. Yu,J. Fu,T. Mei和Y. Rui,“Multi-level attention net-works for visual question answering”,Proc. IEEE计算机视觉和模式识别会议(CVPR-2017),2017年,第100页。4187-4195. 3[20] L. Yu,Z.Lin,X.Shen,J.Yang,X.卢,M.Bansal和T.L.Berg,“MAttNet:Modularattention networkforreferring expressioncomprehension,”inProc. IEEE Conf. 计算机视觉和模式识别(CVPR-2018),2018年。3[21] S. 劳伦斯角,加-地L. Giles和A.C. 神经网络训练中的经验教训:过度拟合可能比预期的要难,”在第十四届全国大会的论文中。《人工智能》(AAAI-97),1997年,第100页。540-545. 4[22] C.布西卢河Caruana和A. Niculescu-Mizil,“模型压缩”,Proc.第 12 届 ACM SIGKDD Int'l Conf. on KnowledgeDiscovery and Data Mining,2006,pp. 五三五541. 4[23] G. Hinton,O. Vinyals和J. Dean,“Distilling the knowl-edge in a neural network , ”arXiv preprint arXiv :1503.02531,2015. 4[24] K. Simonyan和A. Zisserman,4[25] A. B. L. 拉森 S. K. 桑德比 H. Larochelle,以及O. Winther,5[26] T. 萨利曼斯岛Goodfellow,W.扎伦巴河谷Cheung,A.Rad- ford和X. Chen,2234-2242.五、六[27] A. 格雷夫斯,6[28] C. M. 毕晓普,Tech.代表:1994. 6[29] J. Bao,D. Chen,F.温氏H. Li和G.华,“CVAE-GAN:通过非对称训练生成细粒度图像,”arXiv预印本arXiv:1703.10155,2017。6
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功