没有合适的资源?快使用搜索试试~ 我知道了~
1基于3D视觉特征表示的MihirPrabhudesai,Hsiao-Yu FishTung,Syed AsharJaved,Maximilian Sieb,Adam W.哈雷,卡特琳娜?弗拉基亚达基{mprabhud,htung,sajaved,msieb,aharley,katef}@ cs.cmu.edu卡内基梅隆大学摘要我们建议将语言话语与它们所描述的场景的3D视觉抽象相关联。三维视觉抽象被编码为三维视觉特征图。我们通过视图预测从场景的RGB图像推断这些3D视觉场景特征图:当从摄像机视点神经投影所生成的3D场景特征图时,它应该匹配相应的RGB图像。我们提出的生成模型的条件上的依赖树的话语,并产生相应的视觉3D特征图,以及其可解释性的原因,和检测器模型的条件上的依赖树的话语和相关的图像和本地化的对象引用的3D特征图推断从图像。我们的模型优于语言和视觉模型,这些模型在各种任务中将语言与2D CNN激活或2D图像相关联,例如,对话语的可扩展性进行分类,检测引用表达式,以及为来自语言指令的对象放置策略的我们进行了大量的消融,并表明我们的检测器的性能提高是由于其更好的泛化跨相机的观点和缺乏对象的干扰,在推断的3D特征空间,和改进的性能,我们的发电机是由于他们的能力,空间原因对象和他们的配置在3D时,从语言映射到场景。1. 介绍考虑“西红柿在锅的左边”这句话人类可以回答关于所描述的情况的许多问题,例如,“锅比番茄大吗?“,“can we move to a viewpoint from which the tomato*同等贡献[2]在卡内基梅隆大学期间完成的工作有一个物体既在番茄的左边又在锅的右边?”等等。我们如何才能学习允许机器执行类似类型推理的计算模型 ? 一 种 可 能 性 是 将 任 务 视 为 文 本 理 解(37;12;15;8),并使用伴随问答对的话语监督来训练机器然而,回答问题所需的信息并不包含在话语本身中;在缺乏相关信息的情况下训练模型来执行预测将导致过拟合。将话语与描绘话语中描述的场景的RGB图像相关联,并且使用图像和话语两者来回答问题,提供了更多的世界背景,并且已经被证明是有帮助的。考虑到关于对象大小、对象范围、遮挡关系、自由空间等的信息虽然需要许多训练示例来学习勺子是否可以放置在桌子上的番茄和锅之间,但是在3D中,可以简单地通过考虑勺子的3D模型是否可以适合番茄和锅之间的自由空间来容易地想象这个实验人类是反转相机投影的专家,并在RGB图像(21)的情况下推断出近似的3D场景。本文建立在逆图形神经架构的基础上,提供三维视觉表示,以关联语言,希望将空间推理能力注入到语言理解的架构中。我们建议将语言话语与它们所描述的场景的空间感知3D视觉特征表示相关联。我们从场景的RGB图像推断这样的虽然从RGB图像推断3D逆图形学是一个困难的问题(17;28;33),我们建立在计算机视觉(34)的最新进展之上,考虑从图像中推断可学习的3D场景特征表示,以代替显式3D表示,如网格、点云或二进制体素占位22202221图像“The green rubber cylinder is onthe right of the blue解析树图像“The green rubber cylinder onthe right of the blue解析树“Put the green rubber cylinderbehind the blue解析树 背后图像GRNNsGRNNs3D特征图RefDetNet3D特征图WhatGenNetWhereGenNet WhatGenNet3D对象3D空间偏移特征图3D物体特征图3D检测器使用一元和成对分数搜索名词短语到框分配3D检测器背后WhereGenNet组合三维要素画布3D对象框目标位置3D空间偏移3D目标定位指令三维对象框的参照表达式语言到3D特征映射img到3D地图+对象蓝碗生胶筒蓝碗蓝碗生胶筒生胶筒权利问题蓝碗权利问题生胶筒图1:具有3D视觉特征表示的嵌入式语言基础。 我们的模型将话语与3D场景特征表示相关联。我们将RGB图像映射到3D场景特征表示和当前对象的3D对象框,建立在Tung等人的方法上。(34)(第1栏)。我们使用随机生成网络将话语及其依赖树映射到以对象为中心的3D特征映射和跨对象相对3D偏移(第2列)。我们将引用表达式映射到对象引用的3D框(第3列)。最后,给定放置指令,我们在场景中定位3D中的参考对象,并推断要操纵的对象的期望3D位置(列4)。我们使用预测的位置提供奖励的轨迹优化的布局政策。在以前的逆图形研究中进行(17;28;33)。这些可学习的3D场景特征图通过优化具有几何感知3D表示瓶颈的神经架构中的视图预测以自监督方式出现(34)。经过训练后,这些架构学会将RGB视频流或单个RGB图像映射到它们所描绘的场景的完整3D特征图,修复2D图像输入中被遮挡或丢失的细节。我们的工作的贡献是使用这样的三维特征表示语言理解和空间推理。我们训练模块化生成网络,该网络基于话语的依赖树,并预测话语描述的场景的3D特征图。它们通过预测对象的外观和相对3D位置并更新3D特征工作空间来实现,如图1第2列所示。我们进一步训练模块化区分网络,该网络以引用表达为条件,并通过分别对对象外观和跨对象空间排列进行评分来检测所引用的对象,如图1第3列所示我们称我们的模型为具体化,因为训练2D图像到3D特征映射需要通过在3D世界中移动并收集姿势图像的移动代理进行自我监督我们展示了将语言与三种基本语言理解任务中的3D视觉特征场景表示:(1) 可负担性推理。我们的模型可以区分负担得起(似是而非)和负担不起(难以置信)的空间表达。例如,“A在B的左边,B在C的左边,C在A的右边”描述了一个合理的配置,而“A在B的左边,B在C的左边,C在A的左边”描述了我们的模型的原因,在推断的3D特征图,自由空间和对象的3D相交可以很容易地学习/评估,而不是2D图像空间中的对象的安排的可扩展性。(2) 参考表达检测。给定参考空间表达式,例如,“the blue sphere behind the yellow cube”由于视图不变的3D特征表示,我们的3D参考检测器比现有的最先进的2D参考检测器(13(3) 指示如下。给定对象放置指令,例如,“put thecube behind the book”2222目标位置,如图1第4栏所示。我们使用预测的3D目标位置的对象放置策略的轨迹优化。我们的经验表明,我们的模型成功地执行自然语言指令。在每项任务中,我们都会与现有的最先进的模型进行比较:Deng等人的语言到图像生成模型。(6)和Hu等人的2D参考对象检测器。(13),我们调整为与我们的模型具有相同的输入。我们的模型在这三个任务中的每一个任务中都大大优于基线。我们进一步展示了从模拟到现实世界的自然语言学习概念的强大概括性,这要归功于我们的生成和检测网络中采用的what-where分解,其中空间表达检测器仅使用3D空间信息,而不是对象外观,并概括为完全不同的场景,而无需任何进一步的注释。我们的模型许多物理属性可以在3D中进行简单的评估,而它们需要通过大量的2D训练示例来学习,并且在不同的视点之间具有可疑的泛化能力3D对象相交就是这样一个属性,这对于推理合理的对象布置是有用的2. 相关工作语言理解中常识世界知识的学习和表征是一个重要的开放性研究课题.研究人员已经考虑将自然语言建立在视觉线索上,作为将视觉共同感注入自然语言理解的一种手段(27;10;27;10;2;7;1;26;25;24;16;38;9;6)。例如,视觉问答是一项吸引了大量关注的任务,多年来其表现一直在稳步提高(29)。然而,如Vedantam et al.(35页)。例如,现有的模型无法推断出“笔里面的杯子”还是“杯子里面的笔”更可信,“A在B前面,B在C前面,C在A前面”是否可实现,如果相机改变视点,杯子是否继续存在,等等。目前还不清楚什么样的监督是必要的,这种推理能力出现在当前的模型架构。3. 基于3D视觉特征表示的语言我们考虑一个数据集的3D静态场景注释相应的语言描述和它们的依赖树,以及一个参考相机的观点。我们毛皮-因此假设在训练时间访问3D对象边界框以及3D对象框与语言依赖关系树中的名词短语之间的对应关系。我们使用的语言话语描述对象的空间排列,并通过编程生成,类似于它们的依赖树,使用Johnson等人描述的方法。(14)。我们使用Tung等人的几何感知递归神经网络(GRNNs)从RGB图像推断世界场景的3D特征图。(34),我们在第3.1节中描述了完整性。GRNN学习将2D图像流映射到3D视觉特征图,同时优化视图预测,而无需任何语言监督。在第3.2节中,我们描述了我们提出的生成网络,该网络以语言发音的依赖树为条件,并生成发音所描绘场景的对象分解3D特征图。在第3.3节中,我们描述了判别网络,该网络以语言话语的依赖树和从RGB图像推断的3D特征在第3.4节中,我们展示了如何使用第3.2节和第3.3节的生成和判别网络来遵循对象放置指令。3.1. 使用几何感知递归神经网络(GRNNs)的逆图形GRNN学习以端到端可区分的方式将描绘静态3D世界场景的RGB或RGB-D(颜色和深度)图像或图像序列映射到场景的3D特征图,同时优化视图预测:当从指定的摄像机视点投影时,推断的3D特征图被神经解码为2DRGB图像,并且神经架构的权重被训练以最小化预测图像与相应的地面实况RGB图像视图的RGB距离。我们将推断的3D特征图表示为M∈RW×H ×D ×C-其中W、H、D、C分别代表特征通道的宽度、高度、深度和数量3D特征图M中的每个(x,y,z)网格位置保持描述3D世界场景中的对应3D物理位置的语义和几何属性的1维特征向量。在取消相机运动的同时,地图随着每个新的视频帧而更新,使得来自与地图中的相同3D物理点相对应的2D像素的信息在在训练时,我们假设一个移动代理在3D世界场景中移动,并从多个摄像机视点看到它,以便为GRNN的视图预测提供“标签”。在训练时,GRNN可以将RGB或RGB-D图像序列或单个图像映射到其描绘的场景的完整3D特征图,即,它学习想象丢失或被遮挡的信息;对于输入RGB或RGB-D图像I,我们将这种2D到3D映射表示为M= GRNN(I)。3D对象提案。 给定带有注释的3D2223到3D场景张量红色闪亮的球体在灰色橡胶圆柱体的右边,橡胶圆柱体在对象1对象2编码对象门控点态积三维物体特征三维到二维neuralprev. 对象位置(或0,0,0表示红色N(0,1)shinyN (0,1)spherefirstobject)彩色VAE属性VAE形状VAE位置VAE渲染到图像+编码位置权N(0,N(0,我我21对象框,东等人的工作。(34)通过学习神经模块来训练用于3D对象检测的GRNN,所述神经模块将从输入图像推断的3D特征图M作为输入,并且输出针对图中存在的对象的3D边界框和二进制3D体素占用(3D分割)。他们的工作本质上是对最先进的2D对象检测器Mask-RCNN(11)进行了调整,使其具有3D输入和输出,而不是2D。我们使用相同的架构为我们的类别无关的3D区域建议网络(3D RPN)生成语言解析树,并对对象进行排队以实现视觉想象。增量添加对象第3.3节。有关GRNN的更多细节,请阅读Tung et al.(34)。3.2. 语言制约的3D视觉想象我们训练生成网络将语言话语映射他们使用一个组合生成过程来实现这一点,该过程以话语的依赖树为条件(假设给定),每次生成一个对象,使用两个独立的随机神经模块来预测其外观和位置,如图2所示。什么生成模块GA(p,z;φ)是对象中心外观的随机生成网络,给定名词短语p,该网络学习将每个形容词和名词的词嵌入以及采样高斯噪声z∈R50<$N(0,I)的随机向量映射到对应的固定尺寸3D特征张量M<$o∈Rw×h×d×c和尺寸向量s o∈ R3,描述张量r的宽度、高度和深度。 我们重新调整3D特征张量M<$o的大小,以获得预测大小so,并获得Mo=Resize(M<$o,so)。我们使用专家的门控混合(30)层-门控版本逐点乘法--聚合来自不同形容词和名词的输出,如图2所示。where生成模块GS(s,z,z)是跨对象3D偏移的随机生成网络,其学习映射空间表达式s的独热编码,例如,“in front of”dX(i,j)=(dX,dY,dZ)∈R3之间的相应对象设b。表示核心的3D空间坐标一个生成的对象。我们的完全生成网络条件依赖于话语的解析树,并添加一个3D对象张量Mo,i=1.. K,其中K是从属树中名词短语的数量:Mg=KDRAW(Mo,Xo),其中DRAW表示图2:使用条件what-where生成网络将语言话语映射到以对象为中心的外观张量和跨对象3D空间偏移采样对象位置,直到我们找到对象不3D相交的场景配置,或者直到我们达到最大数量的采样,在这种情况下,我们推断不可能实现该话语。通过利用3D特征空间中非3D相交的约束,我们的模型可以推广到比训练时看到的更长的解析树-通过重新采样直到满足所有空间约束-以及推断出ut的可扩展性,正如我们在第4.2节中经验验证的那样。在3D中,非物理上合理的对象相交很容易与物理上合理的对象遮挡区分开来,这是一些不容易用2D对象坐标推断的东西,如我们在第4.2节中经验性地展示的。给定两个3D边界框的3D坐标,我们的模型通过简单地阈值化计算的3D交集来检测是否存在3D对象互穿。我们使用连续变分自编码器训练我们的随机生成网络。我们在补充文件的第1节中详细介绍了推理网络。3.3. 检测3D我们训练判别网络来映射空间指涉表达式,例如,“the blue cube to the right of the yel- low sphere behindthe green cylinder”我们的模型使用了一个组合检测模块的依赖关系树的引用表达式(假设给定)。成分检测模块有两个主要组件:(1)对象外观匹配函数,其预测每个名词短语的3D外观检测器模板并使用该模板来计算对象外观匹配分数,i=1将3D特征张量添加到3D位置的操作任意选择第一个对象的3D位置X1,并且对象的其余部分的位置基于以及(2)用于每个空间表达的3D空间分类器计算空间兼容性分数。我们在下面详细介绍 我们设计的结构-预测的跨对象偏移:=Xo+ dX(2,1).tector是必要的,以处理arbi的引用表达式,如果两个添加的对象在3D中相交,即,路口在3D对象边界框的并集之上的值高于0.1的交叉验证阈值时,IoU(b 0,b 0)>0。第一,我们重新-trary长度我们的探测器是由一个什么探测器-如图3所示,该系统包括一个位置检测模块和一个位置检测模块。what模块DA(p;n)是一个神经网络I j2224依存关系树DA(p;p)DA(s,bo,bo;ω)12DA(p;p)R的成对空间排列得分0.20.80.050.9一元目标匹配分数0.95img-to-3d蓝碗生胶筒权利问题目标目标2“The green蓝碗图3:3D参考对象检测。我们根据名词短语的外观和成对的空间关系,对检测到的3D对象进行可能的名词短语分配。给定一个名词短语p,学习将每个形容词和名词的词嵌入映射到相应的固定的尺寸3D特征张量f=DA(p;n)∈RW×H ×D ×C,我们使用W=H=D=16和C=32。我们的什么检测模块本质上是什么的确定性替代生成随机网络3.2节。通过计算内积获得对象的将名词短语分割成具有一元和成对分数的最高乘积的3D框。我们的3D参考检测器类似于以前的2D参考检测器(13;4),但在3D外观特征和空间布置中操作,而不是2D。3.4. 指令如下人类使用自然语言对人类同胞进行 以类似的方式编程机器人代理是可取的,因为它将允许非专家也编程机器人。虽然大多数当前的策略学习方法在模拟或仪器化的环境中使用手动编码的奖励函数来训练策略,但在这里,我们建议使用自然语言表达的视觉检测器(32),例如我们使用第3.2和3.3节中提出的语言条件生成和检测模型,通过以下步骤获得对象放置指令的可靠感知奖励检测器,如图1所示第4列:(1)我们使用上述3D参考检测器在3D中定位说明中提到的所有对象。(2)我们使用我们的随机空间布置生成网络GS(s,z;z))来预测待操纵对象的期望3D目标位置xo。(3)我们计算每个时间步的成本与欧几里得函数成正比。对象的当前3D位置的距离xo,以及在检测模板DA(p;p)和裁剪的et之间,对象3D特征图F = CropAndResize(M,bo),其中O假设从前向动力学已知末端执行器3D位置xt,并且期望的3D目标对象位置xoM=GRNN(I),b 物体的3D长方体。我们喂内积的输出到S形激活层。其中,检测模块D(s,bo,bo;ω)取如下:目标和末端效应器3D位置xe:Ct =xt− x目标2,其中xt=[xo;xe]是object和end的连接S12t too e考虑假设的对象对的3D框坐标,以及空间话语的独热编码(例如,时间步长t处的效应器状态和x目标=[x目标;x目标]。我们将其表述为一个强化学习问题,其中在每个时间步,成本由ct=xt-x goal2给出。我们使用i-LQR(迭代线性二次型搜索器)(31)来表情最小化成本函数不t=1 Ct. I-LQR learns a time-我们以监督的方式训练什么和哪里检测模块在训练过程中,我们使用名词短语p与图像中的3D对象框的地面真实关联作为正面示例,并使用随机作物或其他对象作为负面示例。对于裁剪,我们在训练时使用地面实况3D对象框,并在测试时从3.1在训练了我们的什么和哪里检测器模块之后,并给出了话语的依赖性解析树,一组自下而上的3D对象建议,我们详尽地搜索了名词短语到场景中检测到的3D对象的分配我们只保留名词短语到3D框分配,如果它们的一元匹配分数高于交叉验证阈值0.4。然后,我们简单地选择分配-相依策略π t(u|x; θ)= N(Ktxt+ kt,θt),其中,通过基于模型的更新来学习时间相关的控制增益,其中,动态模型p(xt,θ)= N(K t x t + k t,θ t),|,xt-1,ut)的先验未知动力学。 动作u被定义为机器人末端执行器的3D位置和关于垂直轴的取向的变化,给出了4维动作空间。我们在4.4节中展示了我们的方法成功地训练了多个语言条件策略。相比之下,由2D基线生成的2D期望目标位置(32)经常不这样做。4. 实验我们在以下任务中测试了所提出的语言基础模型:(i)基于语言生成场景2225自然语言话语我们的(神经渲染)我们的(Blender渲染)基线自然语言话语我们的(神经渲染)“green样品1样品2样品3“red“red样品1样品2样品3“pomegranate或者,多实例学习技术可以用于处理弱注释多对象场景的一般情况(20)。我们把这个留给未来的工作。我们在现实世界的数据集上显示了广泛的定性结果,证明如果允许多视图体现监督和弱类别对象标签,我们的模型可以有效地推广到现实世界的数据。4.1. 语言条件场景生成我们显示语言条件生成的场景,我们的模型和邓等人的基线模型。(6)在图4中对于比在训练时间遇到的那些更长的话语。Deng et al.(6)以语言发音及其依存关系树为条件直接生成2D RGB图像(没有中间3D表示)。对于话语中提到的每个对象,模型图4:从我们的模型和Deng等人的模型(6)的语言到场景生成(第1行,第2行,第4行)和语言到图像生成(第3行),用于比在CLEVR和我们的真实世界数据集上的训练时间遇到我们的模型和基线都是随机的,我们对每个话语生成的三个场景进行采样。话语(i i)基于它们描述的是可能场景还是不可能场景来对话语进行分类,(iii)检测空间参照表达,以及(iv)遵循对象放置指令。我们考虑两个数据集:(一)约翰逊等人的CLEVR数据集。(14)包含用自然语言描述注释的3D场景、它们的依赖性解析树和对象3D边界框。该数据集包含Blender生成的具有几何对象的3D场景。每个对象可以采用多种颜色,材料,形状和大小。每个场景都伴随着对象空间排列的描述,以及它的解析树。 每个场景从12个方位角以及4个仰角,即{12°,20°,40°,60°}。我们使用RGB图像训练GRNN进行视图预测训练集中的视图。注释的3D边界框用于训练我们的3D对象检测器。我们生成了800个场景用于训练,400个用于测试。语言是随机生成的,最多有2个对象用于训练场景。(ii)我们在现实世界中收集的数据集。我们建造了一个由8个摄像头组成的半球形摄像头,放置在桌面上方我们移动蔬菜,收集多视图图像。我们在训练时通过做3D点云减法来自动地用3D对象框来注释场景,我们使用获得的3D框来训练我们的3D对象检测器。在测试时,我们使用经过训练的3D检测器从单个视图中检测对象。我们还为单对象场景中存在的蔬菜提供类别标签,以促进标签与对象3D边界框的关联。更多的实验-Deng et al.(6)预测对象的绝对2D位置、2D具有2D特征的画布被神经解码成RGB图像。我们将自己模型的预测可视化两种方式:i)通过将生成的3D组装画布馈送到GRNN的3D到2D神经投影模块来获得神经渲染。ii)Blender渲染是Blender场景的渲染,该Blender场景包含通过与语言生成的对象3D特征张量的最近邻居选择的3D网格,并且基于预测的3D空间偏移来布置。当我们的模型检测到新添加的对象穿透现有对象时,它会对对象位置进行重新采样,并且3D交叉-联合(IOU)得分高于交叉验证阈值0.1。Deng et al.(6)被训练来处理被遮挡的物体。注意图4中,随着对象数量的增加,它会生成奇怪的配置。我们尝试在基线中使用2D IoU阈值对对象放置施加约束,但遇到了这样的问题:我们无法找到严格IoU阈值的合理配置,并且我们将获得低IoU阈值的无意义配置,我们将结果包含在补充文件中。请注意,2D IoU无法区分物理上合理的对象遮挡和物理上不合理的对象相交。在3D空间中,关于3D对象不相交的推理确实容易得多。补充文件的第2节和第3节包括更多场景生成示例,其中我们模型的预测是从多个摄像机视点解码的,更多与基线的比较,以及Blender渲染可视化的更多细节。请注意,图像生成不是这项工作的最终任务;而是是一个任务,以帮助学习从语言到三维空间感知特征空间的映射。我们选择一种模式,2226具有对生成的实体的推理能力,而不是生成我们无法推理的像素精确图像。表1:类别不可知4.2. 自然语言语句的可负担性推理我们测试了我们的模型和基线在描述有意义或无意义的对象配置的语言话语分类的能力。我们创建了92个NL话语的测试集,其中46个是负担得起的,即,描述可实现的对象布置,例如,“a red cube is in frontof ,46是负担不起的,即,描述非现实的对象布置,例如, 在每一段话语中,一个物体被多次提及。当这些说法相互矛盾时,这种说法是无法承受的正确的布局需要对可能的对象配置进行空间推理。我们的模型和基线都是只在似是而非的话语和场景上训练的。我们的数据集仅用于评估。 这种设置类似于违反期望(23):模型检测违规行为,而它只在世界的合理版本上进行训练我们的模型通过生成所描述场景的3D特征图来推断语言话语的可负担性,如第3.2节所详述。当对象在话语中被多次提及时,我们的模型使用第一次提及将其添加到3D特征画布中,并使用第3.3节的成对对象空间分类器DS来推断预测的配置是否也满足后面的约束。如果没有,我们的模型会重新采样对象排列,直到找到配置或达到最大样本数。我们比较了我们的模型与基线的基础上,邓等人的模型。(六)、与我们的模型类似,当一个对象被多次提及时,我们使用第一次提及将其添加到2D图像画布中,并使用我们在2D边界框空间信息上训练的成对对象空间分类器-而不是3D-来推断预测的配置是否也满足后面的约束。请注意,以前没有尝试过这种语言可理解性推理任务的作品,我们的基线基本上执行与我们的模型相似的操作,但在2D空间中。我们认为一个句子是负担得起的,如果空间分类器预测得分高于0.5后的约束。我们的模型实现了95%的负担能力分类准确率,而基线达到79%。这表明,与2D相比,3D推理更容易确定对象配置的可承受性关于BITAR数据集的区域建议。我们的3D RPN超-形成了Faster R-CNN的2D最先进的RPN(22)。4.3. 检测空间参考表达式为了评估我们的模型检测空间引用表达式的能力,我们使用与上一节相同的数据集和场景的训练/测试分割。对于每个注释场景,我们认为第一个提到的对象作为一个被称为,需要被检测。在这项任务中,我们将我们的模型与胡等人的modu- lar 2D参考对象检测器的变体进行比较。它还将表达式的依赖性解析树作为输入。我们训练基线的对象外观检测器的方式与我们使用正和负示例训练模型的方式相同,但内积是在2D特征空间上,而不是3D。我们还训练成对空间表达式分类器来映射两个2D边界框的宽度、高度和x,y坐标以及空间表达式的独热编码“in front of”请注意,我们的成对空间表达式分类器使用3D框信息,这有助于它在相机放置中进行一般化。我 们 的 参 考 检 测 器 的 上 限 是 由 区 域 建 议 网 络(RPN)在3D中的性能为我们的模型和在2D中的基线,因为我们使用语言生成的对象特征张量与从2D和3D边界框建议中提取的对象特征进行比较。我们在表1中评估了RPN性能。当预测框与地面实况边界框的交集大于并集(IoU)至少为0.5时,成功检测到对象。对于我们的模型,我们将检测到的3D框投影到2D并计算2D平均精度(mAP)。我们的模型和基线都使用单个RGB图像作为输入以及相应的深度图,我们的模型在2D到3D反投影操作期间使用该深度图,并且2DRPN与RGB输入图像连接。我们的3D RPN将GRNN映射M作为输入,比2D RPN更好地描绘了严重遮挡下的对象。我们在表2中显示了参考表达检测的定量结果,其中包括地面实况以及RPN预测框,以及图5中的定性结果。在“域内视图”场景中,我们测试在训练时看到的相机视点,在“域外视图”场景中,我们测试新的相机视点。当相应的检测到地图我们的RGB-D(22)RGB-D我们的RGB(22)RGB2D0.9930.9030.9900.9253D0.973-0.969-2227《李子查询“find“find“find因为2D距离会受到透视缩短的影响,基线我们对象提议检测到的对象对象提议检测到的对象对象提议检测到的对象距离规划差。这并不奇怪:事实上,机器人控制文献几乎总是认为要实现的物体的期望位置是3D的(18;19)。在我们的工作中,我们使用逆图形计算机视觉架构将语言指令与这种3D推断联系起来,以便在可学习的3D特征空间中进行2D到3D提升。视频查询“在右前方找到透明胶带“find我们“find学 习 的 语 言 条 件 放 置 策 略 可 以 在 这 里 找 到 :https://mihirp1998.github.io/project_pages/emblang/图5:检测参考空间表达式。 在Bullar和我们的真实世界数据集上,我们显示了给定的场景和引用表达式,我们的模型在3D中定位了引用的对象,而我们的基线是2D。tected边界框与groundtruth框的IoU为0.5(对于我们的模型,在3D中,对于基线,在2D中我们的模型大大优于基线,原因有两个:a)尽管有严重的遮挡,它也能更好地检测场景中的对象,以及b)即使使用地面实况框,我们的模型也能更好地跨相机视点和对象布置进行泛化,因为我们模型的3D表示不会受到投影伪影的影响。我们 (十三)我们的-GT 3D盒子(13)-GT 2D盒域内视图0.870.700.910.79域外视图0.790.250.880.64表2:用于检测参照表达的F1分数。我们的模型在地面实况和预测区域建议方面都大大优于基线,特别是对于CLEVR数据集上的新相机视图。4.4. 操作说明如下我们使 用PyBullet Physics 模拟器 (5)和模 拟的KUKA机器人手臂作为我们的机器人平台。我们使用一个立方体和一个碗,每个场景使用相同的初始配置,立方体被放在碗的正上方我们将末端执行器固定为始终指向下方。我们将我们的模型与(6)的2D生成基线进行比较,该基线在2D中生成对象位置,因此供给成本的形式为:C2D(xt)=x2D−x2D2。We表3:执行关于对象放置的指令的成功率。使用3D配置的成本学习的策略远优于使用2D配置的成本学习的策略。5. 讨论-今后的工作我们提出的模型,将语言的话语与组成的三维特征表示的对象和场景的话语描述,并利用丰富的约束的三维空间的空间推理。我们表明,我们的模型可以有效地想象对象的空间配置条件的语言话语,可以原因的负担能力的空间安排,检测其中的对象我们进一步展示了我们的模型可以推广到真实世界的数据,而没有用空间描述注释的场景的真实世界的例子,而是只有单一的类别标签。我们使用的语言话语是程序生成的(14)。扩展我们的框架以处理真正的自然语言的一种方式是通过解释这样的编程生成的话语(3)以创建自然语言话语和解析树的配对示例,然后训练依赖性解析器(36)以使用自然语言作为输入来生成依赖性解析树作为我们的模型的输入。要超越基本的空间布局,需要学习基础3D特征空间的动力学、物理学和力学。这些都是今后工作的明确途径。6. 确认感谢Shreshta Shetty和Gaurav测试目标2表3显示了不同空间表达式的成功率在这里,我们将成功定义为将对象放置在指令所暗示的位置集合中。在2D中提供的目标位置在引导策略搜索方面比我们的模型提供的3D中的目标对象位置差得多这是帕塔克帮助建立了桌子圆顶和西安周来帮助我们进行真正的机器人放置实验这项工作部分由 索 尼 AI 和 AiDTR 资 助 。 Hsiao-Yu Tung 由 YahooInMind Fellowship和Siemens FutureMaker Fellowship资助语言扩展左 留守左前方权紧随其后右前方在基线4/5 1/53/50/52/50/51/5我们5/5 3/55/55/55/53/55/52228引用[1] J. Andreas,M. Rohrbach,T. Darrell和D.克莱恩学习组成用于问题回答的神经网络。在计算语言学协会北美分会:人类语言技术(NAACL),2016年。3[2] S. 安托尔,A. 阿格拉瓦尔J. Lu,M. 米切尔D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa:可视化问答。在Proceedings of the IEEE International Conference onComputer Vision,第2425-2433页,2015年。3[3] J. Berant和P.梁 通过释义进行语义分析。在ACL(1)中,第1415计算机语言学协会,2014年8[4]诉Cirik,T.Berg-Kirkpatrick和L.P. 莫伦西使用syn-对自然图像中的指称表达进行征税 在AAAI,2018年。5[5] E. 库曼子弹物理模拟。在ACM SIGGRAPH 2015课程,SIGGRAPHACM。8[6] Z.陈建民,张文斌. FU和G.森用于场景生成的概率神经编程网络。In S. 本吉奥H. Wallach , H. 拉 罗 谢 尔 湾 格 劳 曼 Cesa-Bianchi 和R.Garnett,编辑,神经信息处理系统进展31,第4028柯伦联合公司股份有限公司、2018. 三六七八[7] J. Devlin,H. Cheng,H. Fang,S.古普塔湖Deng,X.他,G. Zweig和M.米切尔图像字幕的语言模型:怪癖和什么工作。arXiv预印本arXiv:1505.01809,2015。3[8] B. Dhingra,H. Liu,W. W. Cohen和R. 萨拉赫季诺夫阅读者对文本理解的注意力。CoRR,abs/1606.01549,2016。1[9] 多纳休湖A. Hendricks,S. Guadarrama,M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描 述 的 长 期 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,2015年。3[10] H. Fang,S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说,P. 多尔,J。Gao、X. 他,M。米切尔,J。C. Platt,etal.从标题到视觉概念再到后面。在IEEE计算机视觉和模式识别会议论文集,第1473-1482页,2015年。3[11] K. 他,G. Gkioxari,P. Dol la'r和R. B. 娘娘腔。掩模CNN CoRR,abs/1703.06870,2017年。4[12] K. M. Hermann,T. Kocisky,E.格雷芬斯特湖埃斯佩霍尔特W. Kay,M. Suleyman和P. Blunsom教机器阅读和理解 。 In C.Cortes , N.D. Lawrence , D.D. 李 , M 。Sugiyama和R.Garnett,编辑,神经信息处理系统进展,第1693Curran Associates,Inc. 2015. 1[13] R. Hu,M. Rohrbach,J. Andreas,T. Darrell和K.萨恩科用组合模块网络建模指称表达式中的关系. 2016年11月二三五七八[14] J. 约翰逊湾哈里哈兰湖范德马滕湖Fei-Fei,C.L.Zitnick和R. B.娘娘腔。CLEVR:用于合成语言和基本视觉推理的诊断数据集。CoRR,abs/1612.06890,2016。三六八[15] R. Kadlec,M.施密德岛Bajgar和J.克莱丁斯特文本理解与关注和读者网络。CoRR、abs/1603.01547,2016。1[16] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 在IEEE计算机视觉和模式识别会议论文集,第3128-3137页,2015年。3[17] T. D. Kulkarni、W.Whitney,P.Kohli和J.B. Tenen-鲍姆深度卷积逆图形网络。CoRR,abs/1503.03167,2015。一、二[18] 诉库马尔A.古普塔Todorov和S.莱文学习从经验和模仿的灵巧操作策略。CoRR,abs/1611.05095,2016。8[19] S.莱文角Finn,T. Darrell和P.阿比尔End-to-end深度视觉策略的训练。J.马赫学习. Res. ,17(1):1334-1373,Jan. 2016. 8[20] J. 毛角,澳-地Gan,P.Kohli,J.B. Tenenbaum和J.吴神经符号概念学习者:从自然监督中解读场景、词语和句子。2019年国际学习代表会议。6[21] B. A.奥尔斯豪森感知是一个推理问题。2013年。1[22] S. Ren,K.赫利河Girshick和J.太阳Faster r-cnn:Towardsreal-time object detection with region proposal networks.在C. Cortes,N. D. Lawrence,D. D.李,M。杉山,以及R. Garnett,编者,《神经信息处理系统进展》,第91-99页Curran Associates,Inc. 2015年。7[23] R. Riochet,M.Y. 卡斯特罗M.Bernard,A.莱雷尔河费格斯V. Izard和E.迪普Intphys:一个可视化直观物理推理的基准。2019. 7[24] A. Rohrbach,M.Rohrbach,N.Tandon和B.席勒一用于电影描述的数据集。在IEEE计算机视觉和模式识别会议(CVPR),2015年。3[25] A. Rohrbach,M.Rohrbach,S.Tang,S.J. 哦,还有第二。席勒生成与接地和共同引用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功