没有合适的资源?快使用搜索试试~ 我知道了~
贪婪分层变分自编码器预测大规模视频
12318用于大规模视频预测的贪婪分层变分自编码器Bohan Wu,Suraj Nair,Roberto Martín-Martín,Li Fei-Fei<$,Chelsea Finn<$ Stanford University,Stanford,CA 94305{bohanwu,surajn,robertom,feifeili,cbfinn}@cs. 这是一个很好的选择。e度摘要一个推广到不同场景的视频预测模型将使智能代理(如机器人)能够通过模型规划来执行各种任务。然而,虽然现有的视频预测模型在小数据集上产生了有希望的结果,但在大型和多样化的数据集上训练时,它们会出现严重的欠拟合。 为了解决这个不适合的挑战,我们首先观察到训练更大视频预测模型的能力通常受到GPU或TPU的内存限制的影响。与此同时,深度层次潜变量模型可以通过捕获未来观测的多级随机性来产生更高质量的预测,但这种模型的端到端优化非常困难。 我们的关键见解是,分层自动编码器的贪婪和模块化优化可以同时解决内存限制和大规模视频预测的优化 挑 战 。 我 们 介 绍 了贪 婪 分 层 变 分 自 动 编 码 器(GHVAE),一种通过对分层自动编码器的每一级进行贪婪训练来学习高保真视频预测的方法。与最先进的模型相比,GHVAE在四个视频数据集上的预测性能提高了17-55%,在真实机器人任务上的成功率提高了35- 40%,并且可以通过简单地添加更多模块来单调地提高性能。可视化 和 更多 细 节 在htt p s://sites.古 格 湖 c om/view/gh v a e.1. 介绍智能的核心是预测未来的能力实际上,如果配备有准确的视频预测模型,诸如机器人的智能代理可以能够使用原始像素输入来执行各种任务。例如,视觉预见[1]等算法可以利用动作调节视频[2]平等的建议和命令。图1:贪婪分层变分自动编码器(GHVAE)。与传统的分层变分自编码器(VAE)不同,GHVAE模型使用先前训练的模块的冻结权重来训练每个编码器-解码器模块。贪婪的训练环境将整个模型放入内存中,并使更大的模型能够在相同的GPU或TPU内存中训练。此外,贪婪训练通过打破各个潜在变量之间的双向依赖关系来提高这种分层模型的优化稳定性。结果 , 给 定 当 前 图 像 , Xt , GHVAE 预 测 更 大 的ccurateneXt图像,Xt+1,该图像具有更高的分辨率。 Each模块按顺序优化,测试时使用所有模块。预测模型来计划实现期望的任务目标的动作序列。重要的是,这样的视频预测模型原则上可以用广泛的、未标记的数据集进行训练,并且构建可以从大型、多样化的在线数据中学习的方法是一个在视觉[2]和语言[3]方面取得巨大成功的秘诀。12319认识然而,从大量不同的数据中学习准确的视频预测模型仍然是一个重大挑战。世界的未来视觉观察是分层的[4],高维的,不确定的,要求模型准确地表示未来像素的多级随机性,这可以包括低级特征(例如,当桌子变得不被物体遮挡时的纹理)和高级属性(例如,当物体被触摸时物体将如何移动),例如图1中的顶部图像。1.一、为了捕捉未来的随机性,先前的工作已经提出了各种随机潜变量模型[5,6,7]。虽然这些方法为相对较小的视频预测数据集(如BAIR机器人推送数据集[8])生成了合理的预测,但在面对实际GPU或TPU内存约束时,它们在较大数据集中存在严重的拟合不足[9]。另一方面,虽然分层变分自动编码器(VAE)原则上可以通过捕获多个随机性级别来产生更高质量的预测,但随着网络中分层潜变量的数量增加,各个分层潜变量之间的双向依赖性(较高级别的变量影响较低级别,反之亦然)可能会产生未解决的优化不稳定性问题[10,11]。这项工作的关键见解是,分层自动编码器的贪婪和模优化可以同时解决内存限制和学习准确的大规模视频预测的优化挑战。一方面,通过规避端到端训练,贪婪机器学习允许对整个视频预测模型的子模块进行顺序训练,从而能够在相同数量的GPU或TPU存储器中学习更大的模型。另一方面,以贪婪和模块化的方式优化分层VAE打破了各个潜在变量之间的因此,这些变量可以在整个训练过程中保持稳定,解决了训练深度分层VAE的典型不稳定性。有了这个关键的洞察力,本文介绍了贪婪的HierarcicalVAEs(“G H V A E s“h e r a f t e r)(F ig. 1)-一组局部潜在VAE模块,其可以以贪婪的逐模块方式顺序堆叠和训练,从而产生深度分层变分视频预测模型,其在实践中允许稳定的优化并且原则上可以扩展到大的视频数据集。如第4节所述,GHVAE在四个不同数据集上的FVD评分[12]方面比最先进的视频预测模型高出17-55%,在用于规划时,在两个真实机器人操作任务上的成功率高出35- 40%此外,我们的经验和理论分析发现,随着网络中GHVAE模块数量的增加,GHVAE的性能可以单调地提高。总之,这项工作的核心贡献是使用贪婪机器学习来提高分层VAE的优化稳定性和内存效率,从而在大规模视频预测准确性和实际机器人任务成功率方面都有显着提高。2. 相关工作大规模视频预测的欠拟合挑战。解决不适应的挑战的大规模视频预测可以导致视觉上强大泛化前-[13,14,15,16,8,1,17,18,19,20]执行基于模型的机器人控制[21,22,23],动作条件视频预测[24,25,26,27]。Ini-实际上,视频预测[28,29,30,31,32,33,34,11,35]具有被解决通过一确定性模型[36,37,38,39,40,30,41,42,43,44,45,46]。后来采用VAE对未来视觉观察的随机性进行建模[47,5,48,49]。然而,使用基于概率的潜变量模型对现实世界的随机性进行建模会无意中 导 致 模 糊 的 预 测 。 这 个 问 题 是 由hogonalwork-VAE-GAN [ 6 ]和基于时间步的潜变量模型[ 7 ]的两种方法解决的。虽然这些方法解决了小规模视频数据集(如BAIR机器人推送数据集[8])中的模糊预测,但它们在大规模,多域 或 多 机 器 人 数 据 集 ( 如 RoboNet [50] 和RoboTurk [51])中存在严重的拟合不足。同时,Villegas等人。[9]验证了更高的模型容量会导致更高的预测保真度。这就提出了如何学习更大的模型以应对大规模视频预测的欠拟合挑战另一方面,Castrejon et al. [11]将密集连接应用于分层VAE,以解决拟合分层变分视频预测模型的优化挑战虽然这项工作在相对较小的视频数据集中表现优于最先进的技术,但由于深度优化问题,它无法大幅扩展其分层VAE [10,11]。其他作品也试图通过其他角度来解决大规模视频预测的不足挑战。例如,一个工作线试图表示像素为离散的,而不是连续的分布[52,53]。其他作品预测了前向替代量,如以对象为中心的表示[54,55,56,57,58,59]和以目标为中心的表示[60]。与这些方法不同,我们的方法可以扩展到大型真实世界的视频数据集,而不需要额外的归纳偏差。12320图2:三模块GHVAE的培训程序和架构。 在第一阶段,所有第一模块重量1ENC1Dec1之前1邮政)进行端到端的培训在第二阶段,来自第一个模块的所有权重都被冻结,第二个模块的模块已训练。 在第三阶段,所有第一和第二模块的权重都被冻结,只有第三模块被训练,依此类推。x t+1的视频预测质量随着更多模块的添加而提高。图中的图例表示每个GHVAE模块中的四个组件(编码器、解码器、先验和后验),以及每个组件是被冻结(倾斜的红色条)还是仅用于训练而不是在测试时使用(虚线与实线相对)。为了限制需要从先验网络进行预测的空间维度的数量,仅使用最终的第K个GHVAE模块中的先验和后验。 动作at被包括在动作调节视频预测中,而被排除在无动作视频预测中。贪婪机器学习贪婪机器学习[61,62,63,64,65,66]最初被引入为深度网络提供良好的权重初始化,以在端到端反向传播期间避免糟糕的局部最优正如最初提出的那样,深度网络的每个随后,贪婪机器学习已被应用于预训练好的特征提取器和堆叠自动编码器[67,68,69,70,71,72],用于下游视觉,声音和语言的任务[73,74,75]。通过自监督学习训练,这些特征提取器和自动编码器在捕获和保存视频等序列数据中的时不变信息方面表现出色。相比之下,我们提出了一种视频预测方法,使用层次结构的潜在变量来显式地模拟未来的时变信息。最后,提出了生成对抗网络(GAN)的贪婪训练,以生成高质量,高分辨率的单图像[76]。与这些先前的工作不同,我们提出了一种贪婪的方法来训练大规模的视频预测模型,同时解决了内存限制和分层VAE的优化挑战。分层变分自动编码器。最近引入了分层[77]和顺序VAE [78],以改善各种环境视觉任务,如视频预测[11]和图像生成[79]。已知它们具有优化挑战[10],主要是由于各个潜在变量之间的双向依赖性。当端到端优化时,分层VAE需要在整个训练过程中保持每个潜在变量对视频预测任务有用为此,以前的工作引入了各种归纳偏差,例如密集连接[11],梯形结构[80],双向干扰[81],渐进有损压缩[82,83]和频谱正则化[79],以减轻分层VAE特有的优化困难。这些方法在图像生成的背景下已经取得了很大的成功,而我们研究更困难的视频预测问题。与这些方法不同的是,我们提出了一个贪婪的训练方案,显着提高了条件分层VAE的优化挑战。3. 贪婪分层VAE(GHVAE)概况. 为了开发一个有表现力但稳定优化的视频预测模型,我们引入了贪婪分层VAE(图1)。2),它们是局部优化的VAE模块,可以顺序地堆叠在一起 要训练一堆模块,而不需要安装(W,W,W,W12321电话+1不电话+1DecDecENC2 Zk=RH ×W×C电话+1电话+1电话+1电话+1电话+1不电话+1ENC电话+1不不H不HENC不将整个模型存储到内存中,每个模块都是GHVAE模型中的优化解码器,在本地使用先前的冻结权重,最深随机潜变量zK回到xt+1培训模块具体地,GHVAE模型具有多个GHVAE模块。每个GHVAE模块有四个卷积子网络:编码器,解码器,先验网络和后验推理网络。在本节的剩余部分中,我们将概述来预测下一张图片由于在随机潜变量中编码重要信息是困难的,因此我们的目标是允许随机潜变量仅捕获关于过去不存在的未来的新信息。换句话说,任何局部数学符号,描述每一个模型香港的未来资讯不组件的详细信息,得出需要预测的培训目标,因此不应包含对于每个模块作为变分下界,并且kt+1.因此,在最深的潜在从理论上分析贪婪训练的含义。空间WK,将hK和后验Dec潜变量zK不,这样网络就可以借记法。本文采用K表示-直接来自过去的信息。 相似地每个网络中GHVAE模块的总数解码器Wk1Dec.. . WK−1}将两个参数作为输入Wk,k2 [1,K]表示第kGHVAE模块,hk和hk+1并预测hk(除W1中的一个或多个条目,该条目t t+1电话+1DecWk={Wkkdeck先验K柱}来表示第k个预测xt+1)。模仿编码器,这些解码器在这种情况下,无论是编码、解码、打印还是打印,推理网络分别,xt2 X=RH0×W0×C0压缩通道。为了表示在当前时间步t的RGB图像观察(高度H0,宽度W0,通道C0= 3),Prior Network.图中绿色箭头所示。二、hk2 Hk=RHk×Wk×Ck kk ktH表示隐藏变量由当前时间步t的第k个模块编码,先验网络W先验将ht和at映射到对角高斯分布的均值和方差,kt+1k k kZ表示k随机z k来模拟未来观测的随机性。潜变量,用于显式地对时间步t+ 1的未来观测的随机性进行建模,at2 A,之前的网络是递归卷积的,在训练和测试时都使用。从经验上讲,使用所有在执行过程中,请不要将数据存储在K随机潜变量z1.. . zK导致动作调节视频预测的情况,以及这是为了在训练期间不使模型的滚动停止。编码器。图中显示为灰色向下箭头。在图2中,GHVAE模型中的K个编码器从Xt递增地映射到hK,并且用作VAE模型和后验推理网络的一部分。对于编码器设计,重要的是要记住VAE处理随机潜变量的每个维度独立(即平均场近似)。然而,由于自然图像的低频,图像的卷积嵌入包含显著的空间相关性近似为了缓解这一挑战,我们设计的编码器架构,以增量压缩嵌入的空间维度,同时显着扩大嵌入的通道尺寸。这允许模型在最深层存储大量信息(包括空间信息),而没有强相关的维度。具体地,第k编码器Wk从hk−1映射到随着GHVAE模块数量的增加,过度的随机性和性能下降。因此,一个关键的设计选择是,虽然K模块GHVAE在训练期间使用所有K个随机潜变量(即,z1... K,每个模块一个)来顺序学习未来观测的多级随机性,只有最深层的潜变量z K在测试时使用,并且需要从先验网络进行预测。这种贪婪训练策略允许每个解码器将不确定性从最深层传播到较浅层,并最终返回到像素空间。因此,GHVAE可以隐式地对未来观测的多水平随机性进行建模,而无需在测试时显式地使用多个随机潜变量,并且可以在空间上逐模块地最大限度地压缩潜空间,使得h K和z K包含尽可能少的空间维度。因为最深的编码器将具有最少的空间维度,所以唯一的随机潜在变量zK将具有最少的空间相关性。hk(除了第一编码器W0,它映射xt后验推理网络虽然的到h1),并递增地压缩高度和宽度Hk Hk−1,WkWk−1,同时扩展编码器和解码器在最深隐藏层hK中具有最小化的空间维度,编码过程通道Ck>Ck−1。产生了高的沟道尺寸CK对于hK。译码器如图2中的蓝色箭头所示,K为了提高先验网络的预测质量,可能需要缩小hK中的通道在z2 {W,W,W,WzH日12322电话+1电话+1电话+1 电话+1电话+1W贪婪电话+1q(z电子2电子q(z以减少现有网络所需的输出维数。因此,如图2中的棕色箭头所示,点刷新工作与过程模块相同W1... k−1,logp(xt+1)≥ maxW 1... k−1,kke2e (xt+1)隐变量hka的均值和方差≥maxLk(xt+1)(3)随机Wk上的对角高斯分布潜变量zk. 当添加模块时,基于最新模型的先验知识训练新潜在空间的后验推理网络和新先验网络。zK这是一个很好的方法其中Lk(xt+1)是GHVAE的t+ 1时进行端到端优化。更正式地说,变量,因为hk所以zk编码自ke2e(xt+1)k贪婪 (xt+1)在Eq. 2、除了地面实况未来观测xt+1,到预测的下一个观察。 为此该VAE model p kp 1. k−1,kenc、dec、prior 和变分分布q k一...... k−1,k.递归卷积后验网络是唯一可用的,能够在训练时使用,而不用于测试时的推理优化. 在本节中,我们使用p k表示VAE模型,qk表示变分分布。编码器、解码器和先验网络都是模型pk的一部分,编码器和后验推理网络都是qk的一部分。K模块GHVAE模型的训练过程被分成K个训练阶段,并且仅第k个GHVAE模块被训练。Wenc,post2 ) 单 调 改 进 : 增 加 更 多 的模 块 可 以 实 现(asopopoposedtolower)GHVAE的E L B O,这证明并激励了最大化数量GHVAE模型中的模块:定理2(单调改进)对于任何k 2 Z+和任何一组冻结的,greenhouse或端到端训练的权重W 1,…k−1,在阶段k期间测试,其中k为2[1, K]。GHVAElogp(x电话+1k贪婪 (xt+1); W1. k−1)第k模块的培训目标是:TX−1≥ Lk−1(x电话+1;W1. k−1)(4)Max焕光t=0时k贪婪 (xt+1)(1)其中Lk−12 {Lk−1,Lk−1}和Lk是姓名首字母缩写─贪婪电子2电子贪婪当我们在一起的时候(xt+1)是在时间步t+1处相对于当前模块Wk的GHVAE的Evidene下界(ELBO):用权重W1表示... k−1。GHVAE方法的进一步细节和这两个定理的数学证明分别在附录A和CLk(xt+1)= Eqk(zk|X)[log p k(x t+1|xt,z k()2])4. 实验评价和分析贪婪✓电话+1电话+1电话+1◆-DKLKK电话+1| x t+1) k p k(z k|x t, at)我们进行视频预测和真正的机器人实验-回答关于GHVAE的六个关键问题:1)GHVAE与最先进的模型相比,其中p k 布吕普1米... k−1,k ,qk 格1米... k−1,k,和视频预测? 2)GHVAE能否实现单调性Wenc,dec,priorWenc,postW1... k−1是所有前面的GHVAE模块的冻结的、经过训练的权重。为了提高训练的稳定性,我们对后验潜在变量分布使用固定的标准通过简单地添加更多模块来提高视频预测精度,如定理2所示?3)GHVAE模型端到端的训练是否优于每个模块的训练,如定理1所示?KK电话+1| x t+1) in the KL divergence term in Eq.二、4)GHVAE的高表达性是否会导致在训练中过度锻炼 (5)有多重要这是一个很好的例子。 GHVAE的E L B O m a n if是两个理论保证。1)ELBO有效性:顺序优化网络中的每个GH-VAE模块相当于最大化ELBO的下限以用于在训练期间训练所有GH-VAE模块。这表明GHV AE定理1(ELBO有效性)对于任何k2Z+和任何一组冻结,L贪婪L)为L)≥LL12323greenhouse或端到端训练权重让我们为GHVAE的工作做准备? 6)GHVAE的高表现力是否提高了真实机器人的性能?可视化和视频位于htt p s://sites。古格湖c om/v iew/ghv a e和更多定性结果见附录B。视频预测性能。为了回答第一个问题,本文通过五个指标评估视频预测方法:Fréchet视频距离(FVD)[12],结构相似性指数度量(SSIM),12324Table1:GHVAEvs. SVG'vid d e o p r d i c t t e t p e r for m n c e(m e a n ± s t and d e r r r o r)。GHVAEutperfrmsSVG“o n al d a t a s e t s a c r o s a l m e t r i c s. “人类“并不意味着人类会因为这两个世界而产生痛苦。数据集方法视频预测测试性能FVD↓PSNR↑SSIM↑LPIPS↓人类RoboNetGHVAESVG95.2±2.6123.2±2.624.7±0.223.9±0.189.1±0.487.8±0.30.036±0.0010.060±0.008百分之九十二8.0%KITTIGHVAESVG552.9±21.21217.3 [9]15.8±0.115.0 [9]51.2±2.441.9 [9]0.286±0.0150.327±0.003百分之九十三点三6.7%Human3.6M GHVAESVG355.2±2.9429.9 [9]26.7±0.223.8 [9]94.6±0.588.9 [9]0.018±0.0020.028±0.006百分之八十六点六百分之十三点四表2:CityScapes上的GHVAE与Hier-VRNN测试性能(平均值±标准误差)。6模块GHVAE中的所有卷积层都缩小了40%,以适应16GB GPU内存进行公平比较。方法FVD↓SSIM↑LPIPS↓GHVAE418.0±5.0 74.0±0.4 0.193±0.014[11]第十一话567.5 [11]62.8 [11]0.264 [11]峰值信噪比(PSNR)、学习感知图像块相似性(LPIPS)[84]和人类偏好。FVD和人类偏好都测量整体视觉质量和时间相干性,而不参考地面实况视频。 PSNR、SSIM和LPIPS测量不同空间中与地面实况的相似性,其中LPIPS最准确地表示人类感知相似性。为了对每个方法的能力进行压力测试,我们使用四个数据集:RoboNet [ 50 ]来测量对象交互的预测,KITTI [ 85 ]和Cityscapes [ 86 ]来 评 估 处 理 部 分 可 观 察 性 的 能 力 , 以 及Human3.6M [ 87 ]来评估结构化运动的预测。本文比较了GHVAEs到SVG“[ 7,9 ]和H ie r - V R NN [11],它们是分别使用非分层和分层VAE的两种现有技术的现有方法。虽然SAVP [6]是另一种现有方法,但我们根据经验发现了SAVP和SVG'对所述数据集的响应,因此为了简单起见省略了SAVP结果。通过测试集中视频的平均值和标准误差总结所有指标。对于SVG'的概念,它类似于“SVG'(M = 3,K =5)“[ 9 ],这是对SVG '模型的一种简化。 [9]评估和SVG'的远程电视机配置为24 G B G P U,数据大小为3 2。与原始SVG[7 ]相比,SVG'(M = 3,K = 5)具有3倍大的卷积LSTM和5倍大的编码器和解码器卷积网络,并且在FVD分数[ 9 ]中显著优于原始SVG 40-60%。由于Villegas et al. [9]报告了在KITTI和H um n 3上“S V G”(M = 3,K = 5)“的FVD、SSIM和PSNR性能。6个月,we表3:消融1:GHVAE从2个模块单调改善到4个模块,再到6个模块(当进行了优化时)。数量模块RoboNet视频预测测试性能FVD编号PSNR“ SSIM“LPIPS编号695.2±2.6 24.7±0.2 89.1±0.4 0.036±0.0014151.2±2.324.2±0.187.5±0.40.059±0.0062292.4±11.1 23.5±0.286.4±0.20.106±0.010直接与使用相同评估方法的结果进行比较。对于RoboNet和为了评估LPIPS和humanprenerence,我们实现SVG在表1中,用于SVG'a的6-元GHVAE模型描述了跨所有度量的所有三个最显著的是,我们看到FVD评分改善17-55%,LPIPS改善13-45%。此外,我们发现人类在85%以上的时间里更喜欢GHVAE模型的预测。为了与Hier-VRNN [11]进行比较,我们使用Cityscapes驾驶数据集[86]。 由于Castrejon等人[11]已经报告了Cityscapes的FVD、SSIM和LPIPS性能,因此我们使用相同的评价设置直接比较表2表明,当模块数量达到6个时,GHVAE在FVD中的表现优于Hier-VRNN 26%,在SSIM中的表现优于Hier-VRNN18%,在Cityscapes的LPIPS中的表现优于Hier-VRNN 27%这些结果表明,GHVAE显着优于最先进的视频预测模型,包括分层和非分层模型。GHVAE的强大性能主要来自于在相同数量的GPU或TPU内 存 中 学 习 更 大 模 型 的 能 力 。 例 如 , 即 使GHVAE和SVG接下来,我们进行了几次消融,以更好地了解GHVAE的良好性能。消融1:GHVAE的单调性改善和可扩展性。考虑到GHVAE可以顺序堆叠,确定GHVAE是否可以实现单-12325表 4 : 消 融 2 : 在 RoboNet 上 , GHVAE 在 优 化greenhouse时的性能优于端到端训练时的性能。优化RoboNet视频预测测试性能FVD编号 PSNR“SSIM“LPIPS编号端到端培训509.9±6.2 21.2±0.383.5±1.00.148±0.004贪婪的训练95.2±2.624.7±0.289.1±0.40.036±0.001贪婪训练+端到端微调91.1±3.1 25.0±0.2 89.5±0.5 0.032±0.003如 定理 2所 建议 的 , 通过 简 单地 添 加更 多 的GHVAE模块来进行紧张性改善。 我们在表3中观察到,将GHVAE模块的数量从2个增加到4个,最终增加到6个,可以提高所有指标的性能。这些结果验证了定理2,并表明,在实践中,增加更多的模块单调地增加性能,并使GHVAE能够扩展到大型数据集。消融2:GHVAE的贪婪与端到端优化。当GPU或TPU内存限制宽松时,端到端学习通常优于贪婪 训 练 。 为 了 检 验 这 种 模 式 是 否 也 适 用 于GHVAE,我们使用两个48GB GPU(因为端到端模型不适合24GB GPU)在五个单独的试验中训练了一个6模块GHVAE模型。表5:消融3:6模块GHVAE的训练与测试性能。我们在除RoboNet之外的所有数据集中观察到轻微的过拟合数据集火车/测试视频预测性能FVD编号PSNR“SSIM“LPIPS编号RoboNet火车测试94.4±3.995.2±2.624.9±0.324.7±0.289.3±0.789.1±0.40.036±0.0020.036±0.001KITTI火车测试453.5±12.5552.9±21.219.4±0.215.8±0.161.4±1.651.2±2.40.209±0.0060.286±0.015人类3.6M火车测试258.9±6.8355.2±2.928.6±0.326.7±0.296.4±0.194.6±0.50.015±0.0020.018±0.002城市景观 火车测试401.8±5.4418.0±5.025.2±0.125.0±0.174.9±0.174.0±0.40.194±0.0060.193±0.014表6:消融4:在GHVAE中使用学习的先验显著优于均匀先验,特别是在动作调节视频预测中。数据集 学习/均匀视频预测测试性能FVD编号PSNR“SSIM“LPIPS编号RoboNet了解到均匀95.2±2.6281.4±1.624.7±0.222.1±0.389.1±0.485.0±0.40.036±0.0010.58±0.007KITTI了解到均匀552.9±21.2823.3±12.015.8±0.113.0±0.251.2±2.446.9±0.30.286±0.0150.291±0.005人类3.6M了解到均匀355.2±2.9391.6±11.126.7±0.226.3±0.394.6±0.593.0±0.30.018±0.0020.021±0.002城市景观了解到均匀418.0±5.0495.2±1.825.0±0.124.7±0.174.0±0.469.1±0.40.193±0.0140.220±0.005RoboNet,6个月GHV AE的测试性能与其在所有四个此外,我们还进行了第二个实验,使用两个48GB GPU端到端地微调了greatest训练的GHVAE我们在表4中发现,与贪婪设置相比,该模型在任何单次运行中都无法收敛到任何良好的性能。然而,当端到端优化时,GHVAE模型需要更新每个模块以提高视频预测质量,同时保留各个隐变量之间的相互依赖性,这可能导致优化困难[10]。即使GHVAE可以端到端优化,有限的GPU或TPU内存容量仍然无法按照数字进行训练模块的数量超过了6个。然而,端到端微调确实导致较小的性能增益,如通过以下方式所实现的(端到端微调,A b l. 2)”。这两种方法的优点在于,GHVAE的实时训练比从头开始的端到端训练具有更高的优化稳定性。它们还表明,GHVAE的端到端训练可以优于定理1所建议的贪婪训练,只要GHVAE模型首先是预训练的贪婪。消融3:GH-VAE的训练试验比较。由于GHVAE旨在解决大规模视频预测的欠拟合挑战,我们现在研究GHVAE是否已经开始过拟合训练数据。我们在表5中观察到,暗 示 着 有 点 过 度 拟 合 。 对 于 KITTI 、Human3.6M和Cityscapes,我们观察到在大多数指标上,训练性能都优于测试性能,这表明存在一些过拟合。我们假设这是由于与RoboNet相比,这三个数据集的大小较小,并且对于Human3.6M,因为测试集对应于两个看不见的人类受试者。消融4:已评估Prior的性能贡献。GHVAEs′在隐式结构中的一个特点是只在最深层对随机潜变量进行前向预测。因此,量化学习的先验网络对整体性能的贡献可能是重要的。我们在表6中观察到,使用学习的先验显著优于使用均匀对角高斯先验,特别是对于动作条件数据集。我们假设,这是因为一个学习先验包含有关的行动,而一个统一的先验没有信息。真正的机器人表演。最后,我们评估改进的视频预测性能是否能在下游任务中取得更大的成功。我们考虑两个操作任务:在Franka Panda机器人手臂上拾取擦拭和拾取清扫。具体地说,每种方法都是一个小的,自主收集的5000个随机机器人与不同物体交互的视频训练数据集,例如在12326表7:GHVAEvsS. SVG方法测试任务成功率拾取擦除任务拾取扫描任务GHVAE百分之九十85.0%SVG50.0%50.0%(a)训练:随机交互(b)测试:看不见的物体图3:真实机器人实验装置。弗兰卡机器人配备了一个45○黑色RGB摄像头。我们在RoboNet上对每个模型进行预训练,并对机器人与箱子中物体的随机交互进行500 0 V的自动到非自动的数据集进行微调(图4a)。使用经训练的GHVAE视频预测模型,跨两个任务测试弗兰卡机器人:拾取擦拭(图4b中的箱的顶部和底部左侧)和拾取清扫(图4b中的箱的顶部和底部右侧)。所有任务都在训练期间从未见过的图4a中的深灰色桌面箱。在测试时,为了测量泛化,所有使用的对象、工具和容器在训练期间都不会出现从经验上讲,直接在这个5000个视频的小数据集上进行训练会导致在测试时对新对象的泛化能力较差所有方法。因此,为了实现更好的泛化,所有网络首先在RoboNet上进行预训练[50],然后在这个5000个视频数据集上进行微调。在这两个任务中,机器人都被给予一个64× 64 RGB的目标图像来指示任务目标,没有提供手工设计的奖励。每个视频预测方法的模型展开范围是10,其中提供两个先前上下文帧和一系列10个未来动作作为输入。 所有真实机器人的结果都在20次试验中进行了评估。对于规划,我们使用4维动作空间执行随机射击(详见附录B),该动作空间包含用于[x,y,z]端部效应器平移的三个标量和用于打开与关闭其平行钳口夹持器的一个二进制标量。在第一个拾取擦拭任务中,机器人需要拾取擦拭工具(例如海绵、桌布等)。 向上并使用擦拭工具擦拭板上的所有物体。如果机器人拿起擦拭工具并在50个时间步内使用擦拭工具将板上的所有 物 体 擦 拭 掉 , 则 任 务 成 功 。 在 第 二个 PickSweep任务中,机器人需要拾取一个清扫工具(例如,簸箕清扫器,桌布或海绵等)。把一个物体扫到簸箕里。如果目标物体在50分钟内扫入簸箕,时间步长在每个任务开始时,擦除或刷新工具不在机器人的组中,这使得任务更加困难。 表7揭示了6个月的GHVAE&&模型在拾取擦除和拾取扫掠 的 成 功 率 方 面 分 别 为 40% 和 35% 。对 于Pick&Wipe,SVG' p r due s blu rry predictions,特别是当机器人和板在该图像中重叠时。 因此,SVG有能力制定最佳的动作顺序,将物体从盘子上擦去。相比之下,GHVAE凭经验产生了对机器人的运动以及对机器人和机器人的磨损的精确预测。 对于PICK &Swep,SVG'具有预测对象在机器人的w ep i n g m o t期间的运动的困难,从而导致更频繁的任务失败。相比之下,GHVAE预测合理的机器人扫描运动和物体运动,达到85%的成功率。这些结果表明,GHVAE不仅导致更好的视频预测性能,但它们导致更好的下游性能在真正的机器人操作任务。5. 结论本 文 介 绍 了 贪 婪 分 层 变 分 视 频 预 测 模 型(Greedy Hierarchical VAE,GHVAE),它是一种局部的VAE模块,可以顺序堆叠并进行贪婪优化,从而构造出一种表达能力强且稳定优化的分层变分视频预测模型。该方法在四个视频数据集上的FVD分数上显著优于最先进的分层和非分层视频预测方法17-55%,在真实机器人任务成功率上显著优于此外,GHVAE通过简单地堆叠更多模块来实现单调改进。通过解决大规模视频预测的不足挑战,这项工作使智能代理(如机器人)能够从大规模的在线视频数据集中学习,并通过准确的视觉预见来概括各种复杂的视觉任务。虽然GHVAEs表现出单调的改善,但使用超过六个模块的GHVAEs进行实验是未来工作的重要方向,以更好地理解这种方法的全部潜力。另一方面,利用这种方法使机器人智能体能够学习更难和更长时间的操纵和导航任务也是未来的一个重要方向。最后,探索GHVAE在其他生成建模问题中的使用将是有趣的。12327引用[1]F. 埃伯特角Finn,S.Dasari,A.Xie,中国茶青冈A.Lee和S. Levine,一、二[2] J.邓,W.东河,巴西-地索赫尔湖,美-地J. Li,K. Li和L.Fei- Fei,248-255. 1[3]T. B. 布朗湾,澳-地曼,N。Ryder,M.Subbiah,J.卡普兰,P. Dhariwal,A.Neelakantan,P.Shyam,G.Sastry,A.阿斯克尔,S. 阿加瓦尔A. Herbert-Voss,G. Krueger,T. 亨尼根,R. Child,A. Ramesh,D. M. Ziegler,J. Wu,C. 温特,C. 黑森,M。Chen,中国山茱萸E.Sigler,M.Litwin,S.格雷湾,澳-地象棋J. Clark,C. Berner,S. McCandlish,A.雷德福岛Sutskever和D. Amodei,“语言模型是少数学习者”,2020年。1[4] S. E. Palmer,号9第4页。441-474,1977年。2[5] M. 巴巴伊扎德角Finn,D.埃尔汉河H. 坎贝尔和S. Levine,2[6] A. X.利河,巴西-地Zhang,F. Ebert,P. Abbeel,C.芬恩,S. Levine,第二、六条[7] E. Denton和R. Fergus,“具有学习先验的随机视频生成”,机器学习研究论文集,J.Dy和A. Krause,编辑,第80卷,2018年,pp. 1174- 1183. 第二、六条[8] F. Ebert,S. Dasari,A. X.李,S。Levine和C. Finn,2[9] R. Villegas,A. Pathak,H. Kannan,D. Erhan,Q. V. Le,以及H. Lee,81-91. 第二、六条[10]C. K. Sønderby,T.赖科湖马埃岛K. Sønderby,O. Winther,二、三、七[11]L. Castrejon,N. Ballas,和A. Courville,二、三、六、十六[12]T. Unterthiner,S.van Steenkiste,K.库拉奇河水手,M. Michalski和S. Gelly,第二、五条[13]B. Boots,A. Byravan和D. Fox,&“从原始执行轨迹中学习深度相机操纵器的预测模型”,2014年IEEE机器人与自动化国际会议(ICRA),2014年,pp. 4021-4028. 2[14]C. Finn和S. Levine,2786-2793。2[15]N. Kalchbrenner,A. 哦,K. 西蒙尼扬,I. 丹尼赫尔卡,O. Vinyals,A.Graves和K.Kavukcuoglu,1771-1779. 2[16]F.埃伯特角芬恩A. X. Lee和S. Levine,2[17]A. Xie,F. Ebert,S. Levine和C. Finn,2[18] C. 帕 克 斯 顿 , Y. Barnoy , K. 卡 蒂 亚 尔 河 Arora 和 G.D.Hager,8832-8838. 2[19]S. Nair和C. Finn,ICLR,2020年。2[20] S.奈尔,M。巴巴伊扎德角Finn,S. Levine
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功