未来视频预测：双映射门控递归单元的无监督学习和性能提升

34 浏览量更新于2023-10-13 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于未来视频预测的Marc Oliu1，3，Javier Selva2，3，and Sergio Escalera2，31Universitat Oberta de Catalunya Rambladel Poblenou，156，08018 Barcelona，Spainmoliusimon@uoc.edu2巴塞罗那大学Gran Via de les Corts Catalanes，585，08007 Barcelonajselvaca21@alumnes.ub.edu网站，sescalera@ub.edu3CentredeVisi´operComputtadorCampusUAB，Edifici O，08193 CerdanyoladelVal`es，Ba rcelona抽象。这项工作引入了双映射门控递归单元（dGRU），标准GRU的扩展，其中输入被认为是一个经常性的状态。一组额外的逻辑门被添加到更新的输入，把给定的输出.堆叠多个这样的层导致递归自动编码器：更新输出的运算符包括编码器，而更新输入的运算符形成解码器。由于状态在对应的编码器层和解码器层之间共享，因此在学习期间对表示进行分层：一些信息不被传递到下一层。我们测试我们的模型对未来的视频预测。该任务的主要挑战包括视频中的高可变性、错误的时间传播以及未来帧的非特异性。我们展示了如何只有编码器或解码器需要应用于编码或预测。这降低了计算成本，并且避免了在生成多个帧时对预测进行重新编码，从而减轻了错误传播。此外，可以从训练模型中移除层，从而了解每个层的作用。我们的方法提高了MMNIST和UCF101的最先进的结果，具有竞争力的KTH与2和3倍的内存使用和计算成本比最好的得分的方法。关键词：未来视频预测·无监督学习·递归神经网络1介绍未来视频预测是一项具有挑战性的任务，由于其以无监督方式学习的能力，最近受到了很多关注，使得可以利用大量未标记的数据进行视频相关任务，例如动作和手势识别[22，11，10]，任务规划[14，4]，天气预测[20]，光流估计[15]和新视图合成[10]第10段。2M. 奥柳Selva和S.Escalera在这项任务中的主要问题之一是需要昂贵的模型，无论是在内存和计算能力，以捕捉视频数据中存在的另一个问题是递归模型中的误差传播，这与视频预测的固有不确定性有关：给定一系列先前帧，存在多个可行的未来。如果不加以检查，这将导致模糊的预测，平均可能的未来空间。当预测后续帧时，模糊被传播回网络，随着时间的推移积累误差。在这项工作中，我们提出了一种新的类型的经常性自动编码器（AE）与编码器和解码器之间的状态共享我们展示了门控递归单元（GRU）中的暴露状态如何为此，输入被视为循环状态，添加另一组逻辑门以基于输出来更新它。创建这些层的堆栈允许信息的双向流动：正向门编码输入和反向的生成预测，获得- ING类似于AE 4的结构，但具有许多固有的优点。仅执行编码器或解码器以用于输入编码或预测，从而减少存储器和计算成本。此外，表示是分层的：不将捕获较高级动态所必需的低级信息传递到下一层。此外，它自然地提供了输入的噪声身份映射，促进了训练的初始阶段。虽然该方法没有解决模糊的问题，但它通过减轻误差的传播来防止其放大。此外，经过训练的网络可以被解构，以分析每一层在最终预测中的作用，使模型更易于解释。由于状态是共享的，因此该架构可以被认为是对折的递归AE，其中编码器层和解码器层重叠。我们称我们的方法为折叠递归神经网络（fRNN）。我们的主要贡献是：1）具有较低存储器和计算成本的新的共享状态递归AE。2)减少错误随时间的传播。3)它在训练期间自然地提供身份功能。4)模型的可解释性和通过层去除的优化（5）代表分层的论证2相关工作视频预测通常使用深度递归模型来处理虽然最初的建议集中在预测小块[17，13]，但现在常见的是基于先前的帧生成整个帧。积木。由于问题的特征，AE设置已被广泛使用[22，14，5，24，3]：编码器从输入中提取信息通常，编码器和解码器是处理空间维度的CNN。LSTM通常用于处理时间动态并将表示投影到未来。一些4代码可在https://github.com/moliusimon/frnn折叠递归神经网络3工作计算在桥接编码器和解码器的深度表示处的时间动态[14，15，2，3]。其他人通过使用卷积LSTM [5，11，15，8，9]（或GRU，如在我们的情况下）来联合处理空间和时间，其在其门处使用例如，Lotter等人。 [11]使用具有ConvLSTM的递归残差网络，其中每一层最小化与先前块预测的常见的变化还包括一个条件项来指导时间变换，例如时间差[25]或场景事件的先验知识，减少可能的未来空间 Oh等人[14]在Atari游戏中预测未来的帧，以玩家的动作为条件。一些作品提出了这样的动作条件模型，预见了以无监督方式学习的自动代理的应用[5，8]。 Finn等人[5]根据与场景交互的机器人手臂所采取的动作来调节他们对物理系统的预测。该方法最近被应用于任务规划[4]并适用于随机未来视频预测[1]。桥梁连接。引入桥接（编码器和解码器的等效层之间的连接）也很常见[5，10，2，24]。这允许输入序列的分层表示，从而减少后续层的容量需求。视频梯形网络（VLN）[2]使用conv.AE，其中卷积对被分组为残差块。桥接连接被直接地或通过使用递归桥接层添加在对应的块之间。这种拓扑结构进一步扩展为递归梯形网络（RLN）[16]，其中去除了递归桥连接，并且用递归层替换了残余块。我们提出了一种替代桥接完全共享编码器和解码器之间的状态预测原子。大多数用于未来帧预测的所提出的架构在像素级工作。然而，已经设计了一些模型来预测运动并使用它来将最后一帧投影到未来。这些可以生成光流图[10，15]或卷积。kernels [7，27].其他方法提出将输入序列映射到预定义的特征空间，例如仿射变换[23]或人体姿势向量[26]。这些系统使用这些特征的序列来在像素级生成下一帧。损失和GAN。常用的损失函数，如L2或MSE，倾向于平均可能的期货空间。出于这个原因，一些作品[12，24，26，9]提出使用生成对抗网络（GAN）[6]来帮助生成逼真的帧和相干序列。 Mathieu等人[12]在对抗环境中使用普通的多尺度CNN，并提出梯度差损失来锐化预测。运动/内容分离。一些作者分别编码内容和运动。 Villegas等人[24]使用具有双流编码器的AE架构：对于运动，CNN + LSTM编码差异图像;对于外观，CNN编码最后一个输入帧。以类似的方式，Dentonet al. [3]使用两个单独的编码器和对抗设置来获得内容和运动的分解表示。或者，一些作品并行地预测运动和内容，以从两个任务的组合优势中受益虽然Sedaghat等人。[19]建议使用具有双物镜（光学4M. 奥柳Selva和S.Escalerat−1流和未来帧预测），Liang等人 [9]使用双GAN设置并使用预测的运动来细化未来帧预测。反馈预测。最后，大多数循环模型都是基于使用反馈预测：它们输入先前的预测以生成后续帧。如果处理不当，这可能会导致错误随着时间的推移而积累和我们的模型通过使编码器和解码器能够独立地执行任意次数来减轻这一点。这类似于Srivastava等人的提议。[22]，其使用递归AE方法，其中对输入序列进行编码并将其状态复制到解码器中。然后应用解码器来生成给定数量的帧。然而，它仅限于每个部分处的单个递归层。这里，不考虑随机视频预测。这种模型从可能的未来空间中学习和采样，以生成以下帧。这通过防止对可能的未来进行平均来减少预测模糊。fRNN可以通过在训练期间添加类似于[1]中的推理模型来扩展以执行随机采样从预测分布中提取的样本将被放置到dGRU堆栈的最深状态中。然而，这将使得难以分析dGRU层对模糊传播的减轻和恢复的贡献。3该方法我们提出了一个架构的基础上经常性的conv。AE处理网络容量和错误传播问题，用于未来的视频预测。它通过堆叠多个双映射GRU层构建，这允许输入和输出之间的双向信息流：它们将输入视为循环状态并使用额外的一组门来更新它。这些然后堆叠，形成一个编码器和解码器，分别使用前向和后向门（图1）。我们称这种架构为折叠递归神经网络（fRNN）。由于编码器和解码器之间的状态共享，拓扑允许：与常规复发性AE相比，该方法的优点在于：分层的表示、较低的存储器和计算要求、减轻错误的传播、以及通过层移除增加可解释性。3.1双映射门控递归单元GRU将其状态完全公开为输出。这允许我们通过复制GRU层的逻辑门来定义输入和输出之间的双向映射为此，我们将输入视为一个状态。让我们定义的输出在层l和时间步长t处的GRU为hl=fl（hl−1，hl），给定输入hl−1，以及tftt−1t其在前一时间步H1的状态.第二组权重可以用于使用正向映射的输出定义逆映射hl−1=fl（hl，hl−1）。tb t −1函数来更新其输入，该输入被视为反函数的隐藏状态。这示于图1.我们将这种双向映射称为双映射GRU（dGRU）。折叠递归神经网络5Fig. 1.左：dGRU的方案。阴影区域示出了附加的dGRU层。右：fRNN拓扑。状态单元在编码器和解码器之间共享，从而创建双向状态映射。阴影区域表示不必要的电路：由于解码器更新了所有的状态，避免了预测的重新编码。3.2折叠递归神经网络通过堆叠多个dGRU，获得复发AE。给定n个dGRU，编码器由前向函数集合E ={f1，…fn}和de-f f编码器通过后向函数集合D ={fn，… f 1}。这示于B b图1，并且等同于复发性AE，但是具有共享状态，具有3个主要的优点：1）不必将预测反馈到网络中以生成以下预测。由于状态共享，解码器已经更新了除了编码器和解码器之间的桥接状态之外的所有状态，该桥接状态通过在解码之前应用编码器的最后一层来更新。图中的阴影区域。1示出了在执行多个顺序预测时不需要的计算图的部分。出于相同的原因，当在预测之前考虑多个顺序元件时，仅需要编码器。2)由于网络在预测期间将其状态从更高级别的表示更新到最低级别的表示，因此在给定层引入的错误不会传播到更深层，从而使更高级别的动态不受影响。3）模型在训练期间隐式地提供噪声身份函数：第一dGRU层的输入状态是输入图像本身，当通过conv. 层或其过完整表示。然后通过未训练的第一dGRU层的后向函数将噪声信号引入到表示中。这在图1中例示。7，当所有dGRU层被移除时。如第4.3节所示，这有助于模型收敛到MMNIST：当实例之间共享相同的背景时，它可以通过调整偏差以匹配背景并将权重设置为零来防止模型杀死梯度。这种方法与VLN [2]和RLN [16]有一些相似之处与它们一样，部分信息可以直接在编码器和解码器的相应层之间传递，而不必对完整表示进行编码6M. 奥柳Selva和S.Escalera输入到最深的一层。然而，我们的模型隐含地通过共享的循环状态传递信息，使得桥连接不必要。当与具有桥接连接的等效复发性AE相比时，这导致较低的计算和存储成本。更具体地，一对前向和后向函数中的权重的数量等于23（hl−12+hl+ 2hl-1hl），其中hl对应于说明层L的尺寸。使用桥接时，该值将增加到23（hl−12+hl + 4hl−1hl）。这相当于在数量上增加了44%的开销当一个状态的大小是另一个状态的两倍时，参数的值为50%，当它们的尺寸是一样的。此外，编码器和解码器两者必须在每个时间步长处应用。因此，存储器使用加倍，并且计算成本增加2倍之间。88和3。3.3训练折叠RNN我们提出了一种fRNN的训练方法，该方法利用它们在给定时间步长跳过编码器或解码器的能力。将第一g个地面实况帧传递到编码器。然后，解码器被应用p次，产生p个预测。这只占用了一半的内存：编码器或解码器在每一步应用这与Srivastava [22]的方法具有相同的优点，其中在没有进一步的地面真实输入的情况下循环应用解码器，鼓励网络学习视频动态。这也防止网络学习身份模型，即将最后一个输入复制到输出。4实验在本节中，我们首先讨论数据、评价方案和方法。然后，我们提供定量和定性评估。最后，我们简要分析了dGRU层之间的序列表示的分层4.1数据和评价方案考虑三个不同复杂度的数据集：移动MNIST（MM-NIST）[22]、KTH[18]和UCF 101 [21]。MMNIST由长度为20的64× 64灰度序列组成我们通过对数字和轨迹进行随机采样，生成了一百万个训练样本。测试集是固定的，包含10000个序列。KTH由600个15-20秒的视频组成，其中25名受试者在4种不同的设置中执行6个动作视频是灰度的，分辨率为120× 160像素和25 fps。数据集已被分成用于训练的受试者1至16和用于测试的受试者17至25，分别产生383和216个序列。通过从左右边界移除5个像素并使用双线性插值，帧大小减小到64× 80UCF101显示101个动作，例如演奏乐器、举重或运动。它是所考虑的最具挑战性的数据集，具有高的类内变异性。它包含9950个训练序列和3361个测试序列。这些是折叠递归神经网络7Conv 1 Conv 2池1 dGRU 1 dGRU 2池2 dGRU 3 dGRU 4池3 dGRU 5 dGRU 6池4 dGRU 7 dGRU 8Num.单位内核大小跨步激活表1.用于实验的拓扑的参数。解码器反向应用相同的拓扑，使用最近邻插值和转置卷积来恢复池化和卷积层。RGB分辨率为320× 240像素和25 fps。帧大小减小到64× 85，帧速率减半以放大帧差。使用10个输入帧来测试所有方法以生成以下10个帧。我们使用3个常见的指标进行视频预测分析：均方误差（MSE），峰值信噪比（PSNR）和结构相异性（DSSIM）。MSE和PSNR是重建质量的客观度量DSSIM是感知质量的度量。对于DSSIM，我们使用大小为11 × 11且σ = 1的高斯滑动窗口。5.4.2方法所提出的方法使用RMSProp进行训练，学习率为0.0001，批量大小为12，在每个时期采样随机子序列对权重进行正交初始化，偏倚设为0。对于测试，考虑长度为20的所有子序列我们的网络拓扑结构由两个卷积层和8个卷积dGRU层组成，每2层应用一个2× 2最大拓扑详细信息如表1所示。卷积层和最大池化层分别通过使用转置卷积和最近邻插值来反转。我们在L1损失的情况下训练。对于评估，我们包括一个存根基线模型预测最后一个输入帧，和第二个基线（RLadder），以评估使用状态共享的优点RLadder与fRNN模型具有相同的拓扑结构，但使用桥接而不是状态共享。请注意，为了在ConvGRU层上保持相同的状态大小，使用桥接会使内存大小增加一倍，计算成本几乎增加两倍（第3.2节）。这类似于RLN [16]的工作方式，但在解码器中使用常规ConvGRU层我们也与Sri- vastava [22]和Mathieu [12]进行比较前者仅用LSTM处理时间接下来，我们与Villegas[24]进行比较，与我们的建议相反，Villegas使用反馈预测。最后，我们比较Lotter等人。[11]这是基于残差减少。所有这些都适合使用10帧作为输入进行训练，并使用作者定义的拓扑和参数预测接下来的10帧。4.3定量分析图1的第一行2显示所考虑方法的MMNIST数据集的结果。平均评分见表2。fRNN在以下情况下表现最好：3264-128128-256256-512512-2562565 ×55 ×52 ×25 ×55 ×52 ×25 ×55 ×52 ×23 ×33 ×32 ×23 ×33 ×311211211211211tanhtanh-乙状&tanh-乙状&tanh-乙状&tanh-乙状&tanh8M. 奥柳Selva和S.Escalera图二.所考虑的数据集上的定量结果，以自最后一个输入帧以来的时间步长的数量表示。从上到下：MMNIST、KTH和UCF101。从左到右：MSE、PSNR和DSSIM。对于MMNIST，RLadder被预先训练以学习初始标识映射，从而允许其收敛。所有的时间步长和指标，其次是Srivastava等人。[22]第20段。这两种方法是在此数据集上提供有效预测的唯一方法：Mathieu等人。[12]逐渐模糊数字，而其他方法预测黑色帧。这是由第一训练阶段期间的梯度损失引起的在更复杂的数据集上，这些方法首先学习一个恒等函数，然后细化结果。这是可能的，因为在许多序列中，帧的大部分保持不变。在MMNIST的情况下，其中背景是均匀的，模型更容易将输出层的权重设置为零，并设置偏置以匹配背景颜色。这截断了梯度并防止进一步学习。 Srivastava等人[22]使用辅助解码器来重构输入帧，迫使模型学习恒等函数。正如在3.2节末尾所讨论的，这在我们的方法中被隐式处理，给出了一个初始解决方案来改进并防止模型学习黑色图像。为了验证这种效果，我们在 KTH 数据集上预训练了RLadder，然后在MMNIST数据集上对其进行了微调。虽然KTH具有不同的动态，但解决问题的初始步骤仍然是：提供身份功能。如图2（虚线），这导致模型收敛，具有与Srivastava等人相当的精度。[22]三个评价指标。在KTH数据集上，表2显示最佳方法是我们的RLadder基线，其次是fRNN和Villegas等人。[24]，两者都有类似的结果，但Villegas等人。具有略低的MSE和较高的PSNR，而fRNN具有折叠递归神经网络9MMNIST第kUCF101基线RLadderLotter [11][22]第二十二话马修[12]维莱加斯[24]fRNN表2. 10个时间步的平均结果。降低DSSIM。虽然这两种方法都获得了相当的平均结果，但在Villegas等人的情况下，误差随时间增加得更快。（图2中的第二行）。Mathieu在MSE和PSNR方面取得了很好的成绩，但DSSIM却差得多对于UCF101数据集，表2，我们的fRNN方法对于所有3个指标都是最好在图的第三行处 5可以看出，Villegas et al. 在第一帧上以类似于fRNN的结果开始，但与KTH和MMNIST的情况一样，预测降级得更快。两种方法在大多数情况下显示低 Lotter等人在KTH和UCF101的情况下，对于第一预测帧工作良好，但是在随后的预测上误差迅速增加。这是由于预测伪影的放大，使得该方法在没有监督的情况下不能预测多个帧。在Srivastava等人的案例中，问题是关于能力：它使用完全连接的LSTM层，使参数的数量随着状态单元的大小迅速爆炸。这严重限制了KTH和UCF101等复杂数据集的表示能力。总体而言，对于所考虑的方法，fRNN在MMINST和UCF101上表现最好我们通过一个简单的拓扑实现了这些结果：除了所提出的dGRU层之外，我们使用具有L1损失的常规最大池化。没有归一化或正则化机制，专门的激活函数，复杂的拓扑结构或图像变换算子。在MMNIST的情况下，fRNN显示出找到有效初始表示的能力，并且在大多数其他方法失败的情况下收敛到良好的预测。在KTH的情况下，fRNN具有与Villegas等人相当的整体准确性。随着时间的推移更加稳定。它仅被提出的RLadder基线超越，这是一种相当于fRNN的方法，但具有2倍和3倍的内存和计算需求。4.4定性分析我们从三个考虑的数据集的一些样本定性评估我们的方法图图3示出了来自一些MMNIST序列的最后5个输入帧如图所示，数字在预测序列上保持其锐度。此外，图像边缘的反弹被正确预测，并且数字在彼此交叉时不会扭曲或变形这说明MSEPSNRDSSIMMSEPSNRDSSIMMSEPSNRDSSIM0.0698911.7450.207180.0036629.0710.079000.0129422.8590.150430.0425413.8570.13788 0.00139 31.268 0.059450.0091823.5580.133950.0416113.9680.138250.0030928.4240.091700.0155019.8690.213890.0173718.1830.081640.0099521.2200.198600.1486610.0210.425550.0274815.9690.295650.0018029.3410.104100.0092622.7810.162620.0425413.8570.138960.0016530.9460.076570.0094023.4570.141500.00947 21.386 0.043760.0017529.2990.072510.00908 23.872 0.1305510M. 奥柳Selva和S.Escalera图3.第三章。MMNIST上的fRNN预测每个序列的第一行显示最后5个输入和目标帧。黄色框架是模型预测。图4.第一章fRNN预测KTH。每个序列的第一行显示最后5个输入和目标帧。黄色框架是模型预测。网络内部编码每个手指的外观，在共享图像平面中的相同区域之后，便于它们的重建。在KTH数据集上的fRNN预测的定性示例如图所示。4.第一章它展示了三个动作：挥手，走路和拳击。模糊在前三个预测之后停止增加，从而在不引入背景伪影的情况下生成对应动作的合理运动。虽然每种类型的动作的运动模式在其轨迹上具有广泛的可变性，但dGRU对肢体给出了相对尖锐的预测第一个和第三个示例还显示了模型从模糊中恢复的能力在执行动作时，手臂的模糊会略微增加，但在到达最终位置时会再次减少。图图5显示了UCF101数据集上的fRNN预测这些对应于两种不同的体育锻炼和一个女孩弹钢琴。所有预测的共同点是，静态部分不会随着时间的推移而失去清晰度，并且在遮挡后正确重建该网络正确地预测具有低可变性的动作，如行1-2所示，其中重复运动是每折叠递归神经网络11图五、UCF101上的fRNN预测每个序列的第一行显示最后5个输入和目标帧。黄色框架是模型预测。形成，并在最后一排，在那里的女孩恢复一个正确的身体姿势。由于不确定性，模糊被引入到这些动态区域，平均可能的第一行还显示了一个有趣的行为：当女人站起来时，上半身变得模糊，但当女人完成她的动作时，框架再次变得清晰。由于模型不会将错误传播到更深层，也不会将先前的预测用于后续预测，因此模糊的引入并不意味着它将被传播。在该示例中，虽然中间运动可以具有取决于身体的移动速度和倾斜度的多个预测，但是最终身体姿势具有较低的不确定性。在图6中，我们将所提出的方法的预测与RLadder基线和其他现有技术方法进行了比较。对于MMNIST数据集，我们不考虑Villegas等人。和Lotter et al. 因为这些方法不能成功地收敛并且它们预测黑帧序列。从其他方法中，fRNN获得了最佳预测，几乎没有模糊或失真。RLadder基线是第二好的方法。它不会引入模糊，但在手指交叉后会严重变形 Srivastava等人和Mathieu等人都随着时间积累模糊，但前者的程度较小，后者使数字在五帧后无法识别。对于KTH，Villegas等人获得了出色的定性结果。它预测了似乎合理的动态，并保持了个人和背景的清晰度fRNN和RLadder两者都紧随其后，预测合理的动态，但在保持个体的锐度方面不那么好。在UCF101上，我们的模型获得了最好的预测，与其他方法相比几乎没有模糊或失真。第二好的是Villegas et al. 成功地当查看背景时，fRNN提出一个合理的初始估计，并随着女性的移动逐步完成。另一方面，Villegas等人修改了已经生成的区域，因为更多的背景被发现，产生了一个不切实际的序列。Srivastava等人和Lotter等人在KTH和UCF101上均失败。 Srivastava等人严重扭曲了画面如4.3节所述，这是由于使用了全连接12M. 奥柳Selva和S.Escalera输入1输入5输入10 GT 1 GT 5 GT 10Pred. 1Pred. 5Pred. 10Pred. 1Pred. 5Pred. 10Pred. 1Pred. 5Pred. 10fRNNRLadderSrivastava等人Mathieu等人Villegas等人Lotter等人图六、从最后一个地面实况帧开始的1、5和10个时间步长处的预测MMNIST上的RLadder预测来自在KTH上预训练的模型。递归层，其约束状态大小并防止模型对复杂场景的相关信息在Lotter等人的案件中。它对第一帧作出了良好的预测，但是迅速地积累了伪像。4.5表征分层分析在这里，我们分析dGRU层之间的序列表示的分层。由于dGRU单元允许状态之间的双向映射，因此可以移除训练模型的最深层，以检查预测如何受到影响，从而提供对每个层捕获的动态的洞察据我们所知，这是第一个允许直接观察每一层上编码的行为的拓扑结构。在图7中，相同的MMNIST序列被预测多次，每次重新移动一层分析的模型由2个卷积层和8个dGRU层组成首先，移除最后2个dGRU层对预测没有显著影响这表明，对于此数据集，网络具有折叠递归神经网络136个dGRU层4个dGRU层2个dGRU层0个dGRU层1个dGRU层3个dGRU层5个dGRU层8个dGRU层见图7。移动MNIST预测，去除fRNN层。移除所有dGRU层（最后一行）留下两个卷积层和它们的转置卷积，从而提供恒等映射。容量高于所需。进一步移除层会导致行为从更复杂到更简单的逐渐丧失。这意味着给定抽象级别的信息不会被编码到更高级别的层中。当重新移动第三深的dGRU层时，数字在边缘处停止跳动，退出图像。这表示该层编码关于弹跳动力学的信息。当移除下一个时，手指在边缘处停止一致的行为：部分手指反弹，而其他手指保持先前的轨迹。虽然这也与反弹动力学有关，但该层似乎负责14M. 奥柳Selva和S.Escalera将数字识别为遵循相同运动模式的单个单元。当被移除时，手指的不同部分被允许作为单独的元件移动。最后，只有3-2个dGRU层，数字以各种方式失真。在只剩下两层的情况下，一般的线性动态仍然被模型捕获。通过留下单个dGRU层，线性动力学丢失。根据这些结果，前两个dGRU层捕获像素级运动动态。接下来的两个聚合成单轨迹组件的动态，防止其失真，并检测这些组件与图像边界的碰撞第五层将单个运动组件聚合到数字中，迫使它们表现相同。这具有防止反弹的效果，可能是由于仅一个组件到达图像的边缘。第六dGRU层为手指提供相干的弹跳图案。5结论我们已经提出了折叠递归神经网络，一个新的经常性的archi- tecture视频预测与较低的计算和内存成本相比，相当于经常性的AE模型。这是通过使用所提出的双映射GRU来实现的，其在编码器和解码器之间水平地传递信息这消除了在任何给定步骤处使用整个AE的需要：仅编码器或解码器分别执行输入编码和预测两者。它还通过在训练期间自然地提供噪声身份函数来促进收敛。我们在三个视频数据集上评估了我们的方法，在MMNIST和UCF101上优于最先进的技术，并在KTH上获得了具有竞争力的结果，其内存使用和计算成本比最佳评分方法少2倍和3倍。定性地，该模型可以通过防止模糊从低水平动态传播到高水平动态来限制模糊并从模糊中恢复我们还展示了分层的表示，拓扑优化，并通过层删除模型的可解释性。层已被证明可以连续引入更复杂的行为：删除一个层会消除其行为，但不会影响较低级别的行为。确认Marc Oliu的工作得到了FI-DGR 2016奖学金的支持，该奖学金由加泰罗尼亚自治区知识和经济部的大学和研究秘书此外，Javier Selva的工作得到了巴塞罗那大学授予的APIF 2018奖学金的支持。这项工作得到了西班牙项目TIN 2016 -74946-P（MINECO/FEDER，UE）和CERCA计划/加泰罗尼亚政府的部分支持我们衷心感谢NVIDIA公司的支持，并捐赠了用于本研究的GPU。折叠递归神经网络15引用1. Babaeizadeh，M.，Finn，C.，Erhan，D.，Campbell，R.H.，Levine，S.：随机变化视频预测。第六届学习表征国际会议（2018）2. Cricri，F.，Honkala，M.，Ni，X.，Aksu，E.，Gabbouj，M.：视频阶梯网络。arXiv预印本arXiv：1612.01756（2016）3. Denton，E.L.，Birodkar，v.：从视频中分离表示的无监督学习In：Guyon ， I. ， Luxburg ，U.V. ， Bengio ， S. ， Wallach ， H. ，费格斯河Vishwanathan，S.，加内特河（编辑）神经信息处理系统的进展30，pp.4417Currra nAssociates，Inc.（2017年）4. Ebert，F.，Finn，C.，Lee，A.X.，Levine，S.：具有时间跳跃连接的自我监督视觉规划。arXiv预印本arXiv：1710.05268（2017）5. Finn，C.，古德费洛岛Levine，S.：通过视频预测进行物理交互的无监督学习。在：Lee，D.，Sugiyama，M.，Luxburg，U.居永岛加尔涅特河（eds. ）在N个单元中的驱动程序配置系统29。pp. 六十四比七十二柯兰联营公司（2016年）6. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。 In ：Ghahramani，Z.，Welling，M.，科尔特斯角Lawrence，N.Weinberger，K.（编辑）Advances in NeuralI NFORMATIO NPROCESSI NSYSTEMS27，pp.2672Currra nAssociates，Inc.（2014年）7. Jia，X.，De Brabandere，B.，Tuytelaars，T.，古尔，L.V.：动态过滤网络。在：Lee，D.D.，Sugiyama，M.，Luxburg，U.V.，居永岛加内特河（编辑）在新形式生产系统中的进展29.pp. 667Currra nAssociates，Inc.（2016年）8. Kalchbrenner，N. van den Oord，A.，西蒙尼扬，K.，达尼赫尔卡岛Vinyals，O.，格雷夫斯，A.，Kavukcuoglu，K.：视频像素网络。In：Preup，D.，Teh，Y.W.（编辑）第34届机器学习国际会议论文集Pro-C-Cee Di ngofMachi neLearningi ng Reserc h ，vol.第70页。 1771电影PMLR（2017）9. 梁湘，李湖戴，W. Xing，E.P.：用于未来流嵌入式视频预测的双运动gan。在：计算机视觉国际会议的会议记录中。pp. 1762- 1770年。IEEE，CurraAssociates，Inc. （2017年）10. 刘志，是的R唐，X.，Liu，Y.，Agarwala，A.：使用深体素流的视频帧合成。国际计算机视觉会议论文集。IEEE，Curran Associates，Inc.（2017年）。https://doi.org/10.1109/ICCV.2017.47811. Lotter，W.，Kreiman，G. Cox，D.：用于视频预测和无监督学习的深度预测编码网络。在：学习代表国际会议（2016）12. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。国际学习表征会议（ International Conference on LearningRepresentations，ICLR）（2016）13. Michalski，V.，Memisevic，R.，Konda，K.：建模深度时间依赖-有循环语法细胞的细胞。In：Ghahramani，Z.，Welling，M.，科尔特斯角劳伦斯，北达科他州， Weinberger ，K.Q. （编辑）神经信息处理的进展 -ingSystems27，pp. 1925- 1933年。 CurrranAssociates，Inc. （2014年）14. 哦J郭，X.，李，H.，Lewis，R.L.，Singh，S.：在Atari游戏中使用深度网络的动作条件视频预测。在：Cortes，C.，Lawrence，N. Lee，D.，Sugiyama，M.，加内特河（编辑）神经信息处理系统的进展28.pp.2845Currra nAssociates，Inc.（2015年）16M. 奥柳Selva和S.Escalera15. Patraucean，V.，Handa，A.，Cipolla，R.：具有可微分存储器的时空视频自动编码器。在：学习表征研讨会国际会议（2015）16. 我的天-我的天， II in，A.，你好T Rasmus，A.，伯尼，R.， Valpola、H. ：Re-电流梯形网络。In：Guyon，I.，Luxburg，U.V.，Bengio，S.，Wallach，H.，费格斯河Vishwanathan，S.，加内特河（编辑）神经信息处理系统进展30. pp. 6009-6019 CurrranAssociates，Inc. （2017年）17. Ranzato，M.，Szlam，A.，Bruna，J.，Mathieu，M.，科洛伯特河乔普拉，S.：视频（语言）建模：自然视频的生成模型的基线。arXiv预印本arXiv：1412.6604（2014）18. 舒尔特角拉普捷夫岛卡普特湾：认识人类行为：本地SVM方法。在：Kittler，J. Petrou，M.，Nixon，M.S.（编辑）第17届国际专利审查会议论文集 vol. 第3页。 32比36 02The Dog（2004）19. Sedaghat，N. Zolfaghari，M.，Brox，T.：光流和下一帧预测的混合学习，以提高光流在野外。arXiv预印本arXiv：1612.03777（2016）20. SHI，X.，陈志，王，H.，杨D.Y.黄伟杰Woo，W.c.：卷积lstm网络：降水临近预报的机器学习方法。在：Cortes，C.，Lawrence，N.Lee，D.，Sugiyama，M.，加内特河（编辑）AdvancesinNe uralI nformatio nProcessingSystems28，pp.802CurranAsociates，Inc.（2015年）21. Soomro，K.，Zamir，A.R.，Shah，M.：Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402（2012）22. Srivastava，N.，Mansimov，E.，Salakhudinov，R.：使用lstms的视频表示的无监督学习。在：Bach，F.，Blei，D.（编辑）第32届机器学习国际会议论文集。Proceedings of Machine Learning Resear ch，vol. 第37页。 843-85203TheDog（2015）23. Van Amersfoort，J.，Kannan，A.，Ranzato，M.，Szlam，A.，Tran，D.，Chintala，S.：视频序列的基于变换的模型。arXiv预印本arXiv：1701.08435（2017）24. 维勒加斯河杨杰，Hong，S.，林，X.，Lee，H.：分解用于自然视频序列预测的运动和第五届学习表征国际会议（2017）25. Vukotic，V.， Pintea，S. L.， RaymondC. Gravier，G.， VanGemert，J. 利用卷积编码器-解码器神经网络的时间相关未来视频帧预测。荷兰计算机视觉会议（2017）26. Walker，J.，Marino，K.，Gupta，A.，He

下载后可阅读完整内容，剩余1页未读，立即下载