基于动态原子的视频预测网络DYAN

16 浏览量更新于2023-10-13 收藏 1.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

DYAN：一种基于动态原子的视频预测网络刘文谦[0000 - 0003 - 4274 - 8538]，阿布舍克·夏尔马[0000 - 0001 - 6128 - 5124]，奥克塔维亚·坎普斯[0000−0003−1945−9172]和马里奥·斯奈尔[0000−0003−4439−3988]东北大学电气与计算机工程学院，波士顿，MA 02115liu.wenqi，sharma.husky.neu.edu，camps，msznaier@northeastern.eduhttp://robustsystems.coe.neu.edu抽象。预测未来的能力在做出实时关键决策时至关重要，为理解动态自然场景提供了有价值的信息，并且可以帮助无监督视频表示学习。现有技术的视频预测基于复杂的架构，其需要学习大量参数，可能难以训练，运行缓慢，并且可能产生模糊的预测。在本文中，我们介绍DYAN，一种新的网络，具有很少的参数，易于训练，它产生准确，高质量的帧预测，比以前的方法更快。DYAN的编码器和解码器的设计遵循了系统辨识理论的概念使用几个标准的视频数据集进行的大量实验表明，DYAN是优越的生成帧，它推广以及跨域。关键词：视频自动编码·稀疏编码·视频预测1介绍最近数据收集能力的指数增长和监督深度学习方法的使用有助于在计算机视觉方面取得巨大进展。然而，在有限或没有监督的情况下，学习用于分析和理解动态场景的良好表示仍然是一项挑战性的任务。这在很大程度上是由于在自然场景的视频序列中观察到的外观变化和运动的复杂性。然而，这些变化和运动提供了强大的线索来理解动态场景，如图1（a）所示，它们可以用来预测接下来会发生什么。此外，预测未来的能力对于在自动驾驶等关键实时系统中做出决策和采取行动至关重要。事实上，最近的视频理解方法[17，22，31]表明能够准确地生成/预测该工作由 NSFgrantsIIS-1318145 、 ECCS-1404163 和 CMMI-1638234; A F O S R grant t F A 9550-15-1-0392 和 A1 e rt DH SC e n t e r of Excellence （奖项编号 2013-ST-061-ED 0001 ）进行了发布。2W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔(a)（b）第（1）款Fig. 1. (a)动态和运动为理解场景和预测未来提供了有力的线索。（b）DYAN的一个这些特征可以被传递到其基于动态原子的解码器以重构给定帧并预测下一帧，或者它们可以用于其他任务，例如动作分类。视频序列中的未来帧可以在有限的监督或没有监督的情况下帮助学习有用的特征。预测未来帧以预测接下来会发生什么需要良好的生成模型，这些模型可以基于可用的过去数据进行预测。递归神经网络（RNN），特别是长短期记忆（LSTM）已被广泛用于处理序列数据并进行此类预测。不幸的是，由于梯度爆炸和消失问题，RNN很难训练。因此，他们可以很容易地学习短期而不是长期的依赖关系。另一方面，LSTM和相关的门控递归单元（GRU）解决了消失梯度问题并且更容易使用。然而，它们的设计是特别的，有许多组件的目的不容易解释[13]。最近的方法[22，37，35，20]提倡使用生成对抗网络（GAN）学习[7]。直观地说，这是由推理驱动的，即生成模型越好，预测就越好，反之亦然：通过学习如何区分预测和真实数据，网络将学习更好的模型。然而，据报道，GAN也很难训练，因为训练需要找到游戏的纳什均衡，这可能很难使用梯度下降技术来获得在本文中，我们提出了一种新的基于动态原子的网络DYAN，如图1（b）所DYAN在精神上类似于LSTM，因为它也捕获短期和长期依赖性。然而，DYAN的设计使用的概念，从动态系统识别理论，这有助于大大减少其大小，并提供其参数的简单解释通过采用基于原子的系统识别的思想，DYAN学习原子的结构化字典，以利用视频数据序列中基于动态的仿射不变量。使用该字典，网络能够从数据的动态中捕获可操作的信息，并将其映射到一组非常稀疏的特征中，然后可以在视频处理任务中使用，例如帧预测、活动识别、语义分割等。我们展示了DYAN的力量输入数据，时间范围T不DYAN编码器，N原子NN不HHW不WHW稀疏特征NT+1T+1HHWT+1W输出数据，时间范围T+1DYAN解码器，T+1水平活动Dyan3通过使用它来自动编码以生成视频序列中的未来帧。我们使用几个标准的视频数据集的广泛的实验表明，DYAN可以预测未来的帧更准确，更有效地比目前最先进的方法。综上所述，本文的主要贡献在于：– 一种新的自动编码器网络，捕获长期和短期的时间信息，并明确纳入基于动态的仿射不变量;– 所提出的网络是浅的，具有非常少的参数。它易于训练，并且不需要占用大量磁盘空间来保存学习的模型。– 所提出的网络易于解释，并且很容易将其学习的内容可视化，因为网络的参数具有明确的物理意义。– 所提出的网络可以准确和有效地预测未来的帧，而不会引入模糊。– 该模型是可微的，因此如果需要，可以针对另一任务进行微调例如，所提出的网络的前端（编码器）可以容易地被合并在针对诸如活动识别、语义视频分割等视频任务而设计的其他网络的前端。本文的其余部分组织如下。第二节讨论了相关的前期工作。第3节简要总结了DYAN设计中使用的动态系统理论的概念和程序第4节介绍DYAN的设计、组成部分以及训练方法第5节给出了DYAN的实际实现的更多细节，随后是第6节，在第6最后，第7节提供了结论性意见和DYAN未来的应用方向。2相关工作存在大量文献致力于从图像中提取光流的问题[10]，包括最近的深度学习方法[5，12]。这些方法中的大多数集中于拉格朗日光流，其中流场表示跨帧的对应像素或特征之间的位移。相比之下，DYAN还可以与欧拉光流一起工作，其中通过各个像素处的变化来捕获运动，而不需要找到对应性或跟踪特征。欧拉流已被证明对运动增强[33]和视频帧插值[23]等用于动作检测和识别的最新算法也利用时间信息。大多数用于动作识别的深度学习方法都使用时空数据，从帧级别的检测开始[29，27]，并通过使用非常短期的时间特征（如光流）将它们跨时间链接起来。然而，使用这样的短视野会错过动作的较长期动力学，并且可能对性能产生负面这一问题往往通过后续的一些昂贵的分层汇总随着时间的推移来解决。最近，一些方法检测tubelets [15，11]开始与较长的4W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔时间支持比光流。然而，它们仍然依赖于相对少量的帧，这是先验固定的，而不管动作的复杂性如何。最后，大多数这些方法不提供明确的编码和解码所涉及的动态，如果可用的推理和生成问题可能是有用与大量关于动作识别和运动检测的文献相比，帧预测的方法相对较少循环神经网络（RNN），特别是长短期记忆（LSTM）已经被用于预测帧。Ranzato等人[28]提出了一种RNN来基于离散的补丁集群集预测帧，其中使用平均64个重叠瓦片预测来避免块效应。在[31]中，Srivastava等人使用了具有2损失函数的LSTM架构。这两种方法由于使用平均而产生模糊的预测其他基于LSTM的方法包括Luo等人的工作[21]使用具有光流的编码/解码架构和Kalchbrenner等人的工作[14]其估计像素的概率分布。在[22]中，Mathieu et al.使用生成对抗网络（GAN）[7]学习以及多尺度方法和基于图像梯度的新损失来提高预测中的图像清晰度。Zhou和Berg [37]使用了类似的方法来预测对象的未来状态，而Xue等人则使用了类似的方法。[35]使用变分自动编码器从单个帧预测未来帧。最近，Luc et al.[20]提出了一种自回归卷积网络来预测未来帧中的语义分割，绕过像素预测。Liu等人[18]介绍了一种通过估计体素流来合成帧的网络。然而，假设光流在多个帧上是恒定的。最后，Liang etal.[17]提出了一种双运动GAN架构，它结合了帧和流预测来生成未来的帧。所有这些方法都涉及大型网络，可能很难训练。最后，DYAN的编码器受到Sun等人引入的稀疏层的启发。在[32]中进行图像分类。然而，DYAN3背景3.1基于动力学的不变量计算机视觉中几何不变量的力量已经被认识了很长一段时间[25]。另一方面，基于动力学的仿射不变量的使用要少得多。这些基于动力学的不变量最初被提出用于跟踪[1]，活动识别[16]和图像的时间排序[3]，利用线性时不变（LTI）动力系统的特性。如下面简要概述的，这些不变量背后的主要思想是，如果可用的顺序数据（即，被跟踪的目标的轨迹或作为时间的函数的像素值）可以被建模为一些未知的Dyan5我.Kn因此，如果LTI系统是LTI系统，则该底层系统具有对仿射变换不变的若干属性/性质（即，视点或照明改变）。在本文中，如第4节中详细描述的，我们建议使用这种仿射不变性来减少所提出的网络中的参数数量，通过利用以下事实，即在不同条件下捕获的一个运动的多个观察结果可以使用这些不变量的一个单一集合来描述。设S是LTI系统，由自回归模型或状态空间模型描述yk= Σni=1aiyk−i%AutoregressiveRepresentation（1）xk+1= Axk;yk= Cxk%状态空间表示（2）1. . . 0yk−n。. .. .Σ Σ其中x k=。，A=.. 0;C=0的情况。. . 0 11000. . . 1ykanan−1。 . . 的1其中k是时间表上的观测值，并且是模型的（未知的）或描述（系统的存储器）。现在考虑给定的初始条件xo并将其重新分配到指定的等式x上。定义了一个等式的Z-变换形式如X（z）=∞k=0 xkz−k，其中rez是一个简单的x变量ez=rejφ。TakingZ在（2）的两侧的变换产生：z（X（z）−xo）= AX（z）⇒X（z）=z（zI−A）−1xo，Y（z）=z C（zI−A）−1xo（3）其中G（z）=zC（zI−A）−1是从初始条件到产出使用矩阵求逆的显式表达式并假设非重复极点，导致zC（zI-A）x . ΣnzcΣnY（z）=adjo=det（zI −A）i=1我z−pi⇒yk=i=1cipk，k = 0，1，. . .（四）其中分母的根pi是A的本征值（例如，系统的极点），并且系数Ci取决于初始条件。现在考虑2′ .一个Σ仿射函数是在Π上形成一个Σti。在（1）中，我们有 yk=（yk）=Π（i=1 aiyk−i）=ni=1 aiΠ（yk−i）。因此，或定义、改进的性能ai（因此极点pi）是仿射不变的，因为序列y′解释与序列yk相同的自回归模型。3.2基于原子的接下来，我们简要总结了一种基于原子的算法[36]，用于从给定的输出序列中识别LTI系统。1为了简化符号，我们在这里考虑yk标量，但不变量也适用于yk∈Rd。2（使用齐次坐标）6W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔22ppN我....首先，考虑一个有无限多个原子的集合，其中每个原子是一个具有单个实极点p（或两个共轭复极点p和p*）的LTI一阶（或二阶）系统的脉冲响应。它们的传递函数可以写为：公司简介W-2000Gp（z）=z−p和Gp（z）=z−p+z−p*当 w∈C 时，在 gp=w[1 ， p ， p2 ， p3 ， ...]′ 和 dgp=w[1 ， p ， p2 ，p3，. . . ]′+w*[1，p*，p*2，p*3，. . . ]′，分别用于d或d e r系统。接下来，从（3），每个适当的传递函数可以被近似到任意精度，作为上述传递函数3的线性组合：ΣG（z）=ciGpi（z）我因此，低阶动态模型可以从输出数据y =[y1，y2，y3，y4，. . . ]′通过解决以下部分的问题：Σminc={ci} 什科佐受：y−cigp2≤η2其中。表示基数，并且约束对数据施加保真度。最后，请注意，解决上述优化并不是微不足道的，因为最小化基数是一个NP难题，并且要考虑的极点数量是无限的。作者在[36]中提出通过以下方法解决这些问题：1）使用基数的1范数松弛，2）使用截断到可用数据长度的原子的脉冲响应，以及3）使用单位圆盘中具有均匀采样极点的有限原子集然后，使用这些想法可以解决：minC12y1：T−D（T）case2+λcase1（5）其中y1：T=[y1，y2，. . . ，yT]′，D（T）是一个与T_r_w有关的离散函数和N列：001 2. . . 均p0p1p2. . . pN2 2 2D（T）= p1p2. . . pN（六）pT −1 pT −1。. . pT −11 2N其中每一列对应于极点pi，i = 1，. . . 、N在C中的单位盘内部或附近。注意，字典完全由其极点的幅度和相位参数化。4DYAN：基于原子的动态网络在本节中，我们将详细描述DYAN的体系结构，DYAN是一个基于原子的动态网络。图1（b）示出了其框图，描绘了其两个3如果使用复极点pi，则也使用其共轭p*Dyan7图二. DYAN识别每个像素的动态，将它们表示为来自字典（在训练期间学习）的基于动态的原子的小子集的线性组合。所选择的原子和相应的系数表示使用稀疏特征向量，发现通过稀疏化步骤。解码器使用这些特征来重建输入数据，并通过使用相同的字典来预测下一帧，但具有扩展的时间范围。更多详细信息请参见文本主要部件：一个基于动态的编码器和基于动态的解码器。图2示出了这两个模块如何一起工作以捕获每个像素处的动态、重构输入数据并预测未来帧。DYAN的目标是通过将它们映射到在训练期间学习的潜在空间来捕获输入的动态，并提供从该特征空间返回到输入域的逆映射隐含的假设是，输入数据的动态应该在该潜在空间中具有稀疏表示，并且该表示应该足以重构输入并预测未来帧。根据第3节中提出的动态系统识别的思想然而，代替如[36]中所提出的在单位盘中使用一组随机极点，通过对一个极点函数进行最小化来对“g 〇〇 d”极点进行适当的确定，这惩罚了重建和预测性差的DYAN架构的主要优点是：– 压实度：字典中的每个极点可以被多个像素使用，并且仿射不变性允许重复使用相同的极点，即使数据是在与训练中使用的条件不同的条件下捕获的。因此，具有丰富的字典所需的极点的总数相对较小，所述丰富的字典能够对宽范围的输入的动态进行建模。我们的实验表明，字典的参数总数，其中DYAN编解码器1.510.50-一-10102030405060701[a b 0 0 0稀疏表示21.510-0.5BC1[0 c 0 0 0稀疏表示10.80.60.40.2010102030405060D学极词典输出级预测地面实况输入级？？…8W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔L2我我ρ，ψ是其极点的幅度和相位，可以低于200，并且网络仍然产生高质量的帧预测。– 对动力学复杂性的适应性：网络通过自动决定需要使用多少原子来解释它们来适应输入动力学的复杂性。动力学越复杂，需要的模型阶数越高，即将选择的原子数目越高，并且解码器将使用数据的长期存储器来重构和预测帧。– 可解释：类似于学习卷积滤波器集的CNN，可以很容易地可视化，DYAN学习非常简单的动态系统的基础，通过查看它们的极点和脉冲响应也很容易可视化。– 性能表现：由于像素彼此独立地并行处理，因此预测帧中的模糊和计算时间都减少了。4.1戴扬编码器阶段将一组T个连续的H×W帧（或特征）作为输入，这些帧被展平为HW，T×1个向量，如图1（b）所示。设其中一个向量为yl。然后，编码器的输出是集合HM稀疏化优化问题的最小值c* = argminC12yl−D（T）c2+ λc1l = 1，. . . ，HW（7）其中D（T）是具有学习原子的字典，其由所有像素共享，并且λ是正则化参数。因此，使用T×N字典，编码器级的输出是一组稀疏的HW N×1向量，其可以被重塑为H×W×N特征。为了避免处理复杂的极点pi，我们使用字典来代替D（ T ），其中列对应于在第三象限和第四象限 5 中的 pi=ρiesini（ 0≤πi≤π/2 ）、共轭和它们的镜像的增加的 p ow 的实部和虚部： ρkcos （ ksini）、ρksin（k sini）、（-ρi）kcos（k sini）和（-ρi）ksin（ksini），其中k = 0，. . . ，T − 1。此外，我们包括一个固定的原子在pi= 1模型常数输入。110. .011ρ1cos 11ρ1sin 11。. .−ρNsin ψN2 2 2D（T）= 1ρ1 cos 2 ψ1ρ1 sin 2 ψ1。. .（−ρN）sin 2 <$N <$ρ，ψ.....1ρT−1cos（T − 1）ψ1ρT−1sin（T − 1）ψ1。. . （−ρN）T−1sin（T − 1）ψN1 1（八）4另一方面，如果需要对交叉像素相关性进行建模，则可以很容易地修改网络，以在编码器中使用组Lasso优化来联合处理局部邻域。5但消除重复列。Dyan9不请注意，虽然等式（5）为每个特征y找到一个c*（和一组极点），但并行处理所有特征并节省大量计算时间是微不足道的此外，可以容易地修改（5）以通过使用组Lasso公式来迫使相邻特征或在相同位置但来自不同通道的特征选择相同的算法1 FISTA要求：字典D∈Rn×m，输入信号y∈Rn，λ，L为DTD，A=I−1（DTD），b=1DTy，g=1。初始化迭代器t=0，ct=0∈Rm，L L Lγ t=0 ∈Rm，s0= 1.1：当停止标准不满足时，2：γ=Dct+b3：如果γ> g：ct+1←γ−g4：elseγ−g：√ct+1←γ+g5：st+1←（1 +（1 + 4s2））/26：ct←ct+1（（s0−1）/st+1+1））−ct（（s0−1）/st+1）7：t←t+18：结束时9：返回稀疏代码ct原则上，存在可用于解决问题（7）的若干可用稀疏恢复算法不幸的是，这里需要的字典结构不允许其Gram内核的矩阵分解，使得LISTA算法在这种情况下是一个糟糕的选择[24]。因此，我们选择使用FISTA，如算法1所示，因为该算法的非常有效的GPU实现是可用的。4.2戴扬解码器级将编码器的输出，即一组稀疏HW N× 1向量，并将它们与编码器字典相乘，再扩展一行：Σ 1 ρTcos（Tψ）ρTsin（Tψ）。. . （−ρ）Tsin（TψΣ）（9）1111N N以重构T个输入帧并预测T+ 1帧。因此，解码器的输出是一组HW（T+ 1）×1向量，可以将其整形为（T+ 1），H×W帧。4.3DYAN字典的参数使用最陡梯度下降（SGD）和2损失函数来学习。编码器、解码器层的反向传播规则可以通过取经验损失函数关于第一象限极点的幅度和相位10W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔ΛΛN和正则化参数。在这里，为了简单起见，我们给出以下推导：D（T），但是D（T）的一个可以以类似的方式导出。pρ，ψ设c*是（5）中一个最小化问题的解，其中我们删除下标l和上标（T）以简化符号，并定义F=1y−Dc2+λΣc*sign（c*）22iii=1取关于c* 的次梯度：Fc= 0 =−DT（y−D c*）+λv = 0Σ其中v =v. . .vΣT，v=sign（c）ifc0，v=g，其中−1≤g≤1，1N i ii i i否则，请执行以下操作。那么ΣΣ和c* =（DTDΛ）−1* 本文件迟交。ΣDTy−λ vT TΣc.T−1DΛyDΛDΛ*.D ij.Λ=（D~D~）−DijCDij其中下标。|Λ denotes the active set of the sparse code c, DΛis com-是D的有效列的有效元素的向量，并且使用字典的结构，我们有cccDTycΛ=（i−1）pi−2Λ;Λ =（DT DΛ）−1 Λ ;Λ= −（DTDΛ）−1符号（c*）pki=1k∂DikyjΛyj图三.使用KITTI数据集训练的字典的时间演化。图3显示了一组160个均匀分布的极点在围绕单位圆的环内移动，同时使用来自KITTI的Dyan11视频数据集[6]，使用上述反向传播和2损失函数。如图所示，在仅1个时期之后，极点已经显著移动，并且在30个时期之后，极点移动得越来越慢。5实现细节我们使用Pytorch版本-0.3实现了6DYAN使用原始像素作为输入训练的DYAN产生输入帧的几乎完美的重建然而，由于像素可见性的变化，预测帧可能在边缘处表现出小的滞后。这个问题可以通过使用光流作为输入来训练DYAN来容易地解决因此，给定具有F个输入帧的视频，我们使用从粗到细的光流[26]来获得T=F- 1个光流帧。然后，我们使用这些光流帧来用DYAN预测下一光流帧，以将帧F扭曲成预测帧F+ 1。字典初始化为40个极点，均匀分布在0的网格上。05× 0。05在第一象限内的一个环周围的单位圆定义为0。85≤ ρ ≤ 1。15，它们的3个镜像在其他象限中，以及在p= 1处的固定极点。因此，所得到的编码器和解码器字典分别具有N= 161列7和T和T+1行编码字典中的每一列被归一化为具有范数1。FISTA步骤的最大迭代次数设置为100。6实验在本节中，我们描述了一组使用DYAN预测下一帧的实验，并将其性能与最先进的视频预测算法进行比较。实验在广泛使用的公共数据集上运行，并说明了我们的网络的生成和泛化能力。6.1车载摄像头视频数据集我们首先在车载摄像头拍摄的街景视频上评估我们的模型根据[17]中的实验设置，我们在KITTI数据集[6]上训练了我们的模型，包括来自城市，住宅和道路类别的57个重新编码会话（大约41k帧）。如[19]所述，对帧进行中心裁剪并调整大小为128×160。对于这些实验，我们用10个输入帧（F = 10，T = 9）和λ = 0训练我们的模型。01来预测帧11。然后，我们直接在加州理工学院行人数据集[4]上测试了我们的模型，测试了由66个视频序列组成的分区（4组视频）。在测试期间，每个序列被分成10帧序列，帧也被中心裁剪并调整大小为128× 160。[17]第十七话6Code将在Github上提供。7注意字典没有重复的列，例如共轭极点共享对应于它们的实部的列，因此列的数量等于极点的数量。12W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔见图4。我们的模型在KITTI数据集上训练并在加州理工学院数据集上测试的定性结果，没有微调。该图显示了加州理工学院测试集S10，序列V010的示例，顶行为地面实况，下方为预测帧如图所示，我们的模型产生清晰的图像，并完全捕捉到车辆和相机的运动。使用MSE[19]和SSIM[34]分数测量这些实验的预测质量，其中较低的MSE和较高的SSIM表示更好的预测结果。加州理工学院数据集的定性结果如图4所示，从中可以看出，我们的模型准确地预测了未来的锐利帧。还要注意的是，即使在这个序列中有汽车朝着相反的方向移动或彼此遮挡，我们的模型也可以很好地预测所有的运动。我们将DYAN为了进行公平的比较，我们在计算MSE分数之前将图像值在0和1之间归一化如表1所示，我们的模型优于所有其他算法，即使没有对新数据集进行微调。这一结果显示了DYAN的优越的预测能力，以及其可移植性。对于这些实验，在2个NVIDIA TITAN XP GPU上训练网络，每个光流通道使用一个GPU。该模型训练了200个epochs，仅需要3KB将其存储在磁盘上。训练只需要10秒/epoch，并且在给定10个输入帧的序列的情况下，预测下一帧平均需要230 ms（包括扭曲）。相比较而言，[17]需要300ms来预测帧。表1.在KITTI数据集上训练后，在Caltech数据集上进行下一帧预测测试的MSE和SSIM分数加州理工最新资讯（F=10）[22]第二十二话（F = 10）PredNet [19]（F = 10）[17]第十七话（F = 10）我们（F =10）MSE0.007950.003260.003130.002410.00087SSIM0.7620.8810.8840.8990.952Dyan13输入帧输入帧地面实况预测地面实况预测输入帧输入帧地面实况预测地面实况预测图五. UCF-101下一帧预测测试的定性结果。对于每个序列，第一行显示了4个输入帧，而地面实况和我们的预测显示在第二行。我们还放大了每个帧内的主要移动部分，以显示我们的预测与地面实况相比有多相似。6.2人体动作视频数据集我们还在UCF-101数据集的通用视频上测试了DYAN [30]。该数据集包含101个不同动作类别下的13，320个视频，平均长度为6.2秒。输入帧为240× 320。遵循最先进的算法[18]和[22]，我们使用第一次分割并使用F= 4帧作为输入进行训练以预测第5帧。在测试时，我们采用[22]提供的测试集和[18]提供的评估脚本和光学掩模，仅在每帧内的移动对象中进行掩模，大小为256× 256。测试集中总共有378个视频序列：从UCF-101测试列表中提取每第10个视频序列PSNR[22]和SSIM[34]评分的定量结果（评分越高，预测越好）见表2，定性结果见图5。这些实验表明，DYAN预测实现了优越的PSNR和SSIM分数，通过识别的光流的动态，而不是假设它是恒定的DVF。最后，我们还进行了一个多步预测实验，其中我们应用F= 4模型来预测接下来的三个未来帧，其中每个预测都用作新的可用输入帧。图6示出了该实验的结果，与BeyondMSE [22]和DVF [18]的分数进行比较，其中可以看出DYAN预测的PSNR分数对于这些实验，DYAN在2个NVIDIA GeForce GTX GPU上训练，每个光流通道使用一个GPU。训练大约需要65分钟/epoch，预测一帧需要390 ms（包括200 ms）。14W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔35302520步骤1步骤2步骤3图六、我们的模型在UCF-101数据集上训练的定性结果，F= 4。其他分数是通过运行各自作者提供的代码获得的所有分数都是使用[18]中的掩码计算的。翘曲）。对于F=4，训练在7个时期收敛。相比之下，DVF需要几天的时间来训练。DYAN表2.UCF-101数据集上下一帧预测的PSNR和SSIM分数[22，18]的结果是通过运行各自作者提供的代码获得的UCF-101 最新资讯（F =4）[22]第二十二话（F =4）OpticalFlow [22]（F = 4）DVF [18]（F =4）我们（F =4）PSNR28.630.1131.632.8634.26SSIM0.890.880.930.930.967结论我们介绍了一种新的动态原子为基础的网络，DYAN，设计使用动态系统识别理论的概念，捕捉视频序列中基于动态的不变量，并预测未来的帧。与以前用于类似任务的架构相比，DYAN具有几个优点：它结构紧凑，易于训练、可视化和解释，训练速度快，快速生成高质量预测，并且在各个领域都有很好的泛化能力。最后，DYAN预测的高质量超越MSEDVF我们峰值信噪Dyan15引用1. Ayazoglu，M.，李，B.，Dicle角Sznaier，M.，营地，O.I.：基于动态子空间的多相机协同跟踪。 In ： Computer Vision （ ICCV ）， 2011IEEEInter nati o nalCo nfere nceo n.pp. 2462IEEE（2011）2. Beck ， A. ， Teboulle ， M. ：线性问题的一种快速迭代收缩阈值算法S1AMJOURNAL0NIMAGINGSCIENCES2（1），1833. Dicle角Yilmaz，B.，坎普斯岛Sznaier，M.：解决时间谜题。在：CVPR中。pp. 58964. 做吧，PWojek，C.， S.chiele，B.， Perona，P. ：Pedestrianenchmark.在：计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议pp. 304-31102The Dog（2009）5. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角戈尔科夫van der Smagt，P.，Cremers，D.Brox，T.：Flownet：使用卷积网络学习光流在：IEEE计算机虚拟现实国际会议论文集中。pp. 27586. Geiger，A.，Lenz，P.斯蒂勒角乌尔塔松河：视觉与机器人技术的结合：小猫在那儿。TheInternatinalJour nalofRobti csReserch32（11），12317. 古德费洛岛Pouget-Abadie，J. Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，Courville，A.Bengio，Y.：生成性对抗网。In：Advances inneural in Formalin ProocessSystems.pp. 26728. Gregor，K.，LeCun，Y.：学习稀疏编码的快速近似。第27届国际机器学习会议（ICML-10）的开幕式。pp. 3999. Hesterberg，T. Choi，N.H.，迈耶湖Fraley，C.：最小角和l1罚域的研究进展StatisisticSurveys2，6110. Horn，B.K.，Schunck，B.G.：确定光流。人工智能17（1-3），18511. 侯河陈春，Shah，M.：用于视频中动作检测的管状卷积神经网络。arXiv预印本arXiv：1703.10664（2017）12. Ilg，E.，Mayer，N. Saikia，T.，Keuper，M.，Dosovitskiy，A.，Brox，T.：流动网络2.0：利用深度网络的光流估计的演进。IEEE计算机视觉与模式识别会议（CVPR）卷2017年第213. Jozefowicz，河Zaremba，W.，Sutskever，I.：复发性网络攻击的实证研究。In：ICML.pp. 234214. Kalchbrenner，N. Oord，A.v.d.，西蒙尼扬，K.，达尼赫尔卡岛Vinyals，O.，格雷夫斯，A.，Kavukcuoglu， K.：视频像素网络。arXiv预印本arXiv：1610.00527（2016）15. Kalogeiton，V.，Weinzaepfel，P.，法拉利，V。，Schmid，C.：用于时空动作定位的动作小管检测器。 arXiv 预印本 arXiv ： 1705.01861（2017）16. 李，B.，营地O.I. Sznaier，M.：使用hankelets的跨视图活动识别。计算机视觉与模式识别（CVPR），2012年IEEE会议。pp.136 2-1369。IEEE（2012）17. 梁湘，李湖戴，W.Xing，E.P.：用于未来流嵌入式视频预测的双运动ganArXiv预印本（2017）18. 刘志，是的R唐，X.，Liu，Y.，Agarwala，A.：使用深体素流的视频帧合成。国际计算机视觉会议（ICCV）。第二卷（2017）19. Lotter，W.，Kreiman，G. Cox，D.：用于视频预测和无监督学习的深度预测编码网络。arXiv预印本arXiv：1605.08104（2016）20. Luc，P.，Neverova，N.库普利角Verbeek，J.，LeCun，Y.：预测语义分割的未来ICCV 2017-计算机视觉国际会议。第10页（2017年）16W. Liu，中国粘蝇A.Sharma，O.坎普斯湾斯奈尔21. Luo，Z.，彭湾黄地方检察官Alahi，A.，李菲菲：视频长期运动动态的arXiv预印本arXiv：1701.01821 2（2017）22. Mathieu，M.，库普利角LeCun，Y.：超越均方误差的深度多尺度视频预测。arXiv预印本arXiv：1511.05440（2015）23. Meyer，S.，Wang，O.，Zimmer，H.，Grosse，M. Sorkine-Hornung，A.：基于相位的视频帧内插。在：Proceedings of the IEEE Conference onComputerVisionandPatternRecognition中。pp. 141024. Moreau，T.，Bruna，J.：了解学习的迭代软阈值算法与矩阵分解。arXiv预印本arXiv：1706.01338（2017）25. Mundy，J.L.，齐瑟曼，A.：计算机视觉中的几何不变性。92.麻省理工学院出版社，马萨诸塞州剑桥市（1992年）26. P a th a k，D. ，Girshic k，R.， Dol l 'a r，P.，达瑞尔，T.， H a rih aran，B. ：通过观察物体的移动来获得感觉。计算机视觉和模式识别（CVPR）（2017）27. 彭，X. Schmid，C.：用于动作检测的多区域双流r-cnn。In：ECCV. pp.744-759 02TheDog（2016）28. Ranzato，M.，Szlam，A.，Bruna，J.，Mathieu，M.，科洛伯特河乔普拉，S.：视频（语言）建模：自然视频的生成模型的基线。arXiv预印本arXiv：1412.6604（2014）29. Saha，S.，Singh，G. Sapienza，M.，托，pH值，Cuzzolin，F.：深度学习用于检测视频中的多个时空动作管。arXiv预印本arXiv：1608.01529（2016）30. Soomro，K.，Zamir，A.R.，Shah，M.：Ucf101：来自野外视频的101个人类动作类的数据集arXiv预印本arXiv：1212.0402（2012）31. Srivastava，N.，Mansimov，E.，Salakhudinov，R.：使用lstms的视频表示的无监督学习。国际机器学习会议。pp. 84332. 太阳，X.，N.M.，Nasrabadi，Tran，T.D.：用于图像分类的有监督多层稀疏编码网络。arXiv预印本arXiv：1701.08349（2017）33. Wadhwa，N.，Rubinstein，M.，Durand，F.，弗里曼，W.T.：基于相位的视频运动处理。ACM Transactions on Graphics（TOG）32（4），80（2013）34. 王志，Bovik，A.C.，Sheikh，H. R.，Simoncelli，E.P.：图像质量评估：从错误可见性到结构相似性。 IEEE Transactions on Image Processing13（4），60035. Xue，T.，吴，J.，Bouman，K.，Freeman，B.：视觉动态：通过交叉卷积网络的概率未来帧合成。在：神经信息处理系统进展。pp. 9136. Yilmaz，B.，Bekiroglu，K.，拉戈阿角，Sznaier，M.：Parsimonious模型辨识的一种随机化算法IEEE Transactions on Automatic Control 63（2），53237. Zhou，Y.，（1996年），中国科学院，Berg，T.L.：从延时视频中学习时间变换。In：EuropeanConfer enceonCom up uterVisin。pp. 262

下载后可阅读完整内容，剩余1页未读，立即下载