内存中的内存：高阶非平稳性的时空动态学习预测神经网络

128 浏览量更新于2023-10-17 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

91545040302010012345678910 11 12 13 14 15 16 17 181920内存中的内存：从时空动态学习高阶非平稳性的预测神经网络王云波，张建进，朱洪宇，龙明生，王建民，和菲利普S.余克立，MoE;清华大学软件学院清华大学大数据研究中心工业大数据系统及应用北京市重点实验室{wangyb15，zhang-jj16}@ mails.tsinghua.edu.cn，{mingsheng，jimwang}@tsinghua.edu.cn摘要自然时空过程在许多方面都是高度非平稳的，例如：低水平的非平稳性，例如局部像素值的空间相关性或时间依赖性;以及高水平的变化，例如在预测中雷达回波的积累、变形或耗散。根据Cramer通过适当地应用差分运算，我们可以将时变多项式变成常数，使确定性分量可预测。然而，大多数以前的时空预测递归神经网络没有有效地使用差分信号，并且它们相对简单的状态转移函数阻止它们学习太复杂的时空变化。为此，我们提出了内存中的内存（MIM）网络和相应的递归块。MIM块利用相邻的经常性状态之间的差分信号来模拟具有两个级联的自我更新的存储器模块的时空动态中的非平稳和近似平稳特性通过堆叠多个MIM块，我们可以潜在地处理高阶非平稳性。MIM网络在四个时空预测任务上跨合成和真实世界数据集实现了最先进的结果我们相信，这项工作的总体思路可以潜在地应用于其他时间序列预测任务。1. 介绍自然时空过程在空间和时间上都表现出复杂的非平稳性，其中相邻像素表现出局部依赖性，并且它们的联合分布是按英文字母顺序，t=1 t=10 t=20图1：以20幅连续的雷达图为例，说明降水预报中复杂的非平稳性第一行：雷达图，其中白色像素显示较高的降水概率。第二，第三，最后一排：由不同颜色的边界框标识的对应局部区域的像素值的分布、均值和标准偏差。请注意，不同的地区有不同的变化趋势，使得时空预测问题极具挑战性。随时间变化。学习时空非平稳性下的高阶特性对于许多视频预测任务特别重要。示例包括建模高度复杂的现实世界系统，如交通流量[37，35]和天气条件[24，32]。一个性能良好的预测模型有望学习连续时空背景中的内在变化403020100STD是说分布帧9155其可以被看作是固定分量和确定性非固定分量的组合非平稳时空预测中的一个巨大挑战是如何有效地捕捉关于每个像素及其局部区域的高阶趋势例如，在进行降水预测时，应仔细考虑不断变化的雷达图上复杂多样的局部趋势，如图1所但由于时间和空间的复杂非平稳性，这一问题是非常大多数先前的工作都是通过CNN的递归[37，35]或RNN中相对简单的状态转换来处理趋势非平稳建模能力的缺乏，防止推理时空动态的不确定性，并部分导致预测帧的模糊效果。我们试图通过提出一种在非平稳建模中更有效的通用RNN架构来解决这个问题我们发现，虽然在当前预测模型中的遗忘门可以提供，选择和丢弃的记忆状态转换过程中的信息，他们是太简单，捕捉高阶非平稳趋势的高维时间序列。特别是，最近的PredRNN模型[32]中的遗忘门在降水预测上不起作用：它们中的大约80%在所有时间戳上是饱和的，这意味着几乎是时间不变的存储器状态转换。换句话说，通过近似线性外推来预测在本文中，我们专注于改进RNN的记忆传递函数。经典时间序列分析中的大多数统计预测方法都假设非平稳趋势可以通过执行适当的变换（如差分）来近似平稳。我们将这一思想引入RNN，并提出了一种名为Memory In Memory（MIM）的新RNN构建块，它利用了递归路径中相邻隐藏状态之间的差分信息。MIM可以被视为LSTM的改进版本[11]，其遗忘门被另外两个嵌入式长短期记忆所取代。MIM具有以下特点：（1）通过对相邻隐态的差分而不是原始图像的差分，建立了时空非平稳性的统一模型。（2）通过堆叠多个MIM块，我们的模型有机会逐渐稳定时空过程，使其更具可预测性。（3）注意，过度差分对时间序列预测没有好处，因为它可能不可避免地导致信息丢失这是我们在记忆转换中应用差分而不是所有循环信号的另一个原因，例如。输入门和输入调制门。（4）MIM具有一个采用LSTM的存储器单元以及两个附加的递归模块，其具有嵌入在第一存储器的过渡路径中的它们自己的存储器。我们使用这些模块分别建模的高阶非平稳和近似平稳的成分，时空动态所提出的MIM网络在多个预测任务上实现了最先进的结果，包括广泛使用的合成数据集和三个真实世界的数据集。2. 相关工作2.1. 时间序列预测我们的模型受到自回归综合移动平均（ARIMA）模型的启发。功率谱随时间保持恒定的时间序列随机变量可以被视为信号和噪声的组合。ARIMA模型旨在将信号从噪声中分离出来。然后将获得的信号外推到未来。在理论上，它通过差分将非平稳过程转化为平稳过程来处理时间序列预测[3]。2.2. 确定性时空预测时空非平稳过程更为复杂，因为相邻像素值的联合分布像低维时间序列一样，它们也可以分解为确定性和随机性分量。最近神经网络的工作CNN [17]和RNN[27]已被广泛用于从视频中学习确定性空间相关性和时间依赖性。Ranzato等人。 [23]定义了一种在斑块簇的离散空间中预测帧的再流模型Srivastava等人 [26]介绍了从语言建模到视频预测的序列到序列LSTM网络。但该模型只能捕捉时间变化。为了学习统一网络结构中的空间和时间变化，Shi等人 [24]将卷积算子集成到递归状态转移函数中，并提出了卷积LSTM。Finn等人 [9]开发了一种动作条件视频预测模型，当与模型预测控制方法结合时，该模型可以进一步用于机器人规划。Villegas等人。 [29]和Patraucean等人。 [21]提出了基于卷积LSTM的递归模型，这些模型利用了光流引导特征。Kalchbrenner等人。 [14]提出了视频像素网络（VPN），将视频的时间，空间，颜色结构编码为四维依赖链。它实现了尖锐的预测结果，但遭受高计算复杂度。Wang等人。 [32，31]用zigzag内存流扩展了卷积LSTM，这为短期视频动态提供了强大的建模能力。对抗学习[10，7]越来越多地未来的预测，并有助于生成更少的模糊帧。然而，上述工作没有充分考虑视频动态的高阶非平稳性9156ItotGtCl不Clt-1ML不我SLgNlHlF'不t-1HL-1 t-1HL-1 不Ml-1不MIM-NMIM-SH不不t−1不不t−1L lt t图2：左侧图中的ST-LSTM块[32]（在补充材料中详细描述）和右侧图中提出的内存中内存MIM旨在引入两个递归模块（黄色方块）来取代ST-LSTM中的遗忘门（虚线框）。MIM-N是非平稳模块，MIM-S是平稳模块。请注意，MIM块不能用于第一个1层，因此输入Xt被Hl−代替。其时间转换方法相对简单，结构，C1和M1，如图2（左）所示。corre-t t或者由循环门结构控制或者由前馈网络的循环实现。相比之下，我们的模型的特点是利用高阶差分，以减轻非平稳学习的困难。2.3. 随机时空预测最近的一些方法[36，6，18]试图使用变分自动编码器[16]对视频动态的随机分量进行建模。这些方法增加了预测的多样性，但很难评估，需要运行大量的时间来获得满意的结果。在这篇文章中，我们专注于时空非平稳性的确定性部分。更具体地说，这项工作试图通过提出新的非平稳RNN架构来稳定复杂的时空过程，并使其未来的确定性成分更具可预测性3. 方法如上所述，时空非平稳性仍然未被充分探索，并且其差分特征尚未被使用神经网络的先前方法充分利用。在本节中，我们首先介绍内存中的内存（MIM）块，用于从RNN内存转换中学习高阶非平稳性。然后，我们讨论了一种新的RNN架构，它将多个MIM块与对角状态连接起来，用于对时空预测中的差分信息进行建模。通过堆叠多个MIM块，如图4中的黑色箭头所示，M1的响应之字形存储器流通过增加循环转变深度来加强其短期3.1. 内存块中的内存我们观察到，复杂的动态时空序列可以更有效地处理作为一个组合的平稳变化和非平稳变化。假设我们有一个视频序列，显示一个人以恒定的速度行走。速度可以被看作是一个平稳变量，腿的摆动应该被看作是一个非平稳过程，这显然是更难预测的。不幸的是，以前的LSTM模型中的遗忘门在初步实验中，我们发现最近的PredRNN模型[32]中的大多数遗忘门都是饱和的，这意味着单元总是记住平稳变化。内存中的内存（MIM）模块受到使用一系列级联内存转换而不是ST-LSTM中简单的饱和遗忘门来建模非平稳变化的想法的启发。如图2所示（较小的虚线框），两个级联的时间记忆递归模块被设计为重新在ST-LSTM中放置时间遗忘门ft第一个模块还将Hl−1作为输入，用于基于差分（Hl−1− Hl−1）在两个连续的隐藏表示之间，t t−1从时空染料力学所提出的MIM状态转换方法可以集成到所有LSTM类单元。我们选择Spatiotemporal LSTM（ST-LSTM）[32]作为我们的基础网络，以在预测准确性和计算简单性之间进行权衡。ST-LSTM的特点是双存储器站。因此，我们将其命名为非平稳模块（如图所示如图3中的MIM-N）。它会产生不同的特征Dl基于差分平稳假设[22]。另一个递归模块将MIM-N模块的输出D1和外部时间存储器C1作为输入，以捕获空间时间中的近似静止变化ItotGtCl不Clt-1MtL我gftfHlt-1XtMl-1不H9157t−1不不不t−1不不t−1tt−1ttt−1ttt−1tt t−1t−1MIM-N（非固定）MIM-S（固定）其中所有的门Gt、It、Ft和Ot通过合并帧差（Hl−1− Hl−1），突出显示lt t−1不时空序列中的非平稳变化。MIM-S的详细计算如下：gt=tanh（Wdg<$Dl+Wcg<$Cl+bg）t t−1it=σ（Wdi<$Dl+Wci<$Cl+bi）t t−1图3：非固定模块（MIM-N）和固定模块（MIM-S），它们在MIM模块中以级联结构互连。非平稳性是由差分建模。ft=σ（Wdf <$Dl+Wcf<$ClSl=f<$Sl +i<$got=σ（WdoDl+WcoCl+bf）+WsoSl+bo）（三）t t−1tT1=MIM-S（D1，C1，Sl）=ottanh（Sl），孔序所以我们称之为静止模（如图所示不t−1t−1t如图3中的MIM-S通过将遗忘门替换为级联的非稳态和稳态的最终输出T1其采用存储器单元C1和差分fea，不模块（如图2所示），非平稳动态可以更有效地捕获。a中的关键计算MIM块可以如下所示：由MIM-N生成的图D1作为输入。如可以验证的，固定模块提供门控机制以自适应地决定是信任原始存储器Cl还是信任原始存储器Cl。Lgt= tanh（W× gHl−1+Wlt−1+bg）差异特征Dt.如果差异特征消失，这表明非平稳动态并不突出，it=σ（WxiHl−1+Wlt−1+bi）则MIM-S将主要重用原始存储器。其他-Dl=MIM-N（Hl−1，Hl−1，Nl）明智的，如果差异特征突出，则MIM-S将覆盖原来的记忆，并将更多的注意力集中在T1=MIM-S（D1，C1，Sl）t tt −1t −1非平稳动力学Cl=Tl+itgtt tL−1l−1 ′3.2. 内存网络中的内存gt=tanh（WxgHt+WmgMt+bg）L−1l−1 ′堆叠多个MIM块，我们的模型有机会it=σ（Wxi<$Ht+Wmi<$Mt+bi）为了捕捉更高阶的非平稳，逐渐稳定，l−1l− 1ft=σ（Wxf<$Ht+Wmf<$Mt+bf）Ml=f′<$ Ml−1+i′<$g′使时空过程规范化，并使未来的序列更可预测。这个建筑的核心思想t t t t t to=σ（WHl−1+WH.L.l+WCl+W[0001][00001][000001][0000001][000001][00001][000t xothot−1COT莫特O 典型的特征和最好的促进非平稳建模。Hl=ottanh（W1×1[Cl，Ml]），t t t（一）我们提出的对角递归拱的示意图结构如图4所示我们传递隐藏状态其中S和N表示水平传输的存储器Hl−1和Hl−1到内存中内存（MIM）块非平稳模块（MIM-N）和平稳模块在时间戳t/= 1和层l处1、生成不同的模块（MIM-S）;D是由MIM-N学习并馈送到MIM-S的差分特征;T是通过虚拟“遗忘门”的内存;而表示卷积。级联结构使端到端建模成为可能不同阶的非平稳动力学。它是基于差分平稳的假设，差分一个非-功能以供进一步使用。这些连接显示为如图4中的对角箭头所示。由于第一层没有任何先前的层，我们简单地使用时空LSTM（ST-LSTM）[32]来生成其隐藏的表示。注意，时间差分是通过减法来执行的从MIM中的隐藏状态Hl− 1中提取隐藏状态Hl− 1一个平稳的过程反复地将可能导致一个平稳的过程[22]。MIM-N和MIM-S的示意图示于图3中。我们给出MIM-N的详细计算如下：与直接差分相邻原始图像相比，差分时间相邻的隐藏状态可以更明显地揭示非平稳性，因为局部区域的时空变化已经被编码到隐藏状态l−1l−1l通过底部ST-LSTM层的表示gt=tanh（Wxg<$（Ht − Ht−1）+Wng<$Nt−1+bg）MIM网络的另一个显著特征在于ototItClt-1ItHL-1NlSL不不t-1HL-1GDlGt不不不NlSLt-1t-1ftft不ZHZHHg嗨9158i=σ（W<$（Hl−1− Hl−1）+W<$Nl+b）t xitt−1nit−1i在水平状态转换路径中。当MIM阻止f=σ（W<$（Hl−1− Hl−1）+W（l+b）有两个级联的临时存储器模块来捕获t xftL lt−1nft−1f（二）非平稳和平稳动力学分别，我们Nt=ft <$Nt−1+it <$gt进一步传送两个临时存储器（由No=σ（W<$（Hl−1− Hl−1）+W（l+b）t xott−1不去对于非静态存储器，由S表示静态存储器Dl=MIM-N（Hl−1，Hl−1，Nl）=otanh（Nl），内存）沿图4中的蓝色箭头。tt t−1t−1tt9159XXL^^^tt+1t+2输入序列地面实况和预测t=2 t=6 t=10t=12 t=14 t=16 t=18 t=20Xt-1/X^Xt/X^Xt+1/X^图5：标准移动MNIST上的预测示例所有模型都通过观察10个先前帧来预测未来的10个帧输出帧以两帧间隔显示。图4：具有三个MIM和一个ST-LSTM的MIM网络。红色箭头：H的对角状态转换路径，用于差分建模。蓝色箭头：存储单元C、N和S的水平过渡路径。黑色箭头：M的Z形状态转移路径。输入：输入可以是输入序列的地面真值帧，也可以是先前时间戳。输出：在每个时间戳生成一帧MIM网络在一个时间戳处生成一个帧用一个ST-LSTM和（L−1）MIMs可以表示如下（对于2≤l≤L）。请注意，没有标记为MIM1的MIM块。层作为第一层和三个MIM。每个MIM块中的特征通道的数量是64，作为预测精度和存储器效率的折衷所有模型都使用ADAM优化器[15]以0的学习率进行训练，损失为102。001。小批量大小设置为8。我们将层归一化[1]应用于比较模型，以减少协变量移位问题[12]。此外，我们将预定采样[2]应用于所有模型，以缝合训练和推理之间的代码和型号可在https://github.com/Yunbo426/MIM上获得。1111 1升4.1. 移动MNISTHt，Ct，Mt=ST-LSTM1（Xt，Ht−1，Ct−1，Mt−1）Hl，Cl，Ml，Nl，Sl=MIM（Hl−1，Hl，C1，Ml−1，（四）标准移动MNIST是一个合成数据集，不t t t t t tltt−1t−1t飞行数字的灰度图像序列我们完全按照lt−1t−1）。PredRNN中的实验设置[32]。我们将高阶非平稳性公式化为基于Cram e′r分解的高阶多项式[ 4 ]。在时空背景下，它指的是像素值的非平稳多项式的阶我们将时间序列分析的这个想法与深度学习相结合：逐层堆叠具有差分输入的MIM。4. 实验在本节中，我们使用四个时空预测数据集来评估所提出的MIM模型：具有移动数字的合成数据集、真实交通流数据集、真实雷达回波数据集和人类行为数据集。以下是这些数据集的一些常见设置。我们的模型在所有实验中都有四层，包括一个ST-LSTM我们在图5中的标准移动MNIST测试集上可视化预测帧序列。该示例是具有挑战性的，因为在输入序列和输出序列的连接处附近存在严重的遮挡。遮挡可以看作是信息瓶颈，在这种情况下，时空过程的均值和方差发生剧烈变化，表明存在高阶非平稳性。MIM生成的图像比其他模型更令人满意，模糊度更低实际上，我们甚至无法分辨其他模型生成的最后一帧中的数字。我们可以得出结论，MIM在捕捉复杂的非平稳变化方面显示出更强的我们使用每帧结构相似性指数度量（SSIM）[33]，均方误差（MSE）和平均绝对误差（MAE）来评估我们的模型。较低的MSE或MAE，或较高的SSIM表示更好的预测。作为H3t-1H3不H2t-1H2不H1t-1H1不ST-LSTMST-LSTMMIMMIMMIMMIMMIMMIMMIMMIMST-LSTMMIMXFRNNPredRNN因果LSTMMIMMIM*t-1不t+1，SN9160工作当MIM-N和MIM-S互连时，整个MIM模型实现最佳性能。模型SSIMMSEMaeMIM（无MIM-N）0.85854.4124.8MIM（无MIM-S）0.85355.7125.5MIM0.87452.0116.5表1：在移动MNIST数据集上预测10帧的比较所有模型都有相当数量的参数。MIM*是使用Causal LSTM [31]作为第一层的网络，并将级联的 MIM-N和 MIM-S模块集成到 CausalLSTM存储单元中。这一结果表明，MIM是一种通用的机制，用于改善复发性记忆转换。如表1所示，我们提出的MIM模型接近标准移动MNIST数据集上的最新结果。特别是，我们通过使用CausalLSTM [31]作为第一层来构建另一个名为MIM* 的模型，并将级联的MIM-N和MIM-S模块集成到CausalLSTM记忆单元中，用它们来代替Causal LSTM中的时间遗忘门。这个结果表明，内存中的内存机制并不是专门为ST-LSTM设计的;相反，它是一种用于改善RNN内存转换的通用虽然在本文的其他部分，我们使用ST-LSTM作为我们的基础结构，在预测精度和计算复杂度之间进行权衡，但我们可以看到MIM的性能优于其ST-LSTM（PredRNN）基线，而MIM* 的性能也我们还采用[19]中基于梯度的锐度度量来测量生成图像的锐度。如表2所示，MIM的锐度分数比PredRNN提高了16%模型基于数据的共享法国国家广播电台[20]24.99PredRNN [32]23.29MIM27.05表2：移动MNIST上的共享性评估通过分别去除稳态模块和非稳态模块，进一步证明了级联内部回流模块的必要性。如表3所示，没有MIM-N的MIM网络比没有MIM-S的MIM网络工作得稍微好一些。此外，它们中的任何一个都比MSE/MAE中的PredRNN模型有显著的改进，这表明将它们级联在一个统一的网络中的必要性。表3：MIM阻滞的消融研究我们研究的灵敏度，我们的模型的MIM块的数量。由于堆叠2提出的模型与3MIMs性能最好。这是一种权衡：应用太少的MIMs导致非平稳建模能力不足，而过于深的递归模型导致训练困难。MIM块数SSIMMSE20.87054.630.87452.040.85953.7表4：我们的模型对MIM块数量的敏感性遗忘门很容易在PredRNN以及其他基于LSTM的时空预测模型中饱和，例如ConvLSTM [24]。如图6所示，这些模型的遗忘门的很大一部分接近于0，表明长短期记忆不能正常工作由于短期变化中的非平稳信号很难被捕获，这些模型必须更新模型状态以传达这些短期隐藏表示。我们的模型缓解了这个问题，并通过建议的MIM块更好地利用长期变化。由于MIM-N主要降低了非平稳性，因此短期趋势变得更容易被捕获，并且MIM-S中的更多神经元可以用于处理长期变化。图6：对应于|0的情况。|<0. MIM为1，f为<0。1、其他型号。4.2. 出租车交通流量交通流是从混乱的现实世界环境中收集的。它们不会随着时间的推移而均匀变化，模型SSIMMSEMaeFC-LSTM [26]0.690118.3209.4ConvLSTM [24]0.707103.3182.9[25]第二十五话0.713106.9190.1DNA [9]0.72197.4175.3DFN [5]0.72689.0172.8法国国家广播电台[20]0.81369.7150.3VPN基线[14]0.87064.1131.0PredRNN [32]0.86756.8126.1Causal LSTM [31]0.89846.5106.8MIM0.87452.0116.5MIM*0.91044.2101.19161预测帧FRNN|GT-P|预测帧PredRNN|GT-P|预测帧因果LSTM|GT-P|预测帧MIM命中+未命中+假臂在相邻时间戳处的业务状况之间存在强的时间依赖性TaxiBJ中的每一帧都是一个32×32 ×2的图像网格。两条通道代表进出同一地区的交通流量。我们将数据归一化为[0，1]，并遵循ST-ResNet [37]的实验设置，这会在该数据集上产生先前的最每个序列包含8个连续帧，4个用于输入，4个用于预测。我们在表5中显示了定量结果，结果见图7。为了使比较引人注目，我们还可视化了预测和地面实况图像之间的差异显然，MIM在所有比较模型中的所有预测帧中表现出最好的性能，具有最低的差异强度。模型帧 1帧2帧3帧4ST-ResNet [37]0.4600.5710.6700.762VPN [14]0.4270.5480.6450.721法国国家广播电台[20]0.3310.4160.5180.619PredRNN [32]0.3180.4270.5160.595Causal LSTM [31]0.3190.3990.5000.573MIM0.3090.3900.4750.542表5：使用TaxiBJ数据集上[0，1]范围内的数据计算的每帧MSE所有比较模型均以4幅历史交通流图像作为输入，并预测接下来的4幅图像（未来两小时的交通流）。4.3. 雷达回波输入序列基本事实和预测t=1 t=2 t=3 t=4 t=5 t=6 t=7t=8|GT-P|图7：TaxiBJ数据集上的预测示例为了便于比较，我们还可视化了地面实况帧（GT）和预测帧（P）之间的差异。雷达回波数据集包含不断变化的雷达地图，输入序列地面实况和预测从2014年5月1日至2014年6月30日，每6分钟采集一次每帧是一个64×64×1的网格图像，覆盖64 ×64平方公里。我们预测未来的10个时间戳，时间间隔为6分钟，覆盖下一个小时。我们将生成的雷达图可视化在图8. 可以看出，雷达回波的演化是一个高度非平稳的过程。雷达回波的积累、变形在这个展示中，左下角的回声聚集，而右上角的回声消散。只有MIM才能正确捕捉回波的运动。t=2t=6 t=10t=12 t=14 t=16 t=18 t=20图8：雷达回波的未来一小时预测示例，其中像素值越高，表示降水概率越高表6：在雷达数据集的子集上预测10个帧的比较。所有的模型都是用10个目标帧训练的，并在测试时预测10个我们通过表6中的MSE评估生成的雷达回波，然后将像素值转换为表6中的雷达回波强度。dBZ 我们分别选择30dBZ、40dBZ和50dBZ作为阈值来计算临界成功指数（CSI）。CSI被定义为CSI=命中，其中命中对应于真阳性，未命中对应于假阳性，并且假警报对应于假阴性。较高的CSI表示较好的预测结果。MIM在MSE和CSI 方面始终优于其他模型。图 9 示出了逐帧MSE/CSI。CSI-40和CSI-50表明PredRNN因果LSTMMIM模型MSECSI-30CSI-40CSI-50法国国家广播电台[20]52.50.2540.2030.163PredRNN [32]31.80.4010.3780.306Causal LSTM [31]29.80.3620.3310.251MIM27.80.4290.3990.3179162MIMPredRNN因果LSTMCSI500.650.6040 0.550.50300.450.40200.35十点半表7：Human3.6M数据集的定量结果123456789 10123456789 10(a) MSE（b）CSI-300.650.600.550.500.450.400.50.40.30.350.300.20.25123456789 10(c) CSI-400.112345678910(d) CSI-50图9：接下来生成的10个雷达图的逐帧比较。较低的MSE曲线或较高的CSI曲线表示较好的预测结果。MIM网络是预测范围内所有时间戳上性能最高的恶劣天气条件的可能性。MIM表现最好，虽然预测恶劣天气是不平凡的，由于长尾分布的像素值。4.4. Human3.6MHuman3.6M数据集[13]包含17种场景的人类行为，其中包括3种。600万个姿势和相应的图像。我们只使用“Walking”场景来训练模型。Human3.6M数据集中的RGB图像最初为1000×1000×3，在我们的ex-map中调整为128×128×3实验我们生成4个未来帧给定前4个RGB帧。我们使用受试者S1，S5，S6，S7，S8进行训练，和S9、S11用于测试。如表7和图10所示，MIM网络在数字指标和视觉效果方面都优于以前的最先进模型MIM生成的帧在运动位置上更准确，如橙色框所示我们注意到，有些工作通过对人体关节的结构进行建模，在人体数据集上表现良好，而MIM网络是为非结构性的通用时空数据（如RGB视频）而设计的。结构方法和非结构方法可以相互结合，互补使用，这一点有待于进一步研究。5. 结论我们研究了潜在的非平稳性，它构成了时空预测的主要障碍之一。用于时空预测的基于Ex-10 LSTM的模型图10：在Human3.6M数据集上生成的图像示例。我们放大以显示图像的细节。在差分平稳序列建模方面有很强的能力，但由于遗忘门相对较弱，其对高阶非平稳过程的建模能力受到限制本文提出了一种新的递归神经网络，使非平稳建模的时空背景。我们将高阶非平稳性公式化为关于像素强度的统计变化趋势的非平稳多项式的阶可以通过几个差分运算来降低。我们从时间序列分析中利用了这一思想：逐层堆叠具有差分输入的MIM。提出了内存中内存（Memory In Memory，MIM）模块，该模块采用两个级联的递归模块来处理时空动力学中的 MIM在以下四个数据集上实现了最先进的预测性能：飞行数字的合成数据集、交通流量预测数据集、天气预报数据集、以及人体姿势视频数据集。确认本工作得到了国家自然科学基金项目（No.61772299、71690231和61672313）。MIMPredRNN因果LSTMMIMPredRNN因果LSTMt=5t=6t=7t=8t=5t=6t=7t=8t=5t=6t=7t=8t=5t=6t=7t=8MIMPredRNN因果LSTMMSECSICSIPredRNNMIM地面实况FRNN模型SSIMMSEMae法国国家广播电台[20]0.771497.71901.1PredRNN [32]0.781484.11895.2MIM0.790429.91782.89163引用[1] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv预印本arXiv：1607.06450，2016。[2] Samy Bengio、Oriol Vinyals、Navdeep Jaitly和Noam沙泽尔循环神经网络序列预测的计划采样。NeurIPS，第1171-1179页，2015年。[3] George EP Box，Gwilym M Jenkins，Gregory CReinsel，and葛丽泰·M·林时间序列分析：预测与控制。John WileySons，2015.[4] 哈拉尔·克拉尔。关于几类非平稳随机流程. 在伯克利数学统计和概率研讨会，第2卷，第57-78页洛杉矶大学出版社伯克利和洛杉矶，1961年。[5] Bert De Brabandere，Xu Jia，Tinne Tuytelaars和Luc范古尔动态过滤网络。InNeurIPS，2016.[6] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML，第1174-1183页，2018年。[7] Emily L Denton，Soumith Chintala，Rob Fergus，et al. 深使用对抗网络的拉普拉斯金字塔生成图像模型在NeurIPS，第1486-1494页[8] Emily L Denton等.解纠缠的无监督学习来自视频的表示。NeurIPS，2017。[9] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。InNeurIPS，2016.[10] 伊恩·JGoodfellow，Jean Pougetabadie，Mehdi Mirza，BingXu ， DavidWardefarley ， SherjilOzair ， AaronCourville ， and Yoonge Bengio. 生成对抗网络。在NeurIPS，第3卷，第2672-2680页[11] Sepp Hochreiter和Jürgen Schmidhuber.长短期记忆神经计算，9（8）：1735[12] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML ，2015。[13] Catalin Ionescu、Dragos Papava、Vlad Olaru和Cristian斯明奇塞斯库Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。IEEE Transactions onPattern Analysis and Machine Intelligence ， 36 （ 7 ）：1325[14] Nal Kalchbrenner，Aaron van den Oord，KarenSimonyan，Ivo Danihelka，Oriol Vinyals，Alex Graves和KorayKavukcuoglu。视频像素网络。ICML，2017。[15] 迪德里克·金马和吉米·巴。亚当：一种方法随机优化2015年，国际会议[16] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。我-使用深度卷积神经网络进行agenet分类在NeurIPS，第1097-1105页[18] Alex X Lee，Richard Zhang，Frederik Ebert，PieterAbbeel，切尔西·芬恩和谢尔盖·莱文随机对抗视频预测。arXiv预印本arXiv：1804.01523，2018。[19] Michael Mathieu，Camille Couprie，and Yann LeCun. 深超越均方误差的多尺度视频预测在ICLR，2016.[20] 马克·奥留哈维尔·塞尔瓦和塞尔吉奥·埃斯卡莱拉用于未来视频预测的折叠在ECCV，2018。[21] Viorica Patraucean、Ankur Handa和Roberto Cipolla。9164具有可微分存储器的时空视频自动编码器。在ICLR研讨会，2016年。[22]唐纳德湾作者声明：Andrew T.沃顿光谱分析物理应用。剑桥大学出版社，1993年。[23] MarcAurelio Ranzato 、 Arthur Szlam 、 Joan Bruna 、Michael Mathieu、Ronan Collobert和Sumit Chopra。视频（语言）建模：自然视频生成模型的基线arXiv预印本arXiv：1412.6604，2014。[24] Shi Xiangming ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，黄伟健和胡旺春卷积lstm网络：降水预报的机器学习方法InNeurIPS，2015.[25] 施行健，高智涵，莱昂纳德·劳森，王浩，迪特-杨仁、黄伟坚及胡旺春。降水临近预报的深度学习：一个标杆，一个新模式。NeurIPS，2017。[26] 尼蒂什·斯里瓦斯塔瓦、埃尔曼·曼西莫夫和鲁斯兰·萨拉胡蒂-nov. 使用lstms 的视频表示的无监督学习。ICML ，2015。[27]Ilya Sutskever，Oriol Vinyals和Quoc V.乐序列以用神经网络进行序列学习。NeurIPS，2014。[28] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在CVPR，2018年。[29] Ruben Villegas ， Jimei Yang ， Seunhoon Hong ， XunyuLin，还有李弘乐分解用于自然视频序列预测的运动和内容。在ICLR，2017。[30] Carl Vondrick Hamed Pirsiavash和Antonio Torralba根-使用场景动态来生成视频。InNeurIPS，2016.[31] Yunbo Wang，Zhifeng Gao，Mingsheng Long，JianminWang，and Philip S Yu.PredRNN++：解决时空预测学习中的时间深度困境。在ICML，第5123-5132页[32] Yunbo Wang，Mingsheng Long，Jianmin Wang，ZhifengGao，菲利普·S·U Predrnn：使用时空lstms进行预测学习的递归神经网络。NeurIPS，2017。[33] Zhou Wang，A.C Bovik，H.R Sheikh和E.P西蒙-切利图像质量评价：从误差可见性到结构相似性。IEEE Transactions on Image Processing ， 13 （ 4 ）：600，2004.[34] Nevan Wichers 、 Ruben Villegas 、 Dumitru Erhan 和Honglak李你无超视的分层长期视频预测。在ICML，2018。[35] 徐子如，王云波，龙明生，王建民，MoE KLiss。Predcnn：使用级联卷积的预测学习。在IJCAI，2018。[36] Tianfan Xue，Jiajun Wu，Katherine Bouman，and BillFree-man.视觉动态：通过交叉卷积网络的概率未来帧合成。在NeurIPS，第91-99页，2016年。[37] 张俊波，于正，齐德康。深空-时间残差网络在城市人群流量预测中的应用。InAAAI，2017.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

内存中的内存：高阶非平稳性的时空动态学习预测神经网络

高阶非线性时滞系统的神经网络动态面控制.pdf

记忆中的记忆：一种学习高阶非平稳性的预测神经网络

柴油发动机活塞销振动分析：高阶循环平稳方法

复杂系统自适应控制：高阶神经网络方法

ADAMS基础训练：高阶机械系统动态分析

深度学习可解释性：高阶损失与特征依赖

混合重构算法：高阶与非局部全变分在MRI图像处理中的应用

CRO驱动的高阶神经网络：增强多示例学习性能

MATLAB 在通信系统设计中的应用：高阶调制信号发送和接收

非线性纯反馈系统自适应控制：高阶滑模观测器方法

随机高阶非线性系统：时变控制与时滞的自适应神经网络控制

React高级用法：高阶组件与Hooks详解

Python学习笔记：高阶函数与map(), reduce()解析

K-L展开法：非高斯非平稳过程的模拟与特性研究

通信专业课程：高阶系统分析与设计

理解依赖倒转原则：高阶模块依赖抽象

时间序列分析：Barlett定理与平稳性检验

改进遗传算法：高阶区间系统模型的高效降阶

高效无线电信号调制方式识别系统：基于高阶累积量与RBF神经网络

高阶迭代法求解非线性方程：四阶与五阶收敛研究

最新资源