噪声数据的概率视频预测方法

184 浏览量更新于2023-10-23 收藏 823KB PDF 举报

确定性模型

随机模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10830具有后验置信度的噪声数据的概率视频预测王云波1，吴嘉俊2，龙明生1，Joshua B。Tenenbaum31清华大学2斯坦福大学3麻省理工摘要我们研究了一个新的研究问题的概率未来帧预测从一个序列的噪声输入，这是有用的，因为它是很难保证输入帧的质量在实际的时空预测应用。确定性模型p（y K+1：K+J |y 1：K）y1y2y3y4随机模型p（y K+1：K+J |y 1：K，z 2：K+J）y1y2y3y4z2z3z4它也具有挑战性，因为它涉及两个层次的不确定性：来自噪声观测的感知不确定性(a) 以前的型号以及正演模拟中的动力学不确定性。在本文中，我们提出了一种名为贝叶斯预测网络（BP-Net）的端到端可训练模型与先前在随机视频预测中假设时空相干性并因此未能处理感知不确定性的工作不同，BP-Net在集成框架中对两个级别的不确定性进行建模。此外，与以前只能提供未来帧的未排序估计的工作不同，BP-Net利用了一种新的方法，推理阶段p（y1：K |x1：K，x1：K）预测阶段p（y K+1：K+J |y 1：K，z 2：K+J）- 可分级顺序重要性采样（SIS）方法，以基于对潜在物理状态的推断来进行未来预测，从而根据SIS重要性权重来提供排序的预测候选，即，的信心。我们的实验结果表明，BP网络显着优于现有的方法预测未来帧从噪声数据。1. 介绍学习生成未来的视频帧在现实世界的场景中显示出显著的意义，例如降水预测[27，35]，交通流量预测[39，37]和机器人中的模型预测控制[10，8]。现有模型假设训练和测试视频是底层物理状态的无损表示;然而，在实践中降水预报依赖于过去几个小时的雷达图，其中存在随机测量误差或偶然的数据噪声，例如，是由一架经过的飞机造成的在实时流媒体中，视频帧可能由于信号不稳定而损坏。在这里，提前预测未来的帧可以纠正即将到来的视频的内容。从噪声输入中预测未来帧是一个新的和具有挑战性的问题，因为它涉及来自噪声的不确定性。(b) 我们的模型图1.现有的视频预测模型和我们的模型的比较。我们的模型工作在贝叶斯过滤框架下，共同考虑感知不确定性和动态不确定性。 K是输入序列的长度。 J是生成的序列的长度。在这个非常简化的例子中，K=J= 2。我们的模型的另一个优点是，它能够估计未来的帧与后验置信分数。两个不同的来源：感知的不确定性，即，从噪声观测到潜在物理状态的多模态映射，以及动力学不确定性，即，从过去到未来的多模态映射。解决这个问题需要新的方法。以前的像素级未来预测模型没有考虑感知的不确定性，并且对视频的时间一致性和空间相干性有很因此，它们不能很好地用于有噪声的spatiotemporal数据视频，因为输入-输出时间一致性被显著破坏。在本文中，我们引入贝叶斯预测网络（BP-Net），共同应对感知不确定性和动态不确定性的综合框架。如图1所示，我们隐式地将这个问题解耦为贝叶斯推理阶段和序列重要性抽样（SIS）算法的预测阶段。我们随着时间的推移保持一组加权样本（粒子），并使用X1X212一年二年y3y4z2z3z410831它们来近似未损坏的视频帧周围的置信度分布。在每个时间戳，我们首先利用预测模块来更新粒子状态，计算每个粒子的先验概率。该模块对于推理和预测阶段都很重要。然后，我们通过测量以预测的粒子状态为条件的新接收到的观测该模块是有效的贝叶斯推断噪声观测。它是BP网络区别于现有视频预测工作的关键组成部分。我们的模型将视频去噪和视频预测集成到一个端到端的可训练范例中。一种替代方案是简单地将去噪算法与标准视频预测算法组合。与这些分别处理去噪和预测的两步方法相比，我们的集成管道免除了精确恢复未损坏的输入视频的负担，根据经验，这会产生更强的结果（第4.3节）。BP-Net的第二现有的随机视频预测模型生成未来的候选人，而不对它们进行排名;尚不清楚从模型中提取的许多样本中的哪一个具有更好的预测质量。相比之下，BP网络通过贝叶斯滤波解决了这个问题，使用SIS算法来近似每个未来预测候选（粒子）的重要权重。生成具有置信度分数的未来候选允许随机视频预测模型改进下游任务。我们使用两个公共视频数据集验证了我们提出的BP网络对噪声时空数据未来预测它明显优于以前的视频预测模型。我们的实验结果还表明，粒子权重和预测质量之间有很强的正相关性。综上所述，本文有两大贡献：• 本文针对视频中感知和动态不确定性的纠缠，提供了一种解决方案，研究从噪声数据中进行端到端的视频预测，这是视频建模研究界和现实世界中的一个新问题。• BP-Net结合了贝叶斯推理和深度预测学习的优点与大多数SIS方法不同，BP- Net适用于大型、复杂的观测空间，例如视频帧的空间。此外，与先前的视频预测模型不同，它提供了具有与预测质量一致的后验置信度的未来帧的估计。2. 相关工作确定性视频预测。深度神经网络已广泛应用于确定性视频预测。Ranzato等人。 [26]定义了一个递归模型，用于预测补丁集群离散空间中的 Srivastava等人[29]介绍了从语言建模到视频预测的序列到序列LSTM网络。但这个模型只能捕捉时间变化。为了了解统一网络结构中的空间和时间变化，Shi et al.[27]将卷积算子集成到递归状态转移函数中，并提出了卷积LSTM，用于空间和时间变化的联合建模最近的一些文献[21，28，9，31，24，32，34，35，16]进一步扩展了卷积递归模型，并研究了自动驾驶，天气预报，模型预测控制和人体运动建模中的时空未来预测与这些确定性模型不同，我们的模型对未来进行概率预测。随机视频预测。对抗学习[11，6]越来越多地用于视频生成[22，33，7，30，36]，因为它旨在解决未来预测的多模态训练困难为了增加未来帧的多样性，变分自动编码器[19]也被引入随机视频预测模型[38，1，5，20，14]。变分方法也诱导解缠结[13，3]。我们的模型在两个方面不同于上述模型首先，它同时考虑了感知和动力学的不确定性，这给我们的工作带来了新的挑战。其次，所有上述模型都从先验分布生成未来估计，并且不能提供具有置信度分数的预测结果我们的模型通过将可微粒子滤波方法与深度递归网络相结合来解决这个问题。可微序贯重要性取样. 我们的工作也涉及到可微序贯重要抽样（SIS）方法。Gu等人。 [12]，Karkus等人。[17]和Jonschkowski等人。 [15]独立地发现了使传统的顺序重要性采样算法在神经网络方面可区分的方法，表明端到端训练提高了状态估计的性能我们的工作将这一想法从定位和跟踪扩展到视频预测，将可区分的SIS与预测网络相结合。请注意，所有这些模型都在低维状态空间中学习简单的转换模型，甚至使用已知的状态转换函数进行训练。相比之下，我们的方法除了感知不确定性之外，还可以处理更复杂的动态不确定性，用于更长的3. 方法我们设计了一个模型，它结合了随机视频预测与贝叶斯推理算法，以适应拟议的设置，其中随时间变化的信号估计在线从嘈杂的观察。10832不M不1：t−11：t−1不不txt-1/预测模块(1)（m）不Dec2012y（1）：（m）N（N，）LSTM测试KLz（i）~N（i，i）LSTM测试（i）（i）12月CNNyt-1先前的学习者CNNytxt-时间1：t /xK-1：K不t2i=1(a) BP网络在训练时的总体结构（b）测量模块图2.贝叶斯预测网络（BP-Net）用于从噪声观测中概率预测未来帧3.1. 理论基础其中η −1= ω w（i）。基于粒子的方法It让我们回到图1（b）。由于双方的努力，真实噪声和动态不确定性，每个时间戳处真实隐藏状态周围的置信度分布Bel（st）=P（st|x1：t，z2：t，x1：t）可以近似为：Bel（st）=ηP（xt|st，t）P（st|x1：t−1，z2：t，x1：t）被证明是有用的高度非线性滤波问题。一方面，它们可以表示任何后验分布，其精度取决于粒子的数量。另一方面，它们非常适合于动态先验，并且可以很容易地用于预测模型。在基于粒子的滤波方法的基础上，我们提出了贝叶斯滤波方法∫=ηP（x t|s t，t）P（st|st−1，zt）Bel（st−1）dst−1，（一）预测网络（BP-Net），其联合学习预测模型和推理模型。其中η是归一化因子。在本文中，我们使用序贯重要性抽样（SIS）方法来表示Bel（st）与加权样本，所谓的粒子在3.2. 贝叶斯预测网络（BP网）如图2所示，BP-Net使用六个模块实现了端到端贝叶斯推理预测框架SIS上下文。我们有Bel（s）mw（i）s（i），其中ti=1tt帧编码器。我们利用堆叠的残差多-m是颗粒数，w（i）是颗粒重量，和（i）（i）（i）（i）iwt=1。粒子在一个复制块（RMB）[16]来构建帧编码器和解码器。与传统的SIS方法不同，根据等式（1）的贝叶斯方式。第一步是从概率预测模型中随机抽取粒子状态：将先前的观测值变为henc= RMB φ（x t−1），并将其馈送到粒子状态预测模块中。以前的学员。先前的学习器生成m个随机变量，s（i）（s|s（i），z（i）），（2）表z（1）：（m）用于不确定性建模。我们采用AP-tφ tt−1不不通过最小化z（i）的采样先验来学习z（i）的采样先验的方法其中P（s|s（i），z（i））定义了新的概率φ不t−1t粒子状态给定其最后状态和随机噪声，以及φ表示预测模型的参数。方程（1）和方程（2）的近似基于对所有st-1求和，我们的预测模块P（st|st-1，zt）可以导致st。的一个新实现连续状态空间贝叶斯滤波算法必须表示连续的信念，并近似它，例如，卡尔曼滤波器，它表示它的高斯。粒子滤波器不需要高斯假设;它们用一组粒子来表示。第二步是近似观测似然P（x t|s t，n t）通过更新粒子重物，即，w（i）被设置为当前ob的概率Kl_D_K_L（Q_ω（z_t|y1：t）||P（zt|y1：t−1））之间两个条件高斯分布[5]。在训练期间z（i）由N（μ ω（y1：t），σ ω（y1：t））得出。在测试过程中，它是从N（μπ（yπ（i））），σ（y（i）））。粒子预测模块。遵循等式（2），预测模块基于粒子的先前状态来更新粒子状态。它还接收先前观测值和随机变量的编码隐藏状态hencz（i）由先前的学习者生成。预测模块中的关键组件是卷积LSTM，它更新粒子状态如下：t[s（i），c（i）]=ConnvLSTM（concat（h，z（i）），s（i），c（i）），给定预测的粒子状态，并由t t更新基于参数θDisc.LadvL2yt测量模块{测量模块w（i）不h（i）、t-1t-1FCLSTMh（i）、t t~N（λ，λ（t ）e不k（i不CNNCNNCNNXt-1：tK-1：K/xs（i不S10833的观测测量模型：ENC不t−1t−1（四）（一）（一）（一）（一）（一）（一）其中c（i）是存储器单元，其保留来自wtP θ（w t|st，xt，nt），wt=ηwt，（3）粒子状态的深刻历史请注意，所有变量10834不不不不不不不不不不以上是RH×W×C张量。请参考[27]了解ConvLSTM层中的关键方程测量模块。根据等式（3），测量模块在给定每个预测的粒子状态的情况下计算当前观测的后验似然xts（i ）。在训练过程中，我们用相同的权重w（1）：（m）= 1/m初始化所有粒子状态。在每个时间戳，权重作为用于在测试时间选择预测候选的参考。帧解码器和解码器。帧解码器将粒子状态映射回未损坏帧的目标空间，并生成像素级帧预测。我们使用具有2-4个转置卷积层的6个RMB 它在每个时间戳上运行m+1次，通过取单个粒子s（1）：（m）以及推理阶段（w.r.t.输入序列），测量-Σ（i）不（一）ment模块更新w（1）：（m）对观测值的条件化其加权和iwtst作为其输入。推理xt−τ+1：t. 当接收到新的观测值xt测量模块决定每个粒子的重要性状态s（i）。如果一个粒子与新的观测值具有正相关性，测量模块倾向于增加它的权重。我们将一个长度为τ的滑动窗口应用于序列观测，这样在预测阶段，新观测不可用，测量模块具有xK−τ+1： K 的宽视图，其中K是输入序列的长度。如图2（b）所示，我们首先使用堆叠的卷积层对电流进行将观测xt−τ+1：t和粒子状态s（i）转换为向量：测试时的模型可以在补充材料中看到因此，它仅基于s（1）：（m）生成帧。我们还使用一个训练器来对抗性地训练我们的预测模型。它采用了DCGAN架构[25]，并经过训练以区分生成的帧和地面实况，未损坏的帧。生成模型（BP网络的其余部分）被优化，以欺骗机器人相信生成的帧是真实的。3.3. 目标函数BP-Net是一种端到端的可训练方法。预测模块和测量模块联合训练[μθ，σθ]=lθ（xt−τ+1：t），et=fθ（xt−τ+1：t），k（i）=gθ（ s（i）），（五）具有统一的目标函数Ltotal=Lsis+λ<$L<$+λadvLadv，其中Lsis遵循顺序重要性sam。t tPLING算法，L*用于优化先验学习器，其中θ表示测量的总体参数其中，lθ、fθ和gθ是具有不同参数的卷积网络。然后我们对观测噪声进行基于变分下界的单个粒子的预测结果，Ladv用于在对抗性的BP网络中优化识别器和BP网络的其余部分。使用重新参数化技巧<$（i）<$N（µθ，σθ）的向量。方式，λVAE 和λAdv是超参数，最后，我们将et，k（i）和k（i）连接起来，并更新参数。分别设置为0。0001和100在整个训练。t t使用GRU层和另一个前馈层来确定权重网络uθ：我们现在详细讨论这些术语在训练期间围绕地面真值帧的置信度分布是Δ p。（一）（一）（一）（一）（一）由所有粒子的归一化加权和近似ht=GRU（ concat（et，kt，t），ht−1，ct−1），w（i）s（i），后跟CNN帧解码器。基于(6)t tw（i）= uθ（ h（i）），SIS算法，我们惩罚L2之间的距离，t t地面实况帧和生成的帧：其中h（i）是GRU中的隐藏状态，其将不同时间戳处的粒子权重的预测相关联。Lsis=K+JΣm2、高（w（i）s（i），y t）。（七）请注意，我们不使用重新采样方法，传统的粒子滤波算法，因为在t=1t ti=1对于未来帧预测，周期性过渡状态需要在时间上一致。我们发现，引入噪声向量使得BP网络有效地避免了所谓的粒子简并问题--一个粒子占多数粒子的重量，并使其余的无用。最终损失中的第二项优化了条件VAE。我们惩罚地面真实未来帧和预测帧之间的L2距离我们还关闭了zt的两个高斯分布之间的KL发散：观察测量模块是BP网络的关键组成部分，它使其区别于以前的视频预测。L=1K+JmMΣL2（Decφ（s（i）），yt）（八）10835模型。它的优点之一是，一种基于粒子的贝叶斯滤波算法到视频中t=2i=1μ m+DK L（Qω（z（i））|y1：t）||P（z（i））|y1：t−1））。t t预测问题，这样我们就可以处理更复杂的噪声输入帧的情况一个额外的好处是，它近似的可能性，目前的噪音观测给定每个粒子的状态。因此，我们可以使用粒子第三项是由仲裁庭提供的对抗性损失。它试图关闭生成的帧和地面实况帧的像素强度不像10836L2损失可以容忍模糊预测，对抗损失可以近似多模态分布[22]。在测试过程中，我们不计算粒子状态的加权和。相反，我们根据它们的粒子权重选择前k个粒子，这揭示了以每个粒子状态为条件的观测的可能性。我们想再次强调，我们的主要贡献不是应用PF，而是在深度学习的背景下解决预测问题，使用端到端的可微分模型来应对感知和预测的不确定性。换句话说，本文提供了一个试点研究4.2. 实现细节网络详细信息如表1所示。编码器和解码器没有预先训练。整个模型是用Xavier初始化器以端到端的方式从头开始训练的我们将预定抽样策略[2]应用于所有比较模型。这种技术可以缝合训练和测试之间的差异。我们将每个输入帧的像素值缩放为[0，1]，并从10个有噪声的输入帧中预测10个未来帧。除非另有说明，我们使用30个粒子用于训练，100个粒子用于测试。我们选择性能最好的λ（10−4）和λ（102）将基于粒子的方法与深度递归−6−4VAE2 4Adv网络. 本文的另一个贡献是，我们引入了近似后验置信度的预测未来的时空数据，这是新的视频预测和时空建模领域。4. 实验我们在视频预测领域广泛使用的两个公共视频数据集上训练和评估我们提出的模型为了适应我们的设置，我们在输入帧中添加了人为的损坏。BP-Net在两个数据集上的性能都明显优于比较模型。4.1. 对比型号确定性方法。我们与确定性视频预测模型进行比较[4，23，34]。确定性模型对给定输入帧的未来帧进行点估计，因此，它们倾向于在多模态预测设置中生成模糊图像。基于GAN的方法我们比较了也利用对抗训练范式的模型[33，31]请注意，我们还利用了BP-Net中的对抗训练。基于VAE的方法。我们与最先进的变分模型SVG-LP [5]进行了比较，SVG-LP也是基于条件VAE。由于BP-Net也是一个变分模型，在下面的实验中，我们主要将其与SVG-LP模型进行比较。SVG-LP模型关注未来的不确定性，而BP-Net同时处理感知不确定性和动态不确定性。具有两个独立阶段的基线模型。具体地说，我们还将我们的模型与两阶段基线进行了比较。第一阶段是随机去噪网络。它与BP-Net具有相同的与大多数现有的去噪方法不同，它不需要关于噪声的先验知识，因此更适合我们的问题设置。第二级是基于第一级输出序列的确定性预测网络。它由一个编码器、一个ConvLSTM和一个解码器组成。从{10，10 ，···，10，10}。类似于先前的工作[5]中，我们发现性能对λ_∞不是很敏感。我们使用Adam优化器[18]以10−3的学习率来训练BP网络，并将迭代的批量大小设置为8。模块层输出编码器2个转换器，2个RMB[16]16× 16× 644 ×R25616× 16× 64R164× 64× 1R1先前学习者4个转换器，2个GRU预测1ConvLSTM测量4个转换器，1个GRU，2个FC解码器3RMB [16]，2Deconvs鉴别器来自DCGAN [25]表1.BP-Net的体系结构细节4.3. 移动MNIST数据集数据集构造。标准的移动MNIST数据集由10000个训练序列、3000个测试序列和2000个验证序列组成。每个序列包含20帧64×64像素，带有两个飞行数字。基于这个数据集，我们构建了两个基准：• 对于感知不确定性，我们使每个输入帧具有24×24随机局部缺失部分。在这种情况下，过去到未来的映射是确定性的。• 对于动态不确定性，我们在数字的时不变速度上添加与时间无关的高斯噪声(thus未来的帧仍然是可预测的）。我们保持感知的不确定性，所以这两种不确定性在时空中纠缠在一起。定量结果。我们在表2和表3中显示了我们提出的BP网络和比较模型的定量结果。我们使用均方误差（MSE）和结构相似性图像测量（SSIM）作为度量。较高的SSIM或较低的MSE表示生成的图像质量较好。在感知和动力学不确定性的任务上，BP网络表现最好。对于测试集的每个条目，我们首先在100个随机粒子中选择具有最高序列水平SSIM或最低MSE我们发现，这些结果优于所有比较模型，包括SVG-LP。我们还发现10837输入有噪声帧（t=1~5）输入有噪声帧（t=6~10）电话：+86-10 - 8888888传真：+86-10 -88888888模型SSIMMSEDFN [4]0.73293.7折叠RNN [23]0.75073.6PredRNN++[34]0.77967.0[33]第三十三话0.70682.5MCnet [31]0.76379.4SVG-LP [5]（最佳100个样本）0.78956.7SVG-LP [5]（100个样本中最差）0.74472.1BP-Net（最佳100个粒子）0.81051.8BP-Net（具有最高粒子权重）0.80753.2BP-Net（100个颗粒中最差的）0.76863.1表2.具有感知不确定性的移动MNIST数据集上的结果，在10个预测帧上取平均值。较高的SSIM或较低的MSE表示生成的图像质量较好。模型SSIMMSEDFN [4]0.658122.4折叠RNN [23]0.71881.7PredRNN++[34]0.73575.8[33]第三十三话0.68897.1MCnet [31]0.70383.5SVG-LP [5]（最佳100个样本）0.75766.0SVG-LP [5]（100个样本中最差）0.68980.4BP-Net（最佳100个粒子）0.78858.5BP-Net（具有最高粒子权重）0.78359.1BP-Net（100个颗粒中最差的）0.73074.2图3.一个展示移动MNIST数据集与噪声输入。从10个观测值生成10个未来帧未来帧以2个时间戳的间隔示出。我们在测试时部署了100个SVG-LP和BP-Net样本。请注意，BP网络很好地模拟了未来的不确定性，并做出了各种预测。还要注意，通过BP网络具有前1重要性权重的预测候选与高预测质量匹配良好。即使是最差的样本也可以轻松地胜过决定性模型和基于GAN的模型。我们将此归功于集成的过滤和预测框架。另一个发现是，具有最高粒子权重（所有时间戳的平均值）的生成序列几乎是所有候选序列中的最佳序列这表明粒子权值可以粗略估计观测值与预测样本之间的相关性。我们可以在计算SSIM或MSE之前选择结果。这将是有用的一些在线应用程序，其中地面真值帧不可用。定性结果。图3给出了由我们的模型和一些比较模型生成的未来帧的示例。我们有以下发现。首先，决定性模型的预测非常模糊，因为它们表3.在具有纠缠感知和动态不确定性的移动MNIST数据集上的结果只能学习单峰的过去到未来的映射。其次，BP-Net与SVG-LP相比，始终生成更多可识别的帧。第三，通过具有最高粒子权重的BP网络的Top-1预测候选实现了对接下来10帧的更准确的估计最后但并非最不重要的是，我们的模型的帧内容是多样的，在估计的未来序列中显示数字这一结果表明，BP网络不太可能遭受粒子退化问题。消融研究。表4包括消融研究的结果。在基线I中，我们使用 vanilla LSTM 代替 ConvLSTM 。验证了将ConvLSTM用于预测模型的有效性。在基线-II中，我们移除测量模块中的随机向量flt。注意，在这种情况下，BP网络很容易遭受粒子退化问题，因为最高粒子权重接近1。基线-III是先前在第4.1节中描述的两阶段基线模型。我们的端到端推理预测框架显着优于随机去噪方法和确定性预测方法的组合，这些方法具有与BP-Net相似的网络架构。真正未来帧BP网络前1个权重BP网络随机BP-Net最差SSIM（ 100 个颗粒）折叠RNNPredRNN++SVG-LP100个粒子的最佳SSIMSVG-LP随机10838模型SSIMMSE最高颗粒重量基线I0.76563.40.57基线II0.78260.30.99基线III0.75668.0n/aBP网络0.78858.50.23表4.具有纠缠感知和动力学不确定性的运动MNIST的消融研究。我们报告了100个粒子中的最佳结果。有关基准模型的详细信息，请参阅文本。输入有噪声帧t=1 3 511 13 157 917 19模型SSIMMSEDFN [4]0.758136.7折叠RNN [23]0.765124.2PredRNN++[34]0.772113.8[33]第三十三话0.766120.6MCnet [31]0.781105.0SVG-LP [5]（最佳100个样本）0.77596.8SVG-LP [5]（100个样本中最差）0.757113.4去噪+PredRNN0.781101.7去噪+ SVG-LP（最佳）0.78397.0BP-Net（最佳100个粒子）0.79288.1BP-Net（具有最高粒子权重）0.79188.5BP-Net（100个颗粒中最差的）0.774104.7表5.具有噪声输入的KTH动作数据集的结果，包括将BP-Net的去噪部分与其他视频预测模型相结合的两阶段基线的结果4.4. KTH数据集图4.一个展示预测10个未来帧与噪声输入。帧以2个时间戳的间隔显示。数据集构造。原始的KTH数据集由600个15我们将帧调整为128×128像素。在我们的任务中，每个输入帧都有一个64×64的随机局部区域覆盖着马赛克。我们使用1-请注意，0.80.790.780.7713 10 30 500.80.790.780.770.761 10 30 100 300自然视频中总是存在不确定性。训练粒子(a) 用100个颗粒进行评价供试颗粒数(b) 用30个粒子训练结果表5显示了定量结果。BP-Net在KTH数据集上表现最好。我们还注意到，尽管有更多的参数，两阶段方法每-形式比最终的BP网络更差，因为视频去噪部分只能捕获感知不确定性而不是动态不确定性。图4示出了预测序列的示例。我们可能会发现，我们的模型生成了合理的多样化内容（参见最后一个时间戳的不同姿势）。我们还发现，具有最高粒子权重的序列非常接近最佳样本。图5显示了模型对不同数量的训练和测试粒子的敏感性。我们发现使用30个训练粒子和100个测试粒子在预测质量和效率之间取得了平衡如图6所示，这些可视化反映了BP-Net生成的帧的多样性，表明BP-Net不会受到粒子退化问题的影响。此外，输出序列图5.粒子数的影响的前1个粒子与地面真实未来帧很好地对齐，表明BP网络预测的准确性。信心如何与预测质量保持一致？图7显示了粒子权重如何随时间变化这与图4中的视频序列相同。所有粒子权重均初始化为0。因为在测试期间有100个零件我们可以看到，最差预测序列（通过SSIM）的粒子权重仍然很低。实际上，在最后一个时间戳，它甚至低于10-5相反，最佳颗粒状态的颗粒重量随时间增加。因此，我们可以看到，根据粒子的权重对粒子状态进行排序不仅在理论上是合理的，而且在经验上是有效的。真正未来帧BP网络前1个权重BP-Net100个粒子的最佳SSIMBP-Net最差SSIM（ 100 个颗粒）PredRNN++SVG-LP100个粒子的最佳SSIMSVG-LP我们的SVG-LP我们的SVG-LP最佳SSIM最佳SSIM10839真实未来帧Top-1w=0.64前2名w=0.30前3w=0.05电话：+86-10 -8888888传真：+86-10-88888888真实未来帧Top-1w=0.52前2名w=0.23前3w=0.08图6.基于相同输入序列生成的前3个粒子的未来帧我们以2个时间戳的间隔显示它们0.60.40.201 3 5 7 9 11 13 15 17 19时间图7.产生最佳/最差SSIM值的颗粒的重量曲线，表明输入噪声帧BP-NetTop-1权重SVG-LP随机t=1 3 5 7 911 13 15 17 19预测质量和粒子权重值。我们使用图4中的视频序列作为测试样本。(a) 高斯噪声（σ=20）t=1 3 5 7 9结果具有更多的感知和动态不确定性。我们增加了高斯噪声以获得更多的感知不确定性，并添加了与时间无关的图像抖动以获得动态不确定性，这将导致更多的多模态输入-输出关系。结果示于图8中。与SVG-LP算法相比，BP-Net算法生成的粒子权值最高的视频序列具有更好的质量输入噪声帧BP-NetTop-1权重SVG-LP随机11 13 15 17 195. 结论本文研究了一个新的问题，从噪声视频预测未来帧，这是实际的在线视频应用有意义的。为了解决这个问题，我们提出了一个概率模型，贝叶斯预测网络（BP网络），基于序贯重要性抽样（SIS）算法，也被称为粒子滤波算法。与现有的视频预测模型不同，BP-Net基于对底层物理状态的推断来进行未来预测。BP-Net在噪声视频的两个公共视频数据集上的性能优于所有的com-bands模型。通过将基于粒子的滤波算法集成到我们提出的模型中，我们获得了额外的好处BP网络(b) 更多动态不确定性与帧抖动（0-10像素）图8.在更多不确定性下的KTH定性结果。从具有增加的噪声和抖动的10个先前噪声输入预测10个未来帧（以2个时间戳间隔示出）。在给定每个可能的粒子状态的情况下，近似当前观测的可能性实验表明，更高的后验置信度反映了更好的预测质量。确认这项工作得到了ONR MURI N 00014 - 16-1-2007和NSFC 61772299的部分支持。最佳序列最差序列颗粒重量10840引用[1] MohammadBabaeizadeh 、 ChelseaFinn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在ICLR，2018年。2[2] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer 。循环神经网络序列预测的计划采样。InNeurIPS，2015. 5[3] Tian Qi Chen，Xuechen Li，Roger B Grosse，and DavidK Duvenaud. 变分自动编码器中解纠缠的分离源NeurIPS，2018。2[4] Bert De Brabandere，Xu Jia，Tinne Tuytelaars，and LucVan Gool.动态过滤网络。InNeurIPS，2016.五、六、七[5] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML，2018。二三五六七[6] Emily L Denton，Soumith Chintala，Rob Fergus，et al.使用对抗网络的拉普拉斯金字塔的深度生成图像模型。InNeurIPS，2015. 2[7] Emily L Denton等.从视频中分离表示的无监督学习NeurIPS，2017。2[8] Frederik Ebert，Chelsea Finn，Alex X Lee，and SergeyLevine. 具有时间跳跃连接的自监督视觉规划。在CoRL，2017年。1[9] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。InNeurIPS，2016. 2[10] 切尔西·芬恩和谢尔盖·莱文。规划机器人运动的深度视觉预见。在ICRA，2017年。1[11] Ian J. Goodfellow ，Jean Pougetabadie， Mehdi Mirza，Bing Xu ， David Wardefarley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成对抗网络。NeurIPS，2014。2[12] Shixiang Shane Gu，Zoubin Ghahramani，and Richard ETurner.神经自适应序贯蒙特卡罗方法。InNeurIPS，2015. 2[13] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉在ICLR，2017。2[14] Jun-Ting Hsieh，Bingbin Liu，De-An Huang，Li F Fei-Fei，and Juan Carlos Niebles.学习分解和解开视频预测的表示。NeurIPS，2018。2[15] Rico Jonschkowski Divyam Rastogi和Oliver Brock可区分的粒子滤波器：具有算法先验的端到端学习在RSS，2018. 2[16] NalKalchbrenner 、 Aaronvanden Oord 、 KarenSimonyan、Ivo Danihelka、Oriol Vinyals、Alex Graves和 Koray Kavukcuoglu 。视频像素网络。ICML ，2017。二三五[17] Peter Karkus，David Hsu，Wee Sun Lee.粒子滤波器网络：端到端的概率定位从视觉观察。arXiv预印本arXiv：1805.08975，2018。2[18] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2015年，国际会议。5[19] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。210841[20] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.基于流的静态图像时空视频预测。在ECCV，2018。2[21] William Lotter，Gabriel Kreiman，and David Cox.用于视频预测和无监督学习的深度预测编码网络在ICLR，2017。2[22] Michael Mathieu，Camille Couprie，and Yann LeCun.超越均方误差的深度多尺度视频预测。ICLR，2016年。二、五[23] 马克·奥留哈维尔·塞尔瓦和塞尔吉奥·埃斯卡莱拉用于未来视频预测的折叠在ECCV，2018。五、六、七[24] Viorica Patraucean、Ankur Handa和Roberto Cipolla。具有可微分存储器的时空视频自动编码器。在ICLR研讨会，2016年。2[25] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。四、五[26] MarcAurelio Ranzato 、 Arthur Szlam 、 Joan Bruna 、Michael Mathieu、Ronan Collobert和Sumit Chopra。视频（语言）建模：自然视频生成模型的基线arXiv预印本arXiv：1412.6604，2014。2[27] Shi XingShi ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水预报的机器学习方法InNeurIPS，2015. 一、二、四[28] Xiangsheng Shi ， Zhihan Gao ， Leonard Lausen ， HaoWang ， Dit- Yan Yeung ，Wai-kin Wong ， and Wang-chun Woo.降水临近预报的深度学习：一个标杆，一个新模式。NeurIPS，2017。2[29] NitishSrivastava，ElmanMansimov，andRuslanSalakhutdi-nov.使用lstms的视频表示的无监督学习。ICML，2015。2[30] Sergey Tulyakov，Ming-Yu Liu，Xiaodong Yang，andJan Kautz. Mocogan：分解运动和内容以生成视频。在CVPR，2018年。2[31] Ruben Villegas，Jimei Yang，Seunhoon Hong，XunyuLin，and Honglak Lee.分解用于自然视频序列预测的运动和内容。在ICLR，2017。二五六七[32] Ruben Villegas，Jimei Yang，Yuliang Zou，SungryullSohn，Xunyu Lin，and Honglak Lee.学习通过分层预测生成ICML，2

下载后可阅读完整内容，剩余1页未读，立即下载