随机点过程的变分自动编码模型

159 浏览量更新于2023-10-19 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3165随机点过程的变分自动编码模型Nazanin Mehrasa1，3，Akash Abdu Jyothi1，3，Thibaut Durand1，3，Jiawei He1，3，Leonid Sigal2，3，Greg Mori1，31 Simon Fraser University2 University of British Columbia3 Borealis AI{nmehrasa，aabdujyo，tdurand，jha203}@ sfu.calsigal@cs.ubc.camori@cs.sfu.ca摘要我们提出了一种新的概率生成模型的动作序列。该模型被称为动作点过程VAE（APP-VAE），一个变分自动编码器，可以捕获的时间和类别的动作序列的分布。对各种可能的动作序列进行建模是一个挑战，我们表明可以通过APP-VAE使用潜在表示和非线性函数来参数化分布来解决这个问题，其中事件可能在序列中的下一个我们在MultiTHUMOS和Breakfast数据集上实证验证了APP-VAE对动作序列建模的有效性1. 介绍对动作序列随时间的演变进行建模的预期推理是人类活动理解中的一个基本挑战。对未来进行预测的问题的关键在于，对于有趣的领域，未来是不确定的--给定如图1所示的1、未来行为的分布具有相当大的熵。在这项工作中，我们提出了一个强大的生成方法，可以有效地建模的类别和时间的可变性，包括动作序列。在这个领域中的许多工作集中在将视频的帧级数据作为输入，以便预测可能在不久的将来发生的动作或活动最近也有人对预测未来发生的动作序列的任务感兴趣[6，32，1]。时间序列数据通常涉及规则间隔的数据点，其中有趣的事件在时间上稀疏地发生。这在视频的情况下是真实的，其中我们具有规则的帧速率，但是感兴趣的事件仅存在于不频繁的一些帧中。我们假设，为了在这种情况下对未来事件进行建模，最好单独考虑稀疏事件的历史（上述示例中的动作类别及其时间发生而图1.预测是困难的，尤其是对未来的预测。鉴于过去的行动历史，未来可能会有多个行动。我们专注于学习未来动作的分布问题帧的历史包含丰富的信息，除了稀疏的事件历史之外，我们可以通过选择仅对事件的稀疏序列建模来为更远的未来发生的未来事件创建模型这种方法还允许我们对时间序列数据中的高级语义含义进行建模，这些语义含义可能难以从跨时间规则的低级数据点中辨别出来。我们的模型是在变分自动编码器（VAE）[15]范式中制定的，这是一类强大的概率模型，有助于生成和建模复杂分布的能力。我们提出了一种新的形式下的动作序列的点过程方法的VAE。该方法具有许多优点，包括动作序列的概率处理，以允许可能性评估、生成和异常检测。贡献这项工作的贡献围绕APP-VAE（动作点过程VAE），异步时间动作序列的一种本文的贡献包括：• 变分自动编码器范例内点过程数据建模的新公式。• 异步时间数据编码的条件先验模型。3166图2.鉴于行动的历史，APP-VAE在下一步中生成可能行动的分布APP-VAE可以循环执行此操作，以模拟可能遵循的各种动作序列。该图显示了在给定前三个动作的历史的情况下，篮球比赛中第四个动作的分布。• 一种概率模型，用于联合捕获行动将发生以及何时发生的不确定性2. 相关工作活动预测。大多数活动预测任务是基于帧的，即。模型的输入是动作开始之前的一系列帧，任务是预测接下来会发生Lan等人[18]通过在最大边缘框架中的每个级别具有不同的分类器，从短剪辑的分层表示预测未来动作Mahmud等人[20]通过多流框架联合预测未来活动及其开始时间。每个流试图捕捉不同的特征，以便为未来的预测提供更丰富的特征表示：一个流用于视觉信息，一个流用于以前的活动，最后一个流关注最后一个活动。Farha等人[1]提出了一个框架，用于预测一系列未来活动的行动类别以及它们的开始和结束时间。他们提出了两个确定性模型，一个使用RNN和HMM的组合，另一个是CNN预测一个矩阵，未来的动作被编码在其中。异步动作预测。我们专注于预测未来的行动给定的一系列以前的行动是异步的时间的任务。Du等人[6]提出了一个递归的时间模型，用于在给定先前活动历史的情况下学习下一个活动的时间和类别。他们的递归模型学习历史到时间点过程框架的强度函数的非线性映射。Zhong等[32]还介绍了一种用于未来动作预测的分层递归网络模型，用于对未来动作时序和类别进行建模。他们的模型采用帧级信息以及历史中稀疏的高级事件信息来学习时间点过程的强度函数Xiao等[28]介绍了一种无亮度的时间点生成方法。他们模型的生成部分是Wasserstein GAN在时间点过程的上下文中学习生成动作序列。早期行动预测。我们的工作与早期行动预测有关。这个任务是指在给定活动的初始帧的情况下预测动作[19，10，25]。我们的任务与早期行动预测不同，因为模型在预测行动时没有任何关于行动的信息。最近Yu et al. [31]使用变分自动编码器从历史帧中学习并将其传输到未来。Sadegh Aliakbarian等人[24]使用多阶段LSTM模型结合上下文和动作信息来预测未来的该模型使用损失函数进行训练，该损失函数鼓励模型用很少的观察来预测动作。Gao等人[7]建议使用增强的编码器-解码器网络来预测未来的活动。Damen等人[3]提出了一种半监督的变分递归神经网络来模拟人类活动，包括人类活动的分类、预测、检测和视频预测视频预测最近已经在几个作品中进行了研究。Denton和Fergus [5]使用了一种可变的自动编码器框架，该框架具有学习的优先级，以生成未来的视频帧。He等人[9]也提出了一个新的概念。未来预测的迭代模型它们通过添加控制特征来构造Vondrick等人[27]使用对抗性学习来生成未来的视频，并转换过去的像素。Patraucean等人[23]描述了一种时空自动编码器，其在其学习准则中使用重构来将光流预测为密集图。Villegas等人[26]提出了一种像素级视频生成的分层方法，在渲染到预测的未来帧之前对身体姿势进行推理。3. 异步动作序列建模我们首先介绍一些符号和问题的定义。然后，我们回顾了VAE模型和时间3167φ图3.我们提出了异步动作序列建模的递归VAE模型。在每个时间步，模型使用动作的历史和到达间隔时间来生成潜在代码的分布，然后将其样本解码为下一个动作的两个概率分布：一个是可能的动作标签，一个是到达间隔时间。我们的模型中使用的点过程。随后，我们详细介绍了我们的模型以及它是如何训练的。问题定义。输入是一系列动作这种模型的最大设计选择是将每个时间步长的VAE与RNN/LSTM时间建模相集成。因此，ELBO变为时间步长变分下限1的总和：x1：n=（x1，. . .，xn），其中xn是第n个动作。AC-动作xn=（an，τn）由动作范畴表示a n∈ {1，2，. . .，K}（K个离散动作类）和到达间隔时间τn∈R+。到达间隔时间为L（θ，φ，θ）=ΣNn=1ΣEq（z1：n|x 1:n）[logp θ（x n|x1：n−1，z1：n）]Σ动作开始时间xn−1和xn之间的差。我们将异步动作分布建模任务公式化如下：给定一个动作序列x1：n−1，目标是产生一个动作n将接下来发生的，以及到达间隔时间τn。我们的目标是开发概率模型，以捕捉这些什么和什么时候的动作序列建模问题的不确定性。3.1. 背景：基础模型可变自动编码器（VAE）。VAE [15]描述了具有简单先验p θ（z）（通常选择为多元高斯）和复似然p θ（x）的生成过程|z）（产生的参数神经网络）。 x和z是观察到的，潜在变量是能，分别。对合难治性后部-KL（q φ（z n|x1：n）||p（z n|x1：n−1））。（二）具有“先验”p（z n|x1：n−1），其在所使用的N个时间步长上演变。时间点过程。时间点过程是一种随机模型，用于捕获一系列事件的到达时间间隔用条件强度函数λ（τn）来刻画时间点过程|x1：n−1），其以过去事件x1：n-1为条件（例如，行动在这项工作中）。条件强度编码时间τ处的瞬时概率。给定n-1个过去动作的历史，下一个动作时间的概率密度函数为：τ，n-λ（u|x 1：n−1）dup θ（z|x）与识别神经网络q φ（z|x），pa-f（τ n|x1：n−1）= λ（τ n|x1：n−1）e 0（三）生成模型θ的参数以及识别可以通过最大化边际似然pθ（x）上的证据下限L来联合优化模型φ：logpθ（x）=KL（qφ<$pθ）+L（θ，φ）泊松过程[16]是一个流行的时间点过程，它假设事件的发生是相互独立的。条件强度为λ（τ n|x1：n−1）=λ其中λ是正常数。更复杂的条件≥ L（θ，φ）=−EqΣ日志Σq φ（z|X）。（一）强度已被提出，如霍克斯过程[8]，自我纠正过程[13]。所有这些有条件的inten-φpθ（z，x）sity函数试图捕获对最近的工作将VAE扩展到时间序列数据，包括视频[2，5，9]，文本[4，12]或音频[30]。一个流行的-[1]请注意，根据递归结构的确切形式及其VAE实例化，存在变体。公司简介没下雨3168θθφθφnτ过去的行动。然而，在实践中，依赖关系的真实模型是永远不知道的[21]，性能下降，在给定潜在代码Zn的情况下，p θ（x n|z n）=p θ（a n，τ n|z n）= p a（a n|z n）p τ（τn|zn）（6）取决于条件强度的设计在这项工作中，θ θ我们学习了一个递归模型，它估计了条件输入-其中p a（a n|z n）（分别 p τ（τ n|（z n））是条件根，θ θ基于行动历史的紧张度。3.2. 该方法我们提出了一个生成模型的异步动作序列建模使用的VAE框架。图3显示了我们模型的架构。总的来说，输入序列的行动和到达时间间隔编码使用一个经常性的VAE模型。在每一步，模型使用动作的历史来产生潜在代码z n上的分布，然后将其样本解码为两个概率分布：一个是可能的动作类别，另一个是下一个动作的到达间隔时间。我们现在详细介绍我们的模型。模型在训练期间的时间步长n，模型将作为预测模型的目标的动作xn和过去动作的历史x1：n-1作为输入。这些输入用于计算条件分布q φ（z n|x1：n）从中采样潜码Z 自从真正的动作类别的迭代模型（分别为到达间隔时间）。这是事件预测中的标准假设[6，32]。序列模型生成两个概率分布：（i）动作类别上的类别分布和（ii）下一动作的到达间隔时间上的时间点过程分布当n只能取有限个值时，动作类别上的分布用多项分布建模ΣKp a（a n=k|z n）= pk（z n）且pk（z n）= 1 （7）k=1其中pk（zn）是动作k的发生概率，K是动作类别的总数。假设到达间隔时间遵循由λ（zn）参数化的指数分布，类似于标准时间点过程模型：.λ（zn）e−λ（zn）τnifτn≥0n在潜在变量zn上的分布是难以处理的，我们依赖于pθ（τ n|zn）=0如果τn（八）<0关于时间依赖推理网络q φ（z n|x1：n），用条件高斯分布其中p τ（τ n|z n）是在ran上的概率密度函数，N（µφn，σ2n）的情况。为了防止znfrom just copying复制x xn，我们迫使dom变量τn和λ（zn）是过程的强度其取决于潜在变量样本zn。q φ（z n|x1：n）接近先验分布p（z n）us-一个KL发散项。通常在VAE模型中，p（zn）是固定的高斯N（0，I）。但使用固定先验的缺点是，每个时间步长的样本是随机绘制的，因此忽略了时间依赖性，补间动作。为了克服这个问题，一个解决方案是学习我们通过优化由N个步骤组成的整个序列的变分下限来训练模型：ΣN学习随时间变化的先验，其是除当前动作p n（z n+1）之外的所有过去动作的函数|x1：n）。先验和近似后验都被建模为多变量，Lθ，φ（x1：N）=n=1（Eqφ（zn|x1：n）[log p θ（x n|（9）- D KL（q φ（z n|x1：n）||p（z n|x1：n−1）将具有对角协方差的高斯分布与参数进行比较，如下所示：由于动作类别和到达间隔时间在给定潜在代码zn的情况下是连续独立的，因此，q φ（z n|x1：n）= N（μ φnp（z n+1|x1：n）= N（µ m（2）（4），σ2）（5）可能性项可以写成如下：Eqφ（zn|x1：n）[log p θ（x n|z n）]=（10）n+1n+1a τ在步骤n，后验网络和先验网络都观察到动作x1：n，但后验网络输出当前动作xn的条件高斯分布Eqφ（zn|x1：n）[log pθ（a n|z n）]+ Eqφ（zn|x1：n）[log pθ（τn|z n）]给定pa的形式，对数似然项简化为预测动作类别dis之间的交叉熵a n（a n|z n）和地面真值标记an。给定而先验网络输出con-θn的参数，下一个动作xn+1的高斯分布。在训练期间的每个时间步，潜在变量zn从后验分布q φ（z n）中得出|x1：n）。的地面真实到达间隔时间τn，我们在预测的分布输出动作然后从分布中采样xnΣ∫日志∗Στn+ τp τ（τ n|z n）d τ n= log（1−e−λ（zn）<$τ）（11），σ3169τnp θ（x n|z n）的条件生成模型，即pa-θ用θ表示。为了数学上的方便，我们记为-n·动作类别和到达间隔时间是条件，-λ（zn）τ3170θθθθθnnφψn a，τ nnn nn−1我们使用重新参数化技巧[15]从编码器网络qφ中采样。一代我们的目标是生成n个xt动作xn=动作类别fa（zn）的解码器网络是具有softmax输出的多层感知器，以生成等式中的概率分布。第七章：p a（a n|z n）= f a（z n）（19）（an，τn）g iv en一个过去动作序列x1：n−1。gen-θ θ在图3的底部显示了曝气过程。在测试时间，步骤n处的动作通过首先对zn进行采样来生成从先前的。先验分布的参数是基于过去的n-1个动作x1：n-1计算的。然后，生成动作猫时间an和间隔时间τn，如下所示：如下所示：用于到达间隔时间fτ（zn）的解码器网络是另一个多层感知器，产生用于等式中的时间分布的点过程模型的参数。第八章：λ（zn）=fτ（zn）（20）阿贡 an（an |z n)陶恩 τn|zn）（12）在训练过程中，所有网络的参数以端到端的方式联合学习。架构我们现在详细描述我们模型的架构。在步骤n，当前动作xn被嵌入到具有两步嵌入策略的向量表示xemb中。首先，我们分别计算动作类别（an）和到达间隔时间（τn）的表示。然后，我们连接这两个表示并计算动作的新表示xemb。aemb=femb（an）τemb=femb（τn）（13）4. 实验数据集。我们使用APP-VAE在两个动作识别数据集上进行了实验。我们使用标准的训练集和测试集。MultiTHUMOS数据集[29]是一个具有挑战性的动作识别数据集平均而言，每个视频有10.5个动作类标签，每帧有1.5个动作。n a n τxemb=f emb（[aemb，τ emb]）（14）我们使用1-hot编码来表示动作类别标签。然后，我们有两个分支：一个用于估计后验分布的参数，另一个用于估计先验分布的参数。这两个分支的网络结构相似，但我们使用不同的网络，因为先验和后验分布捕获不同的信息。每个分支都有一个长短期记忆（LSTM）[11]来将当前动作和过去的动作编码成向量表示：hpost=LSTMφ（xemb，hpost）（15）早餐数据集[17]包含1712个早餐视频准备48个动作类。这些动作由52人在18个不同的厨房里完成。建筑细节。APP-VAE模型架构如图所示。3.第三章。动作类别和到达间隔时间输入均通过ReLU激活的2层MLP传递。然后将它们连接在一起，并跟随一个线性层。先验和后验LSTM的隐藏状态是128.先验和后验网络都是2层MLP，第一层之后是ReLU激活潜码的维数是256。动作解码器是一个3层MLP，前两层是ReLU，最后一层是softmaxn n n−1hprior=LSTM（xemb，hprior）（16）递归网络将可变长度的序列转化为有意义的、固定大小的表示。后验LSTMhpost（resp. prior LSTMhprior）被传递时间解码器也是一个3层MLP，在前两层，将指数非线性应用于输出，以确保点过程的参数为正。n n进入后验（也称为推理）网络fpost（resp.先验网络f先验），其输出高斯分布的参数：实作详细数据。这些模型使用PyTorch [22]实现，并使用Adam [14] opti- mizer训练1，500个epoch，批量大小为32，学习率为0.01.我们将两个数据集的标准训练集µφ ，σ2= f post（h post）（17）训练集和验证集分别包含70%和30%nφnφnµm，σ2=fprior（hprior）（18）样品分别。我们选择最好的模型，nnn然后，从后验（或测试期间的先验）分布中采样潜在变量zn，并将其馈送到解码器网络，用于生成动作类别ann和到3171达间隔时间τn上的分布。基于模型损失的训练（等式2）10）在验证集上。基线。我们比较了APP-VAE与以下模型的动作预测任务。3172θλ（z）数据集模型Stoch 变种会早餐APP-LSTMAPP-VAE，无既往学习的APP-VAE-✓✓-6.668≥-9.427≥-5.944MultiTUHMOSAPP-LSTMAPP-VAE，无既往学习的APP-VAE-✓✓-4.190≥-5.344≥-3.838表1.早餐和MultiTHUMOS数据集的对数似然比较• 时间确定性LSTM（TD-LSTM）。这是一个普通的LSTM模型，它被训练来预测下动作类别和到达间隔时间，与Farha等人提出的模型相媲美。[1]的文件。该模型直接预测到达间隔时间，而不是其分布。TD-LSTM使用与APP-VAE相同的编码器网络。我们使用交叉熵损失进行动作类别输出，并使用类似于 [1] 的均方误差（MSE）损失在到达时间间隔上进行回归• Action Point Process LSTM（APP-LSTM）该基线预测与APP-VAE类似的到达时间间隔分布。该模型使用相同的重建损失函数，如在VAE模型中-APP-LSTM没有允许APP-VAE对动作类别和到达间隔时间的不同分布进行建模我们的APP-LSTM基线encom- passes Du等人。[6]工作。唯一的区别是我们对强度函数（IF）建模的方式。Du等人[6]将IS明确定义为时间的函数。这种设计选择已经在Zhong等人的研究中进行了研究。[32];隐式强度函数被证明是优越的，因此适用于我们的APP-LSTM基线。指标. 我们使用对数似然（LL）将我们的模型与APP-LSTM进行比较。我们还报告的准确性的行动类别预测和平均绝对误差（MAE）的到达时间预测。我们通过将模型输出中最可能的动作类别与地面实况类别进行比较来计算准确性为了计算MAE，我们使用预测分布p τ（τ n）下的期望到达间隔时间|zn）：4.1. 实验结果我们讨论了定量和定性的结果，从我们的实验。所有定量实验均采用教师强迫法进行.对于动作序列中的每个步骤，向模型馈送动作的基本事实历史，并且测量下一个动作的可能性和/或其它度量。定量结果。表1显示了比较APP-VAE与APP-LSTM的实验结果。为了估计我们模型的对数似然（LL），我们按照重要性抽样的标准方法，从近似后验分布中抽取1500个样本。APP-VAE在MultiTHUMOS和Breakfast数据集上的表现优于APP-LSTM。我们认为这是因为APP-VAE模型在模拟未来行动的复杂分布方面更好。表2显示了根据先前行动的历史预测未来行动的准确性和MAE。APP- VAE在这两个指标下都优于TD-LSTM和APP-LSTM。对于序列中的每一步，我们从先验分布中抽取1500个样本，这些样本对下一步动作进行建模在给定输出分布的情况下，我们选择概率最大的动作类别作为预测动作，到达间隔时间的期望值作为预测到达间隔时间。在1500个预测中，我们选择最频繁的动作作为该时间步的模型预测，并通过对相应的时间值进行平均来计算到达间隔时间表1和表2还显示了我们的模型与先验在所有时间步长中固定的情况在这个实验中，我们固定了标准正态分布N（0，I）的先验。我们可以看到，学习后的先验变量在整个过程中始终优于固定的先验变量所有数据集。具有固定先验的模型不能很好地执行，因为它学会了预测多数人的行为Epτ（τ|z）[τn]= ∫∞τ n·p τ（τ n|z n）dτ n=（二十一）类和训练集的平均到达间隔时间，忽略任何输入测试序列的历史。θn nθ0λ（zn）除了上述在每一步选择模式动作的策略外，我们还报告动作类别accu。期望值1和地面真值到达间隔n时间用于计算MAE。通过对所有1500个样本的预测求平均值获得的racy和MAE。我们在表4中总结了这些结果。13173图4.生成的序列的示例。给定历史（如左图所示），我们为后续时间步生成潜在代码z n的分布。从该分布中提取样本，并将其解码为动作类别和时间上的分布，通过选择具有最高概率的动作并计算所生成的分布在τ上的期望，从该分布中获得下一动作/时间对（等式21）。重复此过程以生成一系列动作。针对每个历史示出了两个这样的采样序列（a）和（b），并将其与相应的地面实况序列（与历史行一致）进行比较我们可以看到，APP-VAE能够产生多样化和合理的动作序列。数据集模型时间损失stoch。变种↑准确度↓MAETD-LSTMMSE-53.64173.76早餐APP-LSTMNLL-61.39152.17APP-VAE（无既往学习）NLL✓27.09270.75APP-VAENLL✓62.20142.65TD-LSTMMSE-29.742.33MultiTUHMOSAPP-LSTMNLL-36.311.99APP-VAE（无既往学习）NLL✓8.792.02APP-VAENLL✓39.301.89表2.动作类别预测的准确性和所有模型变量的到达间隔时间预测的平均绝对误差（MAE）。箭头显示分数越低（↓）或越高（↑）越好。接下来，我们通过改变潜在变量的大小来探索模型的架构。表5显示了我们的模型对不同大小的潜在变量的对数似然性。我们看到，随着潜变量的大小增加，我们可以模拟更复杂的潜分布，从而获得更好的性能。定性结果。图4示出了给定历史由APP-VAE生成的不同未来动作序列对于不同的提供的历史，采样se-示出了动作的顺序。我们注意到，早餐数据集上的整体持续时间和操作顺序是合理的。变化，例如在使用榨汁机之前先把它拿走，在煮鸡蛋之前加入盐和胡椒，都是我们模型产生的合理替代方案。图5可视化了对其中一个潜在代码的遍历通过在μ−5σ，μ+ 5σ上对一个z维进行均匀采样，同时将其他z维固定到它们的采样值，来获得三个不同的z维如图所示，该尺寸对应于-紧跟着动作加椒盐，煎鸡蛋3174高似然1NoHuman，CliffDiving，Diving，Jump，BodyRoll，CliffDiving，Diving，Jump，BodyRoll，CliffDiving，Diving，Jump，BodyRoll，BodyContract，Run，CliffDiving，Diving，Jump，.，BodyRoll，CliffDiving，Diving，BodyContract，CliffDiving，Diving，CliffDiving，Diving，Jump，CliffDiving，Diving，Walk，Run，Jump， Jump2CleanAndJerk，PickUp，BodyContract，Squat，StandUp，BodyContract，Squat，CleanAndJerk，PickUp，StandUp，BodyContract，Squat，CleanAndJerk，PickUp，StandUp，Drop，BodyContract，Squat，PickUp，.，下蹲，站立，下降，身体接触，下蹲，非人类低似然1NoHuman，TalkToCamera，高尔夫挥杆，NoHuman2NoHuman ， HammerThrow ， TalkToCamera ， CloseUpTalkToCamera ， HammerThrow ， HammerThrow ，HammerThrow ， TalkToCamera ， . ， HammerThrow ， HammerThrow ， HammerThrow ， HammerThrow ，HammerThrow ， HammerThrow ， HammerThrow ， HammerThrow ， HammerThrow ， HammerThrow ，HammerThrow，HammerThrow表3.根据我们学习的模型，具有高和低可能性的测试序列示例潜在大小32 64 128 256 512电话：+86-10 - 88888888传真：+86-10 - 88888888表5.MultiTHUMOS上具有不同潜在变量维度的APP-VAE的对数似然图5. 潜在代码操作。子人物未来行动的历史+基础事实标签是：(a)“SIL，打蛋”→“加椒盐”，（b）“SIL，取盘，打蛋”→“加椒盐”和（c）“SIL，倒油，打鸡蛋”→“加盐和胡椒粉”。数据集模型ACCMae早餐APP-VAE -平均值59.02145.95APP-VAE模式62.20142.65MultiTUHMOSAPP-VAE -平均值35.231.96APP-VAE模式39.301.89表4.模式下的准确度（Acc）和平均绝对误差（MAE）以及样本平均值。煎鸡蛋。我们进一步定性地研究了模型对单个测试样本的可能性进行评分的能力我们根据每个时间步的平均值对测试动作序列进行排序，通过从遵循重要抽样方法的近似后验分布中抽取1500个样本来估计每个时间步的平均值。高分序列应该是我们的模型认为是“正常”的序列选项卡. 图3示出了具有低和高似然性的序列的一些示例，3175MultiTHUMOS数据集。我们注意到，一个有规律的，结构化的动作序列，如跳跃，身体滚动，悬崖跳水动作或身体合同，蹲下，清洁和挺举举重动作接收高的可能性。然而，重复的链球投掷或高尔夫挥杆没有设置动作接收低的可能性。最后，我们在Breakfast数据集上比较了异步APP-LSTM与同步变体（具有恒定帧速率）同步模型一次预测一个步骤的动作，并对序列进行后处理以推断每个动作的持续时间。MAE时间（ 152.17 vs 1459.99 ）和动作预测准确度（61.39% vs 28.24%）的性能均显著较差。一个合理的解释是，LSTM无法处理非常长期的依赖性。5. 结论我们提出了一种新的点过程数据的概率模型-一个变分自动编码器，捕获动作时间和类别标签的不确定性。作为一种生成模型，它可以通过从先验分布中采样来产生动作序列，先验分布的参数基于神经网络进行更新，神经网络控制下一个动作类型及其时间发生的分布该模型还可以用来分析给定的输入序列的行动，以确定观察特定序列的可能性我们的经验表明，该模型是有效的捕捉任务，如动作预测和异常检测固有的不确定性。3176引用[1] Yazan Abu Farha、Alexander Richard和Juergen Gall。你什么时候做什么？- 预期活动的时间发生在IEEE计算机视觉和模式识别会议，2018。一、二、六[2] 放大图片创作者：Michael H.坎贝尔和谢尔盖·莱文。随机变分视频预测。在国际会议上学习表示（ICLR），2018年。3[3] JudithB u¨ tepage、HedvigKjellst ro¨ m和DanicaKragic。分类、预测、检测、预测和综合：人类活动模型的层次递归潜变量模型。 arXiv 预印本 arXiv ： 1809.08875 ，2018。2[4] Junyoung Chung、Kyle Kastner、Laurent Dinh、KratarthGoel、Aaron C Courville和Yoshua Bengio。序列数据的递归潜变量模型神经信息处理系统的进展，第2980-2988页，2015年3[5] 艾米丽·丹顿和罗伯·费格斯随机视频生成与事先学习。在2018年的国际机器学习会议（ICML）上。二、三[6] Nan Du ， Hanjun Dai ， Rakshit Trivedi ， UtkarshUpadhyay ， Manuel Gomez-Rodriguez ， and Le Song.Recurrent marked temporal point processes ： Embeddingevent history to vector.2016年ACM SIGKDD知识发现和数据挖掘国际会议。一、二、四、六[7] Jiyang Gao，Zhenheng Yang，and Ram Nevatia.红色：重新强化的编码器-解码器网络，用于动作预测。CoRR，abs/1707.04818，2017。2[8] 艾伦·霍克斯一些自激和互激点过程的谱。生物统计学，1971年。3[9] Jiawei He ， Andreas Lehrmann ， Joseph Marino ， GregMori，and Leonid Sigal.使用整体属性控制的概率视频生成欧洲计算机视觉会议（ECCV），2018年9月。二、三[10] M. Hoai和F.德拉·托雷最大裕度早期事件检测器。在IEEE计算机视觉和模式识别会议（CVPR），2012年。2[11] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经元计算，1997年。5[12] 胡志廷，杨子超，梁晓丹，鲁斯兰·萨拉胡特-迪诺夫，邢鹏.控制文本的生成在国际机器学习会议上，第1587-1596页，2017年。3[13] 瓦莱丽·伊舍姆和马克·韦斯科特一个自校正点过程。随机过程及其应用，1979年。3[14] Diederick P Kingma和Jimmy Ba。亚当：一种方法用于随机优化。国际学习代表大会（ICLR），2015年。5[15] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。在国际学习代表会议（ICLR），2014年。一、三、五[16] J. F. C.金曼泊松过程1993. 3[17] Hilde Kuehne，Ali Arslan，and Thomas Serre.行动的语言：恢复目标的语义和语义-指导人类活动。在IEEE计算机视觉和模式识别会议（CVPR），2014年。5[18] 田兰，陈宗全，西尔维奥·萨瓦雷塞。一种用于未来动作预测的代数表示。在2014年的欧洲计算机视觉会议（ECCV）上2[19] S.马湖，加-地Sigal和S. Scaroff用于活动检测和早期检测的lstms中的学习活动进展。在cvpr，2016年。2[20] Tahmida Mahmud，Mahmudul Hasan，and Amit K.罗伊-乔杜里。未修剪视频中活动标签和开始时间的联合预测。在IEEE国际计算机视觉会议（ICCV），2017年。2[21] 梅洪源和杰森·艾斯纳。神经霍克斯过程：一种神经自调制多变量点过程。神经信息处理系统进展，2017年。4[22] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动差分。神经信息处理系统进展（NIPS），2017年。5[23] VioricaPapastrtraapastrucean，AnkurHanda，andRobertoCipolla. 具有可微分存储器的时空视频自动编码器2016年国际学习代表会议（ICLR）研讨会。2[24] Mohammad Sadegh Aliakbarian、Fatemeh Sadat Saleh、Mathieu Salzmann、Basura Fernando、Lars Petersson和Lars Andersson 。鼓励 LSTM 尽早采取行动。IEEEInternationalConferenceonComputerVision（ICCV），2017年。2[25] Yuge Shi，Basura Fernando，and Richard Hartley.基于径向基函数核特征映射的动作在欧洲计算机视觉会议（ECCV）上，2018年9月。2[26] Ruben Villegas ，Jimei Yang，Yuliang Zou，SungryullSohn，Xunyu Lin，and Honglak Lee.通过分层预测学习生成长期未来。 2017 年，国际机器学习会议（ICML）。2[27] 卡尔·冯德里克和安东尼奥·托拉尔巴用对抗性的变形金刚生成未来。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。2[28] Shuai Xiao，Mehrdad Farajtabar，Xiaojing Ye，JunchiYan，Le Song，and Hongyuan Zha.深度生成点过程模型的Wasserstein学习。在神经信息处理系统（NIPS）的进展，2017年。2[29] Serena Yeung，Olga Russakovsky，Ning Jin，MykhayloAndriluka，Greg Mori和Li Fei-Fei。每一刻都很重要：复杂视频中动作的密集详细标记。国际计算机视觉杂志（IJCV），2017年。5[30] 李英珍和斯蒂芬·曼特。解开顺序自动编码器。2018年国际机器学习会议。3[31] 于润生，施振宇，来云卿。无监督学习辅助预测：使用未来表示学习变分自动编码器进行人类动作预测。CoRR，abs/1711.09265，2017。23177[32] Y.钟湾，澳-地徐，G.- T.周湖，加-地Bornn和G. 森时间感知机器：时间点过程的时间，地点和什么活动预测。ArXiv电子打印，2018年8月。一、二、四、六

下载后可阅读完整内容，剩余1页未读，立即下载