MT-VAE：运动变换驱动的多模态人体动态生成

118 浏览量更新于2024-06-20 收藏 3.14MB PDF 举报

MT-VAE（Motion Transformation Variational Autoencoder）是一种创新的深度学习模型，专为处理和生成多模态人体动力学而设计。该模型的核心在于其对运动模式的理解和建模，它将人体运动分解为一系列可学习的运动模式（如基本运动或行走循环），每个模式由低维度的特征向量表示。MT-VAE的目标是通过学习运动模式之间的转换，能够在给定一个短期运动序列（当前运动模式）时，预测并生成后续的运动模式，从而实现人体动作的连续性和连贯性。模型的工作原理包括两个主要部分：运动编码和解码。在运动编码阶段，模型接收输入的人体运动序列，将其转化为潜在空间中的特征向量，这个过程也被称为“重建”，有助于提取关键的运动特征。然后，MT-VAE学习如何在潜在空间中表示运动模式间的转换，即特征向量之间的变换。这个过程类似于一个差异，或者说是潜在空间中的运动模式转移。在解码阶段，模型利用学习到的转换功能，从潜在空间中随机采样特征向量，生成新的运动序列。这一过程可以看作是从已知的运动模式A到未知的运动模式B的迁移，通过潜在空间的抽样和解码器生成一系列可能的未来运动序列。值得注意的是，MT-VAE不仅能够生成单一的未来运动模式，还能生成多个不同的、合理的运动序列，这增加了其灵活性和多样性。 MT-VAE的应用场景非常广泛，包括但不限于虚拟角色动画、基于视频的动画编辑以及人机交互界面的设计。它通过模拟运动传输和视频合成技术，能够将学习到的运动模式应用到实际的生产和娱乐领域，提升用户体验和内容创作的效率和质量。在阿卡什·拉斯特戈伊、鲁本·维尔加斯、卡尔扬·孙卡瓦利等人合作的研究中，MT-VAE是在Adobe Research实习期间的部分成果，展示了跨学科团队在人工智能领域的前沿探索和创新。这种模型的发展预示着在计算机视觉、图形学和机器智能领域，对于人体运动理解和生成能力的持续增强。

X. Yan等

在先前的工作中，由于以下原因，学习生成多样的和合理的视觉数据是非常有

挑战性的：首先，在没有一对多对的情况下可能发生模式崩溃收集存在一对多

对的序列数据是不平凡的。其次，当生成模型基于递归神经网络时，可能发生

后验崩溃。

问题表述和方法

我们首先概述一下我们的问题。给出一个

个观测序列

[

，

···

，

]，

其中

∈

是表示时间

的观测的

维向量

这些观察对移动对象的结构进行编

码，并且可以以不同的方式表示，例如，作为关键点位置或形状

姿态参数。这些观察结果的

变化

编码了我们在建模中感兴趣的运动我们将整

个序列称为

运动模式

。给定运动模式

∈

RT×D

，我们的目标是建立一个能够

预测未来的

运动模式，

[

，

···

，

]

，其中

∈

表示预测的第

步

在

将来

，即，

。我们首先讨论了两个

可能用于此任务的基线模型（

3.1

节），然后介绍了我们的方法

（第3.2节）。

3.1

预赛

用于序列生成的预测

LSTM 图2（a）示出了作为运动预测任务的基线的简单编码

器-解码器LSTM [50，25]。在时间t，编码器LSTM将运动x

作为输入并更新其内

部表示。在经历整个运动模式

之后，它输出固定长度的特征e

∈R

作为中间

表示。我们初始化解码器LSTM的内部表示，

计算特征

。在解码阶段的时间

，解码器LSTM预测运动

。这样，解码器

LSTM逐渐预测整个运动模式

，

· · ·

，

]在未来T步内。我们将编码器LSTM表示为

函数

：

→

，解码器

LSTM

为函数

：

→

。

作为设计选择，

我们用额外的输入

初始化解码器

LSTM

，

以实现更平滑的预测。

用于序列生成的香草

VAE 由于确定性LSTM模型未能反映人体运动的多模态性

质，因此我们考虑统计模型p

（S

），由θ参数化。给定观察到的序列

，模

型估计可能的未来序列

的概率，而不是单个结果。要对多-

模态（即，

可以转变到不同

的

未来序列

如下生成：

样本潜在变量

（

，

）;

给定

和

，生成长度为

的序列

：

（

，

）

;

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

MT-VAE：运动变换驱动的多模态人体动态生成

华福证券-计算机：多模态，AI大模型新一轮革命.pdf

FoodMLLM-JP：利用多模态大型语言模型进行日文食谱生成

2019-多模态学习方法综述1

给我推荐20个比流行的多模态模型

在《微软GPT-4：迈向通用人工智能的里程碑》中，GPT-4如何通过多模态和跨学科应用在代码编写和数学问题上体现其综合能力？

ant.design有哪些组件？

在《微软GPT-4：迈向通用人工智能的里程碑》的早期实验中，GPT-4展现出了怎样的多模态和跨学科应用能力，特别是在代码编写和数学问题解决方面有哪些具体表现？

1分别用tkinter和pyqt5实现同一个完整文件资源管理器的GUI程序时，实现相同的功能的两个库分别对应各自的什么控件、类、方法，请尽可能细致地罗列出来

u, u_hat, omega = VMD(f, alpha, tau, K, DC, init, tol)解释这段代码

最新资源