姿势引导的视频生成技术：结合姿态序列与语义一致

21 浏览量更新于2024-06-20 收藏 1.79MB PDF 举报

"本文主要探讨了姿势引导的人体视频生成技术，通过利用生成对抗网络（GANs）来实现对人体动态和外观的精确控制。作者提出了两阶段的方法，首先使用姿势序列生成对抗网络（PSGAN）生成类别的条件姿势序列，然后通过语义一致生成对抗网络（SCGAN）从这些姿势生成连贯的视频帧，同时保持输入图像的外观一致性。这种方法通过在高层特征级别上确保生成的姿势与真实姿势的语义一致性，增强了对噪声和异常姿势的鲁棒性。实验结果显示，该方法在人体动作和人脸数据集上表现出优越性能，对于人体视频生成和视频理解任务的数据增强具有重要意义。" 文章详细阐述了人体视频生成的挑战，包括时间平滑性和人体运动的不确定性。为了解决这些问题，作者强调了姿势作为运动模式内在且可解释的表示形式的重要性，因为它不受外观变化的影响，并能施加几何约束。在第一阶段，PSGAN采用对抗学习策略，以特定类别标签为条件生成连续的姿势序列，这有助于控制视频中的动态行为。第二阶段的SCGAN则从这些姿势序列出发，生成视觉上连贯的视频帧，同时保持输入图像的外观特征不变，从而解决了视频生成中的外观一致性问题。此外，文章还提到了其他一些相关工作，如将视频分解为固定和时间变化的成分、使用双流生成模型分离前景和背景动态，以及生成一组潜在变量来转换为视频等。这些方法虽然在某些方面有所创新，但与本文提出的姿势引导方法相比，可能在控制动态和外观一致性上存在不足。这篇论文对姿势引导的人体视频生成进行了深入研究，提供了一个有效且灵活的框架，可以用于创建逼真的人体动作视频，这对于动画、数据增强以及动作识别等领域具有广泛应用价值。关键词包括人体视频生成、姿态合成以及生成对抗网络，这些主题都是当前计算机视觉和机器学习领域的热点。

C.杨，Z. Wang，X. Zhu，C. Huang，J. Shi，D.中国植

物化学家，1989 - 1995. Lin

等人

随着对功能强大的GPU的访问和深度卷积网络的出现

，视频编码和

视频编解码[

- 6 ]也

获得了

更大

的内存作为示例，在[8]中提出了一种具有

时空卷积架构的GAN模型，以对视频中的前景场景动态进行建模。

Tulyakov

等人。

[10]还分解了视频生成的运动和内容。在[26]中，通过

双重学习机制使未来帧预测与视频中的像素流一致。其他作品将递归网

络引入视频生成（

例如

[27，28]）。与这些工作一致，我们的方法分别

使用PSGAN和SCGAN分别对运动和外观进行建模。这使我们能够控制的

运动模式明确和可解释的，据我们所知，这是人类视频生成的第一次尝

试。

方法

3.1

框架概述

给定人体或面部的输入图像和目标动作类（

例如，

、

Skip

、

TaiChi

、

Jump

），我们的目标是合成属于目标类别并且从输入图像开始的人

类动作或面部表情的视频。我们希望显式地控制所生成的视频中的

运动模式，同时保持与输入的外观一致性。在这里，我们建议以一种

解脱的方式生成人类视频：

合理的运动预测

和

连贯的外观生成

。图1

说明了我们的方法的总体框架

类似

于动作再现技术

[

11 -

14]，我们使用人类姿态或人类姿势来表示运

动动力学。我们的方法包括两个阶段。在第一阶段，我们从输入图像

中提取的姿态和姿态序列GAN（PSGAN）被提出来生成一个时间上平

滑的姿态序列的条件下的输入图像和目标动作类。在第二阶段，我们

专注于外观建模，并提出了一个语义一致的GAN（SCGAN），以产

生现实和连贯的视频帧的条件下，从阶段一的输入图像和姿势序列。

通过在高级表示空间中保持生成的姿势和地面实况姿势之间的语义一

致性来减轻噪声/异常姿势详情将在以下章节中详细阐述。

3.2

似然运动预测

在第一阶段中，从输入图像中提取的人体姿态与目标动作标签被馈

送到我们的PSGAN中以生成姿势序列。显然，这是一个病态的一对多

问题，具有无限的可能性。我们的PSGAN从训练集中的示例姿势序列

中学习，以模仿看似合理的运动模式。因此，我们的学习目标是丰富

的运动模式的建模，而不是精确的姿势坐标。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

姿势引导的视频生成技术：结合姿态序列与语义一致

Deep Person Generation A Survey from the Perspective of Face

环境感知引导的智能屏幕切换.pptx

Python_这个repo是使用PoseFree视频的FollowYourPose PoseGuided Textto.zip

帮我生成一段python代码，实现识别视频中人体摔倒姿势

像大部分人体图像生成3d模型的纹理和衣服是怎么生成的

人体姿势识别深度学习

opencv 人体姿势识别

视频理解又可以衍生出一些更深层次的技术，包括视频目标跟踪、主体描述、语义理解、事件检测、行为检测、文本视频相互生成等。

帮忙写30条有关数字人视频生成的程序员的开发流程

matlab基于视频的人体姿态检测

最新资源