没有合适的资源?快使用搜索试试~ 我知道了~
138430用于人体动作描述和合成的编程概念学习0Sumith Kulal * 斯坦福大学毛佳源 * MIT Alex Aiken†0斯坦福大学吴佳俊†0斯坦福大学0摘要0我们引入了编程动作概念,这是一种层次化的人体动作表示,既捕捉了低级动作,又捕捉了高级描述作为动作概念。这种表示使得人体动作描述、交互式编辑和控制合成新的视频序列能够在一个框架内完成。我们提出了一种架构,可以从配对的视频和动作序列中以半监督的方式学习这种概念表示。我们的表示的紧凑性还使我们能够提供一种低资源训练方法,实现数据高效学习。通过在小数据范围内优于已有的基线模型,我们证明了我们的框架在多个应用中的效率和有效性。01. 引言0新数据集的出现和机器学习的进展推动了几个视频分析任务的边界。特别是,在描述任务(如动作识别[20, 22, 36, 46, 47]和定位[4, 11,12, 44, 53, 57])以及合成任务(如人体动作合成[1, 14-16, 27, 37,43]和视频合成[5, 40, 45,50])方面取得了巨大的进展。然而,大多数这些模型仅关注于各自的视频描述或合成任务。我们认为这些任务最好是一起学习的。我们提出了一个单一框架,用于人体动作描述(在视频中识别和时间定位单个动作)、合成(从抽象描述生成视频)和编辑(添加或删除动作和其他细粒度操作)。我们的关键洞察是一种层次化的动作表示,编程动作概念(PMC)。从标准的低级输入(关键点序列)开始,我们首先从少量示例中学习高级动作概念(如跳跃动作)的分布,然后从重复该概念的较长序列中学习。我们自动分割这些序列。具体而言,对于每个动作概念和每个身体关键点,我们学习表示为三次样条的时间空间轨迹的分布。我们明确地学习整个动作概念的运动分布是使得我们能够进行良好的识别和定位的关键,因为我们的方法利用了整个动作概念跨越的个别关键点的运动信息。类似地,从这些分布中采样使我们能够直接合成自然的动作概念实例。PMC基于先前关于编程基于原始表示的层次化动作理解的工作[23]。如图1(I)所示,人体动作序列被表示为一系列动作原语,它们是紧凑且可解释的参数化曲线。我们进一步将动作概念表示为连续动作原语的分组,这些分组由人类命名,例如锻炼视频中的跳跃动作和下蹲动作,如图1(I)所示。这种表示选择既可以访问低级姿势序列,又可以访问高级描述序列作0*和†表示相等的贡献。项目页面:https://sumith1896.github.io/motion-concepts0我们自动分割。更具体地说,对于每个动作概念和每个身体关键点,我们学习表示为三次样条的时间空间轨迹的分布。我们明确地学习整个动作概念的运动分布是使得我们能够进行良好的识别和定位的关键,因为我们的方法利用了整个动作概念跨越的个别关键点的运动信息。类似地,从这些分布中采样使我们能够直接合成自然的动作概念实例。PMC基于先前关于编程基于原始表示的层次化动作理解的工作[23]。如图1(I)所示,人体动作序列被表示为一系列动作原语,它们是紧凑且可解释的参数化曲线。我们进一步将动作概念表示为连续动作原语的分组,这些分组由人类命名,例如锻炼视频中的跳跃动作和下蹲动作,如图1(I)所示。这种表示选择既可以访问低级姿势序列,又可以访问高级描述序列作为动作概念。0我们希望能够轻松高效地学习我们的表示,以便快速将该框架适应不同的领域。因此,我们提出从弱标注数据中学习这种表示。我们的输入数据仅通过少数几次鼠标点击由人类标注者对每个概念进行注释。例如,我们数据集中每个概念的注释都包含来自不超过15个锻炼视频的弱标签。如图1(II)所示,在每个视频中,人类标注者为包含跳跃动作重复的视频片段提供了起始点和终止点,以及三个单独跳跃动作实例的起始点和终止点。我们的方法从这些数据中学习了两个模型,一个识别模型可以应用于任何人体运动序列,以检测跳跃动作的出现,一个生成模型可以合成跳跃动作。0我们的数据高效学习算法的关键思想有三个。首先,我们的模型不是使用人体骨骼序列作为输入,而是在运动的时间-空间曲线表示上操作,这是一种强大但普适的视频人体运动归纳偏好。02:0800:0002:1302:1802:2402:0800:0002:1302:1802:2402:3302:33138440重复范围 实例范围0标签:跳跃撑腿021 × 跳跃撑腿 30 × 高抬腿冻结0概念(跳跃撑腿,运动 = [0样条(x = -0.07 * t^3 + 0.87 * t^2 + 1.74 * t + 275.45,y = ......,持续时间 = 15)样条(x = -0.07 * t^3 + 0.25* t^2 + 6.93 * t + 268.47,y = ......,持续时间 = 13)0])... 相似的运动 重复了 20 次0运动概念0运动基元(右手腕)0概念(高抬腿冻结,0运动 = [...]0) ... 相似的运动0II. 人工注释0I. 编程式运动概念0III. 运动描述、编辑和合成0输入视频概念注释的运动程序0概念(跳跃撑腿,运动 = [...])... 相似的运动重复了 20次概念(高抬腿冻结,运动 = [...])... 相似的运动重复了 29次0概念注释的运动程序(编辑)0概念(跳跃撑腿,运动 = [...])... 相似的运动重复了 21次概念(深蹲,运动 =)... 相似的运动重复了 19次概念(高抬腿冻结,运动 = [...])... 相似的运动重复了 29次0输出视频0?0运动合成0运动编辑0(双层)0运动0描述0图1.(I)我们提出了一种层次化的人体运动描述框架。每个视频都被表示为一系列运动概念,而每个运动概念又进一步作为一系列运动基元进行了基础化。(II)运动概念可以从非常少量的人工注释中学习:人工注释者标注了一个运动概念的重复范围以及在这组重复中的三个实例范围。(III)运动概念支持交互式编辑和视频合成。人类编辑者可以在概念级别或基元级别上灵活编辑人体运动视频。我们使用神经生成模型来渲染输出视频。0其次,我们的模型利用了单个视频中运动概念的重复性。通过标注重复的开始和结束以及一些动作的发生,我们的模型可以自动推断出重复范围内的所有实例。第三,识别和生成模型是联合训练的,旨在定位训练数据中各个动作的个别发生,并学习相应的运动序列分布,从而显著提高了我们的运动合成模型的质量。编程式运动概念支持多种人类视频分析任务,包括识别、定位、合成和编辑。如图1(III)所示,给定输入的运动序列,我们的模型会生成一个人类可解释的运动概念标签序列。每个标签都定位到输入的时间范围内。用户可以调整不同运动基元的参数,甚至编辑标签序列本身以合成新的运动序列。结合人体骨骼检测和骨骼到视频合成技术,我们的数据高效方法可以用于构建完整的视频到概念和概念到视频的工作流程。总之,我们的贡献包括:0•我们提出了一种新颖的人体运动的层次化表示,共同支持0•我们提出了一种数据高效的学习算法,利用基于运动原语0•最后,我们展示了我们的概念学习框架在三个下游任务上的效率和有效性:运动描述,动作条件下的运动合成以及受控运动和视频合成。我们还展示了交互式编辑的定性结果。02. 相关工作0动作识别和定位。大型数据集[4,022 , 47]已经使得深度学习架构能够在没有手动设计特征的情况下执行数据驱动的动作识别[8,46,49,51]。最近的研究还解决了与动作定位密切相关的问题[3,6,19,55,58],即预测动作的时间边界。目前在识别[2,29,41]和定位[54]方面的最先进方法涉及变种的Transformer架构。对我们来说最相关的是关于弱监督动作的工作。138450从视频级别标签中进行定位[18,35,52]。E-CTC[18]提出了一种扩展的CTC框架,强制帧相似性一致性。其他工作[35,52]从未修剪的视频中采样和分类关键提案,以生成视频级别标签。我们的工作与[18]在学习架构设计方面相关,但除了推断视频级别标签外,我们还能够利用我们学到的概念表示进行合成和编辑。由于这些方法大多直接在帧级输入上操作,这是数据密集型的,我们使用CTC的变种[18]在姿势级输入上操作作为我们识别和定位性能的基线。人体运动和视频合成。进行人体运动合成的方法要么使用运动图[21,34],要么使用RNN[13,25,26,32]或自动编码器[16]。最相关的是执行a)动作条件下的运动合成和b)根据描述进行受控运动合成的工作。动作条件下的运动合成是从给定的动作类生成自然和多样化运动的问题。Action2Motion[15]提出了一种VAE方法,并使用李代数来表示自然人体运动。ACTOR [37]使用TransformerVAE生成SMPL人体。相比之下,我们为每个动作类学习了一个基于原语分布的概念表示。对于动作条件的运动合成,我们从该分布中采样以生成新的序列。最近的研究[1,14,27,38,39]研究了根据文本描述进行受控运动合成的问题。大多数方法使用基于RNN的编码器-解码器模型将描述映射到姿势,并提出了改进生成质量的学习技术。相比之下,我们通过以模块化的方式合成单个概念的姿势并将它们拼接在一起来执行受控运动合成,这使得能够扩展到更大和新颖的描述。最后,我们通过使用骨架到视频合成的先前工作[5,40],从生成的运动中合成逼真的视频。用于视觉的基于原语的表示。最近的几项工作将深度神经网络与程序等符号结构相结合,以捕捉更高级的结构。这已经在手绘草图[9],自然图像[31,56]和视频[23]上得到了证明。我们在之前的工作[23]的基础上进行扩展,以捕捉更具表现力的运动。在深度网络中学习视觉概念的方法已经在其他领域[24,30,42,48]中得到证明。NS-CL[30]将图像补丁和单词映射到联合嵌入空间,以提高VQA的性能和数据效率。类似地,3D理解中的几项工作[24,42,48]利用3D形状中的结构和重复性来推断诸如桌面和椅腿之类的概念。我们通过利用运动的重复性来学习练习的概念,将这个想法扩展到人体运动。3.运动概念学习框架我们的目标是学习一个概念表示的词汇,以支持视频描述和合成任务。0我们将视频V的描述L定义为三个不同级别的分层抽象:基元级别、概念级别和程序级别。如图1(I)所示,运动基元是主体关节的参数化轨迹。运动概念由一个或多个运动基元组成,与诸如jumpingjacks和squats之类的语言名称相关联。视频可以在程序级别上被描述为运动概念的序列,每个运动概念进一步具体化为运动基元的子序列。我们的表示不仅有助于对输入视频进行人类解释和分析,还支持交互式编辑任务。如图1(II)所示,我们的框架支持在三个级别上对输入视频进行交互式编辑:用户可以调整单个基元的参数,更改现有运动概念段的概念标签,甚至在视频中添加和删除运动概念。尽管这些任务以前已经研究过,但我们专注于使用少量人工注释创建一个统一的人体运动描述和合成系统。例如,我们数据集中每个概念的注释平均使用不到15个视频的弱标签。在下一节中,我们将介绍我们的框架Programmatic MotionConcepts,这是一个用于人体运动描述和合成的数据高效学习框架。PMC通过利用人体运动的分层结构以及视频中概念的重复结构来解决具有挑战性的数据高效学习问题。我们从回顾基于基元的人体运动表示开始。03.1. 基于基元的运动表示Programmatic motionprimitives是一种基于基元的运动表示,首次在[23]中提出,它捕捉了比姿势序列更高的抽象级别。其关键思想是将运动轨迹表示为子轨迹的序列,每个子轨迹可以用少量参数描述。Kulal等人[23]关注三类基元:静止、线性和圆形。目标是将运动参数拟合得尽可能接近输入轨迹。运动基元序列的推断涉及动态规划算法,该算法在最佳位置分割输入姿势轨迹。前n帧的最佳拟合基元序列的递推关系为Prims n = mink
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功