没有合适的资源?快使用搜索试试~ 我知道了~
合成数据学习人体运动的视频表示
20197从合成数据中学习人体运动的视频表示北京航空航天大学guoxi@buaa.edu.cn京苏商汤研究吴伟(音译)SenseTime研究wuwei@sensetime.com苏海生SenseTime研究王栋梁SenseTime研究wangdongliang@sensetime.com干伟豪SenseTime研究sujing@sensetime.comsuhaisheng@sensetime.comganweihao@sensetime.com北京航空航天大学hj@buaa.edu.cn秦阳北京航空航天大学yangqin@buaa.edu.cn摘要在本文中,我们在大规模合成视频的帮助下,对人体动作的视频表示学习,特别是人体运动表示增强迈出了早期的一步具体来说,我们首先介绍了一个自动的动作相关的视频合成流水线的基础上逼真的视频游戏 。 一 个 大 规 模 的 人 类 行 动 数 据 集 命 名 为 GATA(GTAA nimationT transformedA ctions),然后建立了拟议的管道,它在-GATA数据集随机时间窗网络视频线下在线数据扩充包括810万个动作片段,跨越28K动作类。 基于所提供的数据集,我们设计一种用于人体运动表示学习的对比学习框架,其在用于动作识别的几个典型视频数据集上显示出显著的性能改进,例如,字谜游戏,HAA 500和NTU-RGB。此外,我们进一步探索了一种基于跨领域正对挖掘的领域自适应方法,以缓解合成数据与真实数据之间的领域差距。广泛的属性分析的学习表示进行证明所提出的数据集的有效性,以提高人体运动表示学习。1. 介绍时空语义特征对视频理解具有重要意义早期的作品[41,44]采用双流网络分别提取外观特征和运动信息。然而,光流的提取在时间和空间上都是昂贵的。同时也保留了物体和背景的流动性,引入了场景*同等贡献。图1.建议的对比学习框架,GATA数据集。与以前的方法不同,我们离线构建正对,这是使用相同的语义3D骨架动作序列与不同的背景,人类外观和相机视图呈现的不同视图。我们的方法对真实视图进行采样,而不是简单的传统数据增强,用于对比无监督学习。偏差,从而影响人体运动表示学习。[20]采用3D卷积直接从原始视频中捕获时空特征。然而,堆叠的3D卷积需要大量的参数,并且运动动力学是隐式捕获的近年来,许多研究者[21,25,49]试图设计精细的架构,通过相邻特征级差异显式地提取动作特征因此,学习一个强烈的运动表示是人类行为理解的必要条件相对于针对特定任务的运动建模架构设计,我们尝试从数据的角度来解决这个问题为了分析人体运动提取过程,大规模的面向运动的人体动作数据集是必不可少的。然而,现有的公共数据集,例如,Kinetics [7,8]和YouTube-8 M [3],未能有效支持运动代表-渲染……vq吉 GATA队列……克瓦吉top-K神经$q$$k……$ 实数据队列视频编码器视频编码器20198∼∼由于场景背景的压倒性偏见,怨恨学习[11]。也就是说,可以仅基于场景上下文而不是人类演员来进行正确的动作预测。例如,教室环境或白板通常指示进行讲课的动作,而场景中的实际活动未被充分表示。还有一些面向运动的数据集,例如,[39]第40话然而,这些数据集的规模和多样性是有限的。因此,借助基于GTA的高性能自动数据采集管道,我们采集了一个名为GATA的大规模合成视频数据集,其中包含8.1M动作实例,覆盖28k类。在此数据集中,动作类由特定角色动画或姿势序列定义。在不同的场景设置和随机的摄像机视图下,控制随机化的人类角色来玩这个简而言之,场景偏差在提议的数据集中被削弱甚至消除图2展示了我们的GATA的一些示例。基于所提出的GATA数据集,可以使用现成的动作识别模型(例如,[13][14][15][16][17][18][19][编码的知识可以很容易地转移到下游的动作理解任务。如图1所示,我们为GATA设计了一个对比学习框架,其中骨架序列等价于样本,动作实例等价于瞬态对比学习设置中的视图。然而,这个视图不是通过简单的在线数据增强生成的,而是通过CG管道离线渲染和存储的。此外,我们通过混淆矩阵、最近邻检索和类激活图(CAM)[50]来分析学习到的表示。我们可以发现,我们的模型倾向于关注人体运动来识别动作,而用Kinetics训练的模型[8]更倾向于通过场景和周围物体来识别动作当然,我们也发现我们的合成GATA和网络抓取视频是互补的.通过与Kinetics和HAA500联合训练,模型可以学习场景,对象和人体运动的更此外,我们提出了一种基于跨域正对挖掘的领域自适应方法,以缓解合成数据和真实数据之间的领域差距。总之,我们的贡献有三个方面:• 我们引入了一个自动的高性能数据收集管道,并合成了一个大规模的人类行为数据集。动作类视频是由特定的角色动画通过现代图形技术转化而来的,这是人体运动建模的必要条件。• 我们用对比学习框架正式化了GATA培训过程,并设计了一个联合对比学习框架trasive学习策略与逼真的视频一起使用,以实现更全面的视频表示。• 实验结果表明,GATA单独训练或与GATA联合训练可以显著提高后续任务的性能,并显著增强运动建模能力2. 相关作品行动数据集。最近,已经提出了许多数据集,包括UCF 101 [42] , Kinetics [8] , Activi- tyNet [5] ,Moments-in-Time [31]和其他[6,17,18,23、29、37、45、47、48]。然而,他们遭受服务器场景偏见。Charades [40]收集日常室内活动的视频,没有场景偏见,但很小。Something-Something [15]和Jester[27]通常是时间相关的数据集,但它们不够通用。Something-Something专注于手和对象之间的交互,Jester是一个手势数据集。合成数据集。基于计算机图形学的数据合成是一种获取高质量数据用于深度学习的廉价方法。[22,34,35]收集基于GTA-V的合成场景。具体来说,[35]开发了一种基于渲染管道的快速注释方法。[22]提出了一种分析内部引擎缓冲区的方法,其可以产生精确的对象掩模。[34]提出了一种在不修改源代码和GTA-V内容的情况下提取数据的方法,它可以提供六种类型的地面实况。[38]利用Unity Engine构建自动驾驶的合成街道场景数据[36]定义了一些动作,然后通过程序生成渲染视频。通过这种方法我们可以得到一些语义动作范畴。但是很难定义一个更大的类别集。动作识别和运动表示学习. 早期的动作识别方法集中在学习时空或运动特征。[43]提出3D CNN来学习时空特征,而[41]采用独立的时间流来从预先计算的光流中学习运动特征。[43,46]建议将3D卷积滤波器分解为2D空间和1D时间滤波器。[51]建议使用时间段网络(TSN)的帧采样方法研究混合的2D和3D网络[44]。[26]提出时间移位模块(TSM),其使用2D卷积模拟3D卷积,其中输入特征通道的一部分沿时间轴移位。[21]提出了一个模块,用于通过外观特征之间的空间移位和减法操作来相比之下,我们提出了一个没有场景偏差的数据集,以获得更好的运动学习。20199无监督对比学习。对比学习在未标记数据中显示出巨大的潜力。由于对比学习方法,该模型可以在没有标签的情况下将样本与单独的域区分开。在这方面有一些先前的工作。[16]提出了一种动量字典,用于存储和排除输入样本的动态学习特征,以便可以大量扩展存储特征的数量[9]提出一个简化的对比学习框架,只包括有利于学习表征的主要组成部分。然而,这些方法都依赖于空间或时间数据增强[32,33]来构建输入样本的单独视图。在本文中,我们实现了这一点,渲染的视频背景和人体基于计算机图形技术,而不是简单的数据增强。3. GATA数据集在这一节中,我们介绍了如何自动收集大规模的合成动作视频和GATA数据集的细节,分析其特征并将其与相关数据集进行比较。3.1. 数据收集我们的数据收集管道的中心块依赖于现代计算机图形技术,以实现高效的真实视频内容合成。我们利用视频游戏侠盗猎车手V(GTA-V)[1]作为此块,因为1)其用于真实感视频内容合成的实时渲染能力; 2)具有各种城市场景、天气、照明条件和具有可选服装/装备的行人角色模型的大型虚拟世界; 3)通过游戏Mod控制虚拟世界的元素(包括场景设置、人物角色和动画)的可行性;以及4)最重要的是,其大量的高质量人物动画,由动作捕捉创建并由艺术家改进。利用上述所有优点,我们开发了一个从JTA扩展的高性能自动数据收集管道 [2,12],用于大规模人体动作视频数据集合成。为了收集用于表示学习的数据集,我们倾向于渲染所有可用的动画在不同的随机场景设置中。 大量的渲染任务促使我们设计一个自动化和高效的流水线。流水线由场景设置生成、场景绘制和后处理三个主要部分组成,分别由不同的计算节点处理。由管理服务器执行的场景设置生成模块自动生成各种随机场景设置。场景渲染由多个工作机器并行进行,以渲染视频帧,并根据接收到的场景设置将它们与注释一起写出。数据处理的后处理步骤服务器收集所有合成数据并过滤掉失败的数据样本。我们在补充中详述管道。引导生成的因素主要有两个方面:环境和人的主体。环境由场景位置、天气、一天中的时间和相机视图决定。人类主体的变化包括角色性别、身高、服装等。图2显示了这些因素。3.2. 数据库统计、比较与分析如表1所示,我们讨论了几个典型数据集的特征。数据库大小。我们的数据集提供了大约810万个动作片段,其中包含27,814个细粒度标签。动作片段是播放特定动作动画的主体的轨迹片段我们将多个主题放置在同一场景中,以并行渲染同一动画,从而有效地放大数据样本27814个细粒度标签表示不同的动画实例。这些实例是从GTA-V的游戏动画资产中合并和筛选出来的,GTA-V总共有超过10万个动画资产项目。尽管在动画实例级别定义了语义标签,但GATA作为合成视频动作数据集的前所未有的规模远远大于那些代表性的真实视频数据集和PHAV等合成数据集[36],这使得通过合成数据集学习视频表示成为可能。更多与电子邮件相关的详细信息可在补充资料中找到。数据源我们的数据集是由计算机图形引擎生成的,它比网络数据集更容易生成具有更准确,无噪声注释的大规模数据。以前的合成数据集主要用于图像任务,如对象检测,语义分割和深度估计[34],而GATA专注于人体运动表示,这是一项更困难的任务,需要大规模和多样化的视频。分类的线索。动作的分类有三条线索:场景、物体和人体动作。在Kinetics中,许多类别可以通过场景和对象来识别。Charades,NTU-RGB和HAA 500在很大程度上将场景和动作解耦。但是,模型通过理解对象和人体运动来对动作进行分类,因为许多标签是动词和名词的组合,这可能导致表示偏差,因为很难枚举和收集所有动词-名词组合的数据[19,28]。与之不同的是,人体运动是GATA中唯一的判别线索。GATA的其他功能。如图2所示,由于合成引擎,我们的数据集包含许多多样性因素,如场景,视图,时间和天气,这对鲁棒的表示学习非常有益。此外,GATA还提供了除动作类之外的信息注释,例如2D/3D边界框、具有可见性的关键点和相机参数。(这些碎片,20200--Ki=0时Qexp(q·ki/τ)场景一天中的时间天气多视图图2.建议的GATA数据集概述(放大以获得更好的视图)。作为数据集的命名,基于视频游戏GTA-V的丰富动画,我们生成了一个大规模的人体动作数据集,其中包含随机场景,时间,天气,相机视图和人体配置。与动作片段相关的角色动画本质上是由CG流水线中的3D骨架运动序列定义表1.我们的GATA与几个现有视频数据集的详细比较数据集#剪辑#分类源分类线索仅场景对象运动动力学4000.2M400 Web浏览器动力学7000.5M700 Web浏览器字谜66k157演员× ×NTU RGB114k120实验室× ×HAA50050k500网×网×GATA(我们的)8.1M小行星27814CG × × ×本文中未显示地层,其将在公共数据集中提供以用于相关领域的研究。4. GATA对比学习框架4.1. MoCo评论Momentum Contrast(MoCo)为对比学习提供了一个字典查找。给定编码的查询q和编码的键k0,k1,k2,. 在队列中,MoCo的对比损失可以写为:在本节中,我们首先描述一个常见的无监督对比学习框架。 然后,我们简单地-L=−logexp(q·k+/τ)(一)在我们的GATA上建立框架最后,我们提出了一个联合对比学习框架,将真实视频数据纳入训练过程,以获得人类动作的通用其中τ是标量。总和超过一个正整数,并且在iv e样本处为K。这种损失倾向于通过softmax分类过程将q分类为k+查询q是经由编码器网络的输入样本的表示,而202011t-SNE3迷你@strip_club@pole_dance@pole_exit#pd_exitveh@helicopter@ds@base#shunt_from_rearamb@code_human_in_car_idles@low@ps@idle_b#idle_fweapons@first_person@aim_stealth@p_m_zero@pistol@pistol_50@aim_trans@stealth_to_lt#aim_trans_med武器@first_person@aim_scope@p_m_zero@pistol@pistol_50@aim_trans@scope_to_stealth#aim_trans_medamb@prop_human_seat_chair@female@proper@react_shock#right4move_m@injured#run_turn_180_rapa_pri_int-15#mp_m_freemode_01_dual-15move_f@generic#run_turn_180_ramenian_1_int-32#a_f_y_beach_01_dual-32武器@first_person@aim_lt@p_m_zero@projectile@misc@thermal_charge@fidgets@b#fidget_low_loopmp_int_mcs_15_a1_b-0#mp_m_freemode_01-05veh@drivebystd_ds_unarmed#sweep_medamb@world_human_hang_out_street@male_a@enter#enterveh@drivebyztype@ds_unarmed#sweep_high图3.人类动作片段的示例。基于训练好的模型,我们可视化了GATA中类的特征分布。我们随机显示5个集群中的3个类及其标签文本,即游戏动画资产的名称。密钥k1是队列中其它训练样本的表示动量对比的核心是动态地保持队列。队列中的样本按照FIFO方案逐步替换。在计算等式1中的对比度损失之后,编码器经由梯度更新,而动量编码器被更新为编码器权重的移动平均值。4.2. 基于GATA的对比学习我们的对比学习框架如图1所示。不同于其他无监督视频对比学习任务,例如,[33],其中来自同一视频的两个片段通常被视为正对,这在我们的设置下显然不是真的。例如,序列的前半部分和后半部分通常表示完全不同的语义。因此,给定一个骨架序列,我们将随机选择一个时间窗口,然后在同一窗口中的两个渲染实例中采样几个帧,以形成一个正对。我们使用MoCo V2 [10]作为学习算法。训练过程在算法1中描述。算法1GATA的对比学习算法。输入:骨架序列集X,xi是序列x的第i个渲染实例。输出:训练有素的模型。1:while iteritermaxdo2:x= loader.next()#加载一个具有N个整数序列的minibatchx3:s,e=随机窗口(x)#开始和结束帧索引。4:x q= sample(x,s,e)#对渲染实例进行采样。5:x k= sample(x,s,e)#对另一个渲染的实例进行采样。6:MoCo(xq,xk)#MoCo的核心算法。第七章: end while8:返回训练模型4.3. 网络视频联合对比学习由于合成的数据与真实视频在外观上有很大的不同,我们引入了HAA 500和Kinetics-Tracklet[24]共同训练。 HAA500是与GATA匹配的单人行动数据集。对于Kinetics- Tracklet数据集,我们在训练中裁剪人物tracklet220202××∈×Qv×Qv我我因此,它也可以被视为单人动作数据集。这三个数据集被命名为JNT(联合)数据集。在训练JNT数据集时,我们将每个小批量中合成数据和真实数据的比例控制为1:1。对于网络视频,我们仍然使用数据增强方法来获取样本的视图。此外,为了避免模型使用为了在训练过程中区分负面信息,我们对合成数据和网络视频数据采用两个不相交的特征队列,并独立计算损失。由于合成数据和真实数据之间存在领域差距,而我们的目标是对真实数据进行改进,因此我们设计了一种有效的方法来缩小差距。详细地说,对于合成q的特征,我们将在真实特征队列中找到前k个最近的邻域,并将它们视为正实例。对于真实数据的查询,我们仍然通过公式1计算损失,同时使用多实例InfoNCE损失[30]进行合成视频查询:基于RGB的视频表示。数据集提供3种设置:交叉设置(即,跨场景)、跨主题和跨视图。我们采用交叉设置来评估学习的表征(即,表2中的X设置)。5.2.无监督训练详情由于GATA数据集中人体的尺度几乎是不变的,这不利于表示的对于输入剪辑,我们随机采样空间缩放因子λ [0. 五一0],将剪辑大小调整为T λH λW,并将剪辑填充为H W。这里,T、H和W分别是输入时间、高度和宽度我们使用三种动作识别方法训练GATA数据集:TSM,TimeSFormer [4]和SlowOnly [13]。对于TSM和TimeSFormer,给定视频片段(由算法1中从第3行开始的时间窗口限制),我们首先exp(qv·kv/τ)+rexp(qv·pr/τ)+Lqv=−logKp∈PqvΣQv将其分成相等持续时间的T段。 然后我们跑了从每个片段中对一个帧进行动态采样以获得i=0exp(q·ki/τ)+pr∈Pr exp(q·p/τ)(二)具有T帧输入序列。除了随机规模,我们执行随机裁剪翻转作为数据增强,其中Pr是来自真实特征队列的正集合,在训练时间。 输入尺寸T×H×W设置为:queryqv,定义为:8×112×112。 对于SlowOnly,我们对剪辑进行P r={Kr|i∈top K(qv·k),k∈Kr,Kr>th}(3)其中th是用于稳定训练的相似度阈值,其被设置为0。7、所有实验直观地说,它是对真实特征队列中的合成查询进行跨域正对挖掘,同时迫使合成数据的潜在表示更接近真实数据表示,如图3所示。5. 实验5.1. 数据集Charades包含9848个视频,平均长度为30秒。在每个视频中,一个人可以执行一个或多个动作。任务是识别视频中的所有动作,而无需定位。我们根据动词合并标签,形成Charades-Motion数据集,用于评估运动建模的质量。Kinetics-Tracklet是Kinetics 700的子集。为了在更广泛的视觉场景上提供本地化的动作标签,研究人员在Kinetics-700的视频上提供了AVA动作标签,这样我们就可以根据边界框注释来裁剪人的区域。HAA500由来自500个细粒度类的10k个以人为中心的动作视频组成,平均可检测关节高达这些动作来自不同的领域,包括运动、乐器演奏和日常动作。NTU-RGB是由演员在不同场景中执行指定动作而构建的。使用多摄像机和多视图方法收集数据集除了RGB之外,还有其他模态,例如深度和骨架。我们只研究其中T帧来自步幅为2帧的视频段。我们用16个GPU训练这两个模型,每个GPU处理8个视频片段的小批量。我们从0.05的学习率开始,通过余弦时间表将其减少到0.0001。我们还在前8k次迭代中使用线性预热策略[14]。我们使用0.9的动量,10−4的衰变。 0的dropout。在交叉熵损失设置中,在最终FC层之前使用5,但dropout是在收缩学习环境中关闭。我们在GATA数据集上训练了80k次迭代。除非另有说明,我们采用ResNet-50作为所有模型的主干。在GATA和其他数据集的联合训练实验中(我们将联合数据集命名为JNT),我们不对其他数据集进行随机尺度增强,而是随机裁剪112 112从剪辑或其翻转版本,在[128,160]像素中随机采样的较短边。我们为两个域使用两个单独的头和队列。最后的损失是两次损失的平均值。我们训练JNT数据集10万次迭代。其他设置与GATA培训中的设置更多的培训和测试细节可以在补充中看到。5.3. 主要结果和观察结果如 表 2 所 示 , 我 们 使 用 3 种 设 置 进 行 实 验 : 在Kinetics-400上进行监督训练,在GATA上进行训练(带有“CE”的模型预训练对GATA的影响。与K400预训练模型相比,我们的模型在Charades上较弱20203表2.下游任务的主要结果。操作预训练数据集GATA字谜HAA500GATA79.831.258.7JNT76.535.261.3JNT(含DA)74.235.761.7表4. MAP对不同数据集组合训练的模型的Charades。图4. 混淆矩阵分析。19→ 20:戴上帽子→脱下帽子。89→88:将物体从袋中取出→将物体放入袋中。58→ 59:走向→分开。7→ 8:坐下→站起来。55→ 57:给予对象→握手。14→ 13:脱掉外套→穿上外套。87→ 86:取下袋子→穿上袋子。11→ 29:书写→在键盘上打字。15→ 16:穿上鞋子→脱掉鞋子。107→ 110:撞翻→踩脚。和HAA500数据集,这符合预期,因为这两个数据集中的一些动作需要通过对象来区分,例如Charades中的 标 签 : Holding a BoxvsHolding a Laptop 。 然 而 ,Charades-Motion和NTU-RGB数据集更关注特定的人体运动,并且在GATA上预训练的模型特别是,对于Charades-Motion 数 据 集 , 在 GATA 上 预 训 练 的SlowOnly 模 型 ( mAP=28.2 ) 比 基 线 K400 模 型(mAP=24.5)好3.7。因此,由自动图形引擎生成的面向运动的数据集提供了更好的人体运动表示预训练。联合预训练的效果。我们可以看到,联合预训练可以带 来 进 一 步 的 提 高 . 一 方 面 , HAA 500 和 Kinetics-Tracklet弥补了GATA在对象和场景建模能力上的不足。另一方面,联合训练缩小了与现实世界的领域差距。此外,增加模型的比例可以证明HAA 500和Kintetics都有利于表4中的联合训练。跨域积极挖掘的影响。基于TSM-R50时,我们在联合训练过程中删除了域自适应策略。在这里,我们定义了基于KNN算法的GATA数据集的精度对于视频,我们将3秒设置为步长为2的时间窗口,然后使用训练好的模型来提取剪辑级归一化特征。我们计算两个视频的点相似度,两组剪辑级特征是。如果前5个相似视频中有3个或更多视频来自与它相同的骨架序列,则它被认为是正确的预测;否则,它被视为错误。如表3所示,联合训练中GATA的准确度低于独立训练GATA的准确度。在添加了域自适应策略后,它下降了2.3点。但是,下游数据集的性能更好。5.4. 学习表征在本节中,我们冻结主干以微调下游任务来分析学习的表示,这是分析学习的表示的最直接的方法进一步提高性能。SlowOnly 101在所有四项任务上的表现都优于SlowOnly 50再说我们sentation.我们使用NTU-RGB数据集来实现这一点。原因是NTU-RGB提供了跨场景设置,模型预训练字谜沙拉德运动HAA500NTU-RGB,X设置仅慢速K400支持35.524.523.440.5TimeSFormerK400支持33.821.161.337.0TSMK400支持34.524.065.441.7仅慢速GATA32.028.221.753.4SlowOnly(CE)GATA31.527.921.452.0TimeSFormerGATA30.127.257.051.5TSMGATA31.228.058.751.8仅慢速JNT不支持。34.828.124.760.7TimeSFormerJNT不支持。32.627.857.455.2TSMJNT不支持。35.731.061.764.6型号GATA HAA500动态轨迹图✓31.2公司简介34.5中国35.720204→R@1 R@2 R@3GATA嘘嘘拇指查询嘘横担拇指向下掷硬币K400图5.视频检索示例。这两行是由GATA模型和K400模型提供的查询视频的前3个最近邻居。绿色表示与查询视频相同的类别,而红色表示不同的类别。为了简洁起见,我们选择一个关键帧来表示视频。其中几乎相同的动作存在于各种场景中,这有助于反映模型的场景偏差。我们使用TSM来训练GATA,然后冻结主干来评估学习到的表示。NTU RGB上的线性评估性能。表2显示了NTU-RGB数据集上的线性评估性能,即,训练新的FC层以使用冻结的骨干进行分类。我们可以看到,在GATA上训练的模型明显优于K400模型。此外,使用JNT数据集进行训练可以进一步提高性能,这验证了两个数据集的互补性。混淆矩阵分析。图4显示了NTU-RGB上K400模型的前10个错误对以及其他两个模型的性能。我们可以看到,K400模型特别容易在相反的动词对上犯错误,例如top-1错误对put on a hat/cap take off a hat/cap。相比之下,GATA模型在这一对上的表现要好得多(2%对36%的错误率)。视频检索。 最近邻(NN)在图5中的特征空间中的视频片段。具体地,从每个视频中均匀地采样一个视频,并且提取时空特征并合并到向量中。然后,使用特征向量来计算L2距离。请注意,网络在训练期间不会接收任何类别标签。可以看出,K400模型更倾向于对一些场景语义进行编码,因为前3个相比之下,我们的模型实际上已经学习了人体运动表示。例如,我们的模型可以发现具有相同类hush或类似类thumb up的视频。值得注意的是,这些邻居的场景与查询视频不同,这表明我们的模型确实表征了人类运动而不是场景。可视化。为了进一步证明我们数据集的有效性,我们在图6中显示了两个模型的类激活图(CAM)[50]。我们可以看到,使用K400训练的模型通常集中在不相关的区域。然而,用GATA训练的模型确实区分了挥手穿上鞋子检查时间穿上夹克衫图6.在NTU-RGB上使用GATA(第一行)和K400(第二行)为了清晰起见,我们只显示8帧剪辑的第5帧,因为中间时刻通常是动作最突出的时刻用GATA训练的视频表示可以更集中在人类区域。基于人所处位置的动作。6. 结论和讨论我们提出了一个新的合成行动数据库,这是只定义了人体运动。该数据集的数据量很大,类别的数量远远大于现有数据集。在此数据集上进行预训练此外,我们分析了该数据集和真实数据集的互补效应。在这些数据集上的联合训练实现了实质性的改进。此外,我们提出了一种基于硬正对挖掘的自适应方法,进一步增强了对真实人体运动的表达能力。GATA现在只包含单人游戏。同时,我们只使用单人真实数据集进行联合训练。多人游戏和人与物体的交互可以在未来的一般场景中进行模拟。鸣 谢 。 本 研 究 得 到 了 中 国 地 质 调 查 局 ( 项 目 DD20190637 ) 和 北 京 市 科 技 攻 关 项 目 ( 项 目Z201100008120005)的部分资助。20205引用[1] https://www.rockstargames.com/V/网站。3[2] https://GitHub.com/fabbrimartteo/JTA-模组3[3] Sami Abu-El-Haija,Nisarg Kothari,Joonseok Lee,PaulNatsev , George Toderici , Balakrishnan Varadarajan ,and Sudheendra Vijayanarasimhan. Youtube-8 m:一个大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。1[4] Gedas Bertasius,Heng Wang,and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗?arXiv预印本arXiv:2102.05095,2021。6[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:用于人类活动理解的 大 规 模 视 频 基 准 。 在 Proceedings of the IEEEconference on computer vision and pattern recognition,第961-970页,2015中。2[6] Fabian Caba Heilbron,Joon-Young Lee,Hailin Jin,andBernard Ghanem. 我接下来要注释什么? 一个empiri-行动定位主动学习的计算机辅助研究。在欧洲计算机视觉会议(ECCV)的Pro-ceedings中,第199-216页,2018年。2[7] 若昂·卡雷拉,埃里克·诺兰,克洛伊·希利尔,安德鲁·兹瑟曼.关于动力学-700人类行动数据集的简短说明。arXiv预印本arXiv:1907.06987,2019. 1[8] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。一、二[9] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。3[10] Xinlei Chen,Haoqi Fan,Ross Girshick,and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv:2003.04297,2020。5[11] Jinwoo Choi,Chen Gao,Joseph CE Messou,and Jia-Bin Huang.为什么我不能在商场里跳舞?学习在动作识别中对场景偏置进行调节。神经信息处理系统进展,第853-865页,2019年。2[12] Matteo Fabbri、Fabio Lanzi、Simone Calderara、AndreaPalazzi、Roberto Vezzani和Rita Cucchiara。学习在虚拟世界中检测和跟踪可见和遮挡的身体关节。在欧洲计算机视觉会议(ECCV),2018。3[13] Christoph Feichtenhofer , Haoqi Fan , Jitendra Malik ,and Kaiming He.用于视频识别的慢速网络。在IEEE计算机视觉国际会议论文集,第6202-6211页,2019年。二、六[14] PriyaGo yal , PiotrDolla´r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确,大的小批量sgd:1小时内训练imagenet. arXiv预印本arXiv:1706.02677,2017。6[15] Raghav Goyal,Samira Ebrahimi Kahou,Vincent Michal-ski , Joanna Materzynska , Susanne Westphal , HeunaKim,20206Valentin Haenel,Ingo Fruend,Peter Yianilos,MoritzMueller-Freitag等人,在ICCV,第1卷,第5页,2017年。2[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第97293[17] Haroon Idrees,Amir R Zamir,Yu-Gang Jiang,AlexGorban,Ivan Laptev,Rahul Sukthankar,and MubarakShah.thumos挑战视频动作识别“在野外”。计算机视觉和图像理解,155:1 2[18] Hueihan Jhuang,Juergen Gall,Silvia Zuffi,CordeliaSchmid,and Michael J Black.对行动识别的理解。在IEEE计算机视觉国际会议论文集,第3192-3199页,2013年。2[19] Jingwei Ji , Ranjay Krishna , Li Fei-Fei , and JuanCarlos Niebles.动作基因组:由动作组成的时空场景图.在IEEE/CVF计算机视觉和模式识别会议论文集,第10236-10247页,2020年。3[20] 水忘机、魏旭、明阳、开宇。用于人体动作识别的三维 IEEE Transactions on Pattern Analysis and MachineIntelligence,35(1):221-231,2012. 1[21] Boyuan Jiang,MengMeng Wang,Weihao Gan,WeiWu,and Junjie Yan.Stm:用于动作识别的时空和运动编码。在IEEE计算机视觉国际会议论文集,第2000一、二[22] Matthew Johnson-Roberson 、 Charles Barto 、 RounakMehta 、 Sharath Nittur Sridhar 、 Karl Rosaen 和 RamVasudevan。在矩阵中驾驶:虚拟世界能否取代人类为现 实 世 界 任 务 生 成 的 注 释 ? arXiv 预 印 本 arXiv :1610.01983,2016。2[23] HildegardKuehne , HueihanJhuang , Est´ıbalizGarrote,Tomaso Poggio,and Thomas Serre. Hmdb:用于人体运动识别的大型视频数据库。2011年国际计算机视觉会议,第2556IEEE,2011年。2[24] 李昂,加纳托塔库里,大卫·罗斯,乔·卡雷拉,亚历山大·沃斯特里科夫,安德鲁·齐瑟曼。ava-kinetics本地化人 类 动 作 视 频 数 据 集 。 arXiv 预 印 本 arXiv :2005.00214,2020。5[25] Yan Li , Bin Ji , Xintian Shi , Jianguo Zhang , BinKang,and Limin Wang. Tea:动作识别的时间激发和聚合。在IEEE/CVF计算机视觉和模式识别会议论文集,第9091[26] 纪林、闯乾、宋涵。Tsm:用于高效视频理解的时间移位模块。在IEEE计算机视觉国际会议论文集,第7083-7093页,2019年。2[27] Joanna Materzynska 、 Guillaume Berger 、 Ingo Bax 和Roland Memisevic。Jester数据集:一个大型视频20207人类手势的数据集在IEEE计算机视觉研讨会国际会议论文集,第02[2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功