没有合适的资源?快使用搜索试试~ 我知道了~
6152、、未配对的3D姿态数据基于零件的2D木偶模型人体姿态关节约束来自野生视频的图像对我们自我监督框架部分分割3D姿态估计摄像机视图合成姿势应用程序-基于部分引导的新型图像合成的自监督三维人体姿态估计Jogendra Nath Kundu1Siddharth Seth1Varun Jampani2Mugalodi Rakesh1R. Venkatesh Babu1Anirban Chakraborty11班加罗尔印度科学研究所2谷歌研究摘要相机捕获的人体姿势是几个变化源的结果。有监督的3D姿态估计方法的性能是以免除可能用于解决其他相关任务的变化(诸如形状和外观)为代价的因此,学习的模型不仅灌输了任务偏差,而且还灌输了任务偏差,因为它强烈依赖于注释的样本,这对于弱监督模型也是如此。认识到这一点,我们提出了一个自我监督的学习框架1来解开这种变化从未标记的视频帧。我们利用先验知识的人体骨架和构成的形式,一个单一的部分为基础的2D木偶模型,人体姿势关节约束,和一组不成对的3D姿势。我们的可微分形式化,弥合了3D姿态和空间部分映射之间的表示差距,不仅有利于发现可解释的姿态解纠缠,而且还允许我们在具有不同相机运动的视频上操作。在看不见的野外数据集上的定性结果建立了我们在3D姿态估计和零件分割的主要任务之外的多个任务上的卓越概括。此外,我们在Hu-man 3. 6 M和MPI-INF-3DHP数据集上展示了最先进的弱监督3D姿态估计性能。1. 介绍分析人类在计算机视觉系统中起着核心作用。从单目RGB图像中自动估计高度变形人体的三维位姿和二维部位排列是一个重要的、具有挑战性的和尚未解决的问题。这种不适定的经典逆问题在人机交互[53]、增强现实[15]、游戏行业等方面有着广泛的应用。在完全监督的环境中[52,39,10],*同等缴款。1项目页面:http://val.cds.iisc.ac.in/pgp-human/图1.我们的自监督框架不仅产生3D姿态和部分分割,而且还通过对解开的因素进行可解释的潜在操作来实现新颖的图像在这个领域中,主要是由最近的深度学习架构和大规模注释样本的收集驱动的然而,与2D界标注释不同,在2D图像上手动注释3D人体姿势非常困难。获得3D地面实况(GT)姿态注释的常用方法是通过良好校准的工作室内多相机设置[20,50],这在室外环境中难以配置这导致可用的3D姿态数据集的有限多样性,这极大地限制了有监督的3D姿态估计模型的推广。为了促进更好的泛化,最近的几项工作[7,46]利用弱监督学习技术,减少了对3D GT姿势注释的需求。这些工作中的大多数使用诸如多视图2D姿态估计的辅助任务来训练3D姿态估计器[8,27]。代替使用3D姿态GT进行监督,利用多视图投影的2D姿态上的损失函数来监督3D姿态网络。为此,这些作品中的一些仍然需要在成对的2D姿态GT [7,57,42,28]、多视图图像[27]和已知相机参数[46]方面进行大量注释。在这些技术中,数据集偏差仍然是一个挑战,因为它们使用具有有限多样性的成对图像和2D姿态GT数据集鉴于6153随着人类时尚的不断变化和文化的不断发展,人类的视觉外观不断变化,我们需要相应地不断更新2D姿态数据集。在这项工作中,我们提出了一个可微和模块化的自监督学习框架,用于单目3D人体姿态估计以及2D部分片段的发现。具体来说,我们的编码器网络将图像作为输入,并输出3个解纠缠表示:1.典型坐标系中的视点不变3D人体姿态,2.相机参数和3.表示前景(FG)人类外观的潜在代码。然后,解码器网络采用上述编码表示,将其投影到2D上并合成FG人体图像,同时还产生2D部分分割。在这里,一个主要的挑战是解开3D姿势,相机和外观的表示。我们通过在描绘同一个人但姿势不同的视频帧对上进行训练来实现这种解开我们通过不同网络输出和图像对的一致性约束来自我监督我们的网络与最近的依赖于具有静态背景的视频[45]或假设时间上接近的帧具有相似背景[22]的自监督方法相比,我们的框架足够强大,可以从大规模的野外视频中学习,即使在存在相机移动的情况下。我们还利用先验知识的人的骨骼和构成的形式,一个单一的部分为基础的2D木偶模型,人体姿势关节约束,和一组不成对的3D姿势。图1说明了我们的自我监督学习框架的概述。来自野外视频的自监督学习由于给定帧对中的人类姿势和背景的多样性而具有挑战性,这可能由于缺少身体部位而进一步我们通过木偶模型的姿势锚定变形实现了在这些野生视频帧上学习的能力,该模型以完全可区分的方式弥合了3D姿势和2D零件图之间的表示差距此外,部分条件外观解码允许我们仅重建FG人的外观,从而对变化的背景具有鲁棒性。我们的技术的另一个区别因素是使用完善的姿势先验约束。在我们的自监督框架中,我们通过采用可微分的父母相对局部肢体运动学模型来显式地对3D刚性和非刚性姿势变换进行建模,从而减少学习表示中的模糊性。此外,为了使预测的姿态遵循真实世界的姿态分布,我们使用了未配对的3D姿态数据集。我们在训练过程中可互换地使用预测的3D姿态表示和采样的真实3D姿态,以引导模型朝向合理的3D姿态分布。我们的网络还产生有用的部分分割。通过学习的3D姿态和相机表示,我们对深度感知的部分间遮挡进行建模,从而产生鲁棒的零件分割为了进一步改善分割是- yond什么是估计与姿势线索,我们使用一种新的diferentiable形状不确定性地图,使肢体形状的FG外观表示提取。我们的主要贡献如下• 我们提出的技术,明确约束的3D姿态建模它在其最基本的形式的刚性和非刚性的转换。这导致-可解释的3D姿态预测,即使在没有任何辅助3D线索,如多视图或深度。• 我们提出了一个可区分的部分为基础的表示,使我们能够有选择地参加前景的人的外观,这反过来又使之成为可能以自我监督的方式学习具有变化背景的野外视频。• 我们展示了我们的自我监督框架在看不见的野外数据集上的通用性,例如[ 23 ]第23话和Youtube此外,我们针对现有方法在Human3.6M [20]和MPI-INF- 3DHP [36]数据集上实现了最先进的2. 相关作品人体3D姿态估计是计算机视觉中的一个公认问题,特别是在完全监督的范例中。早期的方法[43,63,56,9]提出了为铰接姿态估计引入底层图形模型然而,最近基于CNN的方法[5,40,37]专注于回归空间关键点热图,而没有明确考虑潜在的肢体连接性信息。然而,这样的模型的性能严重依赖于一个大的成对的2D或3D姿态注释集。作为一种不同的方法,[26]提出回归训练的3D姿态自动编码器的潜在表示,以间接支持输出预测的可扩展性界限。最近,几种弱监督方法利用除了直接3D姿态监督之外的各种辅助监督集合(参见表1)。在本文中,我们解决了一个更具挑战性的场景,其中我们考虑仅访问一组未对齐的2D姿态数据,以便于学习合理的2D姿态先验(见表1)。在文献中,虽然存在几种有监督的形状和外观解缠技术[3,34,33,13,49],但可用的无监督姿态估计工作(即, 在没有多视图或摄像机外部监督的情况下),大多限于用于刚性或轻度可变形结构的2D界标估计[11,22],诸如面部界标检测、受约束的躯干姿态恢复等。一般思想[25,47,55,54]是利用一对图像之间的相对变换,描绘具有不同姿势的一致外观。这样的图像对通常从满足外观不变性[22]或合成生成的变形[47]的视频中采样。6154CpCp表1.我们的方法与先前弱监督的人类3D姿态估计的特征比较,在直接(配对)或间接(非配对)监督级别的访问方面。方法一对一对的(MV:多视图)未配对的2D/3D姿势监督辅 助 核算为潜 在 到3D 姿 态映射MV 凸轮2D对extrin。构成Rhodin等人[45个]✓ ✓✗✗✓Kocabas等人[27日]✓✗✓✗✗Chen等人[八]《中国日报》✓✗✓✗✓Wandt等人[59个]✗ ✗✓✓✗Chen等人[七]《中国日报》✗ ✗✓✓✗我们✗ ✗ ✗✓✗除了地标,对象部分[32]可以推断姿势旁边的形状。零件表示最适合于3D铰接对象,因为它具有与简单地标相反的遮挡感知属性。总体上3.1. 关节锚定空间零件表达无监督姿态或地标检测中的主要挑战之一是将模型发现的地标映射到标准地标约定。这对于促进后续的任务特定的流水线是必要的,该流水线期望输入姿势遵循一定的约定。先前的工作[45,30]依赖于成对的监督来学习这种映射。在没有这种监督的情况下,我们的目标是在规范的部分字典中编码该约定,其中从单个手动注释的木偶模板中提取2D关节相对于身体部分的关联图2C,顶部面板)。这可以被解释为2D人体木偶模型,其可以通过身体部位的独立空间变换来近似任何人体姿势变形,同时保持锚定的关节关联的完整性。Canonical maps.我们提取规范部分映射,可用的无监督部分学习技术[51,19]是{φ(l)}L(此处,l:肢体指数,L:肢体cl=1主要限于基于分割的区分任务。另一方面,[61,41]明确地利用几何和语义部分片段之间的一致性。然而,运动学铰接约束在3D中而不是在2D中被很好地定义[2]。基于此,我们的目标是或部分),其中我们执行侵蚀,然后进行高斯模糊二进制部分段以考虑相关的形状不确定性(即,体型或服装形状变化)。我们表示φ(l ):U →[0,1],其中U ∈N2是空间索引的空间。 此外,我们还提取利用非空间3D姿态的优势[26]正则形状不确定映射{λ(l)}L特异性cl=1和基于空间部分的表示[32],一种新颖的二维位锚零件变形模型。仅突出显示不确定区域(图)。图2C,底部面板)。每个肢体l及其核心的两个锚定关节位置响应部分映射φ(l)记为rl(j1),rl(j2)∈ U,C c c3. 方法我们开发了一个可区分的框架,用于从人类活动的野外视频帧中自监督地解开3D姿势和前景外观。除了使用4个关节表示的躯干零件变形模型。对于给定的2D姿态q∈R2J,其中J是关节的总数,部分姿态映射被获得为规范部分映射,即,φ(l)=S(l)<$φ(l)。在这里,S(l)代表-我们的自我监督框架建立在conven-p c传统的编码器-解码器架构(Sec. 3.2)。这里,编码器从输入产生一组局部3D向量表示空间索引u∈ U的仿射变换,其旋转、缩放和平移参数是ob-表示为(ql(j1),ql(j2),rl(j1),rl(j2))的函数,其中RGB图像。 然后通过一系列的c c ++进行处理3D变换,遵守3D姿态关节约束以获得一组2D坐标(相机投影的非空间2D姿态)。节中3.1定义一组ql(j1)、ql(j2)表示与所述关节相关联的关节位置肢体l处于姿势q。类似地,我们还计算部分形状不确定性映射为S(l)=S(l) 请注意,基于零件的表示,然后是精心设计的{φ(l)}L(1)L不知道是不是有一个地方的Occlu,pl=1pl =1可微转换所需的桥梁代表,非空间2D姿势和在缺乏肢体深度信息的情况下以下这,我们获得单通道地图(见图1)。2D),即空间部分映射。 这有三个重要目的。a) 形状不确定性图,=max(l),以及联合国军司令部p首先,它们的空间性质有助于兼容的输入姿势调节全卷积解码器架构。第二,它使解码器能够选择性地合成大小仅FG人类外观,而忽略背景中的变化。第三,它促进了一种使用单个模板木偶模型对2D关节和部件关联进行编码的新方法。最后,第3.3描述了所提出的自监督范例,其利用姿态感知空间部分图来使用来自野生视频的图像对同时发现3D姿态b) 单通道FG-BG映射为wfg=maxlφ(l)。上述形式化桥接了原始关节位置q与输出空间图φp、wfg和wunc之间的表示间隙,从而使它们能够用作后续自监督学习的可微分空间图。深度感知部分分割。对于三维可变形物体,利用以下属性可以得到可靠的二维零件分割:a)2D骨架6155不知情)h(部门ppdl=1pl=1d图2. A. 完整编码器模块的概述。B. 将父母相关的局部3D向量v3D变换为相机投影的2D姿态q。C. 模板2D木偶模型。D. 木偶模仿q中的姿势。E. 图像独立的深度感知部分分割。姿态,b)部件形状信息,以及c)部件间遮挡的知识。这里,可以通过访问对应的3D姿态表示的相机变换来提取2D骨架姿态和部分间遮挡的知识。令,q中的2D节理的深度,摄像机的投影被表示为q1(j1)和q1(j2)。We参数:c,和c)最终聚集外观:a∈RH× W×Ch.与空间2D几何[45,32]相比,考虑到相关非刚性变形和刚性相机变化的程度,发现固有的3D人体姿势是一项极具挑战性的任务[2,29]。为此,我们定义一个规范坐标系C,其中,D d获得与每个肢体Las相关联的标量深度值d(1)=(q1(j1)+q1(j2))/2。我们用这些深度值来-骨架沿+ve X轴规范对齐,因此使其具有完全的视图不变性。 在这里,D d称为深度未知的部分姿态图的强度,在每个空间位置处,通过将部分图强度的强度调制为与深度值成反比,u∈ U这是通过以下步骤实现的:a) φ(l)(u)=softmaxL(φ(l)(u)/d(l)),被定义为平面跨度的垂直方向-颈部左右髋关节如图在v3D中,除了骨盆、颈部、左髋和右髋之外,所有其他关节都在其各自的父相对局部坐标系(即,父关节作为原点,轴方向通过执行Gram-Schmidtb) φ(L+1)(u)= 1−maxLφ(l)(u),以及d l=1dc) φ(l)(u)=softma xL+1(φ(l)(u))。父母肢体向量和脸的正交化向量)。 因此,我们定义了一个递归的前向kine-d l=1d这里,(L+ 1)指示专用于后台此外,不可微的2D部分分割图(见图1)。2E),得到,yp(u,l)=φ(l=a r gma xL+1φ<$(l)(u)).3.2. 自监督姿态网络用于自监督姿态和外观解纠缠的架构由一系列预定义的可重构变换组成,所述可重构变换便于发现受约束的潜在姿态表示。与强加学习相反-matic变换Tfk,以获得规范的3D姿态从局部肢体向量,即,p3D=Tfk(v3D),它访问肢体长度幅度的恒定数组[68]。这里,在编码器输出处获得摄像机外特性c(3个旋转角度和3个受限平移,确保摄像机视图捕获p3D中的所有骨架关节),而应用固定透视摄像机投影来获得最终的2D姿态表示,I.E. q=Tc(p3D).对该2D姿态q(Sec.3.1)示出为p=Ts(q,d(l)),其中T:{S(l)}L且p:{φ(l)}L(深度感知)基于约束[14],我们设计了一种方法,l=1d l=13D姿态铰接约束(即,关节连接性和骨长度的知识)通过结构手段直接应用,这意味着有保证的约束施加。a) 编码器网络。如图在图2A中,编码器E获取输入图像I并输出三个解纠缠因子,a)一组局部3D向量:(1))。最后,T表示可微变换的整个系列,即。如图所示,2A.在这里,R2表示合成操作。b) 解码器网络。解码器将FG外观a和姿态p的级联表示作为输入,以获得两个输出图,i)重构图像Ik,A. 编码器架构C. 规范部分字典D.E. 深度感知地图相机肢体深度:提出的可微变换B.正向运动学投影多类标号映射典范系统基于部件的转换模块亲系局部系统(非空间)典范部分映射典型形状unc.地图外观:部分姿态映射(深度未知)单通道FG-BG图形状不确定性映射6156asasasas一个一个B. 外观不变性和姿态等变性C. 通过解耦能量最小化的图3.为拟议的自我监督目标提供的数据流管道概述靠近输出头的图像显示对于给定的一组范例输入元组的网络输出这里,变换块的颜色与图1一致2A.以及ii)经由双分CNN解码器(参见图1B)获得的预测部分分段图y。第3A段)。公共解码器分支D由一系列上卷积层组成,所述上卷积层以每个层的输入处的空间姿态图p为多尺度姿态调节)。然而,DI和Dseg跟随卷积层到它们各自的输出。3.3. 自我监督训练目标我们的自我监督框架的主要设计原理是通过形成具有一致姿势或外观的成对输入图像来利用姿势和外观信息给定一对源图像和目标图像,(Is,It),sam-从同一个视频,即。对于一致的FG外观,共享编码器提取它们各自的姿态和外观为(ps,pt)和(as,at)(见图12)。第3A段)。我们将解码器输出表示为(Ipt,ypt),而解码器则输入a) 图像重建目标。与[45,22]不同,我们无法获得预测的I_p的相应地面真实表示,从而增加了产生退化解或模式崩溃的可能性。在这种情况下,该模型侧重于固定背景区域作为两个图像之间的公共区域,特别是对于具有有限BG变化的工作室内数据集。避免这种情况的一种方法是选择具有完全不同BG的图像对(即,选择样本视频剪辑中具有高L2距离的图像对)。为了明确限制模型灌输这种BG偏差,我们引入了基于内容的正则化。 一个不使用某个伪FG掩模来建立重建图像I_p_t和I_p_t之间的一对一对应关系。目标图像It。这是通过空间掩模实现的,MSAL,其突出显示显著区域(适用于任何图像帧)或具有不同运动线索的区域(AP,一个一个pose,ptwith appearance,as(这个符号在后面的章节)。在此,期望I_pop_t描绘处于目标姿态p_t的人。这样的交叉姿态转移设置是适用于在固定照相机中捕获的帧)。我们形成-将伪(不确定)重建目标延迟为,Lu=(1−ypt(L+1)+βmIt)|Ipt−It|必须限制姿态信息通过我...萨拉外观.然而,v3D的低维瓶颈以及随后的一系列可微变换防止了通过姿势的外观泄漏[22]。为了有效地操作野生视频帧(即除了工作室内的固定摄像机设置[45,22]之外,我们的目标是利用姿势感知的空间部分表示作为将FG与BG分离的手段。因此,我们计划用恒定的BG颜色BGc和分段的FGap来重建I_p_t这里,β表示逐像素加权,β是平衡超参数。请注意,最终损失计算为所有空间位置的平均值,u∈ U。这种损失强制执行姿态-局部映射y_p_t和显著公共FG之间的自监督一致性,以形成可靠的姿态估计。作为一个新的方向,我们利用qz <$Dz形成一个对,的图像预测(Ipz,Ipz),遵循同时AP,asasa t(见图)第3A段)。我们的想法源于共同显着性检测[64,18],其中主要目标是从给定的两个pectization不变性和姿态等变性(见图)。第3B段)。这里,特定的重建目标被定义为,Lc=wpz|Ipz−Ipz|+(1−wpz)|Ipz−BG|或更多图像。在这里,部分外观属于模型预测的零件区域必须在I之间保持一致IfgasatFGASC并测试成功的自我监督姿势发现。访问未配对的3D/2D姿势样本。 我们表示p3D和qz=Tc(p3D)作为3D姿态及其投影(通过b) 部分分割目标。 旨在形成一个共识-真实位姿pz与对应部分分割输出,我们制定,z z随机相机),分别从未配对的3D姿态数据集Dz采样这样的样本可以很容易地收集,而不用担心相应的BG或FG多样性使摄像机馈送(即,单人活动)。我们使用这些样本来进一步约束潜在空间,以实现合理的3D姿态分布。Lseg=(1−wunc)CE(ypz,ypz)+wuncSE(ypz)这里,CE和SE分别表示逐像素交叉熵和自熵此外,我们自信地强制分割损失相对于一个热点地图ypz(第二节)。3.1)仅在某些区域,同时最小化A. 伪装图像侦察。内容正则化共享6157我我3D三维zz我我我zaszI在 wunc 中 捕 获 的 与 形 状 不 确 定 性 相 关 的 区 域 的Shannon这里,计算ypz所需的边缘深度由p3D=Ep(Ipz)获得(图10)。第3C段)。综上所述,上述自我监督目标在p、y、和I之间形成一致;a) Lu在y和I之间强制执行consistenc y,b) Lc在p(通过wfg)和Ic之间强制一致cy,c) Lseg在p(viaypz)和yz之间强制consisten c y。然而,该模型灌输了一个矛盾,预测姿态和真实姿态分布。有必要弥合这种差异,因为Lc和Lseg依赖于真实姿态qz=Tc(p3D),而Lu依赖于预测姿态qt。因此,我们采用适应策略来指导该模型朝着实现合理的姿态预测的方向发展。c)通过能量最小化的自适应。我们设计了一种更简单有效的解耦能量最小化策略[16,21],而不是采用ad-hoc对抗策略[7,62我们通过更新编码器参数,同时冻结解码器参数来避免梯度反向传播期间的直接编码器-解码器交互,反之亦然。然而,这是在循环自动编码场景中在次级编码器的输出处强制执行重构损失的同时执行的(参见图2)。第3C段)。两能量函数表示为Lp3D=|p−p|和4. 实验我们进行了彻底的实验分析,以建立我们提出的框架在3D姿态估计,部分分割和新的图像合成任务,在几个数据集以外的工作室设置的有效性。实作详细数据。 我们使用ImageNet训练的Resnet-50架构[17]作为编码器的基础CNNE. 我们首先将其分为两个CNN分支,分别用于姿态和外观,然后将姿态分支进一步分为两个多层全连接网络,以获得局部姿态向量v3D和相机参数C. 在训练时,我们在交替的训练迭代中为每个损失项使用单独的AdaGrad优化器[12我们执行的形式外观(颜色抖动)和姿势增强(镜面翻转和面内旋转)选择性的It和Is承认他们的不变性影响pt和As分别。数据集。我们训练的基础模型的图像对采样从一组混合的视频数据集,即。Human3.6M [20](H3.6M)和YouTube视频的内部收藏与工作室内的H3.6M图像相反,YTube数据集在服装、动作类别(舞蹈形式、跑酷特技等)、背景变化和相机移动。的zz zLa=|as-as|其中p<$3D=Ep(I<$pz)和a<$s=Ea(I<$pz)。修剪原始视频帧以形成合适的图像sz asa s解码器参数被更新以实现可信的Ipz,因为冻结的编码器期望Ipz与其输入匹配。通过一个现成的人,探测器[44]。 我们利用一个无监督的显着性检测-一个一个将真实图像的分布(即,用于有效的能量最小化。在这里,编码器可以被视为基于能量的GAN中使用的冻结能量网络[66]。当用来自冻结解码器的梯度更新编码器参数时,类似的类比适用。每个交替的能量最小化步骤之前是上述一致性目标的全面优化,其中编码器和解码器参数都被同时更新(参见Algo.1)。θE:编码器的可训练参数E θD:解码器(包括D、DI和D段)对于
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功