没有合适的资源?快使用搜索试试~ 我知道了~
11270通过生成干预Xiheng Zhang1,Yongkang Wong2,Xiaofei Wu3,Juwei Lu3,MohanKankanhalli2,Xiangdong Li1 *,Weidong Geng1 *1浙江大学计算机科学与技术学院CAD CG国家重点实验室2新加坡国立大学计算学院3华为诺亚摘要随着高质量基准数据集的出现,三维姿态估计引起了越来越多的关注。然而,先前的工作表明,深度学习模型倾向于学习虚假的相关性,这些相关性无法推广到它们所训练的特定数据集之外。在这项工作中,我们朝着训练跨域姿态估计任务的鲁棒模型迈出了一步,它汇集了因果表示学习和生成对抗网络的思想。具体而言,本文介绍了一种新的框架,因果表征学习,明确利用因果结构的任务。我们认为,sider不断变化的域作为干预下的数据生成过程中的图像这有助于模型学习跨不同领域的可转移和因果关系。我们的框架能够学习各种类型的unlabeled数据集。我们证明了我们所提出的方法对人类和手的姿态估计任务的有效性实验结果表明,该方法在大多数数据集上实现了最先进的性能,无论是主适应和域泛化设置。1. 介绍3D姿态估计由于其在人机交互、动作识别和隐私保护应用中的众多应用而吸引了越来越多的关注[9,59,68]。近年来,随着模型架构[7,17,57]、新损失函数[24,35]和质量数据集[6,36,21]的可用性的进步,深度学习模型已经取得了巨大的改进尽管取得了成功,但现有的方法仍然难以推广到训练数据的领域之外,其中经过良好训练的模型无法在不熟悉的子区域中检测精确的关节位置*通讯作者域名内容反事实特征生成器干预3D姿态估计器图1:具有生成干预的鲁棒姿态估计器的训练过程概述。给定一组域和内容,我们训练生成器,该生成器产生反事实特征来干预估计器的训练。对象或不可见的视图(即,跨域姿态估计)。跨域姿态估计的缺陷可以归因于数据集偏差[61]或捷径学习[11],这意味着深度学习模型容易基于统计关联学习依赖于数据集的虚假相关性[1,2,4,20,48]。当跨域的相关性不一致时,该特性变得有问题。对于3D姿态估计任务,虚假相关的示例可以是衣服/皮肤的外观与关节之间的连接。通常,只要数据遵循相同的分布,这在推断阶段期间就不是问题。然而,测试样本可以包括具有与训练数据集不同的肤色或衣服的个体。因此,经过训练的模型先前的工作表明,在训练域之外进行泛化需要一个模型,不仅要学习变量之间的统计关联,还要学习潜在的因果关系[52]。因果关系反映了基本的数据生成机制,该机制在不同的领域中往往是通用的和不变的[49],并为看不见的领域提供了最可转移和最可靠的例如,在摄影上组成一个镜头涉及两个内容(例如人、物等)和特定域11271(例如背景、视点等。). 即使域可能不同,只要内容不变,照片因果表示学习的目标是学习一种在不同干扰下保持不变的因果关系表示这允许学习框架训练预测模型,该预测模型对于在现实世界中自然发生的域中的变化是鲁棒的。在本文中,我们提出了一种新的方法来学习因果表示,随后用于训练跨域姿态估计任务的鲁棒模型。所提出的方法是基于观察到的因果生成过程的图像,它假设的数据是从一个内容变量和域变量,是域或数据集不变的。基于先前的工作[12,18],我们考虑改变域变量作为对图像的干预。然后,我们通过引导生成模型从指定的内容和随机噪声中产生反事实特征最后,通过在用不同干预学习的表示的分布之间强制相似性使用反事实表示的姿态估计器训练的概述如图1所示。我们工作的主要贡献如下:• 我们提出了一个新的框架,因果表示学习产生的分布外的功能。我们明确地利用任务的因果结构,并展示了如何通过引导生成模型产生反事实特征来学习因果表征,该特征模拟图像上的域干预。• 我们证明了反事实特征生成器的有效性,利用生成的功能来训练模型的姿态估计任务。我们的方法不仅可以提高跨域的姿态估计性能(即)。用源域数据和未标记的目标域数据两者训练),而且还很好地泛化到域泛化设置(即,用源域数据和未标记的无约束数据集两者训练)。• 我们进行人体姿势和手部姿势估计任务的实验。消融研究检查了所提出的框架的各种组成部分,以及不同混合训练数据集的影响。我们还讨论了为什么增加源数据集和干预可以提高性能。2. 相关工作3D姿态估计随着深度学习的最新进展,3D人体姿态估计[5,34,41,50,60]和3D手部姿态估计有了显着的改进。mation [45,46,62,76].许多工作集中在跨域场景。Zhou等[75]提出了一种弱监督的三维几何约束,其使用来自室内数据集和野外数据集的混合2D和3D标签Habibie等人[15]提出了一种新的解纠缠隐藏空间编码的显式2D和3D功能的单目3D人体姿态估计,表现出高精度和推广以及在野外场景。Zhang等人[73]提出了一种具有无监督知识转移的域Zimmermann等人[77]分析了在现有手部姿势估计数据集上训练时的跨数据集泛化他们还介绍了一个大规模的多视图手部数据集,其中包含3D手部姿势和形状注释。Wang等人[67]对特定数据集中存在的多样性和偏差及其对跨五个人体姿势数据集的跨数据集概括的影响进行了系统研究。Zhao等人[74]介绍了一种用于跨模态知识概括的端到端方案,以在缺少优良模态的源和目标手部姿势数据集Baek等人[3]提出了一种端到端的可训练流水线,该流水线将手对象域适应于单个仅手域,其中手对象图像被转换为分割和去遮挡的仅手图像。因果表征学习传统的因果发现和推理假设单位是由因果图连接的随机变量然而,现实世界的观察通常是非结构化的,例如。在一个给定的图像中的对象[38]。因此,因果表征学习的新兴领域努力从数据中学习这些变量。以前的作品试图将因果结构建模和表征学习相结合。Shalit等人[54]给出了一种新的理论分析和算法家族,用于从观察数据预测个体治疗效果。该算法学习一个平衡的表示,使得诱导的治疗和控制分布是相似的。如完美匹配方法[53]中所述,该模型还可以通过在具有其倾向匹配的最近邻的小批次内增加样本来根据这个想法,Johans-son等。[23]将移位不变表示学 习 和 重 新 加 权 方 法 结 合 在 一 起 。 Hassanpour 和Greiner [16]提出了一种基于重要性采样技术的上下文感知加权方案,以减轻选择偏差问题。Yao等人[70,71]提出了一种局部相似性保持的个体治疗效果估计方法,该方法在保持局部相似性的同时平衡了数据分布。领域自适应/泛化为了减轻跨领域场景中的数据集偏差或领域偏移,领域自适应/泛化引起了很多关注。域自适应方法旨在通过显式对齐源和目标分布来减少域偏移[10,37,63,64]。11272i=1i=1内容域图像地面实况图像特征64]。领域泛化与领域自适应有关,它的目的是提高目标领域然而,它考虑了模型学习从一组源域进行概括最近,利用因果关系作为不变预测的概念已经成为因果推理中的重要操作概念。Mitrovic等人[43]用因果框架分析了自监督表示学习。他们提出了一个自我监督的目标,通过一个不变性正则化器来增强代理目标的不变预测,从而提高泛化保证。Mao等人[39]学习与因果结构一致的有区别的视觉模型,以实现鲁棒的泛化。通过引导生成模型来构建干预措施,他们随机化了许多特征,而不受混杂因素的影响。Sauer和Geiger[51]提出将图像生成过程分解为独立的因果机制,其解开对象形状、对象纹理和背景,用于生成提高分布外鲁棒性的反事实图像。我们的工作与上述工作有三个关键区别首先,与[43]不同,我们将域视为干预而不是简单的图像变换。域的变化比图像变换更普遍,并且在现实世界中自然发生其次,不像[39,51],我们的方法提出生成反事实特征而不是反事实图像。大多数基于GAN的图像生成方法是不稳定的,并且通常遭受重影效应。在姿态估计任务中,定位每个关节在很大程度上依赖于人体的不同细节。具有不确定地面实况的低质量图像可能会降低模型性能。或者,我们建议训练一个特征生成器,它直接从指定的内容和随机噪声中产生反事实特征。最后,也是最重要的是,我们提出的框架还强制执行与不同的干预学习表示的分布之间的相似性不同目标之间的权衡有助于我们的模型学习跨域的可转移和因果关系。3. 初步本节首先概述了结构因果模型和因果推理问题。然后,它显示了CV任务中的数据生成过程的因果视图,并制定了领域适应的因果推理问题。3.1. 结构因果模型结构因果模型(SCM)[47]考虑一组变量X1,… Xn的 顶点有向非循环图。 我们假设每个变量都是一个赋值的结果,赋值使用的是一个依赖于图中X i的父节点的确定性函数fi(用PA i表示)和一个无法解释的随机变量U i,即Xi:= fi(PAi,U i),(i = l,… n),(1)图中的有向边表示直接因果关系。在SCM中,干预被形式化为修改等式中的分配子集的操作。1,例如改变Ui,将fi设置为常数,或者改变f i的函数形式(从而改变Xi对其父代的依赖性)[47]。因果推理的问题是估计如果应用不同的干预措施的结果变化[69]。例如,假设两种处理,即药物A和B可供患者使用服用A药的患者的治愈率为70%。如果换一种药,恢复的速度会不会这些问题被称为反事实问题[30]。形式上,设T为潜在干预的集合,X为单位的集合,Y为潜在结果的集合。在二元动作集T={0,1}的情况下,观察到的样本由集合P<$F=(xi,ti)n组成而计数器f实际样本由集合PCF=(xi,1−ti)n组成. 这里,设PFPF是经验观测分布,集合PCFPCF是经验反事实分布由于只能观察到一个潜在结果,我们将观察到的结果定义为yF(x),将未观察到的结果定义为反事实结果yCF(x)。3.2. 数据生成过程考虑一个通用的计算机视觉任务,其中模型是用策划的图像数据训练的,因果推断中的基本假设是测试数据可以从不同的分布中采样,但包括与训练数据集中相同的因果例如,合成一个关于摄影的镜头涉及两个内容(例如,每个人、物体等)和特定结构域(例如,背景、视点和相机设置)。即使域可能不同,只要内容不变,照片图2示出了描述数据生成过程的因果图。图像是由内容变量C和域变量D引起的,如图2:计算机视觉任务的结构因果图。11273我 我两个箭头指向X从C到Y的箭头indi-图像观察到的表述预测的姿态使地面实况Y以内容变量C为条件。此外,我们引入由编码器提取的图像特征F的节点。如果我们将图像X视为单元X的集合,则改变域D可以被视为对图像xi的干预:对于每个观察到的样本{x,d},有一组(未观察到的)反事实sam-随机噪声地面实况构成提取器特征生成器预测器ℎ预测误差差异距离误差ples {xi,dj}其中di=dj。地面实况由潜在结果Y的集合组成。 令Ds和Dt表示源域和目标域。那么干预的集合是F反事实陈述图3:具有新的反事实特征的所提出的领域适应学习框架的概述。不={D s,D t}。 具体来说,P (X,D)=P(X)·P(D)s|十)、并且PCF(X,D)=P(X)·P(Dt|X)。观察样本和反事实样本之间的差异恰恰在于干预分配机制P(D|[22]。根据因果图,X和D不是独立的。因此,PCF通常不同于PF。4. 方法所提出的方法的本质是学习因果表示暴露的因果关系是不变的,在这里,我们将首先描绘所提出的方法下的域自适应设置,然后将其扩展到域泛化的情况下。4.1. 因果表示考虑到鲁棒模型必须学会从源域(观察到的)分布泛化到目标域(反事实)分布,我们建议学习因果表示,在三个目标之间进行权衡:(2)实现对反事实表示的低误差预测;(3)不同干预人群的分布相似。图3中描述了同时实现这些目标的拟议框架。具体而言,它包含两个分支:在观察到的表示分支中,存在特征提取器f,其将来自源域的图像作为输入,并且产生对观察到的分布的表示。反事实表示分支包括特征生成器g,其从地面实况姿态和随机噪声产生反事实特征在获得观察到的和反事实的表示之后,它们被馈送到预测器h中以获得体积热图,该体积热图可以通过应用soft-argmax激活函数被转换为3D姿态。在实践中,我们既不能访问与观察到的样本相反的反事实样本(改变域将导致图像的变化),也不能访问这种反事实样本的潜在结果。在以前的工作中,[39,51]提出利用生成模型来产生反事实图像。基于GAN的图像生成方法不稳定,并且通常遭受不可见域的重影效应。在姿态估计任务中,定位-1. VAE培训编码器解码器Elbo第2步:发电机培训编码器GAN损失随机噪声随机姿势特征生成器鉴别器图4:反事实特征生成器的两步训练过程的概述。每个关节都严重依赖于人体的独特视觉作为替代方案,我们提出训练特征生成器g,其直接产生反事实特征而不是图像。在所提出的框架下,我们可以实现第一个和第二个目标的经验风险最小化的观察和反事实分布。此外,我们管理的第三个目标,通过强制执行的相似性分布的不同干预组的表示空间。具体而言,我们最小化观察到的和反事实表示之间的差异距离,这鼓励模型学习从观察到的分布推广到反事实分布的潜在不变性。4.2. 反事实特征生成器图4示出了所提出的生成器的两步训练过程。第一步是训练变分自动编码器(VAE)E◦M。编码器E将图像x作为输入并将其编码为潜在嵌入 z=E( x) q(z|x),而解码器M学习从潜在嵌入重构图像,即 x=M(z)p(x|z)。目标定义为证据下限(ELBO)的最小化[27]:θE,θM−ikθf,θhminL = −Eq(z|x)[log p(x|z)]+ KL。q(z|x)p(z)Σ(2)其中θE和θM分别是E和M。KL()是Kullback-Leibler散度[29]。一旦VAE被适当地训练,我们就可以将图像编码到潜在嵌入空间。图像在第二步中,我们建议在预先训练的VAE的帮助下以对抗的方式学习特征生成器具体地,生成器g将从球形高斯分布p(u)采样的噪声向量u和姿态标签y作为输入。给定VAE的编码器E,我们训练生成器g以产生特征,其分布尽可能类似于来自编码器的潜在嵌入的分布,使得鉴别器D不能可靠地区分它们。基于最小二乘GAN [40],定义了以下最小-最大博弈:minmax L = E(u,y)(p(u),p(y))D. g(u,y)Σ−12地面实况姿态和预测姿态。对于离散距离损失Ldist,我们选择最大平均离散度[14]、KL散度[29]和朴素l2进行实验。在第5.4节中报告了每种损失的性能。4.4.域泛化对于域泛化设置,模型学习从一组域(即没有目标域样本),所提出的框架可以从二元干预扩展到多元干预。设干预的总数为K。只能向个人提供一种干预,即。因此,在第k次干预下的单元xi的观察结果由yF给出。反事实定义在K−1个未观察到的交替干预下具体来说,我们选择一个数据集作为源域,并考虑其他的干预。然后我们可以为源数据集训练K1为了训练模型,第一个和第二个目标保持不变θgθD+Exp(x)D。E(x)Σ2(3)作为二元干预,而第三个目标改变为观察到的和每个反事实表示之间的成对差异距离误差的总和。其中θg(θD)是发生器(鉴别器)的参数。p(x)和p(y)分别表示输入图像和输入姿态标签的分布。当训练生成器g时,E中的参数保持冻结。一旦特征生成器g被适当地训练,它就被用于从随机姿态获得特征。特征的分布应该类似于潜在嵌入的分布。4.3. 整体培训程序我们建议框架的整体培训管道可描述如下:(1)在来自目标域的图像上训练VAE E 〇 M。(2)在编码器E的帮助下训练计算特征生成器g,同时保持E的参数冻结。 编码器E将来自目标域的图像作为输入,而特征生成器g将来自源域的随机姿态(3)在特征生成器g的帮助下训练特征提取器f和预测器h,同时g的参数保持冻结(如图3所示特征提取器f和特征生成器g分别将来自源域的图像和姿态作为输入。步骤(3)中的总体目标定义如下:5. 实验为了验证我们所提出的方法的有效性,我们进行了三种实验设置上的人和手的姿态估计任务。实验设置的 概 述 示 于 表 1 中 。 首 先 , 传 统 的 学 习 只 在 源 域(SD)数据上训练模型,在目标域(TD)数据上测试。其次,在域自适应中,SD和TD数据都可用于训练,并且TD用于验证。TD数据的标签在训练期间不可用。因此,它被认为是非监督域自适应。最后,与领域自适应不同,在领域泛化场景的训练过程中,TD数据不可访问。相反,我们探索来自源域的丰富数据,以及在训练期间引入无约束域(UD)数据作为SD数据的补充。UD数据包括动作识别数据集[25,28,58]和一般图像数据集[6,8,36]。5.1. 数据集和评估指标人类姿势估计任务我们对五个人类姿势数据集进行评估,即Human3.6M [21],3DPW [66],minL = E(x,y,u)(p(x),p(y),p(u))LF. h(f(x)),yΣ+λ1LCF。h(g(u,y)),yΣ + λ2Ldist. f(x),g(u,y)Σ(4)域; TD:目标域; UD:无约束域。11其中λ1和λ2控制不平衡刑罚的强度。损失项LF和LCF分别代表观测分布和反事实分布上的预测误差。我们使用smooth-l1距离来计算表1:实验设置的概述。 SD:来源任务训练集测试集常规学习SDTD域适应SD + TD(不含标签)TD领域泛化SD + UDTD11275−×−××常规学习源仅118.778.0121.898.5128.686.591.677.2DDC [64]110.475.3115.691.5117.580.183.864.9多米安DAN [37]107.573.2109.589.2114.278.478.562.7适应DANN [10]106.371.1107.988.0113.677.276.360.8ISO标准[72]-70.8-75.8----我们的方法(SD + TD)94.763.999.381.5103.369.169.253.5域Wang等人[67个]109.568.3111.989.0114.075.9--泛化我们的方法(SD + UD)我们的方法(SD +多UD)97.594.966.464.2102.6101.686.483.7108.8105.674.372.575.670.758.154.4MPI-INF-3DHP(3DHP)[42]、SURREAL [65]和Hu-manEva [55].详情见补充材料。我们采用两个常用的度量,即平均每关节位置误差(MPJPE)来计算地面实况与预测姿态之间的平均欧氏距离,而Procrustes对齐的 平 均 每 关 节 位 置 误 差 ( PAMPJPE ) 基 于 通 过Procrustes 方法 与地 面实 况对 齐的 预测 姿态 来计算MPJPE[13]。我们对五个手部姿势数据集进行评估,即STB [56],RHD [76],FreiHAND [77],Panoptic(PAN)[76]和GANerated(GAN)[45]。详情可在补充材料中找到我们使用两个指标报告结果。平均端点误差(EPE)被定义为预测关键点与地面实况关键点之间的平均欧几里得距离。正确关键点百分比(PCK)评分的曲线下面积PCK是相对于地面实况落在给定阈值距离内的预测关节的百分比5.2. 实现细节由于不同的人体姿势数据集具有不同的关节配置,因此我们遵循[67]选择14个常见关节的子集,以消除训练期间由不同数量的关节对于积分回归,我们将z值从(zmax,+zmax)归一化基于所有数据集,zmax设置为2400 mm类似地,我们按照[77]选择手部姿势数据集上的20个常见关节。我们使用PyTorch来实现我们的网络。ResNet和HRNet使用Ima-geNet数据集上的预训练权重进行初始化[6]。我们使用Adam优化器[26],小批量大小为128。初始学习率设置为1 10−3,并在第170个历元时减少10倍我们使用256 256和384 288分别作为ResNet和HR-Net的输入大小。数据增强方案包括随机旋转([ 45◦,45◦])、随机缩放([0. 65,1。35),和翻转。变分自动编码器基于结构[19]。每个组件的详细模型架构可在补充资料中找到。5.3. 人/手姿态估计在本节中,我们验证了所提出的方法对人体姿势估计任务的有效性。在所有实验中,我们选择Human3.6M作 为 源 数 据 集 , 其 中 依 次 使 用 3DPW 、 3DHP 、SURREAL和朴素的基线模型只在源数据集上训练,并直接在目标数据集上测试,而不进行任何调整。表2显示了几个基线和我们提出的方法的结果。对于域自适应设置,我们提出的方法优于DDC [64]、DAN [37]、DANN [10],对MPJPE和PAM-PJPE两者都有显著改进。具体地,我们的方法在3DPW上将PAMPJPE度量提高了6.9mm,在SURREAL上提高了8.1mm,并且在3DPW上提高了8.1mm。7.3在HumanEva上我们还评估域泛化设置,其中没有访问目标域数据。在这里,我们使用常见的动作识别数据集作为补充 训 练 数 据 , 包 括 UCF 101 [58] , HMDB [28] Ki-netics [25]。当只使用一个无约束数据集时,I.E.动力学,我们的方法(SD + UD)减少MPJPE平均8.83毫米的三个目标数据集相比,王等。[67]。此外,当使用多个无约束数据集时,我们的方法(SD +Multi-UD)甚至可以达到与领域自适应模型(即我们的方法(SD + TD)。手姿态估计本节讨论手姿态估计任务的模型性能。在所有实验中,我们选择FreiHAND作为源数据集,STB,RHD,PAN和GAN依次作为目标数据集。结果示于表3中。总体而言,改善趋势与人体姿态估计任务的改善趋势相似。对于域自适应设置,我们的方法(SD + TD)在EPE和AUC上都比最先进的方法有显著的改进。对于域泛化设置,与[77]相比,我们的方法(SD + UD)还将AUC平均提高了0.5275。当使用多个无约束数据集时,我们的学习表2:人体姿势估计结果。实验在各种源→目标设置上进行。方法H3.6M→3DPW H3.6M→3DHP H3.6M→SURREAL H3.6M→HumanEva类别MPJPE↓ PAMPJPE↓ MPJPE↓PAMPJPE↓MPJPE↓ PAMPJPE↓ MPJPE ↓ PAMPJPE↓ MPJPE↓PAMPJPE↓11276学习类别方法FreiHAND→STB FreiHAND→RHD FreiHAND→PAN FreiHAND→GANEPE↓ AUC ↑ EPE↓ AUC ↑ EPE↓ AUC ↑ EPE↓ AUC↑表3:手部姿势估计结果。实验在各种源→目标设置上进行。常规学习源仅36.10.43348.30.28735.60.45359.40.156DDC [64]34.50.46244.60.35532.50.52557.30.175域DAN [37]32.70.51440.50.38732.10.54854.90.201适应DANN [10]我们的方法(SD + TD)30.922.40.5760.61938.035.40.4110.45831.822.90.5530.61353.649.50.2240.278域Zimmermann等人[77个国家]-0.52-0.399-0.562-0.217泛化我们的方法(SD + UD)我们的方法(SD +多UD)29.324.20.5840.60337.635.70.4230.44431.328.60.5720.59652.750.60.2350.266表4:3DPW数据集上的各种骨干架构的人类姿态估计性能。方法主干MPJPE↓PAMPJPE↓ResNet-18 122.4 83.1表5:3DPW数据集上不同差异距离误差的人体姿态估计性能。差异距离误差MPJPE↓PAMPJPE↓朴素l ¨ıvel2距离100.3 67.2我们的方法(SD +TD)ResNet-18 98.3 67.4ResNet-50 96.3 65.5HRNet-W3294.7 63.9表6:在3DPW和3DHP数据集上具有各种数量的源数据集的人类姿势估计性能。方法(SD + Multi-UD)再次表现出与域自适应模型的竞争性性能,并且显著超过了比较域自适应方法。5.4. 消融研究我们研究所提出的方法的各个组成部分的有效性除非另有说明,否则我们在Human3.6M数据集上训练我们的模型,然后在3DPW数据集上进行验证骨架结构和损失函数我们首先检查骨架结构变化的影响 , 包 括 ResNet-18 、 ResNet-50 [17] 和 HRNet-W32[60]。表4报告了在领域适应设置下的初始基线模型和建议模型的性能如图所示,HRNet优于ResNet-50和ResNet-50。18.此外,所提出的方法始终优于形式的基线与每个骨干,这表明我们的方法是模型不可知的,可以应用到常见的架构。然后我们比较表5中的各种差异距离损失的结果。考虑到MMD和KL散度都是域自适应中经常使用的误差,因此选择这两种误差中的任何一种来代替l2距离是合理的。结果表明,选用MMD作为差异距离误差较好。源数据集的变化本消融研究旨在验证增加源数据集的数量是否可以成为训练更好模型的实用方法。我们实验了源数据集和目标数据集的两种组合,即第一(第二)组合使用Human3.6M(3DPW)作为来源√-94.763.9√ √- -94.663.8√-94.463.6√ √ √ √94.163.5源数据集3DHP测试3DPWH3.6MHumanEVA超现实MPJPE↓PAMPJPE↓√-109.788.4√ √- -105.284.3√-104.183.6√ √ √ √102.782.5数据集和3DPW(3DHP)作为目标数据集。然后,我们逐渐使用更多的数据集作为源,并在表6中报告结果。在第一种组合中,目标(即3DPW)是一个野外数据集,而源主要包括室内受控环境。结果揭示了一个关键的见解,即更多的源数据集不一定丰富训练数据的多样性,因此边际改进。在第二种组合中,当添加更多源时,我们观察到高达-7mm MPJPE,因为新的源提供更多样化和互补的信息。干预的变化在这里,我们研究了混合几个无约束数据集作为干预的效果,以及不同类型的数据集。除了使用Hu-man 3. 6 M作为源数据集外,我们还考虑了动作识别数据集(即. UCF101 [58]、HMDB [28]和Kinetics[25])和一般图像数据集(即ImageNet [6],PAS-源数据集3DPW测试H3.6M3DHPHumanEva超现实MPJPE↓PAMPJPE↓源仅ResNet-50120.281.6Kullback-Leibler散度[29]96.565.1HRNet-W32118.778.0最大平均差异[14]94.763.911277↓↓GOODPt∈PGOODE表7:在3DPW数据集上具有各种数量的干预的人类姿势估计性能。干预MPJPEPAMPJPEUCF101 HMDB动力学√- -98.6 67.3-√-98.1 66.9- -√97.5 66.4√94.9 64.2ImageNet PASCAL MS COCO因果图上的一组介入分布。最坏情况下的分销外风险则变为RPG ()= maxEPt(X,Y)[loss(Y,(X)] ⑻为了学习鲁棒的预测器,我们应该有可用的域分布的子集E PG并求解*=argminmaxE√- -102.3 69.4∈HPt∈E-√-102.8 69.7- -√101.4 68.9√ √ √99.2 67.8CAL [8]和COCO Panoptic [36])。如表7所示,当单独使用不同的无约束域数据集时,性能没有显著差异当所有数据集都作为干预时,MPJPE得到了很大的改进。我们还观察到,当使用动作识别数据集时,性能接近我们的域适应模型(即,SD + TD)。尽管一般图像数据集的性能不那么好,但它仍然优于表2中的比较域自适应模型。6. 讨论在本节中,我们将讨论增加源数据集和干预可以提高性能的原因。我们首先回顾经验风险最小化设置,其中学习模型访问来自分布P(X,Y)的数据,并在假设空间H中训练预测器以最小化经验风险R:R=argminRP(X,Y)(R)(5)∈HRP(X,Y)()=EP(X,Y)[loss(Y,(X)](6)这里,我们用E( P(X,Y)表示从P(X,Y)中提取的样本计算的概率平均值。分布外(OOD)泛化意味着对于不同的分布Pt(X,Y)具有小的预期风险:RPt(X,Y)()=EPt(X,Y)[损失(Y,(X)](7)通过求解方程的最小-最大优化问题来学习模型九是挑战。我们利用几种常见的机器学习技术来近似方程。9.第九条。一是丰富训练集的分布;这并不意味着从P(X,Y)中获得更多的示例,而是在更丰富的数据集上进行训练。由于该策略基于标准的经验风险最小化,因此只有当新的训练分布足够多样化以包含关于PG中的其他分布的信息。 如第5.4节所示,所提出的方法能够在训练期间合并更多的源数据集以实现这一点。第二种方法是增加干预的多样性。干预的直觉是鼓励模型学习干预分布中存在的基本不变性或对称性。如干预措施变化研究所示(参见第5.4节),我们通过引入非约束域数据集来指定一组干预措施,以生成模型应该鲁棒的反事实代替计算在PG中的所有分布上的最大值,我们可以通过从介入分布中采样来放松问题,并在适当选择的子集上优化期望。7. 结论在本文中,我们从因果关系中汲取思想,从而在跨域姿态估计的鲁棒姿态估计模型的训练中进行一般性干预。我们考虑在数据生成过程中改变域作为对图像的干预,并引导生成模型产生反事实特征,这有助于模型学习跨不同域的可转移和因果关系。从单个或多个域的数据,我们证明显然,R之间的间隙P(X,Y)OODPt(X,Y)()will我们的方法可以提高未标记取决于测试分布Pt与训练分布P的不同程度。为了量化这种差异,我们将域定义为引起分布变化的不同情况的集合。域可以建模为因果因子分解,因为它们被视为对一个或多个因果变量或机制的干预[52]。我们可以限制Pt(X,Y)为某组干预的结果,即Pt(X,Y)∈PG其中PG是(1)R11278目标域数据,并获得对未知数据的分布外鲁棒性。原则上,该方法适用于大多数视觉识别任务,我们计划在未来的其他领域验证其有效性。致谢本研究得到国家重点研究发展计划(No.2017YFB1002802)的支持。11279引用[1] Jayadev Acharya , Arnab Bhattacharyya , ConstantinosDaskalakis,and Saravanan Kandasamy.学习和测试因果模型与干预。在NeurIPS,第9469- 9481页[2] 马 丁 · 阿 吉 奥 vsky, Le'onBottou , IshaanGulrajani 和 DavidLopez Paz。不变风险最小化。ICLR,2021年。[3] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.通过GAN和网格模型进行弱监督域自适应,用于估计交互对象的3D手部姿势。在CVPR中,第6121-6131页[4] Krzysztof Chalupka , Pietro Perona , and FrederickEberhardt.视觉因果特征学习。在UAI,第181[5] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR中,第7035-7043页[6] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。CVPR,第248-255页[7] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. ICLR,2021年。[8] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,88(2):303[9] 田干,李俊南,王永康,和莫汉.用于个人呈现分析的多 传 感 器 框 架 。 ACM Transactions on Multimedia ,Computing Communications and Application,15(2):30:1[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML,第1180[11] RobertGeirhos,J?rn-HenrikJacobsen,ClaudioMichaelis , Richard Zemel , Wieland Brendel ,Matthias Bethge,and Fe- lix A Wichmann.深度神经网络中的快捷学习Nature Machine Intelligence,2(11):665[12] Mingming Gong , Kun Zhang , Tongliang Liu ,DachengTao,ClarkGlymou r,andBernhardScho¨ l k opf.具有条件可转移组件的域自适应在ICML,第2839-2848页[13] 约翰·C·高尔广义procrustes分析。Psychome- trika,40(1):33[14] ArthurGretton,Karsten M Borgwardt,Malte J Rasch,Bern-hardSchoülk opf,andAl e xanderSmola. 一个核双样本检验。The Journal of Machine Learning Research,13(1):723[15] Ikhsanul Habibie , Weipeng Xu , Dushyant Mehta ,Gerard Pons-Moll,and Christian Theobalt.在野外使用显式2D特征和中间3D表示的人体姿势估计。在CVPR中,第10905-10914页[16] Negar Hassanpour和Russell Greiner重要抽样权的反事实回归。在IJCAI,第5880-5887页11280[17] KaimingHe , XiangyuZhang ,Shaoying Ren,and Jian Sun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[18] ChristinaHeinze-Deml和NicolaiMeinshausen。条件方差惩罚和域转移鲁棒性。机器学习,110(2):303[19] 仙虚侯、沈琳琳、孙可、裘国平。深度特征一致的变分自动编码器。在WACV,第1133-1141页[20] Max i milianIlse , JakubMTomczak ,andPatrickForr e´. 设计用于模拟干预的数据扩充。在ICML,2021。[21] Catalin Ionescu,Dragos Papava,VladOlaru , andCristianSminchisescu.Human3.6M:大规模数据集和预测方法,用于自然环境中的3D人体感知TPAMI,36(7):1325[22] 弗雷德里克·约翰森,乌里·沙利特,大卫·桑塔格。学习反事实推理的表征在ICML,第3020-3029页[23] Fredrik D Johansson,Nathan Kallus,Uri Shalit,and David Sontag.学习加权表示法,以便在设计
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功