没有合适的资源?快使用搜索试试~ 我知道了~
9498跨域自适应动物姿态估计曹金坤1 * 唐洪阳1 * 方浩树1沈晓勇2卢策武1†‡戴玉荣21上海交通大学2{caojinkun,lucewu}@ sjtu.edu.cn@gmail.comyuwingtai@tencent.com摘要在本文中,我们感兴趣的姿态估计的动物。动物通常在姿势上表现出广泛的变化,并且没有可用的动物姿势数据集用于训练和测试。为了解决这个问题,我们建立了一个动物姿势数据集,以方便训练和评估。考虑到标注数据集的工作量很大,而且不可能对所有动物物种的数据进行我们使用适度的动物姿势数据集来使学习到的知识适应多个动物物种。此外,人类也与一些动物(特别是四足哺乳动物)共享骨骼相似性。因此,容易获得的人类姿势数据集(其比我们标记的动物数据集大得多)提供了重要的先验知识以提高动物姿势估计的性能实验表明,我们提出的方法充分利用这些先验知识,并取得令人信服的结果动物姿态估计。1. 介绍动物姿态估计问题在动物学、生态学、生物学和娱乐等领域有着广泛的应用。以前的工作[14,6,8,48]只集中在人体姿态估计,并取得了可喜的成果。人体姿势估计的成功基于大规模数据集[35,1]。缺乏一个良好的标记的动物姿态数据集,使得现有的方法,以实现动物姿态估计的竞争实际上,给所有种类的动物都贴上标签是不可能的*部分工作是曹金坤和唐红阳在腾讯实习研究时完成的他们的贡献是平等的。†Cewu Lu为通讯作者:lucewu@sjtu.edu.cn‡卢策武是上海交通大学考虑到有超过百万种动物,它们有不同的外观。因此,我们需要开发一些有用的先验知识来帮助我们解决这个问题,我们已经确定了三个主要的先验知识。首先,如果我们以四足哺乳动物为目标,人和动物之间或动物之间的姿势相似性是重要的补充信息。其次,我们已经有了大规模的数据集(例如,[35])的动物与其他种类的一个符号,这将有助于了解动物的外观。第三,考虑到动物之间的解剖学相似性,如果它们共享一定程度的相似性,则某一类别的动物的姿态信息有助于估计利用上述先验知识,我们提出了一种新的方法来利用两个大规模数据集,即姿势标记的人类数据集和框标记的动物数据集,以及一个小的姿势标记的动物数据集,以促进动物姿势估计。在我们的方法中,我们从人类数据预训练的模型开始,然后设计一个它由三个部分组成:特征提取器、域鉴别器和关键点估计器。特征提取器从输入数据中提取特征,基于该特征,域鉴别器尝试区分它们来自哪个域,并且关键点估计器预测关键点。通过关键点估计器和域鉴别器的逆向优化,鉴别器鼓励网络适应来自不同域的训练数据。这改进了具有跨域共享信息的姿态估计。在WS-CDA之后,模型已经具有一些动物的但是它在特定的看不见的动物类上仍然不能很好地执行,因为没有从该类获得监督的知识针对这一问题,提出了一种基于伪标签的渐进式模型优化机制使用基于由当前模型选择的预测输出生成的伪标签来优化对新物种的动物的关键点预测。不同种类的动物通常有许多相似之处。9499图1:来自Animal-Pose数据集的一些样本。在推断动物姿势之前提供诸如肢体比例和频繁姿势的特征。并且具有高置信度的预测预计非常接近地面实况,从而将增强的数据带入训练中,噪声很小。采用自定进度策略[30,27]来选择伪标签并减轻来自不可靠伪标签的噪声。设计了一种交替训练方法,以渐进的方式鼓励模型优化。我们通过扩展[3]来构建动物姿势数据集,为模型训练和评估提供基础知识。本数据集中包括五类四足哺乳动物:狗,猫,马,羊,牛为了更好地融合来自人类数据集和动物数据集的姿势知识,使该数据集的姿势的符号格式易于与流行的人类姿势数据集的符号格式对齐[35]。实验结果表明,我们的方法有效地解决了动物姿态估计问题。具体而言,我们在测试集上实现了65.7mAP,其中涉及训练的姿势标记动物数据量非常有限更重要的是,我们的方法在跨域动物姿态估计上给出了令人满意的结果,它可以在没有任何姿态标记数据的情况下对看不见的动物类实现50+ mAP。2. 相关工作姿态估计集中于预测检测到的对象上的身体关节传统的姿势估计是在人类样本上执行的[35,14,41,18,48]。一些作品还关注特定身体部位的姿势,如手[10,29]和脸[38,12,32]。除了这些传统的应用-因此,动物姿态估计在许多应用场景中带来价值,例如形状建模[60]。然而,尽管一些工作研究了动物的面部标志[42,52,47],但动物上的骨骼检测很少被而缺乏大规模的带注释的动物姿势数据集是首先要面临的问题。手动标记数据是劳动密集型的,并且当考虑到多样性时,获得所有目标动物类别的良好标记的数据甚至是不现实的。深度神经模型的兴起[23,31]带来了数据饥渴,需要在多个任务上开发定制的高性能模型。因此,当试图训练一个完全监督的模型时,数据饥饿变得很常见。为了解决这个问题,提出了许多技术[44,45,55]。因为,通常情况下,不同的数据集共享相似的特征分布,特别是当它们的数据是从接近的域采样时。为了利用这种跨域共享知识,域自适应[49,15]已被广泛研究用于不同的任务,例如检测[7,26]、分类[19,21,17,16]、分割[59,54,16]和姿态估计[57,46]。但在先前关于关键点检测或姿态估计的工作中[9,57,53,56],源域和目标域面临比从人类数据集转移到动物或在不同动物物种之间转移时小得多的域偏移。此外,一些额外的信息可以用于更容易的知识转移,例如视图一致性[57],附加到样本的属性[17]或形态相似性[53,56]。当域面临严重的域偏移并且没有额外的信息可用于在不同域上对齐特征表示时,域自适应变得非常困难9500正如在对动物姿态估计采用域适应时所面临的那样。在类似的情况下[13,36,49]的一个关键思想是提取和利用更多的跨域公共特征来帮助最终任务。为了达到这个目标,一些作品[36,49]使用权重共享模块进行跨域特征提取。并且所提取的特征被对齐[36]以用更相似的分布来表示。此外,对抗性网络[5,50,4]或简单的对抗性损失[49,17]也被用来混淆网络,使其更加关注域不变特征。除了模型设计的改进之外,目标域上的数据扩充也引起了领域适应的广泛关注。从这个角度来看,GAN [20,58,37,33]提出了许多有趣的例子[26,25]。但现有的工作仍然只解决了更容易的任务,如对象检测,当域转移不能很好地模仿风格转移时,GANs对数据增强的帮助不大。另一方面,一些作品也使用在这些工作中,对目标域数据的足够自信的预测被视为对于这些工作,如何在训练中选择和使用伪标签是至关重要的,有时会为此设计一些特殊的学习策略[59,30,27]。当问题涉及到用于最小姿态估计的域自适应时,所有上述方案都显示出一些缺点。与对象检测[26]或分类[17]相比,姿态估计要复杂得多,并且不同动物的姿态估计的方差大于纹理或风格差异。为此,我们提出了一种新的方法,其中一些流行的想法也投入使用后,改进我们的3. 预赛3.1. 动物姿势数据集由于现有的姿态标注动物数据集很少,为了客观评价姿态估计的性能,并在弱监督下获取基本知识,本文构建了一个姿态标注动物数据集。幸运的是,来自VOC2011 [11]的姿势标记实例的数据集[2,3]是公开可用的。我们把它的注释扩展到五种选定的哺乳动物:狗、猫、马、羊、牛。它有助于将注释格式与流行的人类关键点格式对齐,以便更好地利用来自人类数据的知识。在这个数据集中,这5个类别的5,517个实例分布在3,000多个图像中。注释扩展后,动物实例上最多有20个关键点可用,包括4个Paws,2个Eyes,2个Ears,4个El-bows,Nose,Throat,Withers和Tailbase,以及我们标记的4个膝盖点。这样的动物姿势注释可以通过在17个关键点内进行选择来与流行的COCO [35]数据集中定义的注释对齐。一些数据集样本如图1所示。要建立这样一个新颖的数据集,只有非常图2:不同类的每个定义的“骨骼”的长度比例涉及轻微劳动。动物姿态与人姿态的域转移主要来源于骨骼形态的差异,而风格转移不能像纹理差异那样进行模仿。我们定义了18个我们计算了不同类别的平均“骨头”的相对长度比例结果示于图2中。一些不同类别的动物遭受的骨骼差异比动物和人类要小得多,这反映了不同领域遭受的领域转移的严重性。3.2. 问题陈述在本文中,我们的目的是估计姿势配置的动物,特别是四足哺乳动物。随着大规模的人类姿势数据集和少数标记的动物样本可用,该问题被转化为一个域自适应问题,我们估计的知识,从姿势标记的域的帮助下,对看不见的动物的姿势。这个问题精确地表述如下。一个姿态标记的数据集表示为D<$,由两个元素组成人类图像和哺乳动物图像:D¯={D¯H}∪{D¯Ai|1≤i≤m}(1)其中包含m个动物物种和人类数据集D<$H比动物数据集D<$A大得多。每 个 实 例 I¯∈D¯ 拥 有 一 个 姿 态 地 面 实 况 Y ( I¯ )∈Rd×2,它是一个包含有序关键点坐标的矩阵。我们的目标是预测潜在的关键-未标记的动物样本I∈ D的点。它们的潜在姿态地面真值被表示为Y(I)并且被期望为以Y(I¯)的统一格式描述。因此,我们将我们的任务定义为训练一个模型:Gθ:RH×W−→Rd×2(2)9501G θ将看不见的动物物种的图像作为输入,并预测其上的关键点。由于先验知识是从人类数据或标记的动物物种中获得的,这些数据与未标记的动物物种具有明显的域转移。因此,该任务可以被概括为用于动物姿态估计的跨域自适应。4. 建议的体系结构任务中,域匹配器用于特征提取期间的域通过这种设计,该模型有望通过利用在域上共享的更好的特征,在姿势未标记的样本上表现得更好基于交叉熵损失将域区分损失(DDL)定义为:ΣN来自人类数据集和动物数据集的但是存在数据不平衡的问题:标记姿态的动物数据集较小LDDL=−w1ΣNi=1(yilog(y(i)+(1−yi)log(1−y(i)(三)但与目标结构域有轻微的结构域偏移,而姿势标记的人类数据集要大得多,但是足够大。−i=1yi(zilog(zi)+(1−zi)log(1−zi)),由更严重的畴转移引起。在第4.1节中,我们设计了一个在第4.2节中,我们介绍了设计的最终模型通过WS-CDA进行预训练,并在PPLO下进行提升。4.1. 弱监督和半监督跨域自适应(WSCDA)如果一个模型可以学习更多的跨域共享特征其中yi表示xi是否是人/动物样品(对于动物yi= 1,对于人yi= 0); zi表示xi是否来自靶结构域(如果它是位置未标记的样品,则zi = 1,否则zi=0)。 yi和zi是域判别式的预测。 W1是加权因子。姿势标记的动物和人类样本在监督下一起提升关键点估计器,产生姿态估计的总体损失如下,ΣN我们面临着领域转移。但是单域数据通常会导致模型学习更多的领域特定性和不可传递性L姿势=i=1(w2yiLA(Ii)+(1−yi)LH(Ii)),(4)功能.基于这样的观察,我们设计的WS-CDA利用尽可能强大的跨域共享功能,对未知类的姿态估计。网络设计如图3所示,有三个输入数据源。第一个是大规模的姿势标记的人类数据集,第二个是较小的姿势标记的动物数据集,最后一个是看不见的类的姿势未标记的动物样本。该设计使用半监督,因为很少动物样本被注释,并且使用弱监督,因为大部分动物数据仅在较低级别被标记(仅边界框被标记)。WS-CDA中使用了四个模块:2)所有特征图将进入域鉴别器,该域鉴别器区分从哪个域生成的输入特征图; 3)来自姿态标记样本的特征图也被转发到关键点估计器以用于姿态估计的监督学习; 4)插入域自适应网络以对准特征表示,用于随后的动物关键点估计。域鉴别器和关键点估计器的损失被设置为对抗性的。由于姿态估计是主要的其中LH和LA表示HPEL的损失函数,APEL分别和通常都是均方er-误差W2是用于减轻数据集体积间隙的影响的加权因子。考虑到比动物样本更多的姿势标记的人类样本被投入训练,在没有w2>1的情况下,模型倾向于执行几乎等同于仅在人类样本上训练。因此,框架的综合优化目标被公式化为:LWS−CDA=αLDDL+βLpose,(5)在αβ0的情况下,域模糊和关键点估计器被逆向优化,从而鼓励域模糊并同时提高姿态估计性能4.2. 基于渐进伪标签的优化(PPLO)在本节中,我们讨论了旨在利用姿势未标记的动物样本来进一步提高模型性能的策略直觉是通过“基本上可靠”的模型从粗略估计开始近似底层标签这些预测是9502IjJJJJj我j图3:WS-CDA中的管道。带颜色的线描述要素沿不同路径的流动。“DDL” indicates the domain 关键点估计器和域鉴别器的合作不仅提高了对姿势标记样本的姿势估计能力,而且还迫使模型通过更好地提取和利用姿势标记样本和姿势未标记样本共享的共同特征来获得这一点。称为“伪标签”,如[28,26]中所介绍的。考虑到模型在不同阶段的可靠性程度,我们引入了一种自节奏和交替式的优化方法来训练涉及伪标签的模型。为方便起见,这些创新被总结为4.2.1领域自适应在迁移学习实践中,给定两个域上的基础事实,可以在联合监督方案中执行自适应,其被公式化为:L关节= L源+ L目标其中,地面实况标签被所选择的伪标签P_T替换。4.2.2自定进度选择伪标签在训练中涉及伪标签的一个主要挑战是不能保证伪标签的正确性。不可靠的伪标签不但不能提供目标领域的更多有用知识,反而会误导模型在目标领域上表现得更差。为了克服这个缺陷,我们提出了一个自定进度的[30,27]策略,从较容易的情况到较难的情况选择伪标签进行训练。这避免了由于伪标签的积极使用而导致的模型退化。总的来说,当前模型预测将仅在其置信度为ΣSΣT=LS(IS,GS)+LT(IT,GT)(六)足够高。这将等式7更新为:i=1我我我j=1j我jΣTL′=−Y(φ)LT(IT,m(IT|φ))(8)其中LS和LT是训练数据重建的损失函数分别从源/目标域。T和S是相同的。目标jj jj=1其中m(I T|φ)是由当前权重φ的模型输出来自源/目标域的PLE,其基础事实标签分别是GS和GT。J关于ITY(Φ)表示在IT上的姿态预测是否是Iiijj j j然而,对于无监督域自适应,该过程被卡住,因为在目标域上没有地面实况标签可用作为一种次优选择,失去目标足够可靠Y(φ)=.1,如果C(m(IT|φ))> µ0,否则(九)将等式6中的域变换为:ΣT其中C(m(I T|φ())表示上的输出置信度分数目前的模型。 μ是过滤unreli的阈值。L目标=j=1LT(IT,PT)(7)9503能够输出。 在自定进度的选择设计中,限制在模型优化过程中,μ的9504I¯我我我算法1PPLO的整体过程输入:1. 当前模型权重,φ2. 过滤不可靠伪标签的电流阈值,µ3. 源域数据I¯∈D¯4. 源域GS∈GS上的地面真值5. 目标域数据I∈ D6. 目标域上的伪标号7. 源域KS上的训练步骤8. 目标域KT9. 放宽µ,S输出量:1. 更新模型权重φ2. µ的更新值3. 更新的PT一曰: 对于t = 1,…,KSdo2:从D ¯取样小批次BI¯。3:通过使用G S在B ¯上训练来更新φ。图4:我们提出的方案的整体流程,WS-CDA和PPLO都参与其中。蓝色方块表示第四章: 端5:对于每个I∈D,做II¯图34.2.3交替跨域训练WS-CDA和伪标签的谨慎自定进度选择使得训练中涉及的伪标签已经很多6:预测I的关键点KI。7:如果KI的置信度> μ,则8:将PT中的I的伪标签更新为KI9:如果结束10:结束十一: 对于t = 1,…,KTdo12:从D中采样小批量BI,其中PT∈PT。更可靠。 然而,伪标签仍然包含更多13:通过用PT在BI上训练来更新Φ。噪声比真实的地面真相,带来了模型退化的风险日期。为了减轻这种影响,模型以谨慎的方式联合训练,其中来自源域和目标域的样本交替地被馈送到训练中。如果源域和目标域的数据量接近,则这种交替训练近似于对来自两个域的数据的混合进行训练。然而,领域遭受巨大的数据量差距,在我们的任务中,姿势标记的动物样本比具有伪标签的目标领域样本多得多在这种情况下,在混合数据集上进行训练将使模型从具有更多样本的域中学习更多,而交替训练可以缓解问题。在一个时代的PPLO的过程中解释了Al-租1。我们提出的基于多域数据的域自适应方案的总体设计如图4所示。5. 评价我们在本节中评估所提出的设计的有效性因为有几个现有的方法可用于动物姿态估计没有标记太多的样本,我们试图建立比较移植一些以前的作品专注于类似的任务。14:结束十五: 用给定的策略S更新μ。十六: returnφ,µ,PT;5.1. 实验设置我们移植了一些流行的多姿态估计框架[14,8,22]来进行动物姿态估计以进行比较。此外,我们还比较了不同的流行域自适应方法[49,36,26]。为了公平起见,数据来源是有限的实验。用于训练的姿势标记的人类数据集是完整的COCO2017训练数据集[35],其中包含100k+实例,比构建的姿势标记的动物数据集大得多。我们构建的数据集是姿势标记动物样本的唯一来源,姿势未标记动物样本来自检测任务的COCO2017训练数据集[35]除非另有说明,否则所有模型默认情况下均按照官方发布的代码中的定义实现但我们详细解释了所采用的“AlphaPose”模型的配置i ) 特 征 提 取 器 和 域 自 适 应 网 络 ( DAN ) 都 基 于ResNet-101 [23]。ii)在相邻残差块之间插入SE模块[24]; iii)关键点估计器由两个DUC [51]层组成。把模型拿出来-9505每个类别方法猫 狗羊牛马基线16.9 17.2 38.3 35.5 28.9无适配[22]第二十二话22.5 21.6 18.7 21.6 23.6[第14话]37.6 37.3 49.4 50.3 47.9尼泊尔共产党[8]30.7 37.8 51.1 51.2 41.2w/适应CycleGAN+PL [26] 35.9 36.7 48.0 50.1 48.1[49]第四十九话38.0 37.7 49.5 50.6 48.5剩余转移[36] 37.8 38.2 49.1 50.8四十八点六提出WS-CDA(w2=1)34.5 32.3 47.6 47.8 46.2WS-CDA39.2 38.6 51.3 54.6 50.3表1:在不同组PPLO37.9 37.5 49.3 50.3 48.1东西。使用COCO-api计算mAP [34]。NA是用于训练的姿势标记的动物实例的数量。WS-CDA+PPLO42.3 41.0 54.7 57.3 53.1H表示是否使用人类数据进行训练。丹指示是否使用域适配网络。UA指示是否使用姿势未标记的动物数据。如果RB使能,则w2= 10,否则w2=1。为每个k个关键点放置具有置信度(等式9中的C(·))的热图,以过滤不可靠的检测到的关键点候选。训练过程也是标准化的:基于AlphaPose的模型都是通过3个步骤训练的:i)使用学习率= 1e-4进行训练;ii)使用学习率= 1e-4并添加干扰(斑块裁剪的噪声和抖动)进行训练; iii)具有学习率= 1e-5和distur的训练。添加了bance模型由RMSprop [43]优化,Pytorch中的默认参数[40]。当损失稳定收敛时,训练进入下一阶段或结束。最后,除非另有说明,超参数必须是一致的。对于WS-CDA参数,我们设置α=−1,β= 500,w1= 1,w2= 10。我们在算法1中将μ的初始值设置为0.9,并且如果在算法1期间更新一些伪标签,则μ的初始值在每10个时期之后减小0.01。最近的10个时代。训练批大小始终设置为64。5.2. WS CDA为了精确地评估WS-CDA的有效性,我们设置了启用不同模块或使用不同训练数据的实验组,并且所有组都使用如前所述的详细信息见表1。我们从构建的动物姿势数据集中选择1,117个实例进行测试。实验结果表明,当仅在人类数据集上训练时,即使它更大且标记良好,模型在动物测试集上也会遇到完全失败。在将少量姿势标记的动物样本添加到训练中之后,模型性能大幅提升。这样的差异显然来自于一个巨大的域之间的转移-表2:使用不同姿态估计框架并且具有/不具有对目标看不见的动物类别的域适应的mAP方面的比较。动物和人类此外,即使仅对人类数据进行训练会显着失败,但将相同的人类样本集与动物样本一起添加到训练中,它也会显着提高模型性能。它证明了仍然有许多共同的特征有助于对人类和动物进行姿势估计,而仅仅对人类数据进行训练会误导模型更具有人类特异性的特征,而不是它们。然后,实验表明,主适应网络和加权因子减轻了动物数据集和人类数据集之间的体积差距的负面影响。当启用加权因子时,姿势未标记的动物样本将有所帮助,否则,它可能会降低模型。5.3. 未发现物种我们设计实验来评估一个看不见的动物类的姿态估计 在五个姿势标记的动物类中,我们简单地将一个类设置为测试集,其他四个用于训练。在表2中,基线模型仅在动物数据集上训练。对于其他组,使用所涉及的姿势标记的人类数据集来训练模型。对于“w/o适应”组,模型在人类数据集上进行预测试,然后在动物样本上进行简单的微调。我们将一些其他域自适应方法[26,49,36]纳入评估以进行比较。对于[58]中的方法,使用Cyclegan进行数据扩充,并使用额外的动物样本[39]。采用[49]中的方法,而不涉及“软标签丢失”。对于[36]中的方法,指数NAH丹UARB地图10C0.422k30.332kC51.542kCC53.052kCCC45.762kCCCC56.774k44.384kC62.394kCC63.1104kCCC57.2114KCCCC65.79506图5:我们提出的方案对我们构建的数据集中包括的看不见的动物的跨域适应结果图6:我们提出的方案对未包含在我们构建的数据集中的未见过的动物的跨域适应结果我们使用基于全连接网络的剩余转移网络来代替对抗域鉴别器。实验证明了人类先验知识、WS-CDA和PPLO在对看不见的动物类执行跨域自适应以进行姿态估计时的有效性。此外,我们提出的方法优于其他域自适应技术。 一个有趣的事实 基于GAN的方法几乎没有表现出良好的有效性,尽管它们在其他一些任务中取得了令人印象深刻的性能[26]。 我们得出的结论是使用GAN增强训练数据时的原始姿势标签[58,37,33]。准确地说,GAN在变换后仅保持分割掩码不变,但关节位置通常会改变,这会使原始姿势标签无效。这样的数据增强在训练中引入了大量标签噪声,并可能导致模型退化。6. 结论我们提出了一个新的任务,未见过的动物与域自适应的姿态估计。一种新的跨域自适应机制,开发了这项任务。我们-签署了一项 此外,委员会认为, 我们设计了一种为了促进类似的未来任务,我们建立了一个动物姿势数据集,提供新的先验知识。实验证明了该方法的有效性,在动物姿态估计上达到了人类水平的姿态确认这 项 工 作 得 到 了 中 国 国 家 重 点 研 发 计 划(No.2017YFA0700800),国家自然科学基金资助61772332的部分支持我们也感谢所有为这项工作做出贡献的注释者。我们还感谢许多注释者对构建数据集的支持9507引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。CVPR,第3686-3693页,2014。[2] 卢博米尔·布尔德夫Pascal 2011所有类别的关键点和前景注释数据集,2012年2月。[3] Lubomir Bourdev和Jitendra Malik Poselets:使用3d人体姿势注释训练的在ICCV,第1365-1372页[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR,第1卷,第7页,2017年。[5] Zhangjie Cao,Lijia Ma,Mingsheng Long,and JianminWang.部分对抗域自适应。CoRR,abs/1808.04205,2018。[6] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR,第7291-7299页[7] Rita Chattopadhyay , Qian Sun , Wei Fan , IanDavidson,Sethuraman Panchanathan,and Jieping Ye.多源 域自 适应 及 其在 疲 劳早 期检 测 中的 应 用。 ACMTransactionsonKnowledgeDiscoveryfromData(TKDD),6:18,2012。[8] Yilun Chen,Zhicheng Wang,Yuxiang Peng,ZhiqiangZhang,Gang Yu,and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR中,第7103- 7112页[9] Chia-Jung Chou , Jui-Ting Chien , and Hwann-TzongChen. 人 体 姿 态 估 计 的 自 对 抗 训 练 。 CoRR ,abs/1707.02439,2017。[10] Ali Erol、George Bebis、Mircea Nicolescu、Richard DBoyle和Xander Twombly。基于视觉的手部姿势估计:审查. CVIU,108:52[11] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2011(VOC2011)http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html啊[12] Gabriele Fanelli、Juergen Gall和Luc Van Gool。使用随机回归森林的实时头部姿态估计。在CVPR,第617-624页[13] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。见CVPR,第70-78页。IEEE,2018年。[14] 方浩树,谢淑琴,戴玉荣,陆策武。RMPE:区域多人姿势估计。InICCV,2017.[15] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML,第1180[16] 伟峰阁、司北央、益州羽。基于弱监督学习的多标记分类、目标检测和语义分割的多证据在CVPR中,第1277-1286页[17] Timnit Gebru,Judy Hoffman,and Li Fei-Fei.在野外的精细识别:一种多任务域自适应方法。在ICCV,第1358-1367页[18] 乔治亚·吉奥克萨里,巴拉斯·哈里哈兰,罗斯·吉希克,和吉坦德拉·马利克。使用k-poselets来检测人并定位他们的关键点。在CVPR,第3582-3589页[19] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。用于大规模情感分类的域适应:一种cdeep学习方法。在ICML,第513-520页[20] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,第2672-2680页[21] Raghuraman Gopalan,Ruonan Li,and Rama Chellappa.用于对象识别的Do- main适配:无人监督的方法。在ICCV,第999-1006页[22] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 具 R-CNN 。 在 CVPR 中 , 第 2961-2969页[23] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[24] 杰虎,李申,孙刚。挤压-激发网络。2018年。[25] 黄胜伟、林哲宗、陈淑萍、吴燕怡、许柏豪、赖尚红。Auggan : 跨 域 自 适 应 与 基 于 gan 的 数 据 增 强 。 在ECCV,第718-731页[26] 井上直人,古田良介,山崎俊彦,相泽贵治.跨域弱监督对象检测通过渐进域适应。在CVPR中,第5001-5009页[27] Lu Jiang,Deyu Meng,Qian Zhao,Shiguang Shan,andAlexander G Hauptmann. 自 定 进 度 的 课 程 学 习 。 在AAAI,第2694-2700页[28] 康国良、梁铮、严妍、易阳。用于无监督域适应的深度对抗 性注 意力 对齐 :目 标期望 最大 化的 好处 。在ECCV,第401-416页[29] CemKeskin,FurkanKırac ,YunusEmreKara,andLaleAkarun.利用多层随机决策森林进行手部姿势估计及手部形状在ECCV,第852-863页[30] M Pawan Kumar,Benjamin Packer,and Daphne Koller.潜变量模型的自定进度学习。在NIPS,第1189-1197页[31] Yann LeCun、Bernhard Boser、John S Denker、DonnieHenderson 、 Richard E Howard 、 Wayne Hubbard 和Lawrence D Jackel。应用于手写体邮政编码识别的反向传播。神经计算,1:541-551,1989。[32] Renxiang Li,Carl M Danielsen,and Cuneyt M Taskiran.用于头部姿态估计和头部姿态检测的装置和方法,2008年8月。美国专利7,412,077。[33] Xiaodan Liang,Hao Zhang,Liang Lin,and Eric Xing.生成语义操纵与面具对比甘。参见ECCV,第558-573页[34] 林宗义。https://github.com/cocodataset/cocoapi的网站。9508[35] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。参见ECCV,第740-755页。Springer,2014.[36] Mingsheng Long , Han Zhu , Jianmin Wang , andMichael I Jordan. 无监督域自适应与残差转移网络。在NIPS,第136-144页[37] Sangwoo Mo Minsu Cho和Jinwoo Shin。Instagan:实例感知的图像到图像转换。2019年,在ICLR。[38] Erik Murphy-Chutorian和Mohan Manubhai Trivedi。计算机视觉中的头部姿态估计:一个调查。IEEE传输模式分析马赫内特尔,31:607[39] O. M. Parkhi、黑腹拟步行虫A. Vedaldi、A. Zisserman和C.诉贾瓦哈猫和狗。CVPR,2012。[40] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS,2017年。[41] Leonid Pishchulin,Arjun Jain ,Mykhaylo Andriluka,ThorstenThorm aühlen和BerntSchiele。 铰接人检测和姿态估计:重塑未来。在CVPR,第3178-3185页[42] Maheen Rashid,Xiuye Gu和Yong Jae Lee。用于面部关键点检测的物种间知识转移。在CVPR中,第6894-6903页[43] 塞巴斯蒂安·鲁德。梯度下降优化算法概述CoRR,abs/1609.04747,2016。[44] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。在NIPS,第4077-4087页,2017年。[45] Richard Socher、Milind Ganjoo、Christopher D Manning和Andrew Ng。通过跨模式迁移实现零镜头学习。在NIPS,第935-943页[46] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilliges。跨模态深度变分手部姿势估计。在CVPR中,第89-98页[47] James Thewlis Hakan Bilen Andrea Vedaldi通过分解空间嵌入的对象地标的非监督学习。在ICCV,第5916-5925页[48] 亚历山大·托舍夫和克里斯蒂安·塞格迪。Deeppose:通过深度神经网络进行人体姿势估计。在CVPR,第1653-1660页[49] Eric Tzeng , Judy Hoffman , Trevor Darrell 和 KateSaenko。跨域和任务的同步深度传输。在ICCV,第4068-4076页[50] Eric Tzeng,Judy Hoffman,Kate Saenko,and TrevorDarrell.对抗性判别域自适应。在CVPR第1卷第4页,2017年。[51] 王潘渠、陈鹏飞、叶远、丁柳、黄泽华、侯晓迪、驻军科特雷尔。理解用于语义分割的卷积。在WACV,第1451-1460页[52] Heng Yang,Renqiao Zhang,and Peter Robinson.人类和绵羊面部标志定位三元插值特征。在WACV中,第1-8页。IEEE,2016.[53] Wei Yang , Wanli Ouyang , Xiaolong Wang , JimmyRen,Hongsheng Li,and Xiaogang Wang.三维人体姿态估计9509通过对抗性学习在野外生存。在CVPR,第1卷,2018年。[54] 杨章,菲利普·大卫,龚伯庆。城市场景语义分割的课程领域适应。在ICCV,第2卷,第6页,2017年。[55] 张子明和Venkatesh Saligrama。通过语义相似性嵌入的零射击在ICCV,第4166- 4174页[56] Xingyi Zhou , Qixing Huang , Xiao Sun , XiangyangXue,and Yichen Wei.野外3d人体姿态估计:一种弱监督方法。InICCV,2017.[57] Xingyi Zhou , Arjun Karpur , Chuang Gan , LinjieLuo,and Qixing Huang.基于视图一致性的三维关键点估计在ECCV,第137[58] Jun-Yan Zhu,Taesung Park,Phillip Isola,Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。InICCV,2017.[59] Yang Zou , Zhiding Yu , BVK Vijaya Kumar , andJinsong Wang.通过类平衡自训练进行语义分割的无监督域自适应。参见ECCV,第289-305页[60] Silvia Zuffi 、 Angjoo Kanazawa 、 David W Jacobs 和Michael J Black。3d动物园
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功