辅助任务引导的CycleGAN用于黑盒模型领域适应

3 浏览量更新于2023-10-16 收藏 13.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{michael.essich, markus.rehmann, cristobal.curio}@reutlingen-university.de5410辅助任务引导的CycleGAN用于黑盒模型领域适应0Michael Essich，Markus Rehmann和Crist´obalCurio，Reutlingen大学，德国0摘要0领域适应的研究领域探索了使现有模型在不同领域之间进行转移的方法，例如应对环境变化或从合成数据到真实数据的转移。特别是无监督领域适应非常有益，因为它不需要任何标记的目标领域数据。通常，现有的方法针对特定任务，并要求访问或甚至修改源模型及其参数，这是只有黑盒模型可用时的主要缺点。因此，我们提出了一种基于CycleGAN的适用于黑盒源模型的方法，将目标领域数据转换为源领域数据，以便源模型可以操作。受到多任务学习的启发，我们在CycleGAN中增加了一个额外的辅助任务，可以任意选择以支持跨领域传输任务相关信息，而无需访问可微分的源模型或其参数。在这项工作中，我们专注于2D人体姿势估计的回归任务，并将我们的结果与CycleGAN和RegDA进行了四种不同的领域适应设置的比较，RegDA是一种用于无监督关键点检测的领域适应的最新方法。01. 引言0深度学习在复杂任务中取得了巨大成功，例如自然语言处理[3]、计算机视觉[37,7]或内容生成[28]，并且是自动驾驶[10,30]的关键技术。然而，如果训练算法的数据与其应该操作的数据不一致，即常称为领域转移，那么性能下降是可以预期的。考虑到我们生活在动态、多样和开放的世界中，不可能在训练数据集中涵盖每种可能的情况，这显示了明确考虑领域转移的必要性。领域适应（DA）的研究领域致力于开发方法来弥补领域转移，并提高模型在不同领域中的性能。0DA可以归因于迁移学习（TL），更具体地说是迁移学习（TL）[26]，其中只有源领域的标记数据可用，并且旨在在任务不变的假设下在源领域和目标领域之间转移现有知识。我们还可以区分半监督DA，当目标领域中有一些标记数据可用时，和无监督领域适应（UDA），当目标领域中没有标记数据可用时[8]。在这项工作中，我们采用UDA方法，因为UDA不需要耗时和昂贵的数据标记，因此具有最大的好处。此外，尽管早期的浅层DA方法通过实例重新加权[31]或简单的特征增强[9]来考虑领域转移，但深度DA方法被认为更有前景，因为具有更好的DA性能[8,29]。因此，我们采用基于CycleGAN的无监督深度DA方法进行跨传感器适应，CycleGAN是一种用于非配对图像到图像转换的生成对抗网络（GAN）[14]。0现有的DA方法通常针对特定任务或网络架构进行优化，例如图像分割[15, 42]或关键点检测[41, 20,11]，而且主要的缺点是需要修改模型和其参数，才能进行域适应。关于黑盒模型的DA研究很少，即只能访问不可微分的预测结果，无法访问模型参数，这些方法主要针对图像分类[40,23]。我们也假设一个黑盒模型，并且与现有的工作相比，我们的UDA方法更加通用，不依赖于特定的任务或架构。此外，我们专注于黑盒UDA的回归问题，而不是分类问题，因此我们在具有挑战性的2D人体姿势估计任务上训练和评估我们的方法。为此，我们创建了一个基于运动捕捉的数据集，包含成对的真实和合成图像，参见图1。虽然我们的方法不依赖于或利用成对数据，但它允许我们在具有相同内容的场景上评估模型的性能，有无DA。我们在不同领域之间具有相同的人体姿势配置。5420但领域偏移是由不同的传感器引起的，即合成和真实的RGB图像或合成RGB和合成深度图像，或者由于人的外观变化，即服装。0一个0B C0图1：我们配对数据集的一个示例帧，显示了三个不同的领域A）带有动作捕捉服的真实RGB传感器数据，B）带有动作捕捉服的合成RGB传感器数据，C）带有休闲服装的合成RGB传感器数据0我们使用江等人开发的Transfer-Learning-Library[19]，这是一个开源库，包括各种TL方法和各种任务的参考模型，并通过我们提出的方法扩展它来进行实验。我们的贡献可以总结如下：0• 我们分析了CycleGAN[43]在无监督跨传感器适应关键点检测模型（即人体姿势估计）方面的性能，在四种不同的具有不同领域偏移的设置中进行了实验。0•我们展示了通过对CycleGAN进行两个简单修改（即切换到循环学习率[32]和添加受多任务学习[6, 27, 35,22]和自我监督[18]启发的与任务相关的辅助损失）可以极大改善无监督跨传感器适应，即使在我们只能访问黑盒模型而无法访问其参数的假设下。0•我们将我们的方法与最近的一种无监督领域自适应关键点检测方法（RegDA[20]）进行比较，并强调了明确解决传感器领域偏移的必要性。02. 相关工作0人体姿势估计对于自主系统的安全至关重要，例如在自动驾驶或协作机器人领域。早期基于深度学习的方法，如DeepPose [34]直接回归了0在图像中的人体关节的2D坐标，最近的全卷积方法通常生成热图，其中通过不可微的argmax操作检索关节位置[25,39]。通过用积分操作替换argmax，可以进行端到端的训练[33]。最新的3D姿势估计方法能够同时预测图像中的2D和3D姿势以及头部和身体方向[4]。此外，我们可以区分自下而上和自上而下的人体姿势估计。在更常用的自上而下方法中，需要进行额外的目标检测步骤以获取图像中人物的边界框。然后在每个检测到的边界框上进行姿势估计，如[25,39]中所做的那样。与自上而下方法相反，自下而上方法可以在单个步骤中同时预测多个人的姿势。在OpenPose[5]的情况下，预测部分亲和力场以将关节与身体部位和个体相关联。已经有许多不同的方法和架构专门用于人体姿势估计的任务，需要在领域适应方面进行处理。因此，我们的UDA方法的适用性并不针对特定的任务或架构，尽管在本文中我们专注于2D人体姿势估计，并展示了我们的方法在Xiao等人提出的姿势估计方法[39]的示例中的可行性。无监督领域自适应是指只有标记的源域数据但只有未标记的目标域数据可用，并且目标是将在源域上训练的模型转移到目标域。我们专注于深度领域自适应（DDA），通常被归类为基于差异性、对抗性和重建性的方法[8,38]。基于差异性的方法旨在通过减小源域和目标域中间网络层的差异来学习领域不变特征，例如深度适应网络[24]使用最大均值差异的多核变体。基于对抗性的方法使用一个判别器，即领域分类器，学习将数据分类为源域和目标域。通过对抗目标，即欺骗判别器将域错误分类（领域混淆），鼓励模型学习领域不变特征。还可以区分非生成和生成方法[8,38]。Ganin和Lempitsky[12]提出了一种非生成的对抗性方法，并引入了一个梯度反转层结合领域分类器来学习领域不变特征，这也被称为领域对抗神经网络（DANN）[13]。主任务的损失，即分类，使用标记的源数据进行最小化，同时通过最大化领域分类器使特征对于源域和未标记的目标域具有区分性。LGAN(Gs→t,DGANt, Xt, Xs) =(1)Ext∼Xt[(DGANt(xt) − 1)2]+ Exs∼Xs[DGANt(Gs→t(xs))2]Lcyc(Gs→t,Gt→s, Xs, Xt) =(2)Exs∼Xs[||Gt→s(Gs→t(xs)) − xs||1]+ Ext∼Xt[||Gs→t(Gt→s(xt)) − xt||1]Lid(Gs→t,Gt→s, Xt, Xs) =(3)Ext∼Xt[||Gs→t(xt) − xt||1]+ Exs∼Xs[||Gt→s(xs)) − xs||1]5430在生成的情况下，通过在域分类器之前添加一个梯度反转层来减小分类损失。在生成的情况下，添加一个额外的生成器，形成一个GAN[14]架构。这样的模型可以用于从真实的语义分割掩码[17]生成特定于域的图像。基于重建的方法假设重建源或目标数据对于编码特定于域的特征是有益的。CycleGAN[43]用于无配对图像到图像的转换引入了一个循环一致性损失，强制网络在保留图像内容的同时转换图像风格。循环一致性损失是原始图像和重建图像之间的L1损失，即在转换到相反域并再次转换回来后。CyCADA[15]通过额外的语义一致性、任务和特征损失扩展了CycleGAN，用于语义分割模型的DA。这些DA方法通常需要访问模型及其参数，因为它们依赖于（中间的）激活或模型权重。尽管生成对抗和基于重建的方法特别是可以在没有访问（可微分的）模型及其参数的情况下使用，但额外的任务特定损失通常基于模型的输出[42,15]。相比之下，Zhang等人[40]的工作侧重于对图像分类的黑盒源模型进行UDA。他们使用源模型预测目标域的噪声标签，估计噪声率，选择好的样本并为目标域训练一个新模型。然后使用更新后的目标域模型重复此过程。虽然[40]需要源模型预测的软标签，但DINE[23]可以执行具有硬标签的黑盒模型的UDA。我们遵循黑盒模型的DA思想，但专注于回归任务，更具体地说是Xiao等人提出的2D人体姿态估计模型[39]，与[40,23]中的分类任务相反。我们的方法与[11]接近，其中通过合成和真实深度数据之间的域转换来执行人体姿态估计的DA。然而，我们尽可能地保持我们的方法的通用性，因此使用基于重建的方法，而不是进行任务特定的假设，以便可以轻松地适应其他任务。我们将我们的方法与RegDA[20]进行比较，这是Jiang等人最近提出的一种用于2D关键点检测的UDA方法。RegDA是一种基于对抗的方法，它训练一个对抗回归器来最大化目标域上的差异，并训练一个特征回归器来最小化差异。因此，特征回归器学习域不变特征。RegDA的对抗训练过程需要生成虚假姿势，这些虚假姿势假设错误的关键点预测最有可能位于其他关键点的位置。与RegDA不同，我们的方法不需要访问源模型及其参数，而只需要访问其预测结果，因此适用于黑盒DA。03. 方法0在这项工作中，我们遵循Pan和Yang [26]以及Csurka[8]的符号和定义，即一个域由D ={X，P(X)}表示，其中X是特征空间，X ={x1，...，xn}∈X。一个任务由T ={Y，P(Y|X)}表示，其中Y是标签空间，Y ={y1，...，yn}∈Y。给定来自源（s）域Ds的无标签数据Xs和来自目标（t）域Dt的无标签数据Xt，以及在源域数据上训练的黑盒模型fs，我们的目标是找到一个模型Gt→s，将Xt映射到Xs，以便fs可以成功地应用于来自域Dt的翻译数据，即fs(Gt→s(xt)) = ˆy。我们的方法扩展了CycleGAN[43]，并使用附加的任务特定辅助损失来进一步支持域翻译，并使用循环学习率。我们方法的详细信息在第3.1小节中描述。此外，我们介绍了一个专门用于研究从相似到真实领域适应的数据集，在第3.2小节中描述。因此，我们的模拟与真实的RGB传感器和动作捕捉数据进行了时间同步。此外，我们将RGB传感器校准到我们的动作捕捉空间，从而能够基于动作捕捉、3D扫描和动画角色生成同步的真实和合成传感器数据。03.1. 辅助任务引导的CycleGAN0我们遵循[43]，定义了最小二乘GAN损失以及循环和身份损失，以学习 D s 和 D t 之间的映射，参见方程1-3。0类似地，L GAN ( G t → s , D GAN s , X s , X t )也适用于相反的域映射。0虽然这种映射可以实现图像到图像的转换和风格迁移，但它并不适用于DA，因为它没有利用任何任务相关的信息。为了Laux(fs, faux, Gs→t, Gt→s, Dauxs, Dauxt, Xs, Xt) = (4)Exs∼Xs[(Dauxs(xs) − faux(fs(xs)))2]+ Exs∼Xs[(Dauxt(Gs→t(xs)) − faux(fs(xs)))2]+ ExtXt[(Dauxs(Gts(xt))Dauxt(xt))2]Gt→sGs→tDsDtauxsauxtDauxLauxGAN(Gs→t,Dauxt, Daux, Xt, Xs) =(5)ExtXt[(Daux(Dauxt(xt))1)2]LauxCyc(Gs→t, Gt→s, Dauxs, Dauxt, Xs, Xt) =(6)ExsXs[(Dauxs(Gts(Gst(xs)))Dauxs(xs))2]5440在只能访问黑盒模型 f s的情况下，我们支持任务相关信息的转移，我们通过受到多任务学习[6, 27, 35,22]和自监督[18]的启发，定义了额外的辅助损失，即强制我们的判别器 D s 和 D t预测辅助任务，除了区分真实和翻译的图像之外，如图2所示。我们将判别器的辅助任务预测头称为 D aux s 和 D auxt，将判别头称为 D GAN s 和 D GANt。我们的辅助任务是一个图像生成任务，因此可以任意选择，但必须与任务相关以支持相关信息的转移。除了通道数之外，D aux s 和 D aux t的输出高度和宽度与输入图像相对应，即我们使用256×256像素的分辨率。对于人体姿势估计任务，我们选择通过在每个关节的位置放置一个填充的圆圈来将姿势估计模型预测的2D关节位置转换为辅助任务。所有关节和额外的骨架都堆叠在通道维度上，并应用高斯模糊，参见图2。辅助任务鼓励判别器 D aux s 和 D GAN s 以及 D aux t 和 D GAN t编码足够描述真实和生成图像之间的区别的特征，同时生成与人体姿势相关的辅助任务。生成器被迫欺骗判别器；因此，它们需要学习辅助任务（人体姿势）与图像（即图像中的人物）之间的关系以及如何生成它们。辅助任务的跨域转移进一步由 D aux通过区分从真实图像和生成图像预测的辅助任务来支持。由于黑盒模型的DA，我们假设 D aux s 和 D aux t学到的特征与人体姿势估计模型的预测基于的特征一致。有关我们方法的结果，请参见第4节。出于性能原因，我们一次为整个数据集计算 f aux ( f s ( X s ))并缓存生成的辅助任务数据以供重用。L aux 确保 D aux s和 D aux t共同学习在源域和目标域数据上预测辅助任务，并定义如下：0+ E x t � X t [( D aux t ( G s → t ( x s )) − D aux s ( xs )) 2 ]0虽然源域的辅助任务由f aux ( f s ( X s))给出，我们假设可以学习到D aux t0源域0目标域0GAN损失0循环一致性损失0辅助GAN损失0图2：我们的方法通过额外的辅助GAN和循环一致性损失（突出显示的红色框）扩展了CycleGAN。这里为简单起见，未呈现身份损失和基于源模型输出训练辅助任务的损失。0利用不断改进的G s → t ( X s )。为了进一步支持从源域到目标域的辅助任务转移，我们引入了鉴别器D aux，并定义了L auxGAN：0+ E x s � X s [ D aux ( D aux t ( G s → t ( x s ))) 2]0L auxGAN ( G t → s , D aux s , D aux , X s , X t)类似地应用。最后，我们对辅助任务进行循环一致性约束：0+ E x t � X t [( D aux t ( G s → t ( G t → s ( x t ))) − D taux ( x t )) 2 ]0我们的综合损失函数如下：Ltotal(Gs→t, Gt→s, DGANs, DGANt,(7)Dauxs, Dauxt, Xs, Xt, faux, fs) =sttsstG∗s→t, G∗t→s = arg minGs→tGt→sminDauxsDauxtmaxDGANsDGANtDauxLtotal(8)5450+ L GAN ( G s → t , D GAN t , X t , X s0+ L GAN ( G t → s , D GAN s , X s , X t0+ λ∙L cyc ( G s → t , G t → s , X s , X t )0+ 0.5λ∙L id ( G s → t , G t → s , X t , X s )0+ 10λ∙L aux ( f aux , f s , G s → t , G t → s ,0+ L auxGAN ( G s → t , D aux t , D aux , X t , X s0+ L auxGAN ( G t → s , D aux s , D aux , X s , X t0+ 10λ∙L auxCyc ( G s → t , G t → s , D aux s , D auxt ,0在公式7中，我们遵循[43]并设置λ = 10。对于L aux和LauxCyc，我们的实验结果表明，权重因子为10λ可以获得最佳的领域自适应结果。因此，我们的目标是解决以下问题：0与CycleGAN不同，我们不使用图像缓冲区，并且我们切换到循环学习率，并发现在学习率在2∙10^(-6)和10^(-4)之间震荡时，获得了最佳结果0相对于线性衰减学习率，这导致更高的领域自适应性能和更快的收敛速度。有关我们的结果，请参见第4节。03.2. 同步的模拟到真实数据集0虽然我们在训练中不需要配对的跨域数据，但对于我们的领域自适应方法的评估来说，这是非常重要的，特别是在黑盒模型领域自适应的设置中。我们的人体姿势估计模型学习预测源域数据中的姿势，因此对源域的特征空间有偏见。对于我们没有配对的跨域数据进行评估的一般情况，我们无法比较源域和目标域的性能，因为我们无法将性能的提升或下降归因于领域自适应方法或姿势模型根本不知道的姿势。为了克服这个问题，我们创建了一个数据集，其中包含用RGB传感器记录的同步和配对的合成和真实样本，如图1所示。Human3.6M[16]与我们的数据集相似，但我们更注重产生配对数据，因此除了3D扫描的演员，还创建了一个3D扫描的运动捕捉实验室的虚拟表示，并具有人物-物体交互的可能性。为了进一步改变图像内容，我们记录了0我们的演员与微型机动车辆互动，即两种不同的电动滑板车。我们的总体目标是控制域偏移。为了获得准确的人体姿势真值，我们使用Vicon运动捕捉系统记录了演员的动作。此外，我们将RGB相机校准到运动捕捉空间，并使用获取的内部和外部相机参数将人体姿势从运动捕捉投影到相机空间。我们基于Unity的模拟尽可能准确地重现了真实记录的场景。这包括3D扫描的环境，运动捕捉的演员和物体，以及根据其内部和外部参数记录的相机。运动捕捉系统提供的时间码用于将合成数据生成与真实数据同步，生成包括真实数据和合成数据的配对数据，包括真实值，即人体姿势，边界框和额外的合成深度数据。总共，我们的数据集包含43,098个合成和真实样本。尽管合成数据与穿着运动捕捉服的演员（与真实数据相同），但我们还生成了穿着休闲服装的另一个3D扫描演员的合成数据，以引入额外的域偏移进行实验。04. 实验0为了比较，我们所有的实验都是使用我们修改并扩展了我们的方法的Transfer-Learning-Library[19]进行的。我们考虑以下四种DA设置，参见表1和图3进行可视化概述，具有不同的域偏移：01.从合成的RGB传感器数据与休闲服装到合成的RGB传感器数据与运动捕捉服（我们的数据集）。02.从合成的RGB传感器数据与休闲服装到合成的深度传感器数据与休闲服装（我们的数据集）。03.从合成的RGB传感器数据与运动捕捉服到真实的RGB传感器数据与运动捕捉服（我们的数据集）。04. 从SURREAL [36]到LSP数据集[21]。0首先在每个源域上训练人体姿势估计模型。我们遵循RegDA中实现的训练过程，该过程假设一个时代包含500个批次。我们在我们的数据集上使用批量大小为8的姿势估计模型进行70个时代的训练，并在SURREAL数据集上进行500个时代的训练，因为数据集大小更大且更多。99.5062.6030.951.811.380.19399.6262.469.260.605460表1：初始姿势估计准确性。模型在源域上进行训练，并报告源域和目标域在执行DA之前的PCKh指标。0设置编号0源域目标域0数据集 PCKh@0.5 PCKh@0.1 数据集 PCKh@0.5 PCKh@0.101我们的数据集合成的RGB传感器休闲服装0我们的数据集合成的RGB传感器运动捕捉服0我们的数据集合成的深度传感器休闲服装0我们的数据集合成的RGB传感器运动捕捉服0我们的数据集真实的RGB传感器运动捕捉服04 SURREAL 60.22 0.12 LSP 37.12 5.640(a) 设置10(b) 设置20(c) 设置30(d) 设置40图3：本文考虑的四种DA设置的概述，显示了姿势的真实值。上排：源域；下排：对应的目标域0在后一种情况下，考虑到后者的变化。选择最后一个训练时代的模型进行我们的DA实验。我们将我们的数据集的60％用于训练（25,858个样本），10％用于验证（4,309个样本）。对于SURREAL数据集（源域），我们使用451,439个样本进行训练和3,200个样本进行验证。由于LSP数据集（目标域）只有2,000个样本的规模较小，整个数据集用于训练和验证。0我们在表1中报告了每个姿势估计模型在其对应的源域上的PCKh[2]指标，以及在DA之前的原始目标域性能。如预期，目标域数据上的性能随着域转移的增加而降低。当我们切换合成传感器模式（从99.5％下降到1.38％）或从合成到真实传感器（从99.62％下降到9.62％）时，可以注意到更大的性能下降，而当我们仅在合成域中改变演员的外观时（从99.5％下降到30.95％），性能下降较小。0到真实传感器（从99.62％下降到9.62％）比仅在合成域中改变演员的外观（从99.5％下降到30.95％）时，性能下降更大。0相对于SURREAL，我们数据集上姿势估计模型的整体源域性能更高，而在目标域上的相对性能下降较小，特别是将SURREAL源模型应用于LSP数据集时（从60.22％下降到37.12％）。我们的数据集内部变化较小，例如，同一域内演员的外观不会改变，但在源域和目标域之间存在域间变化，例如，演员的外观或传感器的变化。这使得人体姿势估计模型更容易学习姿势，从而导致源域性能较高，但过度拟合到源域并在目标域上表现较差。50100150200050100501001502000204060501001502000501005010015020002040605470Epoch0PCKh@0.50Epoch0PCKh@0.10我们的方法无辅助任务的我们 RegDA CycleGAN 参考源域参考目标域0图4：设置1：在我们的数据集上从合成RGB传感器数据（休闲服装）到合成RGB传感器数据（动作捕捉套装）进行域自适应时的PCKh准确度。0Epoch0PCKh@0.50Epoch0PCKh@0.10我们的方法无辅助任务的我们 RegDA CycleGAN 参考源域参考目标域0图5：设置2：在我们的数据集上从合成RGB传感器数据（休闲服装）到合成深度传感器数据（休闲服装）进行域自适应时的PCKh准确度。0源域，因此在目标域上性能低且泛化能力差。相比之下，SURREAL数据集包含更多的数据和变化，例如不同的人物和场景，使学习变得更困难，但也导致更高的泛化能力。在接下来的实验中，我们研究了CycleGAN、RegDA和我们的方法在这四个不同的DA设置中的行为。由于GPU内存有限，我们使用批量大小为8来训练CycleGAN和我们的方法，而保持RegDA的默认批量大小为32。这一点很重要，因为Transfer-Learning-Library的训练过程假设一个epoch包含500个批次，导致RegDA相对于CycleGAN和我们的方法的训练运行每个epoch有四倍的样本。为了展示使用辅助任务的好处，我们在第一和第二个DA设置中进行了消融研究，即删除了辅助任务损失，基本上是使用循环学习率的CycleGAN，没有图像缓冲区。我们的方法能够弥补传感器领域转移，并且非常接近源域性能。0第一个三个DA设置，如图4-6所示，优于CycleGAN和RegDA。CycleGAN的训练过程在PCKh准确度上出现了更大的震荡，并且性能不稳定。我们的方法也偶尔出现性能下降，但总体性能更稳定，因为它通常在几个epochs内恢复并保持高准确度。正如我们的消融研究所示，循环学习率已经提高了CycleGAN的DA性能，但在设置1和2中使用我们的辅助任务可以使PCKh@0.5准确度提高约10％，并且训练过程更稳定。虽然RegDA在设置2（RGB/深度）和3（合成/真实）中面临着较大的传感器领域转移困难，但在设置4（SURREAL/LSP）中实现了最佳的DA性能。因为RegDA依赖于姿势估计对目标域的预测来生成一个groundfalse，所以它对这些预测非常敏感，这也得到了我们的结果的支持。目标域性能越高（设置1和4），RegDA的DA性能越好，反之亦然（设置2和3）。因此，我们得出结论，有必要明确解决传感器领域转移，如设置1到3所示。501001502000501005010015020002040605010015020002040605010015020002468105480时期0PCKh@0.50时期0PCKh@0.10我们的RegDA CycleGAN参考源域参考目标域0图6：设置3：从带运动捕捉套件的合成RGB传感器数据到带运动捕捉套件的真实RGB传感器数据进行域自适应时的PCKh准确性。0时期0PCKh@0.50时期0PCKh@0.10我们的RegDA CycleGAN参考源域参考目标域0图7：设置4：从SURREAL到LSP数据集进行域自适应时的PCKh准确性。0可以通过图像或一般的传感器转换成功处理。然而，传感器转换有其局限性，如在设置4中可以看到，CycleGAN和我们的方法都低于没有DA的参考模型的目标域性能。这种行为可能归因于CycleGAN和因此我们的方法无法处理一对多映射，这是由于SURREAL（451,439）和LSP（2,000）数据集的训练样本数量不匹配所导致的。尽管有一些方法[1]可以处理一对多映射，但这超出了本工作的范围，即研究可控领域转移设置中的黑盒DA。05. 结论0在这项工作中，我们研究了四个不同设置中的领域转移对CycleGAN和RegDA在人体姿势估计模型的UDA任务中的影响。为了进行基准测试，我们创建了一个基于运动捕捉的、同步的、成对的数据集，特别针对人体姿势估计的模拟到真实领域转移任务。0此外，我们提出了使用辅助任务来扩展CycleGAN的方法，这些任务可以是任意但与任务相关的选择，受到多任务学习的启发，并使用循环学习率进行训练，相比于CycleGAN和RegDA，在四个DA设置中有三个DA设置的性能更好，同时使我们的方法适用于黑盒DA。0致谢0这项工作由德国联邦经济事务和气候行动部资助，属于“KIDeltaLearning”项目（授权号19A19013S）。作者要感谢合作团队的成功合作。0参考文献0[1] Amjad Almahairi，Sai Rajeswar，AlessandroSordoni，Philip Bachman和AaronCourville。增强的CycleGAN：从非配对数据中学习多对多映射。arXiv，2018年2月。0[2] Mykhaylo Andriluka，Leonid Pishchulin，PeterGehler和Bernt Schiele。2D人体姿势估计：新的基准[19] Junguang Jiang, Baixu Chen, Bo Fu, and Mingsheng Long.Transfer-Learning-library, 2020.5490和最先进的分析。在2014年IEEE计算机视觉和模式识别会议上。IEEE，2014年6月。0[3] Tom Brown，Benjamin Mann，Nick Ryder，MelanieSubbiah，Jared D Kaplan，Prafulla Dhariwal，Arvind Neelakan-tan，Pranav Shyam，Girish Sastry，Amanda Askell，Sand- hiniAgarwal，Ariel Herbert-Voss，Gretchen Krueger，TomHenighan，Rewon Child，Aditya Ramesh，DanielZiegler，Jeffrey Wu，Clemens Winter，Chris Hesse，MarkChen，Eric Sigler，Mateusz Litwin，Scott Gray，BenjaminChess，Jack Clark，Christopher Berner，Sam McCandlish，AlecRadford，Ilya Sutskever和DarioAmodei。语言模型是少样本学习器。在《神经信息处理系统进展》中，第33卷，第1877-1901页。Curran As- sociates，Inc.，2020年。0[4] Dennis Burgermeister和Crist´obalCurio。PedRecNet：用于完整3D人体姿势和方向估计的多任务深度神经网络。在2022年IEEE智能车辆研讨会（IV）中。0[5] Zhe Cao，Gines Hidalgo，Tomas Simon，Shih-EnWei和YaserSheikh。OpenPose：使用部分亲和场的实时多人2D姿势估计。IEEE模式分析与机器智能交易，43（1）：172-186，2021年1月。0[6] Rich Caruana. 多任务学习.机器学习，第28卷第1期，41-75页，1997年。0[7] Junyi Chai, Hao Zeng, Anming Li, and Eric W.T. Ngai.计算机视觉中的深度学习: 新兴技术和应用场景的关键回顾.《应用机器学习》，第6期，100134页，2021年12月。0[8] Gabriela Csurka. 视觉应用领域自适应的综述.在《计算机视觉应用领域的领域自适应》中，第1-35页。Springer International Publishing，2017年。0[9] Hal Daum´e III. 令人沮丧地简单的领域自适应.在第45届计算语言学年会上，第256-263页，2007年6月，捷克布拉格。计算语言学协会。0[10] You Dingyi, Wang Haiyan, and Yang Kaiming.自动驾驶技术的最新发展和趋势.在2018年IEEE创新与创业国际研讨会(TEMS-ISIE)上，第1-8页，2018年3月。0[11] Michael Essich, Dennis Ludl, Thomas Gulde, and CristobalCurio.在传输任务模型的同时学习真实世界和模拟3D传感器之间的转换.在2019年国际3D视觉会议(3DV)上。IEEE，2019年9月。0[12] Yaroslav Ganin and Victor Lempitsky.通过反向传播进行无监督领域自适应. 在Francis Bach和DavidBlei编辑的《第32届国际机器学习会议论文集》中，第37卷《机器学习研究论文集》的1180-1189页，2015年。PMLR。0[13] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, PascalGermain, Hugo Larochelle, Franc¸ois Laviolette, MarioMarchand, and Victor Lempitsky. 神经网络的领域对抗训练.《机器学习研究杂志》，第17卷第1期，2096-2030页，2016年1月。0[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. 在Z. Ghahramani，M.Welling，C. Cortes，N. D. Lawrence和K. Q.Weinberger编辑的《第27届神经信息处理系统进展》中，第2672-2680页。Curran Associates, Inc.，2014年。0[15] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu,Phillip Isola, Kate Saenko, Alexei Efros, and Trevor Darrell.Cycada: 循环一致的对抗领域自适应. 在Jennifer Dy和AndreasKrause编辑的《第35届国际机器学习会议论文集》中，第80卷《机器学习研究论文集》的1989-1998页，瑞典斯德哥尔摩斯马森，2018年。PMLR。0[16] Catalin Ionescu, Dragos Papava, Vlad Olaru, and CristianSminchisescu. Human3.6m:自然环境中的大规模数据集和3D人体感知预测方法.IEEE模式分析与机器智能交易，第36卷第7期，1325-1339页，2014年7月。0[17] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A.Efros. 条件对抗网络的图像到图像转换.在2017年IEEE计算机视觉与模式识别会议(CVPR)上。IEEE，2017年7月。0[18] Tomas Jakab, Ankush Gupta, Hakan Bilen, and AndreaVedaldi. 无标签视频中可解释关键点的自监督学习.第8784-8794页，美国西雅图，2020年。IEEE。0[20] Junguang Jiang, Yifei Ji, Ximei Wang, Yufeng Liu, JianminWang, and Mingsheng Long. 无监督关键点检测的回归域自适应.在2021年IEEE/CVF计算机视觉与模式识别会议(CVPR)上，第6776-6785页，2021年。0[21] Sam Johnson and Mark Everingham.集群姿势和非线性外观模型用于人体姿势估计.在英国机器视觉会议论文集中，2010年。0[22] 李毅，Rameswar Panda，Yoon Kim，Chun-Fu Chen，Roge-rio Feris，David Cox和NunoVasconcelos。VALHALLA：用于机器翻译的视觉幻觉。2022年5月。0[23] Jian Liang，Dapeng Hu，Jiashi Feng和RanHe。DINE：来自单个和多个黑盒预测器的领域适应。在2022年IEEE/CVF计算机视觉和模式识别会议（CVPR）中，2022年。0[24] Mingsheng Long，Yue Cao，Jianmin Wang和MichaelJor- dan。通过深度适应网络学习可迁移特征。在FrancisBach和David Blei编辑的第32届国际机器学习会议论文集中，Pro-ceedings of Machine LearningResearch的第37卷，页码97-105，2015年7月，法国里尔。PMLR。0[25] Alejandro Newell，Kaiyu Yang和JiaDeng。用于人体姿势估计的堆叠沙漏网络。在Bastian Leibe，JiriMatas，Nicu Sebe和Max Welling编辑的计算机视觉-ECCV2016中，计算机科学讲义，页码483-499，2016年。SpringerInternational

下载后可阅读完整内容，剩余1页未读，立即下载