基于CLIP的手部姿态估计中的无图像区域泛化方法

109 浏览量更新于2023-10-16 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2934基于CLIP的无图像区域泛化方法在三维手姿态估计中的应用Seongyeong Lee1，2 † Hansoo Park1 Dong Uk Kim1 Jihyeon Kim1 JihyeonBoboev1 Seungryul Baek11UNIST，韩国2NC Soft，韩国摘要基于RGB的3D手部姿势估计已经成功了几十年，这要归功于大规模数据库和深度学习。然而，手部姿势估计网络确实模型冻结IETE斩断模型列车风格有lor}背景{co文字提示用于增强背景信息对于其特征与训练数据相差甚远的手姿态图像不能很好地工作。这是由各种因素引起的，诸如照明、相机角度、输入图像中的不同背景等。许多现有的方法试图通过提供额外的大规模无约束/目标域图像来增加数据空间来解决这个问题;然而，收集这样的大规模图像需要大量的劳动力。在本文中，我们提出了一个简单的图像自由域泛化方法的手姿态估计框架，只使用源域数据。我们尝试通过使用CLIP（对比图像预训练）模型添加来自文本描述的特征来操纵手部姿势估计网络的图像特征。然后利用操纵的图像特征通过对比学习框架来训练手部姿势估计网络。在STB和RHD数据集的实验中，我们的算法显示出比最先进的域泛化方法更好的性能。1. 介绍3D手部姿态估计对于诸如增强现实和虚拟现实以及机器人之类的人机交互应用是必不可少的。基于深度的3D手部姿势估计[2，44，14，23，30，39，53，55，15，24，45，16，17，52，20]已经流行使用Kinect传感器。最近，基于RGB的3D手部姿态估计由于其简单实用的设置与基于深度的方法相一致而得到了广泛的应用和发展许多研究人员这项研究是在Seongyeong Lee是UNIST的研究生（硕士候选人）时进行的†。增强测试目标域3D姿态估计器图1.概述了我们的领域推广方法在手的姿态估计任务，利用CLIP模型。给定源域图像，我们通过利用CLIP文本操作特征作为姿态估计网络的新特征来训练3D手部姿态估计器。试图通过开发新的深度学习架构[65，63，25]或通过额外的数据收集或真实和合成数据生成来增加数据，从而提高基于RGB的手部姿势估计的性能。例如，Linet al.[36]最近提出了一种基于Transformer的模型，并显示了手部姿态估计性能的改进。虽然该模型表现出了优异的性能，但如果存在巨大的视角差距或严重的遮挡，则仍然具有确保泛化能力的挑战[1]。使用额外的数据显然有助于提高泛化能力[11，7]。然而，在具有不同姿态的不同环境中收集RGB姿态数据以确保准确注释是具有挑战性的，并且因此性能对于野外环境是有限的由于扩展数据集大小的挑战，已经出现了提出有效数据使用算法的研究趋势作为一个例子，各种域自适应和泛化技术[21，29，37，47，46，31，33，57，56，59，66，19，49，58]已提出。还有，源域2935通过对比学习实施自我监督的研究[12，50]也在文献中显示对于超出训练域的泛化，Zhang et al.[60]提出了一种因果表征学习的方法，该方法明确地利用了任务的因果结构通过应用领域自适应和泛化技术，在手部姿态估计领域取得了较好的泛化能力.此外，Spurr etal.[50]提出了一种方法，使自我监督对比学习的手姿态估计与许多未标记的数据。他们鼓励在表征学习过程中对几何变换进行等方差。因此，他们使用上述方法改进了数据集之间的泛化。在本文中，我们的目标是通过有效地使用给定数据的特征，而不是使用额外的数据集，以特别地，我们提出使用CLIP [43]模型从源域图像中提取广义特征表示。CLIP模型使用大量的图像-文本对和对比学习进行训练。因此，它可以提取比仅使用图像的模型更一般化的特征表示。利用这一优势，我们通过为CLIP的文本编码器提供各种文本来增强，从而提高了在看不见的领域中的泛化能力据我们所知，这是第一个工作，以适应领域的泛化在手部姿势估计域只使用源数据集。我们的姿势估计器与CLIP的概述如图1所示。2. 相关工作在本节中，我们将回顾手部姿势估计、对比学习和领域自适应/泛化方面的最新文献。2.1. 三维手姿态估计手部姿势估计是估计x的任务，来自深度图[22，38]或RGB图像[4，26]的21个手部关节的y和z坐标。深度图对于照明条件和阴影是不变的。它还具有强大的抗杂波的优势[2，38];而其缺点是不能捕获诸如场景的纹理和颜色的各种特征。RGB图像的优点是能够捕获详细的手属性，如独特的颜色，纹理和轮廓。除此之外，RGB摄像头在我们的日常生活中比深度传感器更无处不在，就像我们在智能手机中拿着RGB摄像头一样;而我们口袋里没有深度传感器。然而，与深度图不同，RGB图像完全丢失3D深度信息。因此，与深度图相比，从RGB图像[5，26]实现3D手部姿势估计存在很大困难。有用但具有挑战性的设置基于RGB的3D手部姿态估计的快速发展最近加速了许多算法的发展[40，35，64，32]。最近，也建立了基于RGB的3D手部网格估计[26，4]。3D手模型（即MANO）[4，5，34]在建造这些管道时已被利用。进一步利用图卷积网络（GCN）来更好地捕获网格拓扑中顶点之间的关系[61，18]。在数据方面，与其他领域（如身体姿势估计）相比，手部需要使用多种相机视角、姿势和形状进行数据收集[9，10，6，3，48]。这是由于手表现出严重的自遮挡和不同的相机视角的事实。2.2. 对比学习对比学习是实现自监督学习的一种方法.它已经在各种工作中被利用[28，42，12，27，51]，用于通过利用相同内容的不同视图作为正样本和其他内容作为负样本来从多个视图中Chen等人。[12]提出了数据增强的对比学习，以学习更好的表示。他们使用数据增强的样本作为阳性;而其它数据样本为负。这些方法的性能可以通过增加阴性样本的数量来提高然而，负样本的数量受到GPU存储器大小的限制。因此，[13，27]提出了一种使用动量编码器增加负样本数量的方法。Zhu等人[62]提出了一种根据负样本数控制边际项的方法。Caron等[8]通过对增强数据进行聚类而不是比较特征来解决该限制。对比学习也被用于各种任务，如图像和视频分类[12，27，51]和对象检测[28]。最近，Spurr et al.[50]提出了3D手部姿态估计任务的对比他们扩展了Simplified [12]框架，使其适用于结构化回归任务，例如手部姿势估计。他们使用几何和外观变换的手图像作为正样本，其他图像作为负样本来实现对比学习。大多数对比学习方法依赖于数据增强技术，如尺度操作、剪切、噪声和旋转变换。在我们的论文中，我们使用CLIP模型，它是鲁棒的零射击学习，并经常用于领域泛化任务。通过对CLIP中文本提示的处理，对数据空间进行风格扩充，并对原始数据和扩充数据的特征进行对比学习，使原始数据的特征对领域生成具有鲁棒性2936∈∈×××∈∈∈∈×∈∈∈××∈∈××⊂⊂2.3. 领域自适应/泛化计算机视觉中的一个重要问题是数据集的偏差和不同数据集之间的域移位为了解决这个问题，域自适应（DA）/域生成（DG）方法最近吸引了很多关注。结构域适应（DA）是在靶结构域的标记不存在或不足的情况下原位使用的方法。DA利用源域数据、稀疏标记、未标记目标域数据作为训练数据集，有效地学习目标域分布。DA主要分为三种类型：监督域自适应（SDA）[21，29，37，47]，半监督域自适应，（SSDA）[46，31，33]和无监督域自适应-（UDA）[57，56，59，66]。SDA是使用标记的源域数据和目标域数据两者的方法。SSDA是利用其标签被完全注释的源域数据和其标签被部分注释的目标域数据的方法。最后，UDA是一种使用源域和目标域数据而不带任何标签的方法。上述方法（即SDA、SSDA和UDA）都需要目标域数据来训练模型。然而，获得目标数据并不容易，并且收集带有标签的目标数据甚至更难。领域泛化（DG）[19，49，58，60]的出现缓解了收集目标数据的挑战。DG与DA的不同之处在于，它通过使用源数据和可能与目标域数据相似的附加未见域数据，使特征在目标域中泛化。最近，Zhang et al.[60]提出了利用无约束数据集进行位姿估计的DG方法，可以提高泛化能力。然而，它受到这样一个事实的限制，即它需要收集可能与目标域数据相似的附加的看不见的域数据在我们的论文中，我们提出了域泛化方法，不需要额外的数据集收集。3. 我们的手域泛化框架在本节中，我们介绍了我们的手姿态估计方法，利用CLIP模型和对比学习机制的领域推广。总的来说，我们的域泛化框架接收256 256 3大小的单个RGB图像xX作为输入，并输出21个3维3D关节坐标cC。在遗骸中-在本节的下面，我们将首先解释我们的基线手部姿势估计网络fHPE，然后解释CLIP网络fCLIP，最后描述我们如何将CLIP网络fCLIP组合到我们的手部姿势估计网络fHPE中以构建整体领域泛化框架。我们的框架的总体示意图如图2所示，所使用的符号列表如表1所示。表1.注释摘要X轴R256× 256× 3RGB图像空间。TR3，920× 1文本提示空格。E型128× 1编码向量空间。高宽R21× 32× 322D热图空间。C轴21× 33D关节坐标空间。fCLIP：[X，T]→R512×1CLIP模型。fCl：X→R512×1CLIP图像编码器。fCT：T→R512×1CLIP文本编码器。fHPE：X→C基线3D手部姿势估计器。fH2D：X→[H，E]2D热图网。fPP：H→CPoseprior网3.1. HPE的基线3D手部姿势估计器我们与[63]的基线手部姿势估计器f HPE相同地构成基线手部姿势估计器fHPE，其包括1）从输入RGB图像x X估计2D热图h H的2D热图网络f H2D，以及（2）使用估计的热图 hH 来预测 3D 关节坐标 c C 的Poseprior网络f PP。在本小节的剩余部分中，我们将解释两个子网（即 f H2D，f PP）。H2D的2D热图网络。H2D的2D热图网络接收256 256 3大小的单个RGB图像x。然后，它生成2132 32维2D热图h。输入图像x通过图中描述的“分支1”顺序地应用于多个ConvBlocks。2，并将其映射到2D热图hH。图2中的“分支2”操作。2涉及涉及CLIP特征，这将在第2节中描述。3.3.我们使用卷积姿态机（CPM）架构[54]来构建我们的2D热图网络fH2D[63]，并且在补充中描述了构成2D热图网络fH2DPP的Poseprior网在从2D热图网络fH2D估计热图hH之后，Poseprior网络fPP接收估计的热图h并估计对应的3D关节坐标cC。我们训练我们的模型来预测给定图像帧内的相对3D坐标，然后将其转换为绝对3D坐标，如[63]所示。详细地说，该网络由两个并行处理流组成。一个流预测规范空间中的3D手部姿势。另一个流预测旋转马可，使得3D手部姿势可以在相机空间中对齐。3.2.CLIP（对比图像预训练）网络CLIP网络fCLIP接收256 256 3大小的单个RGB图像xX和文本提示符tT.CLIP模型f CLIP的文本编码器f CT和图像编码器f CI生成512维编码器特征fCI（x）R512×1和fCT（t）R512×1。在原始CLIP中，ResNet-50或ViT（VisionTransformer）2937H2D的2D热图网络Branch1HPE的手部姿态估计网络PP的Poseprior网Branch2权重共享输入图像x图像编码器fCI{文本注释t用于增强背景信息CT文本编码器L热{hand}的图像/图片，颜色}背景文本特征fCT（t）图像特征fCI（x）fCLIP（x，t）CLIPfCLIP二维热图hL型：加权和：串联：ConvBlock：ProjectionHead：FCLayer：非级联向量：级联向量：冻结L浓度3D关节坐标c图2.我们的领域泛化框架的示意图，用于3D手姿态估计。1)CLIP网络fCLIP接收RGB图像x和文本提示t作为输入，并从CLIP图像/文本编码器生成特征的加权和fCLIP（x，t）。2）2D热图网络fH2 D接收相同的RGB图像x作为输入，并生成2D热图h和编码向量e'1和e'2。3)Poseprior网fPP接收2D热图h并生成3D关节坐标c。在2D热图网络fH2D中，然后，我们通过将e'1作为锚点，e'2作为阳性样本，并基于同一批次中样本之间的热图距离挑选阴性样本eneg来应用对比学习（参见第2节中的文本）3.4详情）。通过这一点，我们能够使H2D的2D热图网络的特征空间对各种领域具有鲁棒性。三个损失（即LCon、LHeat和LPose）用于训练HPE的手部姿态估计网络。作为图像编码器的基线结构 ; 基于字节对编码的Transformer也用于文本编码器。本文采用Ope-nAI1提供的预训练模型（在训练过程中我们冻结了CLIP模型的权值）ViT-B/32作为图像编码器，Transformer网络作为文本编码器。3.3. CLIP增强特征编码本节介绍了我们的CLIP增强方法我们实际上有两个阶段：1）CLIP特征生成和2）编码向量生成阶段。CLIP特征生成。图像x被输入到CLIP图像编码器fCI以提取特征向量fCI（x）。这个向量包含来自任务无关CLIP的丰富信息然而，它没有关于其他领域的图像;而仅具有关于来自源域的图像x的信息。为了从风格和上下文中增加额外的信息，我们支持-1https://openai.com/姿势表2以生成反映手姿势图像的不同方面的文本提示t我们可以通过简单地组合表2中的单词来创建文本提示该方法可生成3920个文本提示符配置，并给出了自动生成文本虽然可以为每个图像制作更复杂的文本提示，这将进一步提高性能;我们证明了这种简单的方法对于我们的流水线工作良好。生成的文本提示t被用作CLIP文本编码器fCT的输入，以提取特征向量fCT（t）。为了混合信息，我们将fCLIP（x，t）定义为fCI（x）和fCT（t）的加权和向量。通过10倍交叉验证，我们选择STB和RHD的图像编码器和文本编码器之间的比例分别为6：4和9：1表4（a）中示出了关于重量总和比率的烧蚀实验通过这个过程，我们强制CLIP特征fCLIP（x，t）包含除了源域信息之外编码向量生成。鉴于CLIP功能293822表2.文本提示头手颜色手颜色背景白色手一个裁剪图象与山湖房间深棕色的图像右手与明亮的黑暗背景的桃绿紫色裁剪照片一张棕色白色黄色的照片一个淡黄色天空蓝色黑色浅米色橙红色的照片右黑色蓝色黄色灰色米色照片粉褐色点花fCLIP（x，t），2D热图网络fH2D接收从源图像x和文本提示t提取的学习率为10-4。在本节的其余部分，我们将解释三种损失。2D热图损失LHeat. 2D热图损失LHeat被定义为标准均方误差（MSE）损失，以将预测热图fH2D（x）=h接近于其对应的地面实况3D关节坐标hGT，如下：LHeat（f H2D）=<$f H2D（x）− hGT<$2。（二）3D姿势损失L姿势。3D姿态损失LPose也被定义为标准均方误差（MSE）损失，如下所示：256×256×3大小的单个RGB图像x并生成128维编码向量e′1∈E和e′2∈ELPose（fH2D，fPP）=<$fPP（fH2D（x））−cGT<$2（3）通过H2D的2D热图网络的在该分支中，2D热图网络fH2D的特征向量被顺序地应用于ConvBlock和FC层以生成512维中间特征el。此外，2D热图网络的特征向量将fH2D应用于ConvBlock，并与CLIP特征fCLIP（x，t）级联，并再次应用于FC层，以生成512维中间特征e2。中间特征 e1 和 e2被应用于相同的（权重共享的）ProjectionHead层以分别生成128维编码向量e’1和e’2这里，中间特征e2是中间特征e1在上下文和背景方面通过将源域信息与其中cGT表示地面实况3D关节坐标。对比损失LCon. 采用对比损失法使正样本的潜在空间一致性最大化编码向量e’1变为锚点，而编码向量e’2变为正样本。此后，在同一批次中的样本中，选择阴性样本eneg作为其真实热图与锚样本的预测热图最远对比损失LCon则定义如下：LCon（f H2D）= e′1 − e′21− max（0. 5，e′1 −eneg1）. （四）3.5. 测试CLIP特征在于fCLIP（x，t）。ProjectionHead是一个...由两个MLP层构成，首先投影512维仅手部姿态估计网H2dfHPE 不顾将512维向量投影成512维向量，然后将它们再次投影成128维向量。之后，进一步将编码向量e′1和e′2‘Branch2’ of 2D heatmap net 测试RGB图像x被输入到2D热图网络fH2D，并且它采用图2）生成21个32×32维热图h。然后利用的对比学习机制，使用方程。4.整个管道通过2D热图损失、3D姿势损失和对比损失以端到端的方式进行训练。通过对比度损失，我们的管道对来自各个领域的图像变得鲁棒。3.4. 培训我们的领域泛化框架由端到端的可训练网络组成，基于1）来自源领域的输入图像x和2）自定义创建的文本提示t.我们只使用源数据集（即FreiHAND [65]）进行训练，并且不涉及来自目标域或其他无约束数据集的额外图像或标签。我们使用三个损失（即LHeat、LPose和LCon），如下所示：L（fHPE）=λ1LHeat+λ2LPose+λ3LCon（1）其中λ1、λ2和λ3是控制每个损失函数的权重的平衡参数。从10-随机交叉验证中，我们将λ1和λ2设置为1，将λ3设置为0。1.一、此外，我们使用亚当优化器，β=（0. 九比零。九九九）还应用posepriori网fPP21×3维3D关节坐标c.4. 实验在本节中，我们详细阐述了我们的实验设置，并定性和定量分析结果。我们证明了利用CLIP的域泛化方法比以前的最先进的方法具有更好的泛化能力。4.1. 数据集我们使用三种类型的基于RGB的3D手部姿势基准数据集进行实验，这些基准数据集具有RGB图像和相应的地面真实3D姿势注释。FreiHAND数据集。FreiHAND [65]是一个大型3D手部数据集，由130，240张训练图像和3，960张测试图像组成。该数据集还包括网格注释和手部姿势注释。同时创建具有室内和室外环境的测试数据;2939×××而训练数据包括在具有绿色背景的室内环境中获取的数据。然后，它提供了训练数据，这些数据与背景人工合成。我们使用这个数据集作为源域数据。STB 数据集。Stereo Hand Pose Tracking Bench- mark（STB）[41]提供21个关键点的2D和3D注释，分辨率为640 480。它是一个真实的数据集，由图像的STB-BB，STB-SK子集组成。两个不同的子集被捕获的点灰色大黄蜂2立体相机和英特尔F200深度相机，重新命名。我们遵循Zim-merman等人的训练和测试分裂。[63]（15，000张图像用于训练，3，000张图像用于测试），并在我们的实验中仅使用测试分割作为目标域数据集。RHD数据集。渲染手部姿势数据集（RHD）[63]是由Blender软件捕获的合成数据集，使用来自Mixamo的20个不同角色执行39个动作。它总共有43986张图像，分辨率为320320像素，精确的21个关键点注释和分割掩模。从Flickr中随机抽取具有城市和风景的背景图片。我们遵循齐默尔曼等人的训练和测试分裂[63]（41，258张图像用于训练，2，728张图像用于测试），并在我们的实验中仅使用测试分割作为目标域数据集。评价方法。我们评估了两个手的姿态估计数据集（即。STB和RHD），其基于端点误差（EPE）测量来计算以mm为单位的估计的3D关节坐标c与地面实况3D关节坐标cGT4.2. 结果本文研究了三维手姿态估计任务中的域泛化问题。我们主要比较了我们的方法与现有的DG方法：张等人。[60]这解决了我们的问题，并实现了我们面前的最佳性能。我们涉及他们的结果[60]，仅涉及在表3中，我们将我们的方法与现有的方法进行了比较，并确认我们的方法仅基于源图像显示出优异的性能，而不涉及目标图像（即。STB、RHD数据集）或其他无约束图像。与Zhang et al.[60]，通过我们的方法，错误率在STB和RHD数据集中分别降低了3.33%和3.11%。图3显示了CLIP图像和文本编码器特性（即， 0的情况。5（fCI（x）+fCT（t）和CLIP图像编码器特征（即， f CI（x）），从现有数据集中的样本（即，STB、RHD和FreiHAND）。The ‘aug’denotes the samples obtained from the CLIP image andtext 0的情况。源数据集的5×（f CI（x）+f CT（t））（FreiHAND）;而“stb”、“rhd”和“frei”表示从CLIP图像编码器特征获得的样本（即，fCI（x））分别用于STB、RHD和FreiHAND数据集。图3显示了增强特征的分布（即，“aug”样本）覆盖STB和RHD数据集的分布，这些数据集是目标域数据集。通过这个实验，我们定性地可视化了我们提出的方法的效果增强分布的有效性在图4中得到了证明，这表明我们的方法保持了源域的上下文信息和文本提示的风格。在图4中，源域数据集（Frei-HAND）的图像和与图像相关联的文本分别被给予CLIP图像编码器（IE）fCI和CLIP文本编码器（TE）fCT，并被变换为输出特征。然后，两个输出特性（即，图像特征和文本特征）通过加权求和（a）合并。除了输入图像之外，源域数据集中的其余图像被给予图像编码器以提取图像特征（b）。在提取特征之后，计算（a）和（b）之间的余弦相似度。在图的右侧。4、将源域图像按相似度排序后的文本提示可视化。具有最高余弦相似性的样本可能是与组合的输入图像x和文本提示t最相关的样本。从可视化中，我们可以观察到这样的假设是有效的。方法FreiHAND→STBFreiHAND→RHDEPE↓EPE↓Zhang等人[60个]36.148.3我们34.946.8表3.在STB、RHD数据集上与现有方法进行比较。单位为mm刻度。4.3. 消融研究。我们评估了CLIP模型在我们的方法中应用于手部姿势估计的贡献：我们在框架中配置了四个变体：1）通过比较有无CLIP网络，我们证明了CLIP模型在领域泛化问题上的有效性，并研究了表4（a）中从它们生成组合特征f CLIP（x，t）时fCI（x）和f CT（t）之间的最佳比率。2)对于手姿态估计器特征和CLIP特征的最佳组合，我们研究了在“级联”和“求和”之间哪种操作是有效的，以将CLIP特征组合到我们还获得了仅使用CLIP文本编码器来应用表4（b）中的样式增强的情况的结果3)我们尝试找到最佳的重量比（即。λ3）之间的对比损失和表5中的其他损失函数。4)最后，我们比较了我们的方法和方法的性能与正常的数据应用2940方法比STBRHDEPE↓ EPE↓基线36.1148.36IE35.0048.37IE+TE0.936.6946.820.835.7549.430.634.9747.340.447.2563.01（一）方法组合STBRHD-EPE↓ EPE↓基线-36.1148.36TE级联38.1249.46求和35.9348.36IE+TE级联34.9747.34求和42.9848.24（b）第（1）款表4.超参数消融研究。(a)我们比较了各种比率的CLIP编码器的结果。这里，比率指示分配给CLIP图像编码器fCI的权重，1-ratio是分配给文本编码器fCT的权重。使用0. 6和0。9分别适用于STB和(b)比较了级联运算和求和运算的组合方法。我们可以发现，拼接方法比求和方法更有效。方法λ3STBRHDEPE↓ EPE↓IE+TE137.6753.140.134.9747.340.0135.0550.920.00130.6550.97表5.（a）在不同对比损失的λ 3值下，我们的方法的比较。最佳λ3值设置为0。001和0。STB和RHD数据集分别为1。然而，从交叉验证来看，我们将λ3设置为0。1，并将其报告为最终精度。方法STBRHDEPE↓ EPE↓我们34.9746.82正常增强38.9249.86表6. (a)我们的方法与常规增强方法的比较。在正常的增强方法，有六种类型的增强应用（即。颜色抖动、切出、高斯噪声、 Sobel 滤波器、颜色下降和高斯模糊）。我们的consistently和显着的作品比正常的增强方法。图 3. 使用 CLIP 图像和文本编码器特征从源数据集（FreiHAND）（即'aug'）和CLIP图像功能从现有的数据集（即。‘stb’ for STB, ‘rhd’ for RHD and ‘frei’ for FreiHAND在表6中增加。在表4（a）中，我们比较了几种变体的性能：基线，我们仅使用CLIP图像编码器（IE）的方法和我们使用 CLIP 图像编码器 +CLIP 文本编码器（IE+TE）的方法。错误率降低了3。08%的STB，即使只有CLIP图像编码器进一步参与。然而，当CLIP图像编码器和CLIP文本编码器都参与时，STB和RHD都有显著的改善。在表4（a）中，fCI（x）和fCT（t）之间的最佳权重比似乎为0。6和0。STB和RHD分别为9例我们从10倍交叉验证中获得了这些值在表4（b）中，我们研究了IE+TE方法在风格增强上的有效性从我们的结果中，我们可以观察到，单一的CLIP文本编码器（TE）是不足以实现域泛化到其他领域，因为它没有从源域的上下文信息。另一方面，我们还研究了当结合手部姿势估计特征和CLIP特征时两种操作的效果：连接和求和。此外，结果表明，级联是更有效的操作比求和，将CLIP功能纳入手姿态估计功能。在表5中，我们显示了对比损失和其他损失函数（即，λ3）。当λ 3 = 0时获得最佳性能。001且λ3=0。表中的STB和RHD分别为1;当我们设置2941A) 户外活动的帮手IESrc域名镜像B) 一只手与山IE图像(b)θ余弦(a) 相似性C) 一只手在雪景TE文本提示* 最相似的手姿势与源标准图像每文本图4. FreiHAND图像的可视化，其具有与CLIP增强特征相似的特征。当给出源域的图像（FreiHAND）和用于增强的文本提示（左）时，在（a）中，我们首先对从CLIP图像编码器（IE）和CLIP文本编码器（TE）获得的特征进行加权求和。之后，对于（b），我们将CLIP图像编码器应用于所有FreiHAND源数据，而没有（a）中使用的输入图像在计算（a）和（b）中获得的特征之间的余弦相似性之后，可以根据图像的相似性对图像进行排名，并且在该图的右侧可视化排名的图像排名的图像似乎与文本提示对齐良好。λ3=0。1，因为该值是从10倍交叉验证中获得的。因此，我们报告λ3=0。STB和RHD数据集均为1个最后，我们在表6中比较了正常数据增强方法和我们的方法我们表明，我们的增强方法始终显着优于正常的数据增强方法。对于正常的数据增强，我们涉及六种类型的增强：颜色抖动、切出、高斯噪声、索贝尔滤波器、颜色下降和高斯模糊。5. 结论在本文中，我们提出了3D手姿态估计框架，以及推广到看不见的域数据集。现有的领域自适应/泛化方法试图通过在训练阶段提供额外的无约束/目标领域数据集来缓解不同数据集之间的领域偏差或领域偏移问题。然而，收集这样的数据集需要花费大量的时间和精力，或者有时不可能获得准确的目标域数据集。在本文中，我们提出了无图像的领域综合框架，涉及CLIP模型生成风格增强功能的文本提示，这是相关的手域。手部姿势估计器通过以下方式变得具有风格增强特征：对比学习机制，因此手部姿势估计网络对于看不见的域数据变得鲁棒。在实验中，我们在FreiHAND数据集上训练了我们的网络，并在两个流行的手部姿势估计数据集上进行了测试。RHD和STB）。对于两个数据集，我们通过将错误率降低3，实现了域泛化集的最新性能。33%和3。在STB和RHD数据集中，分别与先前最先进的方法具有11%的我们证明了文本提示可以增加样式信息，并使我们的模型推广到其他领域的数据集。我们希望我们的方法可以扩展到其他任务或其他姿态估计任务（即。人体姿态和动物姿态估计）。鸣谢。这项工作得到了IITP赠款的支持（第2021-0-01778人类图像合成和识别技术的发展低于感知阈值20%; No. 2020-0-01336 人工智能研究生院计划（UNIST）20%; No.2021 -0-02068人工智能创新枢纽20%; No. 2022-0-00264利用基于知识的深度逻辑神经网络进行全面的视频理解和生成（20%）和NRF资助（No. 2022 R1 F1 A1074828 20%），全部由韩国政府（MSIT）资助。A) 在户外B) 与山区C) 在雪地里一只手独特的类似**类似独特的独特的类似*2942引用[1] Anil Armagan ，Guillermo Garcia-Hernando ，SeungryulBaek，Shreyas Hampali，Mahdi Rad，Zhaohui Zhang，Shipeng Xie，Neo Chen，Boshen Zhang，Fu Xiong，Yang Xiao，Zhiguo Cao，Junsong Yuan，Pengfei Ren，Weiting Huang，haifengsun，MarekH ru'z，JakubKanis，ZdeneZhaikKrnKoul，QingfuWan，ShileLi，DongheuiLee，LinlinYang，Angela Yao，Yun-Hui Liu，AdrianSpurr ， PavloMolchanov ， UmarIqbal ，PhilippeWeinzaepfel，RomainB re' gie r，Gr e'gory Rogez，Vincent Lepetit，and Tae-Kyun Kim. 测量对看不见的视点、关节、形状和物体的生成，用于手-物体交互下的3D手部姿势估计。在ECCV，2020年。[2] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于深度的手部姿态估计的增强骨架空间转移在CVPR，2018年。[3] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.实时在线行动检测森林使用时空背景。在WACV，2017年。[4] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.通过神经渲染推进基于RGB的密集3D手部姿态估计的包络在CVPR，2019年。[5] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于GAN和Mesh模型的弱监督域自适应用于估计与对象交互的3D手部姿势在CVPR，2020年。[6] 白承律，石志远，川出正人，金泰均.基于深度动作识别的动态布局感知随机森林。在BMVC，2017年。[7] 比诺德·巴特拉伊，白承烈，鲁梅萨·博德，金泰均。GAN合成数据的采样策略。在ICASSP，2020年。[8] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。NIPS，2020年。[9] Junuk Cha ， Muhammad Saqlain ， Donguk Kim ，Seungeun Lee，Seongyeong Lee，and Seungryul Baek.从Transformer中学习3D骨架表示以进行动作识别。IEEEAccess，2022。[10] Junuk Cha，Muhammad Saqlain，GeonU Kim，MingyuShin，and Seungryul Baek.多人3D姿态和形状估计通过逆Kinetics和细化。在ECCV，2022年。[11] Junuk Cha ， Muhammad Saqlain ， Changhwa Lee ，Seongyeong Lee，Seungeun Lee，Donguk Kim，Won-Hee Park，and Seungryul Baek.面向3D人体姿势和形状估计的单个2D图像级自我监督。应用科学，2021。[12] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。[13] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。Arxiv，2020年。[14] Xinghao Chen ， Guijin Wang ， Hengkai Guo ， andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。神经计算，2020年。[15] Yujin Chen，Zhigang Tu，Liuhao Ge，Dejun Zhang，Ruizhi Chen，and Junsong Yuan. So-handnet：用于3d手部姿势估计的半监督学习自组织网络。在ICCV，2019年。[16] Jian Cheng，Yanguang Wan，Dexin Zuo，Cuixia Ma，Jian Gu，Ping Tan，Hongan Wang，Xiaoming Deng，and Yinda Zhang.用于3d手部姿态估计的有效虚拟视图选择。Arxiv，2022年。[17] 郑文灿，朴在贤，高钟焕。手折网：利用多尺度特征引导的2d手部骨架折叠的3d手部姿态估计网络。ICCV，2021。[18] Bardia Doosti ， Shujon Naha ， Majid Mirbagheri ， andDavid J Crandall.Hope-net ： A graph-based model forhand-object pose estimation.在CVPR，2020年。[19] Qi Dou ， Daniel Coelho de Castro ， KonstantinosKamnitsas，and Ben Glocker.神经信息处理系统进展在NIPS，2019。[20] Linpu Fang ， Xingyan Liu ， Li Liu ， Hang Xu ， andWenxiong Kang. Jgr-p2 o：基于联合图推理的像素到偏移预测网络，用于从单个深度图像估计3d手部姿势在ECCV，2020年。[21] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗JMLR，2016.[22] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在CVPR，2018年。[23] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在CVPR，2018年。[24] 六号戈，周仁，袁俊松。点到点回归点网络用于三维手姿态估计。在ECCV，2018。[25] Shreyas Hampali，Mahdi Rad，Markus Oberweger，andVin- cent

下载后可阅读完整内容，剩余1页未读，立即下载