手和对象形状的协同学习算法

185 浏览量更新于2023-10-25 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1664基于注意引导图卷积Tze Ho Elden Tse1Kwang In Kim2Ales Leonardis1Hyung Jin Chang11伯明翰大学2UNISTtxt994@student.bham.ac.uk，kimki@unist.ac.kr，{a.leonardis，h.j.chang} @ bham.ac.uk摘要在交互下估计手和对象的姿势和形状发现了许多应用，包括增强现实和虚拟现实。现有的手和对象重建方法需要明确定义的物理约束和已知的对象，这限制了其应用领域。我们的算法是不可知的对象模型，它学习的物理规则，管理手对象的相互作用。这需要自动推断手和（可能未知的）对象的形状和我们试图通过提出一种协作学习策略来解决这个具有挑战性的问题，在这种策略中，深度网络的两个分支相互学习具体来说，我们将手网格信息转移到对象分支，反之亦然的手分支。由此产生的优化（训练）问题可能是不稳定的，我们通过两种策略来解决这个问题：（i）注意力引导的图形卷积，其帮助识别和聚焦于相互遮挡，以及（ii）无监督的关联损失，其促进分支之间的信息传递。使用四个广泛使用的基准测试的实验表明，我们的框架实现了超越国家的最先进的3D姿态估计的准确性，以及恢复密集的3D手和对象的形状。上述每个技术组件都对消融研究有重要贡献。1. 介绍理解人手和物体的相互作用对于有意义地解释人类动作和行为是至关重要的[65，72]。随着深度学习和RGB-D传感器的出现，孤立手的姿态估计已经取得了重大进展，例如基于深度的[12，69，74，81，82]和基于RGB的[51，60，63，77，85]方法。然而，尽管与增强现实和虚拟现实等实际应用有很强的联系[32，52，71]，但手和物体的关节重建[33，35]受到的关注相对较少。在本文中，我们专注于问题的手和物体重建从一个单一的RGB图像（见图）。1）。图1.我们提出了一个协作学习框架，允许跨手和对象分支迭代地共享网格信息我们的模型联合重建手和物体网格从单眼RGB图像。手和物体的联合姿态估计是一个具有挑战性的问题。首先，虽然手的自遮挡是一个众所周知的问题[56，80]，但当与物体交互时，手（和物体）几乎从任何角度都表现出更大的遮挡[53]。第二，第一人称视角（例如，FHB[24]数据集）通常表现出很大程度的不规则相机运动。最近的工作[23，42，65]已经能够解决颜色输入中的联合手对象姿势估计中的一些主要挑战。然而，在没有物理约束的情况下，并且在稀疏关键点检测的情况下，它们经常导致错误的姿态估计或网格重构（例如，手穿透物体）。为了从根本上理解手与物体的交互，必须完全恢复3D信息，因此，从单个RGB图像[3，4，10，19，25，41，50，83，84，86]的手部网格估计已经有了显著的改进Hasson等人[35]进一步提出吸引和排斥损失项，以产生物理上合理的重建。最近基于优化的方法[14，34]依赖于这些接触术语，仅限于手和物体已经接触的场景。然而，推理预抓取阶段的能力也同样重要，因为它允许机器人推断人类在-1665[48]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”因此，我们提出了一种策略，不受这些接触条款的限制，并能够学习的实际情况下，以及近的身体接触。我们的新的协作学习框架允许手和对象分支以渐进和迭代的方式相互促进这种策略有两个动机：1）估计交互的手和对象的姿势这由以下事实支持：图像编码器在相互遮挡下努力提取有用的特征，并且因此捕获对象网格信息将补偿手部重建的这种限制（在对象分支中相同）。在这种情况下，以前的尝试通过简单的分支堆叠[79]在存在通信瓶颈的情况下跨分支共享信息：我们凭经验观察到，在这种方法中，跨网络推理迭代的性能增益是有限的。我们明确地解决了这一问题，一个新的无监督的关联损失促进信息传输。此外，为了解决手-物体交互场景中频繁发生的遮挡，我们提出了一种可以以无监督方式训练的注意力引导图卷积我们的图形卷积展示了提高网格质量以及正确的手和物体姿势的能力。我们的贡献如下：1. 我们提出了一个端到端的可训练的协作学习策略，从一个单一的RGB图像的手对象重建。2. 我们设计了一个注意力引导的图卷积动态捕捉网格信息。3. 我们引入了一种无监督的训练策略，用于手对象分支之间的有效特征转移。4. 我们证明，我们的模型实现了高度的物理合理的结果，没有接触条款。我们评估我们的方法在四个手对象数据集，即。[24]，ObMan[35]，HO-3D[31]和DexYCB[17]，证明我们的方法显著优于最先进的方法。2. 相关作品我们的工作解决的问题，手和物体的重建，从一个单一的RGB图像。本文首先回顾了手目标重建的文献。然后，我们将重点关注利用图卷积神经网络处理与手相关的任务的工作线最后，我们提供了一个简短的回顾，尽管它的薄弱环节在文献中的协作学习手部物体重建手和物体的关节重建已经受到越来越多的关注[14，33- 35 ]。Hasson等人[35]利用可区分的MANO网络层使得能够进行手形估计的端到端学习，并且结合了接触损失，该接触损失导致接触表面并且惩罚手和物体之间的穿透。Hasson等人[33]假设已知的对象模型，并利用光度一致性作为对未注释的中间帧的自我监督，以改进手部和对象重建。Karunratanakul等人[38]提出了一种以符号距离字段形式的手的隐式表示。最近的作品大多采用基于优化的程序来联合拟合手对象网格[14，34，78]。在本文中，我们提出了一种基于学习的策略，其中直接特征在手对象分支之间共享，并且能够在没有任何接触术语的情况下产生物理上合理的交互。基于图卷积的方法。由于骨架可以用图的形式表示，因此在手势估计中，图卷积自然引起了人们的广泛关注图卷积神经网络（GCN）可以分为光谱[11，21，40]和基于空间的方法[27，49，76]。对于基于频谱的应用，[19，25]采用Chebyshev频谱图卷积[21]来计算手部网格。Cai等人[13]利用GCN [40]并将骨架序列应用Doosti等人[23]提出了一种轻量级的图卷积网络，它联合估计手和物体姿态。Kulon等人[41]提出了螺旋滤波器来直接从自动编码器恢复手部网格他们证明，空间网格卷积优于光谱方法和基于SPL的模型[44，57]用于手部重建。相比之下，我们提出的注意力引导图卷积能够采用动态图输入，并且不假设特征聚合的固定邻域。协作学习。关于同时学习多个任务的文献已经很多了。它们跨越了多任务学习[7，8，15]，领域适应[46，47]，分布式学习[6，22，70]的范围。和协作学习[9，37，54，61]。协作学习是指通过信息共享使学习更有效率。Blum等人[9]提出了一个协作PAC（可能近似正确）学习模型，该模型建立在Valiant等人的基础上。[66]和[18，54]是后续工作。Song等人[61]介绍了一种形式的协作学习框架，其中同一网络的多个分类器头在相同的训练数据上同时训练，以提高泛化和鲁棒性，而无需额外的推理成本。在他的框架下有两个主要机制：1）来自不同分类器的多个视图的相同训练数据集提高了泛化能力，2）中间级表示共享。Yang等[79]利用关节感知功能进行手势识别和3D手部姿势估计。他们的机制侧重于中间层表示共享迭代，1666obj手∈∈∈L∈∈图2.我们框架的示意图它获取一个输入图像x，该图像经过两个独立的ResNet-18编码器ENChand（x）和ENCobj（x），分别产生手和对象特征rhand和robj。Hand网格估计器gHME获取rhand并输出hand网格mhand，然后将其传递到图形卷积模块gconv并输出hand。对象网格估计器采用r_obj和r_obj两者来输出对象网格m_obj。类似地，图形卷积模块gconv获取对象网格mobj并输出mobj，然后将其与手部特征rhand组合并进入手部网格估计器gHME。在网络迭代过程中，使用一种无监督的关联损失来监督特征传递过程，即：汉德和奥博杰。我们在右下角包含了一个示例，它演示了我们的注意力引导图卷积对迭代t的影响。跨多个任务。在本文中，我们改进[79]利用注意力引导的图卷积和无监督的关联损失来引导中间级表示共享过程。此外，我们提出的图卷积基于多头注意机制，该机制具有[61]的精神，以提高同一数据集上多个视图的泛化能力。3. 手和物体网格我们的培训管道，如图所示。2，取输入RGB图像xR256×256，包括4个步骤，一次迭代：1）使用参数MANO模型[57]重建手部网格;2）由我们的关联损失引导从手部网格中提取手部特征;3）通过融合对象编码器特征和从先前步骤中提取的手部特征来重建对象网格;以及4）从对象网格中提取对象特征我们的架构分为手和对象分支。每个分支都有一个在ImageNet 上预训练的 ResNet-18 [36] 编码器：ENChand（x）和ENCobj（x）。我们的方法的主要动机是利用隐含的手-物关系：我们针对手-物体交互中的相互遮挡问题，在我们的协作学习框架下通过模拟共享3D重建。然而，单纯地连接网络分支往往会积累错误，导致高度不稳定的训练。因此，我们提出了一种注意力引导的图卷积来动态地捕获3D重建。此外，根据概念手的形状根据物体的形状而变形，我们提出了一种无监督的关联损失，以改善手到物体的特征传递过程，反之亦然。我们的网络以端到端的方式进行训练。Alg.1、总结培训过程。3.1. 手工网格估计器gHME我们采用了[35]中的差分MANO [57]模型。它将姿态（θR51）和形状（βR10）参数映射到具有N= 778个顶点的网格。位姿参数（θ）由45个自由度（即15个手指关节中的每一个都有3个DoF）加上6个DoF用于腕关节的旋转和平移。对于给定的人，形状参数（β）是固定的。运动学树由15个关节和腕关节形成，腕关节作为第一父节点。关节位置可以使用基于θ的全局旋转的运动学树来获得。给定512维手部特征向量rhand，我们使用全连接层来回归θ和β。原始MANO模型使用θ的6维PCA（主成分分析）子空间以提高计算效率。然而，我们根据经验观察到，完整的45维姿势空间更好地捕捉各种手部姿势，特别是在连续数据集上。手网格可以定义为m手 =（v手，f手），其中v手R778×3是指网格中的一组顶点，f和R1538×3是指一组封闭的边（即，三角形面具有3条边）。《金刚经》云：“诸菩萨摩诃萨，诸比丘摩诃萨，诸比丘摩诃萨。手再造丧失手。我们通过最小化根相对3D位置到相应的地面实况vertex位置vh的L2距离来直接优化根相对3D位置：16672θθ2L LLL∈NN吉夫objΣ22IJ我∈∥我IJθθθθθ[Wvi<$Wvj]）obj地面实况对象的表面（x）=[WviWvk]）1N我u其中，NT（i）是围绕ver的聚集邻域，我1N我我我--.Σexp LeakyReLU（aLV（vhand d）=vhand−vhand d2。（一）Objective. 通过将P定义为每次向前传递的迭代次数，输入是网格序列（ m1 ， m2 ， . 其中 mt=（vt，ft），t∈[1，. . .，P]当地面实况顶点位置不可用时，我们对三维节理位置J∈Rn×3进行监控，其中n是指由任一分支的顶点vt和面ftθ∈ {hand，obj}。目标是估计特征偏移关节的数量。3D关节损失定义为：交不用于对象重建，以及LJ（J）=J−J2，（2）反之亦然：rt+1=rt公司简介.（六）其中，J是指地面真实关节位置。结果-objobj手损失定义为：手=V+J。我们不采用[35]中的手形正则化，因为我们根据经验观察到我们的迭代过程已经防止了极端的网格变形。3.2. 目标网格估计器gOME给定512维对象特征向量robj，我们采用来自[35]的 RumasNet [29] 来估计对象网格 mobj= （ vobj ，fobj），即vobj∈R642×3表示对象顶点和fobj∈R1280×3是指对象网格面。对象重建丢失对象。由于对象网格在相机坐标系中重建，因此可以通过最小化倒角距离直接优化，如[29]所示。由此造成的损失界定为：注意力引导图卷积。由于上述顺序任务涉及动态演化图，静态图卷积将不适合，因为权重仅在P次迭代之后更新。因此，解决方案应该维护操作的历史。此外，我们的实验证实，假设固定邻域的静态图卷积不会从增加迭代P中受益（见表6）。通过假设输入网格顶点vθ是一个无序集，我们提出动态构造邻域(i) 使用注意力机制[5，26]。注意系数αij[0，1]被定义为顶点j的特征对顶点i的重要性[ 68 ]。当α ij大于阈值时，节点j被包含在i的邻域（i）中，即.0的情况。五、最后，我们提出的图卷积层在迭代-洛布日（vobj）= 1。ΣD obj（x）+dvobj（y）（3）t可以通过重写等式来定义。（42x∈vobjy∈v<$.你好其中v指的是均匀采样的点αij =.你好miny∈vobjx-yobj（y）=minx∈vobj x-y其中注意系数αt是用收入计算的，3.3. 注意引导图卷积ing顶点vt={vt，.，其中N是最大值，2Fmum网格顶点和可学习权重a∈R，初步的。我们建议在图卷积中使用消息传递方案[27]来捕获网格信息并传输到相反的分支。通过表示顶点W.R.F.×3。注意，F是一个超参数，并且是连续的。连接操作。然后我们更新顶点i的历史ht：特征v（k）第一步，ht+1=层或m。1Σαt，kvt+htΣ（八）这种消息传递方案可以描述为：imsgk= AGGREGATE（k）.. v（k−1），u ∈ N（i）≠ 0，（4）Kijj ik=1j∈Nt（i）其中消息msgk通过聚集来自前一层（k-1）的顶点i周围的邻域N（i）来形成。的tex i at t，history ht=ht，.，t，并且它被初始化为0的情况。与[67，68]类似，我们发现多头注意力αk为第二步使用此新消息更新顶点特征vk= UPDATE（ k ） v（ k−1 ）， msgk.（五）邻域N（i）、聚集函数AGGREGATE（k ）和更新函数UPDATE（k）的选择至关重要。在文献[21，27，40，76]中已经提出了各种功能。在这项工作中，我们提出了杠杆年龄的注意力机制，以构建聚集的邻居和历史项更新节点的功能。∆Kobj不（七）k∈vtexpLeakyReLU（ag转换1668有益的，并应用层归一化[2]来稳定和enable faster training.我们使用残差连接[36]来跟踪历史序列，并防止在增加迭代时性能下降在最后一步中，我们使用一个完全连接的层来调整大小，使其与图像特征rθ（x）相同，即rθ。讨论。我们提出的图卷积与GAT [68]和任何基于k-最近邻（k-NN）的动态图卷积（如EdgeConv [73]）相比都是微不足道的。然而，我们的方法与那些不同，因为1669第2∥·∥OL手联系我们中国手assoθFθθ圆ij我obj←rhand+jobj功能更新国际新闻报|iΣ首先，我们不假设静态图输入。其次，我们与GAT [68]的区别在于我们如何利用注意力机制-它们在固定和局部邻域上聚合，而我们通过使用注意力机制动态构建全局邻域来此外，由于传入网格是3D位置，k-这可以通过利用批量索引隐式引用对象类Cobj∈{1，. . .，O}和OB.无监督损失Lasso可以获得为：L（n）=<$U-P<$，（12）NN类方法遭受局部邻域聚集和高k-NN计算成本在每个迭代。简而言之，我们提出的方法能够在单层中从动态图中捕获远程依赖关系。在表6中，我们使用两种常见的图形卷积算子（GCN [40]和螺旋网格卷积[28，41]）进行了实验，并证明了我们提出的注意力引导图形卷积的优越性能。3.4. 联合监督由于手-物体场景中的相互遮挡[53]，图像编码器捕获用于网格重建的有用信息是具有挑战性的。相反，这里我们依赖于手部姿势相对于不同对象而变化的事实。例如，我们拿杯子的方式不同，这取决于它是否有把手。我们假设，对象分支受益于手网格信息（反之亦然，手分支），并假设良好的功能转移在协作学习发生时，这些功能是高度相似的同一对象类和独特的所有其他对象类。然而，在实践中，这样的对象类信息是不可用的。因此，我们提出了一个无监督的损失，以促进有效的特征转移。G iv enθ={θ1，.，其中B为输入批次其中F是Frobenius范数，U是1值的对角矩阵：第i个对角条目Uii表示步行者从状态i开始并返回到状态i。如果数据集是类不平衡的，则可以调整U4. 实验实作详细数据。我们在Py-Torch [55]中实现了我们的方法。所有实验均在Intel i9-CPU@3.50GHZ、16 GBRAM和一个NVIDIA RTX 3090 GPU上运行。我们使用Adamoptimiser [39]同时训练网络的所有部分，学习率为10−4，持续400个epoch。然后，我们冻结ResNet [36]编码器，并将学习率降低到10−5，再进行100个epoch。我们根据经验固定K= 3注意头和P= 2迭代，以产生最佳结果。我们的最终损失Lfinal定义为：Lfinal=Lhand+Lobj + Lasso。（十三）数据集。第一人称手部基准测试（FHB）。这是一个广泛使用的数据集[24]，其中包含以自我为中心的RGB-D视频，涉及广泛的手-物体交互。通过磁传感器捕获手和对象姿势的地面实况有4个可用对象，即。果汁机器人牛奶、肥皂、牛奶和盐。为了公平地与大小，我们通过简单的加法来更新图像特征在下面，我们描述了一个无监督的损失为θ。关联损失asso 我们的方法受到[ 30 ]的启发，[ 30]最初是为半监督学习设计的[33，65]，我们遵循相同的动作分割进行评估，其中每个对象都存在于训练和测试中。我们还与[ 35 ]进行了比较，[ 35]使用了数据集的主题分割，遵循他们的实验设置：他们会-ing. 我们想象一个步行者沿着Φi=[i目标]当手距离超过1cm时，其中i1，. . .、B.由于每个Φi都与相同的对象类成对出现，因此如果transition在相同的对象类下，则定义正确的遍历。我们将两个嵌入之间的相似性定义为：Mij=ΦijΦj，1≤i，j≤B。（九）基于嵌入相似性的单个转换定义为：被操纵的对象并排除牛奶对象。我们称这个子集为FHB-，它总共包含3个对象。算法1协作学习算法Require：x：输入图像，P：网络迭代一曰：函数OPTIMISE（L总）2：rhand←ENChand（x）提取手部特征exp（M）3：mhand←gHME（rhand）获取手网P=P（ΦΦ）=。j′exp（Mij′）往返概率（马尔可夫链）i到j可以定义为：ΣP=PikPKJ第四章：对于t= 1到P，5：手形图 ←gconv （ mhand ）手形图 6 ：robj←ENC obj（x）+HandHandHand特征更新7：mobj←gOME（robj）HandGetobjectmesh8： Handobj←gconv （ mobj ） HandObject GraphConv.9：R手′k ∈{1，…B）我们进一步扩展到一个无监督的损失，鼓励步行者走回;.（十一）1670←其起始批次索引i。10：mhandgHME（rhand′）11：结束十二： end function1671奥博曼这是一个大型合成数据集[35]，通过使用ShapeNet [16]中的选定对象渲染手部网格生成。它捕获8个对象类别，并产生总共2，772个网格，这些网格被分割成154，000个图像帧。我们在Ob- Man上对网络进行了预训练，然后在其他真实数据集上进行了训练：我们在初步实验中观察到，与直接在真实数据上进行训练相比，它们的设置导致了持续的改进。DexYCB 这是一个最近的真实数据集，用于捕获物体的手抓[17]。它由来自YCB视频数据集[75]的20个对象上的总共582，000个图像帧我们提供了所有4个官方数据集分割设置的结果。HO-3D。 [31]与DexYCB最相似，它由10个对象上的78，000个图像帧组成。我们在官方数据集分割（版本2）上呈现结果。在procrustes对线后报告手动补片误差，单位为mm。评估指标。手动错误。我们报告了21个关节的平均终点误差（mm），并使用正确关键点（PCK）分数的百分比来评估不同的误差阈值。对象错误。我们通过计算在地面实况上采样的点和预测网格之间的倒角距离（mm手-物交互。为了理解手-物体相互作用，我们遵循[35]，包括穿透深度（mm）和相交体积（cm3）。穿透深度是指碰撞时从手部网格顶点到对象表面的最大距离。相交体积是通过使用0的体素大小体素化手和对象来获得的。5厘米结果联合手部物体重建。作为最近对关节手对象重建的努力[14，33，34，38，78]作为已知的对象模型，我们在表1中与[35]（采用差分MANO模型，MANASNet并且不假设已知的对象模型）进行比较。与FHB类似，当手和操纵对象相距1cm时，我们使用默认的DexYCB分割和过滤帧我们将这个子集命名为DexYCB-，并使用他们发布的代码进行重新训练[35如图所示，在测试时仍然存在相互渗透，甚至使手误差增加0。FHB上7mm−，接触损失见[35]。这主要是由于他们的模型没有隐式地学习由接触损失施加的物理规则。相比之下，我们的方法一致优于[35]，具有更高的手对象重建精度。此外，我们在图中提供了 FHB 和CORe50[43]数据集的定性3 .第三章。手部姿势估计。我们首先在表2中比较了HO-3D的最新方法[31]。如图所示，我们的方法执行竞争对手的方法，作为sumes已知的对象模型。然后，我们在表3和表4中比较FHB（动作分割和受试者分割）。[33]是[35]的一个扩展，它利用了photomet。图3.与ObMan的定性比较[35]。上面两行是用FHB训练的模型。底部两行是指在野外环境中，模型只使用合成数据集ObMan进行训练。我们的方法能够在协作学习框架下细化和锐化对象网格（见蓝色箭头），并在两种设置中概括出更好的手部姿势。表1.在ObMan，FHB-和DexYCB-数据集上与ObMan [35]进行失电指的是失电的结果。我们提出的协作学习策略在没有物理接触损失的情况下具有竞争力。数据集方法ObMan[35]第三十五届[35]*我们[35]第三十五届FHB−[35]*我们DexYCB−[35]*我们手误差（mm）↓物体误差（mm）↓Max.针入度（mm）↓交叉口卷。（cm3）↓11.6641.59.512.311.6637.99.212.29.1385.77.49.328.11579.218.726.928.81565.012.116.125.31445.016.114.717.6549.414.614.915.3501.212.1十三点四表2. HO-3D上不同手部姿态估计方法的错误率。请注意，[42]仅输出手部网格的报告结果。在我们的协作学习框架下，我们在没有已知对象模型的情况下胜过了其他两个架构相似的网络[33，35][35]第三十五届[三十一]11.010.646.050.693.094.2✗✓[第四十二届]9.552.695.5✓[33个]11.442.593.4✓我们10.948.594.3✗一致性，但需要已知的对象模型。如表3所示，我们在补片F评分F评分已知方法误差↓@5mm↑@15mm↑物体1672所有三个架构相似的网络中展示了卓越的性能[33，35]。我们赞扬了在行动分裂（即）的性能增益。FHB）的事实，FHB-包含几乎一半的FHB与收入-1673LLLLL表3.不同算法的错误率。FHB是指动作分割，FHB−是指数据集的主题分割方法FHB手动错误FHB−手动错误Tekin等人[第六十五章]15.8-Hasson等人[33个]-28.0Hasson等人[35]第三十五届18.027.4Cao等人[14个]14.2-我们9.825.3表4.PCK性能超过FHB上相应的错误阈值。与另一个协作学习框架[79]和基于图的方法[23]相比，我们的方法表现更好，并且能够重建手部物体网格。方法PCK@20mmPCK@25mmTekin等人[第六十五章]69.17%81.25%Hernando等人[24日]74.73%82.10%Yang等[79个]81.03%86.61%Doosti等人[23日]92.17%92.63%我们93.14%百分之九十五点六五图 4. ObMan （左）和 FHB（右）的 3D PCK 。请注意，Hassonet al. [35]和Doostiet al. [23]是一种已知对象的手对象姿态估计方法。完整的对象列表和在测试期间看不见的测试对象。我们使用表4中的PCK度量来分析我们的手部姿势估计性能。请注意，Yanget al. [79]将序列图像作为输入，并在其协作框架中利用动作识别任务。我们实现了国家的最先进的性能，在手的姿态估计的优势，对象重建。 3D PCK曲线如图所示。4.第一章最后，我们比较与监督版本的 Spurr 等。 [62] 在 DexYCB 上赢得了HANDS 2019 Chal- lenge [1][17]。在表5中，数字是从[17]中获得的，其中[62]具有HRNet32 [64]骨架。消融研究。为了激励我们的设计选择，我们提出了一个定量比较我们的方法与各种组件禁用。我们验证了我们的设计选择的组合优于朴素的协作学习基线（见补充资料），后者直接预测嵌入并最后执行3D重建。表5.DexYCB和[62]的错误率是HANDS 2019挑战赛的获胜者[1]。表中显示手误（mm），AUC值在括号中。S 0-S3是官方的数据集分割[17]。S0S1S2S3[六十二]我们17.34（0.698）16.05（0.722）22.26（0.615）21.22（0.620）25.49（0.530）27.01（0.521）18.44(0.686)17.93（0.698）表6.不同网络设计选择在FHB−上的性能。我们对网络迭代P，关联损失asso和不同的卷积算子进行了实验。第一个的底线与ObMan相同[35]。方法W手动错误套索误差对象W/O手动错误拉索误差对象基线--28.41655.2基线（P= 1）26.91600.327.41625.9基线（P= 2）25.31445.026.31618.4基线（P= 3）25.41448.226.41620.5基线（P= 4）25.31447.926.31612.9基线（P= 5）25.31445.626.21618.8GCN [40]（P= 1）27.11587.627.81629.8GCN [40]（P= 2）27.01590.828.21635.1螺旋[28，41]（P=1）26.81581.827.61630.1螺旋[28，41]（P=2）26.91600.227.61629.5网络迭代次数（P）的影响：表6示出了随着关联损失而改变P的结果，并证明了关联损失有助于改善手和物体误差。这是可以预期的，因为手-对象重建是高度相关的，使得以协作方式学习能够彼此提高性能。我们提出的动态图卷积的有效性可以通过P= 2时的快速性能饱和来证明。请注意，我们将[35]作为基线，并且从P= 1开始启用图形卷积。与静态图卷积的比较：为了激励我们提出的动态图卷积，我们在表6中实验了两种常用的图卷积，I.E. GCN [40]和螺旋网格卷积[28，41]。由于图卷积权重仅在P次迭代后更新，因此增加网络迭代将具有零影响。可以看出，静态图卷积并不受益于增加网络迭代。We also observed that our unsupervised associativeloss ( asso) consistently improves hand-object error acrossTable 6.关联损失（asso）的有效性：为了进一步研究我们的无监督asso的效果，我们绘制了协作框架的训练损失，图中有和没有关联损失。五、不出所料，我们发现增加网络迭代P有助于更高的收敛率（图右）。（五）。我们还观察到，我们的无监督关联损失（ asso ）能够在所有迭代中稳定训练（图左）。（五）。这说明使用Lasso进行训练对于该框架至关重要。迭代中的网格生成：我们的目标问题的相互遮挡的相互作用的手和对象共享3D信息，在每次迭代通过图形卷积，1674图5.迭代的训练损失的进展P={1，. - 是的- 是的，4}，无（左）和有（右）关联损失Lasso。表7.协作学习框架设计的消融研究我们在FHB−和默认的DexYCB（S0）数据集上进行了实验。* 指的是幼稚合作学习基线。方法FHB−手动错误的对象出现错误DexYCB（S0）手动错误的对象出现错误P= 1我们的 *28.01759.417.9563.4我们26.91600.317.6529.3P= 2我们的 *27.61726.817.5554.6我们25.31445.016.1461.1P= 3我们的 *27.11678.117.3542.1我们25.41448.216.0464.2溶液。为了验证这一设计选择，我们构建了一个更简单的协作学习框架，该框架直接预测嵌入θ，并在最后阶段重建网格mθ（见补充图）。由于FHB具有有限的背景和可见的磁传感器，我们比较了FHB和DexYCB的两种设计。表7显示，我们的最终设计在两个数据集上的表现始终优于朴素我们观察到，共享3D网格信息的手和对象的分支提高重建性能。在图的右下角。2，我们提供了一个定性的例子，说明重建如何随着图卷积而变化。可以证实，我们的注意力引导图卷积结合协作学习，可以实现更好的网格质量以及更准确的姿态估计。我们在图中提供了额外的定性结果。六、5. 结论在本文中，我们提出了一种新的协作学习框架，它允许共享的网格信息，形成手和对象的分支迭代。这项研究背后的主要思想是证明相互遮挡可以通过基于学习的策略来解决。我们设计了一个注意力引导的图卷积，它在一个单层中捕获动态图的长程依赖然而，随着网络迭代次数的增加，训练可能会非常不稳定。因此，我们提出了一种无监督的联想损失来稳定训练和改进特征传递过程。我们的方法在多个广泛使用的数据集上与其他现有方法相比表现出卓越的性能局限性。我们的工作依赖于MifasNet进行对象重建，我们观察到对象重建质量随训练数据的大小而变化。此外，我们只考虑了静态对象，因此未来的工作应该考虑手和关节对象之间的相互作用。潜在的负面社会影响。我们的方法可以促进基于手的交互在各种应用中，包括增强现实和虚拟现实。一般来说，基于手的交互的进步可能会给使用手有困难的人带来障碍如果伴随着其他互动模式的技术进步，眼睛或鼠标跟踪，或基于身体姿势的交互。确认本研究得到了韩国科学和信息通信技术部的支持，由信息通信技术规划评估研究所（IITP）监督的信息技术研究中心（ITRC）支持计划（IITP-2022-2020-0-01789）和IITP赠款（2021-0-00537）。描述的计算在这项研究中，使用巴斯克维尔Tier 2 HPC服务（https：//www.baskerville.ac.uk/ ）进行，该服务由 EPSRCGrantEP/T022221/1资助，并由伯明翰大学的高级研究计算公司运营。KIK得到了韩国国家研究基金会（NRF）的资助（第2009号）。2021R1A2C2012195）由韩国政府（MSIT）资助。图6.关于DexYCB（上两行）、EPIC-Kitchener[20]（下一行左侧）和100 Days of Hands（100DOH）[59]（下一行右侧）的定性结果。最下面一行是指在野外设置。我们的模型只在DexYCB上训练，对各种手部姿势、物体和场景都表现出鲁棒性1675引用[1] Anil Armagan ，Guillermo Garcia-Hernando ，SeungryulBaek，Shreyas Hampali，Mahdi Rad，Zhaohui Zhang，Shipeng Xie ， MingXiu Chen ， Boshen Zhang ， FuXiong，等人，在手-物体交互下测量对看不见的视点、关节、形状和物体的概括，用于3D手姿势估计。在ECCV，2020年。7[2] Jimmy Lei Ba，Jamie Ryan Kiros，Geoffrey E Hinton.层归一化。arXiv：1607.06450，2016。4[3] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在CVPR，2019年。1[4] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于gan和mesh模型的弱监督域自适应估计交互物体的3d手部姿态。在CVPR，2020年。1[5] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。4[6] Maria Florina Balcan ， Avrim Blum ， Shai Fine ， andYishay Mansour.分布式学习、通信复杂性和隐私。在学习理论会议上。JMLR研讨会和会议记录，2012年。2[7] 乔纳森·巴克斯特。通过多任务抽样学习的贝叶斯/信息论模型。机器学习，28（1）：7-39，1997. 2[8] 乔纳森·巴克斯特。归纳偏差学习模型人工智能研究杂志，12：149-198，2000。2[9] Avrim Blum，Nika Haghtalab，Ariel D Procaccia，andMingda Qiao. PAC学习合作NeurIPS，2017。2[10] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在CVPR，2019年。1[11] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun. 图上的谱网络和局部连通网络。见ICLR，2014年。2[12] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在ECCV，2018。1[13] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在ICCV，2019年。2[14] Zhe Cao ， Ilija Radosavovic ， Angjoo Kanazawa ， andJitendra Malik.在野外重建手与物体的互动。ICCV，2021。一、二、六、七[15] 瑞奇·卡鲁阿纳多任务学习：基于知识的归纳偏差来源。ICML，1993年。2[16] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese，Mano-lis Savva，Shuran Song，Hao Su，et al.Shapenet：一个信息丰富的3D模型存储库。arXiv：1512.03012，2015。6[17] Yu-WeiChao ， WeiYang ， YuXiang ， PavloMolchanov，Ankur Handa，Jonathan Tremblay，YashrajS Narang，KarlVan Wyk，Umar Iqbal，Stan Birchfield，等. DexYCB：一个用于捕获手抓取物体的基准

下载后可阅读完整内容，剩余1页未读，立即下载