没有合适的资源?快使用搜索试试~ 我知道了~
THOR-Net:基于Grformer的自监督实双手和物体重建
1001THOR-Net:端到端基于Grformer的现实双手和具有自我监督的Ahmed Tawfik Aboukhadra1,2Jameel Malik1,3Ahmed Elhayek4Nadia Robertini1Didier Stricker1,21DFKI-AV Kaiseraustern2TU Kaiseraitern3NUST-SEECS4UPM沙特阿拉伯摘要双手与物体交互的真实感重建是一个新的和具有挑战性的问题,对于构建个性化的虚拟和增强现实环境至关重要。图卷积网络(GCN)允许通过将手的姿势和形状建模为图来保持它们的拓扑结构。 在这项工作中 , 我 们 提 出 了 THOR-Net , 它 结 合 了 GCN ,Transformer和自我监督的力量,可以从单个RGB图像中逼真地我们的网络包括两个阶段;即特征提取阶段和重构阶段。在特征提取阶段,使用Keypoint RCNN从单目RGB图像中提取2D姿势、特征图、热图和边界框。此后,该2D信息被建模为两个图,并被传递到重建阶段的两个分支。形状重建分支使用我们新颖的由粗到细的GraFormer形状网络来估计两只手和一个物体的网 格 。 手 和 物 体 的 3D 姿 态 由 另 一 个 分 支 使 用GraFormer网络重建。最后,一个自我监督的光度损失是用来直接回归的手的网格中的每个顶点的真实感纹理。我们的方法在HO-3D数据集(10.0mm)上的手部形状估计中实现了最先进的结果,超过了ArtiBoost(10.8mm)。它也超过了其他方法的手姿态估计的双手和对象(H2O)数据集上的5mm的左手姿势和1mm的右手姿势。THOR-Net代码将在https://github.com/ATAboukhadra/THOR-Net上提供。1. 介绍真实的手对象形状重建对于许多增强现实(AR)和虚拟现实(VR)应用是至关重要的此外,Hand Pose图1.我们的Graformer为基础的算法联合重建两个手姿势和纹理形状一起从单目RGB图像的一个对象的形状。注意,基于自我监督训练,针对每个顶点直接回归上述形状的手对于人机交互、动作识别、人类行为分析和手势识别应用[9,28,2,6,1,26]是有用的。最新进展手、身体和对象姿态估计[17,30,14,15,28]是有希望的。然而,很少有人关注双手与物体相互作用的关节重建[15,17,2,9,36]。 这是一个具有挑战性的问题由于变化的手的形状、纹理、多自由度(DOF)、手部分的自相似性、双手自遮挡以及手-物体相互遮挡,尤其是来自单目RGB图像,因为它仅包含2D信息。通过利用深度学习的最新进展(例如,GCN,变压器和自我监督学习),同时手姿势和形状估计的几种算法已经推出。最近,许多研究人员使用图卷积网络(GCN)[39]来解决姿态估计[9,41,43,4]和形状重建的挑战结构[2,28,38]。GCN保留了手部姿势和形状的固有运动学和图形结构该功能允许GCN处理深度模糊和遮挡,因为它将手的可见部分与不可见部分相关联[9]。Transformer网络[37]也显示出很大的优势。1002在许多领域的能力,如NLP [8]。变压器已被证明是非常有效的,在许多计算机视觉领域[10]。许多研究人员已经研究了变形金刚在手姿势和形状估计中的有效性[20,30,43,14,40,23]。在本文中,我们提出了第一个-据我们所知-GCN,变压器和自我监督的方法,同时估计与物体交互的双手的3D形状和3D姿态以及双手每个顶点的纹理,如图1所示,给出了单目RGB图像。THOR-Net基于关键点RCNN,它提取几个2D特征(即,热图、边界框、特征图和2D姿态)。为了受益于GCN的强大功能,我们将所有这些2D信息建模为两个图。一个图通过我们的新的粗到细的GraFormer形状生成器网络来估计手和物体的网格。该网络从姿势开始逐渐增加图中的节点数量,直到达到形状,同时逐渐将特征的大小减小到仅对应于3D空间中的每个顶点位 置 的 3 个 值 ( x , y , z ) 。 另 一 个 图 通 过 基 于GraFormer的2D到3D姿态估计网络来估计手和物体的3D利用自监督光度损失直接回归手为此,每个顶点的纹理通过正交投影到输入图像来学习。与HTML [31]从有限的手部纹理样本集学习统计手部纹理模型相反,我们的光度损失方法允许从任何手部数据集的大量RGB图像集学习手部纹理。总而言之,我们做出了以下贡献:• 一种新颖的流水线,用于从RGB图像重建双手和物体的逼真3D形状,具有以下新颖性:– 利用Keypoint RCNN生成的热图和特征来构建图形,帮助我们基于GraFormer的网络估计3D姿势和形状。– 提出了一种由粗到细的用于双手和物体重建的GraFormer。• 应用基于光度损失的自我监督,以提供更真实的手部视图。• 我们的方法实现了HO-3D(v3)上手部网格估计和H2O数据集上手部姿势估计的最新结果,如第4节所示。2. 相关工作虽然现有的大多数工作集中在重建一个单一的交互手,我们的工作解决了一个更具挑战性的问题,两只手和对象重建。在这里,我们简要介绍最相关的作品。2.1. 用于姿态估计的最近,使用图卷积网络(GCN)从2D姿态估计3D使用来自2D姿势的单个关键点来估计其在3D中的对应物是不确定性问题。然而,使用关于其它2D关键点及其与目标关键点的关系的信息可用于估计其3D位置。HopeNet [9]的作者介绍了一个自适应GraphUNet,它在五个阶段中池化2D姿势,然后将其解池化以获得3D姿势,同时在相应的池化和解池化层之间跳过连接GraFormer [43]将2D姿势转换为3D,然而,由于将图形卷积层与Transformer [37]和注意力机制相结合,它显示出比HopeNet更好的性能GraFormer能够使用图卷积层从节点中提取局部特征,并使用注意力层提取关于整个图的全局信息。时空图解决了3D姿态估计中的深度模糊和严重遮挡挑战[4,41]。视频中的时间连续性施加了时间约束[15]。因此,Cai等人 [4]通过在关节和相邻帧中的对应物之间创建附加边缘,从一些时间上相邻的2D身体姿势创建时空图。2.2. 手部物体重建现有的研究大多集中在与物体交互作用下的手形估计 , 而 没 有 考 虑 物 体 的 形 状 重 建 。 KeypointTransformer[14]通过从每个关键点的图像中提取特征并使用自我关注层使这些特征相关,实现了从RGB图像中估计手部姿势的最新结果。HandOccNet [30]是一个非常新的、鲁棒的基于变换器的模型,它通过将手的可见区域的特征注入到手被物体遮挡的区域来解决手和物体之间遮挡的模糊性ArtiBoost [42]旨在通过创建合成图像来解决任何手部对象数据集中3D空间内手部对象姿势缺乏多样性他们使用合成图像和真实图像来训练CNN回归模型,以估计姿势。 Liu等人[24]利用RGB视频中的空间时间一致性来生成用于半监督训练的标签,以估计3D姿态。与手-物体姿态估计1003图2.概述了我们的方法,以估计3D姿态和3D形状的手与对象交互从单目RGB帧。K是“姿势”中的关键点数量,V是“形状”中的顶点数量。下半部分描述了关于图初始化和粗到细形状GraFormer网络的更多细节。和徒手重建Hasson等人。 [15]使用了一个网络,该网络输出手和对象类的MANO [34]参数及其3D变换参数。他们工作的一个重要方面是,当一些帧没有注释时,他们使用随着时间推移的光度一致性作为在他们的后续工作[16]中,Hasson等人首先在RGB图像中检测和分割手和物体。之后,他们估计手形和物体姿态,并使用平滑和碰撞的损失项对其进行优化。Malik等人。 [27,25]研究了根据深度图进行手部姿势和形状估计。[25,28]使用体素化深度图来估计手的 体 素 化 形 状 和 形 状 表 面 , 随 后 是 配 准 步 骤 。EventHands[35]是一个网络,它使用事件摄像机输入捕捉和重建前所未有的速度的手部运动。Almadani等人 [2]创建了一个基于深度的从粗到细的手部对象重建网络,该网络构建在GCN HopeNet [9]上。在评估了他们模型的不同输入方式后,他们发现深度图和相应RGB图像的体素化表示是最好的输入方式。Pixel2Mesh [38]是一个GCN网络,它从单目RGB帧中估计物体的3D形状。3. 方法所提出的流水线如图2所示,它使用RGB帧I作为输入,并预测手和对象的目标3D姿态J和3D形状V3.1. 关键点RCNNMask RCNN [18]是在Faster RCNN [33]上构建的有效对象检测和语义分割模型。Mask RCNN在包含对象的图像中提出感兴趣区域(ROI),并估计这些对象的边界Mask RCNN的作者创建了一个名为KeypointRCNN的变体,该变体估计ROI内任何2D关键点集合的位置的热图。对于每个关键点,都有该关键点位置的热图。通过边界框和热图,Keypoint RCNN可以估计图像中构成2D姿势的2D位置。我们训练关键点RCNN来估计手和物体的2D姿势,知道3D姿势到2D的投影。因此,Keypoint RCNN提供了来自RGB图像的重要信息,例如手和对象的边界框要训练Keypoint RCNN,需要边界框为了获得边界框,我们使用2D1004FH×F图3.图为GraFormer网络。该网络由GCN和Attention层重复多次组成。将3D姿态投影到图像。二维姿势的最小x和图2显示了Keypoint RCNN的两个输出,即Heatmaps和features,用 于 训 练 我 们 的 模 型 进 行 3D 姿 态 和 形 状 估 计 。Keypoint RCNN在原始图像中定位对象的能力的一个重要优势3.1.1特征提取器Keypoint RCNN的主干由ResNet50 [19]和特征金字塔网络(FPN)[19]组成,为RGB图像生成多尺度特征。在将多尺度特征传递到多尺度RoI对齐层[18]之后,主干产生RoI特定特征。这允许我们为包含手或对象的RoI捕获自定义特征。我们使用这些功能来丰富粗到细的GraFormer的节点为了在将特征传递到下一阶段之前对其进行压缩,RCNN将特征传递到2层MLP,该2层MLP为每个RoI产生压缩的2048个特征向量这些特征向量被附加到热图中,以生成形状生成器的图形三点三3.2. Pose GraFormer为了将关键点RCNN提取的2D信息转换为3D空间,我们使用了GraFormer。GraFormer [43]是一种图神经网络,旨在利用图卷积层和注意力层的优势图形卷积层 根 据 节 点 之 间 的 连 接 性 从 图 形 数 据 中 此 外 ,GraFormer中的多头自注意[37]层从图中提取全局特征。这两个概念使得GraFormer在2D到3D姿态提升如图3所示,GraFormer由一个GraAttention层组成,该层是一个具有4个头的多头自注意层。GraAttention的最后一层是LAM-GConv层,其是具有可训练邻接矩阵的图卷积层。GraAttention之后是2层特殊类型的图卷积,称为ChebGConv[7],构成GraForemr的主要构建组件GraAttention和ChebGConv的这个组成部分重复五次以创建GraFormer。在我们的工作中,GraFormer的第一个用途是将Keypoint RCNN的热图转换为手和物体的3D姿势坐标。我们根据经验发现,使用热图更准确,而不是3.3. 由粗到细的形状GraFormer为了生成3D形状,我们提出了一个由粗到细的GraFormer,它从2D姿势图开始逐渐增加顶点的数量,并以3D形状结束。Almadani等人。 [2]和Wang等人。 [38]先前探索了粗到细GCN以生成3D形状。然而,考虑到GraFormer com-bustion对普通GCN的性能改进,我们用GraFormer替换了他们建议的Graph卷积层,如图所示。二、该网络由三个阶段组成,每个阶段由一个GraFormer和一个unpooling层组成,该层增加了图中的节点数量。从粗到细的GraFormer的输入图由29个节点组成。每个节点i保存特征向量2048和大小为56 56的对应热图i,如图1B所示。2. 将热图展平并附加2048后,节点表示的大小为5184。为了将手部网格建模为图形,我们使用MANO[34]创建邻接矩阵。然而,创建这样一个由粗到细的图形网络存在两个挑战。HO-3D和H2O数据集中的对象具有不同数量的顶点,并且它们没有一致的拓扑。第二个挑战是,粗到细网络内的中间图形层需要邻接矩阵的简化版本,因为它们在其图形中具有较低数量的顶点。在第3.3.1节中,我们描述了如何创建手形网格邻接矩阵的简化版本。在3.3.2节中,我们描述了如何为对象创建一致的拓扑。3.3.1手动网格下采样为了创建手部的中间图形表示,我们使用二次边折叠抽取算法(QECD)[12,29]来对默认MANO手部网格进行下采样。所得到的简化网格的面创建中间图形的邻接矩阵。我们简化1005L图4. a)简化和变形球体以获得网格的一致拓扑表示b)不同3D对象模型及其简化版本的示例底部行显示了降采样的球体。778个手顶点到两个粒度级别(即,49和194)以分别对应于粗到细网络中的级别1和23.3.2对象拓扑为了解决对象拓扑不一致的问题,我们使用PyTorch3d[32]中的可训练方法将具有恒定拓扑的球体变形为每个对象。Ico球面是一个由20面多面体的多边形递归细分而成的球面在细分的第4级,Icosphere有2556个顶点。我们使用QECD算法将该球体简化为1000个顶点。执行该步骤以根据模型的复杂性和所需的重建质量来控制表示对象形状的顶点的数量。为了了解球体中每个顶点到目标对象网格的位移,变形算法最小化变形球体和目标网格之间的倒角距离倒角,如图4. 随着倒角损失,3个额外的正则化损失增加了对结果变形球体的平滑效果这三种损失分别是边长L边、相邻面的法向一致性L范数和Laplacian光滑LLaplacian。变形的最终损失项为:L=Lchamfer+Ledge+λ1<$Lnorm+λ 2<$Llaplacian(1)λ1等于0。λ2等于0。1.一、SGD优化器将上述损失的加权和最小化,直到球体达到最接近目标对象的状态图4显示了YCB数据集[5]中的一些对象,以及它们对应的具有1000个顶点的变形球体。4.1.1光度损失估计网格中每个顶点的纹理值使其更丰富地表示个性化的手形,更现实的观点[31]。此外,它有助于改善估计形状与目标重投影之间的对准,从而改善重建误差。此外,探索手部纹理是VR和AR领域中的一个有趣的问题,因为它提高了沉浸式体验。Qian等人 [31]提出了第一个用于重建真实感手部纹理的参数化手部纹理模型(HTML)。尽管该模型允许通过从纹理参数随机采样来生成不同的手部纹理集合,但是该方法受到小训练数据集的限制51名受试者),用于建立手部纹理模型。这意味着所提出的统计模型不能表示任何未在该数据集中覆盖的纹理。在本文中,我们提出了一种直接纹理回归方法,该方法基于使用光度损失的自我监督[15,31]。为此,直接学习每个手部网格顶点的纹理以及该顶点的3D与从有限的一组手部纹理样本中学习统计手部纹理模型的HTML相反,我们的方法允许从任何手部数据集的一组巨大的RGB图像中学习手部出于这种动机,我们添加了一个额外的损失项来训练模型,而不是只估计顶点的XYZ,模型还估计RGB值。为了计算该损失,首先对目标3D形状进行亲合。使用相机固有函数将其投射到图像中。之后,投影顶点的相应像素RGB值被模型通过计算两者之间的MSE估计的RGB值惩罚。如图2所示,这是最终形状的六个值光度损失L照片定义如下:Lphoto=MSE(I[proj(Vgt)],Vpred,rgb)(2)4. 实验在本节中,我们将讨论数据集和每个数据集的实现细节。之后,我们讨论了训练细节和损失函数。然后我们在4.4节和4.5节中报告并将我们的结果与其他方法进行定量和此外,我们进行了消融研究,以显示我们的管道组件的有效性4.1. 数据集和实施详细信息研究人员最近创建了许多数据集来模拟无标记的手-物体交互,如HO-3D [13],H2O [22],H2O-3D [14],DexYCB [6],FPHAB [11][3]第三节。我们在两个最近的公共基准数据集上评估我们的方法:3D [13]和H2O [22]。HO-3D数据集有一只手与对象交互,而H2O有两只手与对象交互。HO-3D视频数据集[13]包含手部和严重环境下操作对象的1006JVLL图5.从HO-3D和H2O数据集获得的手部物体姿势和形状估计的定性结果。a)具有预测边界框的输入帧。b)3D姿态估计。c)d)用于3D重建的手-物体交互的两个视图。闭塞。数据集还包含MANO参数和对象标签的注释。从PyTroch Mano模型[17]中,我们获取手部顶点和面,并对手部进行简化,以获取第3.3.1节所述的粗到细网络的中间邻接矩阵。数据集中的所有10个对象都是从YCB数据集采集的[5]。我们按照3.3.2中的描述为对象创建球形表示,并使用姿势将它们转换到3D相机空间中。所有的3D点都被平移,使得手掌被用作3D空间的原点。为了训练HO-3D的Keypoint RCNN,我们认为手和物体位于同一个边界框内,如图5所示。我们报告了第二和第三版本数据集的结果。中的关键点数量然而,在这项工作中,我们只关注自我中心的观点。为了训练H2O的Keypoint RCNN,我们将每只手我们使用Keypoint RCNN生成的2D关键点作为GraFormer的输入,而不是热图,因为它在H2O数据集上显示了更好的结果。3D姿势中的关键点数量为50个;每只手的关节为21个3D形状中的顶点数为2556;每只手的网格为7784.2. 培训为了训练THOR-Net,需要五个损失:热图的交叉熵损失LH,边界框分类-3D姿态J为29;21用于手关节,8用于对象角。3D形状V中的顶点的数量是第二节CLS,边界框es的均方误差(MSE)-1778;778用于手网格,1000用于对象网格。H2O [22]是一个新的基准视频数据集,包含双手和物体的3D姿势注释以及手的MANO参数和物体的标签。该数据集涵盖8个对象,并为所有对象提供3D模型。我们遵循与HO-3D相同的方法来获取H2O中该数据集是从五个不同的用于惩罚3D姿态Lj的MSE和用于惩罚3D形状V的MSE。我们用一个组合损失函数来训练我们的网络:L=LH+Lcls+Lbb+LJ+LV(3)在生成纹理形状的情况下,我们添加照片,如第3.3.3节所述。该网络有192M个参数,我们使用Adam训练模型1007图6.与其他方法相比,PCV超过距离(1)普罗斯提斯式错误。b)不对准误差。optimizer [21],0. 0001的学习速率,以及NVIDIAA100 GPU上的批量大小84.3. 评估指标我们报告了HO- 3D手部姿势和形状上的Procrustes对准和非对准MPJPE(平均每关节位置误差)(单位:mm),并将其与表1和3中的其他此外,我们在图6中显示了正确顶点的年龄百分比(PCV)随距离的变化。为了在H2O数据集上评估我们的模型,我们在表2中报告了手和对象的姿势和形状的非对齐MPJPE。最后,我们在图5中定性地展示了我们的4.4. 三维位姿估计我们在两个版本的HO- 3D数据集上评估了我们的方法,并在表1中报告了手部姿势的误差(mm)该表包含了Procrustes对齐和非对齐错误与现有方法的比较。报告的结果可在HO-3D挑战网站1上找到。我们还评估了我们的H2O自我中心视图上的姿态估计方法,并在表2中报告了双手和对象3D姿态的平均关节误差。该表显示了与先前方法相比,左侧和右侧姿势误差的改善结果表明,与以前的方法相比,左手姿态估计提高了5mm,右手姿态估计提高了1mm报告的结果可在H2O挑战网站2上找到。来自两个数据集的样本的3D姿态的定性结果如图5所示。从定量和定性评估,我们的姿态估计方法需要进一步改进,因为它没有超过以前的方法在HO-3D,和对象姿态估计是不准确的H2O。1https://codalab.lisn.upsaclay.fr/competitions/43932https://codalab.lisn.upsaclay.fr/competitions/4822表1. 与HO-3D(v2)(上表)和(v3)(下表)上的3D手部姿态估计的最新方法的比较。显示的结果是以mm为单位的Procrustes对准和非对准误差。方法LJ错误。RJ错误目标J错误Hasson等人[第十五条]39.641.966.1H+O [36]41.438.948.1H2O [22]41.537.247.9THOR-Net(我们的)36.836.573.9表2. 与H2O数据集上3D姿态估计从左到右所示的结果是左手姿势、右手姿势和对象姿势的非对准误差(mm)4.5. 三维形状估计我们在两个数据集上评估了我们的3D形状估计方法结果表明,我们的Procrustes对齐网格的误差是10毫米的HO- 3D(v3),而最好的方法达到10.8毫米。据我们所知,我们是第一个提供H2O数据集形状评估的公司 。 左 手 形 状 误 差 为 54.1mm , 右 手 形 状 误 差 为59.4mm,物体形状误差为66.6mm。手-物体形状的定性结果可以在图5中找到。我们还将我们的手形结果与图7中的Hasson等人[15]进行了比较。结果表明,我们的模型捕捉精细的手的细节。然而,该模型缺乏推广到不可见对象的能力。4.6. 消融研究我们通过评估三个版本的形状生成器网络来研究所提出的由粗到细的GraFormer对手部形状重建的影响。如图2所示,由粗到细的网络由三个GraFormer组成。为了证明这种选择的有效性这两个实验分别以ID1和2示于表4实验结果表明,采用三种GramFormer的网络性能最好这说明方法J·艾尔呃。J错误。Hasson等人[第十五条]11.455.2Hasson等人[17个]11.1-Hampali等人[13个国家]10.784.2地铁[23]10.4-Liu等人[24日]10.2-HandOccNet [30]9.1-THOR-Net(我们的)11.326.31008ID#GraFo。Gr. 进口VAl. 呃。V错误12435671233333H+F20482DH+F20483D姿势+F2048姿势+F2048H+F1024H+F409611.411.114.610.913.511.810.026.826.446.827.029.528.423.7图7.与Hasson等人 [15]的对比分析。我们的方法捕捉更好的手的细节。方法VAl. 呃。V错误[28]第二十八话-27.0Hasson等人[第十五条]11.455.2地铁[23]10.4-Hasson等人[17个]11.0-Hampali等人[13个国家]10.683.4Liu等人[24日]9.8-HandOccNet [30]8.8-THOR-Net(我们的)10.726.3[42]第四十二话10.4-THOR-Net(我们的)10.023.7表3.在HO-3D(v2)(上表)和(v3)(下表)上与最先进的3D手形估计方法进行比较。显示的结果是以mm为单位的Procrustes对准和非对准误差。深度从粗到细网络的逐渐增加对于形状估计是有用的。为了证明将热图附加到大小为2048的特征向量作为初始粗到细图的选择,我们测试了其他四种不同的图输入方式。我们尝试使用估计的2D姿势或3D姿势,而不是使用热图。此外,我们尝试两种不同的特征向量大小(即,1024和4096)来测试模型的能力及其与结果的相关性从表4中所示的结果可以清楚地看出,热图表示以及大小为2048的特征向量产生了最佳的准确性。4.7. 织纹纸图8显示了由光度损失产生的逐顶点纹理值的质量。尽管有闭塞,该网络仍能够重建手部。毛皮,它设法捕捉到了一些文字细节和蓝色的书。有时,对象颜色的平滑效果会发生,如隐藏细节的牛奶瓶所示。此外,双手受到光照条件的影响,导致不同的肤色表4. 粗到细形状发生器和图形输入模态深度的消融研究。图8.使用光度损失估计的有纹理的手和对象的示例颜色. 对象5. 结论和未来工作在这项工作中,我们提出了THOR-Net从单目RGB帧中重建与对象交互的真实双手该网络由两个阶段组成:使用Keypoint RCNN的2D特征提取和使用由粗到细的GraFormer网络的3D重建为了获得形状的逐顶点纹理,我们使用自监督光度损失来训练网络.定量和定性评价表明,我们的粗到细网络在双手物体形状估计与以前的方法相比,有效性光度损失的定性结果表明,纹理估计的平滑效果,这表明,gests更多的未来研究。对于未来的工作,可以利用来自视频的时间约束来对可以改进重建的时空图进行建模。致谢这项工作得到了德国BMBF项目GreifbAR(GrantNr 16SV8732 ) 和 欧 盟 项 目 FLUENTLY ( Grant Nr101058680)的部分资助。1009引用[1] Mhd Rashed Al Koutayni , Vladimir Rybalkin , JameelMalik,Ahmed Elhayek,Christian Weis,Gerd Reis,Norbert Wehn,and Didier Stricker.实时节能手部姿势估计:案例研究。传感器,20(10),2020年。[2] Murad Almadani,Ahmed Elhayek,Jameel Malik,andDidier Stricker.基于图形的手对象网格和姿势重建与多模态输入。IEEE Access,2021年9月。[3] 放 大 图 片 作 者 : Samarth Brahmbhatt , ChengchengTang,Christopher D.查尔斯·特威格作者声明:JamesHays. 联系方式:具有物体接触和手姿势的抓握数据集。欧洲计算机视觉会议(ECCV),2020年。[4] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan,and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在2019年计算机视觉国际会议(ICCV)[5] Berk Calli,Arjun Singh,Aaron Walsman,SiddharthaSrini-vasa,Pieter Abbeel,and Aaron M.美元. ycb对象和模型集:走向操纵研究的共同基准。2015年国际先进机器 人 会 议 ( International Conference on AdvancedRobotics,ICAR)[6] Yu-WeiChao , WeiYang , YuXiang , PavloMolchanov,Ankur Handa,Jonathan Tremblay,YashrajS. Narang , Karl Van Wyk , Umar Iqbal , StanBirchfield,Jan Kautz,and Dieter Fox. DexYCB:用于捕获物体的手抓握的基准。在计算机视觉和模式识别(CVPR),2021。[7] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展,29,2016。[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。2018年。[9] Bardia Doosti、Shujon Naha、Majid Mirbagheri和DavidCrandall 。 Hope-net : A graph-based model for hand-object pose estimation. 在 计 算 机 视 觉 和 模 式 识 别(CVPR),2020年6月。[10] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词:用于大规模图像识别的变压器2021年。[11] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记,带有rgb-d视频和3d手部姿势注释。在计算机视觉和模式识别(CVPR),2018年。[12] 迈克尔·加兰和保罗·S·赫克伯特。使用二次误差度量的曲面第24届计算机图形学与交互技术年会集,1997年。[13] Shreyas Hampali,Mahdi Rad,Markus Oberweger,andVin- cent Lepetit.Honnotate:用于手部和对象姿势的3D注释的方法在计算机视觉和模式识别(CVPR),2020年。[14] Shreyas Hampali,Sayan Deb Sarkar,Mahdi Rad,andVin- cent Lepetit.关键点Transformer:解决具有挑战性的手和物体交互中的关节识别,以实现精确的3d姿态估计。在计算机视觉和模式识别(CVPR),2022年。[15] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。在计算机视觉和模式识别(CVPR),2020年。[16] 安娜·哈森,古尔·瓦罗尔,科迪莉亚·施密德,和伊凡·拉普捷夫。基于rgb视频的无约束关节手-物在3D视觉国际会议(3DV),2021年。[17] YanaHass on , Gu¨lVarol , DimitrisTzionas , IgorKalevatykh , Michael J.Black , Ivan Laptev , and CordeliaSchmid.学习手和操纵对象的关节重建在计算机视觉和模式识别(CVPR),2019年。[18] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。2017年国际计算机视觉会议[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别(CVPR),2016年。[20] 林煌、谭建超、孟晶晶、季柳、袁俊松。Hot-net:用于3D手部对象姿态估计的非自回归Transformer2020年第28届ACM国际多媒体会议论文集[21] 迪德里克山口金玛和吉米·巴。 Adam:随机最佳化的方法。国际学习代表大会(ICLR),2015年。[22] TaeinKwon,BugraTekin,JanStuühmer,FedericaBogo,andMarc Pollefeys.H2Q:用于第一人称交互识别的两只手操纵对象。在国际计算机视觉会议(ICCV),2021年。[23] Kevin Lin,Lijuan Wang,and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在计算机视觉和模式识别(CVPR),2021。[24] 刘少伟,姜汉文,徐佳瑞,刘思飞,王晓龙.具有时间交互的半监督3d手部物体姿态估计。在计算机视觉和模式识别(CVPR),2021。[25] Jameel Malik 、 Ibrahim Abdelaziz 、 Ahmed Elhayek 、Soshi Shimada 、 Sk Aziz Ali 、 Vladislav Golyanik 、Christian Theobalt和Didier Stricker。Handvoxnet:基于深度体素的网络,用于从单个深度图进行3D手部形状和姿势估计在计算机视觉和模式识别(CVPR),2020年。[26] Jameel Malik,Ahmed Elhayek,Sheraz Ahmed,FaisalShafait , MuhammadImranMalik , andDidierStricker.3dair-sig:一个使用多模式深度传感器实现空中签名的框架。传感器,18(11),2018年。[27] 贾米尔·马利克艾哈迈德·埃尔海耶克和迪迪埃·斯特里克whsp-net:一种弱监督的方法,用于从单个深度图像中恢复3d手部形状和姿势。传感器,19(17),2019年。[28] Jameel Malik、Soshi Shimada、Ahmed Elhayek、Sk AzizAli 、 Vladislav Golyanik 、 Christian Theobalt 和 DidierStricker。1010Handvoxnet++:基于体素神经网络的三维手形和姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),2021年。[29] 亚历山德罗·蒙托尼和保罗·科洛诺尼。PyMeshLab,2021年。[30] JoonKyu Park , Yeonguk Oh , Gyeongsik Moon ,Hongsuk Choi,and Kyoung Mu Lee. Handoccnet:遮挡鲁棒的3D手部网格估计网络。在计算机视觉和模式识别(CVPR),2022。[31] 钱能,王佳一,Franziska Mueller,Florian Bernard,Vladislav Golyanik和Christian Theobalt。HTML:一种用于三维手部重建和个性化的参数化手部纹理模型欧洲计算机视觉会议(ECCV),2020年。[32] Nikhila Ravi 、 Jeremy Reizenstein 、 David Novotny 、Taylor Gordon、Wan-Yen Lo、Justin Johnson和GeorgiaGkioxari。使用pytorch3d加速3d深度学习。2020年。[33] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统进展(NeurIPS),2015年第28卷。[34] Javier Romero、Dimitrios Tzionas和Michael J.黑色.具体化的手:建模和捕捉手和身体在一起。美国计算机学会图形学报,(Proc. SIG-GRAPH Asia),36(6),Nov.2017年。[35] Viktor Rudnev,Vladislav Golyanik,Jiayi Wang,Hans-Peter Seidel,Franziska Mueller, Mohamed Elgharib,and Christian Theobalt.Eventhands:来自事件流的实时神经3D手部姿势估计。2021年国际计算机视觉会议(ICCV)[36] Bugra Tekin , Federica Bogo , and Marc Pollefeys. H+O:统一的以自我为中心的三维手-物体姿势和交互识别。在计算机视觉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功