THOR-Net:基于Grformer的自监督双手与物体重建技术

PDF格式 | 1.28MB | 更新于2025-01-16 | 109 浏览量 | 0 下载量 举报
收藏
"THOR-Net:基于Grformer的自监督实双手和物体重建" THOR-Net是一种创新的深度学习模型,专为从单个RGB图像中进行真实感的双手和物体重建任务设计。这项技术融合了图卷积网络(GCN)、Transformer架构以及自我监督学习策略,以实现高精度的3D手部姿态和形状重建,同时还能重建与之交互的物体的形状。 在THOR-Net的体系结构中,首先通过KeypointRCNN从输入的单目RGB图像中提取2D手部关键点、特征图、热图和边界框。这些2D信息随后被转换为图的形式,以便GCN能够利用拓扑结构来捕获手部和物体的复杂相互作用。在重建阶段,THOR-Net包含两个主要分支:形状重建分支和姿态重建分支。 形状重建分支利用GraFormer,这是一个基于Transformer的新型网络,采用自底向上的策略来估计两只手和一个物体的3D网格。GraFormer能够有效地处理非刚性变形和复杂的几何结构,从而提供更精确的形状估计。另一方面,姿态重建分支同样利用GraFormer网络,但专注于恢复手部和物体的3D姿态。 为了进一步提高重建的质量和准确性,THOR-Net引入了一个自我监督的光度损失函数。这个损失函数直接回归每个手部网格顶点的真实感纹理,以确保重建的几何形状与实际观察到的视觉信息一致,从而增强纹理细节。 THOR-Net在HO-3D数据集上实现了手部形状估计的最新最优结果,优于ArtiBoost,平均误差降低至10.0mm。在双手和对象(H2O)数据集上,对于左手姿态估计的误差低于5mm,右手姿态误差小于1mm,表明其在双手中同时处理多个目标的能力。 由于其在手部和物体重建任务中的卓越性能,THOR-Net为AR和VR应用提供了强大的支持,例如个性化虚拟体验、人机交互、动作识别、人类行为分析和手势识别。代码和更多资源可在https://github.com/ATAboukhadra/THOR-Net获取,这为研究者和开发者提供了实现此类高级重建任务的工具。 THOR-Net的贡献在于它解决了现有的挑战,如从单个图像中准确重建手部和物体的三维形态,尤其是在存在复杂交互的情况下。通过集成GCN、Transformer和自我监督学习,该方法开辟了新的可能性,有望推动未来在手部追踪和交互式场景理解领域的进展。

相关推荐