THOR-Net:基于Grformer的自监督双手与物体重建技术
PDF格式 | 1.28MB |
更新于2025-01-16
| 109 浏览量 | 举报
"THOR-Net:基于Grformer的自监督实双手和物体重建"
THOR-Net是一种创新的深度学习模型,专为从单个RGB图像中进行真实感的双手和物体重建任务设计。这项技术融合了图卷积网络(GCN)、Transformer架构以及自我监督学习策略,以实现高精度的3D手部姿态和形状重建,同时还能重建与之交互的物体的形状。
在THOR-Net的体系结构中,首先通过KeypointRCNN从输入的单目RGB图像中提取2D手部关键点、特征图、热图和边界框。这些2D信息随后被转换为图的形式,以便GCN能够利用拓扑结构来捕获手部和物体的复杂相互作用。在重建阶段,THOR-Net包含两个主要分支:形状重建分支和姿态重建分支。
形状重建分支利用GraFormer,这是一个基于Transformer的新型网络,采用自底向上的策略来估计两只手和一个物体的3D网格。GraFormer能够有效地处理非刚性变形和复杂的几何结构,从而提供更精确的形状估计。另一方面,姿态重建分支同样利用GraFormer网络,但专注于恢复手部和物体的3D姿态。
为了进一步提高重建的质量和准确性,THOR-Net引入了一个自我监督的光度损失函数。这个损失函数直接回归每个手部网格顶点的真实感纹理,以确保重建的几何形状与实际观察到的视觉信息一致,从而增强纹理细节。
THOR-Net在HO-3D数据集上实现了手部形状估计的最新最优结果,优于ArtiBoost,平均误差降低至10.0mm。在双手和对象(H2O)数据集上,对于左手姿态估计的误差低于5mm,右手姿态误差小于1mm,表明其在双手中同时处理多个目标的能力。
由于其在手部和物体重建任务中的卓越性能,THOR-Net为AR和VR应用提供了强大的支持,例如个性化虚拟体验、人机交互、动作识别、人类行为分析和手势识别。代码和更多资源可在https://github.com/ATAboukhadra/THOR-Net获取,这为研究者和开发者提供了实现此类高级重建任务的工具。
THOR-Net的贡献在于它解决了现有的挑战,如从单个图像中准确重建手部和物体的三维形态,尤其是在存在复杂交互的情况下。通过集成GCN、Transformer和自我监督学习,该方法开辟了新的可能性,有望推动未来在手部追踪和交互式场景理解领域的进展。
相关推荐










cpongm
- 粉丝: 6
最新资源
- WebDrive v16.00.4368: 简易易用的Windows风格FTP工具
- FirexKit:Python的FireX库组件
- Labview登录界面设计与主界面跳转实现指南
- ASP.NET JS引用管理器:解决重复问题
- HTML5 canvas绘图技术源代码下载
- 昆仑通态嵌入版ASD操舵仪软件应用解析
- JavaScript实现最小公倍数和最大公约数算法
- C++中实现XML操作类的方法与应用
- 设计编程工具集:材料重量快速计算指南
- Fancybox:Jquery图片轮播幻灯弹窗插件推荐
- Splunk Fitbit:全方位分析您的活动与睡眠数据
- Emoji表情编码资源及数据库查询实现
- JavaScript实现图片编辑:截取、旋转、缩放功能详解
- QNMS系统架构与应用实践
- 微软高薪面试题解析:通向世界500强的挑战
- 绿色全屏大气园林设计企业整站源码与多技术项目资源